Текст
                    по коду свертки, а адреса остальных слов в группе — по
кодам связи.
В .информационно-поисковых системах наряду со сло-
варями слов применяются словари словосочетаний. Эти
словари обычно хранятся, в памяти машины в пословных
кодах и каждому словосочетанию ставится в соответст-
вие его номер. Количество слов в словосочетаниях может
быть различным. Соответственно этому пословные коды
словосочетаний имеют разную длину и .могут записы-
ваться в одной, двух и т. д. ячейках памяти ЭВМ.
Словосочетания могут упорядочиваться по различным
признакам: по длине кодов, по численным значениям ко-
’дов, по длине и по численным значениям кодоводновре-
менно и т. д. Для поиска в словаре могут применяться
способы, рассмотренные в гл. 5 (способ деления пополам,
fспособ разделителей и др.). Если состав словаря часто
изменяется, то наиболее удобным оказывается узловой
способ поиска. По этому способу словосочетания, содер-
жащие одинаковые коды слов, объединяются в- ассоциа-
тивные цепочки. Каждое словосочетание может входить
одновременно в несколько ассоциативных цепочек (по
числу слов, входящих в его состав), а общее число цепо-
чек определяется количеством-разных слов, встречаю-
щихся в словаре словосочетаний. В адресной части сло-
варя (см. рйс. 5.2) для каждого кода слова указывается
адрес его первого вхождения в словосочетание. Обраще-
ние к адресной части производится по сверткам кодов
слов. В качестве сверток могут быть выбраны, например,
п младших разрядов кода слова.
• Группы (узлы) адресных отсылок, представляющие
в памяти машины словосочетания, могут иметь разную
длину. Поэтому для обнаружения границ словосочетаний
.необходимо ввести разделительные знаки. В качестве
таковых могут выступать кодовые комбинации, отличные
от кодов адресных отсылок, или кодовые комбинации,
записываемые-в специально отведенные для этого участ-
ки ячеек памяти. Для удобства поиска в словаре рядом
с каждой группой адресных отсылок, представляющей
словосочетание, может записываться пословный код это-
го словосочетания.
94

Глава 7 ТОЧНЫЕ ПРОЦЕДУРЫ МОРФОЛОГИЧЕСКОГО АНАЛИЗА И СИНТЕЗА СЛОВ Морфологическая классификация слов При автоматическом переводе текстовых сообщений с русского языка на информационный возникает задача отождествления различных форм одного и того же слова и получения к ним грамматической информации. Эта задача может быть выполнена как путем морфологиче- ского анализа слов, так и без него. В последнем случае в словаре необходимо хранить все (или наиболее часто встречающиеся) формы слов. Принципы автоматического отождествления слов и их синтез с помощью словаря словоформ описаны в работе [24] и здебь не рассматри- ваются, В настоящей главе и гл. 8 основное внимание уделяется способам автоматического морфологического анализа и синтеза слов. Различные способы морфологического анализа раз- рабатывались в связи с задачей автоматического пере- вода текстовых сообщений с русского языка на иностран- ные или с иностранных языков на русский (см., например, работы [48, 62, 90, 133]). Мы проиллюстрируем идею морфологического анализа и синтеза русских слов на примере того алгоритма, который был разработан авто- ром совместно с Т. С. Белоноговой и А. К. Родионовой и проверен на ЭВМ. В результате морфологического анализа основы слов заменяются их порядковыми номерами по словарю и сопровождаются грамматической информацией, которую могут нести формы слов без учета окружения в тексте. Морфологический синтез слов является заключительным этапом процесса декодирования сообщений, записанных на информационном языке, в результате которого осу- ществляется формирование буквенного кода слова по номеру основы и сопровождающей его грамматической информации. В основу построения алгоритмов автомати- ческого морфологического анализа и синтеза положено разбиение всех слов на классы, определяющие характер изменения буквенного состава форм слов. Эти классы условно названы морфологическ ими. 95
Изменения форм слов могут носить различный ха- рактер. Они могут быть связаны как с изменением ос- новы слова, так и с изменением его окончания. Измене- ние буквенного состава основ имеет место, например, в следующих парах форм слов: сижу—сидишь, шел — шли, тренировка— тренировок, нес — несли, кто—кого, время — времени, судно—-суда, человек—люди. Измене- ние окончаний является основным способом образова- ния различных форм слов. В русском языке оно исполь- зуется как самостоятельно, так и в сочетании с измене- нием основ слов. По характеру изменения буквенного состава все ос- новы слов могут быть отнесены к одному из следующих четырех типов: тип I— неизменяемые основы слов; тип II— основы слов, 7 которых имеет место чередова- ние гласных; тип III — основы слов, у которых имеет место чередование согласных; тип IV — изменяемые основы слов, не'отнесенные к типам II и III. К основам типа IV относятся, в частности, супплетивные формы слов (например, следующие формы слов: кто, кого, кем, что, чего, он, ему и др.). ' - Морфологические классы слов делятся на два вида: 1) основоизменительные классы, характеризующие систе- му изменения основ, и 2) - флективные классы слов. Флективные классы изменяемых слов выделялись на ос- нове анализа их синтаксической функции и систем падеж- ных,. личных и родовых окончаний. Классы неизменяе- мых слов выделялись только по синтаксическому принци- пу. Список флективных классов слов приведен в табл. 7:1, а распределение частот их появления в текстах и в сло- варях— в приложении 1. По своей синтаксической функции изменяемые слова объединены в следующие группы: 1 j существительные; 2) прилагательные; 3) глаголы в личной форме; 4) гла- голы прошедшего времени, краткие прилагательные и причастия; 5) количественные числительные. Группа «существительные», в свою очередь, состоит из несколь- ких подгрупп, выделенных по признакам рода и одушев- ленности (для существительных мужского - и женского рода). В каждсщ группе и подгруппе слова распределе- ны по флективным классам. Флективный класс может быть охарактеризован либо некоторой системой признаков, либо словом-представи- телем, которое является носителем этих признаков 96
ФЛЕКТИВНЫЕ КЛАССЫ СЛОВ А. Существительные Таблица 7.1 № п/п. Слово-представитель Окончания: 1) им. пад., ед. число, 2) тв. пад., ед. число, 3) им. пад., мн. число, 4) род. пад., мн. число Примечание Существительные мужского рода неодушевленные 001 002 003 телефон тираж огонь +*, ом, ы, ов +, ом, и, ей ь, ем, и, ей См. п. 012 004 перебой й, ем, и, ев См. п. 005 005 санаторий й, ем, и, ев Основы на бук- ву „и* 006 бланк +, ом, и, ов 007 сапог —К» ОМ, И, 4“ 010 лес -j-, ом, а, ов 011 колодец +, ем, ы, ев 012 путь (класс состоит из — одного слова) 013 край й, ем, я, ев 014 брус 4-, ом, я, ев 015 глаз +, ом, а, + 016 зародыш +, ем, и, ей 017 волос ом, ы, 4- 020 лагерь ь, ем, я, ей Существительные мужского рода одушевленные 021 кузнец 4-, ом, ы, ов 022 солдат 4", ОМ, Ы, + 023 сосед 4-, ом, и, ей См. п. 024. 024 врач +, ом, и, ей Основы на ж. 025 пролетарий й, ем, и, ев ч, ш, щ 026 воробей ей, ем, и, ев 027 конь ь, ем, и, ей 030 учитель ь, ем, я, ей 031 сапожник 4-. ом, и, ов 032 испанец +, ем, ы, ев 033 юноша а, ей, и, ей 034 мужчина а, ой, ы, 4" 035 судья я, ей, и, ей 036 товарищ 4-, ем, и, ей 037 гражданин -j-, ом, е, 4” 040 профессор 4-, ом, а, ов 041 муж +, ем, я, ей 042 Иванов 4-, ым, ы, ых 043 сын 4~, ом, я, ей ♦ Символ обозначает нулевое окончание. z-Ш ад
Продолжение табл. 7.1 № п/п. Слово-представитель Окончания: 1) им. пад., ед. число, 2) тв. над., ед. число, 3) им. пад., мн. число, 4) род. пад., мн. число Примечание Существительные женского рода одушевленные 044 женщина а, ой, ы, -J- 045 переводчица а, ей, ы, + 046 нутрия я, ей, и, й Основы на бук- ву »и“ . 047 швея я, ей, и, й См. п. 046 ч 050 цапля я, ей, и, ь 051 санитарка а, ой, и, + С - 052 мышь ь, ю, и, ей 053 Иванова а, ой, ы, ых Существительные женского рода неодушевленные 054 речь ь, ю, и, ей Основы на ж, ч, ш, щ. 055 грань ь, ю, и, ей См. п. 054 056 колба а, ой, ы, + 057 задача а, ей, и, + 060 заготовка а, Ой, и, 4- 061 линия я, ей, и, й Основы на бук- ву „и“ 062 галерея я, ей, и, й См. п. 061 063 земля я, ей, и, ь 064 эскадрилья я, ей, и, ий 065 статья я, ей, и, ей 066 башня я, ей, и, + 067 улица а, ей, ы, + Существительные среднего рода 070 место о, ом, а, + 071 облако о, ом, а, ов 072 поле е, ем, я, ей 073 сомнение е, ем, я, й 074 жилище е, ем, а, 075 перо о, ом, я, ев 076 время я, ем, а, + 077 побережье е, ем, я, ий 100 колено о, ом, и, ей 101 очко о, ом, и, ов 102 ружье е, ем, я, ей 98
Ё. Прилагательные п/п. Слово-представитель Окончания: Г) им. п.» муж. р., ед. ч.» 2) им. п.» жен. р., ед. ч.» 3) род. п.» муж. р.» ед. ч.» 4) им. п., множ. ч. 103 главный ый, ая, ого, ые 104 передний ий, яя, его, ие 105 хороший ий, ая, его, ие 106 легкий ий, ая, ого, ие 107 .родовой ой, ая, ого, ые 110 плохой ой, ая, ого, ие 111 третий ий, я, его, и т ’ этот, сам +, а, ого, и 113 мой, твой, свой й, я, его, и 114 наш, ваш +> а, его, и 115 весь ь, я, его, е В. Глаголы в личной форме № п/п. Слово-представитель Окончания 1, 2 и 3-го лица ед. ч. и 3-го лица мн. ч. 116 делать ю, ешь, ет, ют 117 строить К/, ИШЬ, ИТ, ят 120 писать у, ешь, ет, ут 121 стучать у, ишь, ит, ат 122 бежать у, ишь, ит, ут 123 хотеть у, ешь, ет, ят 124 зависеть у, ишь, ит, ят Г. Глаголы прошедшего времени, краткие прилагательные и причастия № п/п. Слово-представитель Окончания ед. и множ, числа 125 ехал (глагол) +» о, а, и 126 силен (прилагательное) +. о, а, ы 127 присущ (прилагательн.) +. е, а, и 130 краток (прилагательн.) +. о, а, и ' Д. Количественные числительные № п/п. Слово-представитель 131 132 два, две три 7 99
Продолжение табл. 7.1 № п/п. Слово-представитель 133 134 135 136 137 140 четыре двое, трое четверо, пятеро и т. д. прочие количественные числительные (пять, шесть, семь и др., изменяющиеся, как слово „мишень*) столько, сколько оба, обе Неизменяемые слова № п/п. Наименование класса слов 143 144 145 146 147 150 151 152 153 154 155 156 157 160 161 162 163 164 Модальные слова: можно, нужно, необходимо и т. д., не- изменяемые глаголы Неопределенная форма глагола Неизменяемые существительные мужского рода Неизменяемые существительные женского рода Неизменяемые существительные среднего рода Неизменяемые существительные множ, числа Неизменяемые прилагательные Деепричастие, наречие, сравнительная степень прилагатель- ного Союзы Частицы, вводные слова, междометие Предлог (род. пад.) Предлог (дат. пад.) Предлог (вин. пад.) Предлог (твор. пад.) Предлог (предл. пад.) Предлог (род., твор. пад.) Предлог (вин., твор. пад.) Предлог (вин., предл. пад.) (табл. 7.1). Признаками, по которым изменяемое слово может быть отнесено к определенному классу, являются: 1) принадлежность к одной из синтаксических групп (или подгрупп); 2) система окончаний (тип словоизме- нения). Определение принадлежности изменяемого слова к синтаксической группе или подгруппе обычно не вы- зывает затруднений, так как в основу принятого здесь разделения на группы и подгруппы положена традицион- 100
йая классифйкй-цйй слов. Следует лишь учитывать, что наряду с полными прилагательными к группе «прилага- тельные» отнесены также полные причастия, порядковые числительные, субстантивированные прилагательные, а также количественное числительное «один». При выде- лении окончания слова возвратные частицы «ся» и «сь» и «внутренний» мягкий знак (мягкий знак, стоящий между основой и ненулевым окончанием слова) опуска- ются. Список различных окончаний слов приведен в табл. 7.2. Таблица 7.2 Список окончаний слов 01—ами 21—ат 41—мя 61—ям 02—его 22—ах 42—о в 62—ят 03—еми 23—ая 43—ое 63—ях 04—ему 24—ев 44—ой 64—яя 05—емя 25—ее 45—ом 65—р (нуль) 06—ете 26—ей 46—ою 66—а 07—ешь 27—ем 47—ум 67—е 10—ими 30—ет 50—ут 70—и 11 —ите 31—ех 51—ух 71—й 12—ишь 32—ею 52—ую , 72—0 13—ого 33—ие 53—ые 73—у 14—ому 34—ий 54—ый 74—ы 15—умя 35—им 55—ым 75—ь 16—ыми 36—ит 56—ых 76—ю 17—ями 37—их 57—ют 77—я 20—ам 40—ми 60—юю Для характеристики системы окончаний слова нет не- обходимости перечислять окончания всех его форм. Обычно достаточно сделать это лишь для нескольких типичных форм. В качестве таких типичных форм для группы «существительные» приняты формы именитель- ного и творительного падежей единственного числа и именительного и родительного падежей множественного числа; для группы «прилагательные»—формы имени- тельного падежа единственного числа мужского и жен- ского рода^ родительного падежа единственного числа мужского рода и именительного падежа множественного числа; для группы «глаголы в личной форме» — формы первого, второго и третьего лица единственного числа и третьего лица множественного числа. В группе «глаголы прошедшего времени, краткие прилагательные и при- частия» окончания указаны для всех форм единствен- 101
ного и множественного числа. Здесь флективный класё определяется с помощью системы окончаний и указания на принадлежность к одной из частей речи (глаюл, при- частие, прилагательное). Флективные классы группы «количественные числительные» характеризуются только словами-представителями. Некоторые классы существительных мужского и жен- ского рода имеют одинаковые окончания во всех фор- мах, принятых в качестве типичных, хотя другие их формы не совпадают. Иллюстрацией этому могут слу- жить пары слов: огонь — путь, перебой — санаторий, со- сед— врач, нутрия — швея, грань—речь, линия—галерея. Дополнительным признаком, необходимым для различе- ния классов, здесь может служить информация о конеч- ной букве основы слова, а для классов со словами-пред- ставителями «огонь» и «путь» — указание на то, что слово «путь» является единственным представителем класса (табл. 7.1). Общий порядок морфологического анализа и синтеза слов Морфологический анализ и синтез слов производит- ся с помощью словаря основ и ряда вспомогательных таблиц. В словарь включены основы простых и слож- ных слов без внутренней флексии. Для сложных слов с внутренней флексией типа «слесарь-инструменталь- щик», «завод-изготовитель» и т. п. в словаре приведены лишь основы простых слов, входящих в состав этих сложных слов. Если слово имеет несколько форм основ, то в словарь, как правило, были включены все формы основ слов. Исключение составляют лишь изменяемые основы типа II (основы с чередованием гласных), ко- торые представлены в словаре только в одной из воз- можных форм, принятой за каноническую. Каждой ос- нове словаря ставится в соответствие сочетание кода основоизменительного класса и кода флективного клас- са, а омонимичной основе—серия сочетаний таких ко- дов. Фрагменты словаря основ слов приведены в прило- жении 2. Морфологический анализ слова начинается с его флективного анализа. Флективный анализ слова произ- водится с целью правильного выделения его основы, замены буквенного состава основы ее порядковым номе- ром по словарю и определения грамматической инфор- 102
мации к слову. После флективного анализа номера основ типа III и IV заменяются на номера канонических форм основ (в частности, это может быть замена на тождественный номер, если анализируемое слово имело каноническую форму основы). Понятия канонической (главной) и вариантной формы основы слова, а также процедуры замены ва- риантных форм основ на канонические потребовалось ввести в связи с необходимостью отождествлять раз- личные формы слов на последующих этапах анализа текстов. Каноническая форма Для основ типа II, III, IV будет определена ниже. В процессе флективного анализа основа слова мо- жет не найтись в словаре. Это возможно в тех случаях, когда анализируемое слово имеет основу типа II в ва- риантной форме или является сложным словом с внут- ренней флексией или когда основа анализируемого сло- ва не представлена в словаре ни в канонической, ни в вариантной форме. До окончания флективного анали- за слова обычно неизвестно, какой из трех перечислен- ных случаев имеет место. Вначале анализируемое сло- во проверяется на возможность наличия вариантной формы основы типа II. Если эта возможность вероятна, то вариантная форма основы заменяется на канониче- скую и .проверяется правильность этой замены с по- мощью словаря основ. При положительном результате проверки определяется номер основы и грамматической информации к слову. Если анализируемое слово не содержит в своем со- ставе вариантной формы основы типа II, то оно прове- ряется на сложность (по наличию дефиса между частя- ми сложного слова). Сложное слово расчленяется на составляющие его простые слова, которые затем под- вергаются флективному анализу. Основы некоторых простых и сложных слов могут . быть не найдены в словаре и после выполнения всех операций морфологического анализа. Тогда буквенные коды таких слов переносятся в массив результатов анализа вместе с сопровождающими их признаками по- буквенного кодирования. Морфологический синтез слов в первом приближе- нии можно рассматривать как процесс, обратный по от- ношению к их анализу. Однако при морфологическом синтезе не возникают трудности, аналогичные трудно- ЮЗ
стям, связанным с отождествлением различных буквен- ных образов слов и разрешением омонимии основ слов. Кроме того, исходные данные для морфологического • синтеза слов отличаются от результатов морфологиче- ского анализа тем, что здесь номер основы слова сопро- вождается однозначной морфологической информа- а цией. Поэтому синтез форм слов значительно проще их анализа. Синтез форм неизменяемых слов сводится к простой выборке из словаря буквенного состава их основ. В не- которых случаях к последнему приформировывается ( возвратная частица. Формы изменяемых слов состав- ляются из буквенных кодов их основ и окончаний. В слу- чае необходимости к основе слова приформировывается I «внутренний» мягкий знак, а к окончанию—возвратная частица «ся» или -«сь». Кроме того, канонические фор- < мы основ типа II, III, IV заменяются на вариантные. Необходимость замены канонической формы основы на вариантную определяется по номеру основы и сопро- < вождающей его грамматической 'информации. Флективный анализ и синтез слов Флективный анализ изменяемых слов производится с помощью морфологической таблицы с двумя входами. * Строкам этой таблицы поставлены в соответствие по- рядковые номера окончаний, а столбцам—номера флек- । тивных классов слов. На пересечении строк и столбцов морфологической таблицы для каждого фактически воз- можного сочетания номера флективного класса и номе- ра окончания изменяемого слова указывается номер со- ответствующей морфологической информации. | В качестве морфологической информации для син- таксического класса слов «существительные» указывается число и падеж, для класса «прилагательные» — род, чис- ло и падеж, для класса «глаголы в личной форме» — число и лицо, для класса «глаголы прошедшего вре- мени, краткие прилагательные и причастия» — род и чис- ло, для класса «количественные числительные» — падеж. Морфологическая информация отдельных форм слов, <; рассматриваемых вне контекста, обычно бывает много- значна. Поэтому им могут быть поставлены в соответст- вие наборы упомянутых 'выше морфологических харак- теристик. Возможные наборы морфологических харак- теристик для различных синтаксически^ классов слов
СВеДейы в табл. 7.3, гдё каждому набору присвоен оп* ределенный (порядковый номер. Распределение частот появления различных наборов в текстах и в словарях приведены в табл. 3 'приложения 1. В табл. 7.3 грамматическая информация представ- лена в закодированном сиде. Здесь используются сле- дующие условные обозначения. Для синтаксического класса «существительные» первая цифра в каждой паре Таблица 7.3 ГРАММАТИЧЕСКАЯ ИНФОРМАЦИЯ К СЛОВОФОРМАМ (для изменяемых слов) I. Существительные 01—11; 21—14; 02—11, 14; 22—15; 03—11, 14, 16; 23—15, 22; 04—11, 14, 22; " 24—15, 22,. 24; 05—11, 22, 24; 25—15, 23; 06—12; 26—16; 07—12, 13, 15, 16; 27—16, 21; 10—12, 13, 16; 30—16, 21, 24; 11—12, 13, 16, 21; 31—21; 12—12, 13, 16, 21, 24; 32—21, 24; 13—12, 14; 33—22; 14—12, 14, 21; 34—22, 24; 15—12, 21; 35—22, 24, 26; 16—12, 21, 24; . 36—23; 17—13; 37—25; / 20—13, 16; 40—26 И. Прилагательные 41—11, 14; 51—21, 24; 42—11, 14 , 32 , 33 , 35 , 36; 52—21, 24 , 41, 44; 43—12, 14, 22; 53—31; 44—13, 23; 54—32, 33, 35, 36; 45—15, 16, 25, 26, 43; 55—34; 46—15, 22; 56—41, 44; 47—15, 25, 43; 57—42, 44, 46; \ 50—16 , 26; 60—45 III. Глаголы в личной форме 61—1; 63—3; 65—5; 62—2; 64—4; 66—6 IV. Глаголы прошедшего времени, краткие прилагательные 67—1; 70—2; 71—3; 72—4 V. Количественные числительные 73-1, 4; 75—2, 4, 6; 77-5 74—2, 3, 6; 76—3; 105
восьмеричных цифр указывает На грамматическую ка- тегорию числа, вторая—на падеж слова. При этом циф- ра 1 на первом месте означает единственное число, цифра 2—множественное число. Цифры 1, 2, 3, 4, 5, 6, стоящие на втором месте, обозначают соответственно именительный, родительный, дательный, винительный, творительный и предложный .падежи. Последователь- ность пар восьмеричных цифр-описывает случаи много- значности информации о формах слов. Для синтаксического класса «прилагательные» пер- л вая цифра в каждой паре восьмеричных цифр обознача- ет род и число, а вторая—падеж слова. Цифра 1 на первом месте означает, что прилагательное имеет фор- му мужского рода единственного числа, цифра 2 яв- ляется признаком среднего рода единственнЬго числа, цифра 3 — признаком женского рода единственного чис- ла; цифра 4 — признаком множественного числа. Паде- жи прилагательных обозначаются так же, как и падежи существительных. Морфологическая информация слов, принадлежа- щих к синтаксическим классам «глаголы в личной фор- ме», «глаголы прошедшего времени, краткие прилага- тельные и причастия», «количественные числительные», обозначается в табл. 7.3 одной цифрой, а в случае многозначности—последовательностью цифр. При этом для синтаксического класса «глаголы в личной форме» цифры 1, 2, 3 обозначают первое, второе и третье лицо единственного числа, а цифры 4, 5, 6—первое, второе и третье лицо множественного числа. Для синтаксиче- ского класса «глаголы прошедшего времени, краткие прилагательные и причастия» цифры 1, 2, 3 обозначают формы мужского, среднего и женского рода единствен- ного числа, а цифра 4—форму множественного числа. Формы слов синтаксического класса «количественные числительные» характеризуются только падежом, кото- рый кодируется так же, как и у существительных и при- лагательных. Двумерная морфологическая таблица содержит мно- го пустых клеток. Поэтому при ее линейной записи сле- дует .принимать специальные меры для экономии места в запоминающем устройстве ЭВМ. Один из возможных способов линейной записи морфологической таблицы иллюстрирует табл. 7.4. Здесь каждому номеру класса (см. подчеркнутые числа) поставлен в соответствие 106
МОРФОЛОГИЧЕСКАЯ ТАБЛИЦА Т а б л и ц а 7.4 001 002 003 004 005 006 007 010 — — ' — —* 01—37 01-37 17—37 17—37 17—37 01—37 01—37 01—37 20-36 20—36 26—33 24—33 24—33 20—36 20—36 20—36 22—40 22—40 27—22 27—22 27—22 22—40 22—40 22—40 42—33 26—33 61—36 61—36 61—36 42—33 45—22 42—33 45—22 45—22 63—40 63—40 63—40 45—22 65—04 45—22 65—02 65—02 67—26 67—26 70—30 65—02 66—06 65—02 66—06 66—06 70—32 70—32 71—02 66—06 67—26 66—16 67—26 67—26 75—02 71—02 76—17 67—26 70-32 67—26 73—17 70—32 76—17 76—17 77—06 70—32 73—17 73—17 74—32 73—17 77—06 77—06 — 73—17 — — ОН 012 013 014 015 016 017 020 — - — — " — — — 01—37 17—37 . 17—37 17—37 01—37 01—37 01—37 17—37 20—36 26—33 24—33 24—33 20—36 20—36 20—36 26—33 22—40 27—22 27—22- 45—22 22—40 22—40 22—40 27—22 24—33 61—36 61—36 61—36 45—22 26—33 45 -22 61—36 27—22 63—40 63—40 63—40 65—04 27—22 65—04 63—40 65—02 70—12 67—26 65—02 66-16 65—02 66—06 67—26 •66—06 75-02 71—02 66—06 67—26 66-06 67—26 75—02 67—26 — 76—17 6*7—26 73—17 67—26 73—17 76—17 73—17 — 77—16 73—17 ' 70—32 74—32 77—16 74—32 — 77—32 — 73—17 — — 021 022 023 024 025 026 027 030 — — 01—37 01—37 17—37 01—37 17—37 17—37 17—37 17—37 20—36 20—36 26—34 20—36 24—34 24—34 26—34 26-34 22—40 22—40 45—22 22—40 27—22 26—01 27—22 27—22 42—34 45—22 61—36 26—34 61—36 27—22 61—36 61—36 45—22 65—05 63—40 45—22 63—40 61—36 63—40 63—40 65—01 66—13 65—01 65—01 70—27 63—40 67—26 67—26 66—13 67—26 66—13 66—13 71—01 67—26 70—31 75—01 67—26 73—17 67—26 67—26 76—17 70—31 75—01 76—17 73—17 74—31 70—31 70—31 77—13 76—17 76—17 77—14 74-31 — 73—17 73—17 — 77—13 77—13 — - 031 032 033 034 035 036 037 040 — - — - 01-37 01—37 01—37 01—37 17—37 01-37 01—37 01—37 20—36 20—36 20—36 20—36 26—24 20—36 20—36 20-36 22—40 22—40 22—40 22—40 61—36 22—40 22—40 22—40 42—34 24—34 26—24 44—22 63—40 26—34 45—22 42—34 45—22 27—22 66—01 65—34 67—20 27—22 65—05 45—22 65—01 65—01 67—20 66-01 70—15 65-01 66—13 65—01 66—13 66—13 70—15 67—20 76—21 66—13 67—27 66—14 67—26 67—26 73—21 73—21 77—01 67—26 73-17 67—26 70—31 73—17 — 74—15 —. 70—31 — 73—17 73—17 74—31 —— — 73—17 — 107
Продолжение табл. 7.4 041 042 043 044 045 046 047 050 — — ' " — 17—37 16—37 17—37 01—37 01—37 17—37 17—37 17-37 26—34 55—25 26—34 20—36 20—36 26—22 26—22 26—22 27—22 56—35 45—22 22—40 22—40 61—36 61—36 61—36 $ 61—36 65—01 61—36 44—22 26—22 63—40 63—40 63—40 63—40 66—13 63—40 65—34 65-34 70—11 67—20 67—20 65—01 67-26 65—01 66—01 66—01 71—34 70—15 70—15 66—13 73—17 66—13 67—20 67—20 76—21 71—34 75—34 67—26 74—31 67—26 73—21 73—21 77—01 76—21 76-21 73-17 — 73—17 74—15 74-15 —— 77—01 77—Л1 77—31 — 77—31 — — — . — — 051 052 053 054 055 056 057 060 — — — — 01—37 01—37 16—37 01—37 17—37 01—37 01—37 01—37 20—36 20—36 44—07 20—36 26—33 20—36 20—36 20—36 22—40 22—40 55—36 22—40 61—36 22—40 22—40 22—40 44—22 26-34 56—35 26—33 63—40 44—22 26—22 44—22 65—34 70—11 66—01 70—12 70—12 65-33 65—33 65—33 66—01 75—02 73—21 75—02 75-02 66—01 66—01 66—01 67—20 76—22 74—31 76—22 76—22 67—20 67—20 67—20 70—15 — 73—21 70—16 70-16 73—21 — — — — 74—16 73—21 73—21 061 062 063 064 065 066 067 070 — — — — — — - 17—37 17—37 17—37 17—37 17—37 17—37 01—37 01—37 26—22 26—22 26—22 26—22 26—23 26—23 20—36 20—36 61—36 61—36 61—36 34—33 61—36 61—36 22—40 22—40 63—40 63—40 63-40 61—36 63-40 63—40 26—22 45—22 70—12 67—20 67—20 63—40 67—20 65—33 65—33 65—33 71—33 70—16 70—16 67—20 70—16 67—20 66—01 66—16 76—21 71—33 75—33 70—16 76—21 70—16 67—20 67—26 77—01 76—21 76—21 76—21 77—01 76—21 73—21 72—02 1 77-01 77—01 77—01 — 77—01 74—16 73—17 071 072 073 074 075 076 077 100 — — . — —— — 01—37 17—37 17—37 01—37 17—37 01—37 17—37 17—37 20—36 26—33 27—22 20—36 24—33 20—36 27—22 26—33 22—40 27—22 61—36 22—40 45—22 22—40 34—33 45—22 42—33 61—36 63—40 27—22 61—36 27—22 61—36 61—36 45—22 63—40 67—02 65—33 63—40 65—33 63—40 63—40 66—16 67—03 70—26 66—16 66—06 66—32 67—03 66—06 67—26 76—17 71—33 67—03 67—26 70—10 76—17 ' 67—26 ( 72—02 77—16 76—17 73—17 72—02 77—02 77—16 70—32 73—17 — 77—16 .— 73—17 — — 72—02 77—32 —— — 73—17 108 101 102 103 104 105 Продолжение табл. 7.4 106 107 ио 01—37 17—37 13—43 02—43 02—43 10—60 13—43 10—60 20—36 26—33 14—44 04—44 04—44 13—43 14—44 13—43 22—40 27—22 16—60 10—60 10—60 14—44 16—60 14—44 42—33 61—36 23-53 25—51 23—53 23 -53 23—53 23—53 45—22 63—40 43—51 26—54 25—51 33—56 43—51 33—56 66—06 67—03 44—54 27—50 26—54 34—41 44—42 35—47 67-26 76—17 45—50 33-56 27—50 35—47 45—50 37—57 70—32 77—16 52—55 34—41 33—56 37—57 53—56 43—51 72—02 1 53—56 35—47 34—41 43—51 55—47 44—42 73—17 .— 54—41 37—57 35—47 44—54 56—57 45—50 — —— 55—47 60—55 37—57 45—50 52—55 52—55 56-57 64—53 52—55 52-55 •—> П1 112 113 114 115 116 117 120 02—43 10—60 02—43 02—43 02—43 06—65 11—65 06—65 04—44 13—43 04—44 04—44 03-60 07—62 12—62 07—62 10—60 14—44 10—60 10—60 04—44 27—64 35—64 27—64 26—54 35—47 26—54 26—54 26—54 30—63 36—63 30—63 27—50 37—57 27—50 27—50 27—45 57—66 62—66 50—66 34—41 44—54 35—47 35—47 31—57 76—61 76—61 73—61 35—47 45-50 37—57 37—57 67—52 - - — 37—57 65—41 67—51 65—41 75—41 67—51 66-53 70—56 66—53 76—55 — 70—56 70—56 71—41 67—51 77—53 1 - 76—55 72—51 76—55 70-56 . - , 77-53 73-55 77—53 73-55 - » " — — ——• 121 122 123 124 . 125 126 127 130 — 1 ' ' — — 11—65 11—65 07—62 11-65 65—67 65-67 65—67 65—67 12—62 12—62 11-65 12—62 66—71 66—71 66—71 66—71 21—66 35—64 30—63 35—64 70—72 72—70 67—70 70—72 35—64 36—63 35—64 36—63 72—70 74—72 70—72 72—70 36—63 50—66 62—66 62—66 - 73—61 73—61 73—61 73—61 — — 131 132 133 134 135 136 137 140 ;,r. - — 15—77 05—77 27—76 10—77 16—77 70—74 10—77 10—77 47—76 27—76 31—75 35—76 55—76 75—73 35—76 35—76 51—75 31—75 41—77 37—75 56—75 76—77 37—75 37—75 66—73 70—73 67—73 67—73 72—73 — 72—73 65—78 6^—73 - - -— —- — — — — — 109
столбец пар чисел, разделенных тире. Число, стоящее в каждой паре чисел слева от тире, является номером , окончания (по табл. 7.2), а число, стоящее справа от тире—номером морфологической информации (по табл. 7.3), соответствующей сочетанию номера флективного класса и номера окончания слова. Общее количество пар чисел в табл. 7.4 равно количеству непустых кле- ток двумерной морфологической таблицы. При известном флективном классе и окончании сло- ва его флективный анализ может быть сведен к выбор- ке информации из табл. 7.2, 7.3, 7.4 в следующем по- рядке. Сначала по табл, 7.2 буквенный код окончания заменяется его номером. Затем по номеру флективного класса и номеру окончания из табл. 7.4 выбирается но- мер морфологической информации о слове. Наконец, с помощью табл. 7.3 номер морфологической информации заменяется соответствующим набором морфологических характеристик. Приведем пример флективного анализа слов. Пусть требуется проанализировать формы слов «тираж», «стола», «переднего», «вы- ступала», которые принадлежат к флективным классам 002, 001, 104, 125 и имеют окончания «+» (нуль), «а», «его» и «а» соответ- ственно. Заменив по табл. 7.2 буквенные коды окончаний на их номера 65, 66, 02, 66, входим в табл. 7.4, и для сочетаний номеров классов и номеров окончаний (002, 65), (001, 66), (104, 02), (125, 66) опре- деляем номера 02, 06, 43, 71 наборов морфологической информации. По' табл. 7.3 находим, что морфологическая информация к слову «тираж» определяется набором 11, 14 (именительный и винительный падеж единственного числа), к слову «стола» — набором 12 (роди- тельный падеж единственного числа), к слову «переднего» — набо- ром: 12, 14, '22 (родительный и винительный падеж мужского рода и родительный падеж среднего рода единственного числа) и, нако- нец, к слову «выступала» — набором, состоящим из одной цифры 3 .-(женский род, единственное число). \ - Номер флективного класса основы определяется пос- ле ее выделения из состава анализируемого слова. Чле- нение слова производится путем последовательного отделения его конечных букв и поиска сочетания от- деленных букв в списке окончаний. Если оказывается, что сочетание отделенных букв содержится в списке окончаний, то начальная часть слова ищется в словаре основ. При совладении начальной части слова с одной из основ словаря определяется номер совпавшей основы и номер ее флективного класса или, для омонимичных; основ, сочетание номеров флективных классов. Это 110
г возможно благодаря тому, что, как указывалась выше, . " каждой основе словаря поставлен в соответствие номер флективного класса, а для омонимичных основ указы- ч вается сочетание номеров флективных классов (приме- $ ром омонимичной основы является основа «осмотр», вхо- дящая в состав форм двух различных слов — «осмотр» и «осмотреть»). Совпадение начала слова с одной из основ слова- ря, а его конца с одним из окончаний возможно и при , [ неправильном членении слова. Примером могут слу- j А жить формы слов «знаков» и «управляем» с основами '/' «знак» и «управля». Эти формы слов могут совпасть < с основами «знаков» и «управляем» слов «знаковый» ‘ и «•управляемый» и неправильно расчлениться на осно- вы «знаков» и «управляем» и нулевые окончания. По- этому требуется проверка правильности членения слова Правильность членения слова определяется по мор- фологической таблице путем проверки найденных осно- вы И окончания слова на совместимость. Основа и окон- > чание слова считаются совместимыми, если клетка морфологической таблицы, соответствующая номеру > флективного класса и номеру окончания слова, не пуста (или, применительно к структуре табл. 7.4, если номер окончания слова содержится в левой части столбца пар чисел, соответствующего номеру флективного класса). В противном случае основа и окончание несовместимы и следует продолжать поиск правильного членения сло- ва. При омонимии основ на совместимость проверяются все возможные сочетания признаков «флективный класс» и «окончание», полученные в результате анали- за слова. Проверка основы и окончания слова на совмести- мость позволяет в основном преодолеть трудности мор- фологического анализа, связанные с омонимией основ слов. Однако при этом остается неразрешенной такая омонимия основ слов, которая может приводить к сов- падению некоторых форм различных слов. Например, у слов «техник» и «техника» совпадают несколько форм единственного и множественного числа, и вне контекста по одной форме слова нельзя определить, о каком слове идет речь. Такого рода омонимия может быть оазрешена только средствами синтаксического анализа, а в некоторых случаях потребуется и семантический анализ контекста. Поэтому при морфологическом ана- 111
ЛйЗе йеобходимо сохранять вое возможные классы и на- боры морфологической информации омонимичных сло- воформ. Описанный выше процесс членения на основу и окон- чание применим к словам, не имеющим в своем составе возвратной частицы и мягкого знака между основой и окончанием. Наличие одного из этих элементов или обоих одновременно несколько осложняет процесс чле- нения слова, из-за необходимости их обнаружения и вы- деления из состава основы или окончания. При этом обнаружение возвратной частицы «ся» или «сь» отме- чается признаком 'возвратности, а 'внутренний мягкий знак исключается из состава слова. Включение в состав слова возвратной частицы вле- чет за собой изменение его синтаксической роли в пред- ложении и обычно придает ему новый смысловой отте- нок (сравни слова «оборонять—обороняться», «управ- ляющий— управляющийся», «пытал — пытался»). Есте- ственно поэтому рассматривать возвратную частицу как составную часть основы слова с внутренней флек- сией (с внутренним окончанием). Чтобы отличить осно- ву слова с возвратной частицей от основы слова без возвратной частицы, <к порядковому номеру основы, по- лученному по словарю, прибавляется некоторое посто- янное число. Величина этого постоянного числа должна быть выбрана такой, чтобы результирующее число не совпадало ни с одним номером словарной основы. С этой целью в код номера основы слова можно ввести дополнительный разряд и отмечать цифрой «1» наличие признака возвратности. Результатом разрешения омонимии основы слова является выделение из серии флективных классов того класса, который соответствует условиям контекста. Этот результат, как и факт наличия возвратной частицы, можно отображать в номере основы слова. Для этого вводят в код номера основы два дополнительных двоич- ных разряда, в которых записывается порядковый номер (слева направо) выделенного класса в серии но- меров флективных классов, соответствующих омони- мичной основе. Флективный синтез изменяемых слов производится с помощью словаря основ, обращенной морфологиче- ской таблицы (табл. 7.5) и списка окончаний (табл. 7.2). Обращенная морфологическая таблица состоит из не- 112
Таблица 7.5 ОБРАЩЕННАЯ МОРФОЛОГИЧЕСКАЯ ТАБЛИЦА А. Существительные и 12 13 14 15 16 21 22 23 24 25 26 001—65 66 73 65 45 67 74 42 20 74 01 22 002—65 66 73 65 45 67 70 26 20 70 01 22 003—75 77 76 75 27 67 70 26 61 70 17 63 004—71 77 76 71 27 67 70 24 61 70 17 63 005—71 77 76 71 27 70 70 24 61 70 17 63 006—65 66 73 65 45 67 70 42 20 70 01 22 007—65 66 73 65 45 67 70 65 20 70 01 22 010—65 66 73 65 45 67 66 42 . 20 66 01 22 011—65 66 73 65 27 67 74 24 20 74 01 22 012—75 70 70 75 27 70 70 26 61 70 17 63 013—71 77 76 71 27 67 77 24 61 77 17 63 014—65 66 73 65 45 67 77 24 61 77 17 63 t. 015—65 66 73 65 45 67 66 65 20 66 01 22 016—65 66 73 65 27 67 70 26 20 70 01 22 017—65 66 73 65 45 67 74 65 20 74 01 22 020—75 77 76 75 27 67 77 26 61 77 17 63 021—65 66 73 66 45 67 74 42 20 42 01 22 022—65 66 73 66 45 67 74 65 20 65 01 22 023—65 66 73 66 45 67 70 26 61 26 17 63 024—65 66 73 66 45 67 70 26 20 26 01 22 025—71 77 76 77 27 70 70 24 61 24 17 63 026—26 77 76 77 27 67 70 24 61 24 17 63 027—75 77 76 77 27 67 70 26 61 26 17 63 030—75 77 76 77 27 67 77 26 61 26 17 63 031—65 66 73 66 45 67 70 42 20 42 01 22 032—65 66 73 66 27 67 74 24 20 24 01 22 033—66 70 67 77 26 67 70 26 20 26 01 22 034—66 74 67 73 44 67 74 65 20 65 01 22 Г 035—77 70 67 76 26 67 70 26 61 26 17 63 ф-- 036—65 66 73 66 27 67 70 26 20 26 01 22 1 037—65 66 73 66 45 67 67 65 20 65 01 22 ; Д'* ' 040—65 66 73 66 45 67 66 42 20 42 01 22 < 041—65 66 73 66 27 67 77 26 61 26 17 63 :;йл 042—65 66 73 66 55 67 74 56 55 56 16 56 043—65 66 73 66 45 70 77 26 61 26 17 63 f 044—66 74 67 73 44 67 74 65 20 65 01 22 045—66 74 67 73 26 67 74 65 20 65 01 22 > 046—77 70 70 76 26 70 70 71 61 71 17 63 047—77 70 67 76 26 67 70 71 61 71 17 63 iK 050—77 70 67 76 26 67 70 75 61 75 17 63 1 ж 051—66 70 67 73 44 67 70 65 20 65 01 •22 052—75 70 70 75 76 70 70 26 20 26 01 22 053—66 44 44 73 44 44 74 56 55 56 16 56 054—75 70 70 75 76 70 70 26 20 70 01 22 055—75 70 70 75 76 70 70 26 61 70 17 63 056—66 74 67 73 44 67 74 65 20 74 01 22 .х‘ С 8—310 113
ft родоЛжёние табл, t.6 ii 12 1S 14 15 16 21 22 23 24 25 26 057—66 70 67 73 26 67 76 65 20 70 01 -22- 060—66 70 67 73 44 67 70 65 20 70 01 22 061—77 70 70 76 26 70 70 71 61 70 17 63 062—77 70 67 7.6 26 67 70 71 61 70 17 63 063—77 70 67 76 26 67 70 75 61 70 17 63 064—77 70 67 76 26 67 70 34 61 70 17 63 065—77 70 67 76 26 67 70 26 61 70 17 63 066—77 70 67 76 26 67 . 70 65 61 70 17 63 067—66 74 67 73 '26 67 74 65 20 74 01 22 070—72 66 73 72 45 67 66 65 20 66 01 22 071—72 66 73 72 45 67 66 42 20 66 01 22 072—67 77 76 67 27 67 77 26 61 77 17 63 073—67 77 76 67 27 70 77 71 61 77 17 63 074—67 66 73 67 27 67 66 65 20 66 01 22 075—72 66 73 72 45 67 77 24 61 77 17 63 076—77 70 70 77 27 70 66 65 20 66 01 22 077—67 77 76 67 27 67 77 34 61 77 17 63 100—72 66 73 72 45 67 70 26 61 70 17 63 101—72 66 73 72 45 67 70 42 20 70 01 22 102—67 • 77 76 67 27 67 77 26 61 77 17 63 Б Прилагательные 103 104 105 106 107 ПО 111 112 113 114 П6 11—54 34 34 34 44 44 34 65 71 65 75 12—13 02 02 13 13 13 02 13 02 02 02 13—14 04 04 14 14 14 04 14 04 04 04 14—54 34 34 34 . 44 44 34 65 71 65 75 15—55 35 35 35 55 35 35 35 35 35 27 16—45 27 27 45 45 45 27 45 27 27 ' 27 21—43 25 25 43 43 43 67 72 67 67 67 22—13 02 02 13 13 13 02 13 02 02 02 23—14 04 04 14 14 14 04 14 04 04 04 24—43 25 25 43 43 43 67 72 67 67 67 25—55 35 35 35 55 35 35 35 35 35 27 26—45 27 27 45 45 45 27 45 27 27 27 31—23 64 23 23 23 23 77 66 77 66 77 32—44 26 26 44 44 44 26 44 26 26 26 33—44 26 26 44 44 44 26 44 26 26 26 34—52 60 52 52 52 52 76 73 76 73 76 35—44 26 26 44 44 44 26 44 26 26 26 36—44 26 26 44 44 44 26 44 26 26 26 41—53 33 33 33 53 33 70 70 70 70 67 42—56 37 37 37 56 37 37 37 37 37 31 43—55 35 35 35 55 35 35 35 35 35 27 44—53 33 33 33 53 33 70 70 70 70 67 45—16 10 10 10 16 10 10 10 10 10 03 46—56 37 37 37 56 37 37 37 37 37 31 114
• к- Г •-С:. - 116 В. Глаголы 117 120 Продолжение табл. 7.5 в личной форме 121 122 123 124 (( - •'1 —- — " —~ & 1—76 76 73 73 73 73 73 > 2—07 12 07 12 12 07 12 3—30 36 30 36 36 30 36 4—27 35 27 35 35 35 ' 35 5—06 11 06 И 11 11 11 6—57 62 50 21 50 62 62 F. Глаголы прошедшего времени и краткие прилагательные 1 125 1—65 2—72 3—66 4—70 126 65 72 66 74 127 65 67 66 70 130 65 72 66 70 В .... д. Количественные числительные 131 132 133 134 135 136 137 140 1—66 70 67 67 72 75 72 ' 65 2—5.1 31 31 37 56 70 37 37 3—47 27 27 35 55 70 35 35 4—66 70 67 67 72 75 72 65 5—15 05 41 10 16 76 10 10 6—51 31 31 37 56 70 37 37 скольких частей, число которых определяется количест- вом синтаксических классов изменяемых слов. Часть таблицы с индексом «А» используется для син- теза форм существительных. Здесь по одному входу таблицы (левому) перечислены коды морфологических классов, а по другому (верхнему)— морфологическая информация (коды морфологической информации под- черкнуты). На пересечении строк и столбцов указаны номера окончаний. Другие части обращенной морфо- логической таблицы (с индексами Б, В, Г, Д) построе- ны аналогично части «А», с тем лишь отличием, что здесь переставлены входы таблицы: верхние входы со- ответствуют флективным классам, а левые — морфоло- гической информации. 8* 145
При формировании буквенного кода изменяемых (слов сначала номер основы заменяется ее буквенным кодом, выбранным из словаря. Затем с помощью обра- щенной морфологической таблицы и табл. 7.2 отыски- вается буквенный код окончания и приформировьгвает- <ся к буквенному коду основы слова. В необходимых (случаях к окончанию слова приформировывается также буквенный код возвратной частицы, а между основой и окончанием вставляется «внутренний» мягкий знак. Поиск буквенного кода окончания проиллюстрируем на примере форм слов «столами», «тираж», «перебоев», «передними», «побережий», имеющих основы «стол», «тираж», «перебо», «передн» и «побереж». Пусть для каждой формы слова указано сочетание кода флектив- ного класса и кода однозначной морфологической ин- формации, а 'последовательность этих сочетаний пред- ставлена в виде пар чисел (001, 25), (002, 11), (004, 22), (104, 45), (077, 22). Тогда, используя пары чисел в качестве исходных данных, по табл. 7.5 можно найти соответствующие им номера окончаний 01, 65, 24, 10, 34, а по таблице 7.2 получить искомые буквенные коды окончаний «ами», «+», «ев», «ими», «ий». Известно, что окончания прилагательных, имеющих формы винительного падежа единственного и множест- венного числа и согласующихся соответственно с су- ществительными мужского и женского рода, бывают различными в зависимости от наличия или отсутствия признака одушевленности у существительных, к кото- рым эти прилагательные относятся. При синтаксическом синтезе в подобных случаях винительный падеж за- меняется родительным, что позволяет однозначно опре- делить окончание по обращенной морфологической таб- лице (это правило не распространяется на винительный падеж единственного числа прилагательных, согласо- ванных с существительными женского рода). Буквенный код неизменяемых слов обычно совпа- дает с буквенным кодом их словарных основ. Исклю- чение составляют только слова с признаком возврат- ности. В последнем случае присоединяется код возврат- ной частицы. Для выяснения формальных признаков, по которым можно было бы определить необходимость введения мягкого знака между основой и окончанием, был про- веден соответствующий анализ частотного словаря сло- 116
воформ, составленного по деловым текстам. При этом проверялись две рабочие гипотезы. Первая из них за- ключалась в предположении, что свойство иметь «вну- тренний» мягкий знак присуще всем словам, входящим в флективные классы со словами-представителями «брус», «воробей», «судья», «муж», «сын», «мышь», «речь», «грань», «эскадрилья», «статья», «перо», «побе- режье», «третий», т. е. с такими словами-представите- лями, которые в определенных формах могут содержать «внутренний» мягкий знак. Согласно второй гипотезе предполагалось, что все слова с «внутренним» мягким знаком принадлежат только к одному из перечисленных выше флективных классов. В результате анализа частотного словаря не было обнаружено ни одного примера, противоречащего этим гипотезам. Поэтому обе гипотезы могут считаться прак- тически достоверными и использоваться при разработке алгоритмов морфологического анализа и синтеза слов. В случае обнаружения в текстах примеров, опровер- гающих эти гипотезы, можно ввести дополнительный признак — свойство иметь мягкий знак между основой и окончанием — и соответственно дополнительные флек- тивные классы слов. Таким образом, для введения «внутреннего» мягкого знака в состав синтезируемого слова требуется, чтобы его флективный класс совпадал с одним из классов слов, допускающих эту операцию, а морфологическая информация определяла именно ту форму слова, кото- рая у данного класса должна содержать «внутренний» мягкий знак. Информация о формах слов, содержащих «внутренний» мягкий знак, выявляется заранее и ис- пользуется при составлении алгоритма морфологиче- ского синтеза. При синтезе слов с возвратными частицами «ея» или «сь» требуется в каждом случае выяснить, какая из двух частиц должна быть выбрана. Анализ форм слов показывает, что частица «сь» обычно встречается пос- ле букв а, е, и, о, у, ю, я и только у инфинитива, дее- причастия и у личных форм глагола. В остальных слу- чаях употребляется частица «ся». Информация о тех или иных свойствах букв (например, о свойстве букв быть «согласными» и т. п.) оформляется в виде логиче- ских шкал. В виде логических шкал оформляются также и некоторые виды грамматической информации. 117
Морфологический анализ и синтез слов с изменяемой основой типа II У основ слов типа II имеет.место явление чередова- ния гласнйх. При этом в различных формах слов заме- няется или пропадает буква, предшествующая послед- ней букве основы слова. Возможные виды чередования гласных показаны в табл. 7.6 (см. рубрику «вид под- Таблица 7.6 Список подстановок для основ типа. II при морфологическом анализе № п/п. < Класс подста- новки вид подста- новки Примеры 1 1 о —>4~ Заготовок-заготовка 2 1 и ~>й Достоин — достойна 3 2 е ->+ Сложен — сложна 4 2 . е —*й Паек-пайка 5 2 е -*ь Колец — кольцо становки»). Здесь же приведены и -примеры форм слов с основами типа II. Основы слов типа II представлены в словаре только в канонической форме. Эта форма основы встречается в словоформах с ненулевым окончанием, отличным от мягкого знака. Вариантная форма основы бывает у сло- воформ с нулевым окончанием или с мягким знаком в качестве окончания (см., например, словоформы «ко- лодец» и «день»). При морфологическом анализе вари- антная форма основы приводится к канонической путем замены соответствующей буквы на «нуль» или на дру- гую букву (согласно табл. 7.6). Проверка основы слова на наличие беглой гласной производится после того, как основа не нашлась в сло- варе в результате выполнения процедуры флективного анализа. Эта проверка осуществляется только у слов, оканчивающихся на согласную или на мягкий знак. У слов, оканчивающихся на согласную, заменяется пред- последняя буква, если она является одной из букв левой части списка подстановок табл. 7.6. При обнаружении конечного мягкого знака он отделяется от слова (зано- сится вместо нулевого окончания), а затем производится замена гласной. 118
Подстановки табл, 7.6 разделяются йа два класса: а) класс с индексом 1 (.подстановки 1 и 2) и б) класс с индексом 2 (подстановки 3, 4, 5). Это разделение необходимо, чтобы обеспечить пра- вильность морфологического анализа и синтеза слов. Индексы классов подстановок указываются в словаре для каждой канонической формы основы слов типа II. Если в анализируемом слове заменяется гласная «е», то приходится учитывать несколько возможных вариан- тов замены. Для этого последовательно применяют к анализируемому слову подстановки 3, 4 и 5 табл. 7.6 и проверяют их на совместимость с основами словаря. Проверка на совместимость производится после отож- дествления трансформированной основы с одной из основ словаря. Основа словаря и подстановка считаются сов- местимыми, если индекс класса используемой подста- новки и индекс класса подстановки, указанный в сло- варе, совпадают. В противном случае основа словаря и используемая подстановка несовместимы и необходимо проверить, можно ли применить другие подстановки. Правильность применения подстановок 1 и 2 табл. 7.6 проверяется так же, как и в случае замены гласной «е». После проверки правильности замены беглой глас- ной следует обычная при флективном анализе проверка основы и окончания на совместимость и определяется номер основы и грамматической информации к слову. Описанный порядок проверки правильности преобра- зования основы слова типа II в каноническую форму по- зволяет избежать ложных отождествлений основ слов. Действительно, сочетания индексов классов подстановок и букв правой части таблицы подстановок однозначно определяют беглую гласную основы исходного слова (табл. 7.6). А полученная беглая гласная и неизменяе- мый буквенный состав словарных основ типа II пол- ностью определяют вид основы анализируемого слова. Для образования в процессе морфологического син- теза вариантных форм основ типа II используется табл.. 7.7. При этом учитывается индекс класса подста- новки, приписанный основе словаря, и сопровождающая номер основы грамматическая информация (вернее, бук- венный код окончания). К табл. 7.7 обращаются только тогда, когда основа словаря имеет индекс класса под- становки «1» или «2», а грамматической информации соответствует окончание «+» или «ь». 119
Таблица 7.7 Список подстановок для основ слов mana II при морфологическом синтезе № п/п. Класс подста- новки Вид подста- новки Примеры 1 1 >Q Кратка — краток 2 1 й—*и Достойна — достоин 3 2 +-*е Колодца — колодец 4 2 й-»е Пайка — паек 5 2 ь-»е Льда — лед После выборки но номеру основы ее буквенного кода последний анализируется для определения вида подста- новки |-(табл. 7.7). Далее производится необходимое пре- образование буквенного кода основы и приформирование окончания слова. Вид подстановки определяется по следующим прави- лам. Выделяется вторая от конца буква словарной осно- вы и проверяется на совпадение с буквой «й», если основа имеет индекс класса подстановки «1», и с бук- вами «й» и «ь», если основа имеет индекс класса под- становки «2». При положительном результате проверки в первом случае применяется подстановка 2, при отри- цательном — подстановка 1. Во втором случае при поло- жительном результате применяется подстановка 4 (если выделенная буква совпала с буквой «й») или подстанов- ка 5 (если выделенная буква совпала с буквой «ь»). При отрицательном результате применяется подстанов- ка 3. Морфологический анализ и синтез слов с изменяемой основой типа III К изменяемым основам слов типа III отнесены такие основы личных форм глаголов и глаголов прошедшего времени, у которых имеет место чередование согласных. Эти основы встречаются в двух формах, отличающихся друг от друга по буквенному составу. Обе формы осно- вы включаются в словарь. Одна из них считается кано- нической, другая — вариантной. У личных форм глаго- лов в качестве канонической принята основа формы третьего лица единственного числа, у глаголов прошед- шего времени — основа формы множественного числа. 120
При морфологическом анализе вариантная форма основы типа III заменяется на каноническую с помощью табл. 7.8 по специальным признакам, внесенным в сло- та б л и ц а 7.8 Список подстановок для основ типа III при морфологияеском анализе № п/п. Конечные буквы вариантных форм основ слов Конечные буквы канонических форм основ слов Примеры вариант 0 вариант 1 1 ж Д 3 Сижу—сидит, вожу—возит 2 ш С — Ношу — носит 3 Щ СТ т Очищу — очистит, сокра- щу — сократит 4 ч т — Лечу — летит 5 г ж — Могу — может 6 к ч — Отсеку — отсечет 7 л + — Ставлю — ставит 8 т ч — Хотят — хочет 9 + л — Вез — везли варь основ. Табл. 7.8 содержит список подстановок букв и примеры использования этих подстановок. Во втором столбце таблицы перечислены конечные буквы вариантных форм основ слов типа III, а в треть- ем и четвертом столбцах — конечные буквы соответст- вующих канонических форм. В последнем столбце при- ведены примеры для каждого варианта подстановок букв. . Словарными признаками, используемыми при морфо- логическом анализе слов с основами типа III, являются признак вида основы и признак варианта подстановки. При этом каноническая форма основы сопровождается индексом «О», а вариантная — индексом «1». Различные варианты подстановок также обозначаются индексами «0>> и «1» (табл. 7.8). Анализ основ слов типа III производится следующим образом. Сначала основа словаря, найденная в резуль- тате флективного анализа, проверяется на наличие при- знака вариантной формы. Если у основы такой признак ^сть, то выделяется ее последняя буква и сравнивается 121
последовательно со всеми буквами второго столбца табл. 7.8 (исключая букву « + >>). При совпадении выде- ленной буквы с одной из букв таблицы она заменяется ца букву (или сочетание букв) третьего или четвертого столбца в зависимости от значения признака варианта подстановки. Далее полученная основа ищется в слова- ре. Если трансформированная основа отождествляется с одной из основ словаря, то последняя 'проверяется на совместимость с окончанием и на наличие у нее призна- ка канонической формы основы типа III. При положи- тельном результате проверки первоначальный номер ва- риантной формы основы заменяется на номер ее канони- _леской формы. В этом случае, когда выделенная буква анализируе- мой основы не совпадает ни с одной из букв второго столбца табл. 7.8, к этой основе прифюрмировывается буква «л» (см. Девятую строку табл. 7.8) и далее вы- полняются операции, перечисленные в предыдущем абзаце. Таблица 7.9 Список подстановок для основ типа III nph морфологическом синтезе № п/п. Конечные буквы канонических форм основ слов Конечные буквы вари- антных форм основ слов Примеры вариант „0ж | вариант „1* 1 СТ Щ — Очистит — очищу 2 Т Ч Щ Летит — лечу, сократит— сокращу 3 Ж Г —. Может — могу 4 3 Ж — Возит — вожу 5 д Ж — Сидит — сижу 6 с Ш — Носит — ношу 7 ч К — Отсечет — отсеку 8 л 4" —> Везли — вез 9 + л — Ставит — ставлю Формирование буквенного кода основ слов типа III при морфологическом синтезе осуществляется с по- мощью табл. 7.9 и 7.10. Табл. 7.9 служит для преобра- зования канонических форм основ в вариантные, а табл. 7.10 — для определения необходимости такого преобразования. Структура табл. 7.9 аналогична струк-
Таблица 9.10 Типы распределений йандйичесИих и вариантных, форм основ слов Тип распределения Грамматическая информация 1 2 1 3 4 5 6 0 0 0 0 0 0 0 1 1 0 0 0 0 0 2 0 0 0 1 1 1 3 1 0 0 0 0 1 туре табл. 7.8. В табл. 7.10 перечислены различные типы распределения канонических и вариантных форм основ в зависимости от грамматической информации слов. Строкам табл. 7.10 поставлены в соответствие коды ти- пов распределения, а столбцам — коды грамматической информации (см. табл. 7.3). На пересечении строк и столбцов указаны индексы канонических и вариантных форм основ. Сочетание кода типа распределения и кода грамма- тической информации однозначно определяет необходи- мость введения в синтезируемое слово канонической или вариантной формы основы. Код типа распределения ука- зывается в словаре для каждой канонической формы основы слова типа III, наряду с индексом канонической формы и индексом варианта подстановки. Смысл индек- са варианта подстановки для канонических форм основ определяется табл. 7.9, а для вариантных—табл. 7.8. Формирование буквенного кода слова начинается с выборки из словаря буквенного кода его основы. За- тем по табл. 7.10 определяется необходимость замены канонической формы основы на вариантную. Если такой необходимости нет, то к основе приформировывается окончание. Если замена необходима, то она произво- дится с помощью табл. 7.9. Каноническая форма основы заменяется на вариант- ную в следующем порядке. Сначала две последние бук- вы основы проверяются на совпадение с сочетанием букв «ст». Если совпадение имеет место, то эти буквы заменяются на букву «щ» (см. подстановку 1 табл. 7.9), если нет, то конечная буква основы отыскивается среди ненулевых букв второго столбца табл. 7.9. При отож- дествлении конечной буквы основы с одной из букв вто- 123
рйго столбца она заменяется йа соответствующую букву третьего или четвертого столбца (в зависимости от зна- ч чения признака варианта подстановки). В противном случае к словарной основе приформировывается буква «л» (применяется подстановка 9). Анализ обратного сло- варя показывает, что описанный порядок замены кано- нических форм основ на вариантные не приводит к лож- ным результатам. Морфологический анализ и синтез слов с изменяемой основой типа IV Среди слов с изменяемой основой типа IV следует различать слова, способные иметь различные окончания, и слова, у которых выделять окончания трудно или прак- тически нецелесообразно. Слова первого вида далее на- зываются словами с супплетивными осно- вами, слова второго вида — словами с суппле- тивными формами. Примерами слов первого вида являются слова «знамя», «время», «человек», «судно», примерами слов второго вида —слова «кто», «что», «чей». Супплетивные формы основ и супплетивные фор- мы слов заносятся в машинный словарь во всех своих вариантах и отмечаются специальным признаком, кото- рый используется при морфологическом анализе и син- тезе. Морфологический анализ слов с изменяемой основой типа IV начинается с их флективного анализа, причем слова с супплетивными формами сначала рассматрива- ются как неизменяемые. Далее с помощью табл, типа 7.11 и 7.12 вариантные формы основ заменяются на ка- нонические, а по супплетивным формам слов выраба- тывается соответствующая им грамматическая инфор- мация. Табл. 7.11 иллюстрирует структуру словаря суппле- тивных основ слов. Во^втором ее столбце перечислены < буквенные коды канонических и вариантных форм основ слов, а в третьем столбце — отсылки, указывающие для каждого варианта , основы соответствующий ему поряд- ковый номер канонической формы основы (согласно ну- 'мерации первого столбца). Буквенные коды канониче- ских и вариантных форм основ в табл. 7.11 записаны рядом: сначала идет код канонической формы основы, а вслед за ним — код ее вариантной формы. Следует за- 124
й. Таблица 7.11 Словарь супплетивных основ изменяемых слов для морфологического анализа и - синтеза Таблица 7.12 Словарь супплетивных форм слов для морфологического Ко п/п. анализа Номер на- бора грам- матической информации Входная форма слов Отсыл‘ ка Ко п/п. Варианты основ слов Отсыл- ка Тип рас* преде- ления 1 англичанин 1 1 1 КТО 1 01 2 англичан 1 1 2 кого 1 13 3 врем 3 0 3 кому 1 17 * Л я? 4 времен 3 0 4 кем 1 22 '.Ис б Друг 5 1 5 ком 1 26. ф. 6 друз 5 1 6 чей 6 41i 7 знам 7 0 7 чьего 6 43. J ’ 8 знамен 7 0 8 чьему 6 44 9 им 9 0 9 чьим 6 47 10 имен 9 0 10 чьем 6 ‘ 50* 11 крестьянин 11 1 11 чья 6 53 ч- ’ 12 крестьян 11 1 12 чьей 6 54 13 судн 13 1 13 чью 6 55 44 суд 13 1 14 чье 6 5t 15 человек 15 1 15 чьи 6 56 16 люд 15 1 16 17 чьих чьими 6 6 57 60 Д- метить, что. в табл. 7.11, равно как и в других таблицах настоящего раздела, буквенные коды основ приведены для наглядности. В действительности в памяти информа- ционно-логической машины вместо этих кодов должны 4 быть записаны их порядковые номера по машинному Г словарю основ. В четвертом столбце табл. 7.11 для каждой основы слова указан тип распределения канонических и вари- антных фор/м основ по различным формам слова. Слова < с типом распределения «О» имеют каноническую форму 4 основы в именительном падеже единственного числа, а в остальных формах — вариантную. Слова с типом распределения «1» в единственном числе имеют канони- । ческую, а во множественном числе — вариантную форму основы. Сведения о типе распределения необходимы для [ морфологического синтеза слов. Пример словаря супплетивных форм слов, используе- мого при морфологическом анализе, дан в табл. 7.12. Во. втором столбце этой таблицы перечислены 'все формы F слов, отличающиеся друг от друга по буквенному соста- 125
J&yV в тре!ьём столбце — оТсыЛкйJk кййрййческйм формам слов' (согласно системе нумерации первого столбца), а в четвертом столбце — номера .наборов грамматиче- ской информации (согласно табл. 7.3). Процесс морфологического синтеза слов с основами типа IV состоит из двух этапов: этапа замены канониче- ской формы основы на вариантную, если такая замена необходима, и этапа флективного синтеза. Второй этап синтеза описан выше, поэтому здесь ограничимся лишь изложением особенностей его первого этапа. Для слов с супплетивными основами необходимость выбора канонической или вариантной формы может быть определена по грамматической информации и типу распределения (см. стол- бец 4 табл. 7.11). При этом номер основы синте- зируемого слова отожде- ствляется с одним из но- меров основ столбца 2 табл. 7.11, а из столбца 4 выбирается соответствую- щий индекс типа распре- деления. Если сочетанию грамматической инфор- Таблица 7.13 Словарь канонических форм слов для морфологического синтеза № п/п. Каноническая форма слова Отсыл- ка 1 кто 1 2 чей 7 мации и индекса типа распределения соответствует кано- ническая форма основы, то следует переходить к этапу флективного синтеза; если вариантная форма основы — то исходный номер основы необходимо заменить на но- мер основы, следующий непосредственно за отождест- вленным номером столбца 2 табл. 7.11. Синтез супплетивных форм слов производится с по- мощью табл. 7.13, 7.14. При морфологическом анализе и синтезе супплетив- ные основы и супплетивные формы слов различаются по номерам флективных классов (супплетивные формы слов не имеют окончаний и относятся либо к неизменяемым существительным, либо к неизменяемым прилагатель- ным). В табл. 7.13 перечислены канонические формы слов и указано, с какого номера в табл. 7.14 начинаются суп- плетивные формы слов, соответствующие каноническим формам табл. 7.13. Табл. 7.Г4 содержит перечень раз- личных наборов грамматической информации и соответ- ствующих им супплетивных форм слов. 126
Т а б л и ц’а 7.14 Словарь супплетивных форм слов для морфологического синтеза Л № ' п/п. Грайматяческая информация Форма слова № п/п. Грамматическая информация Форма слова I : - - п КТО 16 24 чье 2 12 КОГО 17 25 чьим Л 13 кому 18 26 чьем 4 14 кого 19 31 чья 5 15 - кем 20 32 чьей 6 16 ком 21 33 чьей . 7 11 чей . 22 34 чью 8. 12 чьего 23 35 чьей 9 13 чьему 24 36 чьей 10 14 чей 25 41 чьи 11 15 чьим 26 42 чьих 12 16 чьем 27 43 чьим 13 21 чье 28 44 чьи 14 22 чьего 29 45 чьими 15 23 чьему 30 46 чьих Для выбора необходимой формы слова требуется сначала по номеру основы войти в табл. 7.13, а затем по числу, содержащемуся в третьей графе этой таблицы, и по грамматической информации войти в табл. 7.14. Формы хранения словарей и грамматических таблиц в памяти информационно-логической машины При программировании алгоритмов морфологическо- го .анализа и синтеза существенную роль играет выбор удобных и экономичных способов записи словарей и раз- личного рода таблиц в памяти электронной информаци- онно-логической машины. Здесь целесообразно широко использовать равномерные коды (коды равной длины) в сочетании с упорядоченной записью этих кодов. Рав- номерные коды и упорядоченная их запись позволяют применять методы ускоренного поиска информации. Для кодовых комбинаций, имеющих различную дли- ну- (например, для кодов основ слов), обычно отводится целое число ячеек памяти. Если число различных кодо- вых комбинаций невелико, а используются они в табли- цах в большом количестве, то вместо исходных кодовых комбинаций в таблицы записываются их порядковые но- мера по перечню (словарю) этих комбинаций.
„Целесообразно также применять принцип раздель- ной записи входов и выходов таблиц, что приводит, как правило, к уменьшению времени поиска, упрощению алгоритмов и более экономному использованию емкости ЗУ ЭВМ. Словарь основ слов записывается в памяти ЭВМ в виде двух массивов: массива буквенных кодов основ и массива кодов морфологических классов слов. Массив кодов (морфологических классов слов записывается от- дельно от массива буквенных кодов основ и, в свою очередь, разделяется на два массива: массив кодов основоизменительных классов и массив кодов флектив- ных классов слов. Массив кодов флективных классов представляет собой перечень их номеров (согласно табл. 7.1), поставленных в соответствие кодам основ слов. Различные сочетания номеров флективных классов, соответствующие омонимичным основам, перенумерова- ны, и эти '(последние) номера включены в состав ‘(масси- ва флективных классов. Нумерация сочетаний кодов флективных классов является продолжением нумерации флективных классов, приведенной в табл. 7.1. Таким образом, массив кодов флективных классов представляет собой последовательность кодов равной длины (в нашем случае длина кода равна восьми дво- ичным разрядам). Эти коды могут записываться по не- сколько в одну ячейку, а их (местоположение легко вы- числяется по номеру основы. В случае необходимости номера сочетаний флективных классов по специальной таблице заменяются на сочетания кодов этих классов. Массив кодов основоизменительных классов записы- вается в памяти ЭВМ аналогично массиву кодов флек- тивных классов. Он представляет собой последователь- ность шестиразрядных номеров кодовых комбинаций, ха- рактеризующих особенности морфологического анализа и синтеза слов с изменяемыми основами. Для единооб- разия неизменяемым основам слов ставится в соответ- ствие нулевая кодовая комбинация. Сочетание номеров классов для омонимичных основ записывается так же, как и в случае флективных классов. При линейной развертке морфологической таблицы (табл. 7.4) уже была учтена необходимость экономии емкости памяти ЭВМ. Последовательность номеров окон- чаний (чисел, стоящих слева от дефиса) и последова- тельность номеров наборов грамматической информации. 12$
Рис. 7.1. Морфологический анализ. 9—310 129
| От бл. 12 13 Проверка условия -.„Количество отделенных букв в слове 0=2” 4g К бл. 18 От бл. 18 нёт 19 Поиск сочетания отделенных букв в словаре окончаний нет к бл. 21 1 15 Определение номера окончания __ ' 1 ’ Нет к бл. б 16 Проверка конца слова на наличие мягкого знака До, 17 Отделение мягкого знака.. Занесение числа „3” в счетчик отделенных букв К бл. 5 От бл. 13 . - 18 Проверка сочетания отделенных букв на совпадение с частицами „ся"или „сь” Нет К бл. 19 f 19 Занесение в рабочую ячейку признака возвратности 1 * 20 Гашение счетчика количества отделенных букв и рабочей ячейки., содержащей отделенные буквы К бл. 9 От б л. 7 5^ Да 21 Проверка, условия : „ Количество отделенных букв п-3” ~ бл. 29 нет От бл. 9 10 к бл. 11 22 Проверка на принадлежность основы слова к типу т Да К бл. 28 1 Нет Нерп К бл~29* .23 Проверка на принадлежность основы слова к типу /V Да ’ к бл. 30 Рис. 7.1. Морфологический анализ (продолжение). 130
Рис. 7.1. Морфологический анализ (окончание). 9* 131
Рис. 7.2. Морфологический синтез. 132
Рис. 7.2. Морфологический синтез (окончание). 133
табл. 7.4 записываются в памяти ЭВМ в виде двух отдельных массивов одинаковой структуры, причем в од- ной ячейке размещается несколько номеров окончаний или номеров наборов грамматической информации. Но- мера флективных классов (подчеркнутые числа табл. 7.4) нигде не записываются. Они используются в качестве разделителей при поиске в массиве номеров окончаний слов. Разделителям поставлена в соответствие таблица чисел, указывающих для различных классов границы столбцов окончаний (см. табл. 7.4). При обращении к морфологической таблице сначала по коду флективного класса и коду окончания опреде- ляется порядковый номер необходимой позиции в -масси- ве номеров окончаний. Затем по найденному номеру по- зиции окончания вычисляется соответствующая позиция в массиве номеров наборов грамматической информа- ции. Участки обращенной морфологической таблицы (табл. 7.5) целесообразно записывать в ячейки ЗУ по строкам (например, часть А) или по столбцам ‘(часть Б), разделив их предварительно на несколько фрагментов вертикальными или горизонтальными линиями. При этом входы участков таблиц могут нигде не записываться, а необходимые позиции таблицы могут вычисляться по значениям входных данных. Среди таблиц, используемых при морфологическом анализе и синтезе, встречаются одномерные таблицы, входные данные которых представляют собой последо- вательность чисел натурального ряда (табл. 7.2, 7.3). У таких таблиц можно хранить в памяти ЭВМ только их правую часть, а адреса необходимых выходных дан- ных определять по численным значениям входных вели- чин. Укрупненные схемы алгоритмов морфологического анализа и синтеза представлены на рис. 7.1 и 7.2. Сравнение различных «точных» методов автоматического отождествления и синтеза слов В начале главы было указано, что автоматическое отождествление форм слов в процессе перевода тексто- вых сообщений с русского языка на информационный и формирование буквенных кодов слов при переводе с ин- формационного языка на русский может производиться 134
Ж<гна базе словаря словоформ, так и на базе словаря ’основ слов. Поэтому представляет интерес сравнение основных количественных показателей, характеризующих эти подходы,—: объема словаря и времени работы алго- ритма отождествления. Объем машинного словаря, предназначенного для ;|Й0Ждествления форм слов, зависит от многих факторов. ЙЙрнако при. сравнении вариантов структуры словаря не- обходимо прежде всего учитывать соотношение количест- ва словарных единиц при некоторых фиксированных условиях. й^'ЗЙОвестно, что в русском языке число различных сло- ‘•вбфбрм значительно .больше числа различных основ •’слой. Так, существительные могут иметь 7—10 различ- ных форм, полные прилагательные — 10—12 форм, гла- Голы настоящего и будущего времени — 6 форм, глаголы прошедшего .времени и краткие прилагательные — 4 фор- мы и т. д. Если фиксировать объем словаря основ и потребовать, чтобы словарь словоформ включал все формы слов, которые могут быть образованы на базе словаря основ, то отношение числа словоформ к числу основ слов определяется выражением п (7.1) - i=l . в которой п — количество флективных классов слов в русском языке; Mi — количество попарно-различных форм у слов /-го флективного класса; Pi— вероятность появления i-го* флективного класса в словаре. По дан- ным табл. 7.1 и таблицы, приведенной в приложении 1, находим, что К—8. Однако в речевой практике не все формы слов ис- пользуются в равной степени. Это приводит к тому, что при фиксированном тексте достаточно большой протя- женности объем слоцаря словоформ оказывается при- мерно в два раза больше объема словаря основ (мы на- блюдали это явление на текстах протяженностью от 20 до 500 тыс. слов). Если в словарь включаются не все, а только наиболее часто встречающиеся словарные еди- ницы, то при изменении коэффициента заполнения тек- стов в пределах 0,5—0,95 отношение объема словаря словоформ к объему словаря основ колеблется в преде- лах' 3—3,8, причем максимум величины этого отношения соответствует коэффициенту заполнения, равному 0,8. 135 .
Время работы алгоритмов автоматического отождест- вления слов зависит от типа ЭВМ, которая используется для обработки текстовой информации, и от конкретной программной реализации этих алгоритмов. Имеет значе- ние и объем словаря. Однако при прочих равных усло- виях программа морфологического анализа работает в несколько раз медленнее, чем программа отождествле- ния слов с помощью словаря словоформ. Это обусловле- но большей сложностью алгоритмов морфологического анализа и необходимостью многократного поиска по словарю при выделении основы из состава изменяемого слова. Дополнительное сокращение объема словаря может быть получено путем использования закономерностей словообразования и изменений основ слов при измене- нии их формы. Так, за счет исключения повторений оди- наковых основ после отсечения суффиксов «ть», «ти», «чь» у инфинитива, суффикса «л» у глаголов прошедше- го времени, суффиксов «а», «я», «в», «вши» и т. п. у деепричастия можно уменьшить объем словаря основ на 7,7%; за счет исключения сложных слов без внутрен- ней флексии, компоненты которых содержатся в слова- ре,— на .2,3%’; за счет исключения вариантных форм основ глаголов с чередованием согласных — на 0,26%; за счет исключения основ прилагательных, которые мо- гут быть образованы от основ существительных, — на 6,3%'. В целом, если учесть все возможные регулярные способы преобразования основ слов при словоизменении и при трансформациях словосочетаний, объем словаря можно сократить на 23%' (приведенные данные получе- Таблица 7.15 Количественные характеристики изменяемых основ словаря Г№1 п/п. [ Типы изменяемых основ слов Частота Длина (количество букв в основе) средняя максималь- ная 1 Основы типа гласных) II (чередование 0,04 6,9 15 2 Основы типа согласных) III (чередование 0,02 5,5 9 3 Основы типа ные основы) «IV (нерегуляр- 0,01 3,9 10 136
1РП1Ь1 по словарю объёмом около 8000 наиболее употре^ < • бительных основ слов). Таким образом, наиболее существенное сокращение необходимого объема памяти (в 2—3 раза) достигается цри переходе от словаря словоформ к словарю основ слов в том виде, каким он принят в настоящей главе. Дальнейшие шаги в этом направлении малоэффектив- ны и связаны с существенным усложнением алгоритмов морфологического анализа и синтеза. 'Более того, как следует из табл. 7.15, доля изменяе- мых основ в словаре невелика и составляет примерно 7%'. Поэтому при практической реализации процедур морфологического анализа и синтеза с целью упрощения алгоритмов допустимо хранить в словаре все формы из- меняемых основ слов и относить их к типу IV (нерегу- “ лярные основы). Интересно отметить, что в словаре изменяемые осно- вы в среднем имеют меньшую длину, чем неизменяемые: 6,1 буквы против <8,5 букв у неизменяемых основ (более дифференцировано распределение длин изменяемых основ приведено в табл. 7.15). Глава 8 ПРИБЛИЖЕННЫЕ ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО МОРФОЛОГИЧЕСКОГО АНАЛИЗА И СИНТЕЗА СЛОВ Определение обобщенных грамматических классов слов по их конечным буквосочетаниям. Выделение основ слов Процедуры морфологического анализа и синтеза слов могут быть точными и приближенными. Точные процеду- ры морфологического анализа и синтеза основаны на использовании словарей, в которых для каждого слова указано правило изменения его формы (см. гл. 7). Эти Процедуры могут применяться только к словам, основы которых включены в словарь. Между техМ в реальных текстах всегда будут встречаться «новые» слова —слова, не содержащиеся в словаре. Такие слова либо должны исключаться из текста как «неинформативные», либо их необходимо включать в словарь. «Новые» слова могут автоматически выявляться в процессе точного морфологического анализа и выда- ваться на печать для ручной обработки и включения 137
в словарь. Но такая организация работы не позволит полностью автоматизировать процессы обработки тексто- вой информации. Необходима процедура автоматическо- го пополнения словарей. А это, в свою очередь, связано с необходимостью автоматического выделения основ слов и получения к ним грамматической инфррмации. Таблица 8.1 Распределения частот появления грамматических классов, ассоциированных с конечными буквосочетаниями слов (фрагмент таблицы распределений) Конечные буквосо- четания Частоты появления грамматических классов ' С п Гл Гп 1 Ги н Сл ан 81 — — 46 — - — ем 294 55 38 1 — 3 — ен 101 — — 129 — — — им 4 273 15 2 — — .— ин 58 1 — 1 — — — но 28 1 — 156 — 241 — чь 3 — — — 12 — — Появление «новых» слов в тексте может помешать правильному выполнению его синтаксического анализа. Между тем для выявления синтаксической структуры фразы в большинстве случаев достаточно получить ин- формацию о принадлежности «незнакомого» слова толь- ко к определенному грамматическому классу, и не тре- буется более подробных сведений о форме слова. Возни- кает вопрос, нельзя ли, не прибегая, к помощи словаря, определять грамматический класс слова по его буквен- ному составу? Задача подобного рода была поставлена и решена автором совместно с И. М. Давыдовой. В про- цессе исследования был проанализирован обратный сло- варь словоформ объемом около 30 000 единиц, состав- ленный по деловым текстам протяженностью 500 000 слов (см. приложение 3). В результате были построены рас- пределения частот появления грамматических классов, ассоциированных с различными буквами и буквосоче- таниями, стоящими в конце слова. Фрагмент перечня распределений частот появления грамматических клас- сов приведен в табл. 8.L. 138
Буква или буквосочетание считались отличительным признаком того класса, который имел максимальную ча- стоту. При этом использовался следующий перечень грамматических классов слов: С —существительное, количественное числительное; ?аП —прилагательное, порядковое числительное, пол- JK ная форма причастия; -Гл— личная форма глагола; Гп— глагол прошедшего времени, краткое прилага- тельное, краткое причастие; Г»—инфинитив; — наречие, деепричастие, сравнительная степень ‘Л прилагательного; Сл — служебные слова (предлоги, союзы, частицы). Выяснилось, что по некоторым конечным буквам и буквосочетаниям слова можно практически однозначно определять его грамматический класс, по другим — это можно делать с меньшей определенностью. Так, если слова оканчиваются на буквы б, г, ж, п, р, с, ф, ц, ч, ш, э, то можно с большой степенью достоверности утверждать, что это существительные, тогда как по бук- вам е, и, й, м, о, у, х, ы, ю, я, стоящим в конце слов, нельзя сказать что-либо определенное относительно при- надлежности этих слов к грамматическим классам. Ана- логично, конечные двухбуквенные сочетания ов, ке, ни, ам, ям, ку, ах, ях, pi?i, ию, мя можно считать признака- ми существительных, сочетания букв ое, ые, ый, ым, го, их, ых, ую — признаками прилагательных, тогда как сочетания ла, на, йе, ми, ей, ий, ом, ен, ся непригодны в качестве надежных признаков для определения клас- сов слов из-за их «многозначности». В табл. 8.2 приведены вероятности однозначного .определения классов слов в словаре словоформ по одной, •двум, трем и т. д. последним буквам, а также объемы списков 'буквосочетаний-, необходимые для достижения указанных,значений вероятностей. Определение грамматических классов слов по одной и по двум последним буквам производилось с помощью полных перечней однобуквенньгх и двухбуквённых при- знаков, объемы которых указаны в табл. 8.2. Для более .точного определения грамматических классов прежде всего использовался список двухбуквенных признаков, а трехбуквенные и четырехбуквенные признаки привле- кались только тогда, когда количество словоформ сло- 139
Таблица 8.2 Вероятность однозначного определения грамматических классов слов по их конечным буквосочетаниям Максимальное количество букв в признаках грамма- тических классов Вероятность однозначного определения классов слов Объемы списков букв и буквосочетаний, необходи- мые для определения классов слов 1 0,635 31 2 0,837 481 3 0,928 1137 4 0,974 3184 5 0,976 3282 варя, неправильно расклассифицированных по двухбук- венным признакам, превосходило заданный порог (число девять). Этот порог выбирался таким образом, чтобы общее количество -слов, неправильно расклассифициро- ванных по двухбуквенным признакам без привлечения третьей и четвертой буквы, было меньше 5%' от объема словаря. Количество отобранных согласно этому усло- вию трехбуквенных и четырехбуквенных признаков в сумме с общим количеством двухбуквенных признаков приведено в третьей и четвертой строках табл. 8.2 (в третьем столбце). Пятая буква привлекалась для уточнения класса слова только тогда, когда количество словоформ, неправильно расклассифицированных по двухбуквенным и четырехбуквенным признакам, было больше двух. Суммарный объем перечней двухбуквен- ных, четырехбуквенных и пятибуквенных признаков ука- зан в пятой строке табл. 8.2. В табл. 8.2 приведены результаты статистического анализа словаря без учета частоты встречаемости слов в текстах. Аналогичные подсчеты, проведенные раздель- но для редких слов (для слов с частотой употребления в текстах, равной единице) и для всех остальных слов частотного словаря, показали, что вероятность правиль- ного определения классов по последним буквам слов практически не зависит от частоты их встречаемости в текстах. Многоступенчатая система признаков для определе- ния классов слов по их концам неудобна для практиче- ского использования, да и объемы списков буквосочета- 140
^®вий, приведенные в табл. 8.2, довольно велики. Поэтому "•‘было принято решение использовать в алгоритме авто- Жматического опознавания классов слов только двухбук- 4 венные и четырехбуквенные признаки: двухбуквенные 4 признаки — в полном объеме, а четырехбуквенные — в сокращенном (только в тех случаях, когда число сло- воформ словаря с неправильно определенными по двух- буквенному признаку классами оказывалось больше сорока пяти). Получилось двадцать списков четырехбук- л венных признаков '(по числу наиболее «неточных» двух- 4 буквенных признаков). 4* Было введено также следующее ограничение: если ‘ список четырехбуквенных признаков включал менее 64 элементов, то он сохранялся неизменным, в против- ном случае в нем оставлялись только 64 наиболее часто встречающихся элемента. ' < Списки двухбуквенных и четырехбуквенных призна- ков для определения классов слов приведены в табл. 8.3 и 8.4. Каждой строке 8.3 поставлена в соответствие вто- : рая от конца буква, слова, а каждому столбцу — послед- няя буква слова. На пересечении строк и столбцов ука- заны классы слов или (в случае многозначности двух- буквенного признака) сочетания из двух классов. Ц сочетании классов на первом месте стоит более веро- ятней класс, а на втором — менее вероятный. В круглых скобках указаны номера списков из таблицы четырех- буквенных Признаков (табл. 8.4). Таблица четырехбуквенных признаков классов (табл. 8.4) построена по иному принципу, чем табл. 8.3. Она расчленена на двадцать списков, а в каждом списке дан перечень сочетаний четвертой и третьей букв от кон- ца слова с указанием соответствующих им грамматиче- ских классов. Алгоритм автоматического определения грамматиче- ских классов слов работает в следующем порядке: 1) Выделить две последние буквы анализируемого слова. Перейти к п. 2. . 2) По сочетанию букв, выделенных в п. 1, обратить- ся к табл. 8.3 и выбрать соответствующую клетку этой таблицы. Перейти к п. 3. 3) Проверить содержимое клетки, выбранной в п. 2, на наличие отсылочного номера к табл. 8.4. При наличии отсылочного номера перейти к п. 5, при отсутствии — к. п. 4. 141
Таблица 8.3 Таблица двухбуквенных признаков для определения, грамматических классов слов по их концам 2-я буква 1-я буква — а б 1 В г 1 д 1 е 1 ж 3 а б В. Г Д е ж 3 и й к л м н о п р с т У Ф X Ц ш щ ы ь э ю я Пробел с С, Гп С С, Н С, Гп С, Сл Сл с,-н Гп.С (1) С, Гп Гп, С (2) С с, Гп . С с, г С с с с с, п С, Гп Сл с с с с с С, Сл , с с с Сл - н,с с с,н н.с с с, II с с н с,н н Сл с с С, Гп С с С, Гп С, Гн с,н с с,н с с,н с с С, Сл с,н с С , Гп с с,н с ' с с, н с с,н П.Н (3) н,с с с, п (4) с с С, С л С, Сл с, н н, п с с, н с, п С,-Гл с с с с, н н, с с, п н, с п с с с с с Гп- С с с С, Сл С, Сл С С С 2-я буква 1-я буква и й к л | М* 1 f- н 0 п а б в г Д с с с с, н с, Гп с, н Гп, С С с, н п с С, Гп С с, н с, н п, с С, Н- с ' ,142 Продолясение табл. 8.3 1-я буква 2-я буква С « ’ е Гп,С (12) 3 и и л м н 6 п Р с т У Ф X ц ч ш щ ы ь э ю я Пробел С, Н С, Н С, Сл С G, Н Гп, С (5) п, с (б) с, Сл с,п с с, н с С , Гп с с с С II с Гп, С с, п 1 (7) (10) —’ •—’ с п?с С, Гп Гп, С П, Гл (8) 1 — с —. •— С с с С С С с С, Гп П, с С, Гп (9) — с с — с С, Сл С С С, Гп с с СсГл1 С С с н, с Гп, С Гп, Н Н, Гп (13) С С П, С с (Ш с с с — с — с с С, Сл с, н С, Сл С, Гп С с 2-я С, Сл- C. П С, Гп С с с н с с, н н II с Гп, С с с с Сл п с с Гп, С С С, Гп Сл Сл : буква 1 1-я бу ква р 1 с 1 т 1 У 1 ф X | ц ч а б в Г - д е ж 3 и С, Гп С С С, Сл С с, н С, Гп С С, Гл Гл, С (14) Гл, С с с с С, Сл с с, н ; с oil ol 1 1 1 о с ' с с, п п, с сГн с с с 143
Продолжёние'табл. 8.3 2-я буква 1-я буква 0 с т У 1 ф X ц 4 Й К Л м н 0 п р с т У ф X . ц ч * ш щ ы ь э ю я Пробел С с с с с с с с с с С, Гп с с с с с с с с Сл с с с с, п с С, Гл Гл, С с с с С, Гп с с Гл, С Гл, Гп С с, н с п, с а с с с с, п с с с С, Гл с с Сл с с Сл с с с, н н, с с п, н с — с с с с 2-я буква 1-я буква ш 1 “ 1 ь’ ь 1 э ю я Я б В г д е ж 3 г И Й К л м н О п р п п . с с С, Сл С , Гп С С С, Гп С, Гп Гп, С (16) С С с, н н С, Сл с с, н с, н с с, н с, н с Гл, С С С с, н с С, Гл с п, с С, Гл п, н (19) С н н, с с н с с С, Сл С, Сл с с с, н 144
продолженае тйбл. 8.3 1-я буква 2-й буква ш ' щ ы ь э ю я С — — с Гп, Н (17) — с Гл, П (20) т — — С, Гп Ги, С (18) — с Н, Сл 4 У с Гп — — п, н Н, С Ф — — с — —— — — X — — — — — — — ц — — с — — —- •— —к Ч — — Ги, С •— —— — ш — — Гл, С С •— — — щ — . . — — — — — ы с — — — — — — ь -—. — — — — с, н с, п э — —. — — — —— — ю — — — — п — я — —— • — •• — Гл Н, II Пробел — — — — — — с Таблица 8.4 Таблица четырехбуквенных признаков для определения грамматических классов слов по их концам 4-я и 3-я буквы с конца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов 1. Слова, оканчивающиеся на буквосочетание ,ла“ ва Гп, С ИГ ' Гп ои Гп ИС с га Гп, С ог Гп пи Гп ОС Гп да Гп уг С СИ Гп, С ну Гп жа Гп ве Гп ти Гп, С ш Гп за Гп де С, Гп чи Гп аш Гп * иа С ре С, Гп ши Гп еш Гп ка С, Гп се Гп ек Гп иш Гп ла Гп те С ик Гп ош Гп ма Гп це С го С ыш Гп на С, Гп уз С до С бы Гп па Гп, С би Гп ко С ры С, Г1 ра Гп, С ВИ Гп по С ты С са Гп, С ди Гп то С ля Гп та Гп, С , жи Гп еп С ня Гп ча . Гп, Н ли Гп оп С оя Гп ' ша Гп, С ни Гп ес Гп — Ю—310 • ’145
Продолжение табл. 8-4 4-я и 3-я буквы с Классы слов 4-я и 3-я буквы с Классы слов 4-я и 3-я буквы с Классы слов 4-я и 3-я буквы с Классы слов конца слова конца слова конца слова конца слова 2. Слова, оканчивающиеся на буквосочетание „на“ Сл • д с ож Гп ан с ва Гп, С ид Гп аз~ Гп ен Гп, С га С од Гп, С би С он С, Гп да Гп, С ве С ви с । 0 С еа С ге С ди с го С жа Гп де Гп, С зи с 30 С за ' Гп же Гп ли с ио С иа С ле Гп, С ми с ко С ла Гп, С С, Гп ме С ри с ло с ма не Гп СИ с ро с на С 'ое Гп ти с то с ра С, Гп С, Гп ре Гп, С Гп, С чи с ьо с та се ши с ер С, Гп об Гп че Гп щи с ес Гп, С ав Гп ше Гп ей с ст Гп ив Гп ще Гп ой с ич Гп 3. Слова, оканчивающиеся на буквосочетание „ее“ аб Н бн Н тн н, п нш С * ав Н вн Н, П ЧН н ОШ П ев Н дн н, п ШН п сш п ид С ен -н ЬН н чш п нд с жн п, н ар с ып п -% уж с зн н . ор н, с бщ п г нз с ин с тр н ущ п рз с лн н 04 п ющ п ел н мн н, п юч п ЯЩ,' II ол н НН п, н вш п — — н с ПН н йш П* — ан н рн н кщ п , — '— 1 i 1. Слова, оканчивающиес! 5 на буквосочетание „ие“ ТВ С, Сл ок п ЯН с яч п 1 ог II СК п ар с вш п Уг П тк п ер с дш п уд С ЦК п ир с еш п еж П ьк II ас с йш п УЖ С ил с ес с кш п аз с ан с ет с ОШ п ак II вн п ит с рш п бк п ДН п ст с сш п 146
O'. Продолжение табл. 8.4 .-ЖгЯ и З‘я слова Классы слов 4-я и 3-я буквы с кснца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов жГ гк п • ен с ЫТ с чш п fc да п жн п ЯТ с ьш п О* зк п ин п ОХ II ащ п SIF'HK п НН п ич с бщ п Й" ®к п тн п 04 п ущ п ж’’- лк п хн п уч II ющ п $?, НК п ШН 1 п юч II ящ п 5. Слова, оканчивающиеся на буквосочетание „ли“ К. Сл аб с ДИ Гп ем С Гп ов с жи Гп по С га Гп иг Гп зи Гп ро С да Гп, Н ог Гп ли Гп ар С Гп. рг Гп ми Гп ес Гп Гп бе С ни Гп ну Гп к* Гп, С ве Гп ои Гп РУ С -ла Гп де Гп, С пи Гп ш Гп ^>'9 •. — ма Гп ме Гп, С ри Гп аш Гп ’ па Гп пе Гп си • Гп иш Гп ра Гп, С ре Гп ти Гп ОШ Гп та - Гп, С се Гп чи Гп, С бы Гп ха Гп те С, Гп ши Гп ля Гп 1 ча Гп це С щи Гп ня Гп ша Гп би С, Гп ик Гп - оя Гп Ж Ща Гп ВИ I» Гп ел С ря Гп К • М3 6. Слова, оканчивающиеся на буквосочетание „ми“ ба с ха с ши п сэ , с ва с ца с щи п кю с га с ча с ьи п ая с |К& — да с ща с ом с Дя с жа с* ре с уо с ея с за с се п, с бы п ЗЯ с йа с те II вы п ИЯ с ШИ ка с ги п ды п ля с ла с ей п лы . п ня с ма с жи II мы п оя с на с ки п ны п ря с па с ни п, с ры п ся с НРГ- ра с ои п ты . п тя с са с ти II дь с уя с та с ’ чи II сь с ья с 10 147
Продолжение табл. 8.4 Продолжение табл. 8.4 4-я и 3-я буквы с конца слов Класс] слов а Я 4-я и 3-я буквы с конца слов Классь слов а 4-я и 3-я буквы с конца слов? Классь слов 4-я и 3-я буквы с конца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов { 4-я и 3-я ] буквы с юнца слова классы слов г 4-я и 3-я буквы с юнца слова Классы слов I 4-я и 3-я ] буквы с юнца слова Классы слов 7. Слова, оканчивающиеся на буквосочетание „ей* аз с шк с ЛН п, с ат п, с ... п ал п мн п ит п рб С ци с ТН п уЧ с, п ак бк •вк дк жк с, п ел п НН п, с от с ад С ал с ХН п ЮЧ п с ем п, с ОН с ст п ед ид С с бл ел с с ШН во п, с п аш вш п п с с им рм п, с с ПН PH п п ут ьт п п юд с ИЛ с ар с еш с, п ЗК с, п ан с, п сн п, с ят п ре с мл с еР с йш II ик с, п бн п тн п ьш п аж с ол с ир с ОШ п еж с Ул с Ор с сш п 10. Слова. оканчивающиес5 1 на буквосочетание „ем уж с ем с ес с чш п ги зи с с н вн с с ат ет с с ьш ящ п п га Гл ни с ЖН и ЮЧ п гт ми с ДН II, с ст с бщ п да Гл ри с ХН п аш 11 гт ни ри с с ен жн с с, п РФ ИЦ с с ущ ющ п п жа ма Гл Гл ти чи с с шн во п и. вш еш 11 п ГТ СИ ти с с зн НН с с * ач 04 с п, с ящ ть п п ра та ча С Гл Гл, С бл те ел с с с ар тр ыр с с с зш йш сш 11 п п г~г 8. Слова, оканчивающиеся на буквосочетание „ий“ ед йд Гл, С Гл ил ол с с ВС т п, с п чш ьш п п ов ТВ ог ад еж ож юж С С С С С п п ЦК ел ил ол рм ан ДН п с с с с с п ЯН ар ор ас нс хет рт с с с с с п, с с лч 04 яч вш дш йш ОШ п С, II п п п , п п уд аж ож ви ди - жи зи Гл Гл, С Гл С с с с Ул н- би вн ГН ДН ен с с с с с п, с с ат ст ут РУ Це ч ИЧ н с с Гл с с С, .Сл • , ищ ущ ющ ящ бъ дь жь с п п п с с с ГК п ен с ст с рш п • ек зк с п жн ин п с ыт ят с с сш чш п п 11. Слова, оканчивающиеся на буквосочетание „ом“ йк п йн п их п ьш п лк п мн п ац с ащ п ав С, п ал с, п мн п ос с мк п нн п ИЦ с бщ п ев п, с ел с, п НН п рс с ок п он с КЦ с ущ п ов п, с ол с он с сс * с СК п тн с нц с ющ п ТВ с сл с пн п ус с тк п шн п ич с ящ п аг с ыл с ри п ат с с . Слова ад од с ем п, с тн п, с ет 9 , оканчивающиеся на буквосочетание .ой“ с зм с чи п ит с с яд с им II, с шн п кт Уб С, п йк с ВН п ЧН п аз с ом с ьн п нт с с с, п с п ьб ав с с, п лк ок с п, с ДН ен п с, п ШН щн п п ак зк с, п п, с ан бн с II ар ДР с, п с от рт ев п, с рк с жн п ьн п ик с, н вн п ер с ст V», 11 гт о ив ов ад ид п, с п с с СК тк ЦК чк п, с с, п п с зн ИН йн КН п, с с, п п, с п ян ор тр УР п п, с п, с с лк ок 7 СК тк с с, п п, с с ДН ен ; жн ин п с п с, п ир ор тр ес с с, п с, п с ут ыт ух ьш 11) п, с с п 148 149
Продолженае табл. 8.4 4 я и Згя буквьь -с конца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов 4-я и, 3-я буквы с конца слова Классы ' слов 4-я и 3-я буквы с конца слова Классы слов 12, Слова, оканчивающиеся на буквосочетание „ен“ об Гп ' еж Гп бм Гп СТ с, г ав С, Гп лж Гп ем С му с ев С ож Гп, С ДН Гп аф с ив Гп уж Гп ен Гп ач Гп ьв С ез С, Гп ин Гп, С ич Гп нг с ек С лн Гп уч Гп рг с ьк С рн Гп, С юч Гп ад с вл Гп ян Гп еш Гп ГД с ал Гп ро Гп иш С ед Гп, С бл Гп бр Гп ОШ Гп жд Гп ВЛ ’ Гп ер Гп, С рш Гп нд С ел Гп, С РР С уш Гп од С, Гп ил Гп тр Гп, С ьш Гп рд С лл С юр С ащ Гп аж Гп, С мл Гп ее Гп ещ Гп бж Гп пл Гп, С рт С ущ Гп 13. Слова, оканчивающиеся на буквосочетание „но“ ва Гп де Гп ОЙ н ес Гп, H да Гп же Гп ок с яс Н жа Гп ле Гп, С Гп ол Гп ат Н за Гп не ан Н ет Н, Гп ла Гп ое Гп ен н от Н са Гп ре Гп, С ин н ст Н, Гп та Гп, С се Гп, С Гп он н ыт Н об Н, Гп че ян н ют Н ав Н, Гп ше Гп о * с ят Гп, Н ив Н ще Гп __ ап н ач Н ов Н, Гп аж Н уп Гп еч Гп ыв Н еж Гп ар н, с ич Н, Гп ид Гп ож Гп, Н ер Н, Гп оч Н, Гп од Н, С аз Гп, Н ир н еш Н уд Н ай Н ор Н, Гп ль H, Сл ве С ей Н ас Гп, Сл ря Гп 14. Слова, оканчивающиеся на буквосочетание „ет“ ва Гл ОВ с л • с СТ Гл га Гл св с ал с бу Гл да Гл _ ТВ с ол с ВУ Гл жа Гл цв с ем с ду . Гл ка Гл ед Гл им Гл зу Гл ла Гл ид Гл йм Гл РУ Гл ма Гл йд *Гл ом с ту Гл на Гл уд Гл н Сл аф С 150
W'bV' fc-l’ . > Продолженае табл. 8.4 ЙЯ З’я l&fJbl С jfepi слова Классы слов 4-я и 3-я буквы с конца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов 4-я и 3-я буквы с конца слова Классы слов’ fe -' Гл ле" Гл ан Гл 04 Гл №: Гл пе Гл ГН Гл СЧ С, Сл ^ta Гл аж Гл КН Гл уЧ С $ g "Жа Гл ДЖ С ЧН Гл иш Гл 1ца Гл О ж Гл ~ ар С ИЯ Гл |ча Гл ак С ес Гл ЛЯ Гл &ша Гл ик с ет Гл НЯ Гл 1 Мща Гл рк с ИТ С ря Гл 1 н? Ь- 15., Слова, оканчивающиеся на буквосочетание „му“ /4 ЙО <аг С ше п бр П ро с,,п ^де. . •не с ще II во п, н то П, Н п, с ъе с го II шо П "W.4 УШ • п, н ье - . п до п ар С * те , II из с КО п, с ор С с си с ЛО II УР с >> хе с ой с МО п,н му с W" fe че с, н ам с но п, н шу с 16. Слова, оканчивающиеся на буквосочетание „ны“ ва Гп ме с ли с ко с га с не Гп ми с ЛО с да Гп ое Гп ри с ро с за Гп ре Гп, С чи с ф°4 с ка С се . Гп ши с ьо с x . ла Гп, С че Гп щи с ил Гп ма Гп ше Гп ай с уп Гп JO \ра С, Гп ще Гп ой с ер С, Гп са Гп ИЖ 'Гп ол с ас Гп та Гп лж Гп ен Гп, С ес С, Гп об Гп ож Гп ян Гп от Гп b ив Гп уж Гп го с ст Гп од Гп би С ДО с . ят Гп де Гп ВИ С 30 с ят Гп же Гп ди С ио с оч Гп ’ ле Гп, С зи С ЙО с ль Гп S- i; 17. Слова, оканчивающиеся на буквосочетание „сь“ ;;,< fc ла Гп ки С ЛО Гп ея Н i ве П ли Гп аю Гл оя Н де Н ти Ги ею Гл уя Н ме С ши Н ая н яя Н |k. <• _ те Гл О С дя н — — чЯ' - 0 151
родолжение табл. 8.4 4-я и 3-я буквы с конца слове Класс! слов э1 4-я и 3-я буквы с конца слов Классы слов а — 4-я и 3-я буквы с конца слов; Классы слов а 4-я и 3-я буквы с конца слов; Классы слов а 18. Слова, оканчивающиеся на буквосочетание „ть“ ба Ги ча Ги, С ЛИ Ги ИС с ва Ги ша Ги МИ Ги ОС с га Ги ща Ги НИ Ги НУ Ги да Ги де Ги ои Ги пу С жа Ги Ги ле Ги пи Ги бы Ги за % ме Ги ри Ги ры Ги ка Ги, Cj пе Ги СИ Ги ея Ги ла Ги ре Ги, С ти Ги ИЯ Ги ма Г и се С, Ги чи Ги ЛЯ Ги на Ги те Ги ши Ги мя Ги па ра I и Ги би ВИ Ги Ги щи ло Ги Сл, С ня оя Ги Ги са Ги Ги ДИ Ги ер С пя с, н та жи Ги ас С, Ги ря Ги ца С, Ги зи Ги ес С, Гл ся С • 19. Слова, оканчивающиеся на буквосочетание „ая“ аб II ГК П НН П нч н юб - II ок П пн П 04 п ев п, н СК П, Н рн П ЮЧ н ив н, п тк п сн П вш п ов п ал п тн II еш н рв Г1 ел II чн П йш II ыв н ам II шн П ОШ п аг н ем п щп П рш н Уг п им и, н ьн П сш II ад н бн п уп П чш п жд н, п вн II ар П ьш п, н ид н ДН п ор П ащ п, н юд н жн п ~ ат П ещ н аж н зн п, н ст п, н ущ II лж н йн п ыт II ющ п ак п мн II ят п ящ п 20. Слова, оканчивающиеся на буквосочетание „ся“ рг Гп ал Гп го п ят Гл ее п ил Гп но н му п ие п ол Гп ат ’ Гл их п не Н ул Гп ет Гл ть Ги ми п ял Гп ит Гл чь Ги ей п ем П, Гл ут Гл ую п 'ий п им П, Гл ют Гл ая п 4) Занести в массив результатов содержимое клетки, выбранной в п. 2. Конец работы алгоритма. 5) Проверить условие: и>2 (п — число букв в сло- ве). При выполнении условия перейти к п. 6, при невы- полнении — к и. 4. 6) Выделить 3-ю и 4-ю буквы от конца анализируе- мого слова. Перейти к п. 7. 7) По отсылочному номеру из п. 3 обратиться к табл. 3.4 и найти в ней сочетание букв, выделенное в п. 6. При положительном результате поиска перейти к п. 8, при отрицательном — к п. 4. ' 8) Выбрать из табл. 8.4 и занести в массив резуль- татов символ грамматического класса (или сочетание символов), соответствующий исходным данным, указан- ным в п. 7. Конец работы алгоритма. В результате работы приведенного алгоритма в не- которых случаях для одного слова указываются два сим- вола классов. Если в дальнейшем требуемся однознач- ное определение грамматического класса, то берется только один символ, стоящий слева. Если допускается определение класса с точностью до двухзначной омони- мии, то используются оба символа классов. Информация о грамматическом классе слова может быть использована для автоматического выделения бук- венного состава его основы. Это делается путем после- довательного отделения букв от конца слова и сравнения полученных таким образом буквосочетаний со списком окончаний, соответствующим грамматическому классу слова. Если грамматический класс слова определялся с'точностью до двухзначной омонимии, то сравнение ве- дется по двум спискам окончаний. Из перечня вариан- тов окончаний, найденных таким образом в списках, : в качестве основного варианта принимается окончание максимальной длины. Это окончание и используется для , выделения буквенного состава основы слова. . ' Разрешается отделять от конца слова не более трех букв, а при наличии возвратных частиц — не более пяти букв. Если после отделения окончания в конце слова оказывается «внутренний» мягкий знак (например, Бело- ве «степью»), то он 'исключается из состава основы слова. Согласно описанной процедуре выделения основ был обработан словарь словоформ объемом около ЗООООеди- 153 152
ниц. При этом в 95,7%' случаев основа слова выделялась правильно. Неправильное выделение основы происходи- ло большей частью за счет иностранных слов и русских неизменяемых слов. Если иностранные слова не рассмат- ривать, то вероятность правильного выделения основу повышается до 0,97. Интересно отметить, что если исклюй чить из рассмотрения классы слов, не встречающиеся в именных словосочетаниях (все глаголы и большинство неизменяемых слов), то вероятность .правильного выде- ления основы слова повышается до величины 0,985. Алгоритм определения классов слов по их буквенным кодам был проверен на текстах различного характера. При этом исследовался не только основной вариант ал- горитма (с использованием табл. 8.3 и 8.4), но и ряд других вариантов: с использованием только табл. 8.3; с использованием табл. 8.3 в сочетании со словарем,' включающим 100 наиболее часто встречающихся слов;^ с использованием табл. 8.3 и 8.4 в сочетании со слова- рем из 100 слов. Все тексты брались объемом в 1000; слов. Результаты исследований сведены в табл. 8.5. Из данных табл. 8.5 видно, что по надежности одно- значного определения классов слов варианты построе- ния алгоритма, соответствующие столбцам 3 и 4, при- мерно Эквивалентны друг другу. А объем необходимых^ табличных данных во втором случае значительно мень- ше, чем в первом 1(табл. 8.4 включает 1139 буквосоче- Таблица 8.5 Вероятность правильного определения грамматических, классов слов в текстах при различных вариантах построения , алгоритмов ) • Характер текста Вероятность правильного определен ния класса по табл. 8.3 Вероятность правильного определения класса по табл. 8.3 и 8.4 Вероятность правильного определения класса по табл. 8.3 и по списку из 100 слов Вероятность правильного . определения класса по табл. 8.3 и * 8.4 и по списку : из 100 слов Научно-технические тексты Именные словосоче- тания, являющиеся наименованиями объек- тов или их характе- ристик 0,773 0,976 0,880 0,989 0,922 0,984 0,963 0,990 154
таний). Максимальная надежность в определении грам- матических классов слов получается в случае именных словосочетаний. В автоматизированных информационно-поисковых си- > стемах алгоритм определения классов слов по их буквен- ным кодам может применяться как самостоятельно, так и в сочетании с алгоритмом «точного» 'морфологического анализа. Его можно реализовать в различных вариан- тах. Если ставить целью только однозначное определе- ние класса слова, то, как показывают расчеты, для хра- нения признаков классов в памяти машины типа М’-20 требуется: для варианта алгоритма, указанного в столб- це 3 табл. 8.5,-470 ячеей, для варианта алгоритма, указанного в столбце 4 этой таблицы,— 184 ячейки. Количество признаков, хранимых в памяти машины при использовании первого, варианта алгоритма, можно существенно уменьшить, если из табл. 8.4 исключить все буквосочетания, которые определяют тот же класс, что и табл. 8.3. Тогда для хранения признаков классов по- требуется не 470, а только 250 ячеек памяти. Первый вариант алгоритма -определения классов слов был реализован в 1966 г. на машине типа М-20 совмест- но с алгоритмом выделения основ. При этом программа определения классов слов содержала 367 приказов, а программа выделения основ — 371 приказ. Таблицы признаков для определения грамматических классов слов (аналоги таблиц 8.3 и 8.4) могут быть вы- полнены сменными,, так что одна и та же программа мо- жет быть настроена для.работы с неформализованными текстами и с именными словосочетаниями. Таблицы для именных словосочетаний могут быть получены по табл. 8.3 и 8.4 путем замены указанных в них символов наиболее вероятных грамматических классов., слов на символы. наиболее вероятных классов, встречающихся только в именных словосочетаниях. Если такая замена оказывается невозможной, то для соответствующего бук- восочетания указывался грамматический класс «С» (су- ществительное). Определение флективных классов слов по их конечным буквосочетаниям. Анализ и синтез форм слов В начале главы было указано, что при автоматиче- ском синтаксическом анализе текстов обычно ’можно ограничиться сведениями о принадлежности «новых» • 155
слов к обобщенным грамматическим классам. Но длз перевода сообщений с информационного языка на естест венный этих сведений недостаточно. Нужна процедур; автоматического анализа буквенных кодов слов, которая позволила бы получить исходные данные для синтезе различных форм слов. Если отвлечься от такого сравни- тельно редкого явления, как изменение основы, слова при изменении его формы, то задача анализа «новых» слов сводится к задаче выделения их основ и определе- ния флективных классов. Флективные классы слов делятся на группы по принадлежности к обобщенным грамматическим клас- сам, а класс существительных, кроме того, делится на подгруппы по признаку рода и одушевленности (см. табл. 7.1). Поэтому прежде всего представляет интерес возможность правильного определения признаков рода и одушевленности существительных. Для выяснения это- го вопроса был проведен анализ обратного частотного словаря объемом . 30 000 единиц и обратного словаря основ наиболее часто встречающихся слов объемом 5 000' единиц (см. приложения 3 и 4). С конца каждой слово- формы или основы слова последовательно отделялись' буквы и сочетания букв и для каждого буквосочетания строилось распределение частот появления ассоцииро- ванных с ним грамматических категорий. Буквосочета^ ние считалось отличительным признаком того значения грамматической категории, вместе с которым оно цаще всего встречалось. Формальные признаки флективных классов слов определялись по аналогичной методике. Оказалось, что у существительных имеет место кор- реляционная зависимость между значениями категории рода (мужской род, женский род, средний род) и гра- фическим изображением слова (см. табл. 8.6). Выясни- лось'также, что выгоднее определять признак рода существительных по конечным буквосочетаниям их основ, чем по конечным буквосочетаниям словоформ. Так, с помощью списка двухбуквенных сочетаний объ- емом 244 элемента можно определять грамматический род существительных с вероятностью 0,85. Если же ис- пользовать для определения рода дополнительно 3-ю и 4-ю буквы от конца основы, .то можно повысить веро- ятность правильного определения рода до величины 0,98. При этом список сочетаний 3-й и 4-й букв включает 234 элемента. 156
Табл и ji а 8.6 Вероятность правильного определения рода существительных, по конечным буквосочетаниям словоформ Количество букв в признаке 1 2 3 4 5 Вероятность правильного опреде- 0,62 0,76 0,85 0,92* 0,93 ления рода Объем словаря признаков 30 323 926. 2403, 2593 В табл. 8.6 приведены полные объемы словарей одно- буквенных и двухбуквенных признаков грамматического рода. Трехбуквенные и четырехбуквенные признаки при- влекались для определения рода существительных толь- ко тогда, когда количество словоформ словаря, непра- вильно расклассифицированных по двухбуквенным при- знакам, превосходило число девять. Количество отобран- ных таким образом трехбуквенных и четырехбуквенных признаков в сумме с общим количеством двухбуквенных признаков приведено в ’ четвертом и пятом столбцах табл. 8.6 (в нижней строке). Пятая буква привлекалась для уточнения грамматического рода слова только тог- да, когда количество словоформ, неправильно расклас- сифицированных по четырехбуквенному признаку, было больше двух. При этом использовались двухбуквенные, четырехбуквенные и пятибуквенные признаки. Суммар- ный объем перечней этих признаков приведен в шестом столбце табл. 8.6. При определении рода существительных по буквен- ным кодам основ слов использовался полный перечень их конечных двухбуквенных сочетаний, а обращение к со- четаниям 3-й и 4-й букв от конца основы происходило в тех случаях, когда хотя бы один из элементов словаря классифицировался неправильно. Следует также огово- рить, что из состава перечня сочетаний 3-й и 4-й букв были исключены сочетания, которые не оказывали влия- ния на результаты, получаемые по 1-й и 2-й буквам от конца основы слова. Значения категории одушевленности существитель- ных, как показали исследования, определяются по ко- нечным двухбуквенным сочетаниям основ слов с вероят- ностью 0,94, а с привлечением 3-й и 4-й букв от конца основы—х вероятностью 0,99. При этом список сочета- 157
ний 1-й и 2-й букв от конца основы включает 244 эле-1 мента, а список сочетаний 3-й. и 4-й букв — 424 элемента. ! Необходимо заметить, что флективные классы оду- ' шевленных существительных'являются аналогами соот- j ветствующих флективных классов неодушевленных су-; ществительных мужского и женского рода (отличие про- является только в винительном падеже), а встречаются они в текстах довольно редко i(c вероятностью 0,05). По- этому при рассмотрении способов приближенного морфо- логического анализа и синтеза слов категорию одушев- ленности можно не учитывать. Для определения флективных классов слов целесооб- разно использовать следующие их признаки: а) принад- лежность к обобщенному грамматическому классу; б) значение категории рода (для существительных); в) грамматическое окончание; г) конечные буквосоче- тания основы. Конечные буквосочетания основ слов (двухбуквенные и четырехбуквенные), необходимые для определения флективных классовГвыявлялись по обрат- ному словарю словоформ раздельно для каждого соче- тания обобщенного грамматического класса и окончания слова, а в случае существительных — раздельно для каждого сочетания значения категории рода и оконча- ния слова. Двухбуквенные сочетания использовались в полном объеме, а четырехбуквенные—.лишь тогда, когда по двум буквам флективный класс определялся неоднозначно. В соответствии с вышеизложенным процедура при- ближенного морфологического анализа слов, ориентиро- ванная на их последующий синтез, должна состоять из следующих этапов: • . 1) определение обобщенного грамматического класса слова и членение слова на основу и окончание; 2) определение грамматического рода существитель- ных (по буквенному коду основы слова); . 3) определение номера флективного класса слова (по его обобщенному грамматическому классу, признаку рода, окончанию и конечным буквосочетаниям основы); 4) определение номера набора переменной граммати- ческой информации к слову (по табл. 7.4). На этапах 1—3 морфологического анализа для полу- чения грамматической информации о <;лове используют- ся таблицы двухбуквенных и четырехбуквенных призна- ков. Общий объем этих таблиц составляет 11066 элемен- 158
тов *. Если изъять из них четырехбуквенные признаки, не несущие новой информации по сравнению с двухбук- венным признаками, то их общий объем может быть со- кращен до. 6 566 элементов. Этап 4 приближенного мор- фологического анализа выполняется по тем же правилам, что и при точном морфологическом анализе: номер на- бора переменной грамматической информации к слову определяется по номеру флективного класса и номеру окончания. Процедура приближенного морфологического анали- за была опробована на текстах двух типов; а) неформа- лизованный текст; б) список именных' словосочетаний (наименования объектов и их характеристик). Оба тек- ста имели объем 1000 слов. Оказалось, что на произ- вольных текстах* флективный класс слова определяется правильно с вероятностью 0,88, а в именных словосоче- таниях— с вероятностью 0,95. При этом номера наборов грамматической информации определялись правильно с вероятностями соответственно 0,89 и 0,98. Различие в уровнях вероятности правильного опреде- ления флективных классов слов в неформализованных текстах и в именных словосочетаниях объясняется раз- личием в уровнях вероятности правильного определения обобщенных грамматических классов слов в этих двух видах тзкстов. В именных словосочетаниях по сравне- нию с неформализованным текстом более высокий уро- вень вероятности, правильного определения обобщенных грамматических классов достигается за счет уменьшения числа классов, подлежащих опознаванию. Правильность определения флективных классов слов гарантирует правильность последующего синтеза их форм. Но слова могут синтезироваться правильно и в тех случаях, когда их принадлежность к флективным клас- сам определена неверно. Это возможно вследствие того, что у разных флективных классов слов системы оконча- ний могут частично совпадать. t целью проверки эффективности процедуры прибли- женного морфологического синтеза' (точнее, процедуры морфологического синтеза, основанной на определении флективных классов слов по их конечным буквосочета- ниям) был проведен следующий экспешимент. Для не- * Таблицы признаков флективных классов были составлены И. М. Давыдовой. 159
формализованного текста объемом 1000 слов и списка именных словосочетаний такого же объема были опре-: - делены по описанным выше правилам флективные клас- сы всех входящих в них слов. После этого были состава лены перечни попарно-различных основ слов отдельно для неформализованного текста и для списка именных словосочетаний. Далее, для каждой основы слова были синтезированы все различные словоформы. Обнаружи- лось, что вероятность правильного синтеза форм слов по’ их основам^ взятым из неформализованного текста, рав- на 0,88, а вероятность правильного синтеза форм слов по основам,'взятым из списка именных словосочетаний,— 0,98. Если учесть неравномерность распределения частот; появления в текстах различных форм одного и того же. слова (например, с помощью частотного словаря слово- форм), то вероятности рравильнсто синтеза форм слов будут равны: для неформализованного текста 0,98, для именных словосочетаний 0,99. Таким образом, на основе процедуры приближенного морфологического анализа можно выявлять грамматичен ские признаки слов, которые позволяют осуществлять’ морфологический синтез с высокой степенью надежности. Определение флективных классов «новых» слов с помощью словаря В предыдущих разделах настоящей главы было по- казано, что в русском языке имеет место тесная связь между грамматическими признаками слов и буквенным оформлением их концов. Это дает основание предпола- гать, что для «новых» слов грамматические признаки мо- гут назначаться по аналогии со словами, ранее включен-, ными в словарь, если конечные буквосочетания «новых» слов и слов из словаря совпадают. Для определения степени совпадения конечных бук- восочетаний различных слов автором было проведено два эксперимента. Один из них проводился с использо- ванием словаря словоформ объемом 15 000 наиболее часто встречающихся единиц, а другой — с использова- нием эквивалентного ему по заполнению текстов словаря основ объемом 5000 наиболее часто встречающихся еди- ниц. В процессе обоих экспериментов фиксировались только случаи максимального совпадения концов «но- вых» слов с концами слов из словаря. В эксперименте 160
со словарем основ слон общее количество совпавших букв у сравниваемых слов определялось как сумма ко- личества совпавших букв у их основ и количества букв в окончании «нового» слова при условии, что . это окон- чание совместимо с основой слова из словаря. В результате экспериментов были получены распре- деления частот появления максимальных значений коли- чества совпавших конечных букв у «новых» слов и у слов из словаря .(отдельно для словаря словоформ и для словаря основ слов). Эти распределения приведены в табл. 8.7. Средние значения количества совпавших Таблица 8.7 Распределение частот появления различных, значении максимального количества совпавших конечных букв у „новых*' слов и у слов из словаря Максимальное количество совпавших букв Частота Максимальное количество совпавших букв Частота по слова- рю основ по словарю словоформ по слова- рю основ по словарю словоформ 1 0,005 10 0,040 0,018 2 0,046 0,046 11 0,009 0,009 3 0,104 0,131 12 0,005 0,019 4 0,176 0,144 13 0,002 0,004 5 0,196 0,189 14 0,002 0,002 6 0,170 \ 0,182 15 0,005 0,002 7 0,138 0,106 16 — 8 0,052 0,074 17 — 0,002 9 0,050 0,072 — — — букв в обоих экспериментах оказались равными вели- чине 5,6. По словарю словоформ грамматические признаки «новых» слов могут’определяться следующим образом: 1. «Новая» словоформа сравнивается со словоформа- ми, из словаря, и фиксируются все случаи совпадения концов словоформ. 2. Из словаря выбираются словоформы, у которых длина конечных буквосочетаний, совпавших с конечным буквосочетанием нового слова, является максимальной. Если выбирается только одна Словоформа, то ее грам- матический признак считается грамматическим призна- ком новой словоформы; если выбирается группа слово- форм, то для этой группы строится распределение частот Н-ЗЮ 161
появления грамматических признаков и новой словоформ мё назначается наиболее частый признак. Процедура определения грамматических признаков новых слов по словарю основ аналогична процедуре их определения по словарю словоформ. Отличие состоит в способе выбора словарных элементов, по которым про- изводится назначение признаков. Здесь у исходной сло- воформы отделяются все возможные варианты грамма- тических окончаний, а полученные таким образом вари- анты основ слов сравниваются с основами словаря. Фиксируются все случаи совпадения концов основ «но- вого», слова с концами основ из словаря при условии, что соответствующие варианты окончаний нового слова совместимы со словарными основами (совместимость основ и окончаний проверяется по табл. 7.4). В каждом случае определяется сумма количества совпавших букв в сравниваемых основах и количества букв в окончании «нового» слова. Из словаря выбираются основы с маю симальным значением суммы. Выбранные основы ис- пользуются для назначения, грамматических, признаков «новому» слову. Возможность определения грамматических признаков «новых» слов с помощью словаря была проверена на примере обобщенных и флективных классов. Оказалось, что в неформализованных текстах с помощью словаря основ обобщенные грамматические классы определяются правильно с вероятностью 0,96, флективные классы — с вероятностью 0,89. С помощью словаря словоформ .об- общенные классы «определяются правильно с вероятно- стью 0,95, флективные классы — с вероятностью 0,91. В именных словосочетаниях обобщенные и флективные классы слов определялись точнее: обобщенные классы— с вероятностью 0,99; флективные классы — с вероятно- стью 0,95, причем данные, полученные с помощью сло- варя основ слов и с помощью словаря словоформ, сов- падали. Таким образом, словарь основ слов и словарь слово- форм могут быть использованы в качестве средства для определения грамматических признаков «новых» слов. При этом отпадает необходимость в специальных спи- сках конечных буквосочетаний слов. 162
Глава 9 АВТОМАТИЧЕСКОЕ КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ НАИМЕНОВАНИЙ ПОНЯТИЙ В автоматизированных информационных системах, основанных на формализованной записи сведений, ши- _ роко используются понятия, выраженные отдельными словами и именными словосочетаниями. Эти понятия мо- гут обозначать различного рода объекты, их характери- стики, рубрики классификационных схем и т. п. В имен- ных словосочетаниях главным словом (основным носи- телем смысла) является, как правило, первое слева существительное, а остальные слова служат для уточне- ния значения главного слова. * ‘ Буквенные коды наименований понятий имеют боль- шую избыточность и могут иметь разную длину. Их применение в ЭВМ приводит к нерациональному исполь- зованию памяти и создает практические неудобства при автоматическом поиске и обработке информации. По этой причине понятия в машинах представляются не по- буквенными кодами их словесных обозначений, а более короткими кодовыми комбинациями. В качестве кодов понятий используются порядковые номера их наимено- ваний по списку или специальные индексы, отражающие схему классификации этих понятий. Переход от ^наименований понятий к "машинным ко- дам может осуществляться. вручную и автоматически . с помощью ЭВМ. В последнем случае более удобным является кодирование понятий их номерами по списку. В процессе дальнейшей- обработки информации по номе- рам понятий могут выбираться любые кодовые комби- нации,* описывающие свойства этих понятий. Именные словосочетания могут включать в свой со- став следующие классы слов: "существительные (С),при- лагательные (П), предлоги (Р), сочинительные союзы (&) и наречия (Н). Наряду с полными буквенными ко- дами слов в составе именных словосочетаний встреча- ются также аббревиатуры, буквенно-цифровые обозна- чения и числа. Эти элементы словосочетаний обычно вы- ступают в роли существительных и значительно реже в роли прилагательных (например, порядковые числи- тельные в цифровом выражении). Количество слов в наименованиях понятий колеблет- ся в пределах от одного до десяти — пятнадцати и в среднем равно примерно трем. Слова могут находить- 11* 163
Глава 10 АВТОМАТИЧЕСКОЕ УСТАНОВЛЕНИЕ СМЫСЛОВЫХ СВЯЗЕЙ МЕЖДУ понятиями Классификационный словарь понятий Под термином «классификация» обычно, пони- мается распределение объектов по классам на основе присущих им признаков. Классификация имеет важное значение/так как она является обобщенным выражением опыта, накопленного человечеством в различных обла- стях деятельности, и позволяет формулировать законы, правила и практические рекомендации для групп объек- тов. В ряде случаев решение об использовании какого- либо единичного объекта может быть принято только на основе знаний о его принадлежности к определенному- классу и характеристик этого класса. Классификация широко используется в науке, на про- изводстве и в быту. Она * отражается в системе понятий естественного языка, являющегося универсальным сред- ством общения, людей. Как правило, понятия в языке обозначают не единичные объекты, а классы объектов Даже имена собственные обычно распространяются на группы объектов, из которых единичные элементы выде- ляются лишь в конкретной речевой ситуации. В клас- сификации отражаются свойства вещей и явлений; Эти свойства столь же многообразны, сколь многообразны взаимные связи между вещами и явлениями. Поэтому в различных науках и в разных сферах практической деятельности одни и те. же вещи и явления могут груп- пироваться по-разному. Даже в пределах одной науки или одной сферы практической деятельности в зависимо- сти от поставленной Цели применяются различные си- стемы классификации. Классы объектов, как и индивидуальные объекты, могут находиться в различных отношениях друг к другу. Выявление отношений между классами объектов являет- ся задачей специалистов в конкретных областях знаний И практической деятельности. В АИС эти отношения фиксируются в виде сообщений и используются для по- иска сведений по запросам. Наиболее устойчивыми являются отношения включе- ния по объему (родо-видовые отношения) и отношения типа «целое—часть». Эти и некоторые другие отношения 176
между классами часто быДелйютсй в ёЙё!ШЛЫШё Мас- сивы сообщений, которые носят название классифи- кационных схем, классификационных таб- лиц или классификационных словарей. В классификационных схемах фиксируются дакже' отно- шения эквивалентности между классами, которые можно рассматривать в качестве частного случая родо-видовых отношений ;(каждый из двух эквивалентных классов включает в свой состав другой класс). Свойство, принадлежащее некоторому классу объек- тов, принадлежит и всем более узким классам, входя- щим в его состав. Поэтому какова бы ни была тема за- проса при поиске информации, всегда можно наряду ‘ с данными^ в точности соответствующими сформулиро- . ванной теме, выдавать потребителю также данные по более узким темам. Аналогичное правило может быть распространено и на отношения типа «целое — часть». Но здесь его при- менение может привести к неверным результатам, так как далеко не всегда свойства объектов являются свой- ствами и частей этих объектов. Тем не менее, отношения типа «целое — часть» широко используются для поиска информации. При этом в классификационных схемах стремятся фиксировать не все возможные связи между понятиями, а только такие, которые могут быть полезны при выполнении поисковых операций. Наряду с родо-видовыми отношениями и отношения- -ми типа «целое — часть» в классификационных схемах иногда отображаются и так называемые ассоциатив- ные связи. .В основе ассоциативных-связей могут Хлежать самые различные отношения между понятиями. Важно лишь, чтобы эти отношения были устойчивыми и отражали характер мышления человека при поиске ин- формации. Использование ассоциативных связей расши- ряет поисковые возможности АИС, но одновременно при- водит к увеличению доли ненужных сведений в ответах на запросы. . ' Будем считать понятие В подчиненным понятию А, если первое понятие является более узким по объему, чем второе, или если оно обозначает составную часть объекта, соответствующего второму понятию. В памяти машины система отношений подчинения между понятия- •« ми обычно представляется в виде таблицы, в которой каждому номеру понятия ставится в соответствие пере- 12—310 177
йёйь Номеров подчиненных ему понятий. Эта таблица получила название классификационного слова- ря п о н я т и й. Простейшей формой представления классификацион- ного словаря в памяти ЭВМ является последователь- ность номеров понятий, связанных между собой по смы- слу. В каждой группе на первое место записывается номер подчиняющего понятия, а после него—номера под- чиненных понятий. Группы упорядочиваются по возрас- танию номеров подчиняющих понятий. Номера подчи- ненных понятий располагаются в пределах группы в про- извольном порядке. Последовательность групп номеров понятий записы- вается в памяти машины в виде непрерывного массива, причем в каждой ячейке размещается по несколько но- меров. Группы отделяются одна от другой разделитель- ными признаками, имеющими такую же разрядность, как и номер понятия. Поиск в словаре ведется путем его последовательно- го просмотра и сравнения номера заданного понятия с номерами понятий, стоящими после разделительных признаков. При совпадении заданного номера понятия с соответствующим номером понятия из словаря в каче- стве результата поиска выдается группа номеров поня- тий, заключенная между двумя соседними разделитель- ными признаками. Описанная форма представления классификационно' го словаря является достаточно компактной. Но здесь много времени занимает поиск. Существенного ускоре- ния процесса поиска можно добиться, вводя в словарь дополнительный массив относительных адресов, обеспе- чивающих непосредственное обращение к началам групп номеров понятий, связанных по смыслу. С введением относительных адресов отпадает • необ- ходимость в разделительных признаках между группами номеров понятий. Кроме того, если номерам понятий по- ставить в соответствие адреса групп номеров подчинен- ных им понятий и упорядочить эти адреса по возраста- нию номеров подчиняющих понятий, то тогда номера подчиняющихся понятий можно изъять из состава групп и использовать Их для обращения к массиву относитель- ных адресов. Сформированный таким образом массив относительных адресов может быть записан компактно (по несколько адресов в одной ячейке), а местоположе- 178
ние каждого адреса (номер ячейки А и номер -позиции в ячейке t) можно будет определять согласно выраже- ниям Л = Л, + £[^], Z = Res[^]+l. (10.1) Здесь Ло — адрес ячейки, с которой начинается запись массива относительных адресов; п— количество относи- тельных адресов в одной ячейке; х — номер понятия, по которому ведется поиск в словаре; Е — оператор выде- ления целой части числа; Res — оператор определенця остатка от деления. Поиск в словаре ведется в два этапа. Сначала по номеру понятия -с помощью формул (10.1) определяется место хранения относительного адреса соответствующей группы номеров подчиненных понятий. После этого по относительному адресу выбираются элементы группы. Конец группы определяется по относительному адресу группы, следующей за искомой. Если группы номеров понятий хранятся в памяти машины в виде непрерывного массива, то в качестве относительных адресов можно использовать порядковые номера начальных элементов групп в массиве. Местоположение этих элементов можно определить по формулам вида (10.1). Существенным недостатком рассмотренного способа представления классификационного словаря в памяти машины является необходимость его перестройки при введении новых связей между понятиями. Добавление новых элементов в какие-либо группы подчиненных по- нятий потребует высвобождения для них места в памяти и перемещения элементов других групп. Последнее, в свою очередь, связано с необходимостью изменять от- носительные адреса. Можно избежать перестройки классификационного словаря при его дополнении, если в группах номеров подчиненных понятий допустить разрозненную запись элементов и указывать связь между ними с помощью адресных отсылок. Тогда каждый элемент в группе бу- дет представлен номером понятия и адресной отсылкой к следующему за ним элементу той же группы. У по- следнего элемента будет нулевая адресная отсылка (при- знак конца группы). Адресные отсылки к первым эле- ментам групп записываются в виде отдельного массива и обращаются к ним по номерам понятий. 12* 179
• . - / Поиск групп подчиненных понятий производится цеп- ным способом. Этот способ используется также при до- полнений словаря для отыскания мест записи последних элементов групп подчиненных понятий. Номера новых понятий пишутся в Конце массива номеров подчиненных понятий^ а адресные отсылки к ним заносятся вместо нулевых отсылочных адресов у последних элементов групп. Если какие-либо понятия ранее не имели подчи- ненных им понятий, то адресные отсылки к новы'м поня- тиям записываются на место адресных отсылок к пер- вым элементам групп. Целью поиска по_ классификационному словарю, является получение для каждого заданного понятия пе- речня всех подчиненных ему понятий. Эта цель может быть достигнута в наибольшей степени, если обращаться к словарю многократно, так чтобы номера подчиненных понятий, полученные на предыдущем этапе поиска, слу- жили исходными данными для последующего этапа. Повторение процедуры поиска в словаре должно^ про- должаться до тех пор, пока на каждом из этапов нахо- дится хотя бы один номер подчиненного понятия или пока не будет выполнено заданное число повторений. Результаты отдельных этапов поиска объединяются, но -исключается дублирование одинаковых элементов. При независимом установлении связей между поня- тиями одни связи, иногда являются следствием других. Например, если между понятиями А; В и С зафиксиро- ваны связи А-^В, В^С и А-+С (-*—знак подчинения), то связь Д->С является следствием двух первых связей. Такая связь может быть исключена из словаря, так как она восстанавливается при объединении результатов, по- лученных на всех этапах поиска. Исключить из классификационного словаря избыточ- ные Связи можно автоматически с помощью ЭВМ. При этом из каждой группы подчиненных понятий исключа- ются понятия, которые подчинены другим понятиям груп- пы. Подчинение понятий устанавливается по классифи- кационному словарю. Степень сжатия словаря зависит от последовательности обработки групп. Хорошие ре- зультаты дает обработка групп в порядке убывания чис- ла элементов, входящих в их состав. Связи подчинения между понятиями иногда изобра- жают в виде иерархических деревьев. Такие деревья до- статочно наглядны и могут являться исходным материа- ле '
лом для построения экономичной системы парных связей между'понятиями с целью ее'ввода в . машину и оформ- ления в виде классификационного словаря. Но при боль- ших объемах списков наименований понятий (несколько тысяч или несколько десятков тысяч единиц) построение деревьев классификации оказывается чрезвычайно труд- ным, в особенности если список понятий богат синони- мами и требуется большая степень полноты отражения смысловых связей. Гораздо л^гче установить парные от- ношения между понятиями и ввести их в 'машину, а за- тем исключить избыточные связи. Ассоциативные связи между понятиями целесообраз- но записывать в классификационном словаре в виде от- дельного массива. Этот массив имеет структуру, анало- гичную' структуре' массива связей подчинения, с тем лишь отличием, что здесь, как правило, нельзя приме- нять многоэтапный циклический поиск. Его использова- ние привело бы к установлению слабых ассоциативных связей между понятиями и к резкому увеличению выда- чи лишней информации. В поисковых системах иногда требуется по заданно- му понятию’найти понятия, его подчиняющие. Эта зада- ча может быть выполнена путем просмотра словаря и выборки подчиняющих понятий для таких групп подчи- ненных понятий, которые включают в свой состав искот мое понятие. Поиск подчиняющих понятий можно уско- рить, если создать специальный массив кодов, в котором каждому понятию словаря ставится в соответствие груп- па подчиняющих его понятий.. Этот массив создается путем автоматической переработки массива групп под- чиненных понятий, ч Таким образом, классификационный словарь включа- ет в свой состав массивы кодов, отражающие связи под- х чинения между понятиями и ассоциативные связи. Для удобства выполнения поисковых операций связи подчи- нения могут представляться в виде двух массивов: 1) массива групп номеров подчиненных понятий и 2) массива групп номеров подчиняющих понятий. Эти массивы могут быть совмещены, если поиск в классификационном словаре производится цепным спо- собом. 181
Способы автоматического установления смысловых связей между понятиями по структуре их наименований В автоматизированных документальных и фактогра- фических системах, предназначенных для поиска сведе- ний по запросам, наряду с точными способами автома- тического отождествления наименований понятий могут применяться и приближенные. Они просты в реализации, дают сравнительно небольшой уровень поискового' «шу- ма» и обеспечивают большую полноту поиска информа- ции, чем точные способы. Можно, например, представлять понятия в памяти машины в виде последовательностей начальных букв или начальных буквосочетаний слов, входящих в состав их наименований. При этом,количество ложных отождест- влений разных по смыслу наименований понятий будет зависеть от выбранной длины начальных участков слов. В табл. 10.1 приведены результаты статистического Таблица 10.1 Отождествление наименований понятий по начальным буквам и буквосочетаниям слов, входящих в их состав 1 2 3 4 5 6 Количество слов в словосоче- тании Количество случаев ложного отождествления наименований понятий Количество случаев правиль- ного отождествления наиме- нований понятий 122 1006 1054 696 463 250 12*1 882 606 150 37 10 83 328 154 22 8 0 55 134 69 13 2 0 36 72 38 4 0 0 14 32 16 0 о о 0 6 20 12 10 2 0 34 46 20 12 2 0 48 66 20 12 2 0 71 66 24 12 2 0 46 50 22 12 2 3591 1806 595 273 150 62 144 148 175 132 обследования 3591 словосочетаний, взятых из рефератов статей по вопросам применения ЭВМ и автоматизации информационных работ. При формировании машинных кодов наименований понятий на первом месте записыва- лись начальные буквы или буквосочетания главных'слов этих наименований, а буквы и буквосочетания остальных 182
располагались по алфавиту. с)то давало возмож- ность легко отождествлять различные трансформацион- ные варианты словосочетаний. В процессе статистического обследования каждый код списка словосочетаний сравнивался со всеми другими кодами этого списка, а случаи совпадения кодов фикси- ровались. Если в процессе сравнения совпадали коды одинаковых по смыслу наименований понятий, то его результаты считались правильными, в противном слу- чае— ложными. Результаты сравнения считались лож-ч ными и в тех случаях, когда в группе синонимичных наи- менований понятий с одинаковыми кодами оказывалось хотя бы одно наименование, отличающееся по смыслу от анализируемого. Из табл. 10.1 видно, что с увеличением длины началь- ных участков слов, включаемых в состав кодов понятий, число случаев ложного отождествления разных по смы- слу наименований понятий уменьшается, а число случаев правильного отождествления синонимичных понятий увеличивается. При использовании в качестве кодов слои четырех начальных букв доля ложных отождествлений понятий уменьшается до 4,2%' от общего числа наимено- ваний списка. Для сравнения в табл. 10.1 приводятся сведения о количестве случаев правильного и ложного совпадения кодов понятий при условии, что все слова кодируются четырьмя начальными согласными буквами. Наряду с задачей отождествления одинаковых по смыслу наименований понятий в АИС возникает необхо- димость выборки из словаря всех понятий, подчиненных заданному (всех более узких по объему понятий). Эта задача может быть частично выполнена путем использо- вания синтаксической и семантической структуры имен- ных словосочетаний. Так, понятие В можно считать под- чиненным понятию А, если совпадают главные слова их наименований, а словарный состав и дерево фразы, вы- ражающей понятие А, являются частью словарного со- става и дерева фразы, выражающей понятие В. Эквива- лентность двух понятий по смыслу можно считать част- ным случаем подчинения (понятие В подчинено понятию А, и одновременно понятие А подчинено понятию В). Указанный критерий установления отношений экви- валентности и подчинения между понятиями может быть ослаблен, если не требовать обязательного учета схем связей между словами в словосочетаниях, а для опреде- 183
лйтелей.главйо^о слова бграййчйтьсй совпадением их на- чальных букв или семантических эквивалентов (под семантическими эквивалентами здесь, как и ранее, пони- маются коды, обозначающие классы эквивалентных, по смыслу слов). Применение менее строгих критериев дает возможность полнее .учесть смысловые связи между по- нятиями, но при этом увеличивается вероятность уста- новления ложных связей. В табл. 10.2 показаны результаты применения раз- личных способов установления смысловых связей к спи- ску словосочетаний объемом в 1 728 элементов. Данные Таблица 10.2 Сравнение различных, способов автоматического- установления, смысловых связей между наименованиями понятий (связей эквивалентности и подчинения) J № п/п ) Способ установления связи Число установленных связей верно неверно 1 По главному слову словосочетания и четырем начальным буквам его опреде- лителей без учета схемы связей между словами 1121 43 • 2 По главному слову словосочетания и четырем начальным буквам его опреде- лителей с учетом схемы связей между словами 1011 20’ 3 По главному 'слову словосочетания и семантическим эквивалентам его опреде- лителей без учета схемы связей между словами 1100 21 4 По главному слову словосочетания и семантическим эквивалентам его опреде- лителей с учетом схемы связей между словами 1007 5 По главному слову словосочетания и основам его определителей без учета схемы связей между словами 981 8 6 По главному слову словосочетания и основам его определителей с учетом схе- мы связей между Словами 921 — 7 По главному слову словосочетания и словоформам его определителей без уче- та схемы связей между словами 955 - 7 8 По главному слову словосочетания и словоформам его определителей с учетом схемы связей между словами 909 184
таблицы подтверждают высказанное выше соображение о характере зависимости между полнотой установления смысловых связей и возможностью появления ложных связей и позволяют обоснованно выбрать тот или иной конкретный способ. Так, например, наибольшая полнота установления смысловых связей 'между понятиями при полном отсутствии «шумов» достигается способами, ука- занными в пп. 4, 6 табл. 10.2. Неплохие результаты по- лучаются также, если применять способы, указанные в пп. 3, 5 (те же способы, что. и в пп. 4, 6, но без учета схемы связей между словами). Простейшими в реализации являются способы, упо- мянутые в пп. 1, 7. Но первый способ дает большое ко- личество ложных связей между понятиями, а при ис- пользовании второго .способа требуется накладывать ограничения на форму представления наименований по- нятий (требуется, например, записывать главное слово словосочетания и определяющие его прилагательные в. форме именительного падежа единственного числа). Кроме того, по полноте установления связей второй спо- соб. уступает всем способам, указанным в пп. 1—5 табл. 10.2. Наряду со связями эквивалентности и подчинения -в ряде случаев по словесным формулировкам легко вы- являются ассоциативные отношения между понятиями. Например, ассоциированными можно считать следующие пары понятий: «информационный поиск — мётоды информационного поиска», «производственные процес- сы — методика моделирования производственных про- цессов», «информационные системы — проектиро- вание информационных систем» и т. п. Для установ- ления подобных связей достаточно, чтобы словарный со- став словосочетания, стоящего в левой части каждой па- ры, содержался в словарном составе словосочетания, стоящего справа, а схемы связей между одинаковыми словами в обоих словосочетаниях совпадали. Совпаде- ния главных слов наименований понятий не требуется. Указанный критерий установления ассоциативных связей можно ослабить, если потребовать только совпадения в наименованиях понятий соответствующих основ слов или смысловых эквивалентов слов без учета схем связей между ними. Как показывает опыт эксплуатации поис- ковых систем, такой метод установления ассоциативных связей дает малый уровень «шумов», _ 185
Автоматический тезаурус дескрипторных понятий Из предыдущего рассмотрения следует, что смысловые связи между понятиями могут устанавливаться различ- ными способами: 1) с помощью словаря наименований понятий (по словарному составу и грамматической структуре слово- сочетаний) ; 2) по классификационным схемам или таблицам, оформленным в виде классификационного словаря по- нятий; 3) путем совместного применения способов, указан- ных в пп. 1, 2. При установлении смысловых связей с помощью сло- варя наименований понятий пословные’» коды терминов сопоставляются и проверяются на вхождение друг в дру- га. Два термина считаются связанными по смыслу, если совпадают коды их главных слов и все коды слов одного из терминов содержатся среди кодов слов другого тер- мина. Если количество* слов в обоих терминах одинако- вое, то такие термины считаются эквивалентными по смыслу; если разное, то более узким по смыслу считает- ся термин, состоящий из большего количества слов. Классификационный словарь понятий может быть использован для установления смысловых связей между терминами как путем однократного обращения к нему, так и путем организации циклического поиска. В послед- нем случае полученные после Первого обращения к сло- варю номера терминов, эквивалентных и подчиненных исходному термину, используются для повторного обра- щения к нему. Новые номера терминов, полученные при повторном обращении к словарю, снова используются в качестве исходных данных для поиска в нем и т. д. Процесс циклического поиска продолжается до тех пор, пока не перестанут находиться новые номера тер- минов. Для поиска терминов эквивалентных и более широ- ких по смыслу, чем исходные, удобно использовать обра- щенный классификационный словарь понятий. В таком словаре для каждого номера термина указываются но- мера подчиняющих (более широких по объему) терми- нов. Как и «прямой» словарь, обращенный классифика- ционный словарь можно использовать в режиме одно- кратного и циклического поиска. 186
Словарь наименований понятий и классификацион- ный словарь можно совместно использовать в двух ре- жимах: 1) в режиме однократного обращения к слова- рям; 2) в режиме циклического поиска. В первом случае сначала производится поиск по словарю наименова- ний понятий, а его результаты служат исходными дан- ными для поиска в классификационном словаре. Во вто- ром случае после однократного обращения к словарям из общего массива результатов поиска выделяются но- мера терминов, полученные при поиске в классификаци- онном словаре и отличающиеся от номеров терминов, найденных в словаре наименований понятий. Выделен- ные номера терминов с помощью словаря наименований понятий заменяют их пословными кодами и обращаются повторно сначала к словарю наименований понятий, за- тем к классификационному словарю. Далее среди ре- зультатов поиска по классификационному словарю сно- ва выделяют такие номера терминов, которые не были найдены на предыдущих этапах. Эти номера заменяются на пословные коды терминов и снова обращаются к сло- варям и т. д. Процесс циклического поиска продолжает- ся до тех пор, пока не перестанут находиться новые но- мера терминов. • Для оценки эффективности различных способов авто- матического установления смысловых связей между тер- минами автором совместно с Е. А. Загика и В. А. Чир- киным был поставлен эксперимент на ЭВМ. Для этого был использован ряд алгоритмов: алгоритм «точного» морфологического анализа, алгоритм приближенного морфологического анализа, алгоритм поиска по словарю наименований понятий, алгоритм поиска по классифика- ционному словарю понятий, алгоритм циклического поиска в классификационном словаре, алгоритм сов- местного циклического поиска в словаре наименований понятий и в классификационном словаре, алгоритм де- кодирования и оформления результатов поиска в слова- рях и др. Исследования проводились на основе тезауруса дескрипторных понятий, включавшего в свой состав око- ло '11 700 терминов. Между, терминами тезауруса были зафиксированы родо-видовые отношения и отношения эквивалентности. Тезаурус послужил исходным материа- лом для формирования ряда машинных словарей. Пере- чень машинных словарей приведен в табл. 10.3. 187
Таблица 16.8 Перечень машинных словарек № п/п Наименование Количество элементов в словаре * 1 Словарь побуквенных кодов наименований по- ' нятий 11691 2 Основной словарь основ слов (для «точного* морфологического анализа) 4000 3 Дополнительный словарь основ слов (для приближенного морфологического анализа) 2047 . 4- v Словарь наименований понятий (СНП) 11691 5 Классификационный словарь понятий (КСП) 55503 6 Обращенный классификационный словарь ро- нятий 57412 Основной словлрь основ слов (табл. 10.3) был со- ставлен по неформализованным текстам и включал 4000 наиболее часто встречающихся основ. Дополнительный словарь составлялся по тезаурусу. Он. содержал только такие основы слов, которые отсутствовали в основном словаре. Словарь наименований понятий (словарь по- словных кодов терминов) формировался на основе сло- варя их побуквенных кодов. Последний использовался также для декодирования результатов поиска в слова- рях. . Эффективность различных способов автоматического установления смысловых связей между терминами оце- нивалась при двух вариантах пословного кодирования словосочетаний. По первому варианту слова, основы ко- торых содержались в основном словаре, были представ- лены номерами смысловых эквивалентов, а слова из до- полнительного словаря — номерами основ. По второму * варианту все слова были представлены номерами их основ, а словосочетания кодировались только с по- мощью приближенного морфологического анализа. Основной словарь основ слов отсутствовал,. а дополни- тельный словарь имел объем 367'5 элементов. Были опробованы восемь способов установления смы- словых связей между терминами: 1) автономный поиск по словарю наименований понятий, построенному на ос- нове приближенного морфологического анализа;,2) авто- номный поиск по словарю наименований понятий, по- 188
строенному на дснойё совместного йсйОльйовёния «Точ- ного» и приближенного морфологического анализа; 3) автономный однократный поиск по классификацион- ному словарю; 4) автономный циклический поиск по классификационному словарю; 5) однократный совмест- ный поиск по словарю наименований понятий и класси- фикационному словарю согласно пп. 1, 3; 6) однократ- ный совместный поиск по словарю наименовании поня- тий и классификационному словарю согласно пп. 2, 3; 7) совместный поиск по словарю наименований понятий и классификационному словарю с многократным исполь- зованием словарей согласно пп. 1, 3; 8) совместный по- иск по словарю наименований понятий и классификаци- онному словарю с многократным использованием слова- рей согласно пп. 2, 3. Все восемь способов применялись как для поиска терминов, эквивалентных и подчиненных заданным, так и для поиска подчиняющих терминов. В качестве исходных данных были взяты 503 термина из тезауруса, выбранные случайным образом, а исследова- ние различных способов поиска производилось на пол- ном объеме словарей тезауруса. Результаты экспериментов сведены в табл. 10.4. По одному входу этой таблицы перечислены различные спо- собы установления смысловых связей между .терминами, -по другому входу — наименования количественных пока- зателей, характеризующих эффективность этих способов. В клетках таблгщы указаны числовые значений показа- телей эффективности (среднее количество релевантных связей, приходящихся на один термин тезауруса, сред- нее значение коэффициента полноты установления смы- словых связей между терминами, среднее значение коэф- фициента «шума» при установлении смысловых связей). Полнота установления смысловых связей между терми- нами определялась по отношению к наиболее эффектив- ному в данном эксперименте способу поиска в тезауру-. се — циклическому поиску с использованием процедур «точного» и приближенного морфологического анализа. Коэффициент «шума» определялся как отношение коли- чества нерелевантных (нёправильных) связей к общему количеству связей, установленных в процессе автомати- ческого поиска. Анализ табл. 10.4 позволяет установить следующее: 1. Автоматический поиск по словарю понятий дает возможность выявить только 10—14% общего числа 189
Т а б л и ц а 10.4 Сравнительная оценка полноты, и точности установления смысловых, связей между терминами при различных способах поиска по тезаурусу Характеристики различных видов поиска Поиск эквивалентных по смыслу и подчи- ненных понятий Поиск подчиняющих понятий • . «Й Вид поиска р н и н 5 0s Д <о гп О) к К хР д 2 ® * 2 9 о О'- & - S S S . О И is? Q О <Ъ> о" * д д (D -чр S о- Д £ °4* к • £ °4* S л К а О 2 2 о дз О о Л § е £ ’в- § ф и о о К я (Т> >»' _О- О) GJ О ~ И £ о £ 2 о о с о 9 1. Поиск в СНП по номе- рам основ слов 1,65 10,2 0,24 0,88 9,4 0,9 2. Поиск в СНП по номе- рам смысловых эквивален- тов основ слов и номерам основ слов 2,22 13,8 0,85 1,21 12,9 1,25 3. Однократный поиск в ксп 7,06 43,6 о', 00 4,18 44,6 0,00 4. Циклический поиск в КСП 10,37 6^,1 11,6 7,15 75,0 24,1 5. Совместный поиск по СНП и КСП, согласно пп. 1, 3 9,35 58,1 0,1 5,47 58,1 0,8 6. Совместный поиск по СНП и КСП согласно пп. 2, 3 9,80 60,8 0,7 5,95 63,2 0,8 7. Циклический поиск с многократным использова- нием СНП и КСП, согласно пп.-1,3 15,45 96,5 11,9 8,80’ 94,0 26,6 8. Циклический поиск с многократным использова- нием СНП и КСП согласно пп. 2, 3 16,35 100 12,5 9,40 100 26,1 смысловых связей между терминами (см. строки 1, 2 табл. 10.4). 2. Применение для пословного кодирования терминов наряду с номерами основ слов также номеров их смы- словых эквивалентов приводит к некоторому увеличению полноты установления связей (на 3, 5%)_. 3. Путем однократного поиска в классификационном словаре можно выявить 44—45%! смысловых связей меж- ду терминами (см. строку 3 табл. 10.4), тогда как при циклическом поиске в этом словаре количество выявлен- 190
ных связей увеличивается на 20—-30%! (на 20% при по- иске эквивалентных по смыслу и подчиненных понятий, на 3'0% при поиске подчиняющих понятий). 4. Количество смысловых связей, выявленных при раздельном поиске в словаре наименований понятий и' в классификационном словаре, меньше количества свя- зей, выявленных при совместном однократном поиске в этих словарях (на 3—6%). 5. Совместный циклический поиск по словарю наи- менований понятий, и классификационному словарю обеспечивает наиболее полное выявление смысловых связей между терминами. По сравнению с совместным однократным поиском в этих словарях он позволяет вы- явить примерно ца 40%' связей больше (см. строки 5—8 табл. 10.4). Циклический поиск в словарях во всех случаях при- водит к существенному увеличению количества устанав- ливаемых между терминами смысловых связей. Но при этом увеличивается и уровень поискового шума (до 12% при поиске эквивалентных по смыслу и подчиненных терминов и до 24—27%' при поиске подчиняющих тер- минов). Происходит это потому, что наряду с отноше- ниями строгой эквивалентности и строгого подчинения в классификационном словаре учитываются отношения между терминами, которые не в полной мере являются отношениями 'эквивалентности и подчинения. При одно- кратном поиске в словарях такой подход позволяет бо- лее полно выявлять связи между терминами и, как пра- Таблица 10.5 Т а б л и ц а 10.6 Распределение количества циклов при совместном поиске в СНП и КСП (поиск эквивалентных, по смыслу и подчиненных терминов согласно п. 8 Распределение количества циклов при совместном поиске в СНП и КСП (поиск подчиняющих понятий согласно п. 8 табл. 10.4) табл. 10.4) Количество Часто- Количество Часто- Количество циклов поиска Часто- Количество циклов поиска Часто- циклов поиска та циклов поиска та та та 1 2 3 4 5 6 251 79 70 43 18 20 7 8 9 10 11 8 5 2 4 3 1 2 3 4 433 36 16 10 5 6 . 12 4 3 . 1 191
г Таблица 10.7 Зависимость коэффициента полноты и „шума* от номера цикла поиска (поиск в классификационном словаре понятий) Номер цикла поиска Поиск эквивалентных по смыслу и подчиненных понятий - Поиск подчиняющих понятий ♦ Коэффициент полноты, % Коэффициент .шума*, % Коэффициент полноты, % Коэффициент .шума*, % 1 43,6 0,00 44,6 0,00 2. 55,0 7,5 68,3 8,2 3 60,0 8,2 72,8 ’ 17,7 4 63,7 10,3 74,2 20,8 5 64,0 10,9 ’ 74,6 22,3 6 64,1 1Г,4 74,8 23,3 7 64,1, - 11,6 75,0 23,5 8 —— 75,0 23,7 9 —— — - 75,0 2Я, 9 10 — — 75,0 24,0 11 — - - 75,0 24,1 12 — — 75,0 24,1 вило, не приводит к установлению ложных связей. При циклическом поиске неточности в связях между терми- нами накапливаются и уровень «шумов» возрастает. Как показали эксперименты, циклический поиск в словарях — быстро сходящийся процесс. В среднем поиск подчиненных и эквивалентных по смыслу терми- нов заканчивается за 1,3 цикла; поиск подчиняющих тер- минов заканчивается за 2,24-2,4 цикла (за 2,2 цикла при поиске в КСП и за 2,4 цикла при совместном поиске в СНП и КСП), а максимально^ число циклов поиска не превосходит 12. В табл. 10.5 и 10.6 приведено рас- пределение числа циклов при совместном поиске в СНП ,и КСП, а в таблицах 10.7 и 10.8 указаны значения ко- эффициентов полноты поиска и «шума» в зависимости от номера цикла. Полнота установления смысловых связей при поиске в словаре наименований понятий может быть сущест- венно увеличена, если наряду с отношениями эквива- лентности слов использовать родо-видовые отношения между ними. Если, например, известно, что понятия «сортировка» и «кодирование» являются видовыми по отношению к родовому понятию «обработка», а понятие «сообщение» — видовым пр отношении? К понятию «ин- 193
Таблица 10.8 Зависимость коэффициента полноты и „шума* от номера цикла поиска (совместный поиск в СНП и КСП согласно п. 8 табл. 10.4) Номер цикла поиска Поиск эквивалентных по смыслу и подчиненных понятий Поиск подчиняющих понятий Коэффициент полноты, % Коэффициент «шума*, % Коэффициент полноты, % Коэффициент #шума*, % 1 60,8. 0,7 63,2 0,8 2 76,9 6,4 91,5 10,6 3 82,8 11,3 97,0 19,5 4 91,0 12,8 99,4 23,0 5 93,0 13,3 99,5 24,4 6 94,6 . 13,3 99,6 25,3 7 96,7 13,0 99,7 25,5 8 97,1 12,8 100 25,8 9 ' 98,9 12,8 100 25,9 10 99,4 12,5 100 26,0 11 99,9 12,5 100 26,1 12 100 12,5 — •— формация», то, заменяя в словосочетании «обработка информации» исходные слова на слова, выражающие соответствующие видовые понятия, получим ряд новых более узких по смыслу словосочетаний: сортировка ин- формации; кодирование информации; обработка сооб- щений; сортировка сообщений; кодирование сооб- щений. Автоматическое установление смысловых связей меж- ду наименованиями понятий здесь можно реализовать следующим образом. Исходное словосочетание сначала Кодируется пословно и для каждого слова по таблице родо-видовых отношений выбираются номера смысловых эквивалентов «подчиненных» ему слов, затем произво- дится поиск по словарю наименований понятий. В про- цессе поиска отбираются номера словосочетаний, экви- валентных по смыслу исходному или подчиненных ему. При этом требуется выполнение двух условий: 1) каждое слово исходного словосочетания должно быть представлено в коде анализируемого словарного словосочетания либо номером своего смыслового экви- валента, либо номером смыслового' эквивалента подчи- ненного ему слова; 13—310 193
2) номер смыслового эквивалента главного слова анализируемого словарного словосочетания должен сов- падать с номером смыслового эквивалента главного слова исходного словосочетания или с номером смысло- вого эквивалента одного из подчиненных ему слов. Поиск по словарю наименований понятий и в этом случае целесообразно применять в комплексе с поиском по классификационному словарю. Сначала производится поиск по первому словарю, затем по второму. Новые номера понятий, найденные при поиске по классифика- ционному словарю, заменяются на пословные коды сло- восочетаний, и эти коды используются для повторного поиска по словарю наименований понятий. Далее про- цесс поиска по обоим словарям повторяется, до тех пор, пока не перестанут находиться номера новых понятий или пока не будет выполнено заданное число повторе- ний. В заключение результаты, полученные на всех эта- пах, объединяются. Поиск наименований понятий, более широких по объ- ему, чем исходные словосочетания, производится анало- гичным, образом, но перед обращением к словарю наи- менований понятий для каждого слова исходного слово- сочетания по таблице родо-видовых отношений выбира- ется перечень номеров смысловых эквивалентов подчи- няющих слов. Эксперименты, проведенные автором совместно е Е. А. Зигика и В. А. Чиркиным, показали, что поиск по словарю наименований понятий с использованием смысловых связей слов в три раза эффективнее, чем- поиск без использования этих связей. Уровень шумов при поиске понятий, эквивалентных по смыслу и подчи- ненных исходным, в среднем составляет 2°/о, а при поиске подчиняющих понятий—10%- Совместный циклический поиск по словарю наименований понятий й классифика- ционному словарю с использованием смысловых связей слов позволяет выявить больше связей между словосо- четаниями, чем применение, аналогичных процедур без использования связей слов. При этом эквивалентных по смыслу и подчиненных понятий находится на 17%' больше, а подчиняющих понятий — на 12% больше. Уровень шумов при поиске эквивалентных по смыслу и подчиненных понятий возрастает до 20%, при поиске подчиняющих понятий — до 46%. Процедуры циклического поиска в тезаурусе целесо- 194
образно применять прежде всего для улучшения каче- ства классификационного словаря понятий. При этом результаты работы машины должны корректироваться человеком. В документальных поисковых системах иног- да допустимо использование этих процедур и без конт- роля со стороны человека. Глава 11 АВТОМАТИЗАЦИЯ РАБОТ ПО СОСТАВЛЕНИЮ СЛОВАРЕЙ При работе автоматизированных ИПС широко ис- пользуются словари различного назначения (словари словоформ, словари основ слов, словари наименований понятий). Составление словарей — задача весьма трудо- емкая. Естественным поэтому является стремление авто- матизировать этот процесс. Но если процесс составле- ния словарей словоформ легко автоматизируется, то сложнее дело обстоит со словарями основ слов и слово- сочетаний. Задача составления словарей формулируется следую- щим образом: по заданной совокупности текстов вы- брать попарно-различные элементы (словоформы, осно- вы слов, словосочетания), определить цх грамматиче- ские характеристики и расположить эти элементы в за- ранее обусловленном порядке. При необходимости (если составляется частотный словарь) подсчитать количест- во повторений одинаковых элементов. Полученный та- ким образом перечень элементов и их црамматическик характеристик далее может подвергаться дополнитель- ной обработке (например, он может редактироваться человеком). Не всякая работа по составлению словарей может быть автоматизирована (нельзя, например, пока еще точно определять с помощью машины все грамма- тические и семантические признаки слов). Но большая часть работ по выявлению, отбору и упорядочению эле- ментов текстов, включаемых в словарь, может быть вы- полнена автоматически. Составление словарей словоформ и словарей основ слов с помощью счетно-перфорационных машин Счетно-перфорационные машины (СПМ) могут слу- жить эффективным средством автоматизации работ по составлению словарей. Наиболее удобны для этой цели 13* 195.
ПРИЛОЖЕН ИЕ 1 РАСПРЕДЕЛЕНИЕ ЧАСТОТ ПОЯВЛЕНИЯ ФЛЕКТИВНЫХ КЛАССОВ СЛОВ И НАБОРОВ ПЕРЕМЕННОЙ ГРАММАТИЧЕСКОЙ ИНФОРМАЦИИ Таблица 1 Распределение частот появления флективных, классов слов* № п/п Относительная частота № п/п Относительная частота по тексту ПО словарю слово- форм по словарю основ слов** ПО тексту ПО словарю слово- форм ПО словарю основ слов** 001 0,110430 0,12280 0,10130 |046 0,000004 0,00006 002 0,001624 0,00136 0,00288 047 0,000002 0,00003 003 0,009248 0,01070 0,00966 050 0,000002 0,00003 004 0,003755 0,00251 0,00157 051 0,000021 0,00006 - - 005 0,000017 0,00012 0,00026 052 0,000017 0,00012 - 006 0,017754 0,02430 0,02160 053 0,000002 0,00003 007 0,000017 0,00016 . — 054 0,000347 0,00078 - 010 0,005739 0,00403 0,00366 055 0,024061 0,02280 0,02758 011 0,001631 0,00167 0,00261 056 0,049776 0,04030 0,04820 012 0,000712 0,00022 0,00026 057 0,002853 0,00217 0,00288 013 0,000468 0,00019 0,00052 060 0,019803 0,02720 0,02950 014 0,000010 0,00012 0,00026 061 0,035543 0,02120 0,03490 015 0,000063 0,00022 0,00052 062 0,002082 0,00146 0,00130 016 0,000802 0,00195 — 063 0,000758 0/00133 0,00340 017 0,000008 0,00006 •— 064 0,002882 0,00056 0,00026 020 0,000092 0,00016 — 065 0,000200 0,00050 0,00104 021 0,007730 0,01530 0,01225 066 0,000086 0,00050 022 0,000165 0,00016 0,00104 067 0,001894 0,00164 023 0,000207 0,00037 0,00052 070 0,020878 0,01145 0,01420 024 0,000027 0,00022 — 071 0,000401 0,00028 0,00026 025 0,000002 0,00003 —" 072 0,001449 0,00068 0,00052 026 0,000056 0,00018 — 073 0,075253 0,07125 0,08661 027 0,000971 0,00326 0,00235 074 0,000173 0,00065 0,00052 030 0,000006 0,00009 — 075 0,001460 0,00090 0,00078 031 0,011326 0,00623 0,00550 076 0,000806 0,00031 0,00052 032 0,000601 0,00130 0,00156 077 0,000334 0,00081 0,00026 033 0,000004 0,00003 — 100 0,000004 0,00003 034 0,000008 0,00015 — 101 0,000040 0,00016 035 0,000002 0,00003 — 102 036 0,000023 0,00030 103 0,139090 0,21760 0,16350 037 0,000161 0,00031 —— 104 0,003621 0,‘00686 0,00600 040 0,000048 0,00034 — 105 0,017791 0,05500 0,04000 041 0,000002 0,00003 — 106 0,029505 0,05550 0,04760 042 0,000134 0,00113 — 107 0,023802 0,02330 0,01930 043 0,000004 0,00010 — ПО 0,008018 0,00381 0,00235 044 0,000040 0,00034 — 111 0,002973 0,00050 045 0,000403 0,00022 — 112 0,007124 0,00096 0,00130 394
Продолжение табл. 1 № п/п Относительная частота 1 № п/п Относительная частота по тексту ПО словарю слово- форм по словарю основ слов** по тексту ПО словарю слово- форм ПО словарю' основ слов** 113 0,002262 0,00053 0,00052 123 0,000027 0,00022 0,00052 114 0,000520 0,00050 0,00052 124 0,002627 0,00410 0,00235 115 0,005770 0,00031 0,00078 125 0,014158 0,04150 0,03970 116 0,020074 0,03730 0,04520 126 0,013045 0,03260 0,03340 117 0,001688 0,00403 0,00366 127 0,000010 0,00003 — 120 0,007193 0,00397 0,00575 130 0,000073 0,00062 121 0,000576 0,00170 0,00235 131 0,005917 0,00267 0,00130 122 0,000071 0,00025 — ♦ Нумерация флективных классов слов в табл. 1 совпадает с их нумерацией в табл. 7.1, за исключением номера 131 табл. 1, который представляет все количествен- ные числительные (131—-140 табл. 7.1). ** Словарь включал около 4000 наиболее часто встречающихся основ слов. Т аблица 2 Распределение частот появления классов неизменяемых слов Ке п/п Наименование класса слов Относительная частота по тексту ПО словарю слово- форм ПО словарю основ слов 1 Неизменяемые существитель- ные (в том числе сокращения и супплетивные формы место- именных существительных) 0,040990 0,02920 0,02660 2 Неизменяемые прилагатель- ные (супплетивные формы ме- стоименных прилагательных) 0,004553 0,00056 0,00366 3 Неизменяемые глаголы (суп- плетивные формы глаголов и модальные слова типа .можно", .нужно" и т. п.) 0,001173 0,00019 0,00157 4 Инфинитив 0,017138 0,03770 0,06050 5 Наречие, деепричастие, срав- нительная степень прилага- тельного 0,030097 0,02700 0,05225 6 Союзы 0,054523 0,00047 0,00261 7 Предлоги 0,117990 0,00158 0,00886 8 Частицы, вводные слова 0,011182 0,00146 0,00680 305
fаблица$ Распределение частот появления различных наборов переменной грамматической информации слов Номер набора по табл. 7.3 Частота по тексту Частота по словарю словоформ Номер набора по табл. 7.3 Частота по тексту Частота по словарю словоформ 1 0,02854 0,03222 42 0,00132 0,00115 2 0,07731 0,09925 43 0,02905 0,03935 3 0,00015 0,00016 44 0,00217 0,00969 4 0.0С001 0,00003 45 0,00025 0,00003 5 0,00007 0,00003 46 0,01111 0,03065 6 0,03649 0,02489 47 0,00957 0,01792 7 0,00001 0,00003 50 0,01177 0,02393 10 0,00001 0,00003 51 0,00168 0,00003 11 0,00001 0,00003 52 0,01766 0,02864 12 0,02998 0,01437 53 0,03010 0,04259. 13 0,00013 0,00042 54 0,00541 0,02160 14 0,00001 0.0Q003 55 0,03571 0,04921 15 0,00001 0,00006 56 0,04655 0,05711 16 0,06713 0,03836 57 0,00731 0,02480 17 0,00877 0,01926 60 0,00012 0,00054 20 0,00704 0,00806 61 0,00001 0,00003 21 0,00692 0,01190 62 0,02072 0,02700 22 0,01689 0,03571 63 0,00046 0,00262 23 0,00001 0,00003 64 0,00003 0,00029 24 0,00001 0,00003 65 0,00978 0,02259 25 0,00001 0,00003 66 0,00516 0,02054 26 0,01847 0,02154 67 0,00726 0,01625 27 0,00001 0,00003 70 0,00530 0,01766 30 0,00001 0,00003 71 0,01028 0,28937 31 0,00218 0,00310 72 0,00375 0,00086 32 0,01,674 0,01488 73 0,00080 0,00061 33 . 0,05422 0,02483 . 74 0,00047 0,00006 34 0,00082 0,00083 75 0,00008 0,00010 35 0,00001 0,00003 76 0,00019 0,00016 36 0,00631 0,01078 77 — .— 37 .0,00929 0,01875 Неизме- 0,29915 0,08671 40 41 3,00882 0,02300 0,01456 0,03372 няемые слова 306
ПРИЛОЖЕНИЕ! ФРАГМЕНТЫ МАШИННОГО СЛОВАРЯ ОСНОВ СЛОВ Машинный словарь основ слов представляет собой перечень бук- венных кодов основ, упорядоченный по возрастанию их длины и по алфавиту. Каждая основа сопровождается цифровыми индексами, определяющими характер изменения форм слова в различных кон- текстных окружениях; кроме того, каждой основе слова ставится в соответствие номер ее смыслового эквивалента. Номера смысловых эквивалентов обозначают классы эквивалентных слов, т. е. группы, слов, способных замещать друг друга при трансформациях словосо- четаний. Цифровые индексы состоят из номеров флективных классов (трехразрядные восьмеричные числа) и номеров основоизменитель- ных классов (двухразрядные восьмеричные числа, заключенные в скобки). Чаще всего основе слова ставится в соответствие один номер флективного класса и один номер основоизменительного класса, а для омонимичных основ может быть указано несколько сочетаний номе- ров флективных и основоизменительных классов. Если слово имеет Неизменяемую основу, то номера основоизменитОьныхклассой g слондрё'не приводятся. Список флективных классов слов приве- дение табл. 7.1 главы 7, а список основоизменительных классов — в табл. 1; машинный словарь основ слов — в табл. 2 настоящего приложения. Таблица 1 Основоазменительные классы слов Коды осново- изменительных классов Признаки классов Тип изменения основы Индекс формы основы: ж0“—-канони- ческая ж Iе—вариантная Индекс вариан- та подстановки (по табл. 7.7, 7.8, 7.9) Индекс типа рас- пределения канони- ческих и вариантных форм основ слов (по табл. 7.10) 00 I 0 - : 01 III 0 0 1 02 III 0 1 . 1 03 III 0 0 2 04 III 0 1 2 05 III 0 0 3 06 III 0 1 3 07 III 1 0 — 10 III 1 1 — 11 II 0 0 — 12 II 0 1 — 13 IV — — — 307
Таблица 2 Машинный словарь основ слов {фрагменты) Основы слов Морфологи- ческие классы Смысловые эквиваленты слов Основы слов Морфологи- ческие классы Смысловые эквиваленты слов азот 001 • 00073 ВОЛН 056 00766 б а лк 060(11) 00231 ВОСК 006 01002 балл 001 00233 вошл 125(12) 00761 банк 006,060(11) 00241 врач 024 01035 барж 057 00244 врем 076(13) 01040 башн 066(12) 00251 вряд 154 01043 близ 155 00344 всяк 106 01074 блок 006 00343 втор 107 01075 блуз 056 00347 вход 001,124(01) 00761 борт 001 00376 вхож 124(07) 00761 брал 125 00403 вида 116 01115 бреш 054 00406 выйд 120 01126 брюк 060 00433 ВЫСШ 105 01170 букв 056 . 00437 выше 152 01202 бурн 103 00451 вышл 125(12),116 01176 бухт 056 00454 вязк 106 01212 быва 116 00456 обвал _ . . . бывш 105 00456 001,117 oioio быть 144 00464 обвод 001,124(01) 04011 бюро 147 00466 обзор 001 04022 важн 103,130 00470 облак 071 04025 ванн 056 00476 обмен 001,117 04032 ввел 125 00505 образ 001 04056 ввод 001,124 (01) 00505 обрыв 001 04063 ввож 124 00505 обуча 116 03543 ввоз 001,124(01) 00512 обход 001,124(01) 04043 веда 116 00520 объем 001 04115 ведь 154 00523 обычн 103 04120 верн 103,126(12) 00541 одежд 056 04136 верф . 055 00547 ожида 116 01732 верх 010 00550 00554 00555 00561 00403 00403 00607 00607 00614 00627 00632 00643 00647 00661 00761 озерн 103 04162 весн 056(12) океан 001 04167 вест 055 оклад 001 04175 ветр 001 (12) около 155 04177 взял 125 опасн 103 04211 взят 126,103 оплат 056 ’04226 видн 103,126(12) опрос 001,124(01) 04237 видя 152 опытн 103 04246 винт влаг 001 060 орган осадк 001 060(11) 04250 04267 влия 116 основ 056 04305 внес 125 (07) ,120 особо 152 -04306 вниз 152 ост ал 125 04307 водн 103 остан 120 04307 войд 120 остов 001 04312 308
Продолженае табл. 2 2.... 1 Основы слов Морфологи- ? ческие классы Смысловые эквиваленты слов Основы слов Морфологиче- ские классы Смысловые эквиваленты слов остро 152 04314 удовлетворял 125 07404 отбор 001 04321 уполномоченн 103 07453 ответ 001 (01),124 04330 устанавливал 125 07515 отвод 124(01) ,001 04327 фототелеграф 001 07645 отдач 057 04333 функционалы! 103 07656 отдел 001,117 04334 целесообразн 103 07716 4 отказ 001 04342 централизаци 061 07724 • • •* Пб’ 103 07254 07261 цилиндрическ 106 07731 ! транспортиру трапециевидн • • • • • • • • • • ’ • ПРИЛОЖЕНИЕ 3 ФРАГМЕНТЫ ОБРАТНОГО ЧАСТОТНОГО СЛОВАРЯ СЛОВОФОРМ (Словарь составлен по текстам протяженностью около 500 000 слов и имеет объем около 30000 словоформ) Словоформы | : Частоты Словоформы Частоты масштаба 19 топлива 51 хлеба 2 негатива 1 К дружба 1 инициатива 1 « столба 1 перспектива 1 оба 20 объектива 1 способа 8 какова 1 1 ущерба 4 такова 2 палуба 4 слова 6 г • труба 5 снова 11 резьба 1 основа 4 борьба 68 покрова 3 1 глава 1 острова 64 сплава 8 полуострова 101 права 19 готова 4 ' [ справа 17 остоца 1 состава 441 резерва 129 едва 6 удобства 12 слева 14 рыболовства 2 нагрева 1 чувства 1 дерева 2 [средства 620 J залива 5 производства 74 Справедлива 2 руководства 93 пролива 1 превосходства 36 , 309
П родолжение при лож. 3 Словоформы Частоты Словоформы Частоты составляет 83 уничтожив , 2 выставляет 1 обнаружив 7 осуществляет 21 определив 1 проявляет 3 усилив 1 определяет 25 позволив 2 распределяет 3 пролив 2 отделяет 1 сломив 2 уделяет 9 сохранив 1 позволяет 132 применив 1 укрепляет 2 сменив 1 размышляет 1 г оценив 1 f сохраняет 1 отклонив • 1 затрудняет 8 потеснив 1 меняет 6 вступив 1 заменяет 1 уступив 1 применяет 5 расширив 1 осложняет 1 бросив 2 усложняет 5 пассив 3 объединяет 4 повысив . 1 причиняет 1 обратив 1 дополняет 2 сократив Ю обгоняет 1 затратив 1 уясняет 1 перспектив 1 уточняет 11 деректив 4 проверяет 1 мотив 1 теряет 4 против 160 потеряет 2 напротив 1 удовлетворяет 3 ставит 19 всемерного 2 составит 12 неравномерного 1 развит 1 инженерного 53 готовит 1 атмосферного 3 подготовит 1 . . . изготовит 2 ослабляет 1 ' следит 1 потребляет 1 предупредит 5 возглавляет 2 видит 2 направляет 5 производит 13 представляет 92 приводит 13 оставляет 3 • • •
Приложений 4 Фрагменты обратного частотного словаря основ слов (Словарь составлен по текстам протяженностью около 500 000 слов и включает около 5 000 наиболее часто встречающихся основ слов) Основы слов Частоты Основы слов Частоты справа 17 быстроходн 10 едва 6 сходи 5 хлева 14 исходи 125 намерева 9 Труди - 22 достраива - 5 суди 44 устраива 18 нагляди 5 добива 6 способен 15 разбива 17 равен 7 поддержива 46 звен 9 придержива 5 введен 78 заслужива 7 переведен 6 обслужи ва 22 произведен 33 подчеркива 16 приведен 8 подготавлива 22 проведен 67 обуславлива 10 сведен 26 усилива 32 отведен 13 оценива -8 выведен 44 просматрива 6 учрежден 8 рассматрива . 34 вынужден 55 предусматрива 148 снабжен 19 поворачива 7 должен 180 обеспечива 239 заложен 8 увеличива 38 изложен 12 ограничива 9 возложен 14 заканчива . 12 расположен 51 быва 7 отлажен 7 прибыва 6 возможен 13 основыва 9 подвержен 7 уклады ва 5 • удален 5 оправдыва 6 наряду 104 мелководн 7 образу 17 глубоководи 9 сразу 33 проводи 52 организу 112 своди 5 характеризу 32 ежегодн 5 использу 348 пригодн .19 практику 7 непригодн 5 поскольку 84 выгодн 104 ему 98 невыгодн 8 нему 26 холоди 8 чему 8 народи 23 по-новому 5 международн 29 по-видимому 51 ‘ 311
П родолжение прилож. 4 Основы слов Частоты Основы слов Частоты тому 89 принимавш 9 потому 17 выпавш 5 поэтому 165 начавш 12 планиру 120 имевш 34 монтиру 7 устаревш 37 ,ту 6 остановивш 12 кохмплект 14 установивш 9 дикту 6 изготовивш 5 проводивш 14 ваш 7 находивш 24 наш 241 входивш 49 обеспечивавш 47 участвовавш 23 оставля 8 существовавш 15 доставля 10 действовавш 16 составля 137 образовавш 15 выставля 5 использовавш 5 изготовля 6 порвавш 22 осуществля 283 ' создавш 5 . . . ПРИЛОЖЕНИЕ 5 ПЕРЕЧЕНЬ НАИБОЛЕЕ ЧАСТО ВСТРЕЧАЮЩИХСЯ СТРУКТУРНЫХ ФОРМУЛ СЛОВОСОЧЕТАНИЙ (получен на основе анализа 1000 предложений,) № п/п Структурная формула Часто- та Словосочетание-представитель 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Г-»Н П->Р->Сп Г»-^Р->Ср Г^С Г«->СТ Г*71/ ‘-*Р->СП t_»CB рмод^ргп/ Гпр.г^С Гпр.^Св Ш-П 111 62 134 91 259 117 56 404 204 59 58 52 197 70 88 99 удается выявить, воспринимаются обычно устанавливаются в зависимости доводится до исполнителей увеличивается производство оснащаются техникой сосредоточить на выполнении использовать возможности могут действовать повысилась скорость выполнял поручение продолжают пропагандировать разрабатывает, план значительно отличается правильно ориентироваться жизненно важный 312
П родолжение прилож. 5 № п/п Структурная формула Часто- та Словосочетание-представитель 17 П«-С 3391 правильный путь 18 Пн_р_>Сп 54 имеющиеся в наличии 19 Пг*->СВ 52 создающие угрозу 20 Пм<-О 547 эти факты 21 Р-*СП; h 116 на заводе ведется 22 с«-п 318 материалы используются 23 О-ГМ0« 109 производство должно 24 С«-ГПР 67 план выполнялся 25 С«-Гп₽< 62 соревнования определили 26 С«-Г‘ 202 использование расширит 27 С->ПГ 166 инструменты, предназначенные 28 С—>Р—*Сд 62 прения по докладу 29 С->Р-*СП 154 приоритет в разработке 30 С->Р->Ср 79 условия для создания 31 С—*Р~*Cj 75 контакт с людьми 32 с->с₽ 1915 директор завода 33 С-»СПМ 63 человек, который 34 с->с* 62 члены ООН 35 СГ->Р->С, 105 посадка на самолет 36 Сг->Р-*Сд 100 подготовка к выступлению 37 Сг—>Р—>СП 246 работа в условиях 38 С—>Р~*Ср 135 защита от холодов 39 СГ-*Р->СЖ 85 выступление с целью 40 СГ->СР 1508 защита проекта Список литературы 1. Автоматизация в лингвистике. — [Сб. статей]. Пер. с англ., франц., немец, и чешек, языков. Редактор и составитель Л. Н. За- сорина. М., «Наука», 1966. 2. Вопросы индексирования и информационного поиска.—[Сб. переводов]. № 11, ВИНИТИ, 1965. 3. Вопросы мультиобработки информации на вычислительных системах. Новосибирск, «Наука», 1966. 4. Вычислительная система IBM/360. М., «Сов. радио», 1969. 5. Информационно-поисковая система «БИТ». Киев, «Наукова думка», 1968. ’6 . Информационный анализ. (Сб. переводов]. № 2. ВИНИТИ, 1966. 7. Лингвистические исследования по машинному переводу. Со- общения ОМАИР, вып. 2. ВИНИТИ, 1961. 8. Массовое обслуживание в системах передачи информации. М., «Наука», 1969. 9. Математическая лингвистика. (Сб. переводов]. Под ред. 21—310 313