Автор: Алексеев П.М.  

Теги: словарь   лексика  

Год: 1975

Текст
                    ш/
* /
11М. Алексеев
латистическая
лексикография



(1ИНГР АДСКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ педагогический ИНСТИТУТ имени А. И. ГЕРЦЕНА П. М. АЛЕКСЕЕВ СТАТИСТИЧЕСКАЯ ЛЕКСИКОГРАФИЯ (ТИПОЛОГИЯ, СОСТАВЛЕНИЕ И ПРИМЕНЕНИЕ ЧАСТОТНЫХ СЛОВАРЕЙ) Учебное пособие ЛЕНИНГРАД 1975
Научный редактор проф. Р. R Пиотровский © Ленинградский ордена Трудового Красного Знамени Государст- венный педагогический институт имени А. И. Герцена (ЛГПГГ им. А. И. Герцена), 1975 г. М 17о БИБЛЛЭТЕКЛ НГУ I ЩИ II
ВВЕДЕНИЕ Статистическая лексикография занимается вопросами со- ставления и использования частотных словарей. Частотный словарь отличается от всех других словарей тем, что, во-пер- вых, он включает в себя только те слова (или другие линг- вистические единицы), которые зарегистрированы составите- лем в обследованных им текстах (или тексте) и, во-вторых, он указывает при этих словах (или других лингвистических единицах) частоты их употребления, то есть цифры, показы- вающие,'сколько раз они встретились в этих текстах. Частотные словари привлекают с каждым годом внима- ние все более широких кругов работников науки и просве- щения. Филолог находит в них материал для типологических исследований, для анализа употребительности соответствую- щих лингвистических единиц в разных языках, функциональ- ных стилях, произведениях одного или нескольких авторов. Преподаватель языка обращается к частотным словарям в поисках объективно отобранного учебного материала. Пред- «•I шпигели точных и инженерных отраслей знания используют •i.ic готнЫе словари как источник статистических сведений о ппн ннстических элементах для обеспечения эффективной и» р<'чачи сообщений по каналам связи. Специалисты в обла- < hi автоматической переработки языковой информации опи- райся на количественные описания отраслевых подъязыков при создании систем поиска и реферирования текста с помо- ♦III и» 1,1сктронно-вычислительной техники. Частотные словари включаются в лексикографические и |.н < пфпкации; сведения о них попадают даже в школьные hvpn.i |(>0; 65; 124; 168; 209]. Статистика звуков и букв, кото- рою i.ik/ко получают с помощью частотных словарей, исполь- шнинщ например, в новом экспериментальном букваре, по hoiiip<»\i\ в 1972/73 уч. г. занимались первоклассники трехсот iBh'»i I спнекой федерации [55; 69]. 3
Интерес к частотным словарям и к количественной линг- вистике в целом вызван не модой, но является частью об- щего процесса математизации современного знания. Матема- тические методы становятся важным инструментом в иссле- довании многих явлений, которые не ограничиваются сферой лишь естественных наук [139, стр. 14]. Однако во многих случаях статистические, вероятностные представления, на которых базируется количественная линг- вистика, остаются недостаточно понятными даже для тех, кто оперирует цифрами в своей работе или стремится использо- вать результаты других исследователей. Это объясняется в значительной мере недостатком «квантитативного» образова- ния у выпускников языковых вузов и факультетов, а также отсутствием специальной математической литературы, рас- считанной на филологов Ч Что же касается той области лингвистической статистики, которая занимается частотными словарями и называется ста- тистической лексикографией, то ее развитие в немалой сте- пени зависит от появления работ обобщающего характера. Сами частотные словари издаются небольшими тиражами; информация о новых работах рассеяна по малодоступным широкому читателю изданиям, библиотеки не спешат приоб- ретать зарубежные новинки в этой области. Все это приво- дит к такой ситуации, когда почти каждый лингвист знает о существовании частотных словарей, но совсем немногие имеют достаточно полное о них представление. Знакомство с вопросами классификации, составления и практического применения частотных словарей нс обязатель- но требует особой математической подготовки, выходящей за пределы школьной программы; статистический аппарат при анализе данных частотного словаря может ограничиваться на первых порах четырьмя арифметическими действиями, возведением в квадрат и извлечением квадратного корня. Проблемы, обсуждаемые в этой книге, не всегда нуждают- ся в специальном теоретическом объяснении; они во многом имеют совершенно естественный, с лингвистической точки зрения, характер и могут решаться с позиций «здравого смысла». 1 К популярной литературе можно отнести работы Р. М. Фрумки- ной [197], Б. Н. Головина [66], Ш. Мюллера [277], Я. Самбор [282]. Собст- венно учебником математического языкознания является лишь книга К. Б. Бектаева и Р. Г. Пиотровского [39], но она издана ограниченным тиражом (I часть — 450 экземпляров, II часть — 700 экземпляров). 4
Автор опирается на пятнадцатилетний опыт общесоюзной группы «Статистика речи», участником которой он является с 1960 г., а также на материалы отечественных и зарубежных работ за последние семьдесят пять лет существования стати- стической лексикографии. По содержанию книги в течение десяти лет автором читались спецкурсы в ряде вузов страны. Он искренне благодарен проф. Р. Г. Пиотровскому за не- оценимую помощь и консультации на протяжении всей работы.
ГЛАВА I. ТИПЫ ЧАСТОТНЫХ СЛОВАРЕЙ Общее представление о структуре частотного словаря можно получить, рассмотрев простой пример. В тексте введения содержится 500 слов или, как говорят лингвостатистики, словоупотреблений (словоупотреб- лением считается цепочка букв, ограниченная двумя пробе- лами). Разных слов в этом тексте использовано 304; не- которые из них повторяются по нескольку раз, другие не по- вторяются вовсе. Частоты употребления слов в данном тек- сте различны, они колеблются от 1 до 22. Можно .располо- жить эти слова в порядке их частот, начиная с наибольшей, и тогда получим частотный словарик одного текста: № ц/п Слово Частота 1 в 22 2—3 и 14 словарь 14 4 частотный 13 5 с 8 6—7 который 7 на 7 8 лингвистический 6 п т. д. Остальные представим таблицей: 9—14 слов с частотой 5 оказалось б 15—21 4 7 22—36 3 15 37—74 2 38 75—304 1 230
Этот же «словарь» в алфавитном порядке будет выглядеть так: Слово Частота а 2 автоматический 1 автор 3 анализ 2 аппарат 1 арифметический 1 и т. д. Первый список называется собственно частотным вариан- том частотного словаря, второй — его алфавитно-частотным вариантом. .Если разделить каждую частоту на длину текста, то есть .на 500 в нашем случае, можно получить относительную ча- стоту каждого слова списка. Для «в» она будет равна 0,044, для «и» — 0,028, для «словарь» — 0,028 и т. д. Если склады- вать последовательно относительные частоты слов по порядку списка, то получим накопленные относительные частоты для каждого слова: для «в» получим 0,044, для «и» — 0,072, для «словарь» — 0,100 и т. д. Таким образом можно определить,, какую долю в тексте занимает любое интересующее нас ко- личество самых частых слов от начала списка. В нашем слу- чае первое слово занимает, или «покрывает», 4,4% всего текста, первые пять слов—14,2%, первые десять — 20,2%, первые пятьдесят — 44,4% и т. д. Этот результат покажет нам возможности, которые предлагают частотные словари для обучения языку и других приложений (например, для авто- матической переработки информации), где требуется опреде- лять лексические зоны, обладающие наибольшей текстообра- зовательной способностью. Частотный словарь, как уже говорилось, отличается от других словарей тем, что в нем каждая входная единица со- провождается указанием на частоту ее употребления в тек- сте, использованном для составления этого словаря. Если для некоторых видов словарей, например, для обычного сло- ъаря-минимума или терминологического, главным источни- ком при формировании словника служит словарь большего юбъема или несколько других словарей, то в частотный по- 7
надают только те единицы, которые составитель обнаружил в конкретном.тексте (группе, корпусе текстов). Количество составленных в разных странах частотных словарей, о которых имелись сведения в литературе к ше- стидесятым годам, доходило до 300 [239]; в настоящее время оно, по-видимому, приблизилось к 500 L Почти все они, со- храняя единство в главном — указывая частоты входных элементов, отличаются в большей или меньшей степени одни от других. Естественным было бы выделить основные типы словарей по некоторым признакам формального и содержа- тельного характера. К важнейшим признакам относятся сле- дующие. 1. Расположение словарного материала В частотном словаре используются два основных способа размещения его единиц: по алфавиту и в порядке убывания частот, начиная с наивысшей. В большинстве частотных сло- варей, изданных отдельной книгой, словарные единицы рас- полагаются по алфавиту; словарь от этого не перестает быть частотным, поскольку каждая входная единица сопровож- дается частотой. Частотный порядок используется обычно в тех случаях, когда составитель лишен возможности опубли- ковать словарь отдельным изданием и вынужден помещать* в список ограниченное количество самых употребительных единиц, например, 1000, 2000 и т. д. В некоторых частотных словарях приводятся оба списка и алфавитный и частот- ный. Некоторые частотные словари, опубликованные за послед- нее время (см., например, [215; 216; 219]), включают в себя, кроме алфавитно-частотного п собственно частотного спис- ков, такой список, в котором единицы словаря размещены не по первой, второй и т. д. буквам от начала слова пли сло- воформы, а по первой, второй и т. д. буквам от конца слова или словоформы. Таким образом, алфавитное расположение единиц частотного словаря может быть как прямым, так и обратным. 1 В это число входят также словари отдельйых авторов и текстов. Количество словарей, составленных по выборкам из различных текстов., оценивалось к 1957 г. в 80 [240]. Сейчас их, очевидно, не менее 250. 8
Иногда словарь содержит кроме общих списков слов до- полнительные их списки по частям речи 1211] или по темати- ческим разделам корпуса текстов [171; 200; 204]. 2. Объем словника Составитель частотного словаря включает в объем публи- куемой части словника либо весь перечень обнаруженных в тексте единиц, либо только наиболее употребительную его зону. Соответственно частотный словарь публикуется в пол- ном или неполном объеме. Полных в этом смысле частотных словарей насчитывается гораздо меньше, чем неполных. Ча- стотный словарь (его рукопись, картотека и т. п.) содержит большое число редких единиц; те из них, которые использо- ваны в тексте по одному разу, могут составлять до половины всех единиц словаря. Но частотный словарь привлекает к се- бе внимание, как правило, своей верхней, наиболее употре- бительной зоной. Поэтому автор решает вопрос о публикуе- мом объеме словника в зависимости от тех целей, которые он имел перед собой, составляя словарь, либо исходя из воз- можностей, предоставляемых ему издателем, то есть из коли- чества печатных листов, на которых он должен поместить наиболее важную информацию о своей работе. Подавляющее большинство опубликованных частотных словарей и списков являются, таким образом, неполными, за. редким исключением (219; 224а; 232; 262; 265]. 3. Длина текстов, обследованных при составлении словаря Общая длина текстов или, говоря статистическими терми- нами, объем выборки является важнейшей характеристикой частотного словаря, так как статистическая надежность сло- варя и, следовательно, его пригодность для многих примене- ний определяется объемом материала, проанализированного^ при его составлении. Объем выборки складывается из всех случаев употребле- ния зарегистрированных составителем словаря единиц и ра- вен, следовательно, сумме частот всех единиц частотного словаря. Поэтому ошибкой было бы считать, что объем вы- борки равен, например, 1 млн словоупотреблений, если 9
составитель выбрал из этого объема только 100 тыс слово- употреблений, то есть суммарная частота всех (но не только публикуемых) единиц словаря равна 100 тыс. Объем выборки и будет определяться этой последней величиной. Существующие частотные словари значительно разли- чаются по объему выборки. С этой точки зрения небольшие словари, базирующиеся на 25—50 тыс словоупотреблений естественным образом противопоставляются словррям, со- ставленным по выборкам в 1 млн и более словоупотреблений. Таких «миллионных» частотных словарей существует, оче- видно, не более двух десятков [219; 222—224; 224а; 226; 249; 254; 255; 259; 260; 262; 267; 275; 280; 286; 289; 291]. Из них лишь семь основаны на выборках значительно более 1 млн словоупотреблений [224а; 249; 259; 267; 280; 286; 289]. Объем выборки определяется прежде всего физическими возможностями составителя [199, стр. 16]. Зная, что чем больше этот объем, тем достовернее данные частотного сло- варя, он все же вынужден определять его таким образом, чтобы работа могла быть завершена в обозримые сроки. Обработка миллионных массивов (которые, разумеется, трудно назвать чрезмерно большими, если ставится задача выявления, например, наиболее употребительной лексики об- щелитературного языка) доступна сравнительно крупным коллективам, организовать которые для таких работ бывает затруднительно по разным причинам. 4, Язык входных единиц словаря Всею, насколько известно автору, частотными словарями охвачено 30 языков (в алфавитном порядке): англий- ский, арабский, афганский,, белорусский, болгарский, гуджа- рати, исландский, испанский,- итальянский, казахский, китай- ский, латинский, латышский, маратхи, молдавский, немец- кий, норвежский, польский, португальский, румынский, рус- ский, словацкий, узбекский, украинский, французский, хин- ди, чешский, шведский, эстонский, японский. Больше всего частотных словарей приходится на англий- ский язык. Своим возникновением и развитием лингвистиче- ская статистика и статистическая лексикография обязаны квантитативным исследованиям именно этого языка. Особен- 10
ио широко изучалась употребительность английской лексики в первой трети двадцатого столетия. В это время было со- ставлено около 60 частотных словарей и списков англий- ского языка. В нашей стране лексикографы также наи- большее внимание уделяют английскому языку и его от- раслевым подъязыкам, поскольку основная масса специаль^ »ной литературы, поступающей из-за рубежа, публикуется на этом языке. 5. Содержание и форма текстов, представляющих язык Прежде всего следует выделять письменную и устную формы речи, описываемые частотными словарями. Частот- ных словарей собственно устной речи .известно не более 10, из них по 3 для русского и английского языков [191; 200; 218; 233; 238; 252; 284; 293]. Иногда словари используют в качестве источника «разговорную речь в книжном отобра- жении», то есть речь персонажей художественных произве- дений [116; 290]. К таким материалам приходится прибегать, когда нет возможности исследовать «живую» устную речь. Особенно важны неподготовленность речи и осуществле- ние записи таким образом, чтобы говорящий не подозревал о наблюдении. Этому второму требованию отвечают, очевид- но, лишь 5 из упомянутых частотных словарей [191; 200; 218; 233; 293]. Остальные составлялись на материале записей интервью в виде реакций на заданный экспериментатором стимул-«провокацию». Живая неподготовленная устная речь .вообще -мало изу- чается лингвистами2. Естественные затруднения, с которыми сталкивается наблюдатель устной речи, имеют в основном этико-психологический характер. Распространенное мнение о возможности и даже целесообразности лингвистического ана- лиза книжно-разговорной речи вместо ее подлинной, устной формы следует объяснять не столько теоретическими сообра- жениями, сколько трудностями указанного характера, кото- рые для исследователя являются, по существу, техническими. Особое место между письменной и устной речью зани- мает, оставаясь письменной по форме, эпистолярная речь. 2 См. об этом [71]. Первое серьезное крупномасштабное исследование русской разговорной речи выполнено совсем недавно [167]. 11
Для подавляющего большинства носителей языка созда- ние письменных речевых произведений не является профес- сией. Однако и профессионалы, видимо, создают свои худо- жественные, газетные, деловые и другие тексты в меньшем, чем письма, количестве и объеме. Иными словами, каждый взрослый человек участвует в переписке, но далеко не ка- ждый выполняет активную функцию в других письменных разновидностях речевой деятельности. Эпистолярная речь, таким образом, занимает второе после устной речи место в двусторонней языковой коммуникации. Для основной массы носителей языка продуктивная речевая деятельность ограни- чивается этими двумя формами. Сегодняшняя лингвистика делает поэтому серьезное упу- щение, пренебрегая языком переписки, которому практически не отводят места в стилистических классификациях. В луч- шем случае его связывают с «литературными произведения- ми, имеющими форму писем, посланий» (23, стр. 527] или с деловым стилем [150, стр. 139; 235, стр. 326—328]. Материалы из переписки писателей предлагались для изучения разговор- ной речи [63, стр. 231]; весьма категорично утверждалось, что в переписке нас интересуют не различия между устными и письменными формами сообщения, а различия в среде, к которой принадлежат отправитель и адресат [27, стр. 260]. Однако эпистолярная речь занимает совершенно особое положение в письменной речевой деятельности благодаря тому, что она не рассчитана на опубликование и обращена, как правило, к одному участнику коммуникации. Поэтому со- держание письма бывает оформлено «небрежно»: автор не всегда может, должен или хочет заботиться о соблюдении всех требований стилистики и грамматики и о выборе слов. Обычно это вызвано недостатком времени, но часто объяс- няется наличием устойчивой связи между корреспондентами, когда они понимают друг друга «с полуслова». С этой точки зрения эпистолярная речь близка устной. В отличие от устной речи она не так продуктивна по сум- ме всех высказываний, хотя отдельное письменное сообще- ние имеет в среднем большую длину, чем устное. Эпистоляр- ная речь, далее, не так спонтанна, как устная; высказывание в ней более подготовлено. В отличие от устной речи она ис- пользует больший инвентарь языковых средств, но с меньшей концентрацией. Поэтому, например, первая по частоте 1000 слов занимает в переписке 92% словоупотреблений, тогда как устная речь обеспечивается на 96% словарем в 12
/37 слов. В письменной литературной речи 1000 первых слов соответствует 70—80% текста [221; 233; 262]. Особенности эпистолярной речи делают ее интересным объектом лингвистических и лингвосоциологических исследо- ваний. Лингвостатистические приемы помогут в определении общих признаков, отличающих использование языка в пись- мах от других областей его функционирования. Количествен- ные характеристики словаря писем окажутся полезными в методике обучения языку, а также в некоторых специальных приложениях, например, в юридических [24]. О количественных описаниях эпистолярной речи, выпол- ненных в нашей стране, известно немногое. Единственный ча- стотный словарь писем на русском языке принадлежит Ф. Малиржу, составившему его на материале переписки со- ветских школьников с чехословацкими [269]; см. также [13. стр. 80—81]. Более известны исследования эпистолярной лек- сики, проводившиеся американскими лингвистами и методи- стами и значительно способствовавшие развитию статистиче- ской лексикографии. Зарубежные лингвостатистики на мате- риале писем стремились выявить типичные орфографические ошибки и наиболее трудные для написания слова, опреде- лить место этих слов среди самых употребительных; в резуль- тате получали количественную базу для отбора лексических единиц в учебные орфографические справочники [220; 221; 225; 228; 227; 234; 250; 278]. Некоторые частотные словари переписки составлялись не столько с методическими, сколько с научными целями; их авторов интересовало наиболее употребительное ядро актив- ной лексики рядовых носителей языка [249; 251]; см. так- же [281]. Устной и эпистолярной формам противопоставляется «соб- ственно» письменная форма речи, представленная в текстах, которые в большей мере отражают общелитературную язы- ковую норму. Частотные словари письменной формы речи делятся на общие и специальные. К общим можно отнести те словари, составители которых пытались выявить лексику, употребительную в более или менее равной степени, по их предположению, во всех сферах функционирования языка. Корпус текстов для таких словарей охватывает отрывки из произведений художественной, научно-популярной и учебной литературы, из газет, журналов и других источников (211; 222; 229; 224; 254; 256—259; 275; 289; 291]. Составление та- ких словарей представляет собой крайне ответственное пред- 13
приятие: от подбора текстов зависит содержание словника*, и если, скажем, эти 'тексты подбирались явно тенденциозно* [255; 258; 290], но такая тенденциозность так или иначе про- явится в их вокабуляре и в частотном словаре. Иногда частотный словарь лишь претендует на то, чтобы представлять общелитературную лексику, тогда как в дейст- вительности его можно отнести только к специальным [200; 219; 232; 249]. Среди специальных частотных словарей деление происхо*- дит в зависимости от того функционального стиля или подъ- языка, к которому относятся использованные при их состав- лении тексты. Большинство составляемых в настоящее вре- мя частотных словарей базируется на выборках из газетных (их меньше) и научных и технических текстов (этих словарей больше). Газета как «средство массовой информации занимает важ- ное место в речевой деятельности (активной и «пассивной»} и отличается от других видов текста рядом особенностей. На газету приходится большая доля в общем объеме пе- чатной продукции; значительная часть произведений пись- менной речи попадает к адресату в виде газетного текста. Благодаря огромным тиражам газетные .материалы находят* гораздо большее распространение, чем тексты любого дру- гого вида. Газета имеет не только массового читателя, но и массового автора; с этой точки зрепия с ней не могут кон- курировать другие разновидности текста, кроме, видимо, де- ловой и эпистолярной. В результате всего этого газета оказывает сильное нор- мирующее воздействие на речь коллектива носителей языка,, она способствует закреплению нормы в речи. Через газету и сама норма испытывает влияние со стороны носителей языка благодаря речи авторов, которые не всегда придержи- ваются рекомендаций нормативной грамматики и стилисти- ки, либо стремясь к максимальной оперативности своих ма- териалов (то есть из-за недостатка времени), либо по недо- статочной осведомленности. Кроме того, стараясь приблизить в какой-то степени свое использование языка к повседневной речи читателя, авторы сознательно или неумышленно отсту- пают от нормы, фиксируют новые, ненормативные употреб- ления языковых единиц в речи. Газета почти мгновенно регистрирует все изменения в норме и узусе, которые до художественного текста и, тем бо- лее, до нормативного справочника доходят с опозданием вс 14
। оды. Газетные тексты являются, таким образом, источником самой свежей лингвистической информации. Именно эта последняя особенность газеты отпугивает от нее лингвистов, в большинстве своем предпочитающих ис- следовать язык по текстам художественным, к тому же напи- санным наиболее признанными мастерами слова. Вследствие этого газетные тексты, выполняющие важнейшие социаль- ные, лингвистические и социально-лингвистические функции, практически игнорируются исследователями языка, а сам язык газеты с его богатством стилей и жанров остается не описанным удовлетворительно ни языковедами, ни журнали- стами-теоретиками. Не случайно, что в поисках эффективных методов обуче- ния языку и для обеспечения этих методов необходимым лингвистическим материалом неоднократно обращались к частотным словарям газетных текстов. Второй по счету ча- стотный словарь английского языка был составлен в учеб- ных целях Р. Элдриджем, использовавшим для этого газету |232], а первым частотным словарем русского языка явился газетно-журнальный словарь Ф. Малиржа [268]. За последние годы в нашей стране составлены частотные словари газетных текстов на русском, английском, французском, немецком, ла- тышском, молдавском, казахском и афганском языках [161; 192; 93; 166; 215; 103; 126; 21; 116]. Частотные словари научно-технических специальных подъ- языков изготовляются преимущественно в нашей стране. Только группа «Статистика речи» уже составила больше 100 таких словарей; почти все они опубликованы в виде списков самых употребительных единиц, обычно не более 2000 (см. каталог в приложении, стр. 93—102). Предпринимаемые попытки получить частотные словари общенаучной и общетехнической лексики [171; 204] можно признать удачными лишь в той мере, в какой они служат конкретной цели составителя. В первом из них охвачено 6 учебных вузовских естественно-научных дисциплин, во вто- ром— 5 инженерно-технических. Среди 50 самых частых существительных общенаучного словаря находим такие- слова, как «вода», «раствор», «организм», «кислота», «ор- ган», которые свидетельствуют о явном преобладании в вы- борке биологических и химических текстов. Словарь этот не дает объективных сведений относительно общенаучной лек- сики уже потому, что кроме математики, физики, химии, би- ологии, медицины, геологии в нем не представлена в явном: 15-
виде ни одна другая область науки. Надо относиться с осторожностью к частотным словарям, которые претендуют на универсальность, на охват лексики «языка в целом», «науки в целом» и т. п. Для крупномасш- табных исследований с глобальным охватом таких сложных и неопределенных систем, как лексика языка и даже лексика науки или техники, требуются усилия больших коллекти- вов, способных обработать огромные выборочные совокуп- ности текстов. О таких возможностях остается только меч- тать при существующем отношении к частотным словарям: публикация их во всем мире считается убыточным делом. По сведениям автора, лишь 7 частотных словарей подверг- лись переизданиям [211; 226; 231; 286; 289; 291; 294]; в на- шей стране отдельной книгой (типографским способом) вы- пущены немногим более 10 частотных словарей [12; 15; 122; 140; 171; 204; 211; 214—2171. Поэтому более реалистичным было бы составление отрас- левых частотных словарей, базирующихся на выборках, по- сильных для анализа одному человеку или небольшой груп- пе, например, объемом в 200—400 тыс словоупотреблений. Данные таких исследований могут последовательно объеди- няться с тем, чтобы после очередного укрупнения получать частотные словари обобщенного типа. Такая «интегральная» методика статистического описания отраслевых подъязыков используется группой «Статистика речи». Для работ подоб- ного рода необходимы четкая организация и планирование, а также единство методики анализа текста. Эти вопросы будут рассмотрены ниже (гл. II). Деление частотных словарей в зависимости от формы и содержания текста может продолжаться вплоть до произве- дений одного автора и даже отдельного произведения. Здесь интересы лингвистики тесно переплетаются с интересами ли- тературоведения, текстологии, «авторской» стилистики. Суще- ствуют частотные словари отдельных текстов; иногда частот- ный словарь выступает не в чистом виде, а в сочетании с другими особыми типами словарей. Наиболее распространен- ным таким словарем является словоуказатель или индекс. Основная его черта в том, что каждое слово в нем сопрово- ждается своими адресами в тексте, то есть указываются страницы и строки по изданию, использованному для состав- ления индекса. В отечественных публикациях последних лет слова в индексе, кроме адресов, имеют указание на часто- ту [138]; в ранних работах частоты отсутствовали, но их 16
можно узнать, сосчитав все адреса каждого слова [79; 90]. Словарем еще одного вида, в котором могут приводиться частоты, является конкорданс к какому-то тексту; в нем даются все контексты — предложения или более длинные отрывки текста, в которых употреблено слово в источнике. Если конкорданс дает толкование слова, он может назы- ваться объяснительным словарем. Объяснительный словарь может либо включать в свои словарные статьи указание на частоты слов [176], либо давать частотный словарь в виде приложения [173; 174]. 6. Цель словаря Один из первых частотных словарей [236], словарь китай- ских иероглифов, составлялся для оптимального устройства наборных касс в типографии [240]. Крупнейший частотный словарь, второй из существующих по объему выборки и опу- бликованного словника, создавался на материале немецких текстов в целях усовершенствования системы стенографии [259]. Большинство зарубежных частотных словарей имели целью обеспечить методику обучения языку (навыкам чте- ния и письма) тех, для кого данный язык являлся неродным (см., например, [222—224; 226; 231; 232; 241; 260; 276; 291; 294]). Меньшее количество частотных словарей, преимущест- венно в последние годы, предназначено для лингвистических и лингвостилистических исследований [116; 219; 256—258; 262]. Известно небольшое число словарей, рассчитанных на технические [233], лингвопсихологические [252] и другие спе- циальные, например, военно-технические [104] и юридические приложения [24]. Особый интерес представляют статистические исследова- ния детской речи [200; 228; 269], в частности, изучение дина- мики развития словаря ребенка [280]. Такие работы позво- ляют делать наблюдения, одинаково важные для лингвистов и психологов. Анализ частот лингвистических единиц в речи с патоло- гическими отклонениями позволяет судить о наличии и ста- диях болезненного процесса у лиц, подверженных психиче- ским заболеваниям [149]. Предпринимавшиеся за последние годы работы по созда- нию частотных словарей на базе выборок объемом от 500 тыс 2 Зак. 2064 17
|256—258] до 1 млн словоупотреблений [217; 262] и не- сколько выше [275] имеют целью получение материала для разностороннего лингвистического анализа текста на уров- нях словоформ, слов, морфем, графем, графемосочетаний. Авторы этих словарей производят не только лексикологиче- ский анализ текста, но и исследуют его на других лингви- стических уровнях; частотный словарь, таким образом, яв- ляется для них лишь начальным этапом тщательного изуче- ния структуры текста, представляющего «язык в целом». Частотные словари группы «Статистика речи» являются многоцелевыми. Они рассчитаны на обеспечение лексиче- ским и лексико-морфологическим минимумом преподавате- лей иностранных языков и, прежде всего, преподавателей неязыковых учебных заведений, особенно остро испытываю- щих необходимость в повышении эффективности своей ра- боты. Они предназначаются также для использования при создании систем автоматической переработки языковой ин- формации. Они дают материал для исследования типологии функциональных стилей и языков, так как составляются по> единой методике и базируются обычно на выборках стан- дартного объема. Эти два свойства — единство методики и одинаковый объем выборки — имеют принципиальное значе- ние для возможности сравнивать данные частотных слова- рей [199, стр. 46]. Подробнее этот вопрос будет рассмотрен в главе III. 7. Входные единицы частотного словаря Классификация входных единиц частотных словарей тре- бует особого внимания. Если в «обычном» словаре входными единицами почти всегда являются слова (плюс нерегуляр- ные формы слов) или словосочетания (в фразеологическом словаре), то частотные словари могут регистрировать кроме этих и другие лингвистические единицы — словоформы, мор- фемы. Есть частотные списки букв, звуков, буквосочетаний, суффиксов, окончаний, слогов синтаксических конструкций [229; 233; 219; 97; 104; 184; 118; 287; 34; 78; 4; 31; 28; 288]. Большинство существующих частотных словарей имеют входными единицами слова или словоформы3. 3 Разница между словом и словоформой видна на следующем при- мере: слово «стол» объединяет словоформы «стол», «стола», «столу», «столом» и Т. Д. 18
Частотный словарь слов удобен тогда, когда он иредла- i.ii’TCH читателю как готовый или почти готовый лексический шпимум. Он удобен, далее, в тех случаях, когда не предна- значается для изучения словоизменительной и графической • истом данного языка или подъязыка. Авторы таких словарей справедливо предполагают, что эти системы известны адреса- i\ словаря. Когда составитель рассчитывает на тех, кому интересны частоты не только слов, но и их изменяемых вариантов, то 1‘ггь слов в том виде, в котором они используются в обсле- дованном тексте, он публикует списки словоформ. Иногда (например, в группе «Статистика речи») составитель распо- лагает частотными словарями и слов и словоформ и, в за- висимости от адресата своей работы, делает выбор при пуб- шкации в пользу того или другого словаря. Один из по- следних и, пожалуй, самый лучший из существующих ча- стотных словарей, словарь шведской газеты С. Аллена [219] приводит по отдельности полные списки слов и словоформ. В некоторых частотных словарях используется гнездовая система: в алфавитно-частотном списке даются слова с их частотами, а под каждым словом приводится перечень всех его форм также с указанием их частот [219; 256—258; 265; 284]. Один из частотных словарей английского языка [229] включает в себя, кроме частотного и алфавитно-частотного списков словоформ, такие же списки «корневых» слов, к ко- торым сведены не только формы слов, но и производные слова. 8. Численные характеристики единиц частотного словаря Численные характеристики, которыми сопровождаются входные единицы частотного словаря, могут быть обязатель- ными и факультативными, дополнительными. Подавляющее большинство составителей частотных словарей совершенно обоснованно считают абсолютную частоту главной, обяза- тельной и минимально необходимой характеристикой употре- бительности соответствующих единиц своих списков в кор- пусе обследованных текстов. Абсолютная частота является и универсальным численным показателем: ее величины для входных единиц вместе с указанием объема выборки дают читателю словаря, знакомому с лингвостатистикой, пеобходи- 2* 19
мое и достаточное представление о надежности данных сло- варя и о возможности использованного корпуса отражать, язык или подъязык. Из абсолютной частоты можно получить путем дополнительных расчетов другие, производные харак- теристики, но обратная процедура затруднительна. В некоторых частотных словарях приводятся не абсолют- ные, а относительные частоты. Это создает неудобства при их использовании: если автор сообщает объем выборки, то получение абсолютных частот умножением относительных на этот объем вызывает значительные неточности из-за того, что автор округлял величины относительных частот, прежде чем поместить их в списке [43; 208]. Если автор не сообщает, ка- кую выборку он использовал при составлении словаря [246— 248], то относительные частоты существенно теряют свой смысл как лингвостатистический материал [16]; в этом случае абсолютные частоты позволили бы узнать объем выборки их суммированием или сопоставлением с другими частотными списками данного языка (частоты некоторых служебных слов практически в любых текстах данного языка распределяются более или менее однородно). Однако такие элементарные сведения должен сообщать сам составитель, не вынуждая читателя проделывать за него эту работу. Иногда автор, чувствуя несовершенство отбора текстов в корпус, стремится, по его словам, «уточнить» частоту [102] (критику см. в [6]). Такая «коррекция» фактических данных может лишь ввести в заблуждение читателя, как это случи- лось с А. Робертсом [281], который по «уточненным» часто- там в словаре Э. Хорна [249] определил выборку для этого словаря как 15 млн словоупотреблений, тогда как в лучшем случае она могла быть равной 5 млн (см. [9], стр. 164—165). Каким бы образом ни производилась оценка частоты, статистически некорректно [102; 107] или вполне обоснованно [279], она не заменяет, а способна лишь дополнить главную характеристику употребления слова, его фактическую, на- блюденную в тексте частоту. К такой необходимости пришел, например, Э. Торндайк, соавтор всемирно известного частотного словаря английского языка, базирующегося на самой большой выборке в 18 млн словоупотреблений [289]. В первых изданиях своего словаря [286] он приводит вместо частот слов их «коэффициенты важ- ности», но в последнем варианте, где объединены его собст- венные результаты и данные И. Лорджа [289], слова сопро- вождаются абсолютными частотами.
Характеристикой употребительности, дополняющей часто- ту, является показатель распространенности. Он свидетельст- вует о степени равномерности встречаемости слова в анали- зируемых составителем словаря текстах. Распространен- ность слова простейшим образом выражается в количестве текстов, в которых оно зарегистрировано хотя бы один раз. Самые частые* слова (прежде всего служебные, а из числа колнозначных наиболее «нейтральные», общие для данного корпуса текстов), как правило, встречаются во всех обсле- дованных текстах, менее частые не во всех. Это свойство слов, послужило основанием для замены ча- стоты показателем распространенности некоторыми состави- телями частотных словарей. Одни авторы указывают его в качестве обязательной характеристики, приводя частоту как дополнительную [200; 223; 226; 241; 260], другие решили во- все отказаться от частоты [218]. Не вполне удачный подбор текстов для частотных словарей приводил и к более ради- кальным предложениям: учитывать при анализе текста не частоту, а только наличие слова в каждом источнике хотя бы по одному разу, получая таким образом «распределитель- ный» словарь, который более объективно отражал бы стати- стическую структуру текста, чем словарь частотный [18, стр. 85—90] (см. критику этого в [6, стр. 24—25]). Многолетние поиски техники «уточнения» частоты приве- ли в результате к компромиссному решению в серии частот- ных словарей романских языков, составленных под руковод- ством А. Жюйана [256—258]. Главной количественной харак- теристикой остается абсолютная частота; вторая представ- ляет собой оценку равномерности встречаемости слов в час- тях корпуса с помощью «нормированного коэффициента ва- риации» (см. подробное изложение этой методики в [19]). Здесь учитывается не только наличие слова в каждой части корпуса текстов, но и его частоты в них. Третья величина, которую предлагает А. Жюйан, это «коэффициент употреби- тельности», объединяющий частоту и показатель распростра- ненности. Эту методику использует С. Аллен [219] для выяв- ления базовой, то есть наиболее частой и равномерно употре- бительной зоны своих частотных списков. Методика А. Жюйана требует весьма громоздких вычис- лений; хотя и он сам, и С. Аллен рассчитывали коэффициент распространенности не для текстов, а для групп текстов, то есть для гораздо меньшего количества, им понадобилось обращение к электронно-вычислительной машине (ЭВМ). 21
Возможности, которые предлагает для таких операций ЭВМ, подсказали еще один способ оценки употребительности лингвистических единиц. Он состоит в выявлении закона рас- пределения, которому подчиняются их частоты в выборочном корпусе текстов. Эта процедура требует более сложного ма- тематического аппарата и нуждается в специальном обсуж- дении [35; 37; 39; 96; 99; 132; 142; 160; 172; 190; 213]. Расче- ты здесь очень трудоемкие, для них необходима особая под- готовка первичных данных, то есть частот в каждом из об- следуемых текстов в отдельности, их группировка и упорядо- чение. Такая подготовительная работа требует длительного времени и больших массивов анализируемого текста. Поэто- му не существует частотных словарей, словник которых ком- плектовался бы в зависимости от вида распределения или входные единицы которых сопровождались бы указанием на вид распределения. Дополнительной, производной от частоты характеристи- кой является ранг4, который означает порядковый номер слова (или другой единицы) в частотном списке. Нередко слова в таком списке нумеруются подряд, даже в том случае, когда одинаковую частоту имеют несколько слов. Однако так поступать не совсем правильно, поскольку слова с одина- ковой частотой естественным образом располагаются по ал- фавиту, а это значит, что слово на букву «а» получит мень- ший номер, чем слово на букву «я». Но статистика здесь не при чем; к этому вынуждает нас порядок расположения букв в алфавите данного языка. Следовательно, чтобы сохранить равные возможности для каждого слова с одинаковой часто- той быть представленным на соответствующем этой частоте месте частотного списка, таким словам надо присваивать не отдельные ранги, а интервал рангов. Покажем это на при- мере нашего словарика по тексту введения. Авторы некоторых частотных словарей, смущенные нали- чием одинаковых частот у нескольких слов, указывают не ранги слов, а ранги частот [208; 246—248; 43], называя, тем не менее, эти ранги рангами слов. Это, во-первых, является терминологической ошибкой, а, во-вторых, не вносит суще- 4 Не следует впадать в распространенную, к сожалению, ошибку, ко- торая вызвана странным недоразумением: внешнее сходство слова «ранг» с английским «range» приводит к их путанице (см., например, [86, стр. 107—108]). В действительности термин «ранг» происходит от англий- ского «rank», а английское «range» означает «распространенность, диа- пазон».
ственной информации в лингвостатистическое описание струк- туры текста. Последний ранг слова в частотном списке пока- зывает объем частотного словаря, количество разных слов, обнаруженных составителем в выборке. Последний ранг ча- стоты показывает, сколько в выборке обнаружено разных частот; лингвистического смысла эта количественная харак- теристика не имеет5. В нашем словарике при таком подходе оказалось бы вместо 304 разных слов 11 разных частот. В алфавитно-частотных списках ранги приводить нецеле- сообразно. Их можно узнать по частоте слов в специальной таблице (такой, как только что была рассмотрена), которая прилагается или должна прилагаться к каждому частотному словарю [12; 15; 219; 262; 279]. Использование ЭВМ для составления частотных словарей позволяет получить целый ряд количественных характерис- тик. Частотные словари, изготовляемые группой «Статистика речи» почти в промышленных масштабах, содержат следую- щие числовые показатели для каждой входной единицы: по- рядковый номер единицы (из-за технических соображений Сплошная нумерация Ранговая нумерация 1 в 22 1 в 22 2 и 14 2—3 и 14 3 словарь 14 словарь 4 частотный 13 4 частотный 13 5 с 8 5 с 8 6 который 7 6—7 который 7 7 на 7 па 8 лингвистический 6 8 лингвистический 6 5 Такое непонимание существа термина «ранг» приводит и к явным нелепостям: на протяжении одной работы автор может, оказывается, называть рангом то частотный номер слова, то порядковый номер ча- стоты [86, стр. 61, 63, 82, 98]. Случается и так, что на одной странице ранг понимается как частотный номер слова, а на другой предлагается называть рангом показатель распространенности [197, стр. 14 и 56]. 23
Ранг Частота Количество слов с этой частотой Накоплен- ная частота Накопленная относительная частота 1 22 1 22 0,044 2—3 14 2 50 0,100 4 13 1 63 0,126 5 8 1 71 0,142 у 7 2 85 0,170 8 6 I 91 0,182 9—14 5 6 121 0,242 15—21 4 7 149 0,298 22—36 3 15 194 0,388 37—74 2 38 270 0,540 75—304 1 230 500 1,000 указывается не ранговый интервал, а номер), абсолютную частоту, относительную частоту, абсолютную накопленную и относительную накопленную частоты, количество взвешенной информации и количество накопленной взвешенной инфор- мации на слово (или другую единицу) 6. 9» Техника составления словаря Классификация частотных словарей по технике их состав- ления имеет по крайней мере два аспекта, которые учиты- вают основной способ исполнения и методику выборки. Основной способ исполнения может быть ручным, машин- ным или комбинированным. При ручном способе все опера- ции, связанные с анализом текста, подсчетами частот и оформлением словаря, проделываются самим составителем; если работа выполняется коллективом, в ней возможно из- вестное «распределение труда». G О понятии статистической информации см. [153]. 24
При машинном способе участие человека состоит в под- ютовке текста к вв’оду в ЭВМ. Пока отсутствуют специаль- ные читающие устройства, которые позволяли бы осущест- влять автоматический ввод любого текста, человеку прихо- дится наносить текст на особый машинный носитель инфор- мации, то есть на перфоленту или перфокарты, используя специальное кодирующее устройство. Буквы текста при этом преобразуются в комбинации отверстий7. В ЭВМ перфо- лента или перфокарты проходят через фотоэлектрическое устройство; сочетания отверстий соответствуют определенным электрическим сигналам, с которыми и имеет дело машина. На выходе ЭВМ выдает широкую рулонную ленту, на ко- торой напечатан предусмотренный программой вариант ча- iTOTHoro словаря со всеми необходимыми численными харак- юристиками [159]. Комбинированный способ применяется там, где более полное использование ЭВМ представляется затруднитель- ным, например, когда при подготовке текста к вводу в ЭВМ необходимо учитывать обширную и разнообразную информа- цию о регистрируемой единице, закодировать которую на перфораторе из-за ее объема оказывается неудобным. Тогда текст расписывается вручную, а подсчет частот и получение других параметров поручается машине [256—258]. Методика выборки заключается в способе отбора из со- вокупности изучаемого материала такой его части (выбор- ки), которая должна представлять собой эту совокупность ]94, стр. 23]. Выборка должна быть случайной, но в лингво- стдтистической практике она редко бывает такой, сохраняя случайность лишь в большей или меньшей степени. Для то- го, чтобы осуществить совершенно случайный отбор слов в частотный словарь из всего бесчисленного множества (гене- ральной совокупности) всех употреблений всех слов языка в речи всех говорящих и пишущих на этом языке, потребова- лось бы, например, пронумеровать все эти случаи словоупо- треблений и затем производить из этого пронумерованного списка отбор по таблице случайных чисел. Выполнение такой работы трудно даже вообразить, поэтому случайный отбор в строгом смысле не практикуется. 7 Можно перфорировать любой текст, имеющий русскую или латин- скую графику. В 1970 г. в группе «Статистика речи» л был получен на ЭВМ частотный словарь афганского языка, для чего была разработана специальная система перекодировки афганского алфавита- в латин- ский [116]. 25
Обычно случайная выборка используется па одном или нескольких этапах лингвистического наблюдения, тогда как на других прибегают к систематическому (механическому) отбору. Таким образом весь процесс комплектования корпу- са единиц наблюдения становится многоступенчатым [94]. Случайным способом можно отбирать названия источников, тексты из этих источников [262], отрывки текстов, лингвисти- ческие единицы из отрывков текста [221], однако выдержать принцип случайности на протяжении всей процедуры наблю- дения не удается. Более того, по существу, ни один частотный словарь не базируется на собственно случайных выборках. Составители не без оснований считают, что даже если тексты подобраны не случайным способом, то употребление в них тех или иных слов является случайным, и это уже может обеспечить ста- тистическую надежность результатов такого наблюдения. Обычно забывают при этом лишь одно, но решающее сообра- жение: при отсутствии строгой случайности в отборе источ- ников и отрывков текста из этих источников результаты на- блюдения могут быть достаточно надежными (если и объем выборки будет достаточно велик) только относительно та- кой генеральной совокупности, которая по структуре является совершенно идентичной корпусу текстов. Если, например, при создании частотного словаря русской лексики мы будем от- бирать в выборочную совокупность тексты из детских и мо- лодежных изданий, то в результате можем получить более или менее достоверные сведения о русской лексике именно в детской и в молодежной литературе. Эти данные, разу- меется, могут в какой-то мере свидетельствовать об употре- бительности слов в текстах на русском языке «вообще», но их статистическая надежность может быть установлена лишь при сравнении такого частотного словаря со словарем, со- ставленным на базе других по характеру текстов. Важным для методики лингвостатистической выборки яв- ляется вопрос о минимальном сегменте текста, используемо- го для подсчетов. Размеры такого сегмента могут колебаться от размера всего текста источника (как, например, у Р. Элд- риджа [232], расписавшего полностью четыре номера газеты) до одного словоупотребления [221]. В последнем случае Л. Эйрз, составитель частотного словаря переписки на анг- лийском языке, чтобы получить выборку общим объемом 100 тыс словоупотреблений, был вынужден 100 тыс раз извлекать из своего обширного материала по одному слову 26
одной строки за раз. Обычно для частотных словарей ис- пользуются в качестве минимальных сегментов текста отрыв- ки около 1 тыс словоупотреблений; для словарей по «мил- лионным» выборкам берут тексты большие — до 2—5 тыс словоупотреблений. Тексты расписываются всплошную, в них регистрируются все словоупотребления. В отдельных слу- чаях, таких, как анализ газетных текстов и разговорной ре- чи, трудно соблюсти равенство отрезков текста; там разби- вают или укрупняют сегменты текста до средней стандартной длины законченного речевого произведения, например, до 100 словоупотреблений [192]. Разница в конечных результатах наблюдения над боль- шими и маленькими текстами при общей равной длине вы- борочных совокупностей может оказаться значительной. В английских научных текстах [11] обнаружено в 2,5 раза меньше разных словоформ, чем в газетных [192]; общий объем выборок одинаков (по 200 тыс словоупотреблений),но тлина минимальных сегментов текста в первом случае равна 1 тыс, во втором 100 словоупотреблениям. Приблизительно в таких же соотношениях находятся частотный словарь научных текстов на румынском языке [83] и частотный словарь мол- давской газеты [126]. Выборочный корпус, составленный из большого числа коротких текстов, всегда дает больший объ- ем словаря, чем составленный из небольшого числа длинных текстов, потому что охватывает больше авторов, больше си- туаций и, следовательно, более разнообразную лексику. При решении вопроса о размере минимального отрезка текста возникает, таким образом, конфликтная ситуация. В ней с одной стороны известно, что чем короче будут тексты, тем лучше соблюдается принцип случайности и тем большим будет по объему словарь. С другой стороны, гораздо удоб- нее, легче анализировать меньшее число больших текстов, чем большее число коротких текстов. Выбирать приходится в зависимости от фактических, реальных возможностей со- ставителя: от наличия достаточно разнообразных текстов и от имеющихся сил и времени для их анализа. 10. Учет значений Частотные словари существенно различаются в регистра- ции значений своих входных единиц. Простейшим видом яв- ляется частотный или алфавитно-частотный список графиче- ских форм слова или словоформ без учета каких-либо значе- 27
пий; самым совершенным — часФотный семантический сло- варь, в котором регистрируются лексические значения вход-4 пых единиц. Словарей этого последнего типа имеется немно-.; го, и они представляют собой особую отрасль статистической'] лексикографии (см. [7]). ? Несколько большее число частотных словарей указывает лексикограмматические значения; в них либо каждое слово/' либо только совпадающие по написанию слова получают ин-* деке части речи. Почти все зарубежные частотные словари словоформ нем приводят никакой информации о принадлежности их к ка- ким-либо частям речи или грамматическим категориям (к не- многим исключениям относится [219], то есть не учитывают ни лексикограмматических, ни грамматических значений. Они не различают ни омографии частей речи, ни омографии грам- матических категорий в пределах одной части речи. Но даже- и те немногие частотные словари, которые как-то выделяют* совпадающие по написанию знаменательные слова в случае- их омографии, не делают различий между служебными омо- графами. В группе «Статистика речи» почти все частотные словари словоформ и слов сопровождают свои входные единицы ин- дексом части речи и грамматической категории; правила ин- дексирования изложены в специальных инструкциях [18U стр. 273—573]. Словарь индексированных словоформ позво- ляет, во-первых, без труда преобразовать его в словарь слов, во-вторых, дает статистику грамматических категорий; ча- стотный словарь слов с учетом частей речи обеспечивает, в свою очередь, статистику лексико-морфологических классов слов. Попытки упростить составление частотного словаря за счет отказа от статистики словоформ в пользу регистрации в тексте слов-лексем не дают выигрыша во времени, затруд- няют процесс анализа текста и лишают составителя инфор- мации о частотах грамматических категорий, о фактически используемых в тексте формах слов. Частотные словари словосочетаний обычно не приводят индексов, так как в большинстве случаев значения компонен- тов сочетаний могут быть расшифрованы по окружению ос- новного, «ядерного» компонента; те словари, в которых дается объяснение смысла сочетаний, можно отнести к семан- тическим.
ГЛАВА II. СОСТАВЛЕНИЕ ЧАСТОТНОГО СЛОВАРЯ Теория частотных словарей еще не создана, и едва ли можно этого ожидать, пока статистическая лексикография пе накопит достаточно обширного опыта на материале самых различных языков и функциональных стилей. Тем не менее, если опираться хотя бы на то сравнительно немногое, что она успела приобрести за последние годы своего развития, можно высказать некоторые соображения обобщенного и практического характера. Составление частотного словаря является занятием весьма ответственным, поскольку при существующем спросе на та- кие словари, непрерывно растущем к ним интересе и отсут- ствии должного представления об их возможностях, данные этих словарей могут приниматься на веру, некритически, из одного «уважения» к не всегда понятной широкому читателю лингвостатистике. Качество, надежность материалов частотного словаря за- висит прежде всего от того, насколько тщательно продумана основная, исходная часть лингвостатического эксперимента — его планирование и выполнение, то есть подготовка к наблю- дению я само наблюдение. 1. Определение генеральной совокупности текстов В соответствии с поставленной перед словарем целью ре- шается вопрос об определении генеральной совокупности текстов. Каждый отдельный частотный словарь не может своим материалом отвечать слишком многим запросам; в то же время неразумно ограничивать его применимость до- стижением только одной цели. Очевидно, в будущем, когда частотные словари _ войдут в повседневную прак- тику, как и словари других типов, и составление их станет 29
делом простым и обычным, можно будет планировать их узконаправленными и одноцелевыми. Пока же каждый от- дельный частотный словарь не должен замыкаться интере- сами одного из возможных адресатов. Он способен содер- жать в себе разнообразную информацию, пригодную для использования -в различных областях, и от составителя тре- буется не так уж много, сравнительно с трудами, затрачен- ными на его изготовление, а именно: не прятать эту инфор- мацию от читателя, представить ее в явном виде. Это отно- сится как к оформлению самого словника частотного слова- ря, так и к описанию методики его составления. При определении генеральной совокупности текстов сле- дует четко уяснить себе и указать читателю, какие в качест- венном, содержательном смысле объекты собирается описы- вать своим словарем составитель: будет ли это лексика (или иной уровень) общелитературного языка, языка художест- венной литературы, прозы или поэзии, газеты, разговорно- бытовой речи, научной литературы и т. д. Если, например,, планируется частотный словарь самого общего, широкого применения, такой, как словарь современного литературного языка, то придется решить, будет ли это словарь норматив- ного характера или он будет фиксировать реальный узус носителей языка в письменной и устной формах. ’В первом случае генеральная совокупность будет состоять из текстов, наиболее признанных авторов, и здесь, возможно, хроноло- гические рамки не следует чрезмерно ограничивать. Правда, тогда частотный словарь будет отражать лексику сравнитель- но небольшого, избранного числа авторов — «нормализато- ров» языка1. Практическое применение такого словаря бу- дет, видимо, сведено к созданию на его базе учебного слова- ря-минимума для чтения литературы соответствующего ха- рактера. Кстати, лексика признанных мастеров слова заслу- живает особых исследований и ее целесообразно изучать спе- циально. Большему кругу задач отвечал бы частотный словарь, ре- гистрирующий употребление слов (или других лингвистиче- ских единиц) в текстах, написанных авторами различных уровней мастерства. Важно в теоретическом плане выяснить, 1 При этом следует помнить, что культура социальной группы, как правило, превосходит культуру индивидуума по объему. «Культура инди- видуума— это субъективно смещенная выборка из совокупности знаний^ и идей его социальной группы» [135, стр. 53]. 30
।л кая лексика является действительно обиходной в реальной речи носителей языка (пусть и ограниченной различными ус- ювпями, например, только письменной ее формой в произве- 1епиях художественной литературы). В прикладном плане, например, в учебно-методическом, эта задача не менее важ- на, так как позволит ориентироваться на обучение чтению не юлько текстов Пушкина, Толстого, Горького, Леонова, но лю- оых (издаваемых хотя бы одними центральными издатель- ствами), с которыми сталкивается или столкнется изучающий русский язык в повседневном с ним общении, а не только на vpoxax. В этом случае границы генеральной совокупности сле- довало бы определять, исходя из разных источников информа- ции: тиража изданий, спроса на них в магазинах и библио1е- ках, анкетного обследования читательского мнения и т. д., чтобы личные оценки составителя были скорректированы коллективными. При этом можно было бы получить некото- рое представление о фактическом влиянии произведений дан- ных авторов на речевое поведение носителей языка. Частотный словарь «языка в целом» всегда будет стра- дать от известного субъективизма его составителей, но надо стараться, чтобы этот субъективизм не слишком уменьшал степень пригодности словаря для различных применений. Мечты о каком-то «полном» частотном словаре [51], который регистрировал бы всю или большую часть лексики и, кроме того, определял бы вероятности слов в языке, оказываются несостоятельными [165]. На фактическое употребление слов в каждой речевой ситуации или даже в обширных классах ситуаций действует такое множество самых различных фак- торов, что общие границы вероятностей можно устанавливать для немногих слов лишь в совершенно определенных усло- виях. Например, в достаточно большом английском тексте вероятность определенного артикля находится в пределах от 0,11 до 0,03; этот интервал сужается до 0,11—0,05, если условия ограничиваются письменной речью, и до 0,11—0,07 при дальнейшем их ограничении научными текстами, хотя в отдельных случаях эта вероятность может быть равна ну- лю, как в обычных телеграммах, то есть в искусственно упро- щенных текстах. Поэтому генеральную совокупность необходимо предста- вить в виде схемы, в которой четко указаны ее области, как это, например, делается в группе «Статистика речи» при со- ставлении отраслевых частотных словарей [178—481]. Для каждой области указываются источники (авторы, названия* 31
произведений, названия журналов и т. д.), репрезентирующий эту генеральную совокупность текстов. Если используете^ сравнительно большой хронологический диапазон, следуем указывать даты первой публикации текстов. При определении количественной структуры генеральной совокупности возможны два принципиально различных под- хода: ра.внопропорциональное и неравное представительство в ней ее областей. Первое решение является на первый ВЗГЛЯД ПРОИЗВОЛЬНЫМ, ПОСКОЛЬКУ, ПО-ВИДИМОМу, НИКаКИе ЛИНГ-;! вистические совокупности в действительности не райони- руются на равные участки, однако второе решение, более правильное «теоретически», не может быть реализовано на. практике строго корректным образом. Как определить, на- пример, степень вклада в общелитературный язык того пле- нного автора, жанра, стиля, группы текстов и т. д.? Как обосновать теоретически решение, скажем, делить генераль-? ную совокупность текстов так, чтобы газеты и журналы в ней. заняли 25%, радиопередачи 25%, художественная проза и| пьесы 50% 1211]? ] Вариант членения генеральной совокупности на равныеj части будет обладать по сравнению с первым вариантом,- несомненными преимуществами. Во-первых, он менее произ- волен, субъективизм составителя здесь проявляется только в перечислении областей генеральной совокупности, но не в приписывании им априорно заданных весов. Во-вторых, бла- годаря равноправному представительству областей генераль- ной совокупности обеспечивается статистическая надежноость их сопоставления друг с другом. В предыдущей главе рассматривались возможность и це- лесообразность учитывать не только частоту лингвистической единицы, но и однородность ее распределения в выборочном корпусе, ее распространенность. Но распространенность не может рассматриваться в отрыве от частоты, она должна учитываться одновременно с ней, как и предлагают послед- ние работы {161; 171; 204], иначе окажется, что слово, упо- требленное в каком-то количестве текстов по 1 разу, получит одинаковое право попасть в верхнюю зону словаря вместе со словом, употребленным по 10 раз в таком же количестве текстов, и со словом, которое имеет частоту в од- ном тексте J00, а в остальных по 1. Более того, при неравен- стве текстов по объему больший из них будет иметь не толь- ко большие частоты равномерно распространенных единиц, но и большее число разных единиц, что опять-таки лишит 32
показатель распространенности статистической корректности. Следовательно, если есть желание учитывать распространен- ность, то генеральная совокупность должна районироваться на равные по объему области и на равные по длине тексты. 2. Формирование выборочной совокупности Структура выборочной совокупности должна повторять структуру генеральной совокупности. Это значит, что како- вы бы ни были притязания автора частотного словаря на объективное отображение языка или подъязыка, его данные могут быть в той или иной мере надежными лишь относи- тельно той генеральной совокупности, которая аналогична по содержанию и структуре выборочной совокупности, выбороч- ному корпусу текстов. Например, когда по результатам ча- стотного словаря американского варианта английского языка оценивается объем всего словаря этого варианта как 340 тыс словоформ [262], то это еще не значит, что следует отвергать или принимать эту оценку как реалистическую для англий- ского языка в целом в США. Это может только значить (если мы согласимся со строгостью процедуры такой оценки), что 340 тыс будут пределом словаря текстов, аналогичных по со- чержанию обследованным текстам, написанным теми же ав- торами, взятыми в тех же пропорциях и т. д. в генеральной их совокупности, то есть при их бесконечном удлинении [9]. Требование структурного соответствия выборочного кор- пуса и генеральной совокупности включает в себя также обя- зательное тождество единиц этих двух совокупностей и учет- ных единиц. Например, если объектом наблюдения, единицей будущего частотного словаря является слово, то не имеет статистического смысла определять выборочный корпус в страницах или знаках. Если речь идет о словосочетаниях, то н выборка должна определяться в словосочетаниях, если о предложениях, то выборка определяется предложениями. Решает статистическую надежность частотного словаря не только качественная, содержательная структура выборки, но и ее объем. Эта вторая сторона проблемы затрагивается в литературе чаще, чем первая, хотя она далека еще от своего решения. Пока еще не удалось теоретически строго обосно- вать объем выборки, необходимый для достаточно надежного частотного словаря. Завораживающие лингвистов своей сим- 3 За к. 2064 33
вол и кой расчеты {199, стр. 9] базируются на неизвестных и произвольно задаваемых величинах в формуле: где 6 — относительная ошибка и Zp —константа уровня зна- чимости задаются произвольно, а М— объем выборки и / — относительная частота последнего слова из верхней, досто- верной части словаря неизвестны. Поэтому приходится по- ступать «как другие», ссылаясь па общепринятую лингвоста- тистическую или статистическую практику, называя резуль- таты других авторов «предварительным экспериментом». EL действительности же объем выборки во всех случаях по-пре- жнему определяется реальными возможностями составителя. Все-таки трудно рассчитывать на то, что в недалеком бу- дущем может быть разработана процедура, принципиально- более удачная, чем вышеуказанная. Возможно, по-видимому, лишь некоторое усложнение оценок с помощью дополнитель- ных величин. Даже там, где предлагается единственно га- рантированный, собственно эмпирический способ определе- ния достаточности выборки [253], при котором прекращение' ее увеличения зависит от замедления темпа прироста сло- варя, оценки будут иметь приблизительный и субъективный характер. Проблема соотношения между словарем и текстом- исследована недостаточно; чтобы получить результаты, обла дающие хорошей прогнозирующей способностью, необходимы тщательные наблюдения над огромными по сегодняшним по- нятиям выборками. Такая работа не всегда выглядит привле* нательной; гораздо проще ограничиться ссылками на преце- дент. .. Остается, очевидно, в силе общее правило лингвостати- "стики: чем больше выборочный корпус, тем достовернее ре- зультаты наблюдения. Однако при равных объемах тексты более ограниченного содержания дадут и более надежные сведения, и это естественно: обширный набор ситуаций тре- бует достаточного количественного представления в корпусе,, а это влечет за собой неизбежное увеличение выборки. Отсю- да очевиден следующий практический вывод: если нет воз- можности организовать дорогостоящую работу большого1 коллектива для создания частотного словаря по большой вы- борочной совокупности, то нет смысла браться за нее со сла- быми средствами. И, конечно, попытки обойтись без хоро- 34
шей организации работы, без четкого распределения мате- риала и обязанностей среди исполнителей, без программы, обречены на неудачу (ср. [51]). 3. Расчет времени Таким образом, объем выборки, необходимой, по мнению составителя, для его частотного словаря, определяется време- нем, которым он располагает. Иногда приводят ошеломляю- щие читателя цифры, что объясняется вполне понятным же- ланием показать трудоемкость работы; эти цифры оказы- ваются подчас завышенными. Личный опыт автора свидетельствует, что для расписыва- ния текста (то есть для составления алфавитно-частотного списка словоформ этого текста) объемом 1000 словоупотреб- лений на русском или английском языках требуется при не- котором навыке около 1,5 часов. Новичок в этой ра- боте тратит на первый текст до 8 часов; после 5—10 текстов скорость анализа доходит до 2 часов на 1000 словоупотреблений; через 20—30 текстов она может быть доведена до 1 часа. При этом составитель регистрирует лексико-грамматические и грамматические значения слово- форм: в случае омографии частей речи или грамматических категорий он ставит соответствующие индексы. Перед этим, разумеется, необходимо усвоить инструкцию по индексиро- ванию; она не должна быть слишком громоздкой. Более сложный вид работы — регистрация словосочетаний («общеязыковых» и терминологических) в параллельных тек- стах на английском и русском языках [12], когда на карточ- ку одновременно выписывалось английское словосочетание и его русский перевод, — также занимал около 1” часа при «длине» текста в 100 словосочетаний, что соответствует приблизительно 1000 словоупотреблений. Расписывание текста в таком темпе требует большого на- пряжения; нецелесообразно заниматься им более 4 ча- сов в день при постоянной, длительной работе. Однако эти результаты легко сопоставить с приводимыми иногда в ли- тературе: в одном случае за шестичасовой рабочий день предлагается набивать на перфокарты 1 тыс словоупотребле- ний; утверждается, что это предел [86, стр. 30] * (см. также [51]). В другом случае расписывание английского текста в 18 тыс и параллельного ему русского текста в 14 тыс слово- 3* 35
употреблений потребовало 24 человеко-месяца «непрерывной работы», то есть 600 человеко-дней или, при шестичасовом рабочем дне, 3600 человеко-часов. Это значит, что 1 слово- употребление английского текста (и его русский перевод) регистрировалось в течение 2 часов (137, стр. 159]! Опытный оператор-телетайпист перфорирует текст на лен- ту со скоростью 1—2 тыс словоупотреблений в час в зависи- мости от того, необходимо или нет индексировать текст2. Таким образом, на расписывание вручную или на перфо- рирование корпуса текстов объемом 200 тыс словоупотребле- ний требуется около 200 часов работы, правда весьма на- пряженной. Если учесть, что «судя по опыту предшественни- ков», такого объема достаточно для определения около 750 самых частых слов или словоформ отраслевого подъязыка (покрывающих 70—80% обследованного текста при довери- тельном уровне в 95% и относительной ошибке в 33% и аб- солютной частоте не менее 35 [5; 84]), а также, что частот- ные словари «языка в целом» основываются на выборках около 1 млн словоупотреблений [222; 224; 254; 262; 275; 291], то указанная выборка в 200 тыс словоупотреблений для от- раслевого словаря не покажется слишком маленькой. Дальнейшая обработка материала (см. ниже) до оформ- ления результатов в виде алфавитно-частотного и частотно- го списков требует приблизительно столько же времени. При разумном распределении операций и некоторых навыках пять человек могут составить за год частотный словарь по выборке в 1 млн словоупотреблений. 4. Определение единицы учета Распространенной практикой является измерение длины текста количеством словоупотреблений, каждое из которых представляет собой последовательность букв от пробела до пробела. Записи разговорной речи приходится расшифровы- вать и переводить в графическую форму. Учет объема вы- борки в словоупотреблениях (как вспомогательный, не основ- ной!) может оказаться полезным для наблюдения лингвисти- 2 Автор частотного словаря афганского языка Д. М. Лудип набивал и индексировал афганский текст, перекодируя его одновременно буквами латинского алфавита, со скоростью 1000 словоупотреблений в час после пробной серии в 10 текстов [116]. 36
ческих единиц других уровней; отношение количеств этих единиц к количествам словоупотреблений позволит делать выводы типологического характера при сравнении аналогич- ных данных о качественно- разных выборках, например, из разных языков или подъязыков3. Измерение текста словоупотреблениями «от пробела до пробела» имеет свои достоинства и недостатки. К достоинст- вам следует отнести возможность единого формального под- хода к анализу качественно разных выборок, к сопоставле- нию материалов, полученных различными исследователями. Если бы за основу каждый раз брались так называемые «классические» определения, то оказалось бы, что значитель- ная часть единиц словаря понимается каждым составителем по-своему, и результаты частотных словарей не сопоставимы. Другим достоинством является простота измерения текста. Главный недостаток заключается в том, что, с одной сторо- ны, разбиваются на графические компоненты аналитические слова и формы слов и лексикализованные словосочетания, а с другой стороны, считаются кратчайшими единицами тек- ста сложные образования, записываемые в тексте слитно (как в немецком языке), через дефис (как в английском языке), через апостроф (как во французском языке). Однако если составитель не решается отказаться от ин- формации об аналитических формах и словах и о словосоче- таниях, он может параллельно с регистрацией употребления каждой графической словоформы вести дополнительный учет тех случаев, когда она входит в состав более сложного обра- зования. Если его смущает наличие в тексте таких единиц, их можно расчленить при подготовке окончательного вариан- та частотного словаря. При составлении частотного словаря словосочетаний про- блема учетной единицы еще более усложняется, так -как при- ходится решать вопрос о классификации словосочетаний, в котором нет единых мнений, а также о степени их устойчи- вости, которую надо принимать во внимание во время реги- страции их в тексте. Еще одна трудность возникает в связи с общей лингвостатистической закономерностью, согласно которой для одних и тех же значений достоверных частот необходимый объем выборки возрастает пропорционально длине единицы наблюдения. Поэтому составление частотного 3 Такие наблюдения можно проводить в духе квантитативного под- хода к типологии, предложенного Дж. Гринбергом [70], и в порядке развития его методики [114]. 37
словаря словосочетаний требует в десятки, если не в сотни раз больших массивов текста, чем составление частотного словаря слов. Именно по этой причине таких словарей очень мало [223; 226; 241; 260; 44]. Из них только первые четыре придерживаются более или менее единой концепции относи- тельно определения фразеологизма. Однако и на этом лингвистическом уровне возможны фор- мальные процедуры выделения единицы наблюдения; такой подход используется практически во всех исследованиях сло- восочетаний группой «Статистика речи» (см. упомянутый ка- талог частотных словарей группы /в приложении). Для них общим является членение текста на последовательности фик- сированного числа словоупотреблений, например, по 2, 3, 4 и т. д. словоупотребления. Можно получить из такого текста, как «Сила тока термоэлектронной эмиссии тем боль- ше, чем выше температура катода», следующие словосочета- ния: «сила тока», «термоэлектронной эмиссии», «тем больше», «чем выше», «температура катода» или «сила тока», «тока термоэлектронной» «термоэлектронной эмиссии», «эмиссии тем» и т. д. Можно получить трехсловные сочетания: «сила тока тер- моэлектронной», «эмиссии тем больше», «чем выше темпера- тура» и т. д. [33, стр. 108]. Такой подход позволяет облегчить первый этап наблюдения — сегментацию текста, которую можно выполнить на ЭВМ или поручить не прошедшему спе- циальной подготовки исполнителю. Когда массив текста об- работан и получены упорядоченные по частоте и алфавиту списки, их можно откорректировать, опираясь на любые удобные составителю представления о классификации фра- зеологизмов. Главное же достоинство такого подхода состоит, по-видимому, в том, что он дает статистику регулярно повто- ряющихся в речи сегментов текста, которые могут представ- лять собой готовые клише (см. такое понимание этого явле- ния в [80]). Наиболее частые из этих клише могут кодиро- ваться как целые единицы в памяти человека или ЭВМ и, следовательно, допускают значительную экономию объема памяти и времени при обучении языку и при создании си- стем автоматической переработки информации [155; 104]. Сочетания из 3—4 словоупотреблений представляют собой микроконтексты, достаточные для разрешения полисемии большинства многозначных слов [210, стр. 60 и след.], и их статистика может быть использована для автоматического составления семантических частотных словарей. 38
.Вариант этого подхода заключается в решстрацип в тек сте не всех подряд словосочетаний, а только тех, которые имеют в своем составе самые частые словоформы; эти по- следние определяются из готового частотного словаря, бази- рующегося на тех же или близких по содержанию текстах. Структура всех словосочетаний, регистрируемых конкретным словарем, при этом является единой и зависит от языка и части речи, представляемой опорным компонентом сочетания, например: опорное имя существительное и 2 словоформы влево от него. При такой модификации процент случайных, то есть неосмысленных как целое и неоформленных синтак- сически сочетаний невысок: в выборке из газет на русском языке, равной по объему 200 тыс употреблений трехсложных сочетаний с опорой на 120 самых частых существительных подъязыка газеты (в словоупотреблениях объем текстов ра- вен 2,5 млн) обнаружено 67 тыс разных словосочетаний. Из 2 тыс самых частых сочетаний с частотами от 1819 до 12’ оказалось лишь 40 таких «случайных» триад [143]. Верхнюю зону списка занимают, например, сочетания: «в (цифра) году», «Верховного Совета СССР», «Совета Министров <ССР», «во всем мире», «министр иностранных дел», «Пре- зидиум Верховного Совета», «Председателя Совета Минист- ров», «в настоящее время» и т. д. Сложности еще более возрастают при переходе к фразо- вому уровню; правда, для письменной речи они принимают уже чисто технический характер, так как границей предло- жения в тексте может служить точка. В связи с невысокой повторяемостью предложений в письменных текстах для их достоверной статистики потребовались бы астрономические выборки. Такую работу без ЭВМ было бы выполнять и вовсе неразумно. Тем не менее, по крайней мере один частотный словарь предложений существует [113]. Материалом для него послужила «книжно-разговорная» речь персонажей в худо- жественной литературе на английском языке. Предельная длина учитываемых предложений была ограничена пятью ‘Словоупотреблениями, так как предварительные наблюдения показали, что наиболее часты в этих текстах фразы длиной от 2 до 4 слов при средней длине фразы 5,8 словоупотребле- ний. В выборке объемом 35 тыс предложений из 5 слов 'каждое оказалось 2633 разных предложения с частотами от Т022 до 2; остальные 19 199 имеют частоту 1. 39
5. Анализ (расписывание) текста После того, как скомплектована выборочная совокуп- ность, состоящая из стандартных отрезков текста, длина ко- торых измерена в единицах будущего частотного словаря,, приступают к собственно наблюдению, то есть регистрации в тексте учетных единиц. При ручном исполнении регистра- ция производится в процессе «расписывания» текста, при машинном исполнении ЭВМ производит работу сама, полу- чив введенный в нее массив текстов, набитых предварительно на перфоленту4 или перфокарты. В зависимости от того, какой частотный словарь пред- стоит получить — с учетом омографии или без него — при рас- писывании текста омографы снабжаются индексами частей речи и грамматических категорий; если в частотный словарь- включаются собственные имена, то в случае возможной омо- графии их с другими словами они получают соответствую- щий индекс. Нецелесообразно индексировать каждую еди- ницу при расписывании текста; в целях экономии времени достаточно отмечать только омографы. Полную индексацию- можно осуществить в ходе оформления готового словаря. При подготовке к вводу в ЭВМ от оператора-телетайпи- ста в общем случае требуется только умение работать на перфораторе и максимум внимательности. Ошибки оператора исправляются после прочитывания контрольной ленты, на которой аппарат печатает текст знаками- обычного алфавита, выдавая ее одновременно с перфолентой. После того, как ошибки исправлены и лента реперфорирована в аппарате, она готова к вводу в ЭВМ. Работа по подготовке текста усложняется, если его еди- ницы необходимо индексировать; здесь оператор должен об- ладать известной лингвистической квалификацией, чтобы грамотно использовать инструкцию5. В противном случае 4 Составители частотного словаря шведской газеты [219] достигли-' значительной экономии времени, введя в ЭВМ перфоленты, полученные1 непосредственно с перфорирующих устройств, которыми снабжены набор- ные аппараты в типографиях. Задача состояла на этом этапе в комплек- товании корпуса перфолент. 5 Инструкции по подготовке английских, немецких, французских, ис- панских и других текстов к вводу в ЭВМ см. в [181, стр. 273—573]. 40
заказчик (составитель словаря) вынужден размечать текст, прежде чем передаст его оператору. * В процессе расписывания текста возможны различные* приемы, которые варьируются в зависимости от конкретных условий работы исполнителя и даже от таких его индивиду- альных особенностей, как темперамент, усидчивость, утомляе- мость и т. п. Простейший способ состоит в выписывании на отдельную карточку каждого случая употребления учитываемой еди- ницы со всей необходимой о ней информацией. Если, напри- мер, объем выборочного корпуса составляет 400 тыс слово- употреблений, то первичная картотека и будет включать в себя 400 тыс карточек [211]. Эти карточки сортируются по* алфавиту все сразу или по мере их накопления; число по- вторяющихся карточек переносится на одну из -них как сум- марная частота входной единицы словаря, которая и остает- ся в окончательной картотеке; остальные повторяющиеся карточки изымаются. Этот способ удобен тем, что позволяет предельно «автоматизировать» работу, особенно если участ- вует много исполнителей, и не требует промежуточных опе- раций. Еще одно преимущество заключается в том, что если нужно учитывать обширную информацию о слове (слово- форме и т. д.), например, лексико-семантическую,‘то на кар- точку выписывается либо эта информация в закодированном виде, либо контекст .слова, необходимый для описания его значения. Такие картотеки используются, в частности, при составлении конкордансов и объяснительных словарей языка отдельных текстов или авторов. Однако такая картотека требует большого места для ее хранения; работа по ее составлению однообразна, а это сильно снижает эффективность анализа текста. Приведенные в предыдущем разделе расчеты времени ориентированы на такую процедуру расписывания, которая предусматривает чередование видов операций. Опыт показывает, что при мо- нотонной, рутинной работе утрачивается внимательность, ис- полнитель быстро утомляется и в результате временами даже теряет к ней интерес. Смену операций, правда, можно преду- смотреть и при выписывании всех словоупотреблений на карточки: анализ текста может чередоваться с сортировкой карточек, но это влечет за собой потери во времени, так как рассортировать все 400 тыс карточек сразу можно гораздо быстрее, чем после очередных порций текста. Что более су- щественно, затрачивается лишнее время на заполнение всей/ 41
картотеки: если в выборке объемом 400 тыс словоупотребле- ний окажется 25 тыс разных слов, то вместо 25 тыс карточек придется заполнить в 16 раз больше, заранее зная, что 84% такой картотеки будет выброшено. Итак, если в работе уча- ствует немного исполнителей или, тем более, один человек, и если нет необходимости регистрировать контексты, эта про- цедура является нерациональной. Противоположный способ состоит в том, что на карточки выписываются уже не все употребления единиц, а только разные единицы. Его можно было бы сразу отвергнуть как вызывающий неудобства из-за необходимости многократного .просмотра картотеки, чтобы проверить, не заведена ли уже ранее карточка на очередную единицу: по мере роста карто- теки просматривать ее становится все труднее. Однако этот способ применялся на практике после того, как составитель частотного словаря румынского подъязыка электроники [84] испробовал различные приемы и нашел его наиболее пригод- ным для себя. Отличный от этих способов предусматривает получение картотеки как конечный этап составления словаря; именно .для этого подхода производились расчеты оптимального <вре- мени, указанные в предыдущем разделе. Для каждого тек- ста изготовляется список разных единиц в алфавитном по- рядке. Сначала из текста выписываются слова на первую букву алфавита, затем на следующую и т. д., то есть текст просматривается столько раз, сколько букв алфавита яв- ляются начальными для словоупотреблений этого текста. После приобретения некоторого навыка (обычно после 2—3 текстов) появляется возможность одновременно выписы- вать слова на любую из 4—5 букв; таким образом, англий- ский текст просматривается, например, уже не 26, а 5—6 раз. Дальнейшая рационализация состоит в том, чтобы десяток самых частых служебных слов (их список определяется по- сле обработки первых же текстов), которые занимают до трети всего объема текста, выписывать за один просмотр и уже после этого расписывать оставшийся текст по 4—5 букв сразу. Когда зарегистрированное слово повторяется, возле него в списке ставится вертикальная черточка или другой знак, например, точка. Внутри колонки, отведенной для од- ной из букв, порядок может быть не обязательно алфавит- ным. Таким образом, для каждого из .текстов составляется алфавитно-частотный список всех учитываемых единиц. 42
Единицы каждого списка затем переносятся на карточки вместе с их частотами; частоты суммируются, после чего картотека готова к оформлению общего алфавитно-частот- ного и частотного вариантов словаря. Перенос слов из спис- ков на карточки занимает столько же времени, сколько само расписывание текста. Этот способ допускает чередование операций, таких, как расписывание текста, суммирование ча- стот в списке этого текста для контроля стандартности его длины, отсчет длины нового текста с учетом размера преды- дущего, перенос слов из списка на карточки. Использовался еще один способ, который заключался в регистрации текстовых единиц не на карточках и не в спис- ках, а в специальном журнале, в котором для каждой буквы отведены по нескольку страниц [87]. Карточка готового частотного словаря содержит в себе входную единицу, ее лексико-грамматическую и грамматиче- скую информацию, указание на суммарную частоту в выбо- рочном корпусе и распространенность (если она учиты- вается). В большинстве составленных вручную группой «Ста- тистика речи» частотных словарей карточка регистрирует не только количество текстов, но и частоту слова в каждом из них. Такая картотека позволяет подготовить данные для ис- следования законов распределения, которым подчиняются ча- стоты входных единиц частотных словарей. 6. Табулирование данных словаря Составление таблиц сразу же после того, как частотный словарь готов к использованию или опубликованию, делается не только для того, чтобы облегчить анализ его данных и позволить читателю получить общее представление о его ко- .личественной структуре. Таблица распределения ранг-частота единиц словаря, наподобие приведенной в главе I, необхо- дима для того,, чтобы определить точный объем обследован- ного корпуса. Трудно представить себе такую ситуацию, когда общая длина текстов, измеренная составителем до их обработки, совпала бы с суммарной частотой всех единиц частотного словаря. Обычно составитель указывает объем корпуса в ^округленном виде, например: «длина всех проанализирован- ных текстов равна 200 тыс словоупотреблений». Однако для 43
получения таких величин, как относительные частоты и оцен- ки количества статистической информации, необходимо знать, объем выборки в точных цифрах. Это становится возможным только при наличии основной лингвостатистической таблицы, отображающей так называемый «лингвистический спектр» выборочного корпуса {95, стр. 246]. Приведем пример такой таблицы еще раз, поместив «в нее, в отличие от указанного' в главе I варианта, дополнительную колонку, необходимую для окончательных расчетов6. / i F т F - т 1 22 1 22 22 0,044 2—3 14 2 28 50 0,100 4 13 1 13 63 0,126 5 8 1 8 71 0,142 6—7 7 2 14 85 0,170 8 6 1 6 91 0,182 9—14 5 6 30 121 0,242 15—21 4 7 28 149 0,298 22—36 3 15 45 194 0,388 37—74 2 38 76 270 0,540 75—304 1 230 230 500 1,000 Последняя цифра в колонке рангов указывает объем сло- варя, последняя цифра в колонке накопленных абсолютных частот дает объем выборки. К сожалению, такие таблицы в полном виде приводятся, не в каждом частотном словаре; более того, их нельзя найти 6 i — ранг, Р — частота, т — количество слов с одинаковой частотой,. F* — накопленная абсолютная частота, f* — накопленная относительная» частота. 44
почти нигде, за редким исключением [219; 224а; 262]. Соста- вителю, проделавшему длительную и утомительную работу над словарем, как будто не хватает терпения потратить еще несколько часов на изготовление таблицы. В конце концов читатель может составить такую таблицу и сам, если сло- варь содержит хотя бы основные данные: частоты и количе- ства слов с одинаковыми частотами. Однако, как говорилось в главе I, в публикуемый словарь обычно включают ограни- ченное число входящих в него единиц. Если об оставшихся за пределами публикации единицах не даются количествен- ные сведения, такой словарь во многом теряет свою лингво- статистическую ценность. Чтобы сопроводить такой словарь таблицей, где указывалось бы количество разных единиц на каждую частоту, потребуется время ничтожное по сравнению с тем, которое было затрачено на составление словаря. Таблица лингвистического спектра позволяет установить тот объем словаря, который предстоит включить в публикуе- мую его часть. Если этот объем диктуется издательскими возможностями (количеством печатных листов), можно опре- делить его выборочным подсчетом длин лингвистических еди- ниц в разных частотных зонах словаря в печатных знаках и установить нижнюю границу списка; не следует при этом проводить ее, разрывая группу единиц с одинаковой часто- той, как это делалось, например, в [261]. Если составитель ориентируется на «достоверные» частоты, оцениваемые с по- мощью какой-то формулы относительной ошибки, граница проводится, включая эти достоверные частоты, а также зону единиц, покрываемую нижним пределом колебания относи- тельной ошибки [211]. Если он использует в качестве крите- рия определенный процент покрываемое™ текста, он прово- дит границу под необходимой ему величиной этого процента. В любом случае без обращения к таблице лингвистического спектра ему не обойтись. 7. Оценка надежности словаря Как указывалось выше, приемы оценки надежности, до- стоверности частот словарных единиц имеют относительный характер и зависят от произвольных суждений7. Тем не ме- нее, в отечественной линпвостатистике стало распространен- 7 Они «точны лишь для модели; для реального текста они становятся приблизительными... Об этом нужно помнить, чтобы точность методов не .заслоняла точности результатов» [97, стр. 66 и 72]. 45
ным стремиться к обязательному использованию таких оце- нок. Их целесообразно рассматривать вместе с другими во- просами составления частотного словаря и его подготовки к применению или опубликованию, поскольку от них может зависеть необходимый объем публикуемого словника. Все они базируются на исходной статистической формуле, показывающей разницу между вероятностью, то есть «истин- ной» частотой случайного события в генеральной совокупно- сти, [61, и его частотой, наблюдаемой в выборочной совокупности' (2) М г ! у N f — относительная частота, р — вероятность, Zp — коэф- где фициент заданного доверительного уровня8 р, N — объем вы- борки. В лингвостатистических работах используются по крайней мере две упрощенные интерпретации этой формулы, основывающиеся на том, что при малом р разность 1 —р~1- Одна применяется для определения относительной ошибки наблюдения над частотами 1199, стр. 9]: о = = (3) или, поскольку Nf=F, р (4) где 6 — относительная ошибка, ZP—коэффициент заданного; доверительного уровня р, N — объем выборки, f — относи- тельная и F—абсолютная частоты. Другая интерпретация формулы (2) применяется для оп- ределения границ доверительного интервала неизвестной ве- роятности (/ РУ = ^-Р^-Р) (5) 8 Доверительный уровень означает степень уверенности в том, что разность между относительной частотой и вероятностью случайного со- бытия будет удовлетворять неравенству (2); в нашем случае «100% всех словарных единиц должны иметь частоту, удовлетворяющую этому неравенству. 46
после замены в правой ее части р на / и преобразования в* систему уравнений [61, стр. 46] После дальнейшего упрощения, которое заключается в ис- ключении из числителя величины 1—f (поскольку f словар- ных единиц всегда намного меньше 1) и из знаменателя Zp (поскольку эта величина сравнительно с выборкой ничтожно мала) и замене./7V на F, уравнения приобретают вид (7) где pi и Р2 — соответственно верхняя и нижняя границы до- верительного интервала, в котором может находиться при заданном доверительном уровне р неизвестная вероятность лингвистической единицы, представленная в словаре наблю- денной частотой этой единицы. Можно продолжить эту процедуру, введя границы отно- сительной ошибки определения доверительных интервалов [5, стр. 124—125]: (8). Значения доверительного уровня и соответствующих вели- чин коэффициента Zp определяются по специальным табли- 47
дам; приведем выдержку из такой таблицы для округленных величин [194, стр. 373] (см. табл. 1). Таблица 1 Отношение доверительного уровня р и коэффициента 2? Доверительный уровень, Q Уровень значимости, 1 —р Коэффициент, 0,50 0,50 0,67 0,60 0,40 0,84 0,70 0,30 1,04 0,75 0,25 1,15 0,80 0,20 1,28 0,85 0,15 1,44 0,90 0,10 1,64 0,95 0,05 1,96 0,98 0,02 2,33 0,99 0,01 2,58 Данные таблицы показывают, что чем выше доверитель- ный уровень (то есть чем строже требования к степени уве- ренности в выполнимости формул), тем выше и коэффициент .Z9 ; следовательно, интервал вероятности или величина отно- сительной ошибки наблюдения для одной и той же частоты будут большими. Например, одна и та же частота 35 будет иметь различные величины относительной ошибки по (4) при разных доверительных уровнях (табл. 2). С другой стороны, если задаваться одним значением до- верительного уровня, например, величиной 0,95, как это прак- тикуется вслед за [199], то от выбора величины относитель- (ной ошибки зависит и объем достоверной зоны словаря. * Покажем это на примере частотного словаря английского языка в США [262], составленного по выборке в 1 млн слово- употреблений (табл. 3). Данные таблицы еще раз свидетельствуют о том, в какой мере объем «достоверной» части словаря зависит от произ- вольных оценок. Предлагалось достоверную зону словаря определять, увя- зывая относительную ошибку и объем покрываемого этой зо- 48
Таблица 2 Связь между доверительным уровнем и относительной ошибкой Доверительный уровень, q Коэффициент, zr. Относительная ошибка, р 0,50 0,67 0,11 0,60 0,84 0,14 0,70 1,04 0,18 0,75 1,15 0,19 0,80 1,28 0,22 0,85 1,44 0,24 0,90 1,64 0,27 0,93 1,78 0,30 0,95 1,96 0,33 0,98 2,33 0,39 0,99 2,58 * 0,44 Таблица 3 Объем достоверной зоны словаря при разных значениях относительной ошибки и доверительном уровне 0,95 Относительная ошибка Нижняя граница достоверных частот Количество слово- форм с достоверными частотами 0,50 15 6273 0,45 19 5182 0,40 24 4270 0,35 32 3415 0,33 35 3157 0,30 43 2604 0,25 64 1728 0,20 96 1120 0,15 192 504 0,10 384 235 0,05 1536 68 0,01 38400 1 4 Зак. 2064 49
ной текста, например, не менее 80% [199, стр. 18]. Посмот- рим, можно ли ориентироваться в этом случае на заданный объем текста. Используем для примера тот же словарь [262], в котором приводятся цифры для различных подвыборок корпуса одинаковой с ним структуры, то есть репрезентатив- ных, кроме представленной одним текстом выборки в 2 тыс словоупотреблений (табл. 4). Таблица может дать наглядное представление о том, что ориентироваться на процент покрытия текста, не зная реаль- ных объемов выборки, было бы несколько неосторожным. Таблица 4' Зоны частотного словаря, покрывающие не менее 80% текста Длина текста Всего разных словоформ Наименьшая частота в зоне Количество слово- форм в зоне 1 010 тыс. 50 406 39 2854 253 тыс. 23 655 12 2571 101 тыс. 13 706 6 2269 10 тыс. 3 009 2 1016 2 тыс. 868 1 491 Предлагалось, далее, использовать закон Ципфа = (9> где f—относительная частота слова, I— его ранг в частот- ном словаре, К и у —параметры, которые Дж. Ципф считал- постоянными для большинства языков и равными 7< = 0,1, у=1,00. Расширив выражение (1) введением этих парамет- ров, можно получить формулу для расчета объема выборки [199, стр. 17]: 7 2 7-1 (10). где С — заданный объем текста, покрываемый словами с до- стоверной частотой, N— необходимый для этого объем вы- борки. Здесь предполагается, что параметры Ципфа действи- тельно стандартны для всех языков; однако в лингвостати- стических работах неоднократно было показано, что закон Ципфа не дает универсальных величин для разных языков,, подъязыков, текстов разного содержания и разной длины 50
[198; 95; 145; 10]. Сохраняя свою универсальность в том смысле, что он описывает зависимость между частотой и ран- гом как обратно пропорциональную, он ведет себя по-раз- ному в различных условиях. Его параметры должны опреде- ляться для каждого текста или корпуса текстов заново. Влияние размеров выборки на величины параметров Цип- фа можно проследить на примере данных того же частотного словаря английского языка [262], авторы которого проделали необходимые расчеты на ЭВМ. Для получения параметра /С оставалось лишь найти числа по их логарифмам, приве- денным в [262, стр. 357] и вывести К из М/С. В таблице 5 представлены также результаты подсчетов объема выборки по формуле (10), в которую введены значения С, 6 и 2Р ре- комендуемые ее автором [199, стр. 18], и /С и у, вычисленные для реальных текстов в [262]. Отсюда следуют по крайней мере два вывода: во-первых, еще раз подтверждается тот факт, что не всякая модель при- годна для реального текста, и, во-вторых, что применяемая в данном случае модель приводит к замкнутому кругу; что- бы подставлять в выражение (10) параметры закона Ципфа, надо их вычислить для генеральной совокупности с опреде- ленной структурой, но получить представление о ней можно, лишь иследовав выборочную совокупность, а именно, опре- делив ее параметры9 Таблица 5 Параметры закона Ципфа для реальных английских текстов и расчетные объемы выборки по формуле 10 при $3 = 0,95 и 5 = 0,33 Фактический объем выборки Параметры закона Ципфа Расчетный объем выборки Y К 10 тыс 0,838 0,054 ' 34 900 50 ты с 0,935 0,073 108 782 10-1 тыс 1.022 0,121 566 577 1010 тыс 1,170 0,275 11 410 000 9 К. Б. Бектаев сообщил автору, что формула (10) вообще некоррект- на: при у=1 мы получаем неопределенный результат, поскольку член в скобках превращается в пуль, а его степень равна бесконечности.
В результате приходится вернуться к сделанному выше замечанию о том, что объем выборки и прежде и теперь оп- ределялся и определяется на деле только фактическими воз- можностями составителя. Лишь после получения готового словаря можно делать какие-то суждения о достаточности выборки или необходимости ее расширения. Если, например, принять выражение (4) как удобную в обращении формулу оценки достоверности частот слов в го- товом частотном словаре и ориентироваться на доверитель- ный уровень 0,95 и 6 = 0,33, то можно полученный таким об- разом -порог надежной частоты 35 использовать для предска- зания объема выборки, необходимого для заданного числа слов с частотами не ниже 35. Это возможно, однако, при на- личии фактических данных, которые позволили бы выявить соотношения между достоверными зонами словарей, состав- ленных по однородным выборкам разного объема. В табл. 6 представлены такие сведения о выборках из общелитератур- ных [262] и научно-технических текстов на английском языке. Таблица 6 Достоверные зоны словаря по различным выборкам при пороговой частоте 35 (фактические данные) Общелитературные тексты Научные тексты (электроника) Объем выборки Количество словоформ с F 35 Объем выборки Количество словоформ с F>35 1010 тыс -3157 200 тыс 835 253 тыс 796 150 тыс 589 101 тыс 276 100 тыс 420 10 тыс 32 50 тыс ,165 2 тыс 10 6,4 10 тыс 31 »1 тыс 2 Достоверные зоны в каждом из видов текстов количест- венно относятся одна к другой так же, как относятся друг к другу объемы выборок. Эта пропорциональная зависи- мость между ростом выборки и увеличением зоны словаря 10 Данные о выборках в 2 и 1 тыс словоупотреблений получены усреднением по 20 выборкам в каждом случае. 52
с фиксированным порогом частот, обнаруженная в двух не- зависимо исследованных 'выборочных совокупностях, позво- ляет предложить эмпирическую формулу определения объе- ма выборки для заданного размера достоверной части сло- варя (точнее, для заданного количества слов с фиксирован- ной частотой): = (И) где No —ожидаемая выборка, Ло — заданный объем словаря с F.>35, L — исходный объем словаре с F^>3b, N — исход- ная выборка [9]. 8. Оценка эффективности частотного словаря Рассмотренные в предыдущем разделе вопросы относятся к статистическим оценкам данных словаря с помощью спе- циальных критериев, которыми располагает математическая статистика для различных приложений. Эти оценки можно назвать «теоретическими», так как они основываются на фундаментальных понятиях вероятности случайного события и вероятности достоверного суждения об этой вероятности (доверительный уровень). Ожидаемые до опыта результаты не всегда (или, может быть, весьма редко при недостаточно больших размерах выборочной совокупности) совпадают с полученными после опыта. Поэтому подлинно точные оценки надежности данных наблюдения можно получить при сравне- нии разных выборок из генеральной совокупности. Такое сравнение называют оценкой эффективности частотного сло- варя или «эмпирической» оценкой его надежности. Идеальным случаем был бы анализ двух или нескольких частотных словарей, составленных по качественно и количе- ственно одинаковым выборкам. Такой способ является мало привлекательным для большинства составителей из-за своей трудоемкости: чтобы оценить надежность словаря, надо со- ставить еще один такой же. Однако в ряде случаев основ- ную выборку для словаря разбивают на две или более одно- родных части с тем, чтобы после их сравнения судить о до- статочности общей выборки [84; 117; 132; 126]. Другой, более доступный способ предусматривает сравне- ние. данных словаря с текстами, по общему объему мень- шими, чем выборочный корпус, но отражающими те же про-
порции, какие представлены в корпусе. Такая контрольная выборка может быть намного меньше основной, например, в 10 раз. В таком случае сравниваются не частоты двух вы- борок, а их полные словари; определяется, какой процент слов контрольной выборки зарегистрирован в основном сло- варе. Этот процент можно называть мерой эффективности словаря. Если контрольная выборка велика, например, равна ос- новной или меньше ее в 2—4 раза (но не в десятки раз), ее целесообразно в дальнейшем объединять с основной выборкой [252]. Упрощенным вариантом является сравнение словаря с не- большими текстами, взятыми наугад, безотносительно к со- держательно-количественной структуре корпуса. Тогда, есте- ственно, чем более отличается контрольная выборка от ос- новной, тем меньшей окажется эффективность словаря (ср. [211, стр. 73—86]). По-видимому, наиболее интересным из доступных приемов был бы такой, который оценивает эффек- тивность не только всего словаря в целом, но и его отдель- ных частотных зон, например, первой тысячи слов, второй тысячи, третьей тысячи и т. д., или первой тысячи, первых двух тысяч, первых трех тысяч [211, указ. стр.]. Вариантом такого приема была бы оценка эффективности зон словаря не по рангам, а по частотам, например, для слов с частотой не менее 20, 10 и т. д. Предлагалась оценка эффективности словаря с опорой на количества редких слов (например, с частотой 1, появивших- ся при увеличении выборки) и новых слов в их числе [97, стр. 75—79]. Эта процедура, подкрепленная математическими расчетами для моделирующего текста, основывается на пред- положении, что прирост новых однократных слов в новом тексте пропорционален уже накопленным однократным словам. 54
ГЛАВА III. ПРИМЕНЕНИЕ ЧАСТОТНЫХ СЛОВАРЕЙ 1. Частотные словари и традиционная лексикография Самая общая функция словаря заключается в организа- ции слов (или других лингвистических единиц) согласно од- ной из 3 основных систем: алфавитной, ассоциативной или частотной [135, стр. 41—43]. Традиционная для лексикогра- фии алфавитная система дает возможность пользующемуся словарем получать для заданной словарной единицы иско- мую характеристику (экспликацию средствами того же язы- ка или, в случае двуязычного словаря, средствами языка перевода). Ассоциативная система группирует словарные еди- ницы вокруг тематических центров; она позволяет по задан- ному понятию найти в словаре ассоциирующиеся с ним линг- вистические единицы. К ассоциативным (идеографическим, «идеологическим») словарям относятся, например, картин- ные и тематические учебные словари, а также возродившиеся за последние двадцать лет тезаурусы [47; 136]. Третья по этой классификации система устройства словаря, частотная, разрешает определить, какие из его единиц наиболее употре- бительны, менее употребительны, редки, то есть по задан- ному рангу или частоте находить соответствующие им сло- варные единицы. Как было показано в начале главы I, оши- бочно называть частотным только словарь с расположением материала по частоте. Частотная квалификация словарных единиц не только не отрицает, но, наоборот, предполагает алфавитно-частотное оформление словаря наряду с собст- венно частотным. Алфавитный вариант необходим для опре- деления частот и рангов заданных словарных единиц, что важно в учебно-методичсеких целях и при типологических исследованиях разных речевых совокупностей. 55
Понятие «частотный словарь», таким образом, охваты- вает не столько систему размещения словарного материала,, сколько принцип его отбора (в такой словарь попадают* только те единицы, которые встретились составителю в об- следованной выборке) и численную регистрацию его факти- ческого употребления. Следовательно, частотный словарь- может быть устроен по любой из трех основных словарных систем, то есть возможна его организация алфавитная (ал- фавитно-частотная), частотная и даже ассоциативная: ничто’ не мешает составлению, например, картинного или тематиче- ского частотного словаря, а также частотного тезауруса Ч Традиционная лексикография пока еще сдержанно отно- сится к проникновению частотных словарей в ее сферу. Устой- чивые контакты наладились, видимо, только в одной обла- сти— в работах по изучению языка отдельных 'авторов [175; 176; 283] и текстов; такие работы либо включают в статьи объяснительного словаря частоты употребления слов, либо* сопровождаются алфавитно-частотным словарем или индек- сом всех обнаруженных в тексте слов [79; 138; 173; 174; 175;. 176; 283]. С меньшим успехом находят себе применение частотные словари в отраслевой лексикографии, но и здесь в виде экс- перимента стали публиковаться частотные двуязычные сло- вари-минимумы [12; 15; 141; 246—248]. Однако эта сдержанность не должна обескураживать ча- стотников, поскольку от них самих зависит развитие стати- стической лексикографии и признание ее как самостоятель- ной научной дисциплины; в аналогичном, если не худшем положении, находится идеографическая лексикография, осо- бенно та ее отрасль, которая занимается тезаурусами1 2. Поэтому только реалистические задачи, которые могут быть- выполнены в обозримые сроки, а не несбыточные прожекты, 1 Возможны несколько вариантов такого тезауруса. Один из них строится в результате исследования частот слов и их совместной встре- чаемости в тексте [137, стр. 154—155], другой — на основе частоты (вероят- ности) ассоциаций между словами [135, стр. 42]. Третий может быть соз- дан путем тематической классификации единиц готового частотного сло- варя или нескольких словарей [183, стр. 72—79]. Интегральное планиро- вание (см. гл. I, разд. 5) составления частотных словарей группой «Ста- тистика речи» предусматривает получение на их основе отраслевых те- заурусов. 2 В нашей стране, например, доступен широкому читателю только> один тезаурус [187]. .56
наподобие «полных» частотных словарей или тезаурусов3, способны заинтересовать и привлечь широкие круги лингви- стов и прикладников. Когда же будет накоплен достаточно обширный опыт в изготовлении и применении самых различ- ных словарей таких типов, появится и их «официальное» признание. 2. Частотные словари и теория речевой деятельности 1. Система расположения словарных единиц, предлагае- мая частотным словарем в его собственно частотном оформ- лении, *дает возможность применить стандартный инструмент типологического исследования текстов различной длины, на- писанных на разных языках, на разные темы, в разное время и разными людьми. Сравнение нескольких словарей таким способом позволило Дж. Ципфу заметить, что отношение между рангом слова и его частотой F- Z=’Const, (12) то есть постоянно для каждого словаря (295—297]. Рассмот- рев частотные словари английского и других языков, он ре- шил, что это отношение, с небольшими отклонениями, яв- ляется для многих языков универсальным. Записанное в виде или = т , (9) а также /f=K(Z+^)-7 или F^NK(i+B)^ , (13) оно получило название «закона Эсту-Ципфа-Мандельброта».4 Привлекая до сих пор внимание лингвостатистиков, за по- следние годы закон Ципфа заинтересовал исследователей, 3 См. критику идеи полного частотного словаря в (165] и полного те- зауруса в [125, стр. 200; 47, стр. 220—221]. 4 Здесь f — относительная, F — абсолютная частоты, N — объем вы- борки, i — ранг; К — постоянная для каждого текста величина, соответст- вующая теоретической относительной частоте самого частого слова; у обозначает угол наклона выравненной линии зависимости ранг-частота- и соответствует «темпу» убывания частоты, В — коэффициент частых слов [145]. 57
работающих и в других областях, непосредственно не свя- занных с теорией языка5. Сам факт уменьшения частоты при нарастании рангов не является чем-то неожиданным, поскольку ранги приписы- ваются словам по мере снижения частот и, следовательно, являются произвольными метками. Однако то, что в общем сохраняется равенство произведений частот и рангов (по крайней мере для той части словаря, которой соответствует наибольшая доля накопленных частот, то есть наибольший объем текста), что уменьшение частоты имеет очевидную закономерность, свидетельствует о некоторой универсально- сти формулы Ципфа, описывающей определенную систему в построении текста и в структуре использованного в нем словаря. Неоднократно было показано, что величины коэффициен- тов этой формулы не обязательно одинаковы (как считал ее автор), для разных языков, разнородных текстов на одном языке, однородных текстов разной длины на одном языке, разных участков текста и даже разных участков частотного словаря [198; 97; 10; 38; 78]. Там, где закон Ципфа универса- лен, стараются найти объяснение самых общих закономерно- стей речевой деятельности. Б. Мандельброт, сумевший обос- новать математически и защитить закон Ципфа от критики, не всегда объективной6, положил его в основу своей концеп- ции «макролингвистики», которая должна изучать статисти- ческими методами большие системы лингвистических явлений [271]. В отличие от «грамматической» лингвистики, которая опирается на интроспективные представления о языке, макро- лингвистика изучает прежде всего то, что люди говорят, а не то, что они собираются сказать7. Она описывает свой- 5 Ранжировать частоты наблюдаемых фактов по образцу частотного словаря предлагается в социологии, наукометрии, биологии. Высказы- ваются предположения, что закон Ципфа является частным случаем об- щего логарифмического закона экологии [206, стр. 136]. 6 Г. Хердан, не упускавший случая обрушиться на Ципфа, неизменно заявлял, что хотя математики предполагают в его формуле какой-то лингвистический смысл, а лингвисты видят в ней математический, она не имеет ни того, ни другого. См., например, [244] и полемику его с Ман- дельбротом [243; 270; 272], в которой, впрочем, он не отказывал закону Ципфа в применимости для «механической» обработки слов. См. также [245, стр. 38]. 7 Лингвист, обладающий «хорошим вкусом», не смешивает потен- циальные структурные свойства яызка с изолированными фактами, от которых нельзя ожидать выполнения какой-то специальной роли в любого рода структуре [274, стр. 212]. 58
ства больших речевых совокупностей, для которых деталь- ный анализ может оказаться чрезмерно громоздким и слож- ным. В задачи макролингвистики входит также решение про- блемы рода и вида в лингвистической классификации и так- сономии, то есть определение количественных соотношений видовых и родовых категорий, как это делается в других нау- ках, например, ботанике. Эти отношения можно наблюдать в больших выборках; они представляют собой законы языка как организованной системы и отражают то, каким образом человеческое сознание классифицирует объекты внешнего мира в целях коммуникации (273; 274, стр. 211—213]. Опираясь на «принцип наименьшего усилия», который он сформулировал как одну из важнейших характеристик пове- дения человека ио аналогии с принципом «наименьшего дей- ствия» в физике, Ципф исследовал и другие общие лингво- статистические закономерности, подсказанные ему анализом частотных словарей. Он сам и его последователи рассматри- вают зависимости между частотой или рангом слова и его полисемией, между частотой и количеством слов с данной частотой, между частотой или рангом слова и его длиной. Это последнее отношение Б. Мандельброт использовал для одной из своих интерпретаций закона Ципфа, обобщив поня- тие длины в понятие «стоимости» лингвистического знака, которая включает в себя все, что входит в затраты на его передачу [120]. 2. В современной лингвистике остается нерешенной про- блема соотношения основных аспектов речевой деятельно- сти— языка и речи, а также категорий, развивающих эту соссюровскую дихотомию, таких, как система, норма, узус, речь как процесс и речь как результат процесса и т. д. Час- тотные словари предлагается использовать для построения концепций речевой деятельности. Одна из них, сформулиро- ванная С. Алленом [219, т. I, стр. XXX—XXXi], рассматривает 3 уровня речевой деятельности: стилистическую компетен- цию, лингвистическую компетенцию и языковую манифеста- цию. Процесс порождения речевого высказывания, или син- тез, идет сверху; процесс восприятия, или анализ, протекает •в обратном направлении. Стилистическая компетенция ре- шает выбор жанра, композиции, грамматических конструк- ций, лексических единиц и т. д. Лингвистическая компетен- ция связана с системой языка, в которую входят его пра- вила и лексические единицы. Процесс речевого производ- ства осуществляется между уровнями лингвистической ком- 59
петенции и языковой манифестации, которая представляет собой результат речевой деятельности, то есть непосредст- венно наблюдаемые лингвистические объекты. Частотный словарь, представляя генеральную совокупность в выбороч- ном корпусе, регистрирует языковые манифестации как ре- зультат действия стилистической и лингвистической компе- тенции и, таким образом, может быть использован для опи- сания обеих систем — лингвистической и стилистической, по- скольку содержит данные о той степени, в которой исполь- зуются в языковых манифестациях элементы и правила соче- тания различных уровней системы языка. Эта весьма обобщенная схема речевой деятельности, по- видимому, не предусматривает вероятностного обоснования* и коррекции ее построения; возможно, это будет сделано позднее. Развитие соссюровской дихотомии язык-речь на вероят- ностной основе предложено Р. Г. Пиотровским и Л. А. Ту- рыгиной [160]. В отличие от предшественников8, использовав- ших интуитивные представления о вероятностях лингвисти- ческих элементов, они осуществляют экспериментальную проверку своей модели. В соссюровскую дихотомию вно- сится вслед за Э. Косериу третий член — норма, выдвигается гипотеза о ее вероятностном характере. Норма интерпрети- руется как эталон статистического построения и упорядоче- ния текста, а наличие нормированное™ в тексте выявляется- на материале частотного словаря английского подъязыка газеты. Этот эталон охватывает вероятности употребления отдельных лингвистических единиц, распределения этих ве- роятностей, а также включает вероятностные схемы речи п находится между нестатистической системой и порождаемым ею текстом (речью) [160, стр. 46]. Схема речевой деятельности, как это можно себе пред- ставить по существующим построениям, содержит в себе' следующие компоненты: систему, объединяющую инвентари языковых элементов и правила их сочетания, вероятностную норму, которая находится между системой и речью и слу- жит фильтром, распределяющим лингвистические единицы и правила в соответствии с определенными ситуациями ис- пользования языка и сообщающим этим единицам и прави- лам вероятности (точнее, интервалы вероятностей) реализа- ции в речи, и речь. Понятие речи включает в себя понятия 8 См. обзор концепций языка и речи, использующих вероятностные идеи, блестяще выполненный В. В. Богдановым в [46]. 60
узуса и речевой манифестации (собственно речевой деятель- ности в понимании Л. В. Щербы), которая имеет 2 аспек- та — процесс речи и результат процесса, то есть текст. Узус можно рассматривать как среднестатистическое обобщение речевых манифестаций. Когда мы говорим, например, что нормой становится употребление слова «транзистор» вместо сочетаний «полупроводниковый триод» или «малогабаритный радиоприемник на полупроводниковых триодах и диодах», то имеем в виду пока еще не норму, а узус. Функция нормы двоякая: с одной стороны, она управ- ляет вероятностным распределением языкового материала по ситуациям в использовании языка, то есть служит регулято- ром реализации системы языка в речи; с другой стороны, она фильтрует накопленные и обобщенные узусом изменения в речевом употреблении, которые, превысив некоторый ста- тистический порог, могут попасть и попадают в систему языка. 3. Частотные словари в лингвистической типологии Общую задачу лингвистической типологии можно опреде- лить как изучение лингвистических систем с целью выявле- ния черт сходства и различия между ними с тем, чтобы в свою очередь эти системы можно было классифицировать на основе типологических признаков, обнаруживать законо- мерности, управляющие связями элементов внутри этих си- стем, использовать описания типологических признаков для решения прикладных задач, например, для эффективной методики преподавания языков или «обучения» автоматиче- ского кибернетического устройства перерабатывать информа- цию на естественном языке. К лингвистической типологии можно относить сравнитель- ное изучение как языков, так и их функциональных стилей и подъязыков, то есть тех языковых подсистем, которые реали- зуются в различных областях использования языка. Это объединение языков и подъязыков под общим названием лингвистических систем как объектов типологического изу- чения вполне оправданно в квантитативной типологии, кото- рая предлагает по существу стандартные, с точки зрения макролингвистики (см. выше, разд. 2 этой главы), приемы анализа речевых совокупностей. 61
Идею квантитативного подхода к типологии прекрасно сформулировал Дж. Гринберг в своей ставшей классической работе [70]. Идея состоит в том, что, сравнивая отрезки текста фиксированной длины, написанные на разных языках, можно делать суждения о близости или отдаленности строя этих языков на основе количественных отношений между словами в этих текстах и компонентами их морфологической структуры. Гринберг исследовал тексты длиной по 100 словоупотреб- лений на восьми языках, причем некоторые из них в фоне- матической записи; стилистическая однородность не соблю- далась. В результате подсчетов он выделил 10 индексов, морфологического строя сравниваемых языков: индексы син- теза, агглютинации, словосложения, деривации, преобладаю- щего словоизменения, префиксации, суффиксации, изоляции,, собственно словоизменения и согласования. Его эксперимент, тем не менее, проведен недостаточно, корректно в статистическом смысле. Во-первых, сомнительна достоверность выводов из сопоставления одного языка, пред- ставленного в записи устной речи, с другими, представлен- ными письменной речью. Исследования группы «Статистика речи» показывают, что по некоторым общим количественным характеристикам различия между стилями одного языка мо- гут оказаться более существенными, чем между разными языками в пределах одного стиля или темы. Например, рас- пределение морфологических классов слов (частей речи) в устной форме английского языка ближе к устной форме, русского языка, чем к английскому научно-техническому стилю. С другой стороны, английский научно-технический, стиль по этому же параметру ближе к аналогичным формам других языков, чем к устной форме английского (табл. 1).. На уровне лексики картина такая же: по словарю и часто- там употребления имен существительных, несущих основную.' смысловую нагрузку в тексте, между научными текстами од- ной специальности на разных языках больше сходства, чем между научными текстами и устной речью в пределах од- ного языка (табл. 2). Во-вторых, длина текста, равная 100 словоупотребле- ниям и способная проиллюстрировать возможность реализа- ции идеи Гринберга, явно недостаточна для более строгого и детального анализа. Объем выборки предлагается, напри- мер, увеличить до 1000 словоупотреблений [114, стр. 306], од- нако и эта величина представляется слишком малой. Отсюда1 62
Таблица I Процентное распределение частей речи в устно-разговорном и .научном стилях 9 Части речи Устно-раз- говорный стиль Научный стиль Рус- ский Анг- лий- ский Анг- лий- ский Ру- мин- ский Ла- тыш- ский Аф- ган- ский Местоимения 22,3 22,6 4,5 5,5 5,8 9,6 Глаголы' 18,5 27,7 16,5 14,7- 17,6 12,6 Предлоги и союзы 16,9 15,6 18,9 23,8 13,5 28,7 Прилагательные и на- речия 16,6 12,4 12,8 15,0 13,4 13,6 Существительные 12,9 14,7 32,6 34,4 46,4 31,1 Частицы 9,4 не учи- тыва- лись 1,2 — 1,1 1,8 Числительные 2,2 не учи- тыва- лись 0,7 1,3 1,3 2,6 Междометия 0,4 не учи- тыва- лись • (0,003) (0,004) Вводные слова 0,8 — — ‘ — — Артикли — 7,08 12,8 5,3 Всего (округленно) 100,0 100,0 100,0 100,0 100,0 100,0 вытекает и третье соображение: можно согласиться с не- большой длиной минимальной выборки, то есть отдельного текста, если их общее число будет достаточно велико. Пре- дел в таком случае будет установлен в результате экспери- мента, когда окажется, что статистические различия между выборками из одного языка становятся несущественными. Наконец, необходим дальнейший анализ вычисленных индексов: установление доверительных интервалов, исследо- 9 Данные по русскому языку предоставлены автору Л. А. Турко,. остальные приводятся в [5; 84; 416; 214, ч. 2; 233]. 63
вание связей между индексами, оценка существенности раз- личий одного индекса в разных языках. Количество индексов, предложенное Гринбергом, может быть значительно расширено, причем для описания одной характеристики строя языка можно применить несколько ин- дексов (табл. 3), вычисленных для единиц уровня системы (словоформы, лексемы) и текста (словоупотребления) по отдельности; Дж. Гринберг определял их только относи- тельно словоупотреблений. Таблица 2 - Десять самых частых существительных в устной речи и научных (подъязык электроники) текстах 10 Русский язык Английский язык Устная речь Научные тексты Устная речь Научные тексты минута рис. day current час ток thing electron дело напряжение morning temperature правда электрон order figure время случай minute voltage раз поле price value человек время car cathode день катод time ion месяц разряд week energy год эмиссия letter equation Степень аналитизма языка можно оценить по данным ча- стотного словаря, разделив, например, число разных лексем на число разных словоформ. Результаты при этом будут тем точнее, чем ближе по содержанию и объему выборки, по ко- торым составлены словари. В табл. 4 представлены резуль- таты оценки аналитизма шести языков; тематика текстов 10 Использованы данные из [191; 97; 233; 11]. 64
Таблица 3 Количественные показатели морфологической структуры слова 11 Отношение в числах Структурная характеристика лексемы словоформы служебные словоформы полнозначные словоформы служебные глаголы полнозначные глаголы аналитические формы синтетические формы пробелы графемы словоформы словоупотребления морфемы словоформы флективные словоформы словоформы' словоформы лексемы аффиксы корневые морфемы _____лексемы______ корневые морфемы корневые морфемы лексемы омографы словоформы лексические значения лексемы анализ анализ анализ анализ анализ синтез синтез (полиморфия) синтез (флективность) синтез (полиформия) аффиксация (синтез) словообразование (анализ) компактность (синтез) омография (анализ) полисемия (анализ) •одинакова (электроника), кроме латышских (подъязык нау- ки и техники). 11 Напомним, что под словоупотреблением понимается лексическая единица текста от пробела до пробела, под словоформой — одна из раз- ных лексических единиц текста, под лексемой — исходная форма слова. 5 Зак. 2064
Таблица 4" Оценки степени аналитизма в разных языках 12 Язык Объем выборки в словоупотреб- лениях Разных лексем 1 Разных словоформ Степень аналитизма-. Русский 200 000 6826 21648 0,32 Английский 200 000 7160 10582 0,67 Французский 100 000 4572 8108 0,56 Испанский 200 000 7564 13507 0,56 Румынский 200 000 5708 14292 0,39 Латышский 292 000 13319 45211 0,30 1 I 1 Степень синтеза языка можно определить делением по парно количеств разных словоформ, зарегистрированных: в текстах одного содержания и равного объема, написанных на различных языках. Пример таких оценок представлен в* табл. 5 (подъязык электроники, все тексты одинаковой дли- ны 200 тыс словоупотреблений). Таблица наглядно показывает различия в размерах сло- варей, используемых языками в текстах одного содержания и длины. Зная такие соотношения, можно планировать рас- пределение памяти в ЭВМ при создании машинного словаря' для автоматической^ переработки текста в двуязычной ситуа- ции. Приведенные в таблице индексы являются как бы «ко- эффициентами перехода» от языка к языку. Например, для: перевода русского текста на немецкий язык потребуется на’ 6% * словоформ меньше, чем в русском словаре этого текста,, а обратно — па 7% больше. Вышеприведенные примеры относились к самым общим оценкам типологии языков и стилей* оценкам, которые, так сказать, «лежат на поверхности» частотного слораря. Кван- 'титативная типология текста, разумеется, не должна ограни- чиваться такими подсчетами, однако вполне интересные на- блюдения можно сделать, не прибегая к сложному матема- тическому аппарату. 12 Использованы данные из [97; 5; 110; 14; 133; 84; 214].. 66
Таблица Оценки степени синтеза в разных языках 13 Объем словаря в словоформах Язык Рус- ский Не- мец- кий Ру- мын- ский Ис- пан- ский Анг- лий- ский Фран- цуз- ский 21648 20405 Русский Немецкий 0,94 1,07 1,52 1,43 1,60 1,51 2,05 1,93 2,10 1,98 14292 Румынский 0,66 0,70 ——* 1,06 1,35 1,39 13507 Испанский 0,62 0,66 0,95 -— 1,28 1,31 1Ь582 Английский 0,49 0,52 0,74 0,78 “ — 1,03 10299 Французский 0,48 0,50 0,72 0,76 0,97 T'i Рассмотрим в качестве примера употребление «ИНГОВЫХ» -1? 4 Нк11 форм в английской устной и научной речи р \ поп робуе м оп- ределить стилеразличающую способность этих форм в совре- Я менном использовании английского языка. Существующие частотные словари предоставляют этот материал, для извле- Я чения которого может потребоваться не более 4—5 часов. Я Составим таблицы распределения ранг-частота (закон Цип- Я фа) для обеих совокупностей (табл. 6 и 7). Я При равных количествах словоупотреблений число упо- Я треблеиий «инговых» форм в обеих выборках различно: в уст- Я ной речи их 3525, в научной — 4662. Разных форм в первом-Я случае 567, во втором 722, то есть на одну треть больше; на Я столько же больше суммарная частота этих форм в научной Я речи. Это значит, что «инговые» формы употребительнее в Я научной речи, чем в устной на одну треть как в парадигма- Я тическом плане (уровень словаря), так и в синтагматиче-Я ском (уровень текста). Самая частая форма в устной речи Я встретилась 637 раз, в научной—155, то есть вчетверо Я меньше. Частоты форм в устной речи распределены более Я компактно, чем в научной (ср. количества строк в табл. 6 и Я 7; они равны 42 и 51 соответственно). Однократных форм Я в устной речи несколько больше, чем в научной, но об - Я 13 Использованы работы [97; 89; 84; 133; 5; 109]. 14 Данные о научной речи получены автором; частотный словарь уст<Я ной речи см. в [252]. ‘Ж 5* 67
Таблица 6 Распределение ранг-частота «инговых» форм в английской устной речи (выборка 200 000 словоупотреблений) 15 Ранг Частота Форм с дан- ной частотой Ранг Частота Форм с дан- ной частотой 1 637 1 ' 25—26 22 2 2 147 1 27 20 1 3 132 1 28 19 1 4 НО 1 29 18 1 5 91 1 30—32 17 3 6 79 1 33—36 16 4 7 76 1 37—40 15 к 4 8 72 1 41—43 14 3 9 67 1 44—46 13 3 10 60 1 47—52 12 6 И 48 1 53—55 11 3 12 43 1 56—62 10 7 13—14 41 2 63—65 9 3 15—16 40 2 66—74 8 9 17 39 1 75—85 7 11 18 37 1 86—97 6 12 19 34 1 98—115 5 18 20 31 1 116—139 4 24 21 28 1 140—178 3 39 22 24 1 179—268 2 90 23—24 23 2 269—567 1 299 15 Словарь Д. Хауэса удобен‘тем, что при общей длине выборки, равной 250 тыс словоупотреблений, даются также частоты для первой и второй сотен тысяч отдельно. В таблице приведены данные для Af = 200 тыс. 68
Таблица 7 Распределение ранг-частота «инговых» форм в научных текстах (выборка 200 000 словоупотреблений) Ранг Частота Форм с дан- ной частотой Ранг Частота Форм с дан- ной частотой 1 155 1 38 25 1 2 138 1 39 24 1 3 105 1 40 23 1 4 101 1 41—42 22 2 5 87 1 43—46 21 4 6 82 1 47—50 20 4 7 81 1 51—55 19 5 8 71 1 56—57 18 2 9 63 1 58 17 1 10 60 2 59—62 16 4 11 59 1 63—68 15 6 12—13 53 1 69—78 14 10 14 51 1 79—91 13 13 15 48 1 92—98 12 7 16 44 1 99—107 11 8 17 39 1 108—119 10 12 18—20 37 3 120—132 9 13 21 36 1 133—146 8 14 22 35 1 147—167 7 21 23—24 34 2 168—186 6 19 25—26 32 2 187—227 5 41 27—28 31 2 228—275 4 48 29—30 30 2 276—335 3 60 31—33 29 3 336—450 2 115 34 27 1 451—722 1 272 35—37 ' 26 3 щее количество редких форм в научной речи больше, чем в устной. 69
Можно представить данные о частотах в более сжатом виде, вместо всех рантов, показав их интервалы и добавив колонки относительпьих накопленных частот (табл. 8). Таблица 8 Накопленные относительные частоты самых частых «инговых» форм в устной и научной речи Устная речь Научная речь Ранг Накопленная частота в % Ранг Накопленная частота в % Относи- тельно словоупо- треблений Относи- тельно упо- треблений «инговых» форм Относи- тельно словоупо- треблений Относи- тельно упо- треблений «инговых» форм 1 0,31 18,08 1 0,08 3,33 0,56 31,69 5 0,29 12,57 10 0,73 41,73 10 0,47 20,23 50 1,18 67,18 50 1,10 47,15 100 1,38 78,26 100 1,46 62,18 200 1,56 88,35 200 1,83 78,66 567 1,76 100,00 722 2,33 100,00 Значительная концентрированность употребления «инго- вых» форм в устной речи сравнительно с научной стала еще более заметной, особенно у пятидесяти самых частых из них. Табл. 8 показывает в то же время статистический вес этих форм относительно всех словоупотреблений: он, как это видно, невысок. В стилостатистических исследованиях обращают внима- ние также на редкоупотребительные лингвистические еди- ницы. В табл. 9 можно видеть, какая доля приходится на редкие «инговые» формы в выборках, измеряемых употреб- лениями этих форм. Здесь хорошо проявляется закономерность, прямо проти- воположная той, которая представлена в табл. 8. Если там измеряется степень концентрированности словаря за счет самых частых единиц, то здесь измеряется степень разнооб- 70
Таблица 9 Распределение частот редкоупотребительных «инговых» форм Частота Устная речь Научная речь Форм с этой частотой Всего употреб- лений Накоп- ленная частота % Форм с этой частотрй Всего употреб- лений Накоп- ленная частота % 1 299 299 299 8,48 272 272 272 5,83 2 90 180 479 13,62 • 115 230 502 10,77 3 39 117 596 16,91 60 180 682 14,63 4 24 96 <692 19,63 48 192 874 18,77 5 18 90 782 22,18 41 205 1079 23,15 6 12 72 854 24,23 19 114 1193 25,59 7 11 77 931 26,41 21 147 1340 28,76 8 9 72 1003 28,45 14 112 1452 31,17 9 3 27 1030 29,22 13 117 1569 33,66 10 7 70 1100 31,21 12 120 1689 36,23 разия словаря за счет наиболее редких его единиц. Обе ха- рактеристики, концентрированность и разнообразие словаря •считаются в стилостатисТике основными «параметрами» тек- ста. Если потребуется более точный анализ рассмотренных количественных различий, можно применить специальные процедуры для оценки их статистической существенности. Формула Ципфа, отражающая оОщую статистическую структуру текста, может явиться удобным инструментом в типологических исследованиях. Выше был показан пример табличного описания зависимости ранг-частота; таким спо- собом анализа данных частотного словаря можно ограни- читься для того, чтобы получить некоторое поверхностное представление о частотах единиц текста. Элементарная ма- тематика предлагает еще 2 способа изучения количествен- ных зависимостей — графический и аналитический. Они за- ключаются в построении графиков на материале таблиц и 71
применения одной из известных формул для сглаживания: эмпирической линии на графике с помощью теоретической линии. Распределение ранг-частота, будучи нанесенным на гра- фик в двойном логарифмическом масштабе, получает вид ломаной (для выборок умеренного объема) или кривой (для очень больших выборок) 16. Формула Ципфа приме- нима в тех случаях, когда эмпирическая линия несильно от- личается от прямой даже по внешнему виду. Построив такую прямую, например, методом наименьших квадратов, можно исследовать различия в выборках либо только наложением этих прямых друг на друга, либо прибегнув еще к одной процедуре, когда оценивается близость наклона прямых, то есть определяется, параллельны ли сравниваемые линии, и если нет, то вызвано ли это случайными причинами [194, стр. 310—316]. Используя аналитический способ зависимости ранг-часто- та, получают коэффициенты закона Ципфа. При сравнении их величин судят о сходстве или различии статистической структуры текстов, представляющих разных авторов, стили, подъязыки, языки. В табл. 10 приведены эти коэффициенты, вычисленные для разных выборок (см. стр. 73—74). 4. Частотные словари и обучение языку Главная задача частотного словаря в этой области со- стоит в том, чтобы обеспечить необходимым лингвостатисти- ческим материалом процесс обучения некоторой системы (че- ловека или ЭВМ) 17 определенным навыкам использования языка, например, навыкам чтения текста, то есть извлечения из текста полезной информации. Успешное осуществление учебно-педагогического процесса 'в период научно-технической революции сталкивается с це- лым рядом трудностей, самой серьезной из которых является перегруженность учебных программ в вузе. Положение пре- подавателя иностранного языка в неязыковом вузе стано- вится в такой ситуации особенно тяжелым из-за незначи- тельности места, отводимого вузовской программой на изу- 16 Подробнее о форме эмпирической линии и объеме выборки см_ в [9]. 17 «Обучение» ЭВМ понимается как создание работающих алгорит- мов и программ выполнения элементарных операций,, к. которым может быть сведено решение поставленной человеком задачи. 72
Таблица 10 Коэффициенты закона Ципфа для разных языков и подъязыков Язык, подъязык Объем выборки Объем словаря Коэффи- циенты Сло- варь опи- сан в Расчеты приве- дены в Y К Казахский («Путь Абая» М. Ауэзова) 1 466 тыс 61824 1,02 1 0,15 [78] [78] Английский механизмы) (судовые • 404 тыс 12971 1,48 0,33 [117] [П7] Английский водники) (полупро- 300 тыс 12125 1,10 0,20 [67; [67] Английский Дж. Джойса) («Улисс» 260 тыс 29899 0,97 0,06 68] 18 [Ю] Английский тематика) (разная 254 тыс 23655 0,99 0,10 [262] [Н6] Русский (электроника) 200 тыс 21468 0,84 0,14 [97; [97] Английский ника) (электро- 200 тыс 10582 0,99 0,10 98] {10; [Ю] Румынский ника) (электро- 200 тыс 14292 0,99 0,09 П] [83; 84] [87; 89] [Н6] [84] Немецкий ( ка) Афганский матика) электрони- • (разная те- 200 тыс 200 тыс 20405 21268 0,99 1,01 0,10 0,10 [87] [116] Казахский (газета) 150 тыс 29785 1,02 0,15 [22] [22] Молдавский (газета) 200 тыс 34086 1,03 0,13 [126] [126] Французский (элек- троника) 200 тыс 10299 1,03 0,16 [Ю9] [109] Английский твердого тела (физика ) 200 тыс 8206 1,06 0,14 [99] [99] Испанский ника) (радиотех- 200 тыс 13507 1,07 0,16 [133] [133] Английский териалы) (строима- 200 тыс 9447 1,16 0,31 [48] [48] Афганский (поэзия) 40 тыс 7280 0,93 0,08 [116] [116] Афганский тексты) (научные 40 тыс 6536 0,94 0,08 [116] [116] Афганский (газета) 40 тыс 6755 0,96 0,08 [116] [И6] 18 М. 11 a n 1 е у. Word index to James Joyces’ «Ulysses». Madi- son, 1951. 73
Продолжение Язык, подъязык Объем выборки Объем словаря Коэффи- циенты Сло- варь опи- сан в Расчеты приве- дены в Y К Афганский (художест- венная проза) 40 тыс 7000 0,99 0,10 [116] [116] Афганский (литератур- но-разговорная речь) 40 тыс 6411 1,02 0,12 [116] [116] Русский (устная речь) 50 тыс 10304 0,,94 0,09 [191] [116] Русский (электроника) 50 тыс 9464 0,82 0,05 [97] [116] Английский (электро- ника) 50 тыс 5399 1,00 0,10 [Ю] [10] Английский (газета) 44 тыс 6002 0,99 0,10 [232] [10] чение языка. Последствия этого приобретают психологиче- ский характер: они снижают заинтересованность учащегося, лишают его веры не только в возможность овладения иност- ранным языком, но и вообще в целесообразность его изу- чения. Проблеме повышения эффективности учебных процессов уделяется в последнее время особое внимание: считают, что наибольшие затраты общества до конца этого столетия бу- дут относиться к сфере обучения, что последняя четверть XX века может быть названа «эпохой образования» [26, стр. 10]. Требования’ к качеству языковой подготовки специа- листов будут расти, но заметного улучшения «объективных» условий преподавания языка (количество учебных часов на овладение языком и число обучающихся в группах), по-види- мому, ожидать не приходится. Оптимизация обучения иност- ранному языку должна предусматривать поэтому рациональ- ную методику, которая ставит перед собой реалистические задачи, использует для их достижения объективно отобран- ный материал и вводит его в учебный процесс с учетом по- следних сведений о лингвистической и лингвопсихологиче- ской деятельности человека, повышает заинтересованность учащегося как можно более ранним приобщением его к ис- пользованию языка в реальных жизненных ситуациях. Строя рациональную методику обучения языку, надо, таким обра- зом, получить ответ на следующие 'вопросы. 74
1. В какой обстановке будет применять полученные зна- ния обучаемый? 2. Какие языковые средства и речевые навыки необхо- димы и достаточны в этой обстановке? 3. Как определить такой минимум средств и навыков? 4. Как вводить его в курс обучения языку? 5. Как контролировать усвоение учебного материала? Ответ на 1-й вопрос дает сама профессиональная ориен- тация соответствующего вуза, факультета, отделения и т. д., то есть будущая специальность обучаемого; на 2-й и 3-й — внимательное изучение функционирования языка, осо- бенно в данной профессиональной области. Здесь большие возможности предоставляет статистико-вероятностный и тео- ретико-информационный подход к исследованиям речевой деятельности, который позволяет из диффузной, не имеющей четких границ генеральной совокупности употребления линг- вистических элементов выбрать наиболее вероятную и ин- формационно-насыщенную зону, используемую в заданном круге ситуаций {156; 159]. На 4-й вопрос отвечает об- ращение к вероятностному и детерминистскому подходам, первый из которых требует соответствия модели обучения и модели использования языка, а второй корректирует первый при возникновении конфликтов генеральной совокупности и выборки, системы языка и нормы подъязыка, системы языка и построения конкретного текста [64]. На 5-й вопрос отве- чает теория-и практика тестирования, учитывающая лингви- стические, психолингвистические и психологические условия процесса усвоения языка. Центральной проблемой, однако, остается проблема от- бора учебного материала, которая беспокоит методистов во всем мире уже многие годы. Первые частотные словари со- ставлялись именно с этой целью; результаты подсчетов вы- глядели чрезвычайно убедительно: первые 100 слов частот- ного списка соответствовали 50% словоупотреблений текста, первая 1000 слов —70—80%. Эту в общем универсальную .лингвостатистическую закономерность поспешили распрост- ранить на любые частотные словари любых текстов, забывая сдедать оговорку, что такие соотношения строго выдержи- ваются лишь для словаря тех текстов, которые использованы для его составления. Точные пропорции могут нарушаться уже при «наложении» словаря на тексты другие, хотя и близ- кие по характеру тем, которые послужили для него источни- ком, и, тем более, на тексты качественно отличные. Эти рас- 75
хождения менее заметны для небольшого числа самых ча- стых слов и растут по мере снижения их частоты. Пока частотные словари, составленные в результате ана- лиза письменной речи, использовались для обучения чтению, такие расхождения не очень тревожили методистов. Они, во- первых, объединяли данные разных частотных словарей [242; 230; 285] или добавляли к имевшемуся словарю свои собст- венные частотные списки [292].’ и, во-вторых, имели возмож- ность подбирать или адаптировать учебные тексты. Когда,, особенно в послевоенный период, внимание в методике пере- местилось на развитие навыков разговорных, от частотных словарей потребовались сведения об устной речи. Первая волна разочарования возникла после того, как в частотных словарях литературных' текстов не оказалось многих слов, которые по предположению должны бы^ь употребительны в обиходном устном общении. Однако при; первой же попытке определить эти слова обнаружилось, что и частотный сло- варь, составленный по записям устной речи, не помещает в верхние зоны «важных для общения» слов, например, отно- сящихся к обеденной или кухонной лексике [72]. В результате прокатилась новая волна разочарования, ко- торая теперь охватила уже не столько самих лексикографов- частотников, сколько тех, кому предназначались их работы. Стали появляться довольно резкие высказывания в адрес частотных словарей и вообще критерия частоты в отборе учебного материала. Всех критиков можно разделить, по-ви- димому, на несколько категорий, куда относятся: 1) те, кто сам не составлял частотных словарей и не пы- тался их применять, но по разным причинам отрицает коли- чественную лингвистику, считая ее бесполезным знанятием, и судит о ней по недостаточно квалифицированным высказы- ваниям других. Методистов прямо предостерегают, что< не следует недооценивать активности сторонников критерия частотности [162, стр. 74]. Рассуждения «теоретического» ха- рактера имеют здесь совершенно отчетливую прагматиче- скую подоплеку: составление частотного словаря — дело уто- мительное и трудоемкое, оно может занять много времени,, а результаты получат признание не сразу, если вообще по- лучат 19; 19 Можно в этой связи вспомнить опыт Р. Элдриджа [232], который, по его словам, в работе над частотным словарем запустил управление вверенной ему фабрикой и едва не разорился, потратив сбережения на* публикацию его в тысяче экземпляров. 76
2) те, кто составлял частотные словари и все же потер- пел неудачу в их применении из-за несоответствия качества и количества текстов целям обучения. Эти критики имеют слабое представление о возможностях лингвостатистики, сна- чала их завышают, потом с такой же легкостью склонны даже отрицать; 3) те, кто не составлял частотных словарей и имеет по- верхностное с ними знакомство, кто считает показатель ча- стоты недостаточно объективным и предлагает другие коли- чественные оценки употребительности. Они склонны перено- сить недостатки одного частотного словаря на все остальные; 4) те, кто составлял частотные словари, но, затратив мно- го сил и времени на плохо запланированную работу, обнару- жил недостатки слишком поздно и поэтому старается допол- нить частотные характеристики какими-то другими; 5) те, кто составлял частотные словари и пытается усо- вершенствовать представительность новых словарей. Сюда относятся все, кто знаком с большим числом частотных слова- рей и видит их недостатки, которые необходимо предусмот- реть в дальнейшей работе. Критиков 2-й и 3-й категорий можно понять, если учесть не только практическую труднодоступность сущест- вующих частотных словарей, но и отсутствие литературы, в которой обобщался бы накопленный статистической лексико- графией опыт и предлагались бы разумные рекомендации по методике и технологии их составления. Критика представи- телей 4-й и 5-й категорий является наиболее квалифи- цированной хотя бы потому, что она базируется на личной практической деятельности в области частотных словарей. Однако эта критика все же не всегда выходит за рамки об- суждения недостатков отдельных словарей, распространяемых на всю статистическую лексикографию. Говоря о применениях и применимости частотных слова- рей, нельзя обойти стороной их критику, какой бы наивной она ни была. В уже упоминавшихся условиях, когда широ- кий читатель лишен возможности личного знакомства с ча- стотными словарями разных видов и назначений, когда при всем кажущемся благополучии с публикацией лингвостати- стических работ на них существует едва ли не голод, всякая отрицательная или, наоборот, апологетическая неквалифици* 77
рованпая оценка частотных словарей может быть воспринята: читателем на веру, без должного осмысления20. Рассмотрим поэтому наиболее серьезные упреки в адрес частотных словарей, появившихся в литературе в разное время и обративших на себя внимание лингвистов и препо- давателей иностранных языков. Самая конструктивная критика была высказана группой .Г Гугенейма—Р. Мишеа {238], выдвинувшей в противовес ча- стотности принцип «резервности», то есть постоянного нали- чия лингвистической единицы (слова) в сознании человека... Мы не всегда употребляем многие конкретные слова, следо- вательно в нашей речи они могут быть не обязательно ча- стотными, и частотный словарь поместит их в нижние зоны или даже вовсе не зарегистрирует. Они, однако, всегда го- товы к употреблению, так как обозначают предметы, окру- жающие нас в повседневной жизни; они как бы постоянно «находятся на кончике языка». Это соображение появилось, когда в частотном словаре устной речи не было обнаружено таких слов, как «автобус»,, «вилка», «пуговица», которые, казалось бы, должны иметь высокую употребительность. Оно дало основание утверждать, что резервность не имеет ничего общего с частотностью. Сле- довательно, резервность надо определять не путем анализа того, что говорится или пишется, а каким-то другим спосо- бом. Такой способ был предложен ,в виде анкетирования' большого числа информантов, задачей которых было за ог- раниченное время сообщить'20 самых нужных, по их мнению, слов, ассоциирующихся с каждой из 16 заданных тем, та- ких, как «тело человека», «дом», «мебель», «еда» и т. д. [72]. Понятие резервности оказалось весьма удачным дополне- нием к принципу частотности для авторов «элементарного» и «фундаментального» курсов французского языка [263; 264; 237]. Оно позволило объединить частотный и «резервный», списки в один, который, с последующей корректировкой из 20 Любопытны в этом отношении слова Р. Мишеа: «Мы не верим, больше в незыблемую и универсальную иерархию частотности... но мы знаем также, что нет другого способа, чтобы отделить главное от второ- степенного. Настоящие трудности возникают не на этой основе. Они появ- ляются тогда, когда мы начинаем пробивать стену человеческой кос- ности. Вот где лежат самые серьезные трудности. Это отсутствие инфор- мации, непонимание, равнодушие, недоверие, предвзятость „мнения» [134;. стр. 297]. 78
соображений «здравого смысла» и опыта авторов курса, и- составил их учебный базовый словарь французского языка. Прежде чем безоговорочно принять концепцию Г Гуге- нейма—Р Мишеа, необходимо получить ответ на несколько? следующих вопросов. 1. Если их частотный словарь противоречит их же резерв- ному словарю, означает ли это, что и в принципе между лю- быми другими частотным и резервным словарями будут та- кие же непреодолимые различия? 2. Каким образохМ планировалось наблюдение устной ре- чи? Включала ли выборка те 16 тем, которые были впослед- ствии предъявлены информантам в эксперименте по опреде- лению резервного словаря; какое место занимали эти темы в* выборке из устной речи? (Судя по публикациям, мысль об этих темах возникла у группы Гугенейма после получения частотного словаря. А если так, то прежде чем заявить, что «резервн®сть не имеет ничего общего с частотностью» [72, стр. 304], следовало произвести записи устной речи в тех же ситуациях, которые определены темами резервного словаря.. Иными словами, если нас интересует обеденная лексика, то надо сделать большое число записей бесед- на обеденную, тему. Разумеется, осуществление таких записей по всем те- мам будет более хлопотным, чем анкетный опрос, но это, было бы единственным доказательством наличия или отсут- ствия связи между частотой и резервностью). 3. На какую модель речевой деятельности нужно ориен- тироваться при обучении иностранному языку — на модель использования языка его носителем или на модель овладе- ния языком, научения языку его носителя? (Если первое, тогда противопоставление резервности и частотности имеет мало смысла, так как обучать тому, как говорить и понимать сказанное, надо прежде всего на материале того, что гово- рится на самом деле, а не того, что думается, но не гово- рится. Если второе, тогда перед обучаемым ставится недо- стижимая цель — пройти за ограниченное время тот путь, ко- торый проделывает носитель языка в течение 15—20 лет. Ему придется тратить усилия на запоминание тех слов, ко- торые нужны носителю языка и занимают в течение жизни может быть самые ценные участки памяти, но которые едва ли понадобятся обучаемому. И здесь встает необходимость следующего, четвертого вопроса). 4. Чья речевая деятельность моделируется при отборе учебного языкового материала — всего коллектива носителей" 79
языка или определенных возрастных, социальных, профес- сиональных, территориальных и т. д. групп? (В резервных словарях всех этих групп может оказаться значительная разница). Нужно ли изучающему французский язык жителю Камбоджи обладать резервным словарем в пределах тем «обед» и «домашние птицы» таким же, каким обладает пари- жанин? (Этот вопрос опять можно развить в следующий). 5. Определяется ли круг ситуаций, в которых окажется предположительно обучаемый по завершении курса? Не свя- зана ли резервность слова в сознании с вероятностью ситуа- ции, в которой оказывается информант и, следовательно, не нужно ли учитывать возможность совпадения или несовпаде- ния «языкового существования» носителя языка и обучае- мого этому языку? (Отсюда снова вытекает еще один во- прос) . 6. Не значит ли все это, что выявление резервного сло- варя потребовало бы предварительного создания полного тезауруса, отражающего общую картину мира в коллектив- ном сознании всех носителей языка или, по крайней мере, той группы, речевая деятельность которой моделируется в це- лях обучения языку, а также тезауруса обучаемых языку, чтобы убедиться в том, что эти тезаурусы совпадают? Не ока- жется ли эта задача непосильной даже большому коллективу исследователей и невыполнимой в обозримые сроки, за пре- делами которых устареют и материал и методы его анализа? 7. Поскольку создателей «элементарного» и «фундамен- тального» курсов французского языка и их сторонников пу- гает обилие служебных и абстрактных слов, не обозначаю- щих конкретные предметы повседневного обихода, среди 100, 1000, 2000 самых частых слов частотного списка, тогда как реальные возможности допускают объем учебного словаря именно в 1000 или 2000 слов (134], то не значит ли это, что отказавшись от таких «неконкретных» слов, без которых невозможно построение нормальных фаз, мы упростили бы язык, сделали бы его в высокой степени субстантивным и уподобились при этом свифтовским прожектерам, предпо- лагавшим заменить в общении слова предметами, которые они обозначают? Ответить на эти вопросы можно, очевидно, только решив главную проблему: какому или чьему языку следует обучать, в каких условиях должен применять его обучаемый, чье вла- дение языком и в какой степени берется за образец при обу- чении, то есть те самые вопросы, которые мы ставили выше 80
перед рациональной методикой. Нельзя обучать языку вооб- _ще, можно обучать определенным навыкам его использова- ния в определенных ситуациях. Нельзя, ставя перед собой задачу, пытаться решить ее неподходящими средствами. Ста- тистический подход к обучению языку предлагает поэтому максимальную дифференциацию целей обучения, четкое •определение главной его задачи и строго соответствующий этой задаче учебный материал, который могут дать лишь достаточно обширные количественные наблюдения. С этим согласуется и принцип интегральной методики составления частотных словарей группой «Статистика речи». Проблема резервности решается французскими лингвоста- тистиками, таким образом, как компенсация промахов, допу- щенных при создании частотного словаря, и в этом нет ни- чего криминального с прагматической точки зрения. Если словарь составлен и обнаружились его недочеты, неразумно отказываться от него и тратить силы на изготовление дру- гого, который будет обладать другими же недостатками. Вполне целесообразно использовать этот словарь, дополнив его материалами из других источников, как это по существу и делается всеми сторонниками статистики в обучении языку. Полностью следовать частотной модели текста можно, оче- видно, на сегодняшнем уровне развития статистической лек- сикографии только в пределах очень ограниченной тематики текстов. Р. М. Фрумкина предложила вероятностную интерпрета- ции) идеи резервности [197]. Частоты слов по словарю Э. А. Штейнфельдт [211] (названные в ее эксперименте «объективными» оценками вероятностей слов) она сопоста- вила с частотами («субъективными» оценками вероятностей), которые приписывали этим же словам опрошенные ею инфор- манты. Оказалось, что одни и те же «обиходные» (резервные по терминологии Г Гугенейма—Р. Мишеа) слова получают разные частоты в частотном словаре и в оценках информан- тов. Отсюда делается вывод, что субъективные оценки веро- ятностей «лучше отражают вероятностную организацию сло- варя в речевых механизмах информантов, чем данные под- счетов по текстам» [197, стр. 65]. Такое заключение представляет определенный интерес для статистической лексикографии, так как, с одной стороны, позволяет объяснять резервность в вероятностных терминах, а с другой — обращает внимание на различия между вероят- ностной организацией потенциального словаря в сознании ин- ‘6 Зак. 2064 81
диввдуума и частотной организацией словаря коллектива^, реализованного в выборочном корпусе текстов. Вероятность, слова в сознании человека зависит от всего прошлого рече- вого опыта и от частоты референтов этого слова [197, стр. 64].. Этим самым (признается, что резервность и частота суть раз- ные формы проявления одной и той же сущности — вероят- ности слова в сознании человека. Частотный словарь, составленный по текстам большого* разнообразия, представляет усредненную схему вероятност- ного построения множества словарей отдельных носителей, языка (в разной степени адекватную при различной органи- зации корпуса текстов), которая обобщает не только эти от- дельные словари, но и наборы ситуаций, в которых написаны; тексты. Можно ли в этом случае проводить параллель между такой огрубленной схемой и четко ограниченным по набору ситуаций резервным словарем или «субъективно-частотным»- словарем, полученными от информантов? По-видимому, нет- Для строгости эксперимента следует поставить в одинаковые- условия тех, кто пишет (или говорит) для частотного сло- варя, и тех, кто называет «резервные» слова или дает субъ- ективные оценки вероятностей. С иных позиций пересматривает принцип частотности Н. Д. Андреев [18], предложивший взамен него идею распре- делительного словаря на том основании, что в частотном’ списке [211] слова располагаются в порядке их частот и, вследствие этого, не учитывается равномерность появления слов в текстах-источниках словаря. Распределительный сло^ варь в противоположность частотному не будет вовсе реги- стрировать частот слов, а будет отмечать, только наличие слова в каждом источнике хотя бы один раз. Слова в этом словаре будут располагаться либо по алфавиту, либо по зо- нам специфичности, устанавливаемой в зависимости от тогог к каким группам текстов они тяготеют, то есть по принципу тезауруса. Процедура численного определения степени спе- цифичности довольно проста [18, стр. 86—89]. Оценивая идею распределительного словаря, призванного заменить со- бой частотный [17, стр. 490], попробуем рассмотреть, что но- вого предлагает он по сравнению с частотным' словарем. 1. Как и частотный (по крайней мере, как принято в груп- пе «Статистика речи»), распределительный’ словарь исполь- зует тексты стандартного размера — по 1000 словоупотреб- лений каждый. 82
2. Как и частотный, этот словарь предусматривает пред- варительное разбиение генеральной совокупности на районы, соответствующие подъязыкам. 3. Как и частотный, он предполагает последовательный пословный анализ текста, то есть ни одно словоупотребление не должно быть пропущено. 4. Распределительный словарь не суммирует частоты употребления слова, но регистрирует только одноразовое его употребление. Однако для этого (см. п. 3) необходим пере- бор всех словоупотреблений текста. При составлении частот- ного словаря каждое слово сравнивается с накопленным массивом слов, и если оно уже зарегистрировано ранее, это его употребление приписывается к уже отмеченным. При со- ставлении распределительного словаря, каждое новое упо- требление слова также сравнивается с накопленным масси- вом, и если оно уже зарегистрировано в нем, это употребле- ние не прибавляется к отмеченному. 5. При равных объемах выборки, например в 200 тыс словоупотреблений, частотный словарь английского подъязы- ка электроники [10] даст 10 тыс разных слов (точнее, слово- форм) с указанием: а) частот в каждом из 200 текстов, то есть даст точную информацию о распределении слова по тек- стам и о распределении частоты слова по текстам; б) коли- чества текстов и в) суммарной частоты слова. Это позволит производить любые операции от элементарных до самых сложных для анализа распределения этих слов при любой группировке текстов по содержанию или по количеству. Распределительный словарь в этих условиях даст те же 10 тыс слов, но при них будет указана только их распростра- ненность и не будут даны частоты и распределение частот. Дальнейшая обработка и классификация слов по специфич- ности так, как она описана в [17] и [18], допускает лишь фор- мальную, численную группировку текстов. 6. Однако концепция распределительного словаря пред- полагает обработку огромных массивов текста. Для «полно- го» распределительного словаря языка такой объем оцени- вается в 1 млн стандартных текстов, то есть в 1 млрд слово- употреблений [18, стр. 89]; для словаря-минимума объем текстов тот же. Правда, при этом указывается, что для по- падания слова в полный словарь достаточно его зарегистри- ровать в 100 выборках из 1 млн, а для словаря-минимума потребуется 10 тыс выборок. Но это относится только к од- 6* 83
ному слову, а нас интересуют все слова языка. Следова- тельно, пословного анализа всего корпуса в 1 млрд слово- употреблений не избежать в любохМ случае. Затраты на пословный анализ в общем одинаковы как для частотного, так и для распределительного словаря. Раз- личия будут касаться объема памяти ЭВМ при машинном исполнении и места на бумаге при ручном исполнении. В по- следнем случае по мере роста выборки естественны также затраты на суммирование частот, однако они ничтожны срав- нительно с усилиями по расписыванию текста. Если инфор- мативность данных (частотного) словаря при этом повышает- ся (см. п. 5), то идти на такие затраты есть все основания. Разумеется, необходимы расходы на статистическую обра- ботку словаря, чтобы установить характер распределения (в математико-статистическом смысле) частот слов и их классов, однако это уже относится не к составлению словаря, а к его использованию. 7. Если целью этого подхода является не перечисление слов языка, подъязыка и т. д., а классификация заданного их инвентаря или проверка наличия известных слов в задан- ных текстах, тогда принцип распределительного словаря мо- жет стать эффективным инструментом наблюдения, что и под- тверждают работы последователей этой концепции (см., на- пример, [20; 111]). 8. С точки зрения оформления словника распределитель- ный словарь не вступает в конфликт с частотным, если учесть, что последний может быть организован не только по частотной или алфавитной системе, но и по ассоциативной (см. гл. II, п. 1). 9. В самом общем содержании своей идеи распредели- тельный словарь также не противоречит частотному; однако частотный словарь дает возможность исследовать не только распространенность слов, но и распределение частот. Остается заключить, таким образом, что критика частот- ных словарей вовсе не свидетельствует о их принципиальной непригодности в оптимизации обучения языкам; в то же время она заставляет частотников уделять должное внима- ние основным методологическим проблемам статистической лексикографии. Все это еще более подтверждает правомер- ность подхода группы «Статистика речи», ориентирующейся на отраслевую, ситуативную лексикографию. 84
5. Частотные словари и инженерная лингвистика Развитие лингвостатистики и ее главного компонента — статистической лексикографии — способствовало, особенно в последние годы, образованию нового языковедческого на- правления, которое сформировалось как инженерно-лингви- стический подход к изучению речевой деятельности и его при- ложениям21. Этот подход предполагает в качестве необходи- мого условия экспериментальную машинную проверку моде- лей, предлагаемых в теоретическом и прикладном языкозна- нии. Целью инженерной лингвистики является машинное ре- шение лингвистических задач, что «служит надежным сред- ством логической экспликации и моделирования различных лингвистических объектов и их функций. Действительно, если языковое явление смоделировано в форме алгоритма, и этот алгоритм, будучи перенесенным с ассоциативного субстрата человеческого мышления на последовательно-логический ме- ханизм ЭВМ, устойчиво выдает правильный лингвистический результат, можно не сомневаться, что некоторая существен- ная сторона интересующего нас языкового явления понята правильно... Инженерная лингвистика сосредоточила свое внимание на построении таких машинных моделей, которые перерабатывают, в основном, легко формализуемые и алго- ритмизуемые стороны языка» [36, стр. 20]. Роль лингвостати-’ стики и статистической лексикографии заключается здесь прежде всего в том, чтобы предоставить разработчикам ин- женерно-лингвистической части систем автоматического уп- равления, информационного поиска и машинного перевода статистически сокращенные описания естественных языков и подъязыков, которые могут выступать в качестве базовых словарей и грамматик. Связь статистической и инженерной лингвистики осущест- вляется не только при достижении общих целей, но и в ре- шении частных задач, когда результат может лежать в сто- роне от непосредственного машинного применения. Напри- мер, в лингвотипологических исследованиях сравнение час- тотных словарей показывает степень расхождения или близо- 21 Впервые термин «инженерная лингвистика» был предложен и определен Р. Г. Пиотровским в 1965 г. на республиканском семинаре преподавателей общего языкознания в ЛГПИ им. А. И. Герцена [157]. Приблизительно в это же время Б. Мандельброт упоминает о лингви- стах-инженерах, к которым, по-видимому, относит специалистов в области передачи сообщений. См. русский перевод его статьи [121]. 85
сти между языковыми или подъязыковыми системами, то есть приобретает характер собственно теоретический. Однако со- ставление этих словарей, а также вычисление параметров их структуры может быть поручено ЭВМ, которая и выполняет при этом инженерно-лингвистическую функцию.- Инженерная лингвистика предполагает определенную культуру научного мышления, особый подход к организации лингвистического эксперимента. Если исследователь знает, что результаты его работы будут либо в конечном итоге, либо на промежуточ- ных этапах использованы машиной или получены с ее помо- щью, он вынужден внимательно следить за четкостью исход- ных формулировок и корректной реализацией принятых им принципов и методов. Инженерно-лингвистический подход, заключающийся в доведении решения лингвистических задач до алгоритмического, машинного уровня, может применяться для оптимизации обучения языку в фиксированных усло- виях. Частотные словари, таким образом, предстают в рамках инженерной лингвистики в трех аспектах: во-первых, они мо- гут быть получены с помощью ЭВМ, то есть инженерно- лингвистическим способом; во-вторых, они могут служить средством достижения лингвистических целей с помощью ЭВМ; в-третьих, само статистико-вероятностное моделирова- ние лексики или иных языковых уровней частотными слова- рями является неотъемлемой частью инженерно-лингвистиче- ского подхода. 6. Отношение статистической лексикографии к социальным наукам Рассмотрим вкратце возможности, которые предлагает зарождающаяся теория частотных словарей для использова- ния по крайней мере в двух смежных с языкознанием нау- ках, как это представляют в опубликованных недавно на рус- ском языке работах по психолингвистике и культурологии Б. Мандельброт [121] и А. Моль [135]. 1. Частотные словари, на материале которых возникла теория частот слов, связывают теорию информации и психо- лингвистику. Б. Мандельброт описывает эту связь на приме- рах закона Ципфа как «первого приближения» теоретиче- ской прямой линии к эмпирическому распределению ранг- частота и предложенного им «второго приближения», учиты- вающего наличие в верхней зоне частотного словаря несколь- 86
жих единиц, логарифмы частот которых заметно отклоняются от прямой на логарифмическом графике зависимости ранг- ’частота. Это «второе приближение» известно под названием «закон Эсту—Ципфа—Мандельброта»: , (13) тде fi — относительная частота и i — ранг слова, К — теоре- тическая относительная частота самого частого слова,В — показатель отклонения логарифмов самых больших частот от аппроксимирующей прямой, у — угловой коэффициент, то есть показатель угла между прямой и осью рангов на гра- .фике. Из того факта, что большое количество графиков зависи- мости ранг-частота для разных языков и текстов не парал- лельны прямой линии Дж. Ципфа, которую тот считал стан- дартной для индоевропейских языков и для английского языка, Б. Мандельброт предполагает, что параметры за- кона фиксированы для данного субъекта, но различны для ^разных субъектов. Они не характеризуют язык, но может оказаться, что разные языки «предпочитают» различные зна- чения величины этих параметров. Параметр у (абсолютная .величина углового коэффициента), являющийся функцией логарифма ранга, легче всего поддается измерению и может служить мерой отклонения языка индивидуума от некоторой коллективной нормы22. Частоты слов связаны с частотами фонем (для письмен- ной записи — с частотами букв). Мандельброт предполагает, что «вес» или «стоимость» слова при его кодировании моз- гом измеряется его длиной в фонемах (буквах). При коди- ровании используются единицы, меньшие, чем фразы, но большие, чем фонемы или буквы. Можно считать, что такими единицами являются слова, хотя это утверждение и требует недоступной на сегодня экспериментальной проверки. Одна- ко предложенная Мандельбротом концепция кодирования речевых сообщений с учетом «стоимости» слов и их частот .хорошо согласуется с реальным построением достаточно больших текстов и может рассматриваться как удачная для психолингвистики модель. 2. Культурное взаимодействие представляет собой акт .коммуникации, в котором предполагается участие отправите- .ля и получателя сообщения через канал связи. Сообщение 22 См. использование формулы Ципфа для оценки патологичностп от жлонений индивидуальной речи от нормы [149]. 87
опознается получателем с помощью находящегося в его па- ’ мяти алфавита элементарных знаков или форм. Получатель- воспринимает закономерности и значения, существующие в знаках, вводит их в свою память, в которой они хранятся, подвергаясь в некоторой степени забыванию. Для того, что- бы культурная коммуникация имела место, наборы или ал- 1 фавиты знаков отправителя и получателя должны совпадать < хотя бы в общей своей части; абсолютно точного совпадения ! наборов не бывает. Культура может пониматься как огромное количество со- общений, которое предстает, с одной стороны, как множество' элементов, атомов культуры, с другой — как сочетания эле- ментов по определенным правилам. Эти элементы или атомы культуры предлагается называть культуремами. Культура, может измеряться объемом набора культурем, имеющегося- в распоряжении индивидуума или коллектива; тогда она бу- дет характеризоваться эрудицией или обширностью. Если ес измерять плотностью ассоциаций, устанавливаемых в про- цессе мышления и затем запоминаемых индивидуумом или коллективом, она будет характеризоваться глубиной. Это про- тивопоставление соответствует различию между эрудитом и* творческой личностью, между эрудированной и интенсивной цивилизацией. Хотя не всегда культура в равной степени мо- жет считаться и обширной и глубокой, а, возможно, именно* поэтому, ее целесообразно измерять произведением объема J набора культурем на значимость ассоциаций, установленных индивидуальным или социальным «организмом» между этими культуремами. Отдельные измерения культуры соотносятся как отклоне- ния в ту или иную сторону от нормы, которая может опреде- ляться некоторым законом, например, законом Ципфа, кото- рый описывает не только словарь, но и любое множество* мыслительных элементов. В частности, параметр у закона- Ципфа уменьшается (в абсолютном значении) с увеличением разнообразия множества культурем и возрастает с его умень- шением. Социодинамика культуры придает первоочередное значе- ние изучению словаря как строительного материала дискур- сивного мышления. Различные элементы лексического инвен- таря употребляются по-разному, и эта неоднородность яв- ляется одной из фундаментальных • особенностей, свойствен- ных всем языкам мира. В связи с этим появляется возмож- ность аналитически исследовать словесное оснащение ума,.
которое составляет важный аспект духовной деятельности человека. Наблюдения Ципфа показали, что употребление слов в речевом общении людей‘управляется стремлением оп- тимизировать соотношение между требованием разнообразия и тенденцией говорящего к наименьшей затрате усилий. Ранги, приписываемые словам при частотной организа- ции лексического инвентаря, не зависят от конкретных осо- бенностей отправителя сообщения. Они обозначают большую или меньшую доступность слов и определяются обществен- ной средой; они представляют собой числовую характеристи- ку языковой культуры общества в целом. Частдта или веро- ятность характеризует конкретную языковую выборку, автора сообщения и его умение пользоваться словами данного ран- га. Зависимость ранг-частота отражает конформизм инди- видуума по отношению к социальной среде, причем такой конформизм существует не только на уровне слов, но и идей. Принцип построения частотного словаря может распрост- раняться на измерение объема и концентрации характерных для каждой частной культуры элементов (культурем), опре- деляемых не только как слова, но и как семантемы, морфе- мы, мифемы и другие элементы, допускающие составление их приблизительного перечня и распространяемые по уров- ням какой-либо иерархической системы. Отклонение этих из- мерений от нормы, выявленной для данного этапа развития культуры социального коллектива, войдет в содержание со- циодинампки культуры. Выше были рассмотрены либо самые общие случаи при- менения частотных словарей, либо такие, где они исполь- зуются наиболее успешно. За пределами обзора остались области, где лингвостатистика и статистическая лексикогра- фия еще не достигли ощутимых результатов, где они тре- буют дальнейшей разработки методики и, главное, значитель- ного расширения масштабов исследований. Как и статистика в целом, лингвистическая статистика имеет дело с большими объемами изучаемого материала, и ее сегодняшний этап раз- вития характеризуется процессом экстенсификации. В ходе этого процесса более четко определятся возможности, наме- тившиеся в таких, например, областях ее применения, как литературоведение (авторская стилистика), юридические и военные науки, теория вероятностей и теория информации, психология, социология и другие.
ЗАКЛЮЧЕНИЕ Переход статистической лексикографии к новому, «про- мышленному» этапу своего развития выдвигает перед ней и новые проблемы, среди которых первое место занимает про- блема создания теории частотных словарей. Эта теория дол- жна прежде всего - обобщить накопленный статистической лексикографией опыт, разработать принципы каталогизации и классификации существующих частотных словарей, опти- мальную методику и технику их составления в зависимости от целей, ради которых они создаются. В компетенцию тео- рии частотных словарей, следовательно, входит и рассмотре- ние вопросов наиболее эффективного их использования. Особое место занимает необходимость соблюдения в ста- тистической лексикографии требований системного подхода, важнейшим из которых является последовательное примене- ние принципа целостности, позволяющего рассматривать ка- ждый частотный словарь как компонент системы более об- щего уровня. Это относится также к определению структур- ных уровней данного языка или подъязыка как сложной си- стемы составляющих ее элементов. Необходимо более стро- гое соблюдение единства исходных определений и приемов статистического анализа. Даже в работах группы «Статисти- ка речи», опирающихся на унифицированную методику на- блюдения, имеются различия, которые могут оказаться за- метными при сопоставлении частотных словарей. Разная степень приближенности в расчетах затрудняет обобщение результатов, как это происходит, например, при интерпрета- ции закона Ципфа по данным различных авторов. К пробле- мам общего характера относится необходимость единого под- хода к формированию выборочной совокупности; эту пробле- му можно определить как потребность в разработке теории лингвистической выборки. 90
Отечественная статистическая лексикография зи ним л от ведущее положение в работах по составлению частотных ело* варей; следует признать, что это положение обеспечивается усилиями группы «Статистика речи». Ею Составлены более 100 частотных словарей, из которых около 80 опублико- ваны. В настоящее время создаются условия для перехода ста- тистической лексикографии к следующему периоду ее разви- тия— к статистико-семантическому; этому будет способство- вать начатое группой серийное изготовление отраслевых дву- язычных частотных словарей. Здесь тоже возникает целый ряд проблем, из которых можно назвать по крайней мере две: проблему объединения разноязычных частотных слова- рей и, более сложную с теоретической и технической точек зрения, проблему экономного кодирования семантической ин- формации при подготовке текста к вводу в ЭВМ. Большое значение в теоретическом и прикладном планах будет иметь решение задачи автоматического членения словоформы и ма- шинной «лемматизации», что особенно важно для перера- ботки текстов, написанных на языках с развитой системой словоизменения. В качестве предшествующего этому этапа необходима разработка единой методики и техники членения слова или словоформы, производимого хотя бы вручную на материале готового частотного словаря. Сильной стороной работы такого жизнеспособного нефор- мального объединения, как группа «Статистика речи», являет- ся подчиненное единой цели одновременное описание многих подъязыков, куда входит составление различных отраслевых частотных словарей, каждый автор которых выполняет свою задачу в конечном счете на уровень выше по сравнению с предшественниками. Однако с точки зрения обобщения ре- зультатов в теоретическом плане такой подход заключает в себе и слабую сторону, поскольку, как правило, очередная качественно новая ступень достигается очередным исследова- телем на ином исходном материале. Поэтому еще одной за- дачей является коллективное исследование единого выбороч- ного корпуса, достаточно большого для описания ограничен- ного подъязыка, с тем, чтобы в ходе всестороннего его ана- лиза была отработана методика максимального извлечения из текста полезной информации. Многие вопросы, которые находятся сейчас в тени или неясны в силу разнородности материалов, имеющихся в распоряжении лингвостатистики, смогут быть решены путем системного изучения такого кор- 91
пуса, представляющего целостную систему данного подъязы- ка и определенную подсистему данного языка. Задача, та- ким образом, состоит в том, чтобы при сохраняющейся тен- денции статистической лексикографии к расширению, к боль- шему охвату языков и подъязыков, интенсифицировать,, углублять анализ лингвистического материала. Обращение к этим проблемам и их решение поможет еще- более эффективно использовать статистическую лексикогра- фию в самых различных областях.
Приложение Каталог частотных словарей группы «Статистика речи» Язык, подъязык Единица словаря Объем текста, тыс. ЕДИНИЦ Объем словаря С часто- той не менее Испол- нение Где при- водится или описан всего опубл. Английский 1. Автомобилестроение сф 200 10018 3427 5 ручн. [54] 2. Большие интегральные схемы сф 32 3956 1503 3 ручн. {Ю1] 3. Виноделие и виноградарство сф 100 — 1248 10 ручн. [186] 4. Газета сф 100 —— 449 21 ручн. [193] 5. Газета сл. 200 12595 3840 4 ручн. [15] 6. Газета сс су 100 7645 7645 1 ручн. [8] сс 12 7. Газета сс су 200 9342 1942 2 ручн. [15] сс 16 8. Геология нефти и газа сф 200 11848 1144 21 ручн. [105а] 9. Гипотермия и хирургия серд- ца сф 392 12615 12615 1 ЭВМ [Ю8] 10. Переработка нефти и газа сф 200 12293 1191 21 ручн. [59] 11. Полупроводники сф 300 12125 1703 20 ЭВМ [68] 12. Прокат стали сл. 200 5327 1024 22 ручн. [73] ю 13. Сварка сф 200 11847 482 53 ЭВМ [151] 14. Строительные материалы . . сф 200 9447 1376 20 ЭВМ [50]
Продолжение Язык, подъязык Единица Объем текста,. Объем словаря Испол- Где при- водится £ ® а) или описан словаря тыс. единиц всего опубл. ЙГ ® О Uh S пение 15. Строительные материалы тр. СХ тр. 200 12 8555 199 5 ЭВМ [49] 16. Судовые механизмы сф 404 12971* — — ЭВМ [117] 17. Судостроение сф 200 16120 — > — ручн. [132] 18. Терапия сф 100 9011 637 20 ручн. [85] 19. Тракторное н сельскохозяй- ственное машиностроение тр. су тр. 2500 200 86104 — — ручн. [78а] 20. Тракторное и сельскохозяй- ственное машиностроение сф 100 7950 .' - — ручн. [78а] 21. ков Физика твердых диэлектри- и полупроводников сф 100 5542 589 21 ручн. [130] 22. ков Физика твердых диэлектри- и полупроводников сф 200 8045 1103 21 ручн. [131] 23. Физика твердого тела сф 200 8214 1148 21 ручн. [ЮО] 24. стиц Физика элементарных ча- сф 200 9051 1132 20 ручн. [185] 25. Физическая химия сф 50 5177 ' 204 33 ручн. [81] 26. Фото- и кинотехника сф 181 — - * — ЭВМ * Объем словаря, не указанный в (117], сообщен автору составителем.
Язык, подъязык Единица словаря 27. Источники света 28. Кинотехника 29. Фототехника 30. Оптика 31. Звукотехника 32. Штабные документы армии сф сф сф сф сф сф сф сс тр. тр. тр. тр. сф США 33. Электроника 34. Электроника 35. Электроника 36. Электроника 37. Электроника 38. Электроника 39. Электроника 40. Электронно ная техника вычислитель- • сф
Продолжение • Объем текста, Объем словаря С часто- той не менее Испол- нение Где при- водится или описан тыс. < единиц всего опубл. 20 3748 — ЭВМ — 109 10654 - - — ЭВМ 20 4195 -— ЭВМ -— 20 3546 “ ЭВМ ’— — 21 4262 — • ЭВМ — 240 6562 2015 10 ЭВМ [1411 200 10582 2240 10 ручн. ["J су сс 200 17 8984 2443 2 ручн. [12] тр. 200 115105 — ~— ручн. [142] су тр. 900 100 69274 677 10 ручн. [75] су тр. 1200 100 51406 1089 10 ручн. [177] су 50 1283 46 3 ЭВМ [146] 24 3622 172 20 ручн. [163] су 100 10185 312 38 ЭВМ [56]
.1 . ? 4. Продолжение — - СТ Язык, подъязык Единица Объем текста, Объем словаря £ о Испол- Где при- водится словаря тыс, единиц всего опубл. С час той н менее нение или описан 1 Русский 41. Газета сф 100 29849 497 18 ручн. [74] 42. Газета тр. су 2500 тр. 200 67154 t 1872 12 ручн. [143] 43. Обработка металла сф 150 19885 — — ЭВМ -— 44. Корреспонденция сф 10 3659 273 5 ручн. [13] 45. Разговорная речь сф 50 10304* 1172 5 ручн. [191] 46. Аналитическая химия сф 23 7203 * — ЭВМ — 47. Неорганическая химия, ком- плексные соединения сф 17 4376 "—— ЭВМ 46. Неорганическая химия, ком- плексные соединения сф 15 3761 — — ЭВМ — 49. Оборудование химических лабораторий сф 3 1459 — — ЭВМ — 50. Общие вопросы химической технологии сф 21 7225 —- — ЭВМ — 51. Химия и технология высоко- молекулярных соединений сф 8 3345 к. — ЭВМ * Объем словаря, не указанный в [191], сообщен автору составителем.
CO о Язык, подъязык сэ 4^ Единица словаря 52. Химия и технология пище- вых продуктов 53. Физическая химия 54. Электроника 55. Электроника 56. Электроника 57 Электроника Немецкий 58. Автоматизация 59. Бурение нефтяных и газо- вых скважин 60. Виноградарство и виноде- лие 61. Военное дело 62. Газета 63. Газета сф сф сф тр. тр. тр. сф сф сф сф сф тр.
Продолжение Объем текста, тыс. единиц Объем словаря С часто- той не менее Испол- нение Где при- водится или описан всего опубл. 1 655 - ЭВМ 28 7629 — — ЭВМ 200 21468 992 31 ручн. 198] су 1200 33512 203 14 ручн. [41J тр. 50 су 630 34520 220 11 ручн. [92] тр. 50 су 167 тр. 50 34761 227 10 ручн. [57] 200 — 1005 21 ручн. [76] 200 .24090 813 27 ЭВМ [106] 200 21024 1103 20 ЭВМ [105] 100 13781 200 46 ЭВМ [147] 200 28422 1013 20 ручн. [166] су 5000 тр. 200 — 524 20 ручн. [123]
00 Язык, подъязык Единица словаря 64. Газета 65. Газета 66. Почвоведение 67. Неорганическая химия. 68. Обработка металла 69. Сельскохозяйственное маши- ностроение 70. Телевидение 71. Физическая химия 72. Хирургия 73. Электроника Французский 74. Автомобилестроение 75. Газета 76. Газета 1 тр. тр. сф сл. сущ. сф сф сф сф сф сф сф сф тр.
Продолжение Объем текста, Объем словаря о Испол- Где при- ь <и _ водится о ® св или тыс. единиц всего опубл. ST »S ® , _ о ® Он S пение описан тр. 200 — — — ручн. [127] су 3500 ручн. [207] тр. 200 100 14434 547 20 ручн. [169] су 365 10303 779 20 ручн. [119] сущ. 100 250 48578 *** " ЭВМ 100 10189 2460 5 ручн. [62] 200 17788 531 40 ручн. [Н2] 100 14283 199 49 ручн. [25] 200 41041 485 35 ручн. [12а] 200 20405 1100 20 ручн. [89] 80 7558 ЭВМ " - 120 — 491 23 ручн. [93] су 1200 14814 716 11 ручн. [58] тр. 50
Язык, подъязык Единица словаря 77. Газета тр. 78. Газета тр. 79. Геология нефти и газа сф 80. Общелитературные тексты сс 81. Электроника сф 82. Электроника, журнальные статьи сф 83. Электроника, патенты сф Казахский 84. Газета сл. 85. Газета .сл. 86 Математика сл. 87. Проза (одна повесть) сл. 88. Проза (один роман) сф §9. Сказки сл.
Продолжение Объем текста, тыс. единиц Объем словаря С часто- той не менее Испол- нение Где при- водится или описан всего опубл. су 1300 тр. 50 14491 762 10 ручн. 158] су 1400 16222 650 10 ручн. [148] 200 11830 1165 20 ручн. [202] су 3000 сс 50 3132 975 5 ручн. [44] 200 10299 - ' ручн. [109] 100 8108 669 20 ручн. [ИО] 100 5870 — » ручн. [109] 7 1037 1037 1 ЭВМ [1] 150 12424 12424 1 ЭВМ [21] 20 921 921 1 ЭВМ [40] 14 5928 5928 1 ЭВМ [32] 466 61824 —• • - ЭВМ [78] 98 5608 5608 1 ЭВМ [29]
Язык, подъязык Единица словаря Афганский 90. Общелитературные тексты сф 91. Газета сф 92. Наука сф 93. Поэзия сф 94. Проза сф 95. Разговорная речь в прозе и драме сф Молдавский и румынский 96. Общелитературные тексты сл. 97. Газета сф 98. Газета тр. 99. Электроника сф Испанский 100. Радиотехника сф 101. Экономика и статистика . . сф 101а. Экономика и статистика сф
Продолжение Объем текста, тыс. единиц Объем словаря g " Я Я <Р Испол- нение Где при- водится или описан всего опубл. CQ S' (у я О £ 200 21268 21268 1 ЭВМ [116] 40 6755 —— — ЭВМ [116] 40 6536 — — ЭВМ [116] 40 7280 — ЭВМ [116] 40 7000 —• ЭВМ [116] 40 6411 ЭВМ [116] 288 14250 3370 4 ручн. [144] 200 34086 — *—* ручн. [126] су 420 40575 344 42 ручн. [202] тр. 200 200 14292 1013 29 ручн. [83] 212 13507 — ЭВМ [133] 50 7375 263 20 ручн. [196] 200 15520 ручн. [196а]
Язык, подъязык Единица словаря Латышский сл. 102. Газета • ДОПОЛНЕНИЕ К КАТАЛОГУ Русский 103. Автомобилестроение сф 104. Химия полимеров • сф 105. Электроника • сф Английский 106. Химия полимеров • сф Немецкий 107. Вычислительная техника сф 108. Сельскохозяйственное шиностроение ма- сф 109. Экономика • сф
Продолжение Объем текста, тыс. единиц Объем словаря С часто- той не менее Испол- нение Где при- водится или описан всего опубл. 200 16790 307 100 ручн. [103] 80 12729 ЭВМ - 108 15848 1624 10 ЭВМ [170] 400 28722 — —’ ЭВМ [129] 130 8976 1587 10 ручн. [170] 400 — ЭВМ ——- 200 25893 588 35 ручн. (62а] 400 24000 — ЭВМ [61а]
Продолжен: о ю Язык, подъязык Единица словаря Объем текста, тыс. единиц Объем словаря той не менее Испол- нение Где при- водится или описан С часто- опубл. НО. лие 111. Французский Виноградарство и виноде- 9 Сельскохозяйственное ма- сф сф 300 300 1 1 3526 7 ЭВМ ЭВМ [98а] [163а] шин остр оение ... Болгарский 112. Газета сф 54 9980 637 11 ЭВМ [626] Примечания: 1. Сведения приведены на конец 1974 г. 2. Объемы текста указаны с округлением. 3. Прочерк означает отсутствие информации в цитируемом источнике, которую не удалось восстановить; в по- следней колонке прочерком отмечено отсутствие публикаций. 4. Сокращения обозначают следующее: сф — сло- воформа; ел. — слово; сс — словосочетание в традиционном понимании; су—словоупотребление; тр.—триада, трехсловное сочетание, регистрирующее дистрибуцию опорного слова из числа самых частых (обычно около 100) для данного подъязыка; сущ. — имя существительное.
СОКРАЩЕНИЯ К ЛИТЕРАТУРЕ АКД — автореферат кандидатской диссертации АЛТ — сборник: Автоматическая переработка текста. Кишинев, 1972 ВЯ— «Вопросы языкознания» ИЛ — сб.: Инженерная лингвистика. Л., 1971 ЛААТ — сб.: Лингвостатистика и автоматический анализ текстов. .Минск, 1974 ММЯ — об.: Математические методы в языкознании. Рига, 1969 РФиСР — сб.: Романская филология и статистика речи. Калинин, 1969 СКТ — сб.: Статистика казахского текста. Алма-Ата, 1973 СТ — сб.: Статистика текста, т. I. Минск, 1969; т. II. Минск, 1979 СтР — сб.: Статистика речи. Л., 1968 СтРААТ — сб.: Статистика речи и автоматический анализ текста. Л., 1971 СтРААТ—1972 — сб.: Статистика речи и автоматический анализ тек- ста —1972. Л., 1973 СтРААТ—1974 — сб.: Статистика речи и автоматический анализ тек- ста-1974. Л., 1974 ТЯИЛ — сб.: Теория языка и инженерная лингвистика. Л., 1973 ЧВААТ — сб.: Частные вопросы автоматического анализа текстов. Минск, 1972 ЭЯСР — сб.: Энтропия языка и статистика речи. Минск, 1966
ЛИТЕРАТУРА 1. Аб и л ькасы ио в Б. Алфавитно-частотный словарь языка пер- вых казахских газет. — СКТ (На казахск. яз.). 2. Автоматическая переработка текста. Кишинев, 1972. 3. Автоматическая переработка текста методами прикладной лингви- стики. Материалы Всесоюзной конференции 6—8 октября 1971 г. Киши- нев, 1971. 4. Агманов Е., Джубанов А. X. Распределение частот появле- ния сочетаний знаков в орхоно-енисейской письменности. — СКТ. 5. Алексеев П. М. Лексическая и морфологическая статистика, английского подъязыка электроники. — СтР. 6. Алексеев П. М. Некоторые вопросы теории и практики стати- стической лексикографии. — СТ, т. I. 7. А л е к с е е в П. М. Семантические частотные словари. — СтРААТ - - 1972. 8. Алексеев П. М. Статистика словосочетаний в английских газет- ных текстах. — В сб.: «Словосочетания в германских языках». Л., 1973. 9. Алексеев П. М. Частотные словари английского языка и их. практическое применение. — СтРААТ.* 10. Алексеев П. М. Частотный словарь английского подъязыка. электроники. АКД. Л., 1965. 11. Алексеев П. М. Частотный словарь английского подъязыка электроники. — СтР. 12. Алексеев П. М. Частотный англо-русский словарь-минимум по электронике. М., 1971. 12а. Алексеев П. М., Лебедев Б. М., Пустовойтова Л.А.,. Яблонская Н. Н. Методика и техника составления двуязычных частотных словарей-минимумов. — В сб.: «Инженерная лингвистика и опти- мизация преподавания иностранных языков». Л., (в печати). 13. Алексеев П. М., Григорьева А. С., Каширина М. Е. Статистические исследования лексики писем. — ТЯИЛ. 14. Алексеев П. М., СкрелинаЛ. М. О количественных оцен- ках в морфологической типологии языков. — «Система языка и обучение* речи» (тезисы докладов на межвузовской конференции 25—30 января, 1965 г.). Минск, 1964. 104
15. Алексеев П. М., Турыгина Л. А. Частотный англо-русский словарь-минимум газетной лексики. М.» 1974. 16. Алексеев П. М., Яблонская Н. Н. Рец. на: L. Hoff- mann. Fachwortschatz Medizin. Haufigkeitsworterbuch. L. Hoffmann. Fachwortschatz Physik. Haufigkeitsworterbuch. — «Fremdspachen», 1972, N 4. 17. А н д p e e в H. Д. Распределительный словарь и семантические поля. — Веб.: «Статистико-комбинаторное моделирование языков». Л., 1965. 18. Андреев Н. Д. Статистико-комбинаторные методы в теорети- ческом и прикладном языковедении. Л., 1967. 19. Андрющенко В. М. Новые работы в области статистической лексикографии. — ВЯ, 1968, № 5. 20. Артемов Р. Н. Подъязыковая системность лексики и ее отра- жение в распределительном словаре (на материале спортивного подъязы- ка русского и немецкого языков). АКД. Л., 1973. 21. Ахабаев А. Алфавитно-частотный словарь современных ка* захских газет. — СКТ. (На казахск. яз.). 22. Ахабаев А. Статистический анализ лексико-морфологической структуры языка казахской публицистики (на материале газетных текстов за 1965-—66 гг.). АКД. Алма-Ата, 1971. 23. Ахманова О. С. Словарь лингвистических терминов. М., 1966. 24. Б а б а е в а Э. У. Криминалистическое исследование документов с целью идентификации личности по признакам письменной речи. АКД. Л., 1970. 25. Б а й е р А. Г. Частотный словарь немецких текстов по физиче- ской химии. — СТ, т. 1. 26. БайнхауэрХ., ШмаккеЭ. Мир в 2000 году. Русск. пер. М., 1973. 27. Балли Ш. Французская стилистика. Русск. пер. М., 1961. 28. Б е к т а е в К. Б. Алфавитно-частотный словарь слогов казахского языка. —СКТ. (На казахск. яз.). 29. Б е к т а е в К- Б. Алфавитно-частотный словарь языка казахских сказок. — СКТ. (На казахск. яз.). 30. Бектаев К- Б. Статистика речи. 1957—72 гг. (Библиографиче- ский указатель). Алма-Ата, 1972. 31. Бектаев К- Б. Статистика фонемосочетаний в каракалпакском языке. — СКТ. 32. Бектаев К. Б., Белботаев А. Б., Молдабеков К- Ал- фавитно-частотный словарь повести Г Мусрепова «Кездеспей кеткен — 6ip бейне». — СКТ. (На казахск. яз.). 33. Бектаев К. Б., Белоцерковская Л. И., Борисе- вич А. Д., БуковичВ. А., Бул ашев а Н. С., Г о н ч а р е н к о В. В., Д а н е й к о М. В., 3 у е в а Т. Р., И с а б е к о в а Н. И., Н е х а й О. А., Пиотровский Р. Г., Соркина В. А. Статистическое выделение- машинных оборотов и построение двуязычных автоматических словарей. — СтРААТ — 1972. 105
34. Б е к т а е в К. Б., Д ж у б а н о в А. X. О частотных списках гра- фемо-фонемных сочетаний. — СКТ. 35. Б е к т а е в К. Б., Зубов А. В., К о в а л е в и ч Е. Ф., Маш- ;кина Л. Е., Нехай О. А. К исследованию законов распределения лингвистических единиц. — СТ, т. 1. 36. Бектаев К. В., Кенесбаев С. К-, Пиотровский Р. Г. Об инженерной лингвистике. — ВЯ, 1973, № 2. 37. Бектаев К. Б., Лукьяненков К. Ф. О законах распреде- ления единиц письменной речи. — СтРААТ. 38. Б е к т а е в К. Б., Машкина Л. Е. М и к е р и н а Т. А. Опре- деление констант закона Эсту—Ципфа—Мандельброта в частотных списках словоформ и словосочетаний. — ЭЯСР. 39. Бектаев К- Б., Пиотровский Р. Г. Математические методы в языкознании, ч. I. Теория вероятностей и моделирование нормы языка. Алма-Ата, 1973; ч. II. Математическая статистика и моделирование тек- ста. Алма-Ата, 1974. 40. Б е л б о т а е в А. Б. Алфавитно-частотный словарь математиче- ского текста. — СКТ. (На казахск. яз.). 41. Белоцерковская Л. И. Статистика трехсловных сочетаний с опорной глагольной словоформой или словоформой, принадлежащей к категории состояния (на материале русских текстов по радиоэлектро- нике) — СТ, т. I. 42. Береснев С. Д., Есаулкова М. Т. Ветеринарно-зоотехниче- ский частотный словарь немецкого языка. Свердловск, 1969. 43. Б е р е с н е в С. Д., С о л о в ь е в а А. И. Зоотехнический частот- ный словарь немецкого языка. Свердловск, 1968. 44. Б е р л и и М. И., Ж о л у д ев а Л. Н., Левит 3. П., Щерба- кова И. А. Статистическая характеристика фразеологических единиц французского языка. — ИЛ, ч. II. 45. Б и г а е в Р. И., Г у к а с я н ц Э. Р., М и х а й л о в а Г. Н., Н и г- м а то в а Ф. Н., Соловьева И. Н., Шарипов Г Ш. Частотный русско-узбекский словарь-минимум. Ташкент, 1967. 46. Богданов В. В. Статистические концепции языка и речи. — СтРААТ — 1972. 47. Б о г д а н о в В. В. Теоретические и практические аспекты тезау- русов. — ИЛ, ч. II. 48. Борисевич А. Д. Англо-русский автоматический словарь обо- ротов (к проблеме идиоматичности при обращении текста в системе «че- ловек—машина—человек»). АКД. Минск, 1972. 49. Б о р и с е в и ч А. Д. Словарь трехсловных сочетаний, получен- ный с помощью ЭВМ (на материале английских строительных текстов).— СТ, т. I. 50. Борисевич А. Д., Крисевич В. С. Частотный словарь анг- лийского подъязыка строительных материалов. — СТ, т. I. 106
51. Борисов В. М. О принципах составления полного словаря частотности. — «Народы Азии и Африки». 1971, № 2. 52. Боркун М. Н. Частотный словарь трехчленных словосочетаний в подъязыке английской публицистики. — СТ, т. I. 53. Бородин В. В., Коз окин а С. М., Коновалова В. В., .Майорова В. Л. Алгоритм лексикографической обработки текстов. — В сб.: «Прикладная математика и кибернетика». М., 1973. 54. Б у д м а н М. М. Частотный словарь английского подъязыка авто- мобилестроения. — РФиСР. 55. Букварь проходит испытания. — «Правда», 16 января 1973. 56. Б у к о в и ч В. А. Частотный словарь английского подъязыка электронно-вычислительной техники. — СТ, т. I. 57. Б у л а ш е в а Н. С. Статистика трехсловных сочетаний с опор- ным частотным словом из текстов по русской радиоэлектронике. — СТ, т. I. 58. Буравцева Н. М. Частотный словарь именных трехсловных сочетаний во французской публицистике. — РФиСР. 59. В а г а б о в а В. М. Частотный словарь английских текстов по переработке нефти и газа. — СтРААТ. 60. В а л г и н а Н. С., Р о з е н т а л ь Д. Э., Фомина М. И., Ц а- •пукевич В. В. Современный русский язык. Изд. 3-е. М., 1966. 61. Ван дер Варден Б. Л. Математическая статистика. Русск. лер. М., 1960. 61а. Вертель В. А. Автоматический немецко-русский словарь для перевода научно-технических текстов (подъязык экономической литера- туры ГДР). —ЧВААТ. 62. Г а с п а р о в а Э. М. Частотный словарь немецких текстов по сельскохозяйственному машиностроению. — СтРААТ. 62а . Гаспарова Э. М. Частотный словарь немецкого подъязыка сельскохозяйственного машиностроения и некоторые проблемы лексико- статистического анализа. — «Linguistica». Ill, Tartu, 1971. 626. Георгиев X. Ц. Частотный словарь болгарской внешнеполи- тической лексики. — СтРААТ — 1974. 63. Гвоздев А. Н. Очерки по стилистике русского языка. М., 1965. 64. Герман-Прозорова Л. П. Опыт вероятностно-статистиче- ской оптимизации обучения иностранному языку в неязыковом вузе (на материале английского подъязыка электроники). АКД. Л., 1973. 65. Головин Б. Н. Введение в языкознание. Изд. 2-е. М., 1973. 66. Головин Б. Н. Язык и статистика. М., 1971. 67. Г о н ч а р е н к о В. В. Лексикографические, лингвостатистические •и инженерно-лингвистические вопросы построения автоматического сло- варя (англо-русский автоматический словарь по полупроводникам).* АКД. Кишинев, 1972. 107
68. Гончаренко В. В. Частотный словарь английских текстов по полупроводникам. — СтРААТ. 69. Г о р е ц к и й В. Г., К и р ю ш к и н В. А., Ш а н ь к о А. Ф. Бук- варь (Экспериментальный). М., 1971. 70. Гринберг Дж. Квантитативный подход к морфологической типологии языков. Русск. пер. «Новое в лингвистике». Выл. 3. М.» 1963’. 71. Гринева Е. Ф. Некоторые особенности разговорной речи и проблемы ее лингвистического изучения. — В сб.: «Иностранные языки в высшей школе». Вып. 5. М., 1969. 72. Г у ген ей м Г. Некоторые выводы статистики словаря. Русск. пер. — В сб.: «Методика преподавания иностранных языков за рубежом». М., 1967. 73. Гурова Н. В. Частотный словарь английского подъязыка ме- таллургии. — ТЯИЛ. 74. Г у р ч е н к о в а В. П. Частотный словарь подъязыка публици- стики (политика). — ЧВААТ. 75. Д а н е й к о М. В. Статистика глагольных словосочетаний в анг- лийских текстах по радиоэлектронике. — СТ, т. I. 76. Демьянова Д. С. Частотный словарь немецкого подъязыка автоматизации. — СтРААТ — 1972. 77. Д ж у б а н о в А. X. Статистика буквосочетаний в казахских тек- стах. — СКТ. 78. Джу б а нов А. X. Статистическое исследование казахского тек- ста с применением ЭВМ (на материале романа М. Ауэзова «Абай жолы»). АКД. Алма-Ата, 1973. 78а. Добрускина Э. М. Проблемы фразеологии и идиоматичности текста в электронно-вычислительной машине (англо-русский словарь обо* ротов). АКД. Л., 1973. 79. Документы на половецком языке XVI в. М., 1967. 80. Д р и д з е Т. М. Язык информации и язык реципиента как фак- торы информированности (опыт использования психолингвистических ме- тодов в социологическом исследовании). — В сб.: «Речевое воздействие. Проблемы прикладной психолингвистики». М., 1972. 81. Ем Н. В. Частотный список английского подъязыка физической' химии. — СТ, т. I. 82. Е р м о л е н к о Г. В. Лингвистическая статистика. Краткий очерк и библиографический указатель. Алма-Ата, 1970. 83. Е ш а н Л. И. Частотный словарь румынского подъязыка электро- ники. — СтР. 84. Е ш а н Л. И. Опыт статистического описания научно-техниче- ского стиля румынского языка (на материале текстов по радиоэлектро- нике). АКД. Л., 1966. 85. Заманский А. А. Частотный словарь английских текстов по* терапии. — СтРААТ. 86. Засорина Л. Н. Л., 1966. Автоматизация и статистика в лексикографии. 108
87. 3 о р е ф М. Г. Машинные основы и машинная морфология в не- мецко-русском автоматическом словаре. АКЛ Кишинев, 1972. 88. 3 о р е ф М. Г. Методические вопросы составления частотных сло- варей.— «(Межвузовская конференция по вопросам частотных словарей и .автоматизации лингвостатистических работ. Тезисы докладов и сообще- ний. Ленинград, 18—20 октября 1966 г.» Л., 1966. 89. 3 о р е ф М. Г. Частотный словарь немецких текстов по элек- тронике. — СтРААТ. 90. Изборник 1076 года. М., 1965. 91. Инженерная лингвистика, ч. I—И. Л., 1971. 92. И с а б е к о в а Н. И. Именные словосочетания в русских текстах по радиоэлектронике. — СТ, т. I. 93. И с е н и н И. А. О частотном словаре подъязыка современной французской прессы — СтР. 94. Йейтс Ф. Выборочный метод в переписях и обследованиях. Русск. пер. М., 1965. 95. Калинин В. М. Некоторые статистические законы математиче- ской лингвистики. — «Проблемы кибернетики». Вып. 11. М., 1964. 96. Калинин В. М. Развитие схемы Пуассона и ее применение для описания статистических свойств речи. АКД. Л., 1964. 97. К а л и н и н а Е. А. Изучение лексико-статистических закономер- ностей на основе вероятностей модели. — СтР. 98. Калинина Е. А. Частотный словарь русского подъязыка элек- троники. — СтР. 98а. Каушанская М. В., Лукьяненков К. Ф. Статистиче- ский отбор ключевых и терминологических единиц для атрибуции и ре- ферирования французского научно-технического текста. — АПТ. 99. Каширина М. Е. Статистическое моделирование лексики науч- ных текстов (подъязык физики твердого тела). АКД. Львов, 1972. 100. Каширина М. Е. Частотный словарь английского подъязыка физики твердого тела. — СтРААТ — 1972. 101. Кисельников В. М. Статистический анализ лексики научно- технического стиля английского языка (на материале текстов по большим интегральным схемам). Дипл. раб. ЛГУ, 1972. 102. Киссен И. А. Опыт статистического исследования частотности лексики передовых статей газеты «Кизил Узбекистон». — «Научные труды ТГУ им. В. И. Ленина». Вып. 247. Ташкент, 1964. 102а. Киссен И. А. Словарь наиболее употребительных слов совре- менного узбекского литературного языка (высокочастотная лексика подъ- языка художественной прозы). Пособие для учителей узбекского языка. Ташкент, 1972. 103. К л я в и н я С. Статистические методы в языкознании. Рига, 1968 (На латышек, яз.). 104. Колгушкин А. Н. Лингвистика в военном деле. М., 1970. 109
105. Колева Т. Р. Частотный словарь немецких текстов по вино- I радарству и виноделию. — АПТ. 105а. Колесникова В. В. Частотный словарь английских текстов по геологии нефти и газа. — СтРААТ. 106. Копылова М. Е., Кравцова И. С. Частотный словарь подъязыка бурения нефтяных и газовых скважин (немецкий язык). — «Но- вые методы обучения и управления в вузе». Тюмень, 1973. 107. Ко со нов скип Л. И. Предварительные данные о частотности в языке индийской прессы. — «Научные труды ТГУ им. В. И. Ленина». Вып. 247. Ташкент, 1964. 108. К о ч е н о в а И. Н. Статистическое исследование лексики и грам- матики с помощью ЭВМ. АКД- Калинин, 1974. 109. Кочеткова В. К- Вероятностно-статистическое построение автоматического словаря (на материале французских текстов по электро- нике). АКД- Л., 1967. 110. Кочеткова В. К-, Скрелина Л. М. Частотный словарь французского подъязыка электроники. — СтР. 111. Лаврова А. Н. Специфичность и нейтральность лексических единиц на различных уровнях распределительного словаря (на материале английских текстов по органической химии). АКД. Горький, 1973. 112. Лебедев Б. М. Частотный словарь немецкого подъязыка теле- видения (см. 12а). ИЗ. Леонова-Елисеева Л. А. Рекуррентные предложения в со- временном английском литературном диалоге. АКД. Калинин, 1909. 114. Лингвистическая типология и восточные языки. М., 1965. 115. Лингвостатистика и автоматический анализ текстов. Минск, 1974. 116. Л уд ин Д. М. Опыт описания статистическими методами со- временного афганского языка (пушту). АКД. Л., 1971. 117. Лукьяненков К- Ф. Лексико-статистическое описание анг- лийского научно-технического стиля с помощью ЭВМ (подъязык судовых механизмов). АКД. Минск, 1969. 118. Мальцева Г. Ф. Употребительность суффиксов и окончаний в английской письменной речи. — «Вопросы германо-романского языкозна- ния и методики преподавания иностранных языков», т. II. Иркутск, 1969. 119. Мазарская С. Е., Просветова Л. П. Частотный словарь существительных немецкого подъязыка неорганической химии. — СтРААТ— 1972. 120. Мандельброт Б. О рекуррентном кодировании, ограничи- вающем влияние помех. Русск. пер. — В сб.: «Теория передачи сообще- ний». М., 1957. 121. Мандельброт Б. Теория информации и психолингвистика: теория частот слов. Русск. пер. — В сб.: «Математические методы в со- циальных науках». М., 1973. 122. Мансуров М. П. Математический частотный словарь немец- кого языка. Свердловск, 1971. 110
123. Мануков 3. Г., Зубов А. В. Переход от формальных гла- гольных триад к глагольным группам предложения. — ЛААТ. 124. Маслова-Лаша некая С. С. Лексикология шведского язы- ка. Л., 1973. 125. М а с т е р м а н М. Изучение семантической структуры текста, для машинного перевода с помощью языка-посредника. Русск. пер. — В сб.: «Математическая лингвистика». М., 1964. 126. Матка ш Н. Г. Лексика и морфология молдавской публици- стики в сравнении с лексикой и морфологией других дако-романских функциональных стилей. АКД. Л., 1967. 127. М а ш к и н а Л. Е. О статистических методах исследования лек- сико-грамматической дистрибуции (на материале публицистических текстов политической тематики современного немецкого языка). АКД. Минск, 1968. 128. Межвузовская конференция по вопросам частотных словарей и автоматизации лингвостатистических работ. Тезисы докладов и сообще- ний. Ленинград, 18—20 октября 1966 г. Л., 1966. 129. Межлумова А. Б. Статистическая характеристика лексики и морфологии русских текстов по радиотехнике. АКД. Минск, 1973. 130. Me л и к - Гу сейно в а Р. С. Частотный словарь английских текстов по физике твердого тела. — СтРААТ. 131. Мелик-Гусейнова Р. С. Частотный словарь английских текстов по физике твердых диэлектриков и полупроводников. — «Сбор- ник научных сообщений», т. I. Махачкала, 1970. 132. Микерина Т. А. Некоторые статистические приемы лексико- морфологического описания функционального стиля (на материале анг- лийских текстов по судостроению). АКД. Л., 1967. 133. М и х а й л о в а И. В. Основы автоматического сегментирования испанского текста. АКД. Л., 1972. 134. Мише а Р. Словари основной лексики. Русск. пер. «Методика преподавания иностранных языков за рубежом». М., 1967. 135. Моль А. Социодинамика культуры. Русск. пер. М., 1973. 136. Морковкин В. В. Идеографические словари. М., 1970. 137. Москович В. А. Статистика и семантика. М., 1969. 138. Назиратель. М., 1973. 139. Налимов В. В. Теория эксперимента. М., 1971. 140. Нелюбин Л. Л. Частотный англо-русский военный словарь- минимум. М., 1974. 141. Нелюбин Л. Л. Частотный словарь словоформ подъязыка американских штабных документов. — ЛААТ. 142. Нехай О. А. Статистика и автоматический анализ текста (на. материале английских текстов по электронике). АКД. Минск, 1968. 143. Никитина Л. С. Именные трехсловные сочетания в русских публицистических текстах. — СтРААТ. Ill
144. Нов а к Л. А. Некоторые вопросы лингвостатистики и частот- ные словари. — «Ученые записки Бельцкого гос. пед. института им. А. Рус- со». Вып. 6 (филологический). Кишинев, 1963. 145. Новак Л. А. Частотный словарь молдавского и румынского языков. АКД. Л., 1962. 146. Н о з д р и н а В. А. Частотный словарь триад с опорным прила- гательным на базе английских текстов по радиоэлектронике. — СТ, т. I. 147. Оку лич Н. Э. Частотный словарь словоформ немецких текстов ло военному делу. — ЧВААТ. 148. Орлова А. А. Статистическое описание французских публи- цистических текстов. — РФиСР. 149. Пашковский В. Э., Сребрянская И. И. Статистиче- ские оценки письменной речи больных шизофренией. — ИЛ, ч. II. 150. Петрищева Е. Ф. Стиль и стилистические средства. — В сб.: «Стилис! ические исследования». М. 1972. 151. Петрушевская Н. Н. Частотный словарь английского подъ- языка сварки (в печати). 152. П и 01 т р о в с к и й Р. Г. Вопросы статистического обследования лексики. — «Вопросы статистики речи». Л., 1958. 153. Пиотровский Р. Г. Базовый язык и вопросы оптимизации преподавания языков. — «V Всероссийская конференция по применению технических средств и программированному обучению. Симпозиум 14» М., 1969. 154. Пиотровский Р. Г. Информационные измерения языка. Л., 1968. 155. Пиотровский Р. Г. Машинный перевод (некоторые итоги и перспективы). — «Проблемы структурной лингвистики—1971». М., 1972. 156. Пиотровский Р. Г. Об инженерной лингвистике: базовые языки и отраслевой машиный перевод. — РФиСР. 157. Пиотровский Р. Г. От традиционного языкознания к мате- матической и инженерной лингвистике. — В сб.: «Вопросы общего языко- знания». Л., 1967. 158. Пиотровский Р. Г. Теоретическое языкознание и инженерно- статистическая лингвистика. — «Автоматическая переработка текста мето- дами прикладной лингвистики. Материалы Всесоюзной конференции 6—8 октября 1971 г.». Кишинев, 1971. 159. Пиотровский Р. Г. Экстралингвистические и внутриязыко- вые вопросы при переработке текста в системе «человек—машина—чело- век».— «Вопросы социальной лингвистики». Л., 1969. 160. Пиотровский Р. Г., Турыгина Л. А. Антиномия «язык- речь» и статистическая интерпретация нормы языка. — СтРААТ. 161. Полякова Г. П., Солганик Г. Я. Частотный словарь язы- ка газеты. М., 1971. 162. Проблемы отбора учебного материала. М., 1971. 112
163. Пустовойтова Л. А. Некоторые результаты исследования переводной неоднозначности английских существительных на материале научно-технических параллельных текстов. — ТЯИЛ. 163а. Р а х у б о Н. П. Автоматическое распознавание смысла фран- цузского научно-технического текста. АКД. Л., 1974. 164. Ревзин И. И. Модели языка. М., 1965. 165. Ревзин И. И. Совещание в г. Горьком, посвященное приме- нению математических методов к изучению языка художественной лите- ратуры.— «Структурно-типологические исследования». М., 1962. 166. Р о т а р ь А. С. Частотный словарь немецких публицистических текстов и его использование при обучении чтению. — В сб.: «Методиче- ские записки по вопросам преподавания иностранных языков в вузе (проб- лемные вопросы обучения чтению)». М., 1970. 167. Русская разговорная речь. М., 1973. 168. Русское слово как предмет языкознания. Факультативный курс для учащихся старших классов. М., 1972. 169. Р у д н и к Э. Я-, Галкин А. И. Частотный словарь немецкого’ подъязыка почвоведения. — СтРААТ — 1972. 170. С а д ч и к о в а П. В. Английский и русский частотные словари по химии полимеров. — СтРААТ — 1974. 171. Сафьян Ю. А. Частотный словарь русской технической лек- сики. Ереван, 1971. 172. Сика Н. Я., Якубайтис Т. А. Математико-статистическая модель распределения словообразовательных элементов. — ММЯ. 173. Словарь автобиографической трилогии М. Горького. Вып. 1. Л.„ 1974. 174. Словарь автобиографической трилогии М. Горького. Л., 1975. М. Горького. Л., 1975. 175. Словарь языка Абая. Алма-Ата, 1968 (На казахск. яз.). 176. Словарь языка Пушкина. М., 1956—1961. 177. С орки на В. А. Статистика именных словосочетаний в анг- лийских текстах по радиоэлектронике. — СТ, т. L Т78. Статистика речи. Л., 1968. 179. Статистика речи и автоматический анализ текста. Л., 1971. 180. Статистика речи и автоматический анализ текста—1972. Л., 1973. 180а. Статистика речи и автоматический анализ текста—1974. Л., 1974» 181. Статистика текста, т. I—II. Минск, 1969—1970. 182. Статистичш параметра стил!в\ Ки!в, 1967. 183. С э л т о н Г. Автоматическая обработка, хранение и поиск ин- формации. Русск. пер. М., 1973. 184. Тарасова Е. М. Исследование употребительности словообра- зовательных суффиксов в научном стиле английского языка. — В сб.: «Вопросы романо-германской филологии». Л., 1972. 1 8 Зак. 2064 113
|нг» I ,t р и г о n а Е. М. Частотный словарь английского подъязыка <|н| nihil >. к-Mini гарных частиц. — СтРААТ— 1972. IMG Тарасова Е. С. Частотный словарь английских текстов по itinit) циню и виноградарству. — СтРААТ. 187. Тезаурус научно-технических терминов. М., 1972. il88. Теория языка и инженерная лингвистика. Л., 1973. 189. Тер - Мисакянц 3. Т. Частотный словарь математической лексики. Ереван, 1973. 190. Токарев В. П., Я к у б а й т и с Т. А. Математико-статистиче- ская модель распределения лексики. — ММЯ. 191. Тур ко Л. А. Частотный словарь русской разговорной ре- чи. — СтР/ 192. Тур ы г и н а Л. А. Статистическая интерпретация антиномии язык и речь. АКД. Л., 1970. 193. Турыгина Л. А. Частотный словарь английских и американ- ских газетных текстов. — СтР. 194. Урбах В. Ю. Биометрические методы. М., 1964. 195. Успенский сборник XII—XIII вв. М., 1971. *196. Ф а т о в с к а я М. А. Частотный словарь испанских текстов по экономике и статистике. — РФиСР. 196а. Фатовская М. А. Статистическое описание испанской эко- номико-статистической литературы (алгоритмы автоматического морфоло- гического анализа). АКД. Л., 1974. 197. Фрумкина Р. М. Вероятность элементов текста и речевое поведение. М., 1971. 198. Фрумкина Р. М. К вопросу о так называемом законе Цип- фа. — ВЯ. 1961, № 2. 199. Фрумкина Р. М. Статистические методы изучения лексики. М., 1964. 200. Харакоз П. И. Частотный словарь современного русского языка. Фрунзе, 1971. 201. Чапля А. И. Трехсловные сочетания в румынских публицисти- ческих текстах. -- ЭЯСР. 202. Чапля С. Г. Частотный словарь французских текстов по неф- ти и газу. — СтРААТ. 203. Частотные словари и автоматическая переработка лингвистиче- ских текстов. Тезисы докладов II межвузовской конференции 4—6 апреля 1968 г. Минск, 1968. 204. Частотный словарь общенаучной лексики. М., 1970. 205. Частные вопросы автоматического анализа текстов. Минск, 1972. 206. Черри К. Человек и информация. Русск. пер. М., 1972. 207. Чижаковский В. А. Фразеология и машинный перевод (опыт составления и работы немецко-русского автоматического словаря оборотов для публицистических и научных текстов). АКД. Л., 1971. 114
208. Шан ay ров а Г. Ф. Медицинский частотный словарь немец- кого языка. Свердловск, 1969. 209. Шанский Н. М. Лексикология современного русского языка. М., 1964. 210. Ша ранда А. Н. Выделение типовых контекстов и автомати- ческий перевод.— СТ.т. II. 211. Ш т е й и ф е л ь д т Э. А. Частотный словарь современного рус- ского литературного языка. Таллин, 1963. 212. Энтропия языка и статистика речи. Минск, 1966. 213. Я куб ай тис Т. А. Сравнение вида распределения языковых единиц разных уровней. — ММЯ. 214. Якубайтис Т., Кристовска Д., ОзолаВ., Прусе Р., Сика Н. Частотный словарь латышского языка, т. I (техника и про- мышленность), ч. I. Рига, 1966 (На латышек, и русск. яз.). 215. Якубайтис Т. А., Г у л е в с к а Д. А., Озола В. А., Пру- се Р. Р., Рубина А. В., Сика Н. Я. Частотный словарь латышского языка, т. II (газеты и журналы), ч. I. Рига, 1969 (На латышек, и русск. яз.). 216. Якубайтис Т. А., Г ул ев ска Д. А., Озола В. А., Ру- бина А. В., Сика Н. Я. Частотный словарь латышского языка, т. III (художественная литература), ч. I. Рига (На латышек, и русск. яз.). 217. Якубайтис Т. А., Озола В. А., Рубина А. В., Сика Н. Я. Частотный словарь латышского языка. Сводный (I—III) том. Рига, 1973 (На латышек, и русск. яз.). 218. 2380 слов, наиболее употребительных в русской разговорной речи. М., 1968. 219. Allen S. Nusvensk frekvensordbok baserad pa tidningstext. Stockholm, 1970—1971 (на шведском и английском языках). 220. Andersen W. N. Determination of spelling vocabulary based upon written correspondence. Iowa City, 1921. 221. Ayres L. P. A measuring scale for ability in spelling. N. Y., 1915. 221a . В о r t о 1 i n i U., Tagliavini C., Zampolli A. Lessico di frequenza della lingua italiana contemporanca; Milano, 1972. 222’ . Brown Ch., Carr W Shane M. A graded word book of Brazilian Portuguese. N. \., 1945. 223. Brown Ch. B., Shane M. L. Brazilian Portuguese idiom list. N. Y., 1951. 224. Buchanan M. A. Graded Spanish word book. Toronto,, 1927. 224a. С а г г о 11 J. B., Davies P Richman B. The American Ъcritage word frequency book. N. Y., 1971. 225. Chancellor W. E. Spelling: 1000 words. — «The journal edu- cation», v. 71, 1910, N 2. 2’26 . C h e у d 1 e u г F. D. French idiom list. N. Y., 1929. 227. Clarke W F Writing vocabularies. — «Elementary school jour- nal», v. XXI, 1921, N 1. 8* 115
228. Cook W. A., O’ S h e a M. V. The child and his spelling. Indiana- polis, 1914. 229. Dewey G. Relativ frequency of English speech sounds. Cam- bridge, 1923. 230. Doit rens R.. Massarenti D. Vocabulaire fondamental du frangais. Neuchatel—Paris (s. d.). 231. Eaton II. Semantic frequency list for English, French, German and Spanish. Chicago, 1940 (Eaton H. Ah English-French-German-Spanish word frequency dictionary. N. Y., 1961). •232 . Eldridge R. C. Six thousand common English words. Niagara Falls, 1911. 233. French N. R., garter C. W., Koenig W. Words and sounds of telephone conversations. —«The'Bell System technical jougnal», v. IX, 1930. N 2. 234. Frere Gonzalo Carlos (Aristizabal). Determination expert inentale du vocabulaire ecrit pour servir de base a 1’enseignement do 1’orthographe a 1’ecole primaire. Louvain, 1938. 235. Galperin I. R. Stylistics. M., 1971. 236. Gamble W. Two lists of selected characters containing all in the Bible and twenty-seven other books. Shanghai, 1861. 237. G о u g e n h e i m G. Dictionnaire fondamental de la langue fran- co a iso. Paris, 1958. 238. G о u g e n h e i m G., Michea R., Rivenc P., Sauva- g e о t A. L’elaboration du fran^ais elementaire. Paris, 1956. 239. Guiraud P. Bibliographic critique de la statistique linguistique. Utrecht-Anvert, 1954. 240. Harkin D. The history of word counts. — «Babel», v. 3, 1957, N 3. 241. Hauch E. A German idiom list. N. Y. 1931. 242. Haygood J. B. Le vocabulaire fondamental du frangais. Paris, 1936. 243. H e r d a n G. Letter to the editors. — «Information and cont- rol», v. 3, 1961, N 2—3. 244. H e r d a n G. Suitable and unsuitable mathematical models in language statistics and their consequencies. — «Proceedings of the Fifth international congress of phonetic sciences. Munster, 16—22, August, 1964». Basel —N. Y., 1965. 245. H e r d a n G. Type-token mathematics. s’Gravenhage, 1960. 246. Hoffman L. Fachwortschatz Chemie. Haufigkeitsworterbuch. Leipzig, 1973. ! 247. Hoffmann L. Fachwortschatz Medizin. Haufigkeitsworterbuch. Leipzig, 1970. 248. Hoffmann L. Fachwortschatz Physik. Haufigkeitsworterbuch. Leipzig, 1970. 116
249. Hom E. A basic writing vocabulary. Iowa City, 1926. 250. Horn E. The vocabulary of bankers* letters. — «English journal», v. XII, 1923, N 6. 251. Horn E., Peterson The basic vocabulary of business letters. .N. Y., 1943. 252. H о w e s D. A word count of spoken English. — «Journal of verbal .learning and verbal behavior», v. 5, 1966, N 6. 253. Hoz Garcia V. Vocabulario usual, comun у fundamental. Madrid, 1953. 254. Jelinek J., Веска J., Tesitelova M. Frekvence slov, slovnish druhu a tvaru v ceskpm jazyce. Praha, 1961. 255. Jo ssel son H. H. The Russian word count. Detroit, 1953. 256. Juilland A. G„ Brodin D., Davidovitch C. Fre- quency dictionary of French words. The Hague-Paris, 1970. 257. Juilland A. G., Chang-Rodriguez E. Frequency dictio- nary of Spanish words. The Hague, 1964. 258. Juilland A. G., Edwards P. M., Juilland I. Fre- quency dictionary of Rumanian words. The Hague, 1965. , 259. К a e d i n g F. W. Haufigkeitsworterbuch der deutschen Sprache. Berlin, 1897—1898. 260. К e n is t о n H. Spanish idiom list. N. Y., 1929. 261. Knowles J. The London point system of reading for blind. L., 1904. 262. Kucera H., Francis W. N. Computational analysis of pre- sent—day American English. Providence, 1967. 263. Le fran^ais elementaire. Paris, 1954. 264. Le francais fondamental (2-eme degre). Paris. 1959. 265. Lewicki A., Maslowski W., S a m b о r J., W о г о n c- zak J. Slownictwo wspolczesnej publicystyki polskiej. Listy frekwencyjne. Warszawa, 1972. 266. Lorge I. The semantic count of 570 commonest English words. N. Y., 1949. 267. Lorge I. Trondike E. L. A semantic count of English words. N. Y., 1938. 267a. Ludeen D. M. Statistical dictionary of the Pashto language. Kabul, 1974 (на афганск. яз.). 268. M a 1 i f F. Rusko-cesky slovnik nejdulezitejsich slov pro cetbu sovetskego tisku. Praha, 1951. 269. Mali? F. Untersuchungen zur Festlegung eines Wortschatzmi- nimums fur den Russischunterricht an der tschechoslowakischen neunjahrigen 'Grundschule. — «Sprachpraxis. Sanimelband zurMethodik des Fremdsprachun- terrichts». Berlin, 1961. 270. Mandelbrot В. Рец. на: G. Herdan. Type-token mathematics.— «Information and control», v. 4, 1961, N 1. 271. Mandelbrot B. Linguistique statistique macroscopique. — «L. Apostel, B. Mandelbrot, A. Morf. Logique, langage et theorie de Finfdr- miation». Paris. 1957. 117
272. Mandelbrot В. Comment on Dr. Herdan’s letter. — «Informa- tion and control», v. IV, 1961, N 2—3. 273. Mandelbrot B. On the language of taxonomy (categories with Willis structure). L.-N. Y., 1956. 274. Mandelbrot B. On the theory of word frequencies and on re- lated Markovian models of discourse. — «Structure of language and its mathe- matical aspects. Proceedings of symposia on applied mathematics», v. XII. Providence, 1961. 275. Mi str i к J. Frekvencia slov v slovencine. Bratislava, 1969. 276. M о r g a n B. A German frequency word book based on Kaeding’s Haufigkeitsworterbuch der deutschen Sprache. N. Y., 1928. 277. Muller Ch. Initiation a la statistique linguistique («langue et language»). Paris, 1968. Нем. nep.: Einfiihrung in die Sprachstatistik. Berlin, 1972. 278. Nicholson A. A speller for the use of the teachers of Cali- fornia. Sacramento, 1914. 279. Pisarek W. Frekwencija wyrazow w prasie. Wiadomosci-komen- tarze-reportaze. Krakow, 1972. 280. R in s 1 a n d H. A basic writing vocabulary of elementary school children. N. Y., 1945. 281. Roberts A. II. A statistical analysis of American English. The Hague, 1965. 282. S a m b о r J. Slowa i liczly. Zagadnienia j^zykoznawstwa sta* tystycznego. Wroclaw-Warszawa-Krakow-Gdansk, 1972. 283. Schmidt A. Shakespeare-lexicon. N. Y./1959. 284. S c h о n e 11 F. J., M i d d I e t о n L. G., S h a w B. A. A study of the oral vocabulary of adults. Brisbane, 1956. 285. T h a r p J. B. The basic French vocabulary. N. Y., 1939. 286. Thorndike E. L. The teacher’s word book. N. Y., 1921. 287. Thorndike E. L. The teaching of English suffixes. N. Y., 1941. 288. Thorndike E. L-, Evans A. L., Kennon L. H. V., Hew- c о m b E. 1. An inventory of English constructions with measure of their importance. — «Teachers College report», v. 28, Febr. 1927. 289. Thorndike E. L., Lorge I. The teacher’s word book of 30 000 words. N. Y., 1944. 290. V а к a r N. P. A word count of spoken Russian. Ohio State University press, 1966. 291. Vander Веке G. E. French word book. N. Y., 1929. 292. V er 1e e L. Basic-woordenboek voor de Franse taal. Amster- dam, 1954. 293. W a n g 1 e r H. H. Rangworterbuch hochdeutschcr Umgangsspra- che. Marburg, 1963. 294. W e s t M. A general service list of English words. L., 1953. 295. Z i p f G. K- Human behavior and the principle of least effort. Cambridge, 1949. 296. Z ip f G. K. Selected studies of the principle of relative frequency in language. Cambridge, 1932. 297. Z i p f G. K. The psycho-biology of language. Boston, 1935. 118
ОГЛАВЛЕНИЕ Введ с ние 3 Глав I. Типы частотных словарей 6 1. Расположение словарного материала -s 2. Объем словника 9 3. Длина текстов, обследованных при составлении словаря 9 4. Язык входных 'днннц словаря W 5. Содержание форма текстов, представляющих язык 11 6. Цель словаря 17 7. Входные ' шннцы частотного словаря 18 8. Численные характеристики единиц частотного словаря 19 9. Техника составления словаря 24 10. Учет значений 27 Глава II. Составление частотного словаря 29 1. Определение генеральной совокупности текстов 29 2. Формирование выборочной совокупности 33 3. Расчет времени 35 4. Определение единицы учета 36 5. Анализ^ (расписывание) текста 40 г* 6. Табулирование данных словаря 43 7. Оценка надежности словаря 45 8. Оценка эффективности частотного словаря 53 Глава III. Применение частотных словарей 55 1. Частотные словари и традиционная лексикография 55 2. Частотные словари и теория речевой деятельности 3. Частотные словари в лингвистической типологии 61 4. Частотные словари и обучение языку 5. Частотные словари и инженерная лингвистика 85 119
6. Отношение статистической лексикографии к социальным наукам 86 • Заключение 90 Приложение. Каталог частотных словарей группы «Ста- тистика речи» 93- Сокращения к литературе 103> Литература 104 Редактор издательства Г. А, Чемоданов ____________________Технический редактор К. П. Орлова____________________ .М-25236 Сдано в набор 26/11-75 г. Подписано к печати 26/XI-75 г. Объем 7,5 в. л. Формат бОХЭО1/^. Заказ 2064. Тираж 600. Цена 75 коп. Типография им. Урицкого