Текст
                    
1.,...П-i5 пБ t~ _, :~ .··. (..
Акл:дЕМИЛ НАУК СССР ИНСТИТУТ ПРОБЛЕМ ПЕ~ЕДА ЧИ ИНФОРМАЦИИ Распознавание образов ТЕОРИЯ И ПРИЛОЖЕНИЯ
УДН: 621.391 Сборнин посвящен методам и алгоритмам решения за­ дач прогнозирования логии, а танже и их применению автоматичесному в медицине распознаванию и гео­ речи . Обсуждаются проблемы общения человена с машиной: анализ слитной речи, иерархичесние струнтуры интонацион­ ного, слогового, ленсичесного и синтансичесного представ­ лений, синтез речи. Приводятся алгоритмы оценивания па­ раметров речи и идентифинации сигналов, иснашенных не­ стационарными помехами. Рассчитан на специалистов в области распознавания образов и смежных областях. Ответственный редантор до1•тор техничес1шх наун И.Т.ТУРБОВИЧ Зам, ответственного редантора 1шндидат техничесних нау1' В. С. ФАйН 30501- 495 р 055(02)-1977 828- 77 © Издательство «Науна», 1977 г.
Предисловие В предJiагаемый сборник вкдючены главным образом работы, относящ:йеся к двум интенсивно развивающимся направлениям в распознавании образов: многомерному прогнозированию и ав­ томатическому пониманию слитной речи. Задача прогнозирования понимается здесь, как задача оценки состояния или положения некоторого физического объекта на основе данных, косвенно характеризующих это состояние . Осо­ бенность принятого в пубшшуемых работах подхода к проблеме состоит в том, что доступные сведения о влиннии указанны х пере­ менных на оцениваемый показатеJiь, во-первых, сущестяенно од­ номерны и, во-вторых, I{ак правило, носят качественный характер. В сборнике помещены как теоретические, так и прикладные работы этого направления. В них метод прогноза исследуется ДJIЯ различных способов задания прогнозируемой величины, в част­ ности путем разбиения экспериментальной выборки на однородные и упорядоченные по этой величине классы и путем представления прогнозируемой величины дискретным рядом числовых значений. Исследуется и возможность применения аппарата проверки ста­ тистических гипотез для создания метода выявления редуцируемо­ сти используемых моделей прогнозирования. Практическое использование этих исследований иллюстриру­ ется работами по выявJiению связи между тяжестью состояния больного и его физиологическими ПОI{азателями и по прогнозиро­ ванию естественного режима нефтяного пласта по совокупности геолого-геофизических хараkтеристин. Перерастание традиционного распознавания в новое направление - речевых образов автоматическое понимание слитной речи - привело к существенному пересмотру методов представления речи. Слитная речь представляется последовательностью слогов и отдельных звуков, идентификация которых требует усоверmен- 3
ствования технюш анализа речи , разработанной ДJIЛ опо з нания изоJrировапно произносимых команд. РезуJrьтаты идентификации объединяются в иерархически организованной системе :интонаци­ онного, слогового, лексического и синтакс:ичесн:ого представле­ ния речи. В работах по теории и практике анализа и синтеза речи в сборнике освещается состояние проблемы и приводятся резуль­ таты ряда оригинальных исследований в этой области. Большое значение имеет и проблема представления искаженных сигналов. Одно из перспективных направлений в этой области, затрагивае­ мое в сборнике, состоит в идентификации параметров энспонен­ циалЬных сигналов, Сборник предлагается искаженных завершается и работой общего обосновывается в распознавании образов, нестационарными новая характера, помехами. в · которой («вариативная») позволяющая, в частности, модеJIЬ испо J1ьзо­ вать в этой области некоторые результаты теоретико-информаци­ онных иссJiедований.
В. Г. Гитис Об одном классе ааддч прогновирования В задачах прогнозирования требуется найти связь между прог­ нозируемым показателем r, который обычно отождествляется с состоянием некоторого физдческого объекта, и переменными {х;}, i = 1, ... , !, определяющими это состояние . В более фор­ мальной постановке требуется в рамках заданной математической модели (х, а) связи между показателем r и вектором переменных х найти такую оценку параметров а, при которой r;:::::::; f (х, а). f Существует ряд задач прогнозирования, в которых показатеJIЬ не поддается объективному измерению, а задается с помощью экспертных оценок. Такие задачи встречаются в области медицин­ r ского и технического прогнозирования [1-3], в э 1,ономике, социо­ логии и психологии [4, 5] . Часто в этих задачах экспертная оцен­ ка показателя r может быть введена лишь с помощью разбиения всех реализаций экспериментальной: выборки па однородные и упо­ рядоченные по этому показателю классы случае меру соответствия ro 1 , ro 2 , прогнозируемого •.. , roQ· показателя 1· В этом и прог­ f ноза (х, а) можно ввести, потребовав, чтобы решающее правиJiо 8, найденное по учебной выборке с использованием модели (х, а) , позволяло в некотором смысле наилучшим образом 1шас­ сифицировать и упорядочить элементы I{ онтролыюй выборки в со­ ответствии с э кспертными оценками показателя r. Если для ве1{ ­ тора параметров а* упорядоченность элементов контрольной выб0рки по решающему правилу достаточно близка I{ упорядочен­ ности этих же элементов по экспертным оценкам, то будем считать, что прогноз f (х, а) с точностью до монотонной функции соответ­ f ствует прогнозируемому Определим критерий показателю качества r. решающего правила. Введем функцию потерь S (nq J k), nq = 1, . . . , Nq, q = 1, ... , Q, k = 1, ... , Q, которая харантеризует потери, во зникающие при отнесении реализации вилу ким 8. Xnq Е roc1 н классу ю k по решающему пра­ Качество решающего правила можно оценить эмпиричес­ средним риском Q Nq R = ~ ~~S (nq l k), (1) q= 1 n =1 Q где N = ~Nq - общее число элементов выборки. q=l 5
Заметим, что отнесение реаJrизации х" q к классу нарушение отношения порядка реализации классов. Например, если реализация виJrом /q - k 1 отнесена решающим пра­ к классу W q+P или Wq-p, то в том и другом СJ1учае имеет 8 место нарушение отношения сов: x"q вызывает w" для Xnq + соответственно По э тому . . . , w,1-p. порядна реализации ю,1 + 2 , ( 1) ,1 1 , или • • • , W ci+P особенностью фушщии x 11 q для р клас- Шq- 1 , Шq - 2 , . • • потерь S (nq 1 k) по сравнению с задачами юrассификации, в :которых нет необхо­ димости в сохранении отношения порнд1\а, быть невозрастающей фушщией от /с при фующией при k q, т. е. .! > при k< q, О при k = q, S2пq (lc) при k> q. И S211q (k) Siпq (k) S (nq / k) = Тю-\ l\aI\ функции S 1" q (k) k является требование < q и неубывающей (2) являются монотонными, 'ТО для шобого /с ;их можно представить в виде сумы, состоящих из неотрицательных элементов: q- 1 S1nq (/с) = ~ SnqlJ' р= : S2nq (k) " = ~ SnqP;;;;;. SnqP' О, (3) {J= IJ-1-1 где элементы шении snqP харантеризуют потери, вознинающие при нару­ отношения порядна реализации x 11 q для rop. нласса При выборе фуннции потерь необходимо учесть то обстоят.ель­ ство, что ошибни классифинации по найденному решающему пра­ вилу могут быть вызваны не тольно «ошибнами алгоритма», связанными с неточностью математичесной модели, с неточностью измерений переменных {х;}, с представительностью учебной вы­ борни и т. д., но ошибочной нлассифинацией самого эксперта. Ошибки энсперта могут быть обусловлены кан недостатком ин­ формации при разбиении выборни на нлассы, тан и тем, что в по­ добных задачах само понятие «KJiacc» часто явJrяется весьма ус­ ловным, что в общем случае делает безошибочную юнtссифинацию выборr\и ЭI\спертом .принципиально невозможной. Рассмотрим два примера выбора функции потерь. Пусть для наждой реализации от числа т. е. S (nq только от т. е. snqP G нлассов, = 1 k) = номера x"q для snq 1 Е cuq фуннция ноторых потерь линейно зависит произошло нарушение q - k /. Пр:И этом элементы реализации, snq· Подобная вызвавшей порядна, s"qP нарушение зависят порядна, фующия потерь обычно вводится в тех
случаях, Rогда эRсnерт нлассифицnрует и упорядочивает реали­ зации выборRи с различной степенью уверенности и предполагает, нарушении отношения порядна данной реа­ что потери snqP при лизации одинаRовы для любого Rласса р для E{q - 1, q, q q, q =1= q. Во втором примере всех реализаций x"q Е W q положим + 1}. + 1} и S Этот (nq\k) = s 11 q способ S (nq 1 k) = О при k Е 1 q - k - 11 при k E;E{q-1, задания фуннции потерт, соответствует довольно типичной ситуации, r<огда энсперт п е n состоянии дать четкую нлассифю<ацию nыборни и nынуждеп вводнтт. 'Гак на зывае ­ мую с.лабую упорядоченность классов. При этом ::шсперт исходит из предположения, что при разбиении им выборки на классы в шо­ бой класс wq могли попасть неизвестные ему реализации сосед­ них классов Ыq- 1 и Ыq+ 1 • Рассмотрим алгоритм нахождения решающего правила, мини­ мизирующего эмпирический средний риск (1). Построение решающего правила 0 можно представить в виде ДВУХЭТаПНОЙ процедуры: нахождение фуНКЦИИ = j у (х, а) ИЗ некоторого класса функций, задаваемого моделью связи прогно­ зируемого показателя r с вектором переменных х, и nыбор на чис­ ловой оси у порогов Dq, задающих границы классов. Для любого заданного вектора параметров а пороги D q могут находиться путем минимизации (1). Найденное значение условного минимума эмпирического риска (1) примем в ка•1естве меры соответствия прогноза у = f (х, а) и прогнозируемого показателя г. Безуслов­ ный минимум эмпиричесr<ого среднего риска (1) может быть най­ ден варьированием f (х, а) по параметрюvr а с определением опти­ мальных порогов Dq для кюндого а. При заданном венторе параметров а решающее правило мо:шно определить с помощью Е ro 1 при Упq Е ЫQ при ла < DQ_1 требует Q- 1 D 1 , Упq Е W2 < Упч· Такой выполнения порогов следующим образом: Упq Е при D 1 < Упq < D2, ... , Упq Е способ введения решающего прави­ условия упорядоченного расположения порогов на числовой оси у, т. е. требуется Dk <D С учетом в k< l. при 1 (2) - следующем (4) (4) фуню_\ИЮ потерь S (пq 1 k) можно представить виде: Q-1 S (nq 1 k) = ~ [s11 q1)L (Унq < Dp) + s"qpнL (Упq > Dp)], (5) P=l где при Упq ;;;> Dp для < Dp для при Упq < Dp для при Упq всех р = 1, ... ,Q, (6) 7
О при 1 О при L(y"q;;>Dp)= ' 1 !fnq < Dp для всех р = 1, .. . , Q, y11 q;;>Dp для p<q, ПРИ!Jпq?DрДШ! p;;>q. (7) С учетом дующем (5) Nq Q R = (1) может быть переписан в сле­ Q- 1 LL ~Е q=l n=I Q-l = функционал (7) виде: ~ ~ р=1 [snqP L (Y11q < Dp) + S11qP+l L (Упq ;;> Dp)] = p=l Р Nq Q Nq L LSnqP L (Упq < Dp) + 'Е ~ SпqP+l L (Упq ;;> Dp)]. [ q= p+111= 1 f/ = I. n= J. (8) При нахождении условного минимума среднего риска (8) по порогам {Dp} для шобого заданного выпора параметров а требуется, чтобы найденные пороги удовлетворяли условию (4). Покажем, что при snqP snq выражение (8) допускает незави­ = симую миюrмизацию по каждому и з порогов . d~ тюше значение порога d, что. Обозн ачим через Rv (d;) = шin R 1, (d), (9) d где Q Rp (rl) = Q Nq Nq L I.i s,,q L (.Упq < d) + L L Snq L (Упq > d). q= p-j-1 1!=1 (10) q=l 11=1 Рассмотрим взаимное расположение порога < dk и порогов d'k+m, т = 1, ... , Q - k - 1. При d/. df.+m для всех т условие (4) для порога di, выполняется и принимается D k = d'k. Покажем, что если хотя бы для одного т имеет место а;;> d'k+m, то коррекция D k = min {di;+m} с охраняет минимально е значение функционала (8) . Подсчитаем значение Nq Q Rk (d;+m) = 2] 2] SnqL (У11 q=k+111= 1 k + q=2"]l < а:+т) + Nq 2"] s"q L (У11 q > a:+m) 11= 1 Q Nq 2"] il] q= k+m+1 11= 1 8 q S11 q L(Y11c 1 = < d;+т) +
lc+m Nq + q=1 2j 2j Sп L(уп ;;> d;+m) + n=1 q q k+m (11) Nq + q=k+1 2j 2j Sn L(уп < d~+m) n=1 q q k+m - Nq 2j s~ L (Уп 2j q=k+1 n=1 k+m q q > a;+m) = Nq + q=k+1 2i n=1 2i Sn q [L (Yn q Rk+m (d~+m) < d~+m) - L (Yn q + > a:+m)J. Из усJ1овин Rk+m (d~+m +в) > Rk+m (d~·f·m) при в> О, (12) которое имеет место в силу того, что порог a;+m определнетсн сог­ (9) длн р = !с + т, и условин ласно к+m Nq 2i 2i q= k+1 Sn ri= l q [L (Yn q < a;c+m +в) - к+m ~ Nq ;;> 2j 2j Sп [L (Уп q=к+1 n=l q q L (Уп > d~+11i +в)] > q < d~+m) - 1~-(Уп, ;;> d;+т)] · при в>О 1 (13) следует Rк(d~+m-J-в);;>R1c(d~+m), в > О. (14) Пусть а;; = d~+m + в. При этом Rк (d~) = Н 1, (d~+m + в)< Rк (d1~+m), так как порог а; нвляется точкой минимума функ­ ционала (9) для р = !с. Следовательно, при d~ a;+m согласно (14) возможно лишь Rk (d~) = Rк (dZ+m + в) = Rк (d~+m). Доказанное верно для любого т = 1, . . . , Q - !с - i. Следовательно, если порог d~ находитсн правее нескольких порогов d~+m, то очевидно, что коррекция D k = min {dZ+m} не изменяет < > m значенин функционала (9) длн р = !с. Поскольку с учетом (8) и (10) Q-1 R = ~ ~ (15) Rp(Dp), Р=1 то нахождение порогов согласно соответствует нахождению (9) с посJ1едующей их коррекцией условного минимума при выполнении ограничения (4). Таким образом, нахождение порогов торе параметров а сводится к {Dp} среднего риска при заданном век­ последовательному решению задач 9
одномерного поисна минимума значительно упрощает = 1, ... , Q - 1. для р (9) вычисление меры соответствия Это прогноза f (х, а) прогнозируемому поназателю r. Алгоритм минимизации эмпиричесного среднего рисна состоит из двух основных блоков: поисновой процедуры, определяющей выбор вектора параметров а, и достаточно простой процедуры вы­ числения условного минимума фуннциопаJiа (8) для заданного вен­ тора а с использованием соотношения (9). Корре1щия порогов тре­ буется тольно на этапе выдачи онончательных результатов. Фунн­ циоJiаJI (8) является разрывным и в общем случае многоэкстре­ :мальиым по а. Для поиска вектора а:, соответствующего точне гло­ баJrыrого :минимума функционала, может быть использована одна из процедур глоб1щьной оптимизации: мпогопараметричесних функций методом случайного поисна. Рассмотрим способ задания функции потерь, соответствующий введению слабой упорядоченности классов . Пусть для всех реа­ лизаций xnq Е Wq , q = 1, .. " Q, фушщия потерь S (nq J !с) = О при k Е !с f/:_ {q ний рис1< для + 1} {q - 1, q, q 1, q, q + 1}. (1) и S (nq ! !с) = q - !с - 1 \ при Snq \ Так как в этом случае :эмпиричесний сред­ не изменяется при нарушении отношения порядна соседних ютасс ов, то при заданном венторе целесообразно отказаться от поисна границ для нлассов и w2 , w 2 и ffi 3 , . • " ro 1 шению числа порогов {Dq} заданном имеет Упq Е DQ-2 ffi2 векторе U < Упч· Юз при D1 Вычисление зируемого а мерьr ffiQ-i вид < Упq < г, I\aI-\ к процедурам одномерного (10) заменяется на Q Nq L} ~ s11 L (у11 и ro 1 U Ю2 Dz, ... , Упq Е Упq Е в предыдущем поиска. Но р Nq q=1 11=1 при f при IOQ-1 Упq U . ном q=p+2 алгоритм 11=1 q минимизации q среднего 11 рисна q не < IOQ при D1, при (х, а) и прогно­ случае, сводится этом выражени е < d) + ~ ~ s L (у11 °> d), в нотором при поиске порога d; ис1шючается нласс rорн· В R~ (d) = а и WQ. Это приводит к умень­ па единицу. Решающее правило соответствия . прогноза по1<азатеJ1я параметров разделения пар (16) q осталь­ изменяется . Значительное упрощение алгоритма отыснания минимума среднего рисна (1) может иметь место при выполнении следующих предположений: 1) прогноз / (х, а:) является линейным по пара­ метрам С{, т. е. / (х, а) = aтqJ (х); 2) существует таной вектор а*, для которого R~ (d) = О, р = 1, ... , что существует вектор ров, соединяющих а*, для которого точr<и различных Qвсе 2. Это означает, проекции венто­ классов Юq+lc и Юq, больше нуля. При выполнении сделанных ,щопущений задача поиска вентора а*, минимизирующего (1), сводится к нахождению одного из ре-
шений совместной системь1 .юшейных неравенств и,Т [qJ( x~ q+п.,J--qJ(xп q )J>O, q = 1, "., Q - 2, п = 1, .. " Nq, k = 2, " " Q - q, т 1, ... , Nq+k' (17) Rоторое может быть получено с помощью итерационных алгорr.гr·­ мов, детально разработанных в распознавании образов [6]. ЛИТЕРАТУРА 1. 2. 3. 4. В. И. Бупэ, Б. А. Боzп1сов, В. Г. Гитис, Г. И. Рейспер, И. Т. Турбо­ вич, Е. Ф. IО1жов. О методе выявления связи манснмалыrо возможной магнитуды землетрясений с те~поничесю1ми параметрами раiiона.­ ДАН СССР, 1974, т. 214, No 3. Р. С. Вщнщ1>ая, И. Т. Турбович, Е. Ф. IОркоа, А. А. Ада.мяп, JlJ. Я. Авруцюп'i, IO. Д. Каzиип. Прогноз дыхателr.ноii недостаточности после операции на легrшх по данным дооперационных исследований.­ Экспериментальная хирургия и анестезиология, 1973, No 5. Р. С. Випицка.я, В. С. Нагорное, В. Я. Те;;омщr.ов. Применение одно­ мерных нелинейных преобразований для прогноза тяжести послеопера­ ционного состояния больных тубернулезом.- Сб. «Нелинейные и ли­ нейные методы в распознавании образов». М" «1Iay1,a>>, 1975. С. А . А iiвазяп. Об опr,1те применения экспертно - статис·1·и<~есrtого метода построения неизвестной целевой фующии. - CG. «Многомерный стати­ стичесний анал и з в социалыю-эrtономичосюfх нсследованиях». М" «Hay1ta», 197LI. 5. Сб. «Статистичесное нзмереиие 1'ачестnенных харантеристию>. М., «Ста­ тистина», 1972. 6. В. Н. Ваппик, А. Я. Червопепкис. Теория распознаnаиия образов. М" «Науна», 1974. Е. Ф. Юрков, В. С. Нагорг~ов Модифицированный метод наименьших нвадратов при решении задач прогноза с диснретной прогнозируемой величиной Известен целый ряд задач прогнозирования, в иоторых значе­ ния прогнозируемой величины ограничены Rонечным (дисирет­ ным) числом значений. Возможный путь решения таиих задач сос­ ·1·оит в нахождении фуниционалыrого соотве1·ствия (прогнозирую­ щей фуFшции), устанавливающего приближенную зависимость :между дисиретной прогнозируемой величиной и значениями прог­ нозирующих величин. 11
В качестве прогнозирующих функции вида функций будем рассматривать р f (8, У) = ] 8icpi (У), (1) i=l где 8 = (81 , • • • , 8р)т - вектор параметров, подлежащих опре­ делению; У - вектор прогнозирующих переменных; Фi (У) - за­ данные функции векторного ?-РГумента, причем ср 1 (У) = 1 (т . е. 81 является свободным членом). Задачу нахождения прогнозирующей функции будем понимать нак задачу выбора вентора, обеспечивающего наилучшее в нено­ тором смысле совпадение между диснретной прогнозируемой f величиной r и ее прогнозом (8, У). Известным методом нахождения прогнозирующей функции является метод наименьших квадратов [1], который может быть применен также и для случая, когда прогнозируемая величина является дискретной. Другой подход к решению рассматриваемых задач изложен в [2] . Согласно методу наименьших квадратов, ис- комый вектор е в (1) находится по экспериментальной выборке И3 УСЛОВИЯ МИНИМума СУММЫ КВадраТОВ 8 2 : N 8 2 = ] (rп -/ (8, Уп))2, (2) n= l где rп и Уп - значения прогнозируемой величины и вектора прог­ нозирующих переменных в п-м эксперименте; тов в выбор1<е. число элемен­ N - Специфика рассматриваемых задач состоит в том, что дискрет­ ная прогнозируемая величина r разбивает всю выборку на классы , число которых равно числу различных дискретных значений прог­ нозируемой величины. Поэтому, наряду с желанием минимизи­ ровать сумму квадратов (2), естественное желание состоит в том, чтобы прогноз f (8, Уп) для класса с прогнозируемым значением r концентрировался вокруг именно этого значения, а не около ка­ f f кого-нибудь другого. Рассматривая = (8, У) и r как случай­ ные величины, последнее требование можно записать в виде ус­ ловия М (f/г) где М = (f/r) - г, математическое ожидание величины (3) f при заданном г . В других терминах М (f/г) есть регрессия величины f на г. ~с­ ловие (3) означает, что регрессия М (flr) должна быть линейной. В реальных ситуациях, однако, мы всегда имеем дело с Rонеч­ ной выборкой. Поэтому теоретическую линейную регрессию М (f/г) следует заменить выборочной линейной регрессией а условие (3) заменить условием l(г) = r. 12 l (r), (4)
Учитывая сказанное , сформулируем критерий оптимальности для рассматриваемой здесь задачи . Будем считать оптимальным такой вектор е в (1), который минимизирует сумму квадратов (2) при условии: (4) . Уточним условие (4). Так как уравнение линей­ ной регрессии на r имеет вид l (r) = а br, то условие (4) рас­ + f падается на два Ь = 1, а =О, где, как условия: (5) известно, Ь = ~ (r" - i') (!,, - f) / ~ (r п a -'- f-Ьi', (6) i')2 - n п и r = (1/N) ~ r"' f n = / (8, n В свою очередь условие (5) J= У11 ), с учетом (6) (1/N) ~ f". TL мтю-10 переписать в виде ~(fn - rп) = О, (7) n Как известно, минимизацию функционала можно заменить минимизацией (2) при условиях (7) безусловного функционала F: F =~(/п-rп,) 2 -2Л.~rп(/п-rп)-2µ ~(/п- rп), п п (8) п где Л, и µ - неопределенные множители Лагранжа. Полученный при этом вектор е и будет искомым вектором, минимизирующим выражение (2) при ограничении (4). Обозначив Xni = cpi (Уп), Xi ходимые условия минимума F: = (1/N) ~ (Pi (У11 ), выпишем необп дF ;деi = 2 "2] Uп - Т',1) x"j ___: 2Л, ~l'nXnj п дF/дЛ, - 2µN xi = О, j = 1, ... , р, п О, = 2"2]r_(/,(f11 - r,1 ) = (9) п дF/дµ = 2 ~ Un - 1'11 ) = О. п Перепишем (ХТХ) е (9) в матричной форме = xXTR + µNX, нтхе = RTR, i' = хте, (10) где Х = (хпi) - матрица размера N Х Р, Х = (х 1 , ... , хг)Т и R = (г1 , •• • , rN)T - век'rоры размерности Р и N, х = Л, 1. Предполагая, что матрица (ХТХ( 1 существует, и умножая ее + слева на первую формулу 8 = х (ХТХ( 1 XTR (10), получим + pN (ХТХ)- 1 .Х. (11) С учетом обозначений (1 2)' (13) 13
перепишем л в = (11): + µе . хе (14) Отметим, что веRтор е минимизирует сумму RВадратов (2) , = µ = О). Другими словами, О есть веRтор, R Rоторому приводит метод наи­ если снять ограничение (4) (это следует из (11) при Л меньших нвадратов. ВеRтор е имеет вид: е = (е 1 , .• " ер)Т = (1, О , О, О)Т. .. " (15) Ч1:обы убедиться в этом, обозначим хтх = (gij) , (ХТХ)- 1 = (gi1) . Заметим, ЧТО glj = Nx j, таR Ral{ Хп1 = cr1 (У п) = 1. Элемент g'j обратной матрицы (ХТ Х( 1 можно записать RaI{ gii = Gijll хтх 1, где G;j - алгебраичесRое дополнение элемента gu прямой матри­ цы хт Х. Номпонента е; вентора е равна Отсюда следует (15) . В сналярной записи выражение следующий i Формулы с учет9м (14) (15) принимает вид: ('16) == 2, .. " Р. (16) дают простую связь номпоне~1т исRомого веRтора 6, 8 С RОМПОНеIIТаМИ ВеRтора ПОЛуЧеННОГО ПО методу НаИМеНЬШИХ нвадратов. Аналогично = получим ~eixпi] с фуню(ией rfп связь = ~ еi·т"; ] ' найденной по методу наимень- ' ' ruиx Rnадратов: р прогнозирующей фунRЦИИ Uп = р /,, = 81 + ~ 8;.х"; = х ~ О;х"; + ~t = xf" + µ. i=~ Неопределенные множители х и µ можно :jiайти, (14) во вторую и третью формулы (10) х - Nr 2 ), ~t = 1~ - хХте. Обозначив s;. = (17) i= l ~(rн - r)2 = RTR - Nr 2 , = (RTR подставив -Nr 2 )/(RTXfJ - (18) п (19) 14
и учитывая известные ния х т R = л л хе = т в методе наименьших · квадратов соотноше - r= л (Хе) хе, s;1(s;- s2 ), µ= --тл Х е, получим окончательно -rs 1(s; - s (20) 2 ). 2 Из (20) непосредственно следует, что 1/х является нвадратом (выборочного) множественного ноэффициента норреляции между величинами r и х; (i = Р). 1, . . " л Отметим, что тан нан величины f и f связаны линейным соот­ ношением (17), а ноэффициент норреляции инвариантен относи­ тельно линейных преобразований норрелирующих величин, то ноэффициенты нор реляции r с f и r с {равны друг другу. Из мето­ [1], что ноэффициент нор ре­ ляции между r и f достигает мансимума по всем прогнозирующим фуннциям вида (1) и равен множественному ноэффициенту норре­ ляции. Отсюда следует, что в нлассе фуннций (1) рассматриваемый да наименьших нлвадратов известно здесь метод прогнозирования танже мансимизирует ноэффициент норреляции между r и и величина этого ноэффициента норреля- ции равна Другую f, 1/Vx. интерпретацию для х можно линейную регрессию l (r) величины j получить, рассмотрев на r: Г(т') = а+ Бг, (21) где ноэффициенты шшейной регрессии а и Ь в соответствии с (6) равны: (22) п -:;::- 1 '\1 п л f = !VL.Jfп· п о и =+ µ Подставляя в (6) величины f п - f = х (fп - f) и f = xf учитывая усJrовие (5), получим соотношение ДJIЯ х иµ: µ -:;::- -х-=1 += ~(rп - r)(/п- f)/~(rп-r) • 1 - 2 ----:;:r, п (23) Сравнение (22) и (23) ПОI{азывает, что б - µ/х и Ь = 1/х. Таним образом, величины -µ/х и 1/х являются ноэффициен- тами линейной регрессии l (r) (21). Получим выражение для суммы нвадратов (2), соответствую­ щее найденному вентору е. С учетом второй формулы "Q (/п - r 1 i ) 2 S 2 -- - LJ п -- (7) имеем "Q fiп - - LJ1n. "Q .2 LJ п n 15
С учетом (17) и первой формулы (23) ~t;,=x~ (fп-t++r) 2 =x2 (~<7п-f) 2 +; ·п п ших :квадратов L..J (/- ). и соотношение метода наимепьА2 "'1 2 2 (19) 2 получаем !) 2 = Sr - S , L..J fп п = х 2 (Sr - п О:кончательпо, с учетом первой формулы ( S2)2 тА (S~ (S;- s2)2 ' S2 = . 2 п Используя обозначения (18), "'1 А ~ - S2 ) + Nr 2 • r S2 ) - s~ ' s2 ,. = s;- sz (20) и (18), имеем 82 = xS 2 • Полученные результаты по:казывают, что предложенный J11етод решения задачи прогнозирования с дис:кретной прогнозируемой величиной сводится :к небольшой модифи:кации метода наимень­ ших :квадратов. Это позволяет при нахождении параметров прог­ нозирующей фуп:кции использовать стандартные программы ме­ тода наименьших ~вадратов с последующим пересчетом парамет­ ров по простым формулам (16), (20) и (24). Представляет интерес сравнение предложенного метода прог­ нозирования с методом наименьших :квадратов. Ясно, одна:ко, что для (2), сравнения нельзя использовать та:к :ка:к без ограничения :кретной специфи:ки (4) :критерий суммы :квадратов этот :критерий не учитывает дис­ рассматриваемой задачи. Коэффициент :кор­ реляции между прогнозируемой величиной и ее прогнозом таюне нельзя использовать, та:к :ка:к было по:казано, что он одина:ков для двух сравниваемых методов. Очевидно, для сравнения следует взять I{ритерий, :критериями :который сравниваемых бы не был связан с «внутренними» методов. Та:кой :критерий лег:ко получить, воспользовавшись следую­ щим обстоятельством. Прогноз по формуле (1) дает значение непрерывной величины, :которую следует превратить в дис:крет­ ную . Естественный способ дис:кретизации состоит в том , что значение непрерывной веJ1ичины fп о:кругляется до ближайшего допустимого значения [/ nJ диснретной прогнозируемой величины . Критерием :качества прогнозирования может служить число оши­ бо:к прогнозирования, равное числу случаев, для :которых !/п] ::/= ::/= rп. Э:кспериментальное сравнение из.П:оженного здесь метода с ме­ тодом наименьших :квадратов производилось на материале задачи с дис:кретной прогнозируемой величиной, описанной в [3]. Число ошибоI{ в первом случае о:казалось на 18 % меньше, чем во втором случае. Заметим, что уменьшение числа ошибо1{ связано пе с увеJ1ичением числа свободных параметров алгоритма прогнозирования, а с более правильным выбором :крит е рия Ю\­ чества в случае дисн:ретной прогнозируемой величины . 16 о
ЛИТЕРАТУРА 1. 2. 3. С. Р. Рао. Линейные статистические методы и их применения. М . , «Науна», 1968. В. Г. Гитис. Об одном нлассе задач прогнозирования.- Наст. сб. И. Т. Турбович, Р. С. Випицкая, В. Г. Гитис, С. Г. Epa~tяn, В. С. На­ горпов, Н. Супгурмь, 11. Е. Ф . Юрпов. Анализ связи мешду тяжестью состояния больного и его физиологическими показателями.- Наст. сб. Е. Ф. Юрков Статистический анализ модели прогнозирования, использующей одномерные нелинейные преобравованиi~: Прогноз рования, скалярной величины основанному на ных преобразований, в виде [1] r, согласно использовании методу прогнози­ одномерных нелиней­ ищут по критерию наименьших I{Вадратов I t (Х) = z (L (jJi (.х;)). (1) i=l где Х = z и ер; - (х1 , . . . , xr ) - вентор прогнозирующих переменных; одномерные монотонные функции, подлежащие опреде­ лению по выборке экспериментальных данных. При решении коннретных задач прогнозирования мощет, од­ нако, оказ аться , что связь между прогнозируемой веJiичиной и пе­ ременными xi описывается более простой зависимо стью, чем (1). Возможна, например, аддитивная или даже просто линейная зависимость. Поэтому при решении практических задач может воюшюrуть вопрос , обJiадает ли модель (1) реальным преимущест­ вом перед более простыми моделями прогнозирования. В настоящей статье па материале задач медицинского и сейсми­ ческого прогнозирования (1) [1-3] производится сравнение модели с ее частными случаями: Н1 , Н2 , Н 3 : I Н1 :/1(Х) = а0 + ~а;Х;, (2) i= l I Н2:/2(Х) = LCP;(X;), (3) i= l (4) 17
где z и q:>; - фушщии того же Jiинейной формы. KJiacca, что и в (1 ); а; параметры - В предпоJiожении о том, что вид функций z и <vi в (1) опреде­ Jiяется некоторым числом свободных параметров е k> выражения (4) (2) - можно получить, налагая определенное число связей на эти параметры. Действительно, пусть, например, функция z = z (у) задается значениями z (у1,) е k в нескольких точках yk, а в остальных точках получается линейной интерполяцией соседних значений z (у 1,). Тем самым вид функции z полностью определяется набором параметров Таким образом, условие z (у) = у, приводящее (1) к (3), сводится к заданию связей вида = = e,i. ek = Аналогично получим, ЧТО выражения Yk· яв Jrяются результатом выполнения некоторого (2) и числа (4) также соотноше­ ний, связывающих между собой свободные параметры в (1). Указанное обстоятельство позволяет задачу о выборе того или иного прогнозирующего вырашеиия свести к задаче проверки заданных соотношений, связывюощих параметры е". Как известно, последняя задача может быть решена методами проверки статисти­ ческих гипотез [4- 7]. В соответствии с J1огикой проверки статистичес1шх гипотез выражения (2) - (4) рассматриваются нак гипотезы Н1 , Н2 , Н 3 , J{Оторые следует либо принять, Jп1бо отклонить. Может оназаться, что все гипотезы (2) - (4) отклоняются, тогда прогнозирование на основе выражения (1) будем считать оправданным. В другом, крайнем cJiyчae, когда ни одна из гипотез (2) - (4) не отклоняется, цеJiесообразно принять самую простую из них, т. е. гипотезу Н1 о Jiинейном прогнозе. Отметим, что задача о СОI{ращении числа переменных х; в ны­ ражениях (1) - (4) таюне мошет быть решена в рамках проверни статистических гипотез. В это :и случае соотношения, связывающие свободные параметры, должны привести к гипотезе ер; (х;) = О для неноторой группы переменных х;. Есш1 гипотеза принимает­ ся, то указанная группа переменных не является существенной ДJIЯ прогноза . Если гипотеза отклоняется, то это значит, что в уна­ занной группе имеются существ енные переменные, которые неJi ь­ зя отбросить [7] . В настоящей работе в качестве статистического I\ритерия, на основании которого пользуется принимается либо отнлопяется гипотеза, ис­ критерий дисперсионного отношения (F-критерий). Дисперсинное отношение, КЮ{ известно, имеет вид F= (SJ1 - S2)(N - р) (5) s2тн N где S 2 = min ~ (гп - / ( Х",)) 2 - безусловная сумма квадратов (в от- п ~=1 сутствии связей на параметры); р 18 - суммарное число независимых
N параметров в модели прогп_озироnапип; SJ1 = miв~(гп - /и (Хп)) 2 n=1 условная сумма квадратов (при наличии связей, налагаемых ги­ потезой Н) ; ти - число связей, налагаемых гипотезой Н; N число выборочпых реализаций. При этом гипотеза Н отк.nоштется, ее.ни Р превосходит значение критической точки Ji'y. 1" вантой на статистических таu.nиц, в про­ тивном случае Н принимается. Примеп ите.пъно J{ рассмюривае ­ мому случаю гипотеаа Н одно - иа выражений (2) - (4), S 2 к выражениям (2) - (4), и µ относятся к выражению (1 ) , Sic = р - рп, рп - чисJIО независимых тн парnметроn в выраже­ ниях (2) - (4). Нак известно, исполъаова пие F-1<ритерия тр е бует выполнения . следующих r допущений : а) предполагается, что 1<01шретный набор :значений величин и Х является результатом одного из N независимых испытаний, причем ДJI Я п-го испытания прогнозируемая величина rп рассмат ­ ривается ка~< случайная веJшчю~а, имеющая нормальное распре ­ деление с математическим тниданием Nirп дисперсией, о;щнаковой б) предполагается, для что всех J{aJ{ = j (Х 11 ) и неиавестной п; зависимость функции параметров, так и свяаи, наJ1агаем .ы о гипотезой н ~.~ ми В по j (Х) от ян.пяютсн .1 1 и 1 rей­ параметрам. прантичесних задачах в ряд .11н следует ожидать, чт о эти допущения nыполняются строго. Таи, н апример, распределение величины 1·п (допущение а) ) моаtет отклоняться от нормального. Однако, как отмечено в [5] , это обстоятельство не является доста­ точной причиной для отказа от применения статистичесного кри­ терия, поскольку теоремы даже вследствие действия центральной значительное от1,лонение от предельной нормальности приво­ дит лишь к небольшому смещению Р-отношения. Первая часть допущения б) о линейности j (Х) по параметрам также не выполняется. Тем не менее, если в определенной об .наст.и пространства параметров пезпачителы~а, то и незначите.пьной (61. связей, налагаемых одномерные функции · степень нелинейности по параметрам погрешность статистического вывода будет Вторая о ч:tсть гипотезой, допущения выпошшется 6) при линейности условии, что z и ер; JПJлеЙлы по параметрам. 1-\онтроль нелинейности. Рассмотрим способ контроля нели­ нейности фуннции по параметрам при провер1'е гипотезы вида (2) - (4). ДJrя удобства дальнейшего изложения функцию / (Х) = будем обозначать как j (О, Х), где О (0 1 , • . • , Ор) - р-мерный вектор параметров, подлежащий опредеJJению. Степень отнлоне­ ния функции / (О, Х) от функции, линейной по параметрам О, :можно оце п ить с помощью разложеннн j (О, Х) в ряд Тей.пора по О. Для фиксированного вектора Х п разложение / (О, Х 11 ) 19
в точке е, учитывающее то.пько линейные члены, имеет вид fл (6, Хп) f (8, = + df (6, Хп) Хп), (6) где L дf (8, Х,) P df (8, Хп) = ае (7) -k r.=1 ЯВЛЯеТСЯ дифференциалом ПО 8 ДЛЯ j Рассмотрим две суммы квадратов: (6, Х 11 ) . N L(г,,, = L S (8) = 2 - f (8, Х")) 2 , (8) 11.=l N s; (8) f л (8, Хп))2. (rn - (9) n=I Если бы функция f (8, Х) бы.па .пинейпа по О, то S 2 (8) В случае нелинейной зависимости ве.ннчипа µ (8) = 1 s 2 (8) - = s; (8). s;r (8) 1 (10) может служить мерой линейности фушш;ии f (8, Х) по 8 в области пространства параметров, включающей две точки е и 8 [7]. При проверне гипотезы в качестве 8 выберем точку, минимизи­ рующую безусJ1овную сумму нвадратов, а в начестве 6 - точку, минимизирующую условную сумму квадратов при гипотезе Н. В этом случае !-L (6) будет мерой нелинейности функции f (6, Х) по 8 при провер1{е гипотезы Н. Если µ (8) 11·1ало, то S 2 (8) :::::::: : : : : s; (8), и любую из этих величин допустимо использовать в I{а­ честве S't- в F-отношении; в противном случае использование S 2 (8) или S~r (8) в F-отношении недопустимо. Уточним выражение (6) для случая, ногда f (Х) имеет вид (1). Записав (1) n виде сло жной функции f (Х) = z (у (Х)) , L I у (Х) = tpi (.тi) и испо.льзуя свойство инвариантности дифферен- i= I циала сложной фушщии, представим сJ1оншый дифференциал в виде сум:мы clf (8, Х 11 ) двух = dzf частных (7) дифференциалов + dvf, (1'1) где dzf = dz = duf = 20 Z ((J (Х 11 ))- Z ((J (Х 11 )), ддz l л dy = У О 8; 8у \ лV <К• ,., ) (у (Х,.,) -- у (Х 11 )). (1 2) (13)
В (12) и (13) функции зирующему безусJ1овную минимизирующему Подставив (11) - /л (8, Хп) = Z в л (у (Хп)) Алгоритм нахождения приведен в [11. Экспериментальное и пользовалась для сумму квадратов, а z и у - вектору 8, условную сумму квадратов для гипотезы Н. (13) медицинского z и у соответствуют вектору ё, миними­ получим окончательно (6), + -8а; У \л л (у (Хп)- У (Хп)). у(Хп) функций, входящих сравнение моделей (14) в выражение (14), при решении задач сейсмического прогнозирования. Модель решения задачи прогнозирования (1) ис­ тяжести состояния больного после операции на легких по дооперациош-1ым показателям и задачи прогнозирования максимальных энергий землетрясений на территории Кавказа (1- 3]. Результаты проверки гипотез I-!1 , Н 2 , Н 3 , отвечающих выраже ­ ниям (2) - (4), даются в таблице. Критические значения Fир приведены для однопроцентного уровня значимости (т. е. допус­ кается, что в одном проценте случаев вывод об отклонении модели вида (2) - (4) является ошибочным). Во всех случаях значение меры нелинейности (10) составляло не более 5 % от величины S 2 (8), что свидетельствует о допустимо­ сти применения F-критерия в рассматриваемых задачах. Медицинсиан зац аqа. 82 Гипотез1а Н1 Т:l2 Нз 8k 1470 960 - = 830; N = 128; р Рн 1 = Fир F 1 1 7 20 - Сейсмич е сная. Ьадача. 4,4 3,2 - 8 2 = 89; N 25 2,1 3,3 - 8}-r 406 253 119 1 РН = 91; р = 20 Fир F 1 11 16 15 1 28,2 37,3 4,75 2,7 3,6 3,3 Рассмотрим сначала задачу медицинского прогнозирования. Из таблицы следует, что гипотезу I-!1 о линейной связи следует от1шонить, так как величина F в два с лишним раза превосходит значение Fир· Для гипотезы Н 2 значение F не превышает значе­ ния Fир, т. е. гипотеза не отклоняется. Другими словами, введе­ ние в формулу прогноза функции z вряд ли целесообразно. Проверка гипотезы Н 3 не имеет смысла, так как при отсутст ­ вии в (4) функции z гипотеза Н 3 совпадает с гипотезой I-! 1 , которую мы уже отклони.ли. Таким образом, мо1-1шо заключить, что в дан­ ной задаче для прогноза тяжести состояния больного целесообраз ­ но использовать выражение (3). Рассмотрим теперь задачу сейсмического прогнозирования. Из таблицы видно, что для наждо:й из гипотез значение F превы­ шает значение F ир, поэтому все они отн:лоняются. Следовательно, представляется оправданным использование выражения (1) для прогнозирования энергий земJiетрясений па Кавказе. 21
ЛИТЕРАТУРА 1. Сб. «1-Iешшоiiныо и шшоiiные ыотоды в распоюrавашrи образов))·. М., «Наука)), 2. 3. 4. 1975. Р. С. Вин,ицкая, И. Т. Турбович, А. А. Ада~~яп, Е. Ф. JОрков, М . Я. Авруцкий, 10. Д. Нашшt. Прогноз дыхательной недостаточности после операции на легних по данным 11ооперационпых исследований . ­ Э1,спериментальная хирургия и анестезиология, 1973, No 5. В. И. Бупэ, И. Т. Турбовач., Б. А. Борисоа, В . Г. Гипшс, Г. И, Рейс­ пер, Е. Ф. !Орr>ов. О методе ВLIНвленнн связи мансиыалт,но во ~н1ошпой магнитуды 3емлет рн соний с те1\· 1·01п1с1 есн п~щ парамrтрами paiioпa. -- ДАН СССР, 1974, т. 2'1Lf, .N'~ 3. М. Нендалл, А. Стыоарт. Статпстичесюте вr.тводы и связи. М., «Наука)), 1973. 5. Б. Л. ван дер Вардеп. Математичесrшя статистина. М" ИЛ, 1960. 6. G. Вох. Fittiпg eшp i1·ical cl ata.- Анп. N. У. Acad. of Sci., 1960, v. 86, ai·t.3. 7. Д. Худсоп. Статистина длп физинов. М" «Мир)), 1970. И. Т. Турбович, Р. С. Вюищкая, В. Г. Гитис, С. Г. Ера.мят~, В. С. Нагорт-1,ов, Н. Н. Су1-1,гурян, Е. Ф. Юрков Анализ связи между тяжестью состояния больного и его физиологическими показателiiми В прЮ{'l'Ике .печения ряда sабо.певапий часто возникает необ­ связr, между тяжестью состояния больного ходимость выяснить и его физиологическими по1,азателями. Знание тю\о:Й связи могло бы быть полезным как для врача-клiшициста, обладающего опре­ деленным опытом оценки состояния G9.пы1ого, так и для физиоло ­ га, занимающегося выяснением информативности измеряемых показателей и желающего минимизировать их число при разного рода экспертиsах. Н'ачествеиный характер свяsи между к.ттипичес~шм состоянием больного и физиологическими покаsателями в общем: известен: чем тяжелее состояние боJrьного, тем в большей степени наруше­ ны его физиологические понааате.пи. Представляет интерес раз­ работать подход I\ нахождению но.пичественной связи между общей клинической оцеино:й состояuия больного и объентивно измеряе­ мыми физио.погичес1н1ми пою:13ате.пями. Попытка разработки такого подхода излагается в настоящей статье на примере sадачи пахопщения связи ме11<:ду тян,естью кли­ нического состояния и покаsате .н ями внешнего дыхания у боль­ ных хроничесной пневмонией. В процессе исследован.ин ретпал ись следующие вопросы: 1) выбор математической J1roдeJ1:и связи, 2) отбор наиболее сущест­ венных физиологических по1\азателей, ~\) проверюt воsможиости упрощения выбранной моде.пи связи. 22
Экспериментальный материаJI был взят из историй боJ1езней боJ1ы1ых, обсJiедованных и лечившихся в клинической боль­ нице Государственного института усовершенствования врачей г. Еревана. По тяжести состояния больные были разделены на 145 5 групп на основании клинических признаков нарастающей ле­ гочной недостаточности [1]. В качестве объективно измеряемых физиологических показате­ JJ ей, отражающих нарушения внешнего дыхания, взяты : 1) число дыханий в минуту, 2) минутный объем дыхания (МОД), 3) коэф­ фициент испоJiьзования кислорода (I-\И0 2 ), 4) прирост углекис­ лоты во время выдоха в альвеолярном газе (ЛС0 2 л), 5) жизненная емкость Jiегких (ЖEJI), 6) отношение резервных объемов выдоха и вдоха ( РОвьщ/РОвд), 7) объем форсированной жизненной е:м­ кости легких за первую сек (Ф/-REJI 1 ), 8) максимальная вентиля­ ция легких (MBJI), 9) мощность вдоха (Мвд), 10) мощность вы­ доха (Мвыд) . Все показатели за исключением ФЖЕJ1 1 , ЛС0 2 л и RИ0 2 были взяты в процентах R норме 1 • Выбор математической модели и нахождение связи. В настоя­ щее вре:мя не существует общепринятой модели, достаточно точно отражающей характер связи физиологических показателей с 1ши­ нической оценкой тяжести состояния больного. В этой ситуации при построении математической м:одеJIИ связи мы исходили из следующего принципа: выбрать наиболее простой KJlacc функций, учитывающий все качественные соображения, о характере этой связи, и затем ввести цинской точки зрения ограничения, известные врачу nce обоснованные с меди­ нюшадьшаемые на пара­ метры этих функций. При выборе класса фующий быJ10 нспользовю-rо предп0Jюже1-ше о нелинейности связи. Врачебный опыт поназывает, что равное из­ менение по1шзателя в разных з онах его значений в общем случае приводит к неодинаковым изменениям: тяжести состонпю1 боJ1ьного. Достаточно простым 1шассом: функций, учитывающим допуще­ о нелинейности, явJiяется класс, предстаы1енный в виде ние суммы одномерных неJIИнейных функций [21 : I f (х1, ... , х1) = ~ <pi (xi), i=l где x i - значение i-го показателя, <pi (х;) - одномерная (нелиней­ ная) функция, 1 - число рассматриваемых поназателей. При выборе ограничений на параметры одномерных неJiиней­ ных фующий <р; (:i~ i) было использовано предположение о монотон­ ности связи и о границах нормы показателей. Врачебный опыт показывает, что чем: сильнее отклонен показатель от нормы, тем 1 Нормальной (должной) величиной на зывается среднее значение показателя для здорового человена в соответствии с его ростом, полом, возрастом. Границами нормы для легочных объемов считают отклонения на± (+ 20%) от средней должной величины, принимаемой за 100%. 15 % 23
при прочи х равных условиях тя ш:елее состояние больного. Изме ­ нение ж е показателей в границах нормы практически не связано с изменением тяжести состояния боJiьного . Поэтому допустимыми считались функции ер; (х ;), показателя от нормы и не уменьшающиеся при отклонении постоянные в границах нормы. Модель связи между тяжестью состояния и физиологическими показателями, выбранная с учетом сформулированных предпосы­ лок, имела следующий вид: I rn = Li cpi(xпi) + Вп (п = 1, ... , N), i= l где r 11 тяжесть (номер группы) состояния ДJIЯ п-го больного; Х п; значение i-го показателя для п-го бо J1ы1ого; 8 71 ошибка связи для п-го больного; N - общее число больны х . Функции ер; (х ;) вычислюшсь по выборке бо Jiьны х в класс е кусочно - линейных функций по методу наименьших квадратов . Одновременно с поиском функций производился отбор показа­ т~лей х;, наиболее существенно связанных с тяжестью состояния 1·. Для этой цели использова~r шаговый алгоритм выбора показате­ лей [3]. При этом заюпочение о существенности выбранного набора показателей выноси л ось на основании Р-критерия [3, 4]. При проверне возмо ж ности упрощения выбранной модели кон­ нурирующей моделью, со дер ж ащей меньшее числ о подбирае:мых параметров, являлась модель, предпо J1агавшая J1инейность функ­ ций ер; (х;) за пределами нормы. Проверка этого предположения также производилась на основе Р-критерия . Как уже упоминалось р анее, в данной задаче тяжесть I{ЛИНИ­ ческого состояния больного оценивалась по условной дискретной шкале: 1, 2, 3, 4, 5. Можно предполагать, что, получив оценку I связи f (х) = Li fPi (xi), врач будет округJ1ять ее до ближайшего i= l целого с тем, чтобы полученная оценка также имы1а дискретный вид. В связи с этим меру качества прогноза было бы целесообраз­ но связать не то Jiько с «теснотой» корреляции r f и f, но и с числом ошибок, полученных при округлении значений (х) до ближайше­ го целого. Это обстоятел;ьство учитывается в модифицированном методе наименьших квадратов [51. Он позволяет за счет некоторо­ го ухудшения абсо.пютно:й точности приближения (остаточной суммы квадратов) получить меньшее количество ошибок при ок­ руглении прогноза до ближайшего целого при неизменном коэф­ фициенте корреляции r и /. Для этого фушщии ер; (х;), получае­ мые по методу наименьших квадратов, достаточно откорректиро­ вать по весьма простым формулам. Обеуждени:е результатов. На рис. 1 приведены графики зави­ симости Р-отношенил от чисJiа по1шsателей, отбираемых шаговым алгоритмом регрессионного ана.ттиsа, и график критических зна­ чений Рнр ДJIЯ 10%-го уровня значимости. Из рисунка видно, что 24
F-отношение становится ниже 10% - го уровня Fн 11 , начиная с трех отобранных показателей. Это означает, что гипотеза о сущест­ венности первых трех показателей, отобранных алгоритмом, может быть принята на 10%-ом уровне значимости. Тремя показателями (в порядке важности, в котором они были отобраны алгоритмом) оказаJrись: Фrl{EJI 1 , Н_И0 2 и Мвыд · На f 5 J Рис. - 1 1 Рис. ''' - 1,(J ·:::· ~ 2 ч11мо п_ом.~_м~м:~ ~· - 4 {ZJ/f.567 ... ..... :·: .... - Рпс. 2 :· " ·: . ··:.. ·=· .. ... " ~- . . 2 J ". . ". ~-" ' ... ·:, . t• . ' 4 ' ,f r :1 ~, \ \ о,5 1 - \ 1 - - - f(ИОп fiO " 1 20 40 2 4,0'f,_t---i-.- - - - '-, :з,о ~ 2,О г\~~~~~~~~ '1 \ 1 - \ 1 \ 1,() - \ \ \ "' ' 1,0 \ \ \ IРЖЕЛ,-1,О - \ '---'--'---'---'--'---'--1 400 1200 2000 2800 /1dJJ] z 25
рис. 2 графики функций ер; (х;) для этих показателей даны пункти­ ром. Отобранны~ по статистическому критерию физиологические показатели не противоречат медицинской точке зрения о важности этих показателей внешнего дыхания ДJIЛ оценки легочной недо ­ статочности данного заболевания. Для отобранных показателей на основании F-критерия была проверена гипотеза о линейности функций ер; (х;) за пределами нормы. Значение F-отношения для этой гипотезы оказалось рав­ ным 1,14, что не превосходит 10%-й уровень Fнр, равный 1,5. Следователы10, гипотеза о линейности функций ер; (х;) за преде­ Jiами нормы не отвергается. Соответствующие этому случаю графи­ ки ер; (х; ) для трех указанных по1<азателей изображены па рис. 2 непрерывными линиями. Из рис. 2 видно, что нелинейные функ­ ции весьма бJ1 изки к линеаризованным функциям. В то же время вывод о том, что функции ер; (х; ) являются линейными за пре­ делами нормы неJ1 ьзя периментального признать окончательным из - за малого экс­ материала. f, Сравнительная диаграмма оценок r и оцено1< полученных помощью модифицированного метода наименьших квадратов, с приведена на рис. 3. Оценки f рассчитаны для функций ер; (х;), линейных за пределами нормы. Коэффициент корреляции между f и r оказался равным 0,82. Аналогичные результаты были получе­ ны при разбиении экспериментальной выборки па учебную и кон­ трольную серию. По данным рис. 3 бьшо подсчитано число больных, у котор ы х 01<руг.непная до ближайшего целого оценка / от­ J1ичыг ась от !<.пиничесн:ой ОJ~енки г на единицу. 11ис.по таких боль­ ных 01шзаJ1ось равным 58 (11!1 % от общего чис.на больных). Для трех больных расхождение между оцетшами 61.г.по равно двум. Для остальных боJ1 ышх оценки совпадают. Приведенные результаты показывают, что между клинической оценкой тяжести состояния и физио.погичес1<ими показателями внешнего дыхания данной натегории больных имеется достаточно тесная связь. Об этом говорит относительно высокое значение коэффициента корреляции, а также малое количество грубых оши­ бок (т. е. случаев, для которых округленное значение f отличается от клиничес1<ой оценки г более чем па единицу). ЛИТЕРАТУРА 1. 2. 3. 4. 5. 26 С. Г. Ера:лtя и . Вопросы легочно-сердечной недостаточности при различ­ ных хроничес1шх неспецифичес1шх заболеnаниях лег.них. Автореф. докт. дис. Ереnан, 1969. Сб. «Нелинейные и линейные методы в распознавании образов». М., «Наука)), 1975. Н. Дрейпер, Г. C:лtum. Прикладной регрессионный анализ. М . , «Стати­ стика>>, 1973. Е. Ф. IО р ков. Статистичесний анализ модели прогнозирования, исполь­ зующей одномерные нелинейные преобразования. - Наст. сб. Е. Ф. Юрков, В. С. Нагорпов. Модифицированный метод наименьших нвад р атов при решении задач прогноза с диснретной прогнозируемой величиной.- Наст. сб.
Т. А. Бадалов Применение метода одномерных нелинейных преобразований для прогнозирования естественного режима нефтяного пласта Среди важнейших факторов, связанн _ых с :эксш1у атацией неф­ тпных скважин, следует отметить режим rшаста. Режим нефтя­ ного шшста харантерпзует вид пластовой энергии, поторая обус­ JIОВJiивает приток жидностей и газа к ::шсплуатирующимся снва- 1-кинам. Он определяетсн кан физико-геоJiогичес1шми природными условиями, так и условиями разработюr и :энсплуатации место­ рождения [1]. В связи с состаnленнем технологи'Iесr{ОЙ схемы весьма важно на ранней стадии разработки определить характер источников пJiастовой :энергии, которыми располагает месторождение (естест­ венный режим пJ1аста). Опреды1ение естественного режима rшаста сиJiьно данных, затруднено из-за отсутствия характеризующих в изменение :этот период пластового промысJiовых давления, де-­ бита нефти, газа, ноды, динамику продвюЕения нон тура нефтенос­ ности и т. д. В начальной стадии разработки о возмошном режиме пласта мо;-нно судить тоJ1ы1:0 по геоJ1ого-физичес:ки~1 свойствам пород-кошrенторов и свойствам 11ас.ь1щающих фшоидов. Настоящая работа проведена с целью оцеюш возможности прогноз.и рования естественного режима шшста по совонупности геолого -физичесних приsнанов, имеющихся в пачаJiьный: период разра6отки нефтяных месторождений, а та.иже ДJIЯ установпенип связи между прогнозируемой величиной и признаками. В на честве :энспериментаJ1ы1ого материала были использовюiы данные Института проблем глубинных нефтегазовых месторож­ дений АН Азербайджанской ССР о нефтяных залежах Азербайд­ жана, находящихся в завершающей стадии :эксшrуатации. Задача ;нахождения связи между естественным режимом пJiаста и геолого­ физическими признаками решалась с помощью метода одномер­ ных нелинейных преобразований, разработанного в Институте проблем перед:~чи информации АН СССР [2-61. В процессе решения задачи анализировалось 90 залежей нефти основных месторо:нщений Апшеронского полуострова: Балаханы­ Сабунчи-Раманинского, Сурахю-1с11:ого, Биби -Эйбатского, l{aJiин­ GI{OГo, Бинагадинского, Маштаги-Бузовпинсного, ЧахиагJ1ярсно­ го, СуJ1утепинского, IUабандагского. Разработна этих залежей осуществлялась при очень ушrотпеиной сетке снважин (12 га/скважину) на естественном режиме. Исследовалось влияние на режим основных геоJiого-физичес­ них свойств пород-нолленторов и пластовой нефти, таних, кан: 1) вязкость нефти; 2) логарифм проницаемости пород-нолленто ­ ров; 3) расчлененность разреза; 4) песчанистость в процентах; 27
+ цементация (IV фракцил гранулометричесного анализа кар­ бонат:ность) в процентах. Для прогнозирования использовалась следующая ю~ассифи­ нация естественных режимов нефтяных залежей: 1) водонапорный режим (I класс); 2) смешанный режим (11 класс); 3) режим раство­ ренного газа (111 класс). При этом прогнозируемое состояние (режим) связывалось с числовой величиной r - номером класса. Исходя из общих пред­ ставлений о влиянии основных геолого-физичесних свойств пород­ коллекторов и пластовой нефти на естественный режим залежи, 5) можно предположить, что при такой последовательности располо­ жения классов их номера монотонно зависят от геолого-физических признаков. Тан, например, из [1] следует, что уменьшение песча­ нистости при прочих ем номера одинановых условиях связано с увеличени­ класса. При прогнозировании предполагалось, что связь между ес­ тественным режимом пласта и геолого-физичесI{ИМИ приз1-~а1{ами описывается сJ1едующей моделью: I f (х1, Х2 , .. . , x r) = ~ <pi (х;), i= l где {х;} - геолого-физические признюш шrаста; ер; - ис1\омые нелинейныеJ одномерные монотонные функции; i - номер приз­ нана. Функции ер; находятся из условия минимума математичеСJ{ОГО ожидания квадрата разности между прогнозируемой r и прогно­ зирующей величинами. Алгоритм нахождения функций <pi из­ f ложен в [3]. Руководствуясь соображениями выбора более простой модели, рассматривалась эффективность линейной модели по сравнению с указанной моделью. Такое сравнение было произведено на основе использования Р-критерия [6, 7]. Оназалось, что дисперсионное отношение F, равное 4,86, превышает значение Fир = 1,98 на уровне значимости 5%. На этом основании гипотеза о линейном харю{тере зависимости была отвергнута . При решении данной задачи наряду с получением прогноза было важно определить наиболее существенные геолого-физиче­ ские признаки. С этой целью применялся алгоритм шагового вы­ бора параметров [7], в I{Отором оценка значимости признаков производилась по F~критерию. По степени важности-признаки ока­ зались расположенными в следующем порядне (в снобках _ у1{аза­ но дисперсионное отношение F): песчанистость (75,4), вязкость (23, 5), расчлененность (1, 9), проницаемость (2, 1), цементация (1, 7). При включении в модель трех последних признаI{ОВ диспер­ сионное отношение F становится меньше Fир;:::;, 2,73, что говорит о несущественности этих признаков для прогнозирования . Таним 28
f,б 1, 6 - - 0,8 - fJ 2J 8!/JiiOCmь , Рис. в СПЗ Jб Лес чанистость, 64 % 1 образом, для прогнозировапин достаточно взять два вяз1шсть и признана: песчанистость . ~ , Графики полученных функций cpi, соответствующих призна­ кам вязкости и песчанистости, приведены на рис . 1 (номера фунн:­ ций на рисуrше соответствуют первоначальным номерам при- т знаков). Эти графики имеют су­ щественно тер. нелинейный харак- k~я-:;н График~ фующии ср 1 , связан­ ный с вязкостью, условно можно разбить на три участка: сред­ ний - в пределах которого из менение I{ вяз1щсти не и левый - на где с влияние прогноз 1- приводит изменению прогноза, правый вязкости iJ •~ о 2 . увеличением функции ср 1 возрастает. Уменьшение песчанистости до 50%, как видно из графиr{а ср 4 на рис. 1, не вызывает изме­ нения в режиме нефтяных пла­ однако при дальнейшем z стов, снижении сти на влияние прогноз песчанисто ­ проявляется Рис. ' 2 в весьма сильной степени. Качество прогнозирования оценивалось нормированной сред­ неквадратичной ошибкой прогнозирования где ri и f; - экспериментальное и предсказанное значение прогно- 29
r- зируемой величины для i-й реализации выбор1ш; среднее экс­ перименталыюе значение прогнозируемой величины; N - число реализаций в экспериментальной выборке. Значение Н оназаJrось равным 0,386. Для допошштельной провер11:и начества прогнозировапин ЭI{СПеримепта.пьный матери­ аJI был разбит па учебную и э1\заменационную выборки и на ос­ нове прогнозирующих фушщий (р 1 и (р 4 , вычисленных на материа­ Jiе учебной nыборни, бъш осуществJiен прогноз ДJIЯ этих выборо1с Да.нее результат прогнозирования сопоставляJiся с рюнимами, фа~{тичес1{И существующими в пластах. Результаты такого сравне­ ния приведены па рис. 2, где I{ружочI{ами обозначены реализации учебной выборI{И, точн:ами - ЭI{Заменационной. Из рисунка вид­ но, что естественный рюним нефтяного пласта с достаточной точ­ иостыо мтrtно прогнозировать по данным геолого-физичесного описания, имеющимся в начальный период разработ1ш. ЛИТЕРАТУРА 1. 2. 3. М. А. Jl{дапо в , А. А. Карцев. Нефтепромысловая геологнн и гидрогео­ .логня . М" Го стоптсхиздат , 1958. И . Т . Турбо 1тч. О нахождении скрыты х занономерностей на основе оп ы тных данных. - Сб . «Нелинейные н линейные методы в распо з па­ ванн11 обра :юв». М" «Науна» , 1975. Е . Ф. IО1мо в . I-Iа хо ж1 ( еште одномерных нелинейных преобразованиi i на основа нии. - одномерных статистичесних харантеристик при прогнозирова­ Сб. «Нешшейные и линейные методы в распознавании образом. «l-Iayl\a», 1!175. 4. 5. 6. 7. В. Г. Гипшс. Алгоритмы прогно::~ирования и синтеза признюшв с исполь­ зованием одномерных I\усочно-шшейных фуннций.-Сб . «Нелинейные и линейные методы в распознавании образов». М., «Hayl\a>>, 1975. В. Г. Гитис, В. С. Нагорr~ов, И. Т. Турбович, Е . Ф. Юрков. Решение задач медицинсI{ОГО и сейсмичесl\ого прогнозирования па основе ис­ пользования одномерных нелинейных преобразований . - Сб. «Нели­ нейные и линейные методы в распознавании образов». М" «Hayl\a>>, 1975. Е. Ф. Юрков . Статистичесl\иЙ анализ модели прогнозирования, исполь­ зующей одномерные нелинейные преобразования.- Наст . сб. Н. Дрейпер, Г. CJ1iu.m. Принладной регрессионный анализ . М" «Стати­ стиl\а», 1973. А. П. Вайпиипоr., Е. И. Пабапова, В. А. ]v!ахо нш-~ 1{ ис11ользованию алгебраичес1шх приемов идентифи1шции систем дш1 ана;rшза речи Для улучшения качества речи, ИСI{ЮНенной помехами, и для представления элементов слитной речи нужно идентифицировать акустическую модель речеобразования и входные сигналы эгой модели. Нестационарный и нелинейный харю{тер точной модеJiи вынуждает исследователей ис1шть та 1 ;ие представления речевого 30
сигнала, I{оторые допускали бы артИI{уляторпую интерпретацию и простые процедуры оценивания параметров приближенных мо­ деJ1ей. Способ построения упрощенной модели, несмотря на I{а­ жущуюся доступность анализу арти1\уляторных действий говоря­ щего, до сих пор остается предметом споров. Единственное, что, как кажется, аденватность начинают признавать эпергетичесного все исследователи,- это спектропо.посного не ­ препарирования тонкой временной струнтуры речевого сигпаJ!а. Предположен; ие о существенности медленных изменений параметров I\олебатель­ ных номпонепт и несущественности тоrшой временной стру1\туры, не влияющей па разборчивость речи, передаваемой по телефон­ ному напалу, оназалось безвредным лишь в техни1{е синтетичесной l\aI{ телефонии. Многие из описанных явJ1епий, сопровождающих изме­ нения темпа речи, оназались артефантами сонографа. Попытни автоматичеСI{ОГО выделения сочетаний сигналов, отож­ дествляемых с признаками фонем, продолжаются, но уже без особого энтузиазма. Хорошо воспроизводимыми элементами слит­ ной речи оказаJ1ись фрагменты сигнала, близкие к слогам, особен­ но типа согласный - гласный (СГ ) . Сообщения об успешных опы­ тах по автоматичесному обнаружению этих слогов поступают из многих лабораторий [1-3]. Стремление повысить разрешающую способность анализаторов состава сигнала привело лиза непрерывных к переходу от 1шассических методов ана­ I\ сигнаJ1ов современным приемам дис1>ретпого анализа, в частности 1• а.пгебраичестюму аппарату теории [4, 8]. систем Использовюше рекуррентных соотношений этой теории по ­ зволяет ограничить время формирования суммы е но.пебаний до = 2е 1 отсчетов диснретной шr<аJ1ы ·времени. Этот предел быстродействия достигается распараллеливапием обработки , ие­ + k СI\Олько отсчетов сигнала выступают при этом I\aI\ единый веrпор. Хар а1{теристики системы представляют при этом переходной мат­ рицей, формуJ1а преобразования энвиваJ1ентпа предсr\азапию о 1 о и 1 и n-lc -п - k+1 (1) о и 1 П.2а1 11. и -п - 2 itп-1 р Предсказание и 11 = ~ aiun-i требует знания веr\тора коэффиi= 1 циентов - а. Проверку адекватности представления модели порО?-н­ дения сигнала линейной системой со стационарной переходной матрицей можно произвести без вычисления 1юэффициентов пред­ сказания. Достаточно заполнить отсчетами сигнала матрицу Ган- 31
неля и вычислить ее определитель UnUn-1 • • • Un-P-1 Un-P Un- 1Un- 2· • • Un- p-zUn-p- 1 (2) Un-PUn-P-1· • • Un-2p-1Un-2P· Если определитель этой матрицы равен нулю, то это означает, что последние 2р 1 отсчетов сигнала порождались линейной си­ + стемой со стационарной переходной матрицей. Прюпичес1ш значе­ ния сигнала исна ж аются помехой, что приводит 1< флу1{ туат\иям значения этого определителя даже там, где порядо1< системы доста­ точен для представления тенущих отрезнов сигнала . В те моменты времени, ногда условие достаточности не выполняется, этот опреде­ литель унлоняется от нуля, мые образуя хара~<терные всш1ес1{ и. Са­ мощные всплески отмечают моменты смыкания голосовых свя­ зон, где резно меняются нак начальный ве~< тор, та~< и порядо1{ си­ стемы. Моменты размьшания связок, поднлючения и отключения носовой полости сопровождаются менее интенсивными всплеснами . Тан же, KaJ{ и в исследованиях подобного ме тода, основанного на вычислении определителя Грама [5, 6], возника~от трудности с определением допусна на уклонение определителя от нуля, та~< кан динамичесний диапазон значений определителя очень велик . Были предприняты вычислительные э1<сперименты с использова­ нием перемешивания отсчетов [7] перед заполнением определителя и использованием опредеJrителя с перемешанными отсчетами при задании доверительных интервалов . для значений неперемешанно­ го определителя. Если определитель (2) разложить по элементам первой строrш (или столбца), то получится уравнение линейного предсI{ азания йпА11 где А - + Ип-1А12 + ... + Ип-рА1р = О, адъюнкты . Сравнение Un и 'iiп и нескольких других 1<0мбинаций, предска­ занных Un+i• 'iiп+z, с истинными позвоJrяет вычленить в сигнале мо­ менты смынания голосовых связо1< и отрезки свободных нолебаний значительно увереннее, чем непосредственно по полному опреде­ лителю гаю<елевой матрицы, и с большей точностью, чем при ис­ пользовании определителя Грама. Пример членения приведен на графиках рис. 1, где поназаны осциллограммы сигнала , кривые определителей ганнелевой матрицы разных порядков, что нужно для оценки ранга переходной матрицы порождающей системы, и ошибки предсказания. Эти кривые указываiот на полезность I{у­ сочно-стационарного представления акустической модели речи, параметры которой должны оцениваться синхронно с работой го­ лосовых связон. Артикуляторные движения:, пренебрегая изменениями на участ­ ке свободных нолебаний, :можно описать моделью, определяю- 32
6 8 Рис. а - 1. Пример членения речевого сигнала участоR перехода в сочетании 3-го порядка; г - в - ну; б - значение определителя ганRелевой матрицы модуль значения опре1J;елителя ганкелевой матрицы 7-го порядRа; модуль оmибни предсназания щей эти движения, можно продоJrжить это расчленение моделей и далее, выделял блоки, описывающие отдельные фу1шции, и бло­ ки, обеспечивающие взаимодействие этих функций. При такой де1,омпозиции всегда сохранится блок, имитирующий акустические процессы в речевом тракте. Для ускорения самонастройки этой модели в свою очередь потребуются измерительные процедуры, способные оценивать отдельные параметры формантных колеба­ ний независимо от всех остальных и на коротком отрезке сигнала. Геометрический подход здесь также оказывается эффективным. Рассмотрим, например, одну колебательную компоненту х (пт) = Ae-5ni- cos (rопт 'ljJ). Значения ее отсчетов связаны с принятыми параметрами колебаний ro, б следующими соотноше­ + ниями: а,2 = - e-2s~ ' По записи колебания х (пт) можно сформировать последова­ тельность векторов G1 , G2 , •• " Тогда на плоскости с координа­ тами (хп, Xn+i) синусоидальное колебание изобразится эллипсом, Gn· а экспоненциально модулированное синусоидальное колебание 2 Распознавание образов 33
(j р !/п -О,б (} ~/ ~ 11 0,5 0,5 -1 1 Ае р' Рис. 2. Геометричес.J<ое пред· с.тавление спиралью. Геометрические использовать для сигнала характеристики этих кривых можно оценивания параметров по короткому отрезку сигнала. 1. Оценка постоянной времени б. Площадь треугольника, об­ разованного на плоскости (хп, Хп+ 1 ) концами векторов ~,17 ~п+~• ~п+ 2 (рис. 2, а), записывается через отсчеты сигнала х (n-r) по фор- муле хп+1 1 хн+l Хн+2 1 х:п+2 хп+3 1 х Рп = п Отношение площадей Рп и Рп+ 1 на спираJIИ зависит от посто­ янной времени б: Рп+ 1 1Рп = е- 25 ~. Для повышения помехозащищенности на отре3I-\е из сигнала 34 постоянная времени определяется с N отсчетов накоплением до
деления по формуле е-20'" = N-Б ;N-Б ~ Рn+lpn+2 ~ РпРп+2· n=I n=I Полученную оценку можно испоJrьзовать для компенсации за­ тухания. Остальные параметры определяются по незатухающе­ му колебанию у (n't) = х (n't)e 0n-r =А cos (ron't -ф). + 2. Оценка амплитуды А. Для последовательных отсчетов синусоидального колебания у (n't) справедливы выражения у;,+1 - УпУп+z = = А 2 sin2 ffi't, УпУп+з - Уп+~Уп+2 = -2А 2 sin2 ffi't cos ro't, откуда (УпУп+3 - Уп+1Уп+2)/(у;,,+1 - УпУп+2) = - 2 COS ffi't . Мгновенное значение амплитуды определяется из выражения А2 __ 4(у2 n+I -упуп+2)3 4 (у;,+1 - YnYn+z) 2- (УпУп+з - УпнУп+2)2 На отрезке из N и п =v· n отсчетов амплитуда оценивается по формуле (3} где М = N - 3. 3. Оценка частоты ro. На плоскости (уп, Уп+ 1 ) синусоидальное колебание у (n't) изображается эллипсом (рис. 2, 6), большая ось которого повернута относительно оси Уп на угол п/4. Соотношение полуосей эллипса определяется частотой ro и интервалом дискре- + тизации 't. Перейдем к системе координат (р, q): Рп = Уп1У2 Упн1У2, qn = -Уп1У2 Уп+ 1 1у2. По двум точкам эллип­ са Sn (Рп, qп) и Sn~ 1 (Рп+ 1 , qn+ 1) можно определить отношение его полуосей (В 8 /А 8 ) 2 = (q;,+i - q';,,)!(p';,, - р';,,н). Подставив в эту формулу выражения для координат р и q, получим + + tg 2 ( W't/2) + 2Yn+I - = (-Уп = И 11 /Vп . Уп+2}f(Уп + 2Уп+1 + Уп+2} ДJrя N отсчетов сигнала величина tg 2 ( w't/2) определяетсн по выражению, аналогичному (3) при !VI = N - 2. 4. Оценка начальной фа3ы 'Ф· От последовательности векторов Sn с координатами (р, q) можно перейти к последовательности век­ торов S;,_ На ПЛОСКОСТИ (р', q') (рис. 2, в), ПрИ ЭТОМ ЭЛЛИПС преобра­ зуется в окружность. Координаты векторов связаны соотношения- ми р;,, = Рп, q;,, = qпftg ( ffi't/2}. Если затем сделать поворот осей координат на угол + 'ф) + + - (cpn + -[оп/2 (п - 1)UJ't ;ф] и перейти к координатам (р", q"), то получим для ВеI<тора s;~ координаты р;~ = А е , q;~ = о ИЛИ = 2* 35
в развернутом виде + 'ф) - q~ sin (срп + 'ф) = р~ sin (срп + 'ф) + q~ (срп + 'ф) = р~ COS (срп COS Ае, О. Записав аналогичную систему уравнений для веI{тора s~н и подставив выражения для р~ и q~ через отсчеты сигнала у (n-i-), получим COS ( (/)n ( COS V~ Ае (Yn + Упн) tg 2 (wт/2) + 'Ф) = L \Рп-1 -1 tg2 (wт/2) (Yn + Упн)2 + (Yn - Yn+1)2 = Р, V2 Ае(Уп+t +Yn+2)tg 2 (wт/2) 'Ф) = tg2 (w-r/2) (Упн + Yn+2)2 + (Упн - Yn+2)2 = Q. Используя формулу для косинуса суммы двух углов, можно получить мгновенную оценку начальной фазы tg\p = 'ljJ : Р cos ЧJnн - Q cos <pn р . . = Иn/Vn • sш <pn+l - Q sш <pn Для N отсчетов сигнала tg 'Ф определяется по формуле , анало­ гичной (3) при М = N - 2. Процедуры измерения параметров компонент сигнала объеди­ няются вместе с процедурами моделирования процесса генериро­ вания сигнала, с процедурами обнаружения моментов смыкания голосовых связок и фильтрации компонент в схеме анализа через синтез, которую, как ожидается , можно будет дополнить моделя­ ми артикуляции, алгоритм просодики и т . д. и получить автоматического представления универсалыrый речевой деятельности человека. Относительно структуры этого возможного алгоритма можно высказать следующие предположения . Посколы{у произноситель­ ной единицей является слог, то объектами анализа должны быть план произнесения слога и те отдельные параметры, которые свя­ заны с диалектными и с индивидуальными особенностями гово ­ рящего, с влиянием на слог более крупных произносительных еди­ ниц, таких, как слово, словосочетания и фразы. Если все, что было связано с выбором слога и его параметров, рассматривать как постоянный вектор -параметр , задающий весь процесс на протяжении длительности слога (длительность в ходит как одна из величин, составляющих этот вектор-параметр), то от­ сюда последует невозможность линейного совместного представ­ ления и оценивания параметров и состояния [9]. Это означает, что все подходы к такой задаче должны быть типа настраиваемой модели, т. е. иметь итеративный характер. Схему настраиваемой модели можно составить так, чтобы отделить общечеловечесное от индивидуального. Так все фильтры, преобразователи и т. д. мож­ но расчленить на пары блонов, один из которых - основной, опорный , «смысловой», другой - «индивидуальн;:r,1й», ноторый 36
связывает конкретную реализацию сигнала с опорным блоком . Одно из требований к опорному блоку - удобство оценивания . Такое представление парами блоков можно развить на всех уровнях начиная с акустики. Например ; известны пересчеты пара­ метров речевого тракта муж чины в параметры речевого тр а кта женщины или р е бею{а [10], коартикуляции, интонаций и т . д. Реализация настраиваемой модели потребует создания эффек­ тивных вычислительных методов, специфика в которых должна учитываться речеобразования . ЛИТЕРАТУРА 3. А . В. Книппер, В. А. Махонин . R описанию речевых сигналов . - Сб. «Речевое общение в автоматизированных системах» . М" «Наука», 1975. S. Riviera. Real-time automatic detection of syllaЫe nuclei in continuous speech. - Speech communication Seminaг, Stockholm, Aug. 1- 3, 1974. О. Fujimura. SyllaЫe as unit of speech гecognition.- IEEE Tгans. Acoust. 4. В. 5. 6. А. Н. Собакю~. Об определении формантных параметров голосового тракта по речевому сигналу с помощью ЭВМ.- Акуст. журн" 1972, т. 18, No 1. Н. W. Strube. Determination of the instant of glottal closure from the 7. И. Ш. Пинскер . Оценка метода обучения и обучающей выборни.- Сб. 8. «Моделирование и автоматический анализ электрокардиограмм». М., «Наука», 1975. В. И. Арl~олъд. Обьшновенные дифференциальные ур а внения. М., «Наука», 1971. П. Эйкхофф. Основы идентификации систем управления. М" «Мир», 1. 2. Speech and Signal Processing, v. ASSP-23 Febr. 1975. W. Dickinson, Т. Kailath, М . Morf. Canonical matrix function and state-space descriptions for deterministic and stockastic linear systems.IEEE Trans" v. АС- 19, N 6, 1974. speech wave.- JASA, 1974, v. 5G, N 5. 9. 1975. 10. Quart. Progr. Status Report Speech Transmiss.- Lab . STL QPSR 2-3, 1975, Stockholщ . М . В . Наваров, Ю . Н . Прохоров Алгоритм совместного рекуррентного оценивания параметров речевых сигналов Разработка оптимальных методов сокращенного представле­ ния речевых сигналов может быть сведена к задаче синтез а уст­ ройств оптимальной идентификации исходной параметрической модели речеобразования . Н а иболее эффективным метод ом при этом является одновременное совместное определение всех параметров модели по наблюдаемому сигналу. Вместе с тем в целях упроще­ ния структуры синтезируемых устройств процедуру оценивания обычно разб~щ:~.ют щ1 два этапа: цдецтификация модеJщ речевого 37
тракта и оценивание параметров модели источника звукового воз­ буждения. Решение задач каждого этапа может производиться последовательно, когда на втором этапе используются результа­ ты первого, и параллельно (независимо), когда задачи двух эта­ пов рассматриваются как раздельные. Естественно, что упрощение синтезируемых устройств при по­ следовательном и параллельном двухэтапном оценивании дости­ гается за счет некоторого снижения эффективности. Процедуры оптимального независимого оцениванил парамет­ ров рассматривались в литературе. Так, в работах (1, 3] сравни­ тельно подробно исследованы вопросы синтеза оптимальных и субоптимальных устройств выделения основного тона, а также по­ строения устройств выделения сигнала возбуждения следящего типа [2]. В ряде работ синтезированы схемы оптимального оцениванил локально-постоянных параметров модели речевого тракта [4, 5]. Синтез алгоритма совместного оцениванил в литературе не рассматривался. Вместе с тем такал задача представляет опреде­ ленный интерес, так как ее решение устраняет известное противо­ речие между стремлением повысить точность оцениванил парамет­ ров речевого тракта и необходимостью знания сигнала возбуж­ дения для осуществления такого улучшения. Для облегчения решения указанной задачи целесообразно использовать рекуррентные алгоритмы, которые удобно синтези­ ровать, применял теорию марковской фильтрации. Разработка оптимального устройства оцениванил позволяет не только предста­ вить структуру оптимального анализатора, но и выявить наибо­ лее целесообразные для практики упрощения. С таких позиций, например, были синтезированы упрощенные алгоритмы рекуррент­ ного оцениванил, рассмотренные в [6]. В одном из наиболее общих случаев речевой сигнал х (t) и сигнал звукового возбуждения (t) связаны интегральным уравне- f нием t х (t) = t Shx ({} 1, и) х (и) du о 1, т) f (-t) d-t, (1) о где hx ({} 1 , t'), h1 ({} 1, связи и прямой цепи. В + Sh1 ({} неснолько h1 ({}1, t') = б (t' - t') - импульсные более простом t), тогда реакции варианте цепи можно обратной положить t х (t) = Shx ({}1, и) х (и) du + f (t). (2) о Для параметризации уравнения (2) представим импульсную реанцию в виде ряда hx ({}t, t') = 38 {}f qJ (t'), (3)
tде ttt речевого [{}1 (t), '62 (t), тракта, qJ . " &т (t)Ji' - веюор параметров ?vioдe.ri й (t') = [ср 1 (t'), . . "IPm (t')]T, {cpi (t)}~1 - ансамбль ортогональных с произвольным весом функций . Модель (2) является довольно общей. Т.:ш, при выборе в I{а­ честве IPi дельта-фушщий можно получить обычное уравнение ав­ торегрессии - модель линейного предсн:азания. В случае, когда ортогональные функции обладают неперекрывающимися и при­ мыкающими друг к другу спектрами, логу полосного вокодера Из (2), (3) следует Xt itT z (х~, t) + (1 - v) a1s1+ b1n 1, = где Xt + btnt приходим к некоторому ана­ [7]. = (4) + х (t); х~ - траекториях (t'); О< t' < t; f t = f (t) - сигнал = (1 -v) a1st возбуждения с основ­ t звукового zi(t) = 5<pi(t-u)x(u)du; о процесс, at - буждение " = { 1, управляющий амплитудой st; nt - шумовое воз- белый шум с дисперсией Й; если основной тон отсутствует. О, если произносится озвученный участок речи. Наличие в модели itt и п 1 обусловливаXt. , Наибольшие затруднения вы~ывает построение модели a 1st. (4) случайных процессов ет стохастический хараI{тер Здесь возможны несколько под:Х:одов. Рассмотрим один из них. Представим сигнал основного тона в виде ряда Фурье N a1s1 = ~ [Ak + mkD\k>] sin (wkt +~\к>+ ер~">), (5) k=l где N - количество гармоник ряда, wk, Ak - частоты и амплиту­ ды гармоник в отсутствии модуляции, D\k\ ~\к> - процессы, управляющие звуковым возбуждением при артикуляции, ~}к) cp\k> = e~k>, ер\"> - случайное колебание фазы гармоники за + + счет неточности модели, а также вследствие нестабильности опор­ ных генераторов анализатора. Ащ (k) D'k) Введем следующие предположения о itt, t' t , IPt , t • I. Параметры являются независимыми случайными процессами. II. Параметры модели удовлетворяют следующим стохасти- ческим уравнениям: + Gэ.d'l'J41- (t), + G13dYJ13 (t) + Gq>d'l'Jqi (t), -F13~ 1 dt + G13dYJ13(t), dD = - dit 1 = - F 41-it1dt d0 1 = - F13~ 1 dt d~ 1 = d<p 1 = Gq>d'l'Jqi (t), 1 FnD 1dt + Gnd'l'Jn (t), (6) 39
где 0 1, ~ 1 , D 1, <р 1 - векторы-столбцы N Х 1; Рэ, Fr;,, Pv, Gэ, G~, Gv, G"'-диагональные матрицы с элементами, известными априори; 'f)э (t) , 'f)r;, (t), 'f)D (t), 'f)"' (t) - векторы-столбцы (N Х 1) независимых винеровс1шх процессов. Правомерность такого предположения относительно парамет­ ров уравнения (5) в какой-то мере подтверждается эксперимен­ тальными данными [8]. В связной речи, однако, все параметры могут изменяться скачкообразно. В этом случае применение (6) приведет к некоторому «размазыванию» скачков, тем не менее пе­ реход I{ моделям с непрерывно изменяющимися параметрами удоб­ но производить начиная с простых случаев типа (6). III. Будем считать, что эффективная полоса пропус1{ания це­ пи обратной связи схемы слежения за k-й гармоникой основного тона тю{Ова, что в полосу захвата попадает лишь одна гармоНИI{а. Принятые предположения дают возможность решить задачу синтеза методами теории нелинейной марковской фильтрации в гауссовском приближении. Следует, одНаI{О, заметить, что это предположение правомерно здесь лишь в режиме высокой апосте­ риорной точности, так KaI{ в (5) присутствует нелинейность. По­ строение оптимальных структур в негауссовском случае, каI{ пра­ вило, приводит I{ необходимости значительного увеличения ан­ самбля оцениваемых параметров. Вследствие этого представля­ ется целесообразным проведение синтеза анализатора для уста­ новившегося режима; начальные условия в этом случае могут за­ даваться некоторым устройством «грубого измерения», функцио­ нирующим на начальном интервале времени. В качестве такого устройства может быть использован нелинейный фильтр, разрабо­ танный для оценивания локально-постоянных любое другое устройство параметров, или (например, для получения начальной оценки мгновенной частоты основного тона можно использовать один из известных методов выделения сигнала основного тона) . Используя в рамках принятых ограничений методику теории нелинейной фильтрации ния для оценок риорного . mм . =- Fэmэt 1 - 2[{ + (1 -v) ь2 + v ' 2FэК - рП•)т(к) +· (! (!t х cos (w1rt 40 параметров и семиинвариантов апосте­ распределения: К=--= z-Gэ • (lr) т131 [9], можно получить следующие уравне­ искомых 2 (1 -v) ь2 +v 2 (1 - v) к&~ (1 -v) Ь 2 v + e~lr)), t в 1 z (х0 , t), t t Kz (х0 , t) zт (х0 , t) кт, m,JJ<tк)] Bt Х + [А,,.+ п. " (7)
;.(k) Dt = - (k)л(k) Fv Dt + (2(1-v)K~b 1 _ v) ь2 + v _ 1 Gщ 2 p<kJ т,т(k) к. <кJ 1313 - 2 {3 13 Ll 13(3 1 (G(kJ j((k) ее =т - 13 + c<"J) <р [ + т1;Dл<кJ t ] 1- v (1 _ v) ь2 2 ( р(к) т7 (k) 13 L1.(3e - +v [А [А 1- v (1- v) ь2 +v k + т1; Dл(kJ (K<kJ) t ] 13е ' 2 к<кJ 2 р<кJ (3 130- - 1- v А т k r кJ _ 1 c<kJ к. 138 - 2 13 - л(k) . mkst sш (ffiкt + E>i ), k ' т K(kJ)2 ее , р(кJк<кJ 13 mk 13(3 - fy{kJ2 t ] Х к<kJкоо 130 (8) ее, N Bi = х1 - Т t mмz (х0 , "1 t) - (1 - v) L.i [А 1, + mt;Dt л (k) ] sш (ffi1,t + 81 ), л(k) • k=l где mм, т~:J, (индекс k 0~ 10 , относится инвариантов оценки fj\'» - оценки параметров 'itt, ~\kJ, I{ номеру гармонИiш); т,т(lr) тм; дf3f3, т,т(/r) т,т(k) К т,т(k) д13е, дее, дDD - - e\1•J, D\kJ матрица семи- семиинварианты оценок параметров сигнала основного тона; v - случайная вели­ чина, оценивание которой может быть произведено с помощью из­ вестных методов автоматического выделения озвученных участI{ОJЗ речи [1] или посредством нонтроля процесса Dt . Уравнение для семиинварианта к<J!;Ь не приводится, таI{ на1{ не зависит от наблюдений и оценои других параметров. Первые два уравнения (7) моделируются устройством, блоI{­ схема 1щторого приведена в [7]. Отличие от рассматриваемого слу­ чая заключается в способе формирования et - необходимо учесть наличие оцении сигнала основного тона l1, 1 1 , иоторую следует вы- честь из уилонения Xt - mT z (х~, t). s Построение блои-схем устройств, моделирующих остальные уравнения, не вызывает за­ труднений. Отметим, что уравнения, определяющие оцениу ats1 , описы­ вают систему ФАПЧ, близиую и ранее применяемой для выделе­ ния основного тона в [1]. Полученные результаты могут быть обобщены на случай неиз~ вестных априори матриц F.[)., F13 , F D в соответствии с иваз:uоnти­ мальной адаптивной нелинейной фильтрацией [10]. Для упрощения процедуры анализа приведенный способ сов­ местного оценивания можно использовать на одном или несиоль­ иих этапах последовательного оценивания параметров сигнала [6]. В этом случае размер1юс1ъ ВеI{тора 'itt и матрицы К уменьшается, JI !J.ЛГоритм оназывается бQЛ/?1? простым. · 41
ЛИТЕРАТУРА 1. 2. 3. 4. 5. 6. 7. 8. А. А. Пирогов и др. Вокодерная телефония. М., «СвязЬ», 1974. С. П. Баропю~, А. И. Куштуев. О построении выделителей основного тона речи следящего типа.- 8-я Всесоюзная конференция по акустике (рефераты), т. 1. м" 1973. ' С. П. Баропип. Статистичесние методы анализа речевых сигналов. ~ Электросвязь, 1966, No 5. F. Italcura, S. Saito. А Statistical Metliocl fог Estimation of Speech Spectгal Density and Formant Frequencies.- Trans. lnst. Elect. Com. Engr. Jap" 53-А, 1, 1970. М atsui, N alcajima, S uzulci, Omura. Speech Analysis Ьу Kalman Filteг Theory. - Bull. Electrotechn. I~ab" 1972, v. 36, N 3. Ю. Н. Прохоров. Рекуррентное оценивание параметров речевых сигна­ лов.- Наст. сб. М . В. Назаров, IO. Н. Прохоров. Оптимальное оценивание параметров речевых сигналов.- Эле1tтросвязь, 1975, No 10. Н. L. Schaffa, L. Dolansky. Он the Information Rate of Pitch Signals.- IEEE Int. Conv. Rec" pt 6, 1964. 9. 10. В. И. Тихопов, 10. В. Саютип. Синтез автоматических систем передачи информации с нелинейными фильтрами.- Сб. «Статистические методы в проектировании нелинейных систем автоматического управления», под ред. Б. Г. Доступова. :М:" «Машиностроение)>, 1970. Р. Л. Стратопович. Принципы адаптивного приема. М., «Советское радио)>, 1973. В. Н. Сорокип Элементы кодовой структуры речи Системы автоматического распознавания и понимания речи должны обеспечить человеку управление сложными автоматами, обеспечить доступ к автоматическим информационно-справочным системам, а в дальнейшем - помочь общению с искусственным интеллектом. Речевое общение человека с машиной эффективно только в том случае, когда система автоматического понимания речи достаточно надежна и не затрудняет процесс общения ошибка­ ми и переспросами. Существующие системы не обеспечивают та­ кого уровня эффективности прежде всего потому, что речь сфор­ мировалась для общения между людьми, и для понимания ее важ­ ны такие категории, как мимика, жесты и, главным образом, смысл сообщения, которые пока недоступны автоматическому анализу. Другая причина состоит в том, что структура речевого сигнала чрезвычайно сложна, и в практичес1шх разработках до сих пор удавалось использовать лишь отдельные частные свойства речи. Только в последнее время начинают создаваться системы, учиты­ вающие более широкий круг этих свойств: фонологические пра­ вила произношения, грамматические ограничения на структуру фраз и т. д. Все более увеличивается потребность в синтезе сведений для создания модели структуры речевого сигнала, которая учитыва­ ла бы основщi!е свойства речи и могла бы использоваться при раз- 42
работке аЛГорИт:Мов fiрйнят:ИЯ реinений. Такая моде.ЛЬ должна опираться на сведения о процессах речеобразования и восприя­ тия, а методы ее исследования должны быть аналогичны методам, использующимся в теории кодирования. Это вытекает из основ­ ного назначения речи - передачи информаци:И, причем в данном случае нас интересует лишь одна сторона этого сложного процес­ са - передача фонетической информации. канала поддерживать связь в условиях Способность речевого высокого уровня помех и искажений и возможность членения речевого пото1{а на дис­ кретные элементы (слова, слоги, фонемы) позволяют отнести речь к классу корректирующих кодов и применить для ее исследова­ ния методы, развитые в этой области. Вместе с тем имеются и не­ которые отличия от обычной ситуации, рассматриваемой в теории 1юдирования. Эти отличия состоят в том, что ПОI{а не обнаружено ника1юй алгебраичес1,ой стру1{туры речевого I{ОДа и можно стро­ ить лишь процесс декодирования речи, тогда как изменять ее ко­ довые свойства нельзя. Схема кодирования речевой информации устанавливается ис­ следованием процессов речеобразования. Эта схема такова: сло­ во является наименьшей смысловой единицей речи. Словесный об ­ раз :мысли перекодируется в последовательность нейромоторных команд, управляющих движениями артикуляторных органов: языка, губ, небной занавески, голосовых связок и нижней челюс­ ти. Кинематические и динамические свойства артикуляционного аппарата приводят к взаимному влиянию артикуляционных про­ цессов, в результате чего наименьшей единицей артикуляции ОI{а­ зывается слог, и команды управления формируются для слога в целом [1, 2]. Для достижения необходимой точности артикуляции система управления включает в себя несколько цепей обратной связи: тактильную, проприоцептивную и акустическую. Голосовой тракт представляет собой акустичеСI{УЮ систему с распределенными параметрами. Поэтому каждое элементарное артикуляционное движение приводит к изменению многих акус­ тических параметров речевого сигнала. Некоторый набор артику­ ляционных движений и состояний, выполняемых одновременно или последовательно, характеризует фонему - наименьшую сло­ горазличительную единицу речевого потока. Описание речевого сигнала в терминах фонем дает наиболее экономную запись сооб­ щения. Процессы кодирования речевой информации харю{теризуются большим разнообразием ЗаI{ономерностей, осложняющихся инди­ видуальными различиями произношения. Основные результаты в речевых исследованиях были получены путем выделения отдель­ ных свойств и изучения их по возможности независимо от других . Вместе с продолжением этой важной работы необходимо и объеди­ нение уже известных закономерностей на основе более общего под­ хода к проблеме автоматического понимания речи. 43
Принцип <шростотЪп). свойств языка Результаты некоторых и восприятия показывают, исследований что сложность процес­ сов переработки информации играет важную роль в формировании структуры речи, например, закон Мандельброта [3], полученный из условия маI{Симизации информации при ограниченной стоимо­ сти сообщения, удовлетворительно описывает распределение веро­ ятностей слов ~ Р-'\ ~ 1\ / 1 о, /б и фонем (рис. 1). Эксперименты по восприятию речевых и неречевых стимулов [1, 4, 5] 11 '1 /". \1 1/1 1 \ \\!! O,tz \ f \f 1/ )/ 0,8 ность мозга близка к 2 бит/символ, а оперативная память к 9 символам. При увеличении размерности прост~ ранства признаков разрешающая спо­ \. \/ у 0,0fj показывают, что пропусюшя способ­ О,б \ 1/ Рн собность по каждому признаr{у па­ дает до 2-3 градаций . Способность человека анализировать большие мас­ сивы информации может объясняться 0,4 0,04 · О,2 перекодированием ТМНСП!iЛfР!ЗДШЗ{5 ГЖ Рис. 1. сваивается уровня, Распределение вероят­ нов по - - - Аналогичная вероятность правиль­ ного приема звунов по более высокого вновь группи­ идея многократной группировки символов привела [10] зданию щихся собностью и простотой символ эти символы информации до приемлемого уровня. встречаемости зву­ [23 ]; - - в процессе rш­ руются и т. д. до снижения объема ностей фонем --- · частота [6], торого группе входных символов при­ каскадных высоI{ОЙ деI{одирования кодов, к со­ отличаю- исправляющей спо­ [7]. Указания на то, что в формировании струr{туры речи сложность процессов генерирования и анализа речевых сигналов играет столь же большую роль, как и надежность речевой связи, приводят I{ некоторым важным следствиям. Прежде всего это дает основание для анализа структуры речевого кода методами, рии кодирования, и позволяет применять приемы декодирования из этой теории. в развитыми в тео­ подходящих случаях Отсюда также следует, что в целях экономии па каждом уровне речевого потока все имею ­ щиеся связи могут не использоваться, и что некоторые уровни могут обладать даже нулевой исправляющей способностью, лишь обнаруживая ошибки. Одно из практических следствий состоит в аналогии между ре­ чевым кодом на уровне слов и кодами Шеннона - Фано и Хафме­ на [8]. Распределение вероятностей, полученное максимизацией информации при ограниченной стоимости и предписывающее сло­ ву тем меньшую вероятность появления, чем оно «дороже», мож­ но рассматривать как обращение принципа, используемого в этих кодах, по которому наиболее вероятным словам присваиваются более короткие коды, а наименее вероятным - дJrинные. Как известно, коды Шеннона 44 - Фано и Хафмена являются
непривоДи:М:Ьrми свойством, что (или префиксными) никакое кодамй, оолаДаюЩймй 'l'eM кодовое слово не является началом дру­ гого rшдового слова, и это свойство позволяет выделять кодовые слова из непрерывной последовательности символов без каких-ли­ бо разделяющих сигналов. И хотя неприводимость не является обязательным признаком кодов, построенных по принципу «наи­ более вероятные кодовые слова - наиболее короткие», можно предположить, что и реальный язык в известной степени подобен неприводимым кодам. Проверка этого предположения проводилась на материале сло­ варя русских Jrитературных слов, содержащего 2500 наиболее часто встречающихся слов [9] и записанного в фонетической транс­ крипции. Слова попарно сравнивались друг с другом, причем совмещение слов происходило по их началам. Подсчет количества слов, которые служат началом других, показал, что всего таких слов нашлось 170 из 2500 (6,3%), и, таким образом, можно считать, что на уровне слов речь обладает свойством неприводимости. Об­ щая вероятность появления слов-префиксов равна 0,278 за счет наиболее часто встречающихся одно- и двухбуквенных слов, без учета которых эта вероятность равна 0,097. Этот результат имеет очень важное практическое приемы сегментации слитного зованием просодических значение, поскольку все известные речевого потока на слова с исполь­ характеристик (интонации, ударения), ИJIИ опирающиеся на вероятности начальных и конечных звукосо­ четаний, не приводят к решению этой проблемы. Подобные кос­ венные оценки, безусловно, полезны, но они лишь дополняют ме­ ханизм декодирования, основанный на префиксном свойстве cJron. Важно также и то, что алгоритмы декодирования кодов Шеннона - Фано и Хафмена являются самокорректирующимися относительно границ между кодовыми словами, и это позволяет производить де­ кодирование даже в том случае, когда начало слова по тем или иным причинам не было принято. Акустические и артикуляционные признаки. Реальность суще­ ствования артикуляционных признаков как различительных приз­ наков фонем удостоверяется в результате анализа процесса рече­ образования и некоторых особенностей процесса восприятия. Некоторые артикуляционные признаки отчетливо проявляют­ ся в процессе речеобразования - это включение голосового ис­ точника, полтнение нёбной занавески, смычка и т. д. Эти при­ знаки можно выявить и в процессе восприятия. Так, в матрицах пе­ реходов фонем, полученных при субъеrпивном восприятии слогов ГСГ в условиях маскировки шумом, видно, что реализуются дале­ ко не все возможные переходы, а ошибки совершаются за счет маскировки одного-двух артикуляционных признаков [10] (табл. 1). Более того, известны ЭJ{сперименты по кратковременному ви­ зуальному запоминанию слогов, в которых матрицы переходов букв в известной степени аналогичны матрицам переходов фонем, 45
Таблица 1 Матрица переходов фоне~~ б д г ж з л в м н 1 б 76,1 13 14,8 0,2 2 3,9 0,1 0,1 0,1 0,1 д г ж 3 в л м lI ll 13,3 71,2 19,4 2,5 11,5 5,1 0,3 0,1 0,2 т 6,5 10 ,6 53,3 4 8,9 12,2 0,3 0,1 0,2 0,1 45,5 4,2 0,7 0,1 0,4 0,2 2,7 24,5 41,9 4,5 0,5 0,1 0,9 0,7 2,5 7,2 10,4 48,2 0,6 0,1 0,1 0,3 0,7 0,4 0,2 0,8 2,3 5,7 96,4 2,4 2,0 0,1 с ф 0,1 0,4 0,5 65,7 10,8 0,1 0,1 0, 3 0,3 0,6 29,2 82,7 0,1 0,1 0,2 0,1 1{ ш 0,2 0,1 0,1 0,1 0,1 так, как если бы происходило перекодирование зрительных обра­ зов в слуховые [11]. Хотя все артикуляционные признаки связаны с мышечными сокращениями в голосовом аппарате, проявление их в изменении геометрии го Jюсов ого тракта и влияние на акустические характе­ ристики речевого сигнала отличаются большим разнообразием и требуют специфических приемов анализа каждого признака. Некоторые артикуляционные признаки по характеру сопровож­ дающих их физических процессов тяготеют к двоичной градации (:включено - выключено) . Это признаки голосового источника, шумового источника, назальности, смычки, автоколебаний языка при артикуляции звука «Р». Каждому такому артю<уляционному признаку соответствует ряд акустических признаков. Например, решение о наличии голосового возбуждения может быть принято и с помощью выделения импульсов основного тона, и анализом тонкой структуры спектра через кепстр, и анализом среднего на­ клона спектра. Признак назальности характеризуется в акустиче­ ском сигнале улучшением условий изJ1учения на нижних частотах и появлением антирезонанса в области 700-1000 гц и т. д. Другие артикуляционные признаки описывают различие форм гоJюсового тракта, причем согласные звуки характеризуются ло ­ кальным, концентрированным на небоJiьшом участке изменением конфигурации ·rракта (так называемым «местом артикуляцию>), тогда как гласные отличаются более общим характером изменений. Кроме того, имеются артикуляционные признаки, характеризую ­ щие движение артикуляторных органов. Все эти признаки имеют 46
при 111ас1шров11е белы111 шумом Il н т 1 ф с ш 1 1 1 1 1 0,1 0,2 0,1 0,2 56,3 '11, 9 Н,4 2,2 4,6 16,4 14,2 60,5 19,7 :12,4 19,7 12,8 6,3 6,2 46,1 2,3 2,8 7,9 0,7 1 1,3 41,1 3,4 1,6 5,7 10,7 9,4 30,6 56,7 15,2 Н,2 6,7 7,9 7 8,2 37,6 - й х 1 2,6 0,7 2,2 1,4 1,5 6,5 0,8 2,9 5,9 13,7 16,8 16,7 0,5 1 1,8 0,4 0,2 0,1 0,2 0,4 0,5 ц ч 1 1 1 ,3 0,7 1,2 1,6 1;5 2,1 0,1 1,3 1,8 1,4 1,7 1,4 2 1,4 1,1 1 0,2 0,2 0,5 0,5 0,6 0,3 0,4 бо J1ее сложную связь с акустическими харантеристиками речево­ го сигнала и прояв ляются главным образом в положении и траек­ ториях формант. В [121 было показано, что в зависимости от того, приходится JIИ наибольшее сужение в акустичесной трубе на узел или пуч­ ность неноторой собственной функции этой трубы, происходит по­ нижение или повышение соответствующей собственной частоты . Это свойство голосового тракта лежит в основе возможности при­ нятия решений о качестве гласного на плоскости частот первых двух формант F 1 F 2 • Это же свойство используется и для ОПJ?е­ деления места артикуляции по переходам частот формант, однако в этом случае принятие решений, кан известно, затрудняется ко ­ артикуляцией не - влиянием окружающих ГJiасных звунов, на фо­ которых происходит артикуляция согласного звука. Анализ явления коартинуляц:ии позво J1яст построить процеду­ ры опредеJiения места артинуляции 1шк по пе р еходам частот фор­ мант [13-15], так и по динамине их амплитуд [16]. Наряду с акус­ тическим анализом признака места артикуJ1яции в последнее время большое внимание привлекает «анализ через синтез», позволяю­ щий восстановить форму голосового тракта. Этот метод характе­ р:Изуется большой помехоустойчивостью и дает возможность при­ нимать решения о месте артикуляции по координате наибольшего сужения, но отличается большой трудоемкостью. Таким образом, артикуляционные признаки по сложности ана­ лиза разбиваются на две группы: для одной группы достаточно :р:щюл:ьзовать непосредственно акустические характеристики ре-
чевого сигнала, а для другой имеется необходимость в «аналиsе через синтез» с целью восстановления формы голосового тракта. Соответственно этим группам признаков существуют и две теории восприятия - акустическая и моторная. Согласно акустической теории, качество фонем определяется исключительно их акусти­ ческими различительными признаками. Моторная теория предпо­ лагает, что в процессе анализа речевого сигнала определяются па- ·раметры артикуляции, которые и служат первичным описанием фонетического состава речи. Обе теории подкрепляются экспери­ :ментальными данными, но ни одна из них не смогла занять доми­ нирующего положения, что, по-видимому, отражает объективное различие в свойствах артикуляционных признаков. Как видно из последующего, при хороших условиях речевой связи достаточно лишь акустического анализа, а при повышении уровня помех может появиться необходимость и в артикуляцион­ ном аналю~е. Физиологическое обоснование возможности артику­ ляционного анализа состоит в существовании акустической цепи обратной связи, которая решает задачу коррекции нейромоторных команд управления артикуляционными движениями по аJ{устиче­ ским характеристикам текущего речевого сигнала [2]. Рассмотрим теперь возможную структуру процессов принятия решений относительно артикуляционных признаков, пе касаясь конкретных алгоритмов их выделения непосредственно из акус­ тического потока. Будем считать, что артикуляционные признаки, образующие код фонем, характеризуются постоянством значения, но интервалы времени, на которых они постоянны, для различных признаков различны и могут быть сдвинуты относительно друг друга. В этом случае препарирование речевого сигнала заключа­ ется в разделении его на последовательность неперекрывающихся сегментов, содержащих только по одному значению любого призна­ ка. Психофизические исследования показывают, что па этом уров­ не. применимы методы статистической теории решений [17], по­ этому после необходимой нормализации все вариации акустиче­ ских признаков можно считать случайными, в том числе и ту из­ менчивость, которая порождается индивидуальными особенностя­ ми произношения и взаимным влиянием звуков. Такой подход оправдывается стремлением к максимаJIЫIОЙ простоте решающих правил и возможностью коррекции ошибок на фонемном и сло­ весном уровнях. Известно, что одному и тому же артикуляционному признаку соответствует ряд акустических явлений, и в результате этого воз­ можны разнообразные алгоритмы выделения артикуляционных признаков. Если рассмотривать акустический процесс речеобразо­ вания как много1<анальную передачу информации о состоянии ар­ тикуляционного аппарата, то решение' о наличии или отсутствии того или иного артикуляционного признака можно принимать ме­ тодом накопления ских признаков i8 по множеству соответствующих ему акустиче­
11, Vi = 1 n ~ . (1) L:J Ski• k=l где vi - величина, ному признаку; пропорциональная некоторому артиr{уляцион­ ski - измеренные значения акустичес ких призна­ ков, нормированные таким образом, чтобы их можно было сумми­ ровать. Такой способ обнаружения сигнала, как известно, может дать выигрыш в п раз в отношении сигнал/помеха, если значения поме­ хи независимы. При выделении артикуляционных признаков этот выигрыш меньше п не только за счет коррелированности помех, но и за счет того, что па некоторые акустические признаки весьма сильно влияют и другие артикуляционные признаки, так что они характеризуют данный артикуляционный признак лишь с некото­ рой степенью принадлежности. Это явление учитывается с помощью весов a 1 пропорциональных информативности акустического признака относительно i-Го артикуляционного признаrш, и обра­ зования взвешенной суммы вместо (1) : ,i, +Ь aкisкi· 11, v7 = k=l Ноличество артикуляционных признаков близко к десяти. В их число входят признаки звонкости, шумности, назальност:и, аналогичный признаку назальности признак разветвления воз­ душной струи при артикуляции звука «л», признак автоколебаний при артикуляции звука «р», признак степени раскрытия ротовой полости (иногда называемый признаком различения гласных от согласных) и признак места артикуляции. Согласно свойствам восприятия, каждый признак должен иметь не более двух-трех градаций, и это выполняется для всех признаков, кроме признака места артикуляции. По этому признаку можно выделить пять мест активной артикуляции, описывающих следующие группы фонем: губные, переднеязычные зубные, переднеязычные нёбные, средне­ язычные и заднеязычные. Нинематика артикуляционного апп а ра­ та такова, что почти все эти движения могут выполняться незави­ симо, так что фактически имеется пять двоичных признаков места артикуляции вместо одного с пятью градациями. Поэтому решаю­ шие правила для артикуляционных признаков могут быть двух­ альтернативными. Процесс принятия решений относительно не­ которого сигнала обычно состоит в сравнении отношения апосте­ риорных вероятностей (отношения правдоподобия) 'А = = р (Н1 1 vi)lp (Н 0 1 vi ) с некоторым порогом 'А 0 , где Н1 и Н 0 -со­ ответственно гипотезы о наличии или отсутствии сигнала . Выбор порога 'А 0 зависит от сведений о рассматриваемой задаче, в частности от стоимости ошибок и априорной вероятности появ­ ления признака. Если цены и априорные вероятности известны, то оцтцмальа:ы111 является критерий минцмал~ного риска (крите- 49
рий :Gайеса); если известны толыю цены, применяют :мини:МаJ{С­ нритерий, гарантирующий, что рисн пе превзойдет пеното­ ный рого уровня. Стоимости ошибон на артинуляционно -фоне:мном настоящее время неизвестны, ленные по средней частоте а уровне априорные вероятности, встречаемости, имеют в установ­ значительную дисперсию, определяемую частотами слов в данном словаре и час­ тотами появления фонем в неноторой позиции слова. :Критерий Неймана - Пирсона не нуждается ни в ценах, ни в априорных вероятностях; он состоит в выборе таного Л 0 , ноторый бы :миними­ зировал ошибни сигнала, равную одного типа, например вероятность пропусна р 1 = Sp(v)dv; ),, при заданной вероятности ошибюr другого типа, например веро­ ятности ло.жной тревоги Ло р2 = sр (v) dv, о где р (v) - вероятностное разделение данного признана. Но в зnдаче распознавания артинуляционных приз:наr{ОВ пет нинаних оснований для предпочтения ошибон одного рода ошиб­ нам другого рода, и поэтому нритерий Неймапа - Пирсона сле­ довало бы применить дважды - для вычисления порога Л 01 при условии р 1 = е и для вычисления порога Л 02 при условии р 2 = = е. В общем случае Л 01 =1= Л02 , и между ними остается зона неоп­ ределенности, при попадании в ноторую относительно измеряемой реализации не принимается нинаного решения . Артинуляционный признан сохраняет свое значение на нено­ тором интервале времени т, поэтому имеется возможность прини­ мать решения не по однонратному отсчету, а по целому ряду та­ них отсчетов. Простейший и наиболее часто применяемый способ вычисления фуннции правдоподобия состоит в усреднении vi (t) по времени; он аденватен гауссовсной модели поJ11ех. Распределение вероятностей р (v), а с ним и пороги Л01 и Л 02 зависят от уровня шумов. Поэтому в нестационарных условиях необходимо наним-либо образом производить оценну этого уров­ ня. ОтноситеJrыю сигналов, попавших в зону неопределенности между порогами Л 01 и Л 02 , может быть либо принято решение о стирании, либо приписано значение правдоподобил + 1, q (и) = v Л'А' --1 , :50 и > ЛЛ; ЛЛ = - ЛЛ < v < ЛЛ; и< - ЛЛ; Л = Л 02 - Л; [7]:
В да.Jiъв:ейших процессах iiрйнятИя решений потребуются см­ дения о надежности того или иного артикуляционного признака. Их мощно получить из психоакустических экспериментов с раз­ личными видами маскировки. В табл. деления признаков звонкости, 2 показана надежность вы­ назальности, шумности и места артикуляции по результатам аудиторных испытаний при маски­ ровке белым шумом для английского (18] и русского языков [10], при маскировке импульсной помехой с частотой следования около р Рис. 2. ность Субъективная вероят­ правильного арти1'уJIЯЦИОННЫХ 1 - голосовой з~льность; 4 - реднеязычный источшш; - -· на­ 2 - [1,1 переднеязычный; заднеязычный; 6 - о, б при зна1'ОВ источнин; 3 - шумовой ной; приема 0,8 5 7 - губ· 0,2 - пе­ небный t-12 -rв +4 -4 о -в 120 гц, при полосовом ограничении 200 - 2500 гц и 200-1200 гц с отношением сигнал/шум +12 дб (1 8] и при клиппировании в по­ лосе 7 кгц [151. На рис. 2 показана зависимость надежности субъ­ ективного выделения артикуляционных признаков от отношения сигнал/шум . Из этого рисунка видно, что признаки звонкости и назалыюсти наиболее надежны и мало зависят от уровня помех. В других условиях восприятия, где большую роль играет ревер­ берация, наблюдается заметный процент переходов звонких и глухих звуков друг в друга (191. ТабJiица 2 Субъе11тивная веронтность правильного приема арти11улнционных призпатюв: голосового источни1ш (ГИ), пазальиостИ (Н), шумового ИСТОЧПИIШ (ШИ) , места артш~улнции (МА) Мас1шровна и иснажение РГИ РН РШИ 1 Белый русский 0,97 0,987 0,859 0,946 0,942 0,76 0,815 0,667 0,77 0,707 0,680 0,674 200- 0,981 1,00 0,893 0,814 0,963 0,996 0,864 0,714 о, 77 4+0.• 964 0,785 0,928 0.90~ 0,931 0,823 ' 0,699 0,716 шум, английс:кий язык Белый шум, Импульсная русс:кий помеха, РМА 1 язык Я3ЫК Полосовое 2500 гц, !Iолосовое 1200 гц, ограничение английский язык ограничение 200- английский я зык Rлиппирование, руссюrй язьш Среднее 51
Фонемьt. Определив фонему как сово:куnность ар'Гику.trя:ЦИОii'­ ных признаков, можно подсчитать исправляющую способность речев ого кода на уровне фонем. Если число несовпадающих арти­ куляционных признаков назвать кодовым расстоянием d, то усло­ вие обнаружения ошибок кратности Qd есть Qd<, d - 1, а усло­ вие исправления ошибок кратности Qc есть [20]: 2Qc <, d - 1. Составляя таблицу кодовых расстояний фонем и вычисляя по ней спектр взаимных расстояний (рис. 3), можно убедиться, что О/ /О ~--------~ 40 JO 20 Рис. 3. Спектр стояний фонем 10 --- - та 2 J полное - - кодовых рас­ описание; без признака мес- артикуляции 4 на фонемном уровне потенциально возможно обнаружение окоJ10 75% и исправление около 37,2% одиночных ошибок, а число об­ наруживаемых двойных ошибок меньше 10%. Стертые артикуля­ ционные признаки, отношение правдоподобия которых попало в зону неопределенности, можно восстановить на уровне фонем, причем число восстанавливаемых признаков Qt <, d - 1 в данном случае равно 75%. Это указывает, что исправляющую способ­ ность фонемного кода выгоднее использовать для восстановления стертых признаков, а пороги в решающих правилах для артикуля­ ционных признаков установить таким образом, чтобы увеличить число стираний и за этот счет повысить достоверность остальных решений. Как правило, стертый признак легче восстановить, чем исправить ошиб1{у, потому что место стертого признака точно оп­ редеJJено . Признаки места артикуляции обладают наименьшей по­ мехоустойчивостыо и наибольшей трудоемкостью. На рис. 3 ПОI{азано, как меняется спектр кодовых расстояний фонем, если признаки места артикуляции станут неразличимыми. При этом 12,4% фонем будут иметь одинаковые коды, обнаружение одиночных ошибок упадет до 4 7, 7 % , а исправление одиночных оши­ бок до 10,5 %. l{ак видно, соотношение между числом восстанав­ JIИваемых стертых признаков и числом исправляемых ошибок здесь также в пользу первого. Стоимость генерирования каждого артикуляционного признака а, вычисленная из закона Мандель­ брота, оказывается различной в зависимости от противопоставляе­ мых звуков. Вероятность правильного приема артикуляционных призна­ ков в экспериментах по субъективному восприятию при маскиров­ ке также заметно различается. Это означает, что характеристики артикуляционных признаков при их генерировании и восприятии оказываются зависящими друг от друга. Очевидно, эта зависимость 52
t~астично я:tшяется следс'rвием У}!<е обсуждавшеtося свойства ре~ чевого - сигнала влияния различных артикуляционных призна­ ков на один и тот же акустический признак . Декодирование фо­ нем по зависимым симым признакам, признакам поэтому сложнее нужно декодирования оценить влияние по незави­ зависимости признаков на надежность декодирования слов. С этой целью по­ строим следующую математическую модель речевого кода на уровне фонем: при формировании слов последовательность фонем выби­ рается случайной, но зависящей от 't предыдущих фонем, и перехо­ ды фонем под действием помех независимы. В такой модели мож­ но оценить верхнюю и нижнюю границы надежности декодирова­ ния слов при различных способах декодирования фонем с учетом и без учета зависимости артикуляционных признаков 1 . Используя теорему о кодировании, мтнно определить потен­ циальную вероятность ошибки р (в) при различении: слов, обла­ дающих кодовыми: связями на 't фонем: р (в) ~ ехр (-Е (R)т), где R - (2) количество информациИ на фонему; Е надежности, вычисляемая по формуле Е (R) (R) - функция = min [G (х) - х) R]. о.;;;х<оо Здесь G (х) - функция Галлагера [211, которая определяется соотношением J I l+X G(x) = - ln~ (~ P1rP~(l+X)) i=l k=l где число фонем; р k - I - 1 P1ij 1 - вероятность появJ1ения k -й фонемы; матрица переходов фонем. Графический способ вычисления Е (R) состоит в нахождении точки пересечения оси ординат, касательной к функции (G (х) - xR), проведенной из точки, в которой R = dG/dx. Матрицы переходов фонем 11 Рнj11 и матрицы переходов арти­ куляционных признаков были взяты из экспериментов по восприя­ тию бессмысленных слогов типа гласный - согласный глас­ - ный при разных отношениях сигнал/шум [10]. Матрицы переходов гласных звуков принимались единичными. Для оценки вероятно­ сти ошибки по (2) необходимо знать скорость передачи информации: в речевом коде R 00 и глубину кодовых связей. С1<орость информа­ ции R 00 принималась лежащей между 0,97 и 0,58 (в натах) [221, а глубина кодовых связей - равной длине слова п (при п 7). Поэтому вместо (2) для расчетов использовалось < n p(i::) = ~ р"ехр(- Е(R)т), '<=1 l Это исследование было проведено совместно с К. Ш. Зигангировым . 53
fio f'де P-r: - iзероятность пьявления· с.лова Длиной 't, вычисленная словарю [91 (суммарная вероятность появления слов длиной п< 7 в словаре близка к О, 74). < На рис. 4 показаны нижние границы функции вычисленные непосредственно по фонемам (каR бы с том зависимости артикуляционных признаков) и по артикуляционным признакам. По этим же графикам делить и верхнюю границу ошибок, называющуюся ществования: Е (R) = inf [G (х) - xR]. надежности, полным уче­ независимым можно опре­ границей су­ Эта граница гарантирует O~x~l существование способа декодирования, обеспечивающего данную надежность. В табл. 3 показаны верхние и нижние оценки вероятности оши­ бок на словесном уровне для всех длин сJюв (1 п 7) и без одно- и двухфонемных CJIOB (3 п 7). Rак видно, нижняя гра­ ница ошибок при декодировании по фонемам столь мaJia, что вы­ < < < < ходит за пределы точности исходных экспериментальных данных. На рис. 5 приведены верхние границы ошибок в сравнении с субъективными вероятностями ошибки слов, полученными для тех же отношений сигнал/шум при аудиторных испытаниях [23]. Из сравнения следует, что субъективные показатели ошибок на­ ходятся ближе к верхней границе ошибок, рассчитанных по неза­ висимым артикуляционным признакам, причем разница :между разными способами декодирования фонем и субъективными вероят­ ностями падает по мере снижения усJювия шума. Эти результаты можно трактовать таким образом, что при декодировании фонем может быть отдано предпочтение более простому анализу По неза­ висимым артикуляционным признакам, в' особенности при умерен­ ном уровне шума. -Учитывая малую исправляющую способность фонем и замет­ ное различие в их помехоустойчивости (рис. 6), можно предполо­ жить, что основная коррекция ошибок в речевом коде происходит на вышележащих уровнях, и что чрезмерное усложнение анализа фонем неэффективно и нецелесообразно. Слоги:. Артикуляционные признаки, характеризующие фоне­ му, во :многих случаях не появляются одновременно, а распределены во времени. Например, временная структура согласного взрыв­ ного звука в окружении гласных такова: движение артикулятор­ ного органа (формантный переход) - смычка (звонкая или глу­ хая) - раскрытие смычки, имеющее одну или две акустические фазы: взрыв (может отсутствовать) и формантный переход. Поэто­ му анализ таких звуков должен производиться на интервале слога. Таким образом, слог оказывается не только единицей артику­ ляторной программы, но и единицей анализа . Rоартикуляция и связанные с ней трудности сегментации речевого потока на фонемы привели в практике распознавания к использованию специфи­ ческих единиц, охватывающих часть слога и называемых фрагмен­ тами ИJIИ транземами. Недостатком этих единиц, так же как и ело- 54
Таблица 3 Границы надежности декодирования слов п<,7 и 3<,п<,7 Верхюш S/N = - 8 дб 1 Нижняя +8 о + 12 1 -8 1 о + 12 +8 1 1 1 п<,7 Фонема Прианак R 0,97 0,58 0,97 0,58 0,034 0,021 0,113 0,063 0,029 9,019 0,106 0,054 0 ,023 0,014 0 ,051 0,029 0,025 0,016 0,066 0 , 039 - - - - - 0,085 0 ,003 0 ,072 0, 002 0,034 0,001 0 ~ 011 - - O,OG01 3<,п<,7 Фонема Прианак 0,97 0,58 0,97 0,58 3 ,4 .10-з 2,3.10-з 1 , 1.10-з 7,4·10- 4 3,6 ·10-2 9 ,9 .10-з 4, 4 °10- 2 1 ,3 .10- 2 1,5 .10- 10 5 , 2 . 10- 4 1 ,5 .10-2 4 ,7 . 10-з 1,2 .10-з 3,8°10-4 8 ,4 ·10-3 2 ,5 .10-з - - - 2,5.10- 2 5,3.10- 5 1 , 8 . 10- 2 4,3 ·10- 6 3 ,4 .1 0-з 3,4 ·10- 6 - - 2 .10-4 2, 9·10-6
Рис. 4. Функция Галлагера и нижние границы функции надежности I - артикуляционные II - фонемы признани; R, Оит/сам/J f,2 1,6' 2 2, 4 2,8 ) t ~ ~ р 1 P4Jll /J,8 0,16 О,б 0,12 0,4 0,08 3 0,2 0,04 ш S/N,дd -в Рис. 1 - 5. о +8 +4 о -4 -8 Вероятность неправильного распознавания слов субъективная, по ционным признанам; 2, 4 - +IZ R 00 [23]; 2, 3 - 4, 5 = 0,97; 3, 5 - при денодировании фонем по независимым артинуля­ при денодировании слов R~ = непосредственно по фонемам. 0,58 Рис. 6. Вероятность правильного приема некоторых фонем при маснировне белым шумом гов, является то, что число их значительно ка) превышает число фонем, и терминах весьма описание (на один-два поряд­ речевого потока в их неэкономно. Установлено, однако, что относительно малым числом слогов можно описать весьма большую часть речевых сообщений. Напри­ мер, 100 фрагментов типа СГ охватывают 72 % текста, содержаще­ го более 1000 слов [24], и, следовательно, некоторые слоги могут быть включены в кодовую структуру речи. Исправляющая способность слогов не исследована, но извеи­ ны результаты аудиторных испытаний, связывающие фонемную слоговую и словесную разборчивость [23]. Из рис. 7 видно, что слоговая разборчивость ~сегд;э. хуже фонемJiой, тогда как сло- 56
весная - всегда Лучше сл оrовой . Даже ее.ли исnравляюtца.!I сnо­ собность слогов окажется ничтожно малой, их участок в кодовой структуре будет оправдан возможностью обнаружения физиче­ ски неосуществимых последовательностей состояний. В каскадных кодах также иногда прибегают к введению каскада, обладающего лишь способностью! к обнаружению ошибок . % 1Р~' г-------::;::::;;;;;;~ Рис. 7. Зависимость от фо­ немной разборчивости слого­ вой (1), словесной (2), фразо­ вой (3) и словесной разборчи­ вости от слоговой (4) Слова. Фонетическая структура 20 20 слов бО обладает значительно большей исправляющей способностью, чем фонемы. Эта исправляю­ щая способность зависит от длины слов. Очевидно, что испраВJIЯЮ­ щая способность однофонемных слов (предлогов и союзов) равна просто исправляющей способности фонем. Но средняя длины слов в русском языке близка к 6, и это позволяет обнаруживать и ис­ правлять значительную долю ошибок даже в тех случаях, когда для описания фонем используются не все артикуляционные приз­ наки, и некоторые фонемы становятся неразличимыми. Оценка спектров кодовых расстояний слов при различных способах вычер­ кивания артикуляционных признаков (объединения фонем в груп­ пы) производилась на словаре [91, записанном в фонетической тран­ скрипции. В этом словаре кодовое расстояние между каждой парой слов определялось как минимальное расстояние по Хем­ мингу при всевозможных относительных сдвигах этих CJIOB. На рис. 8 условно в виде кривых показаны спектры кодовых расстояний для полных кодов фонем, а также для различных ва­ риантов усеченных кодов. Один эксперимент был проведен при различении лишь трех мест артикуляции вместо пяти и четырех типов гласных (а, э; и, е, ы; о; у); исключены были также призна­ ки автоколебательности и бокового прохода. В этом случае нераз­ личимы, например, следующие звуки: (б, в), (д, р, л), (ж, з, и), (с, ш) и т . д. Другой эксперимент проводили при тех же условиях относительно согласных, но все гласные считались неразличимыми . Наконец, был полностью исключен признак места артикуляции (при сохранении различения согласных от гласных , также призна­ ков звонкости, назальности и шумности) . На рис . 8 видно, что при использовании полных кодов фонем верхняя грань корректирующей способности слов составляет 99,9% обнаружения и 99 ,3% исправления одиночных ошибок, 57
96,3 % обнаружения и 88,8 % исправ.iiеi:1Ия двойных ошИбок, 74, 9~1> обнаружения и 57% ·исправления тройных ошибок и т. д., тогда как исключение признаков места артикуляции, автоколебатель­ ности и боковых проходов и полная неразличимость гласных пони­ жают эти величины соответственно до 99% обнаружения и 96,4% исправления одиночных ошибок, 90,1 % обнаружения и 80,4% ис­ правления двойных ошибок, 66,7% обнаружения и 50,5% исправ­ ления тройных ошибок и т. д. '!/о "l 20 % 15 20 10 fO 5 4 Рис. 1 - 8. 8 12 fб f(JOO d 20(10 Спектр кодовых расстояний слов полные ноды фонем; 2 - три места артинуляции, четыре типа гласных, слияние признана автонолебательности и признана разветвлений переднеязычным местом арти­ нуляции; 3 - зnониости, Рис. 1 - 9. то же, что и на залыюсти, z; но все гласные не различимы; шумности, гласный - 4 - сохранены признани согласный Долл сJ1ов с одинаковыми кодами в зависимости от объе~i:а словаря соответствует z; 2 - соответствует з; з - соответствует на рис . 4 8 Вместе с тем для усеченных кодов фонем некоторые слова начи­ нают совпадать. Число слов, Обладающих одинаковым кодом, в каж­ дой группе невелико, а общее количество таких слов достигает 2,2 % для первого способа усечения кодов, 5,6 %-для второго способа и для третьего. На рис. 9 показана зависимость числа оди­ наковых слов .от объема словаря. Из этих расчетов следует, что при отсутствии помех подавля­ ющее большинство слов может быть однозначно классифицирова­ но с использованием лишь тех артикуляционных признаков (звон­ кость, шумность, назальность, признак «гласный - согласный»), 17, 9 % - J{Оторые выделяются непосредственно из пт.~ощыо простых алгоритмов. акустического сигнала с По мере роста мех роль признаков места артикуляции интенсивности по­ должна возрастать из-за необходимости обеспечения большего кодового расстояния между словами. Если процесс анализа речи организовать таким образом, что сначала с помощью акустического анализа выбирается группа слов, имеющих одинаковый код со словом на входе распознающе- 58
го устройства, а затем производится окончательная идентифика­ ция этого слова по полным кодам фонем, то среднее количество опе­ раций на декодированное слово уменьшается, и этот выигрыш тем больше, чем лучше условия связи. При определенном уровне шумов потребуется использовать всю доступную избыточность, для чего необходимо включить меха­ низм анализа через синтез. В этом случае акустические признаки послужат для направления поиска. Очевидно, что для выбора спо­ соба анализа нужно уметь измерять текущий уровень шумов. Заключение. При построении модели речевого сигнала необходи­ мо принимать во внимание сведения о роли фактора сложности в про­ цессах речеобразования и восприятия, связанную с этим иерархиче­ скую структуру речи и возможность обнаружения и исправления ошибок. В результате этого ДJIЯ декодирования фонетической струк­ туры (в противополошность оценке эмоционального и физического состояния человека по его речи) необязателен предельно точный акус­ тический анализ речевого сигнала, который увеличивает разброс оцениваемых параметров Вместе с тем должна и усложняет процесс декодирования. быть сохранена необходимая точность для выделения акустических признаков, адекватных артикуляционным процессам речеобразования. В число кодовых уровней речевого сигнала входят акустичес­ кие и артикуляционные признаки, фонемы, слоги, слова и фразы . Каждый из этих уровней обладает в том или ином объеме способ­ ностью обнаруживать и исправлять ошибки, и это позволяет дос­ тичь необходимую надежность декодирования при использовании сравнительно простых алгоритмов. Сложность этих алгоритмов, число и вид используемых уровней зависят от условий в канале связи - в одних случаях можно ограничиться небольшим числом простых акустических признаков, в других случаях потребуется анализ через синтез, а при особенно тяжелых условиях необходи­ мо использовать всю избыточность, заключенную в речевом сигна­ ле, вплоть до семантического анализа. К анализу речевого кода в ряде случаев применимы методы теории кодирования, что позволяет обнаружить свойства, важные с практической точки зрения, такие, как, например, свойство не­ приводимости, позволяющее выделять большинство слов из непр,е­ рывного потока речи. Из числа известных :методов декодирования к речевому сигналу подходит только посJ1едовательное декодиро­ вание, причем специфика речи такова, что в процессе декодирова­ ния целесообразен параллельный анализ уровней речевого кода. ЛИТЕРАТУРА 1. 2. Л. А. Чистович, В. А. Кожевпиков и др. Речь . Артикуляция и восприя­ тие. М.- Л., «Наука», 1965. В. Н. Сорокин,. R теории речеобразования. - Сб. «Речевое общение в автоматизированных системах». М., «Наука», 3. Л. Ври.л.люэ1~. 1975. Нау1<а и теория информации; М., Физматгиз, 1960. 59
4. /. Pollack, L. Ficks. Information of multidimensional auditory displays.J ASA, 1954, v. 26. 5. J. R. М. Hayes. Memory span for several vocabularies as а function in а complex of vocabulary size.- Quart. Progr. Rep. Acoustic Lab. MIT. Cambridge, Mass., 1952. 6. Дж. А. Миллер. Магическое число семь плюс или минус два. О некото­ 7. 8. рых пределах нашей способности перерабатывать информацию.- Сб. Инженерная психология. М., «Прогресс», 1964. Д. Форпи. Каскадные коды. М., «Мир», 1970. . Р. Фапо. Передача информации. Статистическая теория связи. М., «Мир», 1965. 9. 10. Э. Штейпфельдт. Частотный словарь современного русского литератур­ ного языка. Таллин, 1961. В. Н. Сорокип, В. Н. Ложкип. Анализ звуков речиметодоммаскировки.­ Сб. «Теоретические и экспериментальные исследования в области 1973. 11. W. А. Wickelgren. Distinctive features and errors in shortter memory for English consonants.- J ASA, 1966, v. 39. 12. Дж. В. Стретт (лорд Рэлей). Теория звука, т. 2. М., Физматгиз, 1955. 13. S. Е. G. Ohman. Coarticulation in VCV utterances: spectrographic measurements. - JASA, 1966, v. 39, N 1. 14. В. Н . Сорокип. Об одной модели речеобразования. - Труды 6 - го Все­ структурной и прикладной лингвистики». Изд- во МГУ, 15. 16. 17. 18. союзного семинара «Автоматическое распознавание слуховых образов». Таллин, 1972. Г . И. ЦеJ.~ель. Опознавание речевых сигналов. М. , «Наука», 1971. В. Н . Сорокип, В. С. Файп. Признаки звонких взрывных.- АиТ, 1970, .№ 10. D. М . Green, J. А. Swets. Signal detection theory and psychophy~.ics. N. У., 1966. G. А. Miller, Р. Е. Nicely. An analysis of perceptual confusions among some English consonants. - JASA, 1955, v. 27, N 2. 19. 20. 21. 22. 23. 24. В. И. Бельтюков. Об усвоении детьми звуков речи. М . , 1964. У. Питерсоп. Rоды, исправляющие ошибки. М., «Мир», 1964. К. Ш. Зигапгиров. Процедуры последовательного декодирования. М., «Связм, 1974. Р. Г. Пиотровский. Информационные измерения печатного текста.­ Сб. «Энтропия языка и статистика речи». Минск, 1966. Н. Б. Покровский. Расчет и измерение разборчивости речи. М., Связь­ издат, 1962. А. В. Кпиппер, В. А. Махопип. l{ описанию речевых сигналов.- Сб. «Речевое общение в автоматизированных системах». М., «Наука», 1975. Р. К. Потапова О типологических особенностнх слога Одним из основных вопросов научного анализа является вопрос выбора объекта исследования и дальнейшей принципиальной стратификации его признаков . В связи с этим не менее важным представляется вопрос о том, I{акие объекты научного анализа следует считать элемептарпыми структурами в рамках проводи­ мого исследования. Согласно теории познания; элементарная структура может быть рассмотрена как некоторая целостпостъ, к уровюо которой 60
должно быть Элементарная данном сведено все многообразие данных исследования. структура как объект исследования выступает в случае как своего рода атом, который оказывается в фокусе всего исследовательского построения. В этом конте~{сте определенную значимость приобретают вопросы о строепии и функ­ ционировании самой элементарной структуры . Всякая элементарная структура, рассматриваемая как целостность, должна обладать всеми признаками, присущими целостности J{aK философСI{ОМУ понятию но по [2]. своему мативным Понятие же целостности в этом аспекте весьма слож­ содержанию пониманием, и далеко при не котором исчерпывается целостность чисто сум­ сводится к сумме ее частей, что было характерным для понимания целостнос­ ти с позиций механистического материализма [3] . Следует отметить, что применительно к исследованию рече­ вого потоJ{а выбор основной элементарной струJ{туры постоянно являлся важнейшим вопросом, находящимся в прямо й зависимос­ ти от конечной цели исследования. Для лингвистичес1{ИХ работ прюшадного хараJ{тера наметились в основном два пути, обус­ ловленные природой объеJ{та, выбранного в качестве опорной элементарной структуры. Сторонники одного подхода стоят на позициях вычленения в качестве опорной элементарной структуры звука (фонемы) и его субзвуковых (субфонемных) составляющих, сторонники другого подхода ориентируются на слог. Таким обра­ зом, на современном этапе развития проблемы автоматического распознанания речи можно зафиксировать наличие двух способов выбора опорной элементарной структуры как НеI{Оторой целост­ ности в целях ее первичного распознавания. Решение вопроса было бы не столь сложным " если бы I{ ЮIЩУЮ из названных элементарных структур (звук, слог) можно было бы рассматривать чисто суммативно. Однако, учитывая специфиJ{у слитной речи, следует на первое место при описании признаков целостного объекта поставить свойство интегративности . Подоб­ ный подход ведет к тому, что целостность будет хараI{теризоваться новыми качествами и свойствами, не присущими ее отдельным составляющим, возникающими в результате взаимодействия этих составляющих в определенной системе связей . При этом одним из ведущих принципов следует считать принцип субаддитивности, согласно которому целое может быть меньше суммы его частей. Применительно к таJ{ОЙ элементарной целостности, как cJroг, это означает, что, описывая признаки слога на артикуляторном, тическом и перцептивном уровнях, можно предполагать аJ{ус­ наличие такого образования, которое несводимо к сумме его составляющих. При этом на слог как на интегративную целостность наюrадываются новые свойства, обусловленные не тоЛЫ{О природой его звуковых составляющих, но и условиями конкретной реализации, что в свою очередь может привести к образованию новых типов слога. Следует подчеркнуть, что в процессе научного познания и воспро­ изведения сложного объе~{та, каким я:вдяется речевое высr{азыв а- 61
ние, членение на составляющие может быть весьма разноплановым: параметрическим, сегментным, фонематическим, силлабическим, морфологичес1{им, лексическим, синтаксическим, семантическим. На сложный объект не может быть наложено только одно теорети­ ческое представление целостности. Анализируя сложный объект, ис­ следователь каждый раз имеет дело с различными «срезами» объекта . В литературе представлена точка зрения, согласно которой достаточно, например, располагать информацией о фонемной принадлежности составляющих слога, и вопрос об алфавите и типах слоговых структур вполне решен [9]. В принципе такой подход возможен, но тогда основной упор делается на фонотакти­ ну язьша без дифференциации правил порождения объекта па фонетичесние и фонологичес1{Ие. При подобном подходе пе толь- 1<0 смешиваются язьшового, но понятия таюне и опорного вычленяемого I{Отором пе двух объекта. основополагающим параметрическая разных учитывается при информация, аспектов - речевого интегративная и сущность Имеется и иной подход, при сегментации как, на например, слоги является информация об изменении уровня интенсивности сигнала [1]. Однако в данном случае ти на основная участие, ориентация на увеличение уровня интенсивнос­ соответствующем гласному, не всегда правомерна . Известно, что реализация уровня интенсивности в слоге зависит от целого ряда переменных, таних, например, как функциониро­ вание долготы и краткости слогоносителя, изменение типа при­ мыкания конечного согласного, временная организация слога, особый статус сонантов в ряде германских языков и т. д. В связи с последним фа~{тором следует указать на то, что, например, в англий­ ском языке сона.нт может брать на себя в определенных случаях роль слогопосителя . Кроме того наблюдается, что в немецком и английском языках в занрытом слоге СГС с нратким гласным при сильном типе примыкания последующего сонанта фиксируется сплошь и рядом слогоносителя к смещение Таким образом, является максимума конечному если для языков, доминирующим, интенсивности от ядра - сонанту. правомерна где открытый тип опора на слога элементарную структуру СГ или фрагмента, меньшего СГ, но охватывающего наиболее информативный участок слога [4, 5], то для германских языков выбор элементарной структуры на уровне слога далеко не универсален в рамках структуры СГ. В качестве аргументации приведем некоторые данные, полу­ ченные нами в ходе дальнейшей разработни проблемы временной организации струнтуры речевого высказыванин. Основное допу­ щение на данном этапе исследования было сформулировано сле­ дующим образом: веяное речевое высказывание хара~{теризуется определенным образом заданной и реализуемой в процессе рече­ производства временной программой. При этом все сегменты высказывания, являясь частью деленной временной программе. 62 единого целого, подчинены опре­
Исследованnя nоследних лет поt<а3а.1ш, trтo временная: opta~ низация речи является сложным и многоплановым феноменом. Было найдено, что для различных языков характерен определен­ ный тип временной организации слога. Известны попытI{И до­ казать, что при произнесении слова последнее программируется с точки зрения временной организации как единое целое, причем значимая зависимость существует между всеми сегментами, ко­ торые образуют слово. Основная задача исследования заключалось в поиске элемептов высказывания, между которыми существовала бы определенная значимая временная зависимость. Исследование проводилось на матер иале двух языков: немеЦI{ОГО и английского. Эксперимен­ тальный набор включал фразы, составленные с учетом целого ряда требований 1{0пте1\стуального хараI{тера (п = 6). Э1{спериментаJ1ы1ые фразы были начитаны па магнитофон МЭЗ-62 в студийных усJiовиях носителями язьша: немцами (N1 = = 15), англичанами (N 2 = 10). Значения длительности (n мс) для I{ЫRдого анализируемого сегмента выСI{азывания (звука, звукосочетания, слова, фразы) просчитывались по интонограммам, полученным с помощью интонографа И-67. Для выявJ1ения нор­ реляции по длительности между анализируемыми сегментами выс1<азывания в Rаждом конкретном случае определялся I{оэф­ фициент I{Орреляции р: п -1 п ~ . х.у. i i Р= где xi та 1; Yi - -- ху i=l - абсолютное значение длительности, мс, нашдого сегмен­ выборки 11. Исследование юшючало отсутствия норреляции элементами высказывания: 1. по три серии проверки длительности между наличия - следующими Двумя рядом стоящими звуками слова в составе фразы по схе- ме: С - Г и Г - С. 11. 3вуносочетаниями слова в составе фразы по схеме: с (С) г и (С) г. 111. Гласными слова в составе фразы по схеме: (С)Г - (СС)Г. ctc - ct - Измерение коэффициента корреляции и провер1{а гипотезы Но о независимости связи по длительности между зву1{ами С - i, и l" - С, взятыми последовательно в пределах наждого слова в составе анализируемых фраз, поназали, что для англиЙСI{ОГО и немецкого языков результаты идептичлы в плапе общпости тепдепции, но не идентичны n плане частоты встречаемости. Для а~плиЙСI{ОГО языка характерно наличие отрицательной корреляции по дJrительности между гласным и последующим со- 63
гласным в стру1{туре слова независимо от позиции этоrо слова во фразе. Наличие отрицательной корреляции в данном случае означает, личения что изменение длительности I{ ведет гласного в сторону уве ­ уменьшению длительности последующего соглас- ного и наоборот. В сочетании С - Г ни положительной, ни отри­ цательной 1щрреляции по длительности регулярно почти не наблю­ далось. Для немецкого языка была выявлена отрицательная корреля- ция также для сочетания Г занимающих конечную тельности между - С, однако только в составе слов, позицию во фразах. Корреляции по дли­ начальным со гласным и последующим гласным обнаружить не удалось. Проверка Н0 гипотезы о независимости связи в соответствии с задачей II серии исследования показала, что как для английско­ го, так и для немецкого языков характерно наличие положитель- ной корреляции по длительности между сегментами Cf'C и (С)Г внутри слова. Корреляции по длительности ct , между сегментами и С(С)Г в составе тех же слов не наблюдалось. Сопоставление длительности гласных внутри структуры слова показало, что между гласными слова существует положительная корреляция. Причем применительно к немецкому языку следует констатировать наличие более регулярной картины в плане кор­ реляции по длительности Резюмируя все 1) между гласными выше изложенное, слова. можно утверждать: для обоих языков характерно наличие отрицательной корре­ ляции по длительности между ным 2) ГС; для обоих корреляции по языков гласным характерно длительности между и последующим наличие частями соглас­ положительной слов, взятыми по принципу: Ci:'C - (С)Г; 3) для обоих языков характерно наличие корреляции по длительности между гласными в положительной структуре слова. На основании полученных данных логично далее предполо­ жить, что длительность элементов речевого высказывания характе ­ ризуется не только единой программой, но реализуется между элементами высказывания · с разной степенью значимости и имеет иерархический характер. Принимая во внимание иерархический (многоуровневый) ха­ рактер зависимости по длительности между элементами высказы­ вания, представляется вполне целесообразным в процессе ис­ следования временной организации элементов высказывания поль­ зоваться следующей схемой: вычленение в I{ачестве объекта исследования временнь1х связей: а) на уровне фраз; б) на уровне слога; в) на звуковом уровне. На материале наших данных вычленение в качестве объекта исследования временнь1х связей на сегментном уровне показало. английс1{0Го и немецкого языков подтвердилась пра- что для 64
вомерность утверждения относительно корреляции по длительности между наличия гласным и отрицательной последующим со­ гласным. Однако в отличие от данных, полученных ранее, длитель­ ность анализируемых сегментов рассматривалась не в изолирован­ ном звукосочетании типа ГС и не в структуре изолированного слова, а в структуре фразы. Дальнейшее варьирование сегмен­ тов в плане изменения характера комбинаторики последних пока­ зало, что для исследуемых языков в целом ряде случаев имеет место значимая временная зависимость между сегментами, ском­ crc - бинированными ПО типу (С)Г. Что же касается корреляция по длительности между гласными слов во фразе, то здесь, очевидно, мы имеем дело скорее не с временной организацией сегментного уровня, непосредственно связанного с эффектом коартикуляции, а с временной организа­ цией, связанной в большей степени с реализацией гласных по оп­ ределенной временной программе в структуре слова, являюще­ гося частью более сложного просодического целого - ритмиче­ ского рисунка фразы. Дальнейшее принятие во внимание масштаба фразы также привносит нечто своеобразное в картину временной зависимости частей внутри целого. Как показали результаты наших ранних исследований на материале других языков, в данном случае на первый план выдвигается влияние па длительность элементов по­ зиционного фактора. Например, позиция нопца фразы, характери­ зующаяся общей для различных языков тенденцией I{ увеличению длительности, представляет большую возможность для выявле­ ния временной зависимости между элементами высказывания . На основании изложен1iых данных мо:ншо полагать, что времен­ ная структура речевого высказывания представляет собой не про­ сто комбинацию значений длительности элементов, составляющих высказывание, а более сложную некоторую целостность, ЧJiеня­ щуюся ства, на относительно подчиняющиеся единств, так автономные, как внутренне внутренним законам связанные этих един­ отдельных и законам всей целостности. Полученные данные о наличии временной связи в закрытом слоге СГС в английском и немецком языках были подвергнуты про­ верке на перцептивном уровне [8]. В результате перцептивной сегментации и дальнейшей идентификации сигнала было обнару­ жено, что для носителей английского и немецкого языков одним из основных реальных типов распознаваемой слоговой струнтуры является закрытый слог СГС. Реализация конечного согласного при кратком слогоносителе содержит качественно-количественную информацию, позволяющую носителям языка правильно иденти­ фицировать тип слога . При описании аJiфавита слоговых структур, с нашей точки зре­ ния, более корректно учитывать типологические особенности сло ­ га того или иного языка в целях наиболее адекватного описания [6, 3 71. Определяя слог как элементарную сегментно-супрасегмент- Распознавание образов 65
ную целостность, характеризующуюся набором объективных и субъективных признаков, мм1-шо полагать, что слог как резуль ­ тат действия фонотактических правил языка и как результат про­ цесса речепроизводства проецируется на акустическую плоскость и благодаря этому может быть выделен чисто условно в терминах его акустических коррелятов: Слог - един. ица языка. Сообщение в лингвистических еди­ ницах, представленное нервными образцами и нервными коман­ дами к мышцам. Здесь слог - часть языкового звука, границы 1. которого определены правилами фонотактики языка . Слог 2. единица - речи: а) артикуляторные жесты. слог - последовательность артикуляторных жестов; представленная акустическими сигналами. Здесь слог но - супрасег.ментная Здесь б) речь, сегмент­ единица. Слог ..- единица восприятия: а) слуховой анализ речевого сигнала. Здесь слог - последовательность сегментов и комплекс просодических признаков; б) сообщение в лингвистических едини­ цах, расшифрованное из слуховых образцов. Здесь слог - часть 3. язьшового знака, совпадающая или весов.падающая с языковыми единицами других уровней. Думается, что центральная проблема, на решение которой должен быть ориентирован один из этапов процесса распознава­ ния слитной речи, заключается в поиске алгоритма распознава­ ния сложного объекта на языке свойств его составляющих. Это можно ствия представить между в одним виде из установленного подмножеств однозначного множества целого и некоторым подмножеством множества Таким путем можно, очевидно, дать соответ­ свойств свойств исчерпывающее частей целого. описание всего .множества свойств сложного целого. При этом необходимо опираться на лингвистические правила порождения высказыва­ ния в рамках той или иной языковой системы в целом . Весьма спорным представляется поиск универсальной программы выбора опорной элементарной структуры . Выбор последней детермини­ рован целым рядом факторов. Важно при этом анализировать и описывать признаки опорной элементарной структуры с позиций интегративности, учитывая влияние, обусловленное своеобра­ зием реализа:Ции опорной элементарной структуры в с л итной речи. ЛИТЕРАТУРА 1. 2. 3. 4. Д. Аллеп. Система, понимающая речь, основанная на программном ана­ лиае предложения. - Труды 4-й Ме;rщународной объединенной rшмис­ сии по искусственному интеллекту, ч. 5. М" 1975. И. В. Блауберг, В. Г . Юдип. Понятие целостности и его роль в научном поанании. М" 1972. П. Гольбах . СИ:стема природы. М" 1940. А. В : Кпиппер, В. С. Мирошпиков. Текущее выделение фрагментов в речи . - Сб. «Автоыатическое распоанавание слуховых обрааОВ)) . Таллин, 1972. 66
5. 6. 7. А. В. Нниппер, В. А. Махонин . Специфика описания речевого сигнала при распознавании.- Сб. «Речевое общение в автоматизированных сис­ темах». М., 1975. Р. К. Потапова . Лингвистические и нелингвистичесние нритерии сло­ годеления.- Сб. «Иностранные язьши в высшей ш1юле», вып. 2. Рига, 1975. Р. К . Потапова. Неноторые вопросы сегментации речевого потока на слоги. - Сб. «Звуковая и семантическая структура языка», Фрунзе, 1975. 8. Р. К . Потапова, Н. Г. Камышна,я. Слог и его перцептивно-временнЬю 9. о : F u.j i тu r·a. SyllaЫe корреляты.- Вопросы я з ыкознания, 1975, .№ 4. as а unit of speech recognition.- JEEE Sympos. Speech Recognition. Carnegie Mellon Univ ., 1974. Ю. Н. Прохоров Рекуррентное оценивание параметров речевых Введение. Задача оценивания характеризующих сос т ояние сигналов параметров артикуляторного речевых сигналов, аппарата при про­ изношении звуков речи, по -видимому, может быть успешно реше­ на с помощью методов прикладной статис т ики и теории случайных про цессов. Такое направление исследований рассматривается в значительно м количестве публикаций, посвященных различным аспект ам проблемы анализа речевых сигналов [1-4] . Особенно большое внимание уделяется методам линейного предсказания, когда в качестве исходной модели сигнала используется копечно­ разностпое уравнение относительно невысокого порядка. Примене ­ ние этой модели оказывается весьма полезным, так как допускает выбор оптимальных или близких к пим алгоритмов оцепиваняя [3, и , кроме того, полученные с помощью таких алгоритмов пара­ 41, метры достаточно хорошо отражают динами1\у арпшуляторного аппарата в процессе произношения звуков речи [4]. В своем пер ­ воначальном виде указанные алгоритмы являлись довольно слож­ ными процедурами, что затрудняло не лизацию, но и моделирование на ЭЦВМ только [5]. т е хнич е скую реа­ "Упрощение этих про­ цедур может быть достигнуто посредством применения рекуррент­ ных вычислительных приемов. R этому выводу практически одно ­ временно пришJIИ отечественные и зарубежные специалисты [6101, после чего рекуррентные аJ1горитмы стали применяться как для решения систем автокорр еляционных урав не ний [10], так и для непосредственного оценивания параметров речи [6-9, 11, 12]. Дальнейшие исследования показали, что, по I{райней мере во вто ­ ром случае, не все простые и известные в других приложениях алгоритмы могут быть одинаково успешно применены в задаче анализа речи . Специфика сигнала, его ярко выраженная нестац:и - 3* 67
<!шарность приводят Б отдельных случаях к резкому снижению скорости сходимости и/или к увеличению остаточной погрешности анализа. Эти трудности могут быть преодолены с помощью улуч­ шения исходной модели, а также посредством разработки (или выбора) рекуррентных алгоритмов, согласованных с особенностя­ ми структуры реального сигнала. Отмеченные направления раз­ виваются многими специалистами [7, 11-13 и др . ]. Настоящая работа посвящена вопросам построения рекуррент­ ных алгоритмов с учетом структуры сигнала, стям снижения погрешности а также возмоашо­ оценивания. Модели сигнала. Будем предполагать далее, что речевой сиг­ нал образован прохождением некоторого возбуждения через линейную систему с дробно-рациональной передаточной функ­ St цией. В этом случае справедливо следующее конечно-разностное уравнение: Xt где = х1 - .Qo.T t - 1 ·\Т Xt-m + ЬТ t (1) St- 1+1• центрированная математическим ожиданием последова­ St - тельность случайных отсчетов речевого сигнала; последова­ тельность отсчетов возбуждения речевого тракта, которую удобно считать некоррелированной (когда это предположение неправо­ мерно, характер будет уточняться); t - нормированное дискрет6 6 ное время; 'iJT [1Э-1 , ••• , 1Э'm], ьт [Ь 0 , Ь1 , ••• , Ьн] - парамет- St = • ры модели, s = t-1 ~ ( Xt- m Xt - m• )Т Xt-m+ 1 , ••• , Xt- 1 . , 'i:t 6 <:>t- l+i - (!:<,,t-!+1• St-z+ 2 , • • • , 1]T; '\'t, Ь - векторы параметров, постоянных на интервале локального постоянства Т 10 --;- 20 мс. В частном случае Ь Ь 0 уравнение (1) приводит к модели ли­ = = нейного предсказания х1 = 'itт х::::~ + bos1, (2) где обычно полагают т = 8--;- 12, Ь0 = 1. С точки зрения анализа модель чем (1) является более сло:шной, (2), так как неизвестные параметры {bi}:?'=i перемно~наются St· В некоторых участках незашумлен­ с ненаблюдаемыми отсчетами последовательности случаях, в частности на вокализованных ного сигнала, ::>то обстоятельство, по-видимому, не приводит к значительным затруднениям [11, 12]. Модели (1), (2) характерны тем, что при их использовании оце­ нивание параметров следует проводить совместно . Определенный интерес вызывает вопрос о в озможности построения модифици­ рованной модели на основе (1), (2), допускающей последователь­ ное (поочередное) оценивание параметров. С таких позиций в [14] была разработана многоэтапная модель сигнала, которая Б част­ ном случае совпала с моделью, предложенной F. ltakщ·a . 68
Уравнения многоэтапной модели 'имеют вид +8; + и1, = а[-в;,п (t - (i - 1)l - 1) (t) +8i+l (t) = -8i+ 1 (t) = +8 1 (t) "-8; (t - = +8i (t) - а[-8;,п (t - (i -1) l а[ +8;,п(t -8; (t) - 8 1 (t Xt, j - -т)]Т, [а; 1 , ai 2 + (i - 1)l 1), + 1), (3) j) = хн, -8;,п (t - j) = [-8; (t -j), +в;,п (t) = [+8i (t), ... , +8i(t т• • • , ail , . . . , OIT т Х 1, i = 1, ... + - 1)1Т, ai = , . . . , m!l; m!l - целое число и в упомянутом частном случае l = 1; ai - вектор локально-постоянных параметров, которые могут быть пересчитаны в {'\'J-;}~ 1 • Достоинством модели (3), кроме возможности последователь­ ного оценивания, является связь коэффициентов ai с цилиндри­ ческой аппроксимацией речевого тракта ее хорошую согласованность со [13], что указывает на структурой реального сигнала. Предположение о локальном постоянстве параметров может быть снято, если задать характер их изменения во времени. Так, например, естественным обобщением является переход к марI{ОВ­ ским параметрам в (3): ai (t) = Fiai (t где коэффициенты рованная 1) + (4) Gi'l'Ji (t), Fi, Gi известны априори; 'l'Ji (t) - последовательность некоррели­ случайных величин. Такие общие ситуации рассмотрены в Алгоритмы оценивания на основе [14, 151. оптимальной рекуррентной фильтрации. Оценивание параметров модели линейного предска­ зания совпадает с задачей идентификации линейной системы, вход­ ной и выходной сигналы которой связаны уравнением (2). Субоп­ тимальный рекуррентный алгоритм оценивания (идентификации) при гауссовской последовательности и некоторых ограничениях на начальные условия (х 0 , \:, 0 ) может быть получен из общих урав­ St нений фильтрации условно-гауссовских последовательностей [16]: Шн1 = Шt + 'Vt [Ь~ + (х~н-m)т V1X:+1-mГ 1 'Vt+l = 'Vt где m1 принят - m[ х:н-m] х:н-m, [Xt+l - t ьz t )т t -1 t )т т 'VtX!н-m [ о + (Xtн-m 'VtXt+1-т] (Xtн-m 'Vt , оценка вектора{)· в момент времени равным t; Ь0 - (5) может быть единице. В отличие от оптимаJ1ы1ого алгоритма в (5) предполагается Qтносительная произвольность начальных условий (m 0 , у 0 ). При­ менение процедур, подобных (5), описано в ряде работ зарубеж­ ных авторов [3, 4, 12]. Однако сложность алгоритма, которая обусловлена необходимостью вычисJ1ения матрицы у 1 ,'в значитель­ ной мере ограничивает его практическое исполь.зование. Сущест­ венное упрощение (5) при сохранении основных достоинств дости- 69
rается изменением второго уравнения ·. t 1 + 'Хн1 [Х1н - Шt Х1н-m] Xtн-m, 1+1 [ 1+1 ]-1 'Х1н = [ 1 + .~ хf-тн ll 2 Г 1 - 1 + т .~ х~ , т Шн1 = Ш1 (6) (7) 11 i=O i=O m-1 где х 1 н - :константа сходимости; Нетрудно убедиться, что 1/ xf-mн /1 2 = ~ х;_ 1 • l=O совпадает с {(6), (7)} одномерного {)-. Эвристический · способ построения уравнения сходимости оценок т 1 рует не гаранти­ (7) к истинным параметрам, в случае (5) поэтому воз­ никает необходимость теоретического анализа свойств предложен­ ного алгоритма . Такой анализ со значительным сокращением St приведен в приложении 1, где возбуждение полагается не:коррели­ рованной шумовой последовательностью . В реальном случае, :когда оцениваются параметры вокализованного предположение не выполняется . Однако с участка речи, помощью это простых рассуждений можно уб едиться в правомерности вывода о сходи ­ мости алгоритма и для реального сигнала . Действительно, на интервалах ме жду импульсами основного тона модель (2) вполне приемлема, так как отличие речи от про­ цесса авторегрессии можно учесть введением эквивалентного не:коррелированного шума, действующего на входе системы (2) и образующего вместе с шумовым возбуждением эквивалентный входной сигнал Тогда приведенные в Приложении 1 резуль­ St· таты дают основание утверждать, что на указанных интервалах сходимость имеет место. Полагая импульс основного тона доста ­ точно :коротким (это всегда можно деJ~ать, относя отличие реального импульса от предполага емого к влиянию системы . (2) с пара- метрами {'l'ti}~ 1 ), рассмотрим алгоритм {(6), (7)} в момент, совпа­ даrощий с временной :координатой импульса. Заметим, что вели­ чина 1 х 1 1 с приходом импульса возбуждения резко возрастает и, таким образом, :константа х 1 резко убывает, :компенсируя ло:каJiь - ное возрастание уклонения [хн 1 - mT x:н-mJ. Следовательно, влияние набшодений х 1 в отмеченные моменты времени на про­ цедуру оценивания должно быть незначительным. Несомненно, что приведенные рассуждения нуждаются в экс­ периментальном l подтверждении. Алгоритм {(6), (7)} применительно к многоэтапной модели с = 1 принимает форму т; (t + 1) xi(t)=[1+ = т; (t) + 'Х; (t + ±_-e;(z - i)Г 1 , 1)+е;н (t 70 оценка ai в момещ (t +1- i). + 1), (8) (9) i = 1, .. . ,т, l=• где т; (t) - т; (t) - e; + 1) - е; (t- i t; +ei+l (t + 1) +е; (t + 1) ~"
Х· Рис. 1. тора речевых Блок- схема анализа­ сигналов 1 Процедура оценивания {(8), (9)} может быть организована дву­ мя способами: последовательно, когда сначала оценивается пер­ вый параметр а1 по некоторому сегменту xk, k = затем а 2 по сегменту х11., !с = t N 1, ... , + + параллельно, когда все параметры t, t + 1, ... , t + N, t + 2N и т. д" и оцениваются < одновременно с обязательной проверкой условия 1 тщ (t) 1 1 в каждый момент времени и установкой mj (t) = sgn mj (t), если это усло­ вие не выполняется для какого-то j. Последовательное оценива­ ние реализуется в структурной схеме рис. 1, где блоки mi (t), в которых осуществляется усиление сигнала с весом mi (t), управ­ ляются выходными сигналами интеграторов И. Алгоритм (6) при различном выборе х 1 уже применялся в за­ даче анализа речи [6, 7, 91, и в связи с этим в [141 отмечаются свойства таких алгоритмов в сравнении с {(6), (7)}. Отметим попутно несколько эвристических приемов ускорения сходимости предложенного алгоритма. Так же, как и в обычной стохастической аппроксимации, погрешности [х 1 - можно ввести контроль знака mTxi=~I. Тогда изменение константы х 1 сле­ дует производить лишь после изменения знака этого уклонения. Допустимо также многократное прохождение по одному сег­ менту реализации в ускоренном масштабе времени . Рекуррентная интершншция в задаче анализа речи. Алгоритмы оценивания' (5) - (9) хорошо приспособлены к последовательному поступлению наблюдений х 1 на вход анализатора. При этом уст- 71
1Jойство функционирует в ·реальном ·иacili'и1oe ·времени. lЗместе t т ем на прю<тике часто имеется возможность регистрировать ф,раг­ мент реализации сигнала в устройстве памяти. Так, в CЛ}"lfae ана­ лиза на ЭЦВМ такой фрагмент равен массиву, считываемому с устройств внешней памяти в ОЗУ, и может .составJ1ять oкoJIO 4· .10 3 отсчетов (,....,0,4 мс при интервале дискретизации 0,1 мс) . В такой ситуации появляется возможность улучшить точность оценивания за счет эффекта накопления. Сформулируем задачу более строго. Пусть имеется фрагмент сигнала длительностью Т, а в качестве исходной принята много­ l = 1. этапная модель с не зависит от оценок Пос1<ольку оце~ша первого параметра последующих параметров, рассмотрим оце­ нивание лишь на первом этапе. Исходные уравнения этого этапа выпишем на основе Формально (2.2) выходить за пределы дисперсии а 1 введенное (t) в виде (3), (4) (2.1), (2.2) - см. приложение неправомерно, так как значения а 1 (-1, +11, (t) 2. не должны однако при достаточно малой можно с целью упрощения результатов применить уравнение . Необходимо оценить а 1 (t), t Е [О, Т] оптимальным в рам1<ах (2.1), (2.2) образом, используя весь фрагмент реализации Xt · Подобная задача решается методами теории оптимальной интер­ поляции (16], однако реализация известных процедур вызывает затруднения. В связи с этим в приложении 2 получено новое уравнение оптимальной интерполяции для (2.1), (2.2), при кото­ ром процедура оценивания сводится к двукратной обработке фраг­ мента [О, Т] в прямом и обращенном времени с помощью одного рекуррентного алгорита, вытекающего из уравнений оптималь­ ной фильтрации. В квазиоптимальном случае процедура интерпо­ ляции описываетсн выражениями d± m 1/dt = F 01 + F1 .±mt + 2±Dt [xt - ±mtXt=t=-c1Xt=t=-c, d±D 1/dt = -2F1 .±Dt + G2/2 - 2±D~x;+-c, (10) где ±т 1 , ±D 1 оценки и их дисперсии в прямом времени (знак «+»; t возрастает от О до Т) и обращенном времени (знак «-»; t убывает от Т до О). Окончательная оценка т 1 параметра ан и дисперсия Dt удов­ летворяют соотношениям m 11Dt = +т 1 /+D1 11Dt = 1/+Dt где Dа - + -т 1 !-Dt - + 11-Dt - дисперсия а 1 х;_-с/В~ - Таким образом, использун оцениванию F 01 1Da, 11Da, (11) (t). приведенные оценить траекторию параметра а 1 к х 1 хн!В~ - параметров (t), t уравнения, Е [О, Т] последующих этапов можно и затем перейти с помощью а,на­ логичной процедуры, либо посредством алгоритма {(8), (9)}. При локальном постоянстве параметров модели, т. е. 72 F 01 = F1 = G1 =
= @, а1 ('t) rвремени ~ а 1 и малом Т, уравнения для оценок в дискретном nолучают ";%.+:1 '""°" вид +т 1 + [1 + ±х~J- [х; -- +т 1 х;_ 1 ] Sх1 J-l (х; - 1 хн, l=l --:mi = -тt+l + [1 + 1 (12) -lntXt+I] Хю. l=T При больших t +х 1 ~ -х. 1 . Отличительной чертой {(11), (12)} по сравнению с {(8), (9)} является выравнивание влияния наблюдений Xt, t Е [О, Т], на формирование оценки: Действительно, в случае {(8), (9)} набшо­ дения в левой части интервала имеют больший вес, чем остальные, из-за монотонного убывания х 1 • Э1юпериментальное исследование · алгоритмов ре1~уррентного оценивания. Экспериментальная проверка аJ1горитмов {(6), (7)} и {(8), (9)} была выполнена с помощью моделирования па ЭВМ «MИI-ICI{-22». В 1шчестве :исходного :материала были использованы шесть слов, произнесенных мужским и женским голосами (м . г.) и (ж.г.). Речевой сигнал был noJiyчeн с помощью :электродинами­ ческого м1шрофона и представлен в дискретной форме со следую ­ щими параметрами: частота дис1{ретизации - 10 игц, ширина .спектра - 4 I{ГЦ, количество уровней квантования - 2 8 • Обработиа сигнала при моделировании последоваты1ьного оце­ шивания согласно { (8), (9)} была организована следующим обра­ :зом: реализация разбивюшсь на сегменты длительнотыо 12,8 мс, ша иоторых проводилось оценивание; в иачестве начальных ус­ ловий па каждо:м сегменте принимались оцеrши, полученные на лредыдущем сегменте; начальные условия на первом сегменте lбыли нулевыми; количество параметров было равно 10. На рис. 2, а приведены нормированные иорреляц:иопные 1фу1шции процесса +е 10 (t) с «<миллион» ж.г. (а~ = 0,132; 'М.г. (а; = 0,14; r·. (О) = 1). :заций +е 10 (t) и х 1 для сJ1ова ,столь четкое +е 10 (t) проявление величиной дисперсии а~ для слова r. (О) = 1) и на рис. 2,6 - «логарифм» На рис. 3 показаны сегменты реали­ «миллион» м. г. Следует уточнить, что импульсов основного топа в наблюдается не на всех сегментах. реализации Динамические траек- ·тории оценои {mi (t)}f=1 при наличии белого шума наблюдения с отношением шум/сигнал 0,1 для слова «логар:ифм»м.г. показаны на рис. 4, где t - количество итераций алгоритма оценивапия . Траектории оценои mi и текущей нормированной дисперсии 8~ = +е~0 /х~ для слова «миллиою> м.г . иллюстрируется рис. 5. С помощью двухстороннего порогового огращiчщшя +е 10 (t) для полностью озвученного отрезка слова «миJш:иош> м.г. бьщи выде­ лены иоординаты и амплитудные значения импульсов возбуждения, иоторые :использовались оцен:кам параметров, при синтезе исходного сигнала по Н:ормированные ко:ррелю:~иощ1ые фущщии 73
а re(n) О,3 0,1 п о * ,,. * 40 -О,1 0,4 rg(П) 6 0,2 Рис. 0,5 -о, 5 ~!.~ з4s 1,а - 2. Корреляционные фующии процесса +в1 0 (t) " - - - -- - -- - Рис. 3. Фрагменты реализаций сигнала и уклонения +в 10 0,8 (t) т, 0,4 Рис. 4. Динамические траек­ тории оценок {тni (t)}f=i
_____..:._-.___ __.._. -- - - ·. ~ 0,5 О -o,s Рис. 5. -...:__ --- ----~ ~~~_:::!-=.-::.~,12 8 25б 128 4 8 -Ч t,мс ' -ш__ - - -- -~ ' Траектории оценок тщ для слова «Миллиою> - о.в Рис. 6. Корреляционные функции исходного и синтезированного сигналов исходного и синтезированного сигналов приведены на рис. 6 . Исследование квантования оценок по остаточному процессу +е 10 (t) показало возможность квантования на 25 26 уровней без су­ щественного изменения характеристик Результаты применения алгоритма +е 10 (t). {(6), (7)} оказал:Ись несколь­ ко хуже и из-за ограниченности объема настоящей работы пе при­ водятся. Сделаем несколько замечаний: Близость корреляционных функций +е 10 (t) к корреляцион­ ной функции некоррелированной последовательности указывает 1. на достаточно высокую точность оцепивапия ванность 2. модели Характер с реальным реализации и хорошую согласо­ сигналом. +е 10 (t) подтверждает замечание 1, иллюстрируя в отличие от усредненных корреляционных функ­ ций текущее качество оценивания . Точность оценивания параметров речи, произнесенной жен­ ским голосом, несколько хуже, чем мужским (см . рис . 2). 4. Наличие импульсов основного тона и шума наблюдения не 3. приводит к расходимости алгоритма , что подтверждает приведен­ ные ранее рассуждения. Вместе с тем в начале процедуры оцени­ вания импульсы возбуждения оценок (см . рис . 4, t могут влиять на формирование = 50, t = 135). 75
Проведенная экспериментальная проверка разработанньгх на основе теории фильтрации алгоритмов позволяет сделать вывод о целесообразности их применения в задачах синтетической теле­ фонии или автоматического распознавания слуховых образов . В последнем случае получаемые оценки могут быть использованы как для расчета формантных параметров, так и в качестве первич­ ного описания сигнала, что, вероятно, более привлекательно. Несомненный интерес представляет экспериментальное иссле­ дование рекуррентных алгоритмов интерполяции, которое, по-ви­ димому, составит содержание последующей работы в этом направ­ лении. Приложение 1. Для краткости чай. Алгоритм: оценивания \} рассмотрим: одномерный слу­ при каждом фиксированном: t мо:жно представить в форме = m(t) V Xv m(t) V-1 = [1 + + Xv (Xv · - m(l) Xv-1) Xv- 1 V-1 ' (1.1) ± (1 .2) Х~г1 , i=-[tC:tJ+1 где - оо Хп < = \Jxn-1 п < оо, + Sn, О< а< О < 1, целая часть [ta] - v < t ;>О, т~ = О, ta. Введем следующие ограничения: s 1. Последовательность = и~< оо, Es~ ционарна и < Es удовлетворяет мешивания (р. с.п .) . 3. Ех~ условию < оо, J равномерно \J 1<1, Тогда справедлива следующая теорема . Теорема. из EsF = 1 некоррелирована и 1 = О, оо. 2. Случайная последовательность х 1 ста­ сильного пере- Ех 1 = О, ЕД< оо. 1. При выполнении условий 1, 3 оценка m~t), опредеJ1яемая (1.1), (1.2), сходится в среднеквадратичес1<ом к \t: (1.3) l.i.m. mit) = \J. !-->оо 2. Пусть имеют место ограничения 1-3. Тогда оце~ша m~t) асимптотически нормальна L[Jft+[ta1(\J--m<1>)]---+ 1-->оо cr t где !; ах V 2:rt · ~J exp(- .::--a~)dz, 2 а2 -оо L (z) - функция распределения величины z. Докажем сформулированную теорему. Введем текущее откло­ = \} - т~1 >. Следовательно, нение c~t) сСО V = v (1- XvX 2 V- 1 ] с<О V- 1 XvXv-1~v=}c(t) V - 2 ] = lJ [1- X·r li""k- 1 lc= l v - ~ ХJсХн~1с k=l 76 (1.4) !; v П [1 -!=lc+1 x1.xr_1 ]. Со -
Далее будет tiолезна сЛ:едуюЩая Лемма, которую приведем без доказательства. Лемма. 1. В случае ограничений Xt :_ \ !-+со имеют место СОО'l'НОШеНИЯ 1-3 + (t + [ta]) <J~], 1/[1 < < 2. Последовательность Xv- = Xfl-IGfl, - оо µ оо удовлет­ воряет условию р.с.п. Используя лемму, вычислим следующий предел t lim Е / c<tt) - 1. lim Е 1 с~ 1 ) /2 /-+со t ~ х,,, 1 (t + [ta]) cr2Х t-+oo L . :, .; J "'"' . t = lim Е f П х%с~ + /-+со lk=O t + 2j 1t"\2 ... - 1'= 1 t t 2j XiXjX!-1Xj-1SiSj П Xz П Хт - i= O j= O Z=i+I m = J+1 t t t 7С=О ffi=O l= m+1 - 2 П "/.kCo 2j ХтХт-1Sт п Xz} = . = ~!_.~ 2. lim /-+со .(t Е/-& /2 { (1 + [tl-a])2 + 1 [ta])2 4 (Jx t-+oo а; t + [~а]) а2 t = П t 'l.kCo k= O t t Li Li х k=O m=-[la]+I = Xk-1Xm- 1SkSm =О. + [ta] 3. lim Е { 2 !-+оо (t + [t ]) crx (t О а~)2 = · t Li I.i Е 2а - (1 + (t + [t"]) t 1 (J2 = lim-l (t+[ta])cr~cr€} + ~ .LJ Xk-1Sk - k=-[/a]+1 t ХкХk-1Хт-1SкSт П Xz} = l=k+1 2 cr2 -lim _l =О. 2 t-+oo t + [t a-l] + 2 [ta] cr; Следовательно, -.r V с. н. cr1; s 1 t+ [ta]Ct<tJ ---, 1-+оо (Jx sl (1.5) 77
rде S 1 = 2} xk-lSk• s7 = (t t + [ta]) G~a~; первое утверждение теоремы. Е 1Xt-1St1 sr = 3 s~ = ES~. Из (1 .5) следует Заметим, что < оо, Е 1.x_[t'1]+1S-[t"J+2+ ... +Xt-1St1 2 = (t + [ta]) (J~(J~-- 00 1--+оо и, таким образом, утверждение леммы позволяет воспользовать­ 2 ся центральной предельной теоремой (см. 18.5.1 [17]), что непо­ средственно приводит к (I.4). Приложение 2. :Исходные уравнения имеют вид + F a (t)l dt + Gdri (t), а (t) х (t - т) dt + B d1) (t), da (t) = [F 01 dy (t) = 1 (2.1) 1 (2.2) 0 где t - непрерывное время; и неровские процессы; а (t) (t), ri (t) - некоррелированные (t); dy (t) /dt = х (t); F 01 , F 1 , G, В~ - известны априори; т = Лt, Лt - интервал дискретизации при дискретном t. · 1) 1 а1 ВьшоJшяя вывод уравнения для функции плотности вероят­ ностей л(а'[ !xl ) аналогично [181, получаем выражение t л (а'[ ;х;) = Ктл (ai- 1 /x~- 1 ) р (а 1 /ан) ехр{- В12 ~ [x 1-a 1x1_, ]2dt} х о t -1 Х л- 1 (а1н) л (а?'+ 1 /х1~ 1 ) р (а1н/а 1 ) ехр {- ; где а'[ = (а 1 , а 2 , ••• , ат), х~ = (х: 0 , х 1 , 1']. 1+1 2 ~ [х 1 - a1x ,_, ]2dt}, о l ••• , (2.3) :rт) - траектории процессов а 1 , :х; 1 на интервале [О, Интегрируя л (a·i !xl), приходим к ис1шмой плотности 1+1 л 1 (a 1/xl) = Кт ехр {- в12 ~ [.х 1 - a 1.X t--r] 2 dt} Х о 1-1 00 Х ~ 00 лн(ан/х~- 1 )р(а 1 /ан)dан -оо ~ л- 1 (а1н) Х -оо Х л1: 1 (а1н/х?'+ 1 )р(а1н/а 1 )dа1н· (2 .4 ) Из прямого и обратного уравнений Колмогорова имеем: Р. (а 1 /ан) = б (а 1 + 78 д - ан) - Л аа- [(Fo1 + t + F1a 1) б (а 1 - Л а 22 [G2 б (а 1 - ан)]+ О (Л 2 ), даl ан)] + (2.5)
Подставляя (2.5), (2.6) в (2.4) и вычисляя Кт с помощью предельного перехода Л ~ О, приходим к выражению +л:1 (а1)-:п:1 (а1) = (1 - +'Ул) -'Ул) (1 - (1 + +р (t -- 1, а 1 ) Л) х х (1 +-F(t+1,а 1 )Л){+:n:н(а1)-Л д~t Х Х [(Fo1+F1a1)+:n:н(a1)] ++л Х {-:п:1н (а1) - Л (Fo1 + -+ЛG 2 ::; F1a1) д2 0 да/ (2.7) )J} Х [G2 +:n:1-1(a 1 д~t Г:n:1н (а1)] - -:п:1+1 (а1)}, где +л1 (а1) = л 1 (atfx~); -л 1 (а 1 ) = л 1 (a 1!xf). СJlедовательно, +л (а 1 ) удовлетворяет обычному уравнению фильтрации, а -:п: (а 1) определяется выражением в обращенном времени д-л:t (at) дt д = - (Fo1 + F1а1) д at -л:t (а1) 1 д2 - - 2 G2 - . да/ -:п:1 (а1) + (2.8) где +р = - (1/В~) [Xt - a1Xt-"'] 2; -р = - (1/В~) [.Xt - а1Хtн] 2 • Выражение, связывающее л: (а 1 /х~) с +л: (а 1 ), -л: (а 1 ), получа­ ется непосредственно с помощью формулы Байеса т :n: (а1/Хо) = л:(х~)л: (xf) л: (х~) л: (а/х~) л: (а 1 /х[) л: (xtfat) л: (at) (2.9) В гауссовском приближении из (2.8) и обычного уравнения фильтрации вытекают уравнения (10), а из (2.9) - (10). Заметим, что при х 1 _"' = 1 из полученных выражений вытека­ ют результаты [191. Содержание этой работы в значительной мере определило интерес к рассмотренной постановке задачи. ЛИТЕРАТУРА 1. 2. 3. С. П. Баропип. Статистические методы анализа речевых сигналов.­ Элентросвязь, 1966, .№ 5. F. Itakuгa, S. Saito. А statistical methocl for estimation о[ speech spectral density aad fo1·maat frequeacies.- T1·aas. Iast. Elect. Сот. Eng. J ар" 1970, v. 53-А, N 1. C.J. Gueguen, G. Caгayannis. Aaalyse de la parole par filtrage .optimal de Kalmaa,- Ai,.Щ>matisme, 1973, v . 18, N 3. 79
Nakajima, Н. Отиrа, К. Tanaka, Ichiraki. Estimation of vocal tract area function Ьу adaptive inverse filtering method.- Bull. Electrotechn. Lab., 1973, v. 37, N 4. . 5. В. S. Atal, М. R. Schroeder. Adaptive predictive coding ~ of speech signals.- BSTJ, 1970, v. 49. 6. С. П. Баранин. Рекуррентные методы анализа речевых сиrналов.- 8-я Всесоюзная акустическая конференция (рефераты), т. 1. М . , 1973. 7. Н. Н. Акинфиев, Р. Г. 3агубная. Адаптивное устройство для детекти­ 4. 8. Т. рования текущих параметров линейной прогнозирующей системы.­ АРСО-8. Ч. 1. Львов, 1974. М. В. Назаров, Ю. Н. Прохоров. К вопросу о методах сокращенного представления речевых сигналов.- Труды учебных ин-тов связи, вып. 71, 1975. 9. J. N. Maksym . Real-time pitch e:xtraction Ьу adaptive prediction of the speech waveform.- IEEE Trans, 1973, v. AU-21, N 3. 10. J. D. М arkel, А. Н. Gгау. А linear prediction vocoder simulation upon the autocorrelation method.- IEEE Trans., 1974, v. ASSP-22, N 2. 11. С. Scagliola. Automatic vocal tract parameter estimation Ьу an iterative algorithms.- С SFLT Rapporti techici, 1975, v. 3, N 2. Giugno. 12. В. Gardini, А. S erra. Identification of speech parameters using а recursive method.- Speech. Comm. Seminar. Stockholm, Aug. 1-3, 1974. 13. Ю. Н. Прохоров, М. В. Назаров. Последовательное оценивание парамет­ 14. 15. 16. 17. 18. ров дискретного процесса авторегрессии.- 6-я нонференция по теории кодирования и передачи информации, ч. 1, 1975. Ю. Н. Прохоров. Исследование рекуррентных методов оценивания па­ раметров . сокращенного представления речевых сигналов. Автореф. канд. дис. М., 1975. М. В. Назаров, Ю. Н. Прохоров. Оптимальное оценивание параметров речевых сигналов.- Электросвязь, 1975, No 10. Р . Ш. Липцер, А . Н. Ширяев. Статистика случайных процессов. М., «Наука», 1974. И . А. Ибраги:мов, И. А. Линник. Независимые и стационарно связан­ ные величины . М" «Наука», 1965. В. И. Тихонов. Статистическая радиотехника. М . , «Советское радио», 1966. 19. С. Д. Свет . Исследование специальных методов оптимальной рации случайных процессов. Автореф. канд . дис . М., 1971. Е. И. фильт­ R абанова П р_оцедуры представления сигналов, искаженных нестационарными помехами В задачах интерпретации и распознавания обычно использу­ ется аддитивное представление исходных описаний через заданные функции. Для достижения хорошей аппроксимации эти должны отражать специфику описываемого процесса. те [1] функции В рабо­ обсуждается проблема представления описаний экспери­ ментальных данных. Настоящая статья является развитием этой работы . Рассматривается представление экспериментальных кри­ вых смесью экспоненциальных функций не только при стационар­ ных, но и при нестационарных шумах записи. Исподьзуется метод «анализа so через синтщ~» ,
Для исходного описания сигнала х1 , х 2 , • • • , Хп при заданном п циальных функций q:>1 (х), q:> 2 (х), модель и S (х), измеренного в тоЧI{ах заданной .. . ,q:>m системе экспонен­ (х), где т> п, строится сигнала т F (х) = ~ ~1с(/)1с (х). k=l Число ненулевых компонент невелико (2 или 3) и зависит от струк­ туры исходных описаний. Параметры ~ 1 , ~ 2 , • •• , ~т образуют представление Ь, выходной вектор процесса . ределяется Представление оп­ рекуррентно '< '< - 1 Ь = (S, F Е (Ь), т), где Е - правило последовательно'tо уточнения представления Ь; т - время процесса переработки описания в представление, но­ мер шага. Правило определяется сравнением S и F и оптимиза­ цией F по некоторому показателю качества Q. Предполагается Q известна что функция [21, с точностью до параметров Ь, I{Qторые должны быть определены в процессе переработки. Таким образом, задача сводится к определению конечного числа параметров ~ 1 , ~ 2 , ..• , ~т· В рассматриваемой задаче этими параметрами яв­ ляются ные ненулевые интенсивности и соответствующие времени им постоян­ экспонент. Один из способов решения задачи многопараметрической оп­ тимизации - однопараметрический лям качества (метод Гаусса - поиск Зайделя). по Он частным показате­ состоит в цикличе­ ском чередовании оптимизаций по всем управляемым параметрам . Для решения задачи используется один частный показател ь кап чества, например квадратичный: Qj = ~ [S (х) - F (х)] 2 • 1=1 Координатор J задает порядок обращения к управляемым пара­ метрам. На каждом этапе поиска происходит минимизация показа­ теля Qj по рассматриваемому параметру, и полученное значение параметра вводится в модель сигнала F. Применение метода [2] удобно, если параметры функции ка­ чества Q независимы. Отсутствие перекрестного влияния парамет­ ров дает возможность в процессе оптимизации обращаться к - каж­ дому параметру лишь один раз, так как для такой функции по­ ложение экстремума по каждому параметру не зависит от значе­ ний других параметров. Поэтому задача решается за один цикл, и результат не зависит от порядка оптимизации параметров. В работе (11 исходное описание представляет собой смесь трех экспонент с равномерным шумом. Относительная независимость оптимизаций фильтрацией по частным показателям качества обеспечивается описания и его модели режекторными фюrьтрами l R = ~ акЕk, />=О 8t
где Elry (х) = у (х + kЛх) . экспоненциальный сигнал, Простейший режектор не пропускает на постоянную времени которого он настроен. На каждом этапе оптимизации осуществляется фильтра­ ция сигнала двумя режекторами, настроенными на компоненты, которые не рассматриваются на данном этапе. Выделенная компо­ нента оптимизируется независимо по постоянной времени и по интенсивности. Настройка режекторов производится по приближенным чениям параметров, поэтому за один цикл процесс не зна­ сходится. На следующем цикле настройка ре:жекторов корректируется, и после оптимизации модель сигнала становится бол Gе точной. Про ­ цесс сходится за 3-4 цикла. Недостатком использования режек- . торных фильтров является уменьшение интенсивности выделяемой компоненты по формуле Ан • А 1 (ехр (-В 1 Лх) - ехр ( - В 2 Лх))· · (ехр (-В 1 Л х) - ехр (-В 3 Лх)), где А 1 , В 1 - параметры выделяе­ - мой компоненты; В 2 , Вз постоянные времени подавляемых ком­ понент; Ан - интенсивность сигнала на выходе фильтра. При сближении постоянных времени различных компонент от­ ношение сигнал/шум резко у х удшается. При маJ1 ых интенсив­ ностях сигнала шумы в осповпо11I определяются флуктуациями в электрических цепях измерител ьного устройства [3]. При средних и больших интенсивностях возрастает В J1ияние шумов, связанных с наложением импульсов и неполным собира­ нием заряда. Шумы оказываются нестационарными, причем наи­ большая интенсивность шума наблюдается на начальном участке записи. Исходное описание представляет собой смесь двух экспо ­ ненциальных и одной постоянной компоненты. Из -за шума на начальном участке записи пе удается достаточно хорошо оценить параметры быстрой экспоненты после подав л ения медленной режекторным фильтром. Настройки режекторов оказываются слишком грубыми, процесс расходится. Сходимость обеспечивается членением записи на участки, в каждом из которых доминирует одна компонента. Это участок записи, на котором интенсивность рассматриваемой компоненты значительно превосходит интенсивность других компонент. На таком участке мошпо оценить оба параметра экспоненты, осущест­ вляя оптимизацию по одному показателю качества. Понизив таким образом размерность задачи, удается сохранить независимость оптимизаций по частным показателям качества. Параметры, оп­ ределяющие членение записи, задаются. Вычисляются приближенные значения параметров компонент . По этим оценкам формируется модель сигнала. Осуществляется циклическая оптимизация показателей качества на соответствую­ щих участках записи. Если приближенные значения достаточно близки к истинным, то процесс сходится, несмотря на помехи. Если же параметры членения выбраны неудачно, то оценки начального приближения грубы, и процесс переработки описания расходится. В программе, реализующей описщщый алгоритм, организовано 8Z
nоJiуадаптивное членение. записи автоматически и конце записи, Адаптивное, так как тottRи членения управ л яются поведением сигнала в а полуадаптивное, так как пороги, нача Jiе зависящие от уровня помех, вводятся как отдельные данные . Процесс оnтими­ зации сходится за 3-5 циклов. Модель сигнала строится по фор ­ муле Р (х) = а 1 ехр (- р 1 х) а 2 ехр (- р 2 х) С. В начале ра­ боты программы вычисляются приближенные значения парамет­ ров компонент. Приближенное значение постоянной компоненты определяется по формуJiе + + С=-1 р где р = 20 ·--:- 30. Приблюнепная величина интенсивности быстрой :шспоненты равной первому, максимальному отсчету сигнаJiа принимается = а. 1 S 1 . Постоянная по формуле n-N-L р[' = где времени быстрой ЭI{Споненты оценивается X~l (Sx+N - Sx+N+L) (Sx - Sx+L) / n-N-L X~l (Sx - Sx+L) 2 , N = 2 -;- 4; L = 2 -;- 4. Определяется граница участ1{а доминирования быстрой экс­ поненты хв. Это число отсчетов, за I{Оторое интенсивность быстрой J{ОМпоненты уменьшается в Кв раз. Затем выделяется участок, на нотором доминирует медJiенная экспонента. Для этого сглажен­ ный сигнал S (х), полученный усреднением значений исходного описания по 3 соседним отсчетам, сравнивается с оценкой постоян­ ной 1щмпоненты С. Rонец участка медленной экспоненты хм оп­ ределяется из условия Sхм = КмС. Величины Кв и Км зависят от помех . На участне записи от ! хв до хм вычисляется постоянная времени медленной энспоненты х м-2 хм-2 Р2 = х~в УхнУх+2 х~в УхУх+2• где у (х) Затем = S (х) - С. определяется прибли:женная медленной экспоненты при х = величина интенсивности хв: А2 = Sхв -- а1 ехр (- ~ 1 (хв -1) Лх) - С. Начальная интенсивность медленной экспоненты вычисJiяется по формуле а2 = А2/ехр (- ~ 2 (хв -1) Л х). По полученным оце1шам параметров формируется модель сиг­ нала Р (х) и осуществляется итеративное уточнение значений па- 83
s(x) ЦJ{J{J -'-------- - - --------'---'-------'-> 1р~о 100 1 io ..... ... 40 Рис. 1. 12(/ iJO fбО л \ · ... . zoox Графики сигнала и аппроксимирующей функции в полулогарифми­ ческом масштабе I - сигнал В (х); аппроисимирующая фуниция II - F (х) раметров по методу «анализа через синтез». Оптимизация прово­ дится по квадратичному критерию по отдельности на участке до­ минирования постоянной каждой компоненты. компонент Для быстрой, медленной и соответственно: хм хв Qв = В (Sx - Fx) 2 , Qм= Х=1 В (Sx -Fx)2, х=хв В (Sx -Fx)2 • Qc = х =хм Для каждой пары значений интенсивности и постоянной вре­ мени из набора возможных значений генерируется модель сигнала F (х) и вычисляется показатель качества. Рассматриваемые пара­ метры теля принимают значения, соответствующие минимуму показа­ качества. В программе используется процедура выравнивания масшта­ бов функций S и F. Для этого в формулу вычисления функции F вводится нормирующий множитель Л: ,F (х) = Л (а 1 ехр (-~ 1х) а2 ехр (- ~2х) С). Коэффициент Л варьируется в пределах 0,5-+- 1,5, и для каждого значения вычисляется показатель ка­ + + +. чества Qo X~l s~ - X~l F~ / . = 1 Величины а 1 , а2 и С умножаются на коэффициент Л, соответствую­ щий минимуму Q о. 84
Ошибка аttпроксимаЦйИ вь1числ:яется Iio формуле п !>= ~ [ln(Sx+1)-ln(Fx+ 1)] 2 • X=l В каждом цикле переработки описания использовался следую­ щий порядок оптимизации показателей качества: Q 0 QвQ0 QмQ 0 QЪ. На рис. 1 приводятся графики исходного сигнала и его моде­ ли, полученной в результате процесса переработки описания. модели сигнала: сх 1 = 2598; ехр (-Р 1 Лх) = 0,844; = 22,28; ехр ( - Р2Лх) = 0,97; r; = 2,57. Функции S (х) и F (х) изображены в полулогарифмичеСI{QМ Параметры CG2 масштабе. Рис. 2. Изменение аппроксимации ных е порядков ошибки для Е различ­ л 40 оптимизации / частных показателей качества / I - Qo=Qв = Q. =Qм=Qo=Qc; II - Qм=Qo =Qв=Q.=Qc=Q.; N - номер пюша 20 \ \ \ . . --- ,.--".. п "-<: ----~~"! '---'------~---~--2 4 N о Было проведено сравнение различных порядков оптимизации частных ПОI{азателей качества. Конечные результаты переработки описания почти одинаковы, результаты получаются, но на промежуточных этапах лучшие когда быстрой ЭI{Споненты. На рис. аппроксимации для 2 различных вначале уточняются параметры представлено изменение ошибки порядков оптимизации. Разработанный алгоритм предполагается применить для фор­ мантного анализа речевых сигналов. ЛИТЕРАТУРА 1. Е. И. Rабапова, В. А. Махопип. Представление описаний.- Сб. 2. Л. А. Растригип. 3. Электронные методы ядерной физики. Под ред. Л. А. Маталина. М., Атомиздат, 1973. В. В. Подиповский, В. М. Гаврилов. Оптимизация по последовательно применяемым критериям. М., «Советское радио», 1975. Е. И. Rабапова, В. А. Махопип. Устройство для идентификации одно­ кратных временнЬrх сигналов.- Авт. свид. No 511623. Бюлл. изобрет., 1974. 4. 5. «Нели­ нейные и линейные методы в распознавании образов». М., «Наука», 1976, No 15. Системы экстремального управления. 1975. М., «Наука»,
М . 3. Fробмап, В. Й. 1'умаркин Выделение скрытых периодичностей и формантный а·нализ речи Динамические определены которые с характеристики речевого тракта могут быть помощью параметров экспоненциальных функций, описывают переходные и установившиеся процессы в нем. Измерению этих параметров дошкен предшествовать выбор модели анаJiизируемого процесса, согJiасно которой выбирается алгоритм измеритеJiьной процедуры. Несоответствие между про­ цессом и приписанной ему моделью может привести к значитеJiь­ ным погрешностям. По акустичес1шй теории речеобразования [1] наиболее адек­ ватным физической стороне процесса явJiяется описание во1,али­ зованных участков речи э1,споненциальными функциями с комп­ ле1,сными амплитудами и частотами. На каждый импуJiьс гоJiосо­ вых связок речеобразующий тракт откликается совокупностью за­ тухающих колебаний. Частота каждого I{Олебания ro соответствует резонансной (формантной) частоте артикуляционного аппарата. Скорость затухания определяется добротностью резонанса. Та­ ким образом, на интервалах времени, когда голосовые связки сомкнуты, речевой представить в сигнал сJiедующем для во1,ализованных N у (t) = ~ Aj ехр (- a1t ) cos (rojt j= l звуков можно виде: + cpi), (1) где Ai, ai, cpj - соответственно амплитуда, I{оэффициент затуха­ ния и фаза j-й форманты. При этом n общем случае ffij не I{ратны друг другу. Отыскание этих величин представляет собой задачу, обобщаю­ щую определение характеристик скрытых периодичесних про­ цессов без затухания (периодичностей) . СJiедует отметить, что вы­ явление с1,рытых периодичностей [2], т. е. распознавание спект­ раJiьной структуры процессов по результатам их непосредствен­ ных измерений, отлично от разложения фуннции в ряд Фурье, при нотором она считается периодичесной с периодом, равным интервалу наблюдений. ИсследоватеJiь, нак правило, не может достаточно полно связать интервал набJiюдения с анаJiизируемым процессом, и поэтому Фурье-анализ не позволяет достаточно точ- · но изучить процесс . Действительно, при та~,ом анализе речевого сигнала форман­ ты проявJiяются в виде спе~,тральных ма~, симумов, ноторые могут сливаться в один вследствие близости формантных частот и зату­ хающего характера коJrебаний [3]. В методах вскрытия периодичностей периоды не навязывают­ ся заранее, а определяются в процессе самого исследования. Од- 86
пако применение этих методов для анализа речевого сигнала свя­ зано с рядом затруднений. Интервал наблюдения в данном случае определяется периодом свободных колебаний в речевом тракте (голосовые связки при этом сомкнуты), который для высоких го­ лосов может составить время меньше минимального возможного периода колебаний первой форманты. Более того. На периоде основного топа могут наблюдаться всплески дополнительных ко­ лебаний, вызванные «дребезгом» голосовых связок. В силу этого интервал анализа дошн:ен составлять время пе более 2-3 мс [4]. Способы выявления снрытых периодичностей, достаточно полно рассмотренные в [2], не «работают» на таних коротких интервалах времени. В данной работе приводится описание процедуры вычисления формантных параметров речи, в основу ноторой положена идея разложения функции в ряд энспоненциальпых составляющих [4]. Выражение (1) мтюю преобразовать в экспоненциальный ряд N ~А. -a.t y(t)= L.JTe 1 [exp(i(wjt+cpj))+exp(-i(w/+cpj))] = j= l N ~ [Bjexp(t( -aj+iwj)) +Bjexp (t( -aj-iWj))] , = (2) j= l А . . -f e'"'j. где Bj = Пусть значения фуннции у to + h, ... , t 0 ний S2;-1 z 2н = + ph Bj ехр (t0 ( - aj S2j = = z2 j = (t) заданы в моменты времени t0, и равны у 0 , у 1 , • • . , УР· Введение обозначе­ ехр (h ( - позволяет, подставJIЯЯ в aj + iwj)), + iwj)) (2) значения Ук (3) (j = 1,2, . .. ,N) (4) (k = 0,1, .. . ,р), получить S и z: следующую систему уравнений относительно неизвестных 2N Y1r = ~ j= l (5) Sjzf. Представляя: все Zj в виде корней полинома степени 2N с дей­ ствительными коэффициентами 2N-1 z2 N + j=O ~ bjнZj = О, (6) можно путем несложных преобразований системы (5) получить систему линейных уравнений относительно Ь 1 , Ь 2 , • • • , b2 N: 2N ~ i=l Ym+jbj = - Ym+2N+l• т = -1, О, 1, ... , р- 2N - 1. (7) 87
Очевидно, что количество точек, в которых задается функция; должно удовлетворять условию р 4 N - 1. Система (7) решается методом наименьших квадратов 1, после, чего находятся корни полинома (6). Частоты ffij и декременты: a j находятся из (4) по формулам у > (t), ! 1 ffij = Im z2i-l h arc tg ~ , если Re Z 2j-i =f= О, - n/2h, если Re Z 2j-i =О, е z21- 1 1 aj=-тln\z2нl, (8) (j=1,2, ... ,N). Приведенные соотношения, где из 1<юндой пары компле~<сно­ корней нечетный помер имеет тот, у 1<оторого сопряженных Im z > О, справедливы при условии h < 1/2Fшах· Для нахожде­ ния начальных амплитуд и фаз вводятся обозначения + iC2i, = 1, 2, ... , N. (9) Учитывая, что S 2 j_ 1z~i-i +;s 2jz~i = 2Re (S2j-1Z~j-1 ), и подставляя S2j-i в (5) = C2i- i преобразования j (4) и получаем систему линейных урав- (9), нений N Ук = 2 2} i=1 ехр ( - lraih) [ С2н cos (kffijh) - C2j sin (kffijh)], k = 0,1, ... ,p. (10) Из решения этой системы методом наименьших квадратов находят­ ся все Cj (j = 1,2, ... , 2N), откуда с учетом (3) и (9) Шjto - :rt 2 - с2 . + arctg с-!, 21- 1 ш·t 0 ] ' cpi = 'Jt- ffijto З:rt А· - 2 - 2 у с~н 1 - ехр (- если C2j ;;> О, C2i-1 =/= О, если C2j > О, C2i- 1 = О, (11) с2. + arctg' -C2i-1 1 -, ш·t 0 ] ' + c~i если C2j <О, C2J-i =/=О, если C2i< О, C2j-1 = О, ( J. = 1 ' 2 , ... , N) . а/ 0 ) Описанная процедура была реализована с помощью програм­ мы на языке АЛГОЛ-60 и отлажена на ЦВМ М-222. Бло1<-схема алгоритма пр ивед ена ниже. 1 Матрица системы линейных уравнений, получающаяся в результате пре ­ образования системы (7) по .методу наименьших квадратов, совпадает с автокорреляционной .матрицей, к которой приводит .метод линейного пред­ сказания; в 88 [6]. использование его для ощrсащrя речевого сигнала предложено
nвод: чи;ело формант __\ сп N, Вычислен11:е кол\{чество отсчетов корней полинома р ·Sin[i0>/t] сиrнал у[О, р -1] i= i: р-1 0,1, N j = 1,2, -\\_ N1:=2N М: =N1 + 1 N2: = P+NI =о j: = 0 1 ! 1 A[i, j]: = н~l~в-[_i +_11_ <_ 0 + + R[i 1,2j]: = = --exp(iaj/1] · C[i, j]: = y[i j - 2] i = 1,2, . . " N2 i = 1,2, . . . ,N1 _ll р = l R[l, i]·R[l, j] 1=1 i = 1,2, .", N1 j=1,2, ... , N1 \_ _ 1 i: = i+2 1+-- Да A[j, М]: =О j = 1,2, ... , N1 C[i, М]: = = -y[N1 i-1] i = 1,2, . . . , N2 + 1 I\OP[j]: = B[i] HOP [j + 1]: = B[i+1J A[i,j]: = N2 = ! сп Решение сис·rемы 2· C[l, i]·C[t,j] 1= 1 i = 1,2, N1 j=1,2, м линейных уравнений j =i+2 \t Да 1 j = Ni- 2 1 Нет 1 Вычисление Aj и Фj по (11) сп Решение системы линейных уравне­ ний Вычисление °'j и B[i]: = А[М - i, i] В(О]: = 1 i=1,2, ... , N1 aj по (8) Вывод на печать + R[i 1, 2j - 1]: = = exp(iajh)cos[i"'jh] i=0,1, .. . ,p-1 j=1,2, ... , N Блок- схема алrори:тма С- матрица системы линейных уравнений для нахождеmш частот и декрементов зату­ хания; R - В - матрица системы линейных уравнений для нахождения амплитуд и фаз; массив коэффициентов полинома; А - по методу наименьших квадратов; НОР - матрица, в которую преобразуются С и R массив Rорней полинома
Был nроведен эксnеримент на речевом материале. Параметрь1 формант вычислялись на интервалах свободных колебаний, со- ставляющих 2-3 мс. Полученные результаты подтвердили работо­ способность процедуры. ЛИТЕРАТУРА 1. 2. 3. Г. Фант. Анустическая теория речеобразования. М . , «Наука», 1965. М . Г. Серебре 1-шиков, А. П. Первоаванский. Выявление скрытых периодич­ ностей. М" «Наука», 1965. R. W. Schafer, L. R. RаЬiпег. System for automatic J'ormant analysis of voiced speech.- JASA, 1970, v. 47, N 2. 4. А. В. Кпиппер, . В. А. Maxo~iun, В. Н. Сорокип, Г. И . Це;л~ель. Прин­ ципы построения систем ввода речевой информации в ЭВМ.- Вопросы радиоэлеюрониюr. Сер. ЭВТ, 1974, No 4. 5. 6. А. Н. Крылов . Леrщии о приближенных вычислениях. М" В . S. Atal, S. L . Напаиа. Speech analysis and synthesis Ьу 1933. linear pre- diction of the speeh \\'ave.- J ASA, 1971, v. 50, N 2. А. В. Нниппер, В. А. Махонип, И. А . Орлов Элементы формавтного анализатора В настоящее время не существует устройств, которые могли бы измерять временнь1е траектории формантных параметров частоты, полосы, амплитуды и фазы формант в реал ьном масшта­ бе времени. В США предпринимаются попытки создания специа­ лизированных устройств определения I<о эффициентов линейного предсказания, 1юторые могут быть пересчитаны в формантные параметры [1]. Эти устройства по1<а сложны и доро ги. Сложность измерения формантных параметров определяется сложностью и вариабильностью речевого сигнала, а подчас и неопределенностью самого понятия формант, поэтому техническая реализация точ­ ного формантного анализа, вообще говоря, имеет проблематичные акценты . Существующие методы измерения формантных частот на основе спектрального разложения [2] и измерения плотности нулевых переходов в предварительно отфильтрованных формант­ ных полосах [3] весьма неточны. Эти неточности связаны со сле­ дующими свойствами речи: 1. Формантные области перекрываются и лежат в пределах 0,2- 1 кгц для 1-й форманты; 0,5 - 2,8 I<ГЦ - дл я 2-й и 1,54 КГЦ - ДЛЯ 3-й . 2. Формантные параметры могут быстро изменяться. Так, для сочетаний носовых звуков с гласными существенные изменения происходят на одном-дву х периодах основ ного тона , т. е. примерно в течение 10 мс. 3. Речевой процесс для вокализованных звуков на одном пе- 90
риоде основного тона имеет две фазы, определяемые разомкнуты­ ми и сомкнутыми связнами. Формантные параметры более точно определяются при сомкнутых связках, когда происходят свобод­ ные колебания, определяемые параметрами речевого тракта . 4. Частота основного тона и частота 1-й форманты могут быть весьма близки. Для женсних голосов у некоторых звуков (напри­ мер, для «и») частота основного тона может даже быть выше час­ тоты 1-й форманты. 5. Амплитуды формант быстро уменьшаются с ростом номера форманты. Так, амплитуды 3 и 4-й формант для ряда звуков и дик­ торов могут быть соизмеримы с шумами придыхания, ревербера­ ции, и акустическими шумами помещения, шумами квантования схемными шумами. Достаточно простая техническая реализация анализатора формантных параметров может быть достигнута при измерении в предварительно выделенных формантных областях. Можно от­ метить три основных направления увеличения точности измере­ ния в предварительно выделенных формантных областях [4): А. Построение фильтров с короткой импульсной реакцией, разде­ Jшющих формантные колебания. Б. Измерение формантных пара­ метров на фазе сомкнутых связок, вызывающее необходимость построения обнаружителя моментов смыкания связок по рече­ вому сигналу. В. Разработка метода измерения формантных па­ раме:гров на коротком временном интервале (2-3 мс), следующим за моментом смыкания связок. А. О разделении формантных .колебаний. Как отмечалось выше, области формантных частот перекрываются. Кроме того в процессе образования речи имеют место динамические измене­ ния формант, по [5] мансимальная скорость изменения частоты 2-й форманты достигает 15 гц/мс. Все это приводит к тому, что формантные фильтры должны либо подстраиваться под траеI{ТО­ рию движения частот формант, либо должен производиться авто­ выбор нескольких формантных фильтров в системе большого чис­ ла перекрывающихся фильтров. Независимо от выбранного метода импульсная реакция формантных фильтров должна быть короткой, поскольку в дальнейшем предусматривается организация измере­ ний синхронно с основным тоном. С другой стороны, важно иметь хорошие разделяющие свойства фильтров, особенно в случае от­ деления высших формант от низших, для которого имеется небла­ гоприятное соотношение амплитуд формант. Формирование фильтра с I{рутыми срезами при минимальной длительности импульсной характеристюш представляет сложную проблему теории цепей. При аналоговых методах обычно создают фильтры с колоколообразной формой частотной характеристики [6] или рассчитывают заданный вид временной характеристики при помощи линии задерлши с отводами. В обоих случаях трудно добиться малого коэффициента передачи в полосе непропускания фильтра.
Ниже описывается экспериментальный способ построения фильтра с малым коэффициентом передачи в полосе непропуска­ ния и короткой импульсной реакцией фильтра. Предварительно рассчитывается и изготавливается высокоселективный п-звенный полосовой фильтр. вует известное Для любой соотношение избирательной системы сущест­ неопределенности Л rоЛ t :::::::. const. Импульсная реакция реального п-звенного фильтра (н.ч. или в.ч.) состоит из нарастающей части и спадающей части, опреде- 0,6 1,0 1,4 1,8 2,2 2,в r, !(lц Рис. 1 ляемой в основном законом e-at sin rot. Здесь а - декремент затухания, связанный с потерями в фильтре и нагрузке, а ro круговая частота 1<0лебательного процесса, определяемая часто­ тами срезов фильтра. Спадающие части импульсной реакции мо­ гут быть убраны с помощью реЖеI{ТОров комплексных частот, включаемых последовательно с полосовым фильтром и обладаю­ щих функциями нулевой реакции на этих спадах. При этом дли­ тельность а срез Л импульсной ro - реакции увеличивается, так Лt что существенно частотная сокращается, характеристика полосового фильтра приобретает I{уполообразную форму. Эта форма частотной харю{теристики в полосе пропусI{аIIия блиЗI{а J{ форме ряда оптимальных спектральных окон, построенных на основе функций с двойной ортогональностью [7]. В полосе непро­ пускания свойства фильтра определяются расчетными для поло­ сового фильтра значениями. На рис. 1 ПОI{азаны частотные и импульсные ха рактеристи1ш 9-звенного полосового фильтра, рассчи­ танного на выделение 2-й форманты . 1 - харю{теристики фильтра без режекторов, 2 - с режекторами, настроенными на устра­ нение спадающих частей импульсной реакции для нижнего и вер х­ него срезов фильтра (временнЬ1е характеристИiш скопированы с фотографии). :Как видно, импульсная реакция Л t для скорректи­ рованного фильтра уменьшается в несколько раз . Э1{сперименты показали, что Л t ,__, 2,5 !У /н/ти где / 11 и / 11 частоты срезов фильтра . 92 - нижняя и верхняя
Режекторные фильтры делаются настраиваемыми активными на RС-элементах или пассивными на LС-элементах [8]. Настрой­ ка производится по импульсной реакции фильтра регулировкой частоты и декремента затухания двух режекторов до получения максимально узкой импульсной реакции. Б. Обнаружение моментов смыкания голосовых связок. На основе описанного формантного фильтра была разработана схема обнаружителя моментов смыкания голосовых связок. Идея ра­ боты схемы заключается в выделении формантного колебания фильтром, амплитудном детектировании этого колебания и фор­ мировании импульсов, связанных с максимумом амплитуды фор­ манты. Как известно [8, 9], речь на вокализованных учаСТI{аХ можно представить в первом приближении суммой равномерно затухающих синусоид - формантных колебаний. Смыкание свя­ зок вызывает амплитудный всплеск формантного колебания. Если хорошо отфильтровать соседние формантные колебания, то момен­ ты всплеска амплитуд и будут указывать на моменты смыкания связок. Проведенные исследования показали, что наиболее подходя­ щей областью для выделения амплитудных всплесков является область 3-й форманты. Большинство вокализованных звуков имеет в этой области достаточно большую амплитуду форманты, а относительная высокочастотность колебания позволяет пост­ роить простой детектор формантной огибающей с малой постоян­ ной времени, что важно для определения моментов смыкания при высоких женских голосах. Наконец, важным преимуществом схемы является возможность ее работы в спектре телефонного I{анала. Блок-схема обнаружителя моментов смыкания связок проста и состоит из последовательно включенных полосового фильтра, режекторов на нижнюю и верхнюю частоты срезов фильтра, АРУ - автоматической регулировки усиления, дете~{тора и фор­ мирователя импульсов смыкания. Формантный фильтр был выпол­ нен на диапазон частот 1,8- 4 кгц. Принципиально важной частью схемы является АРУ. Объясняется это тем, что уровень 3-й фор­ манты для разных звуков и разных людей может меняться очень сильно - до 60 дб. Поэтому для нормальной работы детектора глубина регулировки в разработанной схеме составляет величину ОI{ОЛО 70 дб. При таких изменениях сигнала на входе АРУ сигнал на выходе изменяется не более чем на 10 дб. АРУ выполнена на двух ступенях с прямой регулировкой усиления. Детектор АРУ и детектор схемы обнаружителя импульсов смыкания Д вьшолне­ ны на 4-фазной:схеме. Это позволяет сделать постоянную времени сглаживающего фильтра детектора весьма малой - порядка 2 мс, что обеспечивает четкое выделение огибающей на периоде основного тона. Сглаженные в фильтре детектора сигналы оги­ бающей имеют быстро нарастающий передний,[фронт и плавно спадающий задний фронт. Формирователь создает импульсы в от- 3 93
вет на быстрые изменения огибающей, которые с некото­ 20 МС рой задержкой отмечают мо­ менты смыкания связок. На­ личие глубокой АРУ вызыва­ ет срабатывание схемы не только на тональных звуках, но и на вание 2 шумных. на Срабаты­ тональных звуках происходит периодически, на шумных - со а случайной фазой (периодом). Схема обна­ ружения моментов смыкания связок, дополненная схемой J выделения Рис. тона-шума, мо­ жет быть положена в основу 2 устройства измерения частоты основного тона (интоно­ графа). На рис. 2 дан пример работы обнаружителя моментов смыкания на зву1{е «м» на отрезке длиной 20 мс (1- осциллограм­ ма звука, 2 - огибающая формантного колебания после АРУ, 3 - импульсы на выходе формирователя) . В. (:инхронное измерение формантны:х частот. Когда формант­ ные I{Олебания выделены и обнаружены моменты смыкания свя­ зок, возникает задача измерения формантных параметров во вре­ менном 01ше, лебания при окна . Рядом 01пю должно выбранном на наиболее благоприятном участке 1{0наиболее благоприятной длительности временного энспериментов [4, 8] установлено, что временное быть выбрано в пределах 2- 3 мс с небольшим сме­ щением от мансимального всплеска амплитуды формантного ко­ лебания примерно так, как это изображено на рис. 3. Измерение частоты колебаний в таких условиях представ.Пнет существенные трудности . В известной японс1шй системе синхрон­ ное измерение частоты формант производится по плотности нуле­ вых переходов изводится [3]. При этом измерение частоты 1-й форманты про­ посредством формантного колебания, отсчета а времени на одном измерение частоты полупериоде 2-й форманты - отсчетом времени на семи полупериодах нолебания. Такая систе­ ма измерения требует разработки сложной и точной с-инхрониза­ ции с импульсами основного тона, наличия на колебании по край­ ней мере двух нулевых точек, обладает слабой защищенностью от помех, характерной для методов измерения частоты по нулевым пересечениям. Более перспективным в этих условиях является измерение частоты на основе частотно - амплитудного метода, когда исследуе­ мый частотно -модулированный сигнал превращается в амплитуд­ но-модулированный, огибающая которого измеряется. Существует много разновидностей этого метода измерения частоты, мы оста- 94
tювилйсь на Методе, orrиcai-iнoм в [10], с.пу1-нащем: для измерений частоты гармоничес1,ого I{олебания . Идея метода сводится к расщеплению формантного колебанин на два колебания, отношение амплитуд которых пропорциональ­ но измеряемой частоте. Принцип работы методы измерения фор­ мантной частоты представлен на рис. 4. Измеряемый сигнал Ивх через входной блок Вх поступает на дифференцирующую Диф Рис. 3 и интегрирующую Инт RС-цепочки. Выходы с этих цепей посту­ пают на два одинаковых напала, состоящих из детекторов Д и уп­ равляемых интеграторов УИ. Интеграторы управляются от спе­ циалыюй цепи, сбрасывая нанопленные значения сигналов с при­ ходом импульсов смыкания связок и работая затем в течение вре­ мени, определяемом длительностью выбранного оюrа. Отношение Рис. 4 Цет. !Jl'fюблтшя сигналов в верхней и нижней частях схемы, пропорциональное измеряемой частоте, образуется в делителе напряжений Дел. Рассмотрим погрешности измерения, образующиеся при по­ даче на вход схемы равномерно затухающего гармонического на­ пряжения. Пусть Х (t) = ИвхlИ 0 = e-at cos ffit. :Коэффициенты передачи дифференцирующей и интегрирующей RС-цепей имеют соответ­ ственно вид Кц (р) = р/(р а) и Ки (р) = а/(р а), где а = = + + 1/RC. iipи подаче сигнала Х (t) па входы этих цепей получим сле­ дующие Уд (t) сигналы = на у а.2 выходах: + w2 -V(a-a.)2+w2 Уи(l) = -у (а - а а.)2 При этомЛ У (t) а)]. + w2 = e-a 1cos (ер (ffi) - arctg ffi/a) + ЛУ (t), e-a 1 coscp(ffi)-ЛY(t). а (а - а)е-а 1 /[(а - а 2) + ffi 2 ], ер (ffi) = ffit - - arctg [ ffi/(a - 95
Анализ величины Л У (t) no}{aЗaJ1, что npn наибоJrее тюнмых условиях измерения (для наиболее низной частоты первой фор­ манты и малой добротности) она может быть сделана падающей до пренебрежимо малой величины за время, на порядон меньшее длительности наиболее норотного периода основного тона. Аргументы фуннций Уд (t) и Уи (t) отличаются на угол 'Ф = = arc tg ((f)/a). Для больших отношений (f)/a этот относительный сдвиг фаз равен 90°. Для наиболее тяжелых условий измерения частоrы 1-й форманты при добротности Q 3 относительный сдвиг по фазе оказывается равным 81°, т. е. достаточно близким к 90°. При компенсации этого сдвига фазы во входном каскаде отноше­ = ние напряжений на выходах дифференцирующей и интегрирующей цепей определяется величиной '1'] = V а 2 + (f) /a. 2 При измерении в наиболее тяжелом случае для 1-й форманты при Q = 3 погрешность измерения частоты оказывается менее 1 о/о. Rак видно из схемы рис. 4, измерение частоты производится не на амплитудных знач~ниях напряжений, а на усредненных. Переход к средним значениям напряжений имеет два преимущест­ ва. Во-первых, упрощается схема делителя Дел, поскольку он работает в этом случае от униполярных напряжений. Во-вторых, использование интеграторов при вычислении усредненных напря­ жений уменьшает влияние случайных помех и остатков других формант на точность измерения. Схема была реализована на полу­ проводнинах и показала точность измерения частоты в диапазоне 1-й форманты порядка 2 мс. 5% при длительности временного окна ЛИТЕРАТУРА 1. J. R. Welch, J. D. Oetting. Fo1·mant extraction hardware using adaptive linear predictive coding.- IEEE 1973. National Telecommunications Confer ence, 1973, v. 2. Atlanta. 2. J. L. Flanagan. Automatic extraction of formant frequences from continuous speech.- J ASA, 1956, v. 28, N 1. 3. К. Shirai, Н. Fujisava, У. Sakai . Ear and voice of the WOBOT.- Bull. Sci. and Engng. Res. Lab., 1973, N 62. 4. А. В. K1-iunnep, В. А. Махоюи~. I-\ описанию речевых сиrналов. - Сб. «Речевое общение в автоматизированных системах» . М . , «Наука», 1975. 5. J. D. Broad. Formants in automatic speech recognition. - Internat. J . ManMachine Studies, 1972, v. 4. 6. А. А. Харкевич. Спектры и анализ. М., Физматгиз, 1962. 7. Фушщии с двойной ортогональностью в радиоэлектронике и оптике . США, 1961-1968. М . , «Советс1,ое радио», 1971. 8. А. П. Вайпшто к , А. В. K1-iunnep,~ В. А. Махопип, И. Т. Турбови•~ Анализ речи режекторными фильтрами. - Сб. «Речевое общение в авто­ матизированных системах». М., «Наука», 9. 10. 1975. Г. Фапт. Акустическая теория речеобразования. М., «Наука», 1964. Я. А. Яспов. Анализ ионтура самонастройки в самонастраивающейся системе автоматического управления летательными аппаратами.­ Сб. «Теория и применение самонастраивающихся систем». Киев, «Тех­ ника», 1968. 96
В. П. Савельев Устройство выделения и ввода значений частоты основного тона голоса в ЭВМ Для автоматического выделения ударных гласных при распо­ онавании слитной речи в системах понимания речи и членения с их помощью непрерывного речевого сигнала на слова, а также для получения другой просодической информации необходимы из­ мерения частоты основного тона голоса. Устройство выделения частоты основного тона (ОТ) F о ДОJiжно быть достаточно простым и допускать совместную работу с цепями выделения других приз­ наков в устройствах выделения и ввода речевых признаков ("УРВ) в ЭВМ [1-3). В связи с последним требованием устройство выде­ ления и ввода частоты основного тона должно и:м:еть цифровой вы­ ход с передачей отсчетов со значениями ОТ наждые 20 мс, а также должно управляться бJ1оном управJiения выделением признаков и блоком синхронизации и связи с ЭВМ, имеющимися в УРВ. Существует неснолы{о способов выделения F 0 , дающих раз­ личные результаты по точности. В данном CJiyчae требования к точности выделения F о менее строгие, чем, например, в воко­ дер ной технике, таI{ нак имеется возможность программной кор­ рекции отдельных ошибок. От автокорреляционного способа вы­ деления Fo пришлось отказаться ввиду его громоздI{Ости. Методы частотной и амплитудной фильтрации частоты ОТ, описанные во многих работах (см., например, [4- 7]), приблизительно равно­ ценны, но первый неСI{ОЛЫ{О сложнее (необходимость подбора фазовых характеристик фильтров, значительное количество оmи­ бок при значениях F 0 , близких к граничным частотам фильтров). Выделение F 0 было осуществлено по известной схеме: фильтра­ ция нижних частот - нормализация максимальных пиковых зна­ чений - детеI{ТИрование. Принято считать, что детектирование (сигнал без подчеркивания нижних частот) должно быть шести­ кратным. В нашем случае используется двойное детектирование и дифференцирование. Rак правило, указанная схема амплитуд­ ной селекции частоты ОТ реализуется на двух каналах батывающих положительную и отрицательную [8], обра­ полуволны рече­ вого сигнала. Поскольку знак асимметрии речевого потока в за­ висимости от произнесения различными дикторами практически не меняется, была использована одноканальная схема выделения Fo (фаза цепи: «микрофон - устройство выделения F~» постоян­ на), но при определенных ограничениях. Так, диапазон выделяе­ мых частот ОТ был ограничен частотами 90-400 гц, что, согласно статистическим исследованиям, справедливо в 95% случаев. Кроме того частоты ОТ ниже 90 гц не могли быть введены в ЭВМ при выбранном способе ввода периода ОТ (см. ниже), значения 1шторого вводятся в ЭВМ через Л t = 20 мс, так нак внутри этого интервала доJiжно быть не менее двух периодов ОТ. 4 Распознавание образов 97
из Б.VС Блок- схема выделения устройства и ввода зна ­ чений частоты основного топа голоса в ЭВМ М - миирофон; 1'улирования ОБ Т - - ФНЧ одновибратор; статичесиий ОТ; Сч - - уровня; фильтр ПД ПУ - триггер; счетчии; БУС - - лишних пииовый пороговое Н - илюч; частот; детеитор; Дифф устройство; И Ген - - АРУ - блон - бло1( генератор автоматичесиого дифференцирующая ре- цепь~ логичесиого умнощевия; частоты заполнения периода блон управления и синхронизации с ЭВМ Указанное выше ограничение рабочего диапазона выделяе­ мых частот ОТ позволило усилить низкочастотное подчеркивание речевого сигнала. Спад частотной характеристики фильтра ниж­ них частот (ФНЧ) вместо обычных 6 дб на октаву доведен до 12 дб. Воздушная струя при произнесении взрывных звуков (особенно для «ш> и «т») вызывает в таком фильтре мощный нестационарный процесс, что часто приводит к ошиб1{аМ измерения первых перио­ дов ОТ последующих гласных звуков. Поэтому перед микрофоном должен стоять экран (диаметром около 2 см), конструктивно :объ­ единенный с ограничителем расстояния до губ диктора (01шло 6 см). Такая близость объясняется необходимостью увеличения отноше­ ния сигнал/шум в условиях работы УРВ в машинных залах ЭВМ. Так как громкость произнесения должна находиться в определен­ ных пределах, то после фильтрации диапазон изменения рече­ вого сигнала составляет не более 40 дб. Для нормализации уровня после фильтрации на выходе ФНЧ используется АРУ с прямой регулировкой. Для мгновенного комп­ рессирования время заряда емкости на выходе пикового детектора АРУ выбрано достаточно малым. Скорость же разряда должна превышать максимальную скорость изменения огибающей сигна­ ла на участ1{ах гласных, но быть не менее некоторой величины, иначе мешающие колебания между максимальными пиковыми зна­ чениями сигнала будут относительно увеличиваться, что несколь­ ко скомпенсирует низкочастотное подчеркивание сигнала, произ­ веденное в фильтре нижних частот. Экспериментальным путем постоянная времени фильтра детектора АРУ была установлена равной 10 мс. tr ' Следующий элемент устройства выделения частоты"'ОТ - схе­ ма 98 выделения пиковых значений сигнала имеет меньшую, чем
обычно, постоянную времени фильтра, но детектор работает с от­ сечкой около 30%. Это позволяет более эффективно срезать мешаю­ щие выбросы на сигнале, приводящие к ложным отсчетам. F 0 , при меньших колебаниях выходного сигнала пикового детектора в рабочем диапазоне. Rолебания выходного сигнала связаны с тем, что изменения огибающей пиковых значений сигнала на выходе АРУ увеличиваются с частотой и тем сильнее, чем больше постоянная времени разряда конденсатора на выходе пикового детектора. Это затрудняет установку порога реле. На рисунке дана блок-схема устройства выделения и ввода в ЭВМ «Минск-22» частоты основного тона. Фактически выде­ ляется период основного тона. На выходе устройства период ОТ представлен некоторым числом импульсов частоты заполне­ ния этого периода (f = 7,8 гц). Эта частота выбрана, исходя из следующего. С одной стороны, при низшей F 0 ее значение не долж­ но занимать более 7 двоичных разрядов в памяти ЭВМ, с другой при высоких значениях F 0 не должны теряться существенные для выделения ударения, изменения F 0 на верхнем пределе 400 гц. На интервале 20 мс измеряется только первый период ОТ после предыдущего отсчета (блоки И и Т). Предварительные эксперименты показали, что, несмотря на отсутствие второго канала, надежность выделения частоты ос­ новного тона составляет не менее 92%. Если отбросить первый, часто неверный отсчет, то надежность выделения частоты ОТ повы­ шается до 97%. Значительную часть ошибок (удвоение F 0 ) дают звуки <ю» и «у» (при некоторых тональностях), но они редI{О встре­ чаются на двух и более отсчетах подряд и поэтому могут 1щрректи­ роваться программно. Значительный процент ошибок получается при произнесении «а». Это связано с двугорбостью МаI{симальной на периоде ОТ полуволны и не может быть устранено пиковым выделителем описанного типа даже при многократной обра­ ботке. Здесь эффективнее применение двухканальной схемы выделения F 0 • В нашем случае используется простая схема за­ прещения второго, ложного, импульса, отстоящего не далее 2 мс, что соответствует верхней граничной частоте р абочего диапазона F 0 = 500 гц. Импульсы ОТ подаются на 1шюч К через схему И, н а входы которой подаются импульсы основного тона Е 0 т, потенциал ка­ нала шумности Ер, потенциал Еаг наиболее чувствительного амп­ литудного дискриминатора схемы выделения и ко дирования ин­ тенсивности речевого сигнала, используемого в УРВ для сегмен­ тации потока, и импульсы Е 3 от схемы запрещения со временем 2-2,5 мс. Условие появления сигнала, свидетельствующего о на­ личии основного тона, представляется в следующем виде: Е ~ Еат /\ Еаг /\ЕР/\ Ез. В таблице приведен пример выделения частоты ОТ во фразе: «Это жирные сазаны ушли под палубу» . Nат - число импульсов 4* w
0 ~ocrr 1100 т 1~~ ~~~ 1~~ 1-104 Focp р ые н 70 71 1 70 74 1 75 75 76 75 77 101 104 1140 138 140 134 135 138 134 136 132 110 108 138 137 127 а 3 а с - , 100 102 102 110 1- 1100 64 61 55 ы 52 108 108 104 152 160 160 172 170 1 107 160 ы н у ш л 56 60 65 1 70 74 77 77 1105 107 1- 1 72 134 132 132 106 105 140 170 160 150 132 105 140 165 о п д а п 64 66 1- 1 35 70 76 1- 1- 1100 103 103 152 150 140 134 108 108 151 137 1 108 у л б у 110 115 121 1120 120 125 1- 1125 141 137 140 132 1 98 88 85 90 100 96 96 94 1 98 95 90 заполнения периода ОТ ненное значение F0 в восьмеричной системе; на протяжении звоrшого звука; F 0 ер F0 - усред ­ частота основного тона. Удвоенн ые значения периода ОТ обнаружива ­ лись программой и уменьшались в 2 раза . Резкие уменьшения значений N 0 т на одном отсчете заменялись полусуммой предыду ­ щего и последующего отсчетов. В приведенном примере заметно повышение Р 0 на ударных гласных в слогах «жИ», «за» и «лИ», а танже по т шжо1тие F 0 n :конце фразы. Последний ударный гласный «а» может бытL выделен :КаJ{ имеющий наибольшее значение F 0 в о:кончании фразы. Выделение и . обработ:ка значений Р 0 выполняются в реальном масштабе вре­ мени с помощью ЭВМ «Минс:к-22». JIИTEPATYPA 1. 2. 100 А. А. Григорян,, А. А . Ерошкин,, С. Н. Крииов, С. С. Ракшеев, В. П. Саве.л,ьев, Г. И. ЦeJJie.ttь. Выделение и ввод признаков речевого сигнала для систем речевого управления.- Сб. «Автоматическое распоз­ навание слуховых образов», АРСО-6, Таллин, 1972 . А. В. Васильев, С. С. Ракшеев, Т. 3. Рютииа, В. П . Саве.л,ьев. Система речевого ввода информации в ЭВМ М-222 . - Сб. «Речевое общение в авто­ матичесю1х системах». М., «Наука», 1975.
З. А.· А. Алифапов, А. М. Гелъфер, С. Н. Крuт{ов, Г. И. Це.л~елъ. 'Устрой­ ство ввода речевого сигнала в ЭВМ.- Сб. «Электронная техника», Сер . 9, «Автоматизированные системы управления», вып. 2, 1974. L. О. Dalansky. Instantaneous Pitch Period Indicator.- J. Acoust. Soc. 4. America, 1955, v. 27, N 11. 5. W. Kallenbach. Die Untersuchung der Sprache mit dem Tonl1ohenschreider.- Frequenz, 1962, Bd 16, N 2. 6. G. И. Righini. А pitch extractor of the voice.- Acustica, 1963, v. 13, N 4. 7. О. О. Gruenz, L . О . Schott. Extraction and portrayal of pitch of speech sounds.- J ASA, 1949, v. 21, N 5. 8. Т. Sugimoto. On the pitch sensation and the fundamental f1·equency extraction of speech sounds. - Electr. Com. Lab. Тесhн. J" 1962, N 2. В. В. Максимов Использование параллакса движения для восстановления пространственной ситуации без нахождения соответственных точек на последовательных изображениях сцены 1. Введение. Обычно считается, что испо Jrь з ов ание парал.лак­ · определения третьей пространств е нно й координаты по двум плоским проекциям объемного мира (разл ичают биноку­ лярный параллакс, когда сопоставляются изображения, получен­ са для ные при помощи двух разнесенных в пространстве оптических систем, и параллакс дви:жения, когда сопоставляются изображе­ ния, получающиеся последовательно во времени с помощью одной оптической системы в процессе ее движения в пространстве) сво­ дится к: 1) выделению некоторых особых точек на изображениях; 2) нахождению соответствия между точками одного и другого изображения; после этого 3) простые тригонометрические расче­ ты дают расстояния до каждой из этих точек в пространстве. К сожалению, этот метод пе лишен недостатков. Так, заранее пред­ полагается, что форма предметов или харан:терная раскраска их поверхности создает па изображении какие-либо особые точки. Далее, нахождение соответственных точек на двух изображениях оказывается довольно трудоемкой процедурой. И, нако нец, он дает местоположение в пространстве .только этих точек и ничего не говорит о других точках. Иными словами, такой метод вместо восстановления внешней пространственной ситуации позволяет только определять «дальность» изолированныхiточе:к поверхности предметов. Желание же получить более подробную информацию о пространственной ситуации неизбежно приведет I< увеличению перебора при поиске соответственных точек. В результате сцены, богатые особыми точками, ~становятся:неr,под~силу вычислитель­ ным машинам. В настоящей статье разбирается принципиально отличный под­ ход. Использование непрерывности изменений изображения сце- 101
ны в процессе движения оптической системы в пространстве, а также переход к рассмотрению гладких поверхностей предме­ тов и непрерывных и дифференцируемых функций яркости поз­ волил найти аналитическое решение задачи, не требующее ни пер­ вого этапа распознавания - выделения особых точек, ни второго этапа - нахождения соответственных точек на разных изобра­ жениях. Вследствие этого метод позволяет вычислять расстояния практически до любой точки видимых поверхностей (а исключение составляют, в частности, именно те точки, где изображение имеет - скачок яркости или ее производной и пр.). Естест­ венно, предложенный метод встречается со специфическими трудностями и имеет свои ограничения. Поэтому окончательное особенность решение задачи восстановления внешней пространственной ситуа­ ции, по-видимому, нужно будет искать в виде некоторой комбина­ ции этих двух методов. 2. Постановка задачи. во -первых, формой и Трехмерная расположением сцена объектов характеризуется, в пространстве и, во -вторых, распределением яркости по поверхностям этих пред­ метов. Эти характеристики независимы в том смысле, что одна и та же по форме трехмерная сцепа MOfI{eT быть по-разному раСI{ра­ шепа и освещена, и наоборот, одинаковые оптические изобрюне­ ния могут создаваться совершенно разными по форме сценами. При этом непосредственно может восприниматься только яркость точек поверхностей, на выходе же .наша система должна давать первую характеристику сцепы - объемную ситуацию. Сцену нам будет удобно представлять в сферических (поляр­ ных) координатах, связанных с центром оптической системы. Пусть в неноторый момент времени видимая пространственная ситуация описывается расстоянием р (ер, 'l't) от центра оптической системы до видимой поверхности предмета Б направлении (ер, 'l't), а фующия Е (ер, 'l't) характеризует яркость соответствующей точ­ ки поверхности. Поскольку система движется в пространстве, р и Е будут также меняться во времени . Итак, задача системы состоит в том, чтобы по ярI{Ости видимых точек пространства Е (ер, 'l't, t) в каждый момент времени восста­ новить их удаленности р (ер, 'l't, t). 3. Упрощающие ограничения. Будем считать, что фушщия Е (ер, 'l't, t) является непосредственным входом системы. Иными словами, предполагается, что оптическая система не содержит фокусирующих элементов, а изображение сцены строится проек­ тивным преобразованием (с бесконечно большой разрешающей способностью). Трехмерная сцена представляет собой совокупность непо­ движных непрозрачных предметов в прозрачной среде . Предметы ограничены I{усочно ГJiадкими поверхностями. Яркость каждой поверхности - почти везде непрерывная и дифференцируемая по поверхности функция. Яркости точек поверхностей не зависят от 102 угла зрения.
v постоян­ Для простоты будем считать, что скорость системы на (причем направление f} = О системы координат совпадает с направлением вектора с1<орости). Случай произвольного трех­ - мерного движения не вносит ничего принципиально нового бо­ лее громоздкое аналитическое решение для этого случая разобра­ но нами в другой работе [ 1]. 4. Аналитическое решение. системы координаты каждой В процессе движения оптичес1юй точки внешнего мира ведут себя так, что ер остается постоянным, а изменяются только р и f}. При этом угловая скорость движения изображения некоторой точки может быть вычислена (если в этой точке определены производ­ ные от яркости) по формуле u:> = - дЕ/дt дЕ/дf} С другой стороны, угловая скорость относительного движения определяется положением этой точки в пространстве и скоростью движения системы w = (v/p) sin f}. Отсюда выводится формула для определения расстояния до видимых точек повеР.х'­ ностей предметов по их изображению точки р (<р, f}, t) 5. шение =- V . дЕ/д{} SШ f} дЕ/дt • О дис1<ретной реализации. строится независимо для (1) Rак видно из формулы разных углов ер, т. (1), е. ре­ задачу восстановления трехмерной пространственной ситуации по дву­ мерному ее изображению фактически можно разбить па сово1,уп­ ность задач, в I<аждой из I<оторых восстанавливается двумерная сцена (в координатах р, f}) по ее одномерному изображению. Та­ кое сонращение размерности удобно как с точки зрения машин­ ного моделирования, так и для графического представления ре~ зультатов. Необходимость дифференцирования изображения по f} и по t создает серьезгые трудности при реализации описанного способа вычисления расстояния до произвольных точек внешнего мира. Известно, каких ухищрений требует даже более простое «выделе­ ние нонтуров» на изображении, полученном с помощью телеви­ зио1-шой камеры ставление входного [2]. Одна из трудностей состоит в том, что пред­ непрерывного и непрерывно меняющегося во времени изображения на дискретном растре в дискретные мо­ менты времени требует замены производных в формуле (1) на :ко­ нечные разности. Другая, может быть, даже более серьезная труд­ ность обусловлена высокой чувствительностью предложенного метода к шумам на изображении. Исследование всех этих вопросов, связанных с дискретной реализацией метода, естественно проводить не с помощью реаль­ ной телевизионной аппаратуры, а с помощью генерирования изо­ 'бражения сцены в вычислительной машине посредством специаль - 103
Е i l Оптическая система ~п"''f'№' ---...... ---........~-- ___ _ __ --~о с -----_~...,... А в 6 Q Рис. 1. с Пространственная ситуация (а) и ее изображение (сигналы датчиков) •а входе с.истомы в момент времени t = 75 (б) IОЙ программы. Это по з волит варьировать параметры (разрешаю­ щую способность в пространстве и во времени, число градаций яркости и шумы на в х оде) и исследовать влияние каждого из них в отдельности. 6. Машинное моделирование. Программа была написана на язьше LEM для вычислительной машины MULTI -20 и состояла из трех блоков. С помощью одного блока в машине создавался окружающий мир - сцена (задавались форма и взаимное распо­ ложение предметов, а также яркости точек их поверхностей). Другой блок моделировал оптическую систему, формирующую изображение этого мира . Третий блок по этому изображению вычислял расстояния до видимых точек сцены. Двумерная сцена (рис. 1, а) представляла собой горизонталь­ ную прямую, па J{Оторой лежала окружность (эту сцену можно считать одним из плоСI{ИХ сечений некоторой трехмерной сцены, например шара, лежащего на плоскости). Распр еделение яркости на предметах сцены было следующим. Яркость точек прямой слева от точки С на рис. 1, а линейно воз­ растала, в точке С претерпевала скачок, а затем (справа от точ­ ни С) убывала также по линейному закону. Яркость точек окруж­ ности изменялась как некоторая нелинейная функция дуги, для всех видимых точек окружности монотонно возрастая слева на­ право. Оптичесr.ая систе.ма, 1щторая двигалась (с заданной скоростью v) над этой сценой на некотором расстоянии от прямой (рис. 1, а), создавала одномерное изображение этой сцены на дискретной цепочке датчиков - «фотоэлементов». Последняя содержала 64 дат­ чика, в сумме охватывающих поле зрения в 96° (рис. 1, а). Угол между оптическими осями 'lt; соседних датчиков равнялся 'lt; - 'lt;_ 1 б 1,5°. Ширина диаграммы направленности каждого 11з датчиков составляла также 1,5°. Выходным сигналом датчиRа Е'~ является и нтегральная яркость точек окружающего мира, = = проектирующихся в момент времени 104 t на i-й датчик (i = О, 1, ...
... , 63) в пределах этого угла. Пример изображения сцены, фор· мируемого оптической системой (в один из моментов времени) пред­ ставлен па рис. 1, 6. Вычисление расстояния(')!, где i = 1, ... , 63, до точки сцены, 'l'ti, производилось по формуле Е1 -Е! + .Et-1 _н.t-1 -1 sin {}i-1 t 7.-l t-1 (2) Pi = -v ~ 1 + н 1 - н!- 1 · • н!i - н~i t-1 i-1 видимой в направлении 1, 7. Результаты. Программа последовательно для мента сцепы. времени вычисляла в ычислепное вдоль направления расстояния v каждого мо­ всех видимых -1 откладывалось в полярных координатах с центром, соот­ расстояние ветствующим положению системы в момент времени t. приведены отдельные кадры из построенной таким следовательности, ~ начиная с того момента окружности точек Pi программои 'l'ti до появляется в поле (t = 25), На рис. 2 образом по­ когда край зрения. В этой сцепе практически везде расстояния до точек ОI{ружаю­ щего мира были вычислены с ошибками менее 0,5%. Причем ос­ новной источник ошибок - это неточное генерирование самого изображения: использование приближенных формуJI для интегра­ лов, низкая точность вычисления функций ln х, sin х, cos х стан­ дартными процедурами языка LEM и прочее, а совсем не замена «точной» формулы (1) на приближенную - (2). В местах изобра­ жения, где имеется CI{aЧOI{ и.Ли излом Яркости на изображении (что может соответствовать изменению яркости гладI{ОЙ поверх­ ности - точка С на рис. 1 - и.ли границе, где один видимый предмет заслоняет другой - точки А и В на рис. 1, 6), в двух (иногда в трех) соседних точнах расстояние определяется неверно (нередко вычисленное pl оказывается даже отрицательным). Влияние шума. Численное дифференцирование очень чувст­ вительно к точности измерения и ко всякого рода шумам. На рис. 3, а показано, к чему приводит квантование яр1{ости изобра­ жения на 256 градаций. Сравнение с тем же моментом времени 8. t = 75· на рис. 2 (где яркость вычис шшась с машинной точностью) показывает, что такая довольно выcoI{afl для приемного устройства точность измерения яркости длн этого метода оказывается еще недостаточной. Недостаток информации, поступающей в каждый момент вре­ мени на вход, можно:компенсировать, используя априорные све­ дения о внешнем: мире. Так, предложения о гJiадкости и стацио­ нарности позволяют применять обычный метод борьбы с шумами усреднение отсчетов (или вычисление сглаженных производ­ ных по нескольким точкам). Если яркость изображения доста­ точно плавно меняется по пространству и во времени, то можно соответствующим образом усреднять показания соседних датчи­ ков. Рис. 3 иш1юстрирует эффект усреднения о тдеJiьно по прост­ ранству (6) и по времени (в) . Это условие в действительности озна- 105
о 25 1 о 50 о .r-' о 100 Рис. 2. Результаты вычисле­ ния расстояний до точек внеш­ о него мира времени ""'\" Положение наждый мечено о о в разные (цифры из моменты слева) системы над сценой моментов времени в от­ нружном о . .··о'·· .... · ··:. .......... Рис. о 3. - - - --- Влияние шума .. нвантования Для сравнения тонной линией изображено ~ ·, --~: ------~·--- реальное расположение предметов в сцене. Формула а- t (2) применялась н изображениям : -t Ei = Ei, 6 - -t + Еiн)/3, г - t Ei = t -t Ei = (Ei-I -t• (Ei -1 + Ei + + E-1-1 i + -Eit-?)/3 1 где Ёi-исходное изображение, 1шантован­ ное на 256 уровней ярности
чает, что в таком мире переход к формуле в конечных разностях в принципе допустим при значительно более грубых шагах (Лt и Л\r). Иными словами, метод усреднения отсчетов опирается на некоторую избыточность приемного устройства, которое при низ­ кой точности измерения имеет (для данной сцены) чрезмерно вы­ сокую разрешающую способность. Такой размен разрешающей способности на контрастную чувствительность будет бесполезен в тех местах изображения, где усредняемая величина быстро изменяется от точки к точке. Внутренняя модель внешней пространственной ситуации:. В действительности, в разобранном ранее методе слабо использу­ ется априорная информация о неподвижности мира - в каждый момент времени: внешняя объемная ситуация восстанавливается фактичес1ш независимо. В то же время если в некоторый момент 9. t точно подсчитаны р 1 , то по изображению Е 1 и р 1 можно пред­ сказать практически все изображение (за ис1шючением изобрюне­ ния тех участков поверхности предметов, которые вначале нахо­ дились вне поля зрения или были заслонены другими предметами) на любой момент будущего. Эту особенность можно использовать для повышения качества изображения. Поскольку каждая точка находится в поле зрения системы продолжительное время, имеется принципиальная возмо.жность усреднять во времени отсчеты яркости отдельно для каждой видимой точки поверхности. Для этого нужно только, чтобы соответствующий накопитель переме­ щался по системе датчиков с той же угJrовой скоростью, с которой движется изображение этой точки (угловая скорость, как уже говорилось, может быть вычислена по самому изображению). Итак, предлагается создавать в системе непрерывно улучша­ ющуюся модель внешнего мира, которая для каждой точки сцены в каждый момент времени с большей или меньшей точностью вос­ станавливает: 1) ее яркость (усредняя отсчеты датчиков, на кото.­ рые последовательно проектируется данная точка сцены) и 2) скорость перемещения ее изображения по системе датчиков (ко­ торая и используется для предсказания положения изображения этой точки в следующий момент). В первые моменты после того, как некоторый участок поверхности появится в поле зрения, это восстановление будет неточным. Однако с течением времени оно будет улучшаться. В результате, при не слишком больших ско­ ростях движения система сумеет «разглядеты> (восстановить форму и яркость поверхности) каждый из предметов, появляющихся в поле зрения. Можно надеяться, что использование такой модели позволит существенно снизить требования к точности работы уст­ ройства ввода изображения, при меньшем числе априорных огра­ ничений на воспринимаемый мир. Обсуждение. Решение в конечных разностях, полученное в разделах 6 и 7, моделирует не только параллакс движения, но и бинокулярный параллакс. Следует только считать, что показа­ ния датчиков Е 1 и Et- 1 с разными верхними индексами в формуле 10. 107
(2) получены с поыощыо двух разнесенных оптических систем, а v задает расстояние между ними. Естественно, и в этом случае метод применим только к таким сценам, где производная яркости по поверхности мало меняется на расстоянии v. Поскольку в би­ нокулярном случае мы имеем всего два изображения внешнего мира, использование внутренней венной ситуации для накопления модели внешней информации пространст­ теряет смысл, увеличение конт­ и единственный способ повышения точности - растной чувстпительности которое можно ществлять, например , самих датчиков, путе11'! усреднения отсчетов , юш это осу­ описа ­ но в разделе 8. До сих пор при разработке систем ИСI{усствепиого зрительного восприятия основное внимание уделялось «упрощеппому» вариан­ ту - поJшэдраJiьiшм сцепам (состаВJ1енпым: из многогранников). Примечательно, что пред.11оше11ный здесь метод оназывается пран ­ тпчесни неприменимым J{ 110JLИэдраJ1ы1ым сценам. Действительно, с одной стороны, он н е дает решения для тех точен, где производ­ ная яркости по поверхности обращается в пул ь. Таная неопре­ ленность решения может возникать на довоJ1ьно больших участках поверхности, в частности на однородно освещенных (далеким то­ чечным источНИI{ОМ) и однородно окрашенных плоских гр анях. С другой стороны, метод неприменим там, где производные не определены - в точках изображения, куда проентируются ребра многогранников и границы предметов. Только в области тени, где возможны значительные вариации освещения дюне на плоских поверхностях (в результате взаимных рефленсов и взаимного зате­ нения скученных предметов [3]), можно еш,е надеяться па успех. Приверженность исследователей 11: полиэдральным сценам обусловлена , по -видимому, пе столько тем, что такой мир является типичным, снолько надеждой на то, что результаты, полученные здесь, можно будет легко обобщить на случай криволинейных поверхностей (представляя их с большей или меньшей точностью в виде многогранников). Однако , как правило, в этих работах ос­ новным объектом анализа являются контура на изображении (соот­ ветствующие ребрам, границам предметов, границам тени и т. п . ), а разрабатываемые при этом методы носят довольно громоздкий логичес1\ИЙ (переборный) харантер [4], поэтому не ясно, как их можно естественно обобщить на случай произвольных сцен (ногда число граней стремится к бесконечности, но при этом исчезают ребра между ними) . Не удивительно поэтому, что в уже предпри­ нятых попытках интерпретации трехмерных сцеп, содержащих тела криволинейной формы, исследователи вынуждены были раз­ вивать независимый подход [5-8] . Переход к гладю1м поверхно­ стям (отк аз от рассмотрения ребер) в ряде случаев оказывается более продуктивным упрощением, поскольку позволяет исполь­ зовать аналитический аппарат. 108
ЛИТЕРАТУРА 1. 2. В. В. Макси.л~ов, С. В. Сомщев. Об определении расстояний до 11роиз­ вольных точек окружающего мира по его монокулярному изображе­ нию при известном движении наблюдателя.- Вопросы радиоэлектро­ нини, сер. общетехн. (бионика) , 1974, No '14. М. Н. Н ueckel. An operator which locates edges in digitized pictures. - JACM, 1971, v. 18, N 1. 3. 4. 5. В. В. Макси.л~ов, П . П . Николаев. Цветовая оппонеитность и 1<0нстант­ ность цветовосприятия. - Биофизика, 1974, т. 19, No 1. Р. Н. И'inston. The MIT Robot. - Machine intelligence, 1972, v. 7. lJniv. Pr·ess, Eclin bшgh. L. J. Кгаkаиа. Сошрнtеr· analysis о[ visual propertics of curvecl objects. - Ph. D. Thesis, MIT, 1970. 6. 7. 8. В. К. Р. Н orn. Sha ре from shading. А methocl for finding the sha ре of а sшooth ораqне o])ject, fr·om one vie,v. - Pl.1. D. Thesis, МIТ, 1972. С. J. Agin, Т. О. Binfoгd. Computer descr·iption ol' cшved object.s. - Pr·oc. Tl1iнl lnt eш. J oiнt СопI. Aгtific. lntelligence, Staпf01·d, 1973. И. С ..!Iосев, В . В . Мш<с и.л~о в , 11. 11. Николаев . Об у знавании онрасrш и объемной формы предмет ов. - Биофи31ша, 1975, т. 20, No L.. Г. А. Хай Проект диагносцирующей системы 1. Введение. Анализ диагностичесних врачебных ошибон по1\а­ зывает, что наиболее частыми их причинами являются не «упу­ шенные» врачом, но фантичесни имевшие место симптомы заболе­ вания, а трудности логичесной оценки и интерпретации выявл.ен­ ных симптомов при малом их числе. Это позволяет сформулировать в качестве центральной задачи при автоматизации ского процесса не выявление симптоматики, диагностиче­ что является сегодня делом врача, а логическую обработну симптоматики [1 -4]. Далее будет рассматриваться методика построения логичесной програм­ мы распознавания острых хирургичесних заболеваний органов брюшной полости. 2. Характеристюш 1шасса заболеваний. Острые хирургичес­ кие заболевания органов брюшной полости характеризуются обыч­ но внезапным началом, быстротечностью и прогрессирующим раз­ витием, создающим непосредственную угрозу жизни больного. Значительная часть симптомов этих заболеваний встречается и при различных других заболеваниях, не относящихся к этому нлассу, что усугубляет возможность и опасность диагностической ошибки, поскольку при большей части острых заболеваний органов брюш­ ной полости единственным методом лечения является неотложное хирургическое вмешательство, а при сходных по симптоматике заболеваниях, но относящихся к другим нлассам , обычно изле­ чивающихся консервативными методами, операция может быть противопоказанной и даже приводить к I\атастрофическим послед­ ствиям. 109
Отнесение заболевания к выделенному классу производится при наличии любого из следующих четырех признаков: 1) жалобы на боль в животе; 2) болезненность при ощупывании живота; 3) установленный факт или подозрение на 'rравму живота; 4) подо­ зрение на внутреннее кровотечение. Эти данные, полученные вра­ чом, являются основанием. для формализации последующей диа­ гностической процедуры. 3. Стратегичес1п1й принцип диагност~ши. Из характеристики этих заболеваний видно, что практической целью их распознава­ ния является своевременный выбор оптимального метода J1ечения, т. е . стратегии, от чего непосредственно зависит судьба больного. Целей академической диагностики мы здесь насаться не будем. Можно выделить следующие шесть основных стратегий хирурга: 1) показана срочная операция; 2) надо уточнить диагноз; 3) опе­ рация является напрасной; 4) операция противопоказана; 5) кон­ сервативное лечение, при неэффентивности его - операция в бли­ жайшие часы; 6) предпочтительна отсроченная или плановая опе­ рация. В соответствии с таким разбиением и перечнем стратегий хирурга целесообразен и стратегический принцип определения степени точности диагноза. Так, если число основных форм забо ­ леваний, входящих в данный нласс и распознаваемых программой, не превышет 50, то фактичесное число в той или иной мере детали­ зированных диагнозов, в том числе и динамических состояний больного, каждое из ноторых соответствует одной из шести ос­ новных стратегий хирурга, увеличивается более чем до 300. Проявления заболеваний. Организм располагает ограни­ чеаным перечнем специфических реан:ций на «внутренние полом­ 4. ки», что определяет сходство проявления различных по содержа­ нию патологических процессов и оназывается причиной объе1{тив­ ных трудностей их распознавания. Та~шм образом, отдеJ1ыю взя­ тый симптом не может служить разумным основанием для уста­ новления диагноза болезни. Применительно к цели данной работы под симптомами можно понимать выход за нение пороги измеримых параметров или их совокупностей, характеризующих конкретное состояние организ­ ма, причем пороги эти могут изменяться. В процессе обследования больного врач мысленно отсеивает сотни известных ему симптомов, которых он у больного не видит, и десятки, которые он признает несущественными, оставляя для обоснования диагноза лишь 5- 7 из выявленных симптомов, кото­ рые в данном сочетании оказываются наиболее содержательными. Моделируя процесс диагностики, пе следует исключать те симп ­ томы, которые могут не понадобиться в отдельном случае, но, бесспорно, могут потребоваться в любых мыслимых ситуациях. Таких симптомов для диагностики всех заболеваний выделенного класса более 1000. Они могут быть определенным образом клас­ сифицированы, чимость 110 и так как имеют различную содержательную смысл. _J зна­
5. Формализация диагноза. Синдромы ." Любой патологический процесс в организме проявляет себя разнообразной симптоматикой, поскольку каждому органу свойственно множество физиологи­ ческих функций, нарушения которых приводят к возникновению множества симптомов. Это дает основания рассматривать не про­ стой перечень признаков болезни, а объединения содержательных симптомов, свидетельствующих о том или ином явлении, называе ­ мом синдромом. Тюще определение синдрома здесь представляется более целесообразным, чем принятое в работах [1, 2, 5]. В соответствии с изложенным следует различать три группы синдромов: 15 патогенетических, 30 дисфункционалшых и 37 локальных. Симптомы, входящие в перечисленные группы, считаются ос­ новными. Кроме того, выделяется группа дополнительных симп­ томов, которые содержательно имеют менее общий харантер, и по­ тому они соотнесены·непосредственно с конкретными заболевания­ ми. Часть этих симптомов выражает динамические или количест­ венные параметры патологического процесса (нарастание, зати­ хание; слабо, умеренно, резко выраженный основной симптом и т. д.). Сам по себе симптом понятие стабильное. - Он может либо наблюдаться, либо отсутствовать. Напротив, синдром - понятие динамическое. Синдромы внутри каждой из трех групп могут пере­ ходить один в другой, отражая тем самым вероятные пути развития патологического процесса во времени, распространение его по различным отделам брюшной полости и вовлечение в него все бо­ лее широкого круга органов и систем. При этом в случае возник­ новения нового синдрома предшествующий ему может сохранять­ ся, но может и исчезать. Данные предшествовавшего наблюдения за больным и сообщаемые им о себе сведения дают основания для распознавания синдрома, отсутствующего в данный момент, но имевшего место в начальном периоде заболевания. Это дает воз­ можность осуществить «ретроспективный поисю>, имеющий су­ щественный содержательный смысл, а также прогнозировать ве­ роятные пути развития заболевания и возможные Перечень таких «переходов» осложнения. дополняет описание каждого синд­ рома. «Эталонный образ болезни» описывается перечнем синдромов из каждой группы - «синдромным портретом». Для ряда распозна ­ ваемых состояний в этот образ включается неснолько допо лнитель­ ных симптомов . '!Естественное развитие заболевания приводит к возникновению переходов одних состояний в другие. Если при этом происходит возниюrовение синдрома или синдромов, не сов­ падающих с синдромным портретом заболевания, переход в I{OTO- poe данного состояния является возможным, то это свидетельству­ ет не о реализующемся переходе заболевания, при нотором может еще и не быть полного синдромного портрета , а о вознию1овении какой-то сопутствующей патологии, другого заболевания. Подоб- 111
ная структура системы распознавания дает возможность диаг­ носцирования одновременно существующих у больного несколь­ ких заболеваний [1]. Перечень возможных переходов дополняет описание каждого распознаваемого заболевания - его «эталон ­ ный образ». В связи с недостаточной информацией описанный этап исполь­ зования детерминистской логики может не довести распознавание до единственного диагноза. Основанием для разделения в таком случае могут служить некоторые индивидуальные характерисТИI{И больного, позволяющие считать априорную вероятность возню{ ­ новения у него некоторых заболеваний (предрасположенность) весьма большой . К таким характеристикам, в частности, относят­ ся обстоятельства, предшествовавшие развитию данного заболева ­ ния, перенесенные ранее заболевания и операции, сопутствующая патология, возраст, пол, конституция й т. п. [6, 7]. 6. Описание. Принцип описания синдрома показан на сле­ дующем примере. Пусть А - синдром скрытого острого воспале­ ния. Перечень симптомов, характеризующих данный синдром, может быть описан так: 1) пульсирующая боль; 2) постоянная боль; 3) повышение температуры тела; 4) гиперлейкоцитоз; 5) сдвиг лейкоцитарной формулы крови влево. 1 -й и 2-й: - взаимоисключающие симптомы, а 2, 3, 4 и 5-й мо­ гут иметь место не только в случае А, но и при трех других синд­ ромах, описание которых мы опускаем. Для распознавания А мы пользуемся сочетаниями названных симптомов: 1 -+ А, 2 П 3 -+ -+А, 3 П 4 П 5-+ А, 2 П 5-+ А. Таким {r1 U(3 n 4 n 5)J u r2 п (З u 5)J}+-+A. образом, Остальные возможные сочетания симптомов не дают клиничес­ них оснований для распознавания данного синдрома. Аналогичным образом, но значительно проще описывается синдромный портрет заболевания - эталонный его образ. В тех случаях, когда это целесообразно по смыслу, каждому распозна­ ваемому состоянию ставятся в соответствие те призню{И, которые увеличивают у данного больного возможность данного заболева­ ния, а также не зависящие от индивидуальных особенностей боль­ ного сравнительные частоты различных заболеваний. 7. Оптимальное решение и управление системой. Выше ука­ зывалось, что в рамках решаемой задачи установление диагноза не является самоцелью. Вместе с тем представляется желатель­ ным построение такой системы, 1щторая в наибольшей мере соот­ ветствовала бы логике врачебного мышления. Речь идет о том, что диагноз устанавливается для выбора оптимального метода лечения больного и что, принимая решение о диагнозе, особенно о вероятностном диагнозе при недостаточной информации, врач всегда учитывает возможные последствия своего решения [1]. Поэтому <щентр управления системой» должен производить со ­ поставление 112 предварительных диагнозов по их стратегической
принадлежности. В случае диагностической альтернативы, но сов­ падения стратегий хирурга длп I{ЮКдого из предполагаемых забо­ леваний в соответствии с целью распознавания дальнейшая диаг­ ностическая процедура может быть прекращена. Продолжение ее возможно по специальному запросу врача. При несовпадающих стратегиях процедура диагностики про­ доюкается путем о недостающей симптомы, соответствующих симптоматике. которые могут конкретных запросов Запрашиваются, дополнить системы естественно, имеющиеся уже те симптомы для формирования эталонного образа синдрома или болезни. Окончанием процедуры является либо однозначный диагноз, либо однозначная стратегия. При переходе к следующему этапу вероятностному, что таюке может определяться «управляющим центром», решение о диагнозе будет толы{о альтернативным. Здесь в большинстве случаев, когда одной из стратегий является хирургическое вмешательство, для выбора оптимального решения необходимо ввести в систему факторы операционного риска. Это самостоятельная программа, на которой мы не останавливаемся. Таким образом, предполагаемая система должна состоять из трех программ - диагностики, оценки величины операционного риска и выбора оптимального решения. Врач должен иметь доступ к каждому из этапов работы системы по всем программам. Этот доступ реализуется I{aK возможность получения решений в любом виде и как возможность введения информации на I{ЮНдом из эта­ пов в виде симптомов, синдромов, диагнозов, величины риска и прогно за. В то же время система на любом из этапов должна иметь возможность в соответствии с каждой программой запра­ шивать у врача недостающую ей дополнительную информацию. Таким образом, работа врача с системой должна строится в режи­ ме диалога. ЛИТЕРАТУРА 1. В. А. Гер.л~апов. Дифференциальная диагностика в познании больного. ­ Клиничес1{ая медицина, 1969, No 9. 2. Л. В . HayJ1ioв. 3. 4. 5. 6. 7. 8. 9. 10. Алгоритм диагпостичесниif.- БМЭ. Изд . 3-е. Т. 1. М., «Сов. энцюшопедия», 1974. А. R. Feinstein. An analysis of diagnostic reasoнing. II Tl1e strategy o'f intermediate decisioнs. - Yale J. Biol. анd Med., N 46, 1973. М. А . S'tein, J. Winter. Theory developmeнt in meclical decisioн-шaking.­ Int. J. Bio-Medical Computiнg, N 5, 1974. А. М . Геселев~~ч. Термины «болезнь» и «синдром» и пх определения.­ Хирургия, 1971, No 4. М. Л. Выхоас1:ий. Выбор оптюrалыrого плана Jiеченнл. - Сб . «Машинная диагностика И информаЦИОННЫЙ ПОИСI< В медицине». 1\1" «Науна», 1969 . Г . А . Хай. Границы допустимого риска хирургических операций. ­ Экспериментальная хирургия, 1975, No 2. Л. Л астед. Введение в проблему принятия решений в медицине. Пер. с англ. М., «Мир», 1971. Р. Л едли, Л. Л астед. Медицинская диагностика и совр еменные методы выбора решения. Пер. с англ. М . , «Мир», 1966. Распознавание образов и медицинская диагпостина. Под ред. Ю . И. Ней­ марна. М., «Наука», 1972. 113
В. С. Файп Вариативная :м:одель в опознавании образов В данной модели рассматриваются два процесса, с которыми связана всякая задача опознавания: процесс порождения класси­ фицируемого ансамбля объеI{ТОВ и процесс собственно классифи­ кации. Оба эти процесса удобно обсудить сначала на примере конкретной задачи. С этой целью рассмотрим задачу, например, опознавания рукописных знаков. Процесс порождения ансамбля. Процесс порождения неко­ торого знака состоит в проведении линии, связной или состоящей из нескольких частей и так или иначе изогнутой. Некоторый вариант проведения та1щй линии, например самый простой - 1. близкий к прямолинейному, можно рассматривать как <шервич­ ный объект» или «праобъект». Тю{, на начальном этапе обучения письму детей учат именно проведению линии (писанию «палочек»), а потом уже - изменению вида этой линии. Варьируя тем или иным способом праобъе1{т, некоторое челове­ ческое сообщество, объединенное общей письменностью, форми­ рует набор объектов - алфавит используемых в данной письмен­ ности конфигураций знаков . Указанное сообщество выступает при этом в роли «генератора» или «источпика» объектов; результат его деятельности проявляется в виде набора образцовых («эта­ лонных») начертаний знаков - прописей. Способы варьирования праобъекта источНИI{ОМ объектов чрез­ вычайно разнообразны, но не вполне произвольны : имеется целая система очевидных физических, биологичеСI{ИХ, целевых и иных ограпичепий (система «S-ограничений»), таких, I{aI{ ограничения, вносимые дю~амиI{ОЙ движения руки с пером, удобные габариты знаков, приемлемое давление пера на бумагу и др. Такие ограни­ чения делают разные вариации праобъю{та в различной степени вероятными, что позволяет обсуждать их в терминах распределе­ ния вероятностей па множестве вариаций. В рамках этого распре­ деления выбор вариаций праобъекта, внлючаемых в данный ал­ фавит, является, по-видимому, случайпым с тем только дополни­ тельным требованием, чтобы между зпанами были не слишком малые отличия. Эта случайность выбора проявляется в данном примере в том, что биологичеСI{И не отличающиеся, но разобщен­ ные в прошлом этничесI{И сообщества создали разные алфавиты (например, романский, грузинс1шй, армю-1СI{ИЙ, арабс1шй и т. д.) . Подобное разнообразие выборов позволяет занлючить, что приро­ да и вид праобъекта являются характеристическими данными для типа источпика объектов: обсуждаемый источНИI{, в частности, может порождать, наряду со знаками письма, самые разнооб­ разные виды линейчатых рисунков; при этом с разными алфа­ витами рисунков могут быть связаны соответствующие задачи опознавания. 114
Таким образом, данному праобъекту (и данному типу источ­ ника) соответствует неI{Оторый класс задач опознавания. Ввод той или иной системы S-ограничений и, в том числе, целевых ог­ раничений определяет выбор из этого класса соответствующего подкласса задач («S-подкласса» или «S-класса») - в нашем примере подкласса алфавитов. задач опознавания рукописных Отбор же конкретного знаков алфавита всевозможных эталонных знаков и вместе с этим порождение КОНI{ретной задачи из числа задач данного S-класса осуществляется, как мы видели, случайным образом. Рассмотрение некоторого аJiфавита объе~{тов как результата варьирования (при тех ИJIИ иных ограничениях) праобъекта поз­ воляет, между прочим, заметить, что общность свойств этих объеI{­ тов ничуть пе менее харантерна для задачи опознавания, чем их отличия, обычно больше всего интересующие разработчиков. Именно эта общность свойств, определяемая системой наложен­ ных ограничений, обусловливает применимость для всех объектов данного алфавита общей системы описания (например, некоторой совокупности признаков), только и дающей возможность сопоста­ вительного изучения этих объюпов. Введем для ряда употреблявшихся выше понятий формальные обозначения. Зафинсируем НеI{оторый праобъект А и некоторый оператор Z (А; х 1 , • • • , х 11 ), описывающий способ варьирования праобъекта; в практически решавшейся задаче в роли Z выступали кусочные непрерывно-групповые преобразования плоСI{ОСти. Х; независимые параметры этого варьирования (его «степени свобо­ ды»). Примем для простотът, что I{ ЮНдый из них может принимать нонечное множество значений. Множество всех возможных соче­ таний значений параметров обозначим {Х}; оно, очевидно, нахо­ дится во взаимно-однозначном соответствии с множеством {А} всех возможных результато в А варьирования праобъекта, которые мы будем называть его вариациями. Наложение не1{оторой сис­ темы S-ограничений равносильно, I{aK было сказано, соотнесению мнmRеству {Х} распределения вероятностей Р (Х). В частности, наложение S-ограпичепий физически проявляется в том, что неко­ торые линии из {А} ОI{азываются невозможными, а некоторые другие имеют ничтожно малую вероятность появления. Иначе говоря, данная система S-ограничений выделяет из множества вариаций {А} «практичесни возможное» подмножество {A}s (соответственно {X}s С { Х}). Множеству {А }s соответствует определенный класс задач опознавания - S-класс. Зафинсируем HeI{Qтopoe нонечное целое число ведя N > О и, произ­ случайных выборов, выберем из {A}s подмножество {A}sN из N вариаций; этому подмножеству соответствует сово­ купность {X}sN С {X}s из N случайных комбинаций по п чи­ чел Х;. {A}sN образует алфавит объентов уже для конкретной задачи из S-класса. В этой задаче объекты из {A}sN могут появ­ N ляться с вероятностями р (Xj), xj Е {X}sN· Эти объекты были 115
ранее названы образцовыми или эталонными. Для краткости будем в дальнейшем называть их эталонами. Продолжим рассмотрение примера. Люди, обучавшиеся пись­ му по эталонным начертаниям знаков, в дальнейшем их практи­ чески не воспроизводят. Индивидуальные особенности приводят к появлению разных почерI{ов; случайные обстоятельства, сопут­ ствующие написанию каждого зню{а, создают вариативность изоб­ ражений этого знана даже внутри одного почерI{а. Таким образом, каждое реальное начертание знака 01,азывается измененным по отношению н эталону. М ножестnо всех nозмо~тшых начертаний, относящихся I{ эталону Aj Е {A}sN, обозначим {B}j· Множество сочетаний значений параметров х;, соответствующих всем В из {B}j, обозначим {Y}j с {Х} . Вероятность вознюшовения начер­ тания В, ногда пишущий и:меJI в виду j-й зван, описывается, оче­ видно, распределением Р (B /Aj) ИJIИ, что то же, распределением Р (Y/XJ), где У : В. Объединение множеств {B}j ДJIЯ всех Aj из {A}sN образует тот ансамбJIЬ {В} всех ру1{описных зна~<ов данного язьша, I<оторый является входным массивом для всякого челове1{а, язы1<е, читающего произвольный или для опознающего ру1<описный текст на этом автомата аналогичного назначения. Соответственно, в терминах параметров Х;, N {У} = I< U {Yk j=l Мы рассмотрели, таним образом, часть модели, относящуюся процессу порождения ансамбля {В} (или {У}). Суммируем результаты 1. этого рассмотрения. Для всех объе1<тов, фигурирующих в процессе на всех его уровнях, существует единая система описания в виде совокупно­ стей из п величин (п разрядных «слов») Х или У. 2. Ансамбль {У} порождается двухступенчатым варьирова­ нием не1<0его исходного объеI<та (праобъ01,та), причем на каждой ступени после варьирования вю1ючается рандомизированный ме­ ханизм выбора . 3. Варьирование на 1-й ступени порождает множество {Х} всех возможных вариаций праобъекта. Из этого множества случай­ ным образом, в соответствии с распределением Р (Х), выбирается N вариаций, образующих алфавит объентов (эталонов, образов) {X}sN в данной задаче. Если попытаться поставить в соответствие обсуждаемому процессу условную блоr<-схему, то 1 -я ступень может быть представлена блоком, 1<0торый можно назвать вариа­ тором праобъе1<та или вариатором источника эталонов, выдавае­ мых с вероятностями Р (Х j). 4. Варьированию на 2-й ступени подвергаются тоJiько те N ва­ риаций праобъекта, которые были получены по рандомизирован­ ному правилу и зафиксированы на 1 -й ступени. Если на вход 2-й ступени поступает СJiучайно выбранный из { X}sN (в соответствии с распределением Р (Х j)) эталон Х j, то па ее выходе появляется 116
объе:кт У, получаемый СJ1учайным выбором из множества {Y}j, в соответствии с распределением Р (Y/Xj)· 2-й ступени в бло:к­ схеме соответствует бло:к, :который можно назвать «вариатором эталонов»; в памяти этого бло:ка содержатся распределения Р (Y!Xj)· Рассмотренная 5. часть модели состоит, таким образом, из вариаторов, в сово:купности порождающих весь ансамбль возмож­ ных начертаний зна:ков. Это позволяет назвать указанную часть модеJш вариато ркой. Процесс классификации в ансамбле. Если первая часть мо­ дели описывала процесс порождения изменчивости объекта, то смысл второй части - противоположен. Здесь задача состоит 2. в подавлекип изменчивости, в сужении мношества возмо жных nходных (дш1 этой части) оGъектоn l-\O едипстnенного nыходного объента, 11нденс ноторого, если не произош ло ошибки, должен совпасть с инденсом j-го :эталона, выброшенного вариатором праобъекта и затем «искаженного» вариатором эталонов. Итак, исходным объектом в данном случае является некоторое начертание В Е {В}; ему соответствует описание описание может У Е {У}. Это быть порождено j-м эталоном с вероятностью Р (XiY). Поэтому для шобого У мы должны в общем случае рассмотреть совокупность из N вероятностей Р (Xj/Y), учитывая при этом априорные вероятности :эталонов Р (Xj). Таким образом, о 2-й (собственно опознающей) части модели можно 1. сказать следующее. Эта часть имеет двухступенчатую структуру, как и часть модели, относящаяся к порождению ансамбля {У}. 2. Первая ступень осуществляет сужение входного ансамбля {У} до ансамбля эталонов { X}sN, представленного в :этой ступе­ ни N числами Р (XiY). Таким образом, 1-я ступень нейтрализует изменчивость, вно­ симую вариатором эталонов, поэтому соответствующий блок в блок-схеме можно назвать девариатором эталонов. Для каждого У' Е {У} этот блок вычисляет вероятности Р (Xj!Y') . 3. Вторая ступень сужает ансамбль эталонов {X}sN до един­ ственного эталона, представленного на ее выходе номеро11I j. Эта ступень, таким образом , нейтрализует изменчивость, созда­ ваемую источником эталонов, и символизирующий ее в блок­ схеме блок может быть назван девариатором источника. 4. В целом данная часть модели сужает весь исходный ан­ самбль {У} вариаций праобъекта до некоторой единственной ва­ риации и потому может быть названа девариаторпой. 3. Блок-схема -модели в целом приведена на рисунке . Пункти­ ром показаны блоки, связанные с изменчивостью, не относящейся к природе объекта, по иногда привносимой извне в практиче­ ской ситуации. Разновидностью такой дополпиты1ы1ой измен­ чивости может быть, например, шумообразное влияние шерохо­ ватости бумаги в рассмотренном примере. В связи с этим пока- 117
занный пунктиром блок в вариаторной части модели обозначен для простоты как «шум», а соответствующнй блок в девариатор­ ной части как «фильтр шума». Пример с шумовыми блоками под­ крепляет впечатление своеобразной зеркальной симметрии модели (ее вариаторный и девариаторной частей). _ 4. Примеры. Приведем примеры интерпретации в терминах вариативной модели еще нескольких популярных задач. j "Природа" Прао6ьент "Устройст8о" От бет Распознавание речевых образов. Праобъектом А может здесь считаться некоторое фиксированное состояние какого -либо одно­ го голосового тракта, гортани и возбуждающего воздушного потока, сохраняемое неизменным в течение некоторого интервала времени Т (равного длительности наиболее протяженного из рас­ познаваемых образов, например самого длинного СJюва). Измене­ ние состояния осуществляется путем сокращения ляющих формой всех частей голосового тракта, мышц, управ­ состоянием го­ лосовых связок и диафрагмой. Если обозначить степень сокраще­ ния i-й мышцы в момент времени t через xi (t), то оператор варьи­ рования праобъекта Z может быть записан в виде Z (А; х 1 (t11 ), х 1 ( t 12), •• • , Х 1 (t 1mJ; ... ; Xr (tr1), .. . , Xr (trтr)), где параметр есть число, выражающее значение функции xi (t) в k-й котельниковский момент отсчета времени. Таким образом, общее число параметров оператора Z равно xi (tu,) - Придавая всем параметрам все возможные комбинации зна­ чений, можно получить ансамбль {Х} и одновременно {А}. По­ скольку вероятности различных состояний из {А} различны, с {А} (и с { Х}) связано распределение Р (Х). В случае задачи опознавания речевых образов распределение Р (Х) обусловлено S-ограничениями, выделяющими из всего множества возможных голосовых звуков (в том числе и криков, стонов, рычаний и т. д.) подмножество {А }s речеподобных звуков. Множество {А }sN эталонов, выбранное из {A}s, - есть словарь данного языка, используемый в данном сообществе или в данной системе «чело­ век - автомат». Выбором словаря {А }sN из S-класса задач рас- 118
познавания речеподобных образов выделяется конкретная задача. Для каждого из эталонных объектов А j Е {А }sN существует множество {B}j всевозможных вариаций произнесения этого объ­ екта разными людьми и в разных обстоятельствах; с этим множест­ вом связано распределение Р (B/Aj) или Р (Y!Xj) . Таким обра­ зом, ансамбль, с которым приходится столкнуться аудитору или N опознающему автомату, а именно {В}= U {В}1, есть в данном j=l примере совокупность всех возможных произпесепий объектов (например, слов) данного словаря. всех N ·Автоматическая .!ltедицинская диагностика. Задача отJшчает­ ся от предыдущей тем, что здесь классифицируемый объект (струк­ тура и функции тех или иных внутренних органов и систем) не­ посредственно не наблюдаем, поэтому адекватного описания его изменений, в том числе и патологических, в виде оператора Z, здесь построить нельзя. В связи с этим недоступными оказывают­ ся и адекватные параметры такого оператора, и на практике честве параметров xi приходится применять результаты в ка­ доступ­ ных косвенных измерений и наблюдений. Таким ·образом, содержательное обсуждение задачи оказывает­ ся возможным не в терминах объектов, а лишь в терминах их описаний Х, У; задача как бы начИнается сразу с описания. Боль­ шая распространенность таких задач (медицинская и техничес­ кая диагностика, геофизическое прогнозирование и т. д.), надо полагать, привела к тому, что во многих работах, относящихся к опознаванию вообще, строятся и обсуждаются модели, соответ­ ствующие лишь первая часть второй, оказывается девариаторной вне поля части пашей модели; зрения. Рассмотрим применительно к подобной задаче вариативную модель. Наибольшее и наименьшее значения всякого параметра xi, наблюдавшиеся когда-либо на живых шодях, вместе с оправ­ давшейся на практике дискретизацией его значений позволяют формально воспроизвести ансамбль { Х} как множество всех ком­ бинаций возможных значений всех п параметров xi . Эти комбина­ ции в общем случае имеют разные вероятности. В частности, сре­ ди них могут быть и такие, при которых жизпедеятедьность ор­ ганизма нево змо~-нна (хотя каждый отдельный параметр и может принимать данное значение на живых шодя х). Такова в данном сдучае природа S-ограничений, и с ними связано существование распределения Р (Х). S -класс, отвечающий этим ограничениям, есть класс задач медицинской диагностики. В качестве описания Х праобъекта можно взять, например, типичную комбинацию зна­ чений . параметров для здорового человека. Выбор алфавита определяется тем, между какими именно заболеваниями должно производиться различение; задание списка этих забо л ева­ ний выделяет из S-класса конкретную задачу. {X}sN В качестве собственно эталонов Х i из { X}sN могут выбираться типичные комбинации значений параметров для каждого из N 119
рассматриваемых заболеваний. Если под общим названием забо­ левания содержится несколько заметно отличающихся разновид­ ностей, то в {X}sN можно ввести эталоны для каждой из них . В данном примере вариатор источника моделирует отклонения от «здорового» состояния ко всевозможным типичным болезненным состояниям, а вариатор - эталонов индивидуальные от этих типичных состояний в соответствии с Р (У отклонения распределениями /Xj)· Недоступность объекта для непосредственного наблюдения в подобных задачах приводит, как отмечалось, к утрате важного конструктивного возможности эффекта, доставляемого целенаправленного поиска данной моделью, ­ адекватных параметров оператора Z. Это, однако, не сводит роль модели в таких задачах к чисто методологической: как будет ниже указано, принятие во внимание существования и природы множеств {Х}, {X}sN и т. д. важные и соответствующих оценки качества распределений решения задачи, позволяет получить недостижимые в ином случае. Автоматическая портреткая идектификация. Праобъектом А является в этой задаче 1.акое-либо одно человеческое. J1ицо, на­ пример типичное лицо для данной этнической группы или данной местности . В практически решавшейся задаче в роли оператора Z выступали топологические произвольно-нелинейные преобра­ зования поверхности лица (в частности, шаговые взвешенно ­ групповые преобразования) - в трехмерном варианте и такие же преобразования плоскости изображения (фотографии) в двумерном. В последнем случае, как и при распознавании руко­ писных знаков, использовались также и кусочно -непрерывно­ групповые преобразования. Практически такой оператор Z при варьировании его параметров х; позволяет произвольным образом изменять как глобально, так и локально форму некоторой поверх­ ности (в частности, поверхности лица) или форму плоского изо­ бражения с сохранением неизменной топодогии поверхности или плоскости. В частности, оператор может превращать и лицо од­ ного человека в JJИЦО другого, и именн о этот вариант его исполь­ зования образует реадизацию вариатора источника. S-ограниче­ ния в данном случае выдедяют те из преобразований праобъекта, которые приводят к «лицеобразным» поверхностям или изобра~не­ ниям. С этим связан и вид распределения Р (А) иди Р (Х) . В 1ш­ честве эталонного ыrфавита {А }sN выступает I<артотека, состав­ ленная из фотографий лиц, подлеп~ащих 1ю1прошо в данной мест­ ности; априори этот набор явдяется, очевидно, случайным. Мимические, возрастные, болезненные изменения формы лица соот­ ветствуют в пашей модели вариатору эталонов. Эти изменения описываются путем варьиров ания же преобразований, т. при этом ностей Р 120 м1rожествам е. того же {Y}j параметров оператора качественно Z. тех Возникающим соответствуют распределения вероят­ (Y!Xj)· Обычно на практике нет возможности изучить
для каждого из состоящих в картотеке лиц все возрастные, мими­ ческие и прочие вариации; вместе с тем биологические факторы, обусловливающие подобные вариации (места прикрепления и син­ нергии мышц, характер увядания с возрастом кожи и т. д.), у всех людей практически одинаковы. Поэтому распределения Р (У/ Х j) обычно считаются для всех Х j из {X}sN одинаковыми (точнее, отличающимися толыю первыми моментами) . Заметим, что это явление встречается во многих задачах; оно характерно, в частности, и для задач распознавания типографских, машино­ писных и в большой степени рукописных знаков. Одинаковость распределений Р (Y/Xj) вносит упрощения в вычисление распре­ делений Р (Х ;!У) в девариаторной части модели. Обсуждение. 5. Отметим три основных направления, продви­ жению в которых может способствовать использование вариатив­ ной модели. Первое направление связано с вводом в рассмотрение опера- тора Z (Х; х 1 , . . . , Хп)· ПоскоJ1ьку все члены ансамбля {В} счи­ таются вариациями единственного объекта - праобъекта Х, по­ стоJ1ьну оператор Z (Х, х 1 . . . . , Хп) является описанием связей между этими вариациями, т. е. описанием связывающей их аа­ копомерпости, а его свободные переменные х ; - параметрами, управляющими этой занономерностью. В задачах, где возможно непосредственное наблюдение объентов (RaR в большинстве при­ веденных примеров ) , определение физичесной сущности оператора Z, а затем и его формальной струнтуры не представляет принци­ пиалыюй трудности . Но тогда автоматичесни оназывается ре­ шенной одна из главных проблем в задачах опознавания - проб­ лема выбора признаков; в начестве признанов, RaR было видно, выступают параметры оператора. В частности, именно благодаря вводу в рассмотрение вариативной модели и соответствующего оператора Z удалось решить зад ачу автоматичесной портретной идентифинации, до этого не поддававшуюся решению другими средствами. Второе направление связано с неодинаковым происхождением вариаторной и девариаторной частей модели. В самом деле, изменчивость объентов, моделируемая вариаторной частью, пред­ ставляет собой объективный факт внешнего мира, своего рода явление природы; именно таков смысл подписи под блоками вариа­ торов в схеме. Девариаторная же часть является моделью уст­ ройства или алгоритма, представляющего собой плод сознатель­ ной деятельности, направленной па подавление изменчивости. Этим обусловлена подпись под девариаторными блоками на ри­ сунке. Природа выступает здесь, очевидно, как первичное, актив­ ное начало, ство, RaR и существа, т. е. порождающее изменчивость; техничесное же устрой­ имитируемый им воспринимающий аппарат живого предназначено вынуждено играть для парирования пассивную, этой вторичную изменчивости, роль. 121
Методологический вывод из с:казанноrо состоит в том, trтo изу­ чение и описание изменчивости, т. е. ее математическое модели­ рование в виде оператора Z, является центральным и, по -видимо­ му, ключевым вопросом в теории опознавания образов. Конструктивный вывод состоит в том, что ниоткуда, вообще говоря, не следует, что изменчивость может быть только порожде­ нием природы. Поскольку в решении задачи Оiюзнавания мы так или иначе должны конструировать ее модель Z, постольку мы мо­ жем немедленно использовать эту модель для искусственного гене,­ рирования изменчивости. Так мы приходим к новой, отличающей" ел от опознания образов, области исследований - области целе­ направленного генерирования изменчивости. Здесь имеется ряд практичес1шх задач, таких, например, как автоматизация дизай­ нерских работ, автоматическое построение промежуточных фаз движения в мультипликации, автоматизация некоторых работ в криминаJ1истике. Некоторые из этих задач в настоящее время успешно решены или решаются . Наконец, третье направление связано с создаваемой вариатив­ ной моделью возможностью перейти посредством детерминистско­ го оператора Z от самих объектов к описаниям их вариаций в виде комбинаций из п чисел, между которыми существуют уже только вероятностные соотношения. Это позволяет ввести в рассмотре­ ние множество всех таки х комбинаций { Х} с распределением Р (Х) и изучать его в сопоставлении с множествами {X}sN и {У} и соответствующими распредедепиями. Смысл перечисленных мно'­ жеств и существование пределений позводяет ной выше модельной связанных с ними вероятностных рас­ провести параллель между обсужден­ ситуацией и моделью передачи сооб­ щений случайным п-разрядным кодом по канаду с шумами, со­ дер ж ащейся в известной теореме Шеннона. Эта параллель ока­ зывается настолько глубокой, что становится возможным при некоторых дополнительных ограничениях распространить ука­ занную теорему Шенпона на задачи опознавания в их вариативной трактовке. Это распространение вместе с обсуждением некоторых вытекающих из него новых возможностей в опознавании образов составляет содерж ание отдельной публикации.
Содержание 3 Предисловие В. Г. Гитис Об одном классе задач прогнозирования Е. Ф. Юрков, 5 В. С. Нагорпов Модифицированный метод наименьших квадратов при решении дач прогноза с дискретной прогнозируемой величиной за- 11 Е. Ф. Юрков Статистический анализ модели прогнозирования, одномерные нелинейные: преобразования . . . . . использующей И . Т. Турбович, Р. С. Випицкая, В. Г. Гитис, В. С. Нагорпов, Н . Н. Супгуряп, Е. Ф. Юрков . . . С. Г. Ера.мяп, 17 Анализ связи между тяжестью состояния больного и его физиологическими 22 показателями Т. А. Бадалов Применение метода одномерных нелинейных преобразований прогнозирования естественного режима нефтяного пласта для 27 А. П. Ваfiпшток, Е. И. Кабапова, В. А . Махон,ин, К для использованию алгебраических анализа речи приемов идентификации систем . . . . . . . . . . . . . . . . . . . . М. В . Назаров, Ю. Н. Прохоров 30 .. . .. . . . . . .. . . Алгоритм совместного рекуррентного оценивания параметров речевых сигналов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 В. Н. Сорокиli Элементы кодовой структуры 42 речи Р. К. Потапова О типологических особенностях слога . . . . 60 Ю. Н. Прохоров Рекуррентное оценивание параметров речевых сигналов . . . . . 67 Е. И. Кабапова Процедуры представления помехами сигналов, . . . . . . . . . искаженных неста~ионарными . . . . . . . . . . . . . . . 80 . . 86 М. З. Гробмап, В. И. Тумаркин, Выделение скрытых периодичностей и формантный анализ речи 123
А. В. Кпиппер, В. А. Махон,ин,, И. А. Орлов Элементы формантного анализатора . . . 90 В. П. Савельев Устройство выделения и ввода значений частоты основного тона голоса в ЭВМ . . . . . . . . . . . . . . . . . . 97 В. В. Максимов Использование параллакса движения для восстановления простран­ ственной ситуации без нахождения соответственных точек на последовательных изображениях сцены . . . . . . . . . . . . . . . . . 101 Г. А. Хай Проект диагносцирующей системы . . . . . . . . . . . . . . . . 109 В . С. Файп Вариативная модель в опознавании образов . . . . . . . . . . . . 114
621 .391 УДI\ Об одном классе задач прогнозирования. Гит и с В. Г. Сб. «Распознавание образов. Теория и приложения». М., (<Науна», 1977 . Рассматриваются пути решения задач прогнозирования, в но·rорых прогнозируемый показатель задается енспертом путем разбиения енспериментальной выборки на одно­ родные и упорядоченные классы. В качестве меры соответствия прогноза и прогнозируе­ мого показателя принимается значение условного минимума эмпирического среднего рис­ ка по порогам, задающим границы упорядоченных классов. Показано, что при введении некоторых ограничений на класс функций потерь поиск условного минимума среднего риска по порогам Библиогр. 6 наа11. сводится и последовательному решению задач одномерного поиска. УДI\ 621.391.199 519.25 Модифицированный метод наименьших квадратов при решении задач прогноза с дискрет­ ной прогнозируемой величиной. 10 р к о в Е. Ф., Наг о р но в В. С. Сб . «Распознава­ 1977. ние образов. Теория и приложению>. М., «Наука», Формулируется критерий иачества, учитывающий специфику задач с дискретной про­ гнозируемой величиной. Показано, что алгоритм прогнозирования, полученный в резуль­ тате оптимизации введенного критерия, является модификацией метода наименьших квад• ратов . Библиогр. 3 назв. 621.391.19 УДК Статистический анализ модели прогнозирования, использующей одномерные нелинейные преобразования. 10 р к о в Е. Ф. М" «Наука», 1977. Сб . «Распознавание образов. Теория и приложения» .. Исследуется сложность модели прогнозирования методами проверни статистичесиих гипотез. Приводятся экспериментальные данные, полученные в результате статистического анализа модели при Библиогр. 7 назв. УДI\ 519.25 решении задач медицинского и сейсмического прогнозирования. 621.391.199 Анализ связи между тяжестыо ·состояюш больного и его физиологическими показателями. тур б о в и ч и. т" вин и цк а я Р . с., гит и с в. г" Ер а м я нс. Г., Наг о р­ н о в В. С" С у н г у р я н Н. Н . , 10 р к о в Е. Ф. Сб. «Распознавание образов. Теория и приложения». М., «Наука», 1977. Излагается подход и нахон<дению количественной связи между тяжестью состояния больного и его физиологическими показателями. В процессе исследования выбирается математическая модель связи, отбираются наиболее существенные функциональные по­ казатели, проводится проверка возможности упрощения выбранной модели связи и про­ изводится статистический анализ данных. Приводятся экспериментальные результаты, полученные на материале 105 больных, страдающих хронической пневмонией. БиблиогР. 5 назв. Иллюстраций 3. УДИ 621 .391.19 Применение метода одномерных нелинейных преобразований для 11рогнозирования ес­ тественного режима нефтяного пласта. Ба дал о в Т. А. Сб. «Распознавание образов. Теория и приложения». М" «Наука», 1977. На основании метода одномерных нелинейных преобразований решается задача прогнозирования естественного режима пласта по совокупности геолого -физических при­ зпаиов, имеющихся в начальный период разработки нефтяных месторождений. Опреде­ ляется характер влияния каждого из етих призна~<ов на прогноз, а такн<е их значимость. Используются данные, полученные па нефтяных залежах Азербайджана, разработка ко­ торых осуществлялась при очень уплотненной сетке снважин на естественном peжm.ie. Библиогр. 7 назв. Иллюстраций 2. УДI\ 621.391 К испоJIЬвованию алгебраических приемов идентификации систем для анализа речи. Вайнштои А.П., Кабанова Е.И., Махонин В . А.Сб. «Распознаваниеоб­ разов. Теория и приложения». М., «Науна», 1977. Описаны алгоритмы для системы идентифинации параметров и состояний настраивае­ мой модели порождения слогов . Приведены правила оценивания отдельных параметров речеобразования. Библиогр. 10 назв. Иллюстраций 2. 125
УДR 621.391.534.781 .Алrоритм совместного рекуррентного оценнвання параметров речевых сигналов. На­ а ар о в М. В., Пр ох о ров Ю. Н. Сб. «Распознавание образов. Теория н приложе­ nия». М., 1<Наука», 1977 . Методами теории нелинейной марковской филь·rрации синтезирован рекуррентный алгоритм совместного слежения за динамикой модели речевого тракта и параметрами сигнала звукового возбуждения. Указаны способы упрощения схемы устройства опти­ мального слежения. УДR Библиогр. 10 назв. 621.391.192.5 Элементы кодовой структуры речи. С орок ин В. Н. Сб . «Распознавание образов. Тео­ и приложения». М., (<Наука», 1977. рия Рассматривается кодовая структура речи, включающая в себя акустические и арти­ Rуляционные признаки, фонемы, слоги, слова и фразы. Вычисляется корректирующая способность фонем и слов. На основе сведений о роли фактора сложности в процессах речеобразованил и восприятия, а таюне аналогий с теорией кодирования рассматриваются неRоторые приемы анализа речевого сигнала и денодированил его фонетического состава. Установлено свойство неприводимости большинства слов, позволяющее членить слитный поток речи на слова. Приводится схема параллельного декодирования всех уровней ре ­ чевого кода, в которой основным вычислительным механизмом является алгоритм после­ довательного декодирования. Таблиц 3. Библиогр. 24 назв. Иллюстраций 9. УДR 621.396.64 О типологических особенностях слога . Пот а по в а Р. Н . Сб . (<Распознавание образов. Теория и приложения». М., «Наука», 1977. Показывается , что использование слога в качестве опорной элементарной структуры при автоматическом распознавании речи обусловлено . прежде всего лингвистическими за­ кономерностями. Предлагается при этом учитывать специфину слитной речи на базе кон­ Rретной языковой системы, а при анализе и описании признаков слога учитывать инте­ гративный характер слога, как целостной струнтуры. Поназываетсл, что для ряда гер­ манских языков элементарная слоговая структура не исчерпывается универсалией в рам­ Rах СГ. Подчеркивае•rсл информативность временных параметров при выявлении харак­ тера слоговой сегментации речевого континуума. УДR Библиогр. 9 назв. 621.391:534.781 Рекуррентное оценивание параметров речевых сигналов. Пр ох о ров познавание образов. Теория и приложения». М., «Наука», 1977 . IO. Н. Сб . «Рас­ Рассматриваются рекуррентные алгоритмы оцениванил параметров авторегрессион­ ной и многоэтапной моделей речевых сигналов. На основе теорий фильтрации и интер­ по.плции марковских процессов разработаны упрощенные алгоритмы, допускающие срав­ нительно простую техническую реа.пизацию. Доказана сходимость в среднеквадратиче­ ском предложенных алгоритмов и приведены результаты цифрового моделирования, вы­ по.пненного на реальном сигнале. Библиогр. 19 назв. И.плюстраций 6. УДR 621.391.199 Процедуры представ.пения сиrnалов, искаженных нестационарными помехами. R а ба­ н о в а Е . И . Сб. «Распознавание образов . Теория и приложения». М., (<Наука>>, 1977. Рассматриваются приемы представления экспериментальных кривых смесью экспо­ ненциальных Параметры функций. Представление представления определяется оптимизируются методом «анализа через циклическим синтез». поиском по частным показате­ :плм качества. В случае равномерного шума независимость оптимизаций по частным пока­ вате.плм качества обеспечивается фильтрацией сигнала и его модели режекторными филь­ трами. При нестационарных шумах запись расчленяется на участии доминирования от­ де.пьных номпонент сигнала. Описана программа переработни описания сигнала в пред­ ставление для случал нестационарных шумов . Библиогр . 5 назв. Иллюстраций 2. УДR 621 .391 Выделение скрытых периодичностей и формантный анализ речи. Гр о б м ан М. 3., м_а р к ин В. И. Сб. (<Распознавание образов . Теория и приложения». М., : (сНаука», Т у­ 1977. 11-' Описывается а.пгоритм вычисления формантных параметров речевого сигнала, осно­ ванный на представлении анализируемых участков сигнала суммой экспоненциа.пьных функций с комплексными амп.питу11ами и частотами. Библиогр. 126 6 назв. Иллюстраций 1.
!ДН 621.391.144 Элементы формантного анализатора. Кн и п пер А. В" М а хон ин В. А" л о в И. А. Сб . «Распознавание образов. Теория и приложения». М" !<Науна», 1977 . О р­ Рассматривается вопрос синхронного с импульсами основного тона измерения часто­ ты формант. Процесс измерения разбивается на три этапа : выделение формантных ноле­ баний, обнаружение импульсов смынания связон, измерение частоты во временн6м онне на большой длительности . Обсуждаются особенности реализации наждого из этапов. Библиогр. 10 назв. Иллюстраций 4. УДК 621.391.193 Устройство выделения и ввода значений частоты основного тона голоса в ЭВМ. С а­ в ель ев В . П. Сб. «Распознавание образов . Теория и приложения». М" «Науна», 1977. Описывается устройство выделения частоты основного тона, удовлетворяющее тре­ бованиям совместной работы с устройством ввода речевых признанов в ЭВМ, находящимся в опытной энсплуатации . Приведены блон-схема устройства и предварительные резуль­ таты. Таблица 1. Библиогр. 8 назв. Иллюстраций 1. УДК 681.11.2:155 Использование параллакса движения для восстановления пространственной ситуации без нахождения соответственных точек на последовательных изображениях сцены. М а н с и­ м о в В. В. Сб . «Распознавание образов. Теория и приложения». М" «Науна», 1977. Дается аналитичесное выражение, позволяющее вычислять расстояния до произволь­ ных видимых точен внешнего объемного мира по его плоеному (меняющемуся во времени в результате движения системы) изображению. Описана диснретная реализация этого метода на вычислительной машине и приведены результаты ее работы. Метод оказывается чрезвычайно чувствительным н начеству входного изображения. Поназано, что наряду с простым усреднением отсчетов по пространству и по времени для повышения начества изображения может оназаться полезным создание внутри системы модели внешнего мира (постоянно улучшающейся в процессе наблюдения). Библиогр. УДН 8 назв. Иллюстраций 3. 621 .391 Проект диагносцирующей системы. Ха й Г. А . Сб. !<Распознавание образов. Теория и при­ ложения». М" «Науна», 1977. Рассматривается [процедура распознавания острых заболеваний брюшной полости, характеризующихся началом, быстрым прогрессирующим течением и необходимостью в большинстве случаев хирургичесного вмешательства. r' На основании симптомов, имеющихся у больного, диагносцируются три типа син­ дромов. Синдромы описаны в виде возможных сочетаний симптомов . Синдромпый порт­ рет эталонный образ заболевания, описываемый перечнем синдромов. Диагностичесний процесс происходит после введения симптоматини больного в сис­ тему. Если диагноз установлен, либо установлено неснольно диагнозов с одной тантиной лечения, диагностина занапчивается. При несовпадающих решениях о тантине процеду­ ра диагностини продолжается путем запроса системой врача о недостающей симптоматине. Врач имеет доступ н наждому этапу работы системы, и по его желанию она может быть занончена в любое удобное для него время. Библиогр. 10 назв. 11!J11 УДК 621.391.199 Dариативная модель в опознавании образов. Фай н В . С. Сб. !<Распознавание образов. Теория и приложения». М., «Науна», 1977. Множество всех возможных реализаций всех нлассов, фигурирующих в неноторой задаче опознавания, рассматривается нан результат двухэтапного варьирования наной­ либо одной из реализаций с помощью специального детермипистсного оператора, зави­ сящего от ненечной совонупности параметров. Из таной трактовни вытенает ряд важных следствий, в частности возможность установления.,.аналогии с задачей передачи сообще­ ний по шумящему наналу" внесение нено·rорой определенности в проблему выбора приз­ нанов и др . Иллюстрации 1.
Распознавание образов Теория и приложения Утверждено п печатн Инсmнтутом Редактор пробл ем передачн ~~нgJормацнн издательства Художник Н. Н. ПропоgJьева В. В. Фuрсова Художес·rвенный редактор Н. Н. Власнп Технические редакторы В. В. Волкова, Л. Н. Золотухнна Норректоры И . А. Талалаu, В. А. Шварцер 17/IX 1976 г. 22/XI 1976 СданG в набор Подписано к печати Формат 60Х90•/". Усл. печ. л. Тираж 3500. г. Бумага типографснаfl № 8. Т-16094 . Цена 1 8,1•. зан. 1228 Уч.-изд. л. 59 Тип . коп. Издательство • Наука• 103717 ГСП, Москва, Н-62., Подсосенский пер" 2-я типографиfl издательства 121099, •Наука• Москва, Г-99, Шубинский пер., 10 21

59 коп.