Автор: Рабинер Л.Р.  

Теги: культура речи  

Год: 1989

Текст
                    86
ТИИЭР, т. 77, № 2. февраль 1989
519.217.2
Скрытые марковские модели и их применение в избранных
приложениях при распознавании речи: Обзор
Л. Р, РАБИНЕР, почетный член ИИЭР
A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition
LAWRENCE R. RABINER, fellow, IEEE
Хотя статистические методы, основанные на понятии мар-
ковского источника, и скрытые марковские модели были
впервые введены и изучены еще в конце 60-х — начале 70-х го-
дов, их популярность значительно возросла в последние годы,
что главным образом объясняется двумя причинами. Во-пер-
вых, эти модели весьма содержательны по своей математи-
ческой структуре и, следовательно, могут составить теоретиче-
ский фундамент для широкого круга приложений. Во-вторых,
правильное применение этих моделей для решения некоторых
важных прикладных задач приводит к очень хорошим
результатам. В данной статье предпринята попытка подробно
и систематически рассмотреть теоретические аспекты этого
типа статистического моделирования, а также показать,
каким образом они могут быть использованы при решении
различных задач автоматического распознавания речи.
1. ВВЕДЕНИЕ
Различные процессы, протекающие в окружающем
нас реальном мире, обнаруживают себя теми или
иными внешними проявлениями, которые можно
охарактеризовать как сигналы, регистрируемые по-
средством органов чувств, датчиков и т.п. Сигналы
по своей природе могут быть дискретными (например,
символы конечного алфавита, квантованные векторы
из кодовой книги и т. п.) или непрерывными (фраг-
менты речи, измерения температуры, музыка н так
далее). Сигналы могут быть стационарными (если
их статистические свойства не изменяются во вре-
мени) или нестационарными (если свойства сигналов
изменяются во времени). Сигналы могут быть чис-
тыми (т, е. приходящими только от одного источника)
или искаженными сигналами других источников (на-
пример, шумом), помехами при передаче, ревербе-
рацией и т. п.
Фундаментальной по важности проблемой являет-
ся создание математических моделей для описания
таких сигналов реального мира. Интерес к приме-
нению моделей сигнала обусловлен несколькими
причинами. Во-первых, модель может обеспечить ос-
нову для теоретического описания системы обра-
ботки, которая производит именно то преобразо-
вание сигнала, которое нам необходимо. Так, на-
пример, если нас интересует улучшение качества
сигнала, загрязненного шумом и искажениями, воз-
никшими при его передаче, модель сигнала можно
использовать для создания системы, которая будет
оптимально удалять шум н эти искажения. Во-вто-
рых, модели сигнала важны потому, что с их помощью
можно получить много информации об источнике
Получена 15 января 1988 г., в исправленном виде —4 ок-
тября 1988 г.
Ориг., с. 257—286.
The author is with AT&T Bell Laboratories, Murray Hill, Nl 07974-
2070, USA.
IEEE Log Number 8825949.
8 ТИИЭР № 2
сигнала (а значит, о том процессе реального мира,
который породил этот сигнал), не имея непосред-
ственного доступа к этому источнику. Это свойство
особенно важно в тех случаях, когда высоки затраты
на получение сигналов от настоящего источника.
В этом случае, имея хорошую модель сигнала, можно
имитировать источник и изучать его с той степенью
•точности, которую обеспечивают такие имитации.
И, наконец, наиболее весомая причина применения
моделей сигналов — это то, что на практике они
часто позволяют получать исключительно хорошие
результаты, обеспечивая возможность весьма эф-
фективной реализации важных практических систем
предсказания, распознавания, идентификации и т. п.
Существует несколько типов моделей, которые
можно использовать для описания свойств некоторого
заданного сигнала. В широком смысле типы моделей
сигнала можно разбить на класс детерминированных
и класс стохастических моделей. В детерминированных
моделях, вообще говоря, используются некоторые
известные специфические свойства сигнала, напри-
мер то, что сигнал синусоидальный или представляет
собой сумму экспонент и т.п. В таких случаях оп-
ределение модели сигнала не вызывает каких-либо
трудностей, поскольку для этого необходимо лишь
оценить значения ее параметров (например, ампли-
туду, частоту и фазу синусоиды, амплитуды и пока-
затели степени экспонент и т.п.). Второй широкий
класс моделей сигнала — это стохастические модели,
в которых пытаются охарактеризовать только ста-
тистические свойства сигналов. Примерами таких
моделей являются гауссовские процессы, пуассонов-
ские процессы, марковские процессы, скрытые мар-
ковские процессы. В основу этих стохастических
моделей положено допущение о том, что сигнал
может быть хорошо описан некоторым параметриче-
ским случайным процессом и что параметры этого
процесса могут быть достаточно точно оценены не-
которым, вполне определенным способом.
В представляющих для нас интерес приложениях,
а именно в обработке речи, успешно применяются
как детерминированные, так и стохастические мо
дели. В этой статье мы ограничимся рассмотрение?.!
только одного типа стохастических моделей сигнала,
а именно скрытыми марковскими моделями (СММ).
(В литературе по теории связи эти модели называются
марковскими источниками или вероятностными функ-
циями цепей Маркова.) Сначала будет кратко из-
ложена теория цепей Маркова, затем лежащие в ее
основе идеи с помощью нескольких простых при-
меров будут распространены на класс скрытых мар-
ковских моделей. Далее главное внимание будет
уделено трем основным для построения СММ про-
иго

СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 87 блемам 11, а именно оцениванию вероятности (или правдоподобия) некоторой последовательности на- блюдений, определяемой заданной СММ, определению наилучшей (т. е. оптимальной в некотором смысле) последовательности состояний модели и подстройке параметров модели, наилучшим образом соответству- ющей наблюдаемому сигналу. Будет показано, что, поскольку эти три проблемы уже решены, то СММ можно применять в задачах, возникающих при рас- познавании речи. Ни теория скрытых марковских моделей, ни их применение к распознаванию речи не являются чем-то новым. Основы теории были опубликованы в серии классических статей Баума и его коллег [1—5] в конце 60-х — начале 70-х годов, а ее результаты применены в приложениях, связанных с распозна- ванием речи, Бейкером [6] из CMU и Елинеком с коллегами из IBM [7—13] в 70-х годах. Однако ши- рокое признание и применение теории СММ к рас- познаванию речи наблюдается только в последние годы, что объясняется несколькими причинами. Во- первых, основы теории скрытых марковских моделей были опубликованы в математических журналах, которые обычно не читаются инженерами, работаю- щими в области автоматического распознавания речи. Во-вторых, описания первых применений этой теории к обработке речи не содержали достаточного для большинства читателей вводно-методического мате- риала, что не позволяло им понять ее результаты и применить их в своих собственных исследованиях. Поэтому позднее было написано несколько обзорных статей, которые содержали детальную информацию, достаточную для того, чтобы ряд исследовательских лабораторий приступил к работе с использованием СММ в приложениях, связанных с обработкой речи [14—19]. Цель данного обзора—-изложить основы теории СММ (созданной Баумом и его коллегами), представить рекомендации по практическому исполь- зованию ее результатов и привести два типичных примера применения этой теории для решения задач автоматического распознавания речи. Статья вклю- чает результаты, заимствованные из многих ориги- нальных работ, и, по нашему мнению, содержит ма- териал, достаточный для овладения основами, ко- торые необходимы для работы в этой захватывающей области исследований. Материал статьи организован следующим образом. В разд. II дан обзор теории дискретных марковских цепей и показано, каким образом можно эффективно использовать концепцию скрытых состояний в тех случаях, когда наблюдения являются некоторой ве- роятностной функцией данного состояния. Для ил- люстрации теории используются два простых при- мера, а именно эксперименты по бросанию монеты и классическая модель из нескольких урн с шарами. В разд. III обсуждаются трн основные проблемы СММ и дано несколько простых методов их решения. В разд. IV описаны различные типы СММ, в том числе эргодическая и лево-правая модели. Здесь же об- суждаются различные характерные особенности мо- 11 Идея описания теоретических аспектов скрытых марков- ских моделей в терминах решения трех основных проблем принадлежит сотруднику Института оборонных проблем (IDA) Джеку Фергюсону, который ввел ее в лекциях и пуб- ликациях. Рис. 1. Цепь Маркова с 5 состояниями (обозначенными от Sj до S3) и заданными вероятностями переходов между ними. делей, включая вид функций плотности наблюдений и плотности длительности пребывания в одном со- стоянии, а также выбор критерия для оценки опти- мальных значений параметров СММ. В разд. V об- суждаются вопросы, возникающие при практиче- ском применении СММ, в том числе масштабирование и начальные оценки параметров, размерность и форма модели, пропуск данных, а также использование многих последовательностей наблюдений. В разд. VI описан распознаватель изолированных слов, разра- ботанный на базе СММ, и его характеристики срав- ниваются с характеристиками распознавателей, реа- лизованных на других принципах. В разд. VII методы, рассмотренные в предыдущем разделе, исполь- зуются для решения задачи распознавания цепочек произнесенных слов, для чего используется метод слияния СММ отдельных слов. В разд. VIII кратко описано, каким образом СММ применялись для создания системы распознавания речи с большим словарем. Наконец, в разд. IX кратко суммированы основные идеи, которые обсуждались в данной статье. 11. ДИСКРЕТНЫЕ МАРКОВСКИЕ ПРОЦЕССЫ 2> Рассмотрим систему, которая в произвольный момент времени может находиться в одном из М раз- личных состояний Sj, S2, . . ., SA-, как показано на рис. 1 (где для простоты полагается М = 5). В диск- ретные моменты времени система претерпевает из- менение состояния (возможно, переходя при этом опять в то же состояние) в соответствии с некоторым вероятностным правилом, связанным с текущим со- стоянием. Моменты времени, в которые происходит изменение состояния системы, будем обозначать через t= 1, 2, . . ., а ее состояние в момент времени t — через qt. Полное вероятностное описание такой си- стемы будет, вообще говоря, требовать задания как текущего состояния (в момент времени /), так и всех предыдущих. Для частного случая дискретной цепи Маркова первого порядка это вероятностное описа- ние требует знания только текущего и предыдущего 2) Хороший обзор по дискретным марковским процессам дан в работе (20], гл. 5.
88 ТИИЭР, т. 77, № 2, февраль 1989 состояний, т. е. сводится к виду Pl4t = = S„ qt_2 = Sb •] = = P[q, = SJq,.., = S,]. (1) В дальнейшем мы будем рассматривать такие про- цессы, для которых правая часть в (1) не зависит от времени. В этом случае переходные вероятности аи определяются выражением a„ = P[q, = S,\q,^ = S,], (2) и обладают следующими свойствами: а,; > 0, (За) 5,^ = 1» <ЗЬ) поскольку удовлетворяют обычным вероятностным ограничениям. Описанный выше стохастический процесс может быть назван наблюдаемой марковской моделью, так как выходом такого процесса в каждый момент 'Вре- мени является очередное состояние модели, которое соответствует физическому (наблюдаемому) событию. Поясним описанную конструкцию на примере. Рас- смотрим простую цепь Маркова, обладающую тремя состояниями и предназначенную для моделирования погоды. Предполагается, что раз в день (например, в полдень) состояние погоды описывается одной (и только одной) из следующих характеристик: состояние 1: дождь (или снег), состояние 2: облачно, состояние 3: ясно. Матрица А, составленная из вероятностей перехода между состояниями, имеет вид А = {а,,} = 0.4 0.3 0.3 0.2 0.6 0.2 0.1 0.1 0.8 Пусть известно, что день 1 (/=1)—ясный (т. е. имеем состояние 3). Можно задать следующий во- прос: какова вероятность (в соответствии с заданной моделью) того, что в последующие 7 дней последо- вательность состояний погоды будет иметь вид: «ясно— ясно—дождь—дождь—ясно—облачно—ясно»? Иными словами, задана последовательность наблюдений 0= = {S3, S3, S3, Si, Si, S3, S2, S3}, соответствующая моментам времени f=l, 2, . . ., 8, и нужно опреде- лить вероятность появления этой последовательности для данной модели. Эта вероятность может быть записана (и вычислена) с помощью выражения Р(О| модель) = P[S3, S3, s3, Sv Si, s3, S2, S3| модель] = = P[S,J • P[S3|S3] P[S3|S3] • PtSJSj]. PCSJS,] PISjIS,] • P[S2|S3] • P[S3|SJ = = ir3 • a33 • a33 a3. • an a13 a32 • a23 — = 1 • (0.8) (0.8) (0.1) (0.4) (0.3) (0.1) (0.2) = = 1.536 x 10-4, где 7Г, = P[q, = S,], 1 < i < N (4) — вероятности начальных состояний. Другой интересный вопрос (на который также можно получить ответ, используя эту модель) звучит следующим образом: пусть, например, модель на- ходится в некотором известном состоянии. Какова вероятность того, что она останется в этом состоянии ровно d моментов времени? Эта вероятность может быть вычислена как вероятность последовательности наблюдений О = {S,, Si, Sit • • , S,, Sj Ф S,}, 123 d d+1 из которой, с учетом введенной модели, получаем Р(О| модель, q, = S,) = (а,/-1(1 - а„) = р,(<У). (5) Величина pi(d) есть не что иное, как (дискретная) функция плотности вероятности пребывания в те- чение времени d в состоянии i. Эта экспоненциальная функция представляет собой характеристику дли- тельности данного состояния в цепи Маркова. Ис- пользуя pi (d), нетрудно вычислить ожидаемое число повторений одного и того же состояния (т. е. мате- матическое ожидание времени непрерывного пребы- вания в этом состоянии): d, = S dp,(d) = (6а) d = 1 о 1 = S d(a„)d-1(1 - а„) = ----. (6Ь) а = 1 1. - а„ Так, согласно принятой модели, наиболее вероят- ное число следующих друг за другом ясных дней равно 1/(0.2)=5, облачных — 2.5 и дождливых — 1.67. А. Обобщения иа скрытые модели Маркова До сих пор мы рассматривали марковские модели, в которых каждое состояние соответствовало наблю- даемому (физическому) событию. Однако такая мо- дель слишком ограниченна, для того чтобы ее можно было успешно использовать при решении многих задач, представляющих практический интерес. В этом разделе мы расширим понятие марковской модели на случай, когда наблюдения являются некоторой ве- роятностной функцией данного состояния; иными словами, полученная в результате модель (называ- емая скрытой марковской моделью) будет представ- лять собой дважды стохастический процесс, состоя- щий из пары случайных процессов, один из которых является основным и ненаблюдаемым (т.е. скрытым от нас). Единственное, что мы можем,— это судить о нем с помощью другого случайного процесса (или множества таких процессов), который дает нам по- следовательность наблюдений. Для того чтобы по- яснить это, рассмотрим следующую модель несколь- ких простых экспериментов по бросанию монет. Модели бросания монет. Представим следующий сценарий. Вы находитесь в одной половине комнаты, разделенной непрозрачным барьером (например, што- рой), через который не видно, что происходит на 8»
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 89 Гербы Решетки о-ннттнтннттн... S - < 1 2 2 1 2 11 2 2 1 ... Урна 1 Урна 2 Р(красн.) аЬ<(1) Р(красн.) » Ь2( 1) Р (красн.) » Ьц( I) Р (синий) • bf(2) Р (синий) * Ь 2( 2) Р (синий) Ьн{2) Р(зел.) «bj(3) Р(зел.) Ь2(3) Р (зел.) • bN(3) Р (желт.) »bf(4) Р(желт.) • Ь2(4) Р1желт.) = bN(4) Р (оранж.) «Ь,(М) Р (оранж.) Ь2(М) Р (оранж.) »bN(M) о-ннттнтннттн... S « 2 1 1 222 1 22 1 2 ... О* {зел., зел., синий, красн., желт., красн.......синий} О’ННТТНТННТТН... S » 3 1 2 33 ! 1 2 3 1 3... Рис. 2. Три марковские модели, которые могут быть исполь- зованы для моделирования результатов экспериментов по бросанию монет: (а) модель с одной монетой; (Ь) модель с дву- мя монетами; (с) модель с тремя монетами. другой половине. А там находится некто, выполня- ющий эксперимент по бросанию монет (одной или не- скольких). Этот некто не будет сообщать вам точных сведений о последовательности своих действий, а будет лишь сообщать результат каждого бросания монеты. Следовательно, выполняется некоторая по- следовательность скрытых экспериментов по броса- нию монеты, характеризуемая определенной последо- вательностью наблюдений, состоящей из серии гербов н решеток; например, типичной последовательностью наблюдений будет последовательность вида о = о, о2 о3 • • • ОТ = = зс зс з з з зс з з эс • • эс, где зс обозначает выпадение решетки, аз — выпа- дение герба. Задача, представляющая интерес в рамках опи- санного выше сценария, состоит в том, чтобы пока- зать, как можно построить СММ, пригодную для объяснения (или моделирования) наблюдаемой по- следовательности гербов и решеток. Первая возни- кающая здесь трудность связана с тем, что необхо- димо решить, чему соответствуют состояния модели и сколько всего различных состояний нужно иметь. Один возможный вариант—предположить, что под- брасывается только одна несимметричная монета. В этом случае мы можем моделировать ситуацию моделью с двумя состояниями, причем каждое со- стояние соответствует одной из сторон монеты (т. е. гербу или решетке). Эта модель изображена на рис. Рис. 3. Иллюстрация общего случая дискретной СММ с помощью модели из урн и шаров с N состояниями. 2а”. В подобном случае марковская модель яв- ляется наблюдаемой, и единственное, что необхо- димо сделать для ее полного описания,— это решить, как лучше выбрать вероятность выпадения одной из сторон (например, герба) несимметричной монеты. Интересно, что СММ, эквивалентная модели, изоб- раженной на рис. 2а, будет порождаться моделью с одним состоянием, которое соответствует единствен- ной монете, а неизвестным параметром будет степень асимметрии монеты, выраженная, например, через вероятность выпадения гербов. Второй вид СММ, пригодный для объяснения наблюдаемой последовательности результатов под- брасывания монеты, показан на рис. 2b. В этом случае модель имеет два состояния, которые соот- ветствуют двум различным несимметричным монетам. Каждое состояние описывается распределением веро- ятностей выпадения гербов и решеток. Переходы между состояниями задаются матрицей переходных вероятностей, содержащей вероятности переходов из одного состояния в другое. Физический механизм, управляющий выбором переходов, может сам быть или некоторым множеством независимых бросаний монет, или некоторым другим вероятностным про- цессом . Третий вид СММ, также пригодный для объясне- ния наблюдаемых результатов экспериментов по бро- санию монет, показан на рис. 2с. Эта модель соот- ветствует использованию трех монет и выбору в каж- дый момент времени одной из них в соответствии с результатом некоторого вероятностного экспери- мента . Применительно к представленным на рис. 2 трем моделям для объяснения результатов экспериментов по бросанию монет естественно задаться вопросом, какая из них лучше соответствует действительности. Вполне очевидно, что простая модель с одной монетой (рнс. 2а) имеет только один неизвестный параметр, модель с двумя монетами (рис. 2Ь) имеет четыре не- известных параметра, а модель с тремя монетами (рис. 2с) имеет уже девять таких параметров. Следо- вательно, чем больше число степеней свободы, тем более пригодна модель для моделирования экспери- ментов по бросанию монет. Хотя такой вывод в прин- 3> Модель, показанная на рис. 2а, представляет собой процесс с нулевой памятью и, следовательно, может рассмат- риваться как вырожденный случай марковской модели.
90 ТИИЭР, т. 77, № 2, февраль 1989 ципе и правилен, позднее мы увидим, что практи- ческие соображения налагают ряд сильных ограни- чений на размер реально используемых моделей. Кроме того, вполне возможно, что фактически под- брасывается только одна монета. Тогда применение модели с тремя монетами (рис. 2с) будет неприемле- мым, так как реальное физическое явление не будет соответствовать выбранной модели, т.е. мы будем использовать недоопределенную систему. Модель из урн и шаров 41. Для того чтобы рас- пространить принципы СММ на несколько более сложную ситуацию, рассмотрим физическую систему из урн и шаров, показанную на рис. 3. Предположим, что в комнате находится N больших стеклянных урн, в каждой из которых находится большое число раз- ноцветных шаров. Предполагается, что использо- вано М различных цветов для окраски шаров. Про- цесс наблюдений осуществляется следующим обра- зом. Некий находящийся в этой комнате демон в соответствии с неизвестным случайным законом вы- бирает начальную урну. Из этой урны также случай- ным образом извлекается шар и его цвет запоми- нается в качестве первого наблюдения. Затем шар возвращается в урну, из которой он был извлечен. Далее по номеру урны и некоторому вероятностному правилу выбора осуществляется переход к новой урне, и процесс извлечения шара повторяется. В ре- зультате порождается некоторая конечная последо- вательность наблюдений, состоящая из цветов извле- каемых шаров. Этот процесс нам и хотелось бы смо- делировать, представив его как последовательность наблюдений, порождаемых некоторой СММ. Вполне очевидно, что простейшей СММ, которая соответствует процессу извлечения шаров из урн, является та модель, в которой состояния соответст- вуют выбираемым урнам и для каждого состояния определена вероятность появления того или иного цвета. Процесс выбора урн управляется матрицей переходных вероятностей СММ. В. Элементы СММ Приведенные выше примеры позволяют получить достаточно хорошее представление о том, что же такое СММ и как она может быть использована в некоторых простых случаях. Теперь мы дадим формальное оп- ределение элементов СММ и объясним, каким об- разом эта модель порождает последовательности на- блюдений. Для определения скрытой марковской модели необходимо задать следующие элементы. 1) N, число состояний в модели. Хотя состояния скрыты от наблюдателя, во многих практических задачах состояниям или множествам состояний мо- дели приписывается некий физический смысл. На- пример, в экспериментах по бросанию монеты каж- дое состояние соответствует различным положениям монеты. В модели урн и шаров состояния соответ- ствуют урнам. Обычно состояния связаны между собой так, что любое состояние может быть достиг- нуто из любого другого (как, например, в эргоди- ческой модели). Позднее мы увидим, что часто пред- 4) Модель из урн и шаров введена Джеком Фергюсоном (IDA) и его коллегами в лекциях по теории СММ. ставляют интерес и другие возможные способы свя- зей между состояниями. Для обозначения множества состояний модели используется запись S —{Si, Sa, . . ., Зд,}, а состояние модели в момент t обознача- ется qt. 2) М, число различных символов наблюдения, которые могут порождаться моделью, т.е. размер дискретного алфавита. Символы наблюдения соот- ветствуют физическому выходу моделируемой си- стемы. В экспериментах по бросанию монет символы наблюдения были просто гербами или решетками; для модели шаров и урн это были цвета шаров, из- влеченных из урн. Множество наблюдаемых симво- лов обозначается как V—{vt, и2, . . ., Ом}. 3) Распределение вероятностей переходов между состояниями (или матрица переходных вероятностей) Л = {ао}, где а,, = P[ql + i = S,|g, = S,], 1 < i, j < N. (7) В частном случае, когда каждое состояние может быть достигнуто из любого другого за один шаг, имеем при всех значениях i и /. Для других типов СММ будем иметь. ац=0 для одной или более пар (В /)• 4) Распределение вероятностей появления симво- лов наблюдения в состоянии /, B={bj(k)}, где Ь/М = Р[ук at t\q, = SJ, 1 < j < N, 1< к < M. (8) 5) Начальное распределение вероятностей состоя- ний Л={л;} и, = Plq, = S,L 1 < / < N. (9) Выбрав подходящие значения для N, М, А, В и л, можно далее использовать СММ в качестве генератора некоторой последовательности наблюдений о = о, О2 • • • от (Ю) (где каждое наблюдение О( является символом алфа- вита V, а Т — число символов в наблюдаемой по- следовательности), которая получается в соответст- вии со следующей процедурой: 1) выбрать начальное состояние qi—Si в соот- ветствии с распределением л; 2) установить /=1; 3) выбрать Ot=vk в соответствии с распределе- нием вероятностей появления символов алфа- вита в состоянии S;, т. е. в соответствии с Ы*); 4) перейти к новому состоянию qt+i=Sj в соот- ветствии с переходными вероятностями ai7; 5) установить (=(+1 и, если t<T, вернуться к шагу 3, в противном случае закончить про- цедуру. Заметим, что эта процедура может использоваться и для генерации наблюдений, и как пример того, каким образом заданная последовательность наблю- дений могла быть порождена выбранной моделью. Из проведенного обсуждения нетрудно видеть, что полное описание СММ предполагает задание двух параметров модели (N и М), множества допу- стимых символов наблюдения, а также трех веро- ятностных мер Я, В и л. Далее для обозначения всего
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 91 множества параметров модели будет использоваться краткая запись X = и, в, тг). (11) С. Три основные проблемы, связанные с использованием СММ 51 Существуют три основные проблемы, которые не- обходимо решить для того, чтобы модель, описанная в предыдущем подразделе, могла быть использована в практических задачах. Проблема 1. Пусть задана последовательность на- блюдений О=О]О2. . ,ОТ и модель Х=(Д, В, л). Как эффективно вы- числить величину Р (О | /.), т. е. ве- роятность появления этой последо- вательности наблюдений для данной модели? Проблема 2. Пусть заданы последовательность на- блюдений O=OiO2. . ,0т и модель X. Как выбрать последовательность со- стояний Q=<7i<72, •• •> <7т, которая в некотором значимом смысле будет оптимальной (например, наилучшим образом соответствует имеющейся по- следовательности наблюдений)? Проблема 3. Каким образом нужно подстроить параметры модели Х=(А, В, л),для того чтобы максимизировать Р (О | X)? Проблема 1 является обычной задачей оценива- ния. Известны модели и последовательность наблю- дений, требуется вычислить вероятность того, что наблюдения порождены заданной моделью. Можно также рассматривать эту проблему как задачу вы- яснения, насколько хорошо некоторая модель под- ходит к имеющейся последовательности наблюдений. Последняя точка зрения часто оказывается полезна. Например, в случае существования сразу нескольких возможных моделей, решение проблемы 1 позволяет выбрать именно ту, которая наилучшим образом соответствует имеющимся наблюдениям. Проблема 2 связана с тем, каким образом можно «открыть» скрытую часть модели, т.е. найти «пра- вильную» последовательность состояний. Очевидно, что при заданной последовательности наблюдений и известной модели нельзя найти абсолютно точную последовательность состояний, соответствующих на- блюдениям, за исключением того вырожденного слу- чая, когда имеющаяся последовательность наблю- дений порождена именно этой моделью. Поэтому на практике определение последовательности состояний обычно делается с использованием некоторого кри- терия оптимальности. К сожалению, как мы увидим ниже, существует сразу несколько приемлемых кри- териев оптимальности, поэтому выбор того или иного из них в значительной мере зависит от целей дальней- шего использования полученной последовательности состояний. Типичной целью может, например, быть 6) Материал этого раздела, а также разд. Ill основан на идеях, высказанных Джеком Фергюсоном (IDA) в его лек- циях, прочитанных сотрудникам фирмы Bell Laboratories. изучение структуры модели, поиск оптимальной по- следовательности состояний для распознавания слит- ной речи и т. п. Проблема 3 представляет собой задачу, в которой мы пытаемся оптимизировать значения параметров, для того чтобы модель наилучшим образом соответ- ствовала имеющимся наблюдениям. Последователь- ность наблюдений, используемая для подстройки параметров, называется обучающей последователь- ностью, поскольку она используется для «обучения» СММ. Проблема обучения очень важна для боль- шинства приложений, так как именно во время обучения происходит, в соответствии с выбранным критерием оптимальности, подстройка значений па- раметров модели по данным наблюдений, в резуль- тате чего создается модель, наилучшим образом со- ответствующая реальному явлению. Для пояснения сказанного выше рассмотрим про- стой распознаватель изолированных слов. Для каж- дого слова из словаря объемом W слов, мы хотим создать свою отдельную СММ с N состояниями. Про- изнесение каждого слова описывается последователь- ностью векторов, кодирующих в последовательные моменты времени набор спектральных характеристк сигнала. Предположим, что кодирование выполня- ется с помощью кодовой книги для спектров, содер- жащей М различных спектральных векторов, и каждое отдельное наблюдение представляется ин- дексом того кодового вектора, который наиболее близок (в соответствии с некоторой спектральной мерой) к речевому сигналу в соответствующий момент времени. Таким образом, для каждого слова из словаря имеется обучающая последовательность, со- стоящая из множества повторений цепочек индексов элементов кодовой книги, соответствующих произ- несению этого слова одним или несколькими дик- торами. Первая задача заключается в построении моделей для отдельных слов. Это можно сделать, используя решение проблемы 3 для оптимальной оценки значений параметров моделей слов по обучаю- щим последовательностям. Для того чтобы понять физический смысл состояний модели, разделим обу- чающие последовательности на сегменты, состоящие из наблюдений, принадлежащих одному и тому же состоянию, и затем изучим свойства спектральных векторов, соответствующих одноименным сегментам. Это можно сделать, если знать решение проблемы 2. Цель подобного изучения физического смысла со- стояний может заключаться в уточнении модели (с помощью изменения количества используемых состоя- ний, размера кодовой книги и т.п.), с тем чтобы улучшить ее способность к описанию цепочек про- изнесенных слов. Наконец, как только множество из W СММ построено, оптимизировано и всесторонне изучено, распознавание неизвестного слова выпол- няется посредством использования решения про- блемы 1, с тем чтобы на основании имеющейся по- следовательности наблюдений вычислить для каж- дой модели вероятность появления этой последова- тельности, а затем в качестве распознанного слова взять то слово, для модели которого эта вероятность наибольшая, т. е. выполнить оценку по методу мак- симального правдоподобия. В следующем разделе представлено формальное математическое решение всех трех основных про-
92 ТИИЭР, т. 77, К; 2, февраль 1989 баем и будет показано, что в рамках вероятностного подхода эти три проблемы тесно связаны между собой. 111. РЕШЕНИЕ ТРЕХ ОСНОВНЫХ ПРОБЛЕМ СММ А. Решение проблемы 1 Итак, по заданной модели X мы хотим вычислить вероятность появления последовательности наблю- дений 0=01, 02, . . ., 0т, т.е. Р(0 | X). Наиболее прямой путь — сделать это с помощью перечисления всех возможных последовательностей состояний дли- ны Т (т.е. числа наблюдений в последовательности). Зафиксируем одну такую последовательность состоя- ний Q — q-i Яг ’ ’ ' Чт< 02) где <?1 — начальное состояние. Вероятность появле- ния последовательности наблюдений О для последо- вательности состояний (12) при условии независи- мости наблюдений определяется выражением P(O|Q, X) = П P(Ot\q„ X). (13а) Отсюда получаем P(O|Q, X) = bq./O,) • bqi(O2) bqr(OT). (13b) Вероятность такой последовательности состояний Q может быть записана в виде P(Q|X) = 7rQ1a9,Q2aQ,?3 • • а,2 iQr. (14) Совместная вероятность последовательностей О и Q, т. е. вероятность того, что О и Q появляются вме- сте,— это просто произведение вероятностей (13а) и (13b): Р(О, Q|X) = P(O|Q, X) P(Q, X). (15) Вероятность появления последовательности наблю- дений О (для данной модели) получается суммиро- ванием этих совместных вероятностей для всех воз- можных последовательностей состояний Q, что дает Р(О|Х) = S P(O|Q, X) P(Q|X) = (16) all Q qv<?2'' ‘ ’ 'Qt aqr_,qrbqr(QT). (17) Вычисления, предписываемые этим выражением, мож- но интерпретировать следующим образом. Первона- чально в момент времени 7=1 модель находится в состоянии ^i с вероятностью и порождает в этом состоянии с вероятностью bfll(0i) символ Ot. Время изменяется с t на М-1 (т.е. становится равным 2), и модель с вероятностью выполняет переход из состояния ^1 в состояние q2, производя при этом с вероятностью bQ,(02) символ 02. Процесс продол- жается так до тех пор, пока не будет сделан послед- ний переход (в момент времени Т) из состояния qT_l с вероятностью адг_^т в состояние qT, в ко- тором с вероятностью ЬЯт(0т) будет произведен сим- вол 0т. Нетрудно убедиться в том, что вычисление ве- роятности Р (О | X) в соответствии с его прямым определением (17) . требует порядка 2T-NT операций, так как в каждый момент времени /=1, 2, . . ., Т существует NT различных возможных состояний, а значит, существует N различных последовательностей состояний, поэтому для вычисления одного члена суммы (17) требуется примерно 2Т операций (точнее говоря, требуется (2Т—\)N умножений и N—1 сло- жений). Даже при малых значениях N и Т такой рас- чет практически неосуществим. Например, при А = 5 и Т= 100 требуется порядка 2-100-51оо~10’2 опера- ций Ясно, что для практического решения проблемы 1 требуется более эффективная процедура. К счастью, такая процедура существует и называется процеду- рой прямого — обратного хода ” (the forward-back- ward procedure). Алгоритм, прямого — обратного хода |2, 3]. Введем так называемую прямую переменную a((t), определяемую выражением «,(/) = Р(О, О2 • • О„ <7, = SJX), (18) которая представляет собой вероятность появления для данной модели частичной последовательности наблюдений 02 . . ,0t (до момента t и состояния в этот момент). По индукции можно вычислить a((i) следующим образом: 1) Инициализация: «,(/) = тг.ЬДО,), 1 < / < N. (19) 2) Индуктивный переход: at + 1(/) = a((/)a^b;(Ot + 1), 1 < t < T - 1, 1 < j < N. (20) 3) Окончание: N P(O|X) = S aT(i). (21) i = 1 Шаг 1 устанавливает значение прямой переменной равное совместной вероятности состояния и началь- ного наблюдения Ot. Индуктивный переход, в котором заключается основное содержание прямого хода вычис- лений, проиллюстрирован на рис. 4а, где показано, каким именно образом состояние Sj может быть достиг- нуто в момент М-1 из N возможных состояний S,-, 1 в момент t. Так как at (i) представляет собой вероятность события, заключающегося в том, что на- блюдается последовательность OiO2. . .Ot, причем со- стояние в момент t есть S,-, то произведение представляет собой вероятность того, что для наблюде- ний OiO2. . .Ot и состояния S,- в момент t, в следующий момент М-1 будет достигнуто состояние Sj. Суммиро- вание этого произведения по всем возможным состоя- ниям S;, 1в момент времени t дает вероятность появления состояния Sj в момент М-1 совместно со ЛЯХп •> Строго говоря, для решения проблемы 1 необходим лишь прямой ход вычислений в этой процедуре. Однако вычисле- ния в обратном направлении также описаны в этом разделе, поскольку они понадобятся при решении проблемы 3.
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 93 Рис. 4. (а) Пример последовательности операций, необходи- мых для вычисления прямой переменной <Xj + i(/); (Ь) реали- зация вычисления аг (;) с помощью решетки наблюдений t и состояний I. всеми предыдущими наблюдениями. Определив S2, нетрудно далее убедиться в том, что а( +i (j) получается посредством вычисления вероятности наблюдения 0t + 1 в состоянии /, т. е. умножением результата сум- мирования на вероятность b/(0i + 1). Вычисления в со- ответствии с (20) при фиксированном t выполняются для всех состояний j, 1</«JV, и повторяются при /=1, 2, ..., Т—1. Наконец, шаг 3 приводит к вычисле- нию искомой вероятности Р(О|Х) как суммы оконча- тельных значений прямых переменных ar(i). Это вы- текает из того факта, что, по определению, ат(П = РЮ, О2 • • От, qT = SJX), (22) и, следовательно, Р(О)Х' является суммой по i вели- чин ar(i). Нетрудно подсчитать, что для вычисления всех at(/), Ic/CiV, требуется уже порядка N*T вычисли- тельных операций, а не 2TNT операций, которые не- обходимы при прямых вычислениях по формулам (16) и (17). (Для точности укажем, что необходимо ровно Ar(tf+1)(T—1)+А умножений и N(N— 1)(Т— 1) сло- жений.) При N=5, 7=100 алгоритм прямого—об- ратного хода требует около 3000 операций, тогда как прямые вычисления предполагают выполнение 10” операций, что на 69 порядков величины больше. Вычисление прямой вероятности в действительно- сти основано на использовании решетчатой структуры, показанной на рис. 4Ь. Основная идея состоит здесь в том, что поскольку существует только N возможных различных состояний модели (соответствующих уз- лам решетки, расположенны.м напротив каждой метки времени), то все возможные последовательности состоя- Рис. 5. Пример последовательности операций, необходимых для вычисления обратной переменной ₽|(<). ний (независимо от длины последовательности наблю- дений) должны сливаться в этих N узлах. Для началь- ного момента времени t— 1 (первая метка времени на решетке) необходимо вычислить ai(i), 1 <ЛГ. Для моментов времени (=2, 3, .... 7 необходимо вычис- лить at(j), 1<(<Лпричем при каждом таком вычис- лении используются только N предыдущих значений так как в каждый из узлов решетки можно попасть из каждого такого же узла, но относящегося к предыдущему моменту времени. Аналогичным образом ” можно ввести обратную переменную §<((), определяемую выражением &(>) = Р(О, + 1 О! + 2 OT\q. = S„ X), (23) которая для заданной модели X представляет собой совместную вероятность появления частичной после- довательности наблюдений от момента времени t+1 до Т и состояния S, в момент времени t. Как и раньше, можно вычислить P((t) по индукции: 1) Инициализация: /Зт(/) = 1, 1 < / < \. (24) 2) Индукция: ft(/) = S а„Ь(О(+1) Д+1(Д / = 1 Г = т - 1, т - 2, • , 1, 1 < i N- (25) Шаг 1 произвольно определяет pr(t)=l для всех i. Шаг 2, иллюстрируемый с помощью рис. 5, означает, что для вычисления вероятности того, что при задан- ной последовательности наблюдений в моменты време- ни от Н-1 до Т модель в момент t находилась в состоя- нии St, необходимо рассмотреть все возможные состоя- ния Sy в момент f+1, учесть переходные вероятности из S; в Sj (член ац), вероятность наблюдения Ot + 1n состоянии j (член bj(Ol + 1), а также вероятность появ- ления оставшейся частичной последовательности на'- блюдений из состояния / (член + i (j)). Позднее мы уви- дим, каким образом вычисления в прямом и обратном направлениях можно эффективно использовать для решения проблем 2 и 3. Вычисление вероятностей 0г (i), 1</<Т, IcicAf, также требует порядка №7 операций и может быть эф- фективно выполнено на решетчатой структуре, ана- логичной структуре, показанной на рис. 4Ь. ?! Напомним еще раз, что процедура обратного хода будет использована для решения проблемы 3, но она не нужна для решения проблемы 1.
94 ТИИЭР, т. 77, № 2, февраль,1989 В. Решение проблемы 2 В отличие от проблемы 1, для которой можно дать точное решение, для проблемы 2, а именно поиска «оп- тимальной» последовательности состояний, соответ- ствующих заданной последовательности наблюдений, существует, вообще говоря, несколько возможных ре- шений. Трудность определения оптимальной последо- вательности состояний обусловлена тем, что сущест- вует несколько приемлемых критериев оптимальности. Например, один возможный критерий состоит в том, чтобы выбирать такие состояния qt, каждое из которых, взятое отдельно, является наиболее вероятным. Этот критерий оптимальности максимизирует число кор- ректно определенных индивидуальных состояний. Для того чтобы решить проблему 2 на основе этого крите- рия, введем переменную 7((/) = = S,|O, X), (26) которая представляет собой вероятность пребывания в момент t в состоянии S, при заданной последователь- ности наблюдений О и модели к. Используя прямую и обратную переменные, уравнение (26) можно запи- сать в следующем виде: a,(i) _ а,(<) 7' ' " P(O|X) Д S a,(/) 0,(i) (27) где a( (/) соответствует частичной последовательности наблюдений OiO2. . .0t и состоянию S, в момент t, а pt(i) — остатку последовательности наблюдений O( + iO( + 2- -От и заданному состоянию S; в момент t. Нормирующий множитель P(O|A.)=S£.1at(i)0< (i) вы- бран таким образом, чтобы вероятностная мера y((t) удовлетворяла условию N S т,(/) = 1. (28) / = 1 Используя y((i), можно вычислить наиболее веро- ятное состояние qt в момент t как состояние, опреде- ляемое выражением q, ~ argmax [7((/)], 1 < t < Т. (29) 1 < i s N И хотя уравнение (29) максимизирует ожидаемое чис- ло правдоподобных состояний (поскольку в каждый момент времени t выбирается наиболее вероятное со- стояние), с полученной таким образом последователь- ностью состояний может возникнуть ряд трудностей. Так, например, если некоторые переходные вероятно- сти СММ равны 0 (т. е. а,/=0 для некоторых i, j), найденная «оптимальная» последовательность состоя- ний может оказаться недопустимой последователь- ностью. Обусловлено это тем, что уравнение (29) про- сто определяет наиболее вероятное состояние для каждого момента времени и не учитывает вероятность появления последовательностей состояний. Один из возможных способов решения проблемы 2 востоит в модификации критерия оптимальности. Например, можно решить задачу поиска последова- тельности состояний, максимизирующей число кор- ректных пар состояний (qt, qt+i) или троек состояний (qt, qt+i, qt + i) и т.д. Хотя в некоторых случаях приме- 9 ТИИЭР № 2 неиие этих критериев и имеет смысл, все же наиболее широко используется критерий, основанный на поиске единственной наилучшей последовательности состоя- ний (или пути на решетке), максимизирующей P(Q|O, X), или, что эквивалентно, P(Q, 0|Х). Метод определения такой наилучшей последовательности состояний, основанный на динамическом программи- ровании, называется алгоритмом Витерби. Алгоритм Витерби [21, 22]. Для того чтобы по заданной последовательности наблюдений 0= = (OiOi.. ,0Т) найти наилучшую последовательность состояний Q={qxq2 • • <7т} определим следующую величину: а,(/) = max P[q, q2 • • • q, = /, О, O2 • • • O,|X], Я+Ч2-' (30) которая представляет собой максимальную вероят- ность того, что при заданных t первых наблюдениях последовательность состояний в соответствующие мо- менты времени заканчивается (в момент t) в состоянии Si. По индукции получаем Sf + i(/) = [max 8,(/)a,;] • Ь;(О, + 1). (31) Для того чтобы затем восстановить последовательность состояний для всех значений t и /, необходимо хранить значения аргументов, которые максимизируют вероят- ность (31). Для этой цели мы будем использовать мас- сив фг(/). Полную процедуру, требуемую для опре- деления последовательности состояний, можно теперь сформулировать, следующим образом: 1) Инициализация: а,(/) = тг, Ь/.О,), 1 < / < N, (32а) ^Х/-) = 0. (32b) 2) Рекурсия: г,(/) = max 2 < t < Т, 1 Si sN 1 < j < N; (33a) W/) = argmax [6,_i(/)a;.J, 2 < t < T, 1 SISN 1 < j < N. (33b) 3) Окончание: <34a) P* = max [Sj-O'H, 1£I£N q* .= argmax [3r(/)]. (34b) 1 Si £N 4) Восстановление пути (последовательности со- стояний): q* = ^t+1(qt*+i), t = T - 1, T - 2, • • • , 1. (35) Необходимо отметить, что реализация алгоритма Ви- терби аналогична (за исключением шага восстановле- ния) прямому ходу вычислений (19)—(21). Основное различие — использование вместо процедуры сумми- рования [выражение (20)] процедуры максимизации по всем предыдущим состояниям [выражение (33а)]. Очевидно также, что для эффективной реализации вы- числений по алгоритму Витерби может быть примене- на решетчатая структура.
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 95 С. Решение проблемы 3 [1—5] Третья и наиболее трудная проблема СММ — по заданной последовательности наблюдений определить метод такой подстройки параметров (Л, В, л) модели, чтобы для полученной модифицированной модели ве- роятность появления этой последовательности была максимальной. Не существует известного аналитиче- ского выражения для параметров такой модели. Кро- ме того, на практике, располагая некоторой последо- вательностью наблюдений в качестве обучающих дан- ных, нельзя указать оптимальный способ оценки параметров. Тем не менее, используя итеративные процедуры, например метод Баума — Уэлча [или, что эквивалентно, ЕМ-метод (метод математического ожи- дания — модификации) [23]], или градиентные методы [14], можно выбрать параметры модели Z=(A, В, л) таким образом, чтобы локально максимизировать ве- роятность Р(О|к). В этом подразделе рассматривается итеративная процедура выбора параметров, основан- ная главным образом на классической работе Баума и его коллег. Для того чтобы описать процедуру переоценки (т. е. последовательного обновления данных и соответствую- щей подстройки параметров) параметров СММ, опре- делим величину Е((/, j) — вероятность того, что при заданной последовательности наблюдений в моменты времени t и Z+1 система будет соответственно нахо- диться В СОСТОЯНИЯХ Sf И S)'. В = P(4t = S,, q, + 1 = S,|O, X). (36) Последовательность событий, удовлетворяющих вы- = Si, О|Х), а деление на Р(О|>.) можно рас- сматривать как нормирование, обеспечивающее необ- ходимую вероятностную меру. Выше мы определили yt(i) как вероятность пребы- вания модели в момент t в состоянии S, при заданной последовательности наблюдений. Следовательно, У; (0 можно записать через S((i, j), суммируя эту по- следнюю величину по /: Т,(/) = 2 «,(/, /). (38) / = 1 Если величину yt (t) просуммировать по всем t, то ре- зультат можно рассматривать как ожидаемое время пребывания системы в состоянии S,- или, что эквива- лентно, как ожидаемое число переходов, сделанных из состояния S,- (если исключить t=T из пределов сумми- рования). Аналогичным образом результат суммиро- вания (f, /) по t (от Z= 1 до —1) можно рассмат- ривать как ожидаемое число переходов из состояния St в Sj. Т- 1 "bi') = ожидаемое число переходов из S,, (39а) Т-1 S £<(',/) = ожидаемое число переходов из S, в S;. (39b) Используя приведенные выше формулы (и принцип подсчета появлений событий), можно построить метод переоценки параметров СММ. Соответствующие фор- мулы для вычисления оценок параметров л, А и В бу- дут иметь следующий вид: тг, - ожидаемая частота (число раз) пребывания в состоянии S, в момент (t = 1) — Ti(/), (40а) ожидаемое число переходов из состояния S, в состояние S, ожидаемое число переходов из состояния S, 2 £,(/,/) -----j (40b) S т,(/) i и наблюдения символа _ ожидаемое число переходов в состояние ЬАк) ------------------------------------ ожидаемое число переходов в состояние / т 2 Tf(/) 1 = 1 s.t. О, =1 Vi. т 2 ?<(/) f-1 (40с) ражению (36), показана на рис. 6. Используя опреде- ления прямой и обратной переменных, выражение для (i, /) можно записать в следующем виде: “t(') а,;Ь,(О1 + 1) + Ш/) “ Р(О]Х) “ _____a-/b/(°< + i) ft + iQ) N N " ~ 9 a7b/(°i + i) где числитель — это просто вероятность Р (qt— Пусть ?.= (А, В, л) — исходная модель, а Х= = (А, В, л) — модель после переоценки параметров, причем А, В и л соответствуют левым частям равенств (40а)—(40с), а для вычисления правых частей этих равенств используются А, В, и л. Баумом и его колле- гами было показано [6, 3], что в этом случае либо 1) ис- ходная модель определяет точку экстремума функции правдоподобия, и тогда Х=Х, либо 2) модель X более правдоподобна, чем модель X, в том смысле, что Р— = (О|л)>Р (О[А), и значит, мы нашли новую модель, для которой вероятность появления данной последо- вательности наблюдений больше, чем для исходной.
96 ТИИЭР, т. 77, № 2, февраль 1989 Рис. 6. Пример последовательности операций, необходимых для вычисления совместной вероятности того, что система в момент времени t находится в состоянии S;, а в момент /+1 — в состоянии Sj. Если рассматривать проблему оценивания параметров как задачу условной оптимизации Р (О|Х) [с ограниче- ниями вида (43)], то для поиска значений л,, и bj(k), которые максимизируют Р [далее вместо Р (О|Х) используется просто Р], можно применить ме- тод множителей Лагранжа. Основываясь на обычной технике оптимизации с использованием множителей Лагранжа, нетрудно показать, что Р максимизирова- но, если выполнены следующие условия: (44а) Если итеративно повторять эту процедуру, ис- пользуя на каждом новом шаге значения параметров модели, полученные на предыдущем шаге, то мы будем последовательно получать модели, для которых веро- ятность появления последовательности наблюдений О будет увеличиваться. Процедура продолжается до тех пор, пока не будет достигнута некоторая предельная точка. Полученная в результате оценка параметров модели называется оценкой максимального правдопо- добия для СММ. Следует заметить, что алгоритм пря- мого — обратного хода позволяет отыскивать только локальные максимумы и что в большинстве задач, представляющих практический интерес, поверхность, на которой выполняется оптимизация, имеет сложную форму с большим числом локальных максимумов. Формулы для повторного оценивания (40а)—(40с) можно также получить, непосредственно максимизи- руя по X (с использованием обычных методов оптими- зации с ограничениями) так называемую вспомога- тельную функцию Баума Q(X, X) = S P(Q\O, X) log [Р(О, Q|X)J. (41) о Как было показано Баумом и его коллегами [3, 61, максимизация функции Q(X, X) приводит к возраста- нию функции правдоподобия, т. е. max [Q(X, X)] - Р(О|Х) > Р(О|Х). (42) х В конечном счете функция правдоподобия достигает некоторой точки. Замечания относительно процедуры повторного оценивания. Формулы повторного оценивания могут быть легко проинтерпретированы как реализация ста- тистического ЕМ-алгоритма [23], в которой шаг Е (вычисление математического ожидания) — это вы- числение вспомогательной функции Q(X, X), а шаг М (модификация) — это максимизация этой функции по X. Важным аспектом процедуры повторного оценива- ния является то, что на каждой итерации автоматиче- ски удовлетворяются стохастические ограничения на параметры CMML а именно N S = 1, (43а) / = 1 N S а„ = 1, 1 < / < N, (43b) /=1 м % Ь,(к) = 1, 1 < / < N. (43с) дР a,i да, у а'к да,к ’ Ь/fc) = М gp S b,(0 ~ f=i ‘ дЬ,(г) (44b) (44с) С помощью подходящего преобразования правые час- ти каждого из уравнений (44) можно сделать идентич- ными правым частям соответствующих уравнений (40а)—(40с). Это свидетельствует о том, что формулы переоценки тождественно выполняются в критических точках функции Р. Формулы (44) по существу явля- ются формулами переоценивания, в которых левая часть представляет собой новую оценку, а правая вычисляется с использованием текущих значений пере- менных . В заключение отметим, что поскольку проблема в целом может быть сформулирована как задача опти- мизации, то для поиска «оптимальных» значений пара- метров модели можно применять обычные градиентные методы [14]. Подобные методы уже использовались и, как было показано, приводят к примерно таким же решениям, как и процедуры переоценки. IV. ТИПЫ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ До сих пор рассматривался только частный случай так называемых эргодических или полностью связан- ных СММ, когда каждое состояние модели может быть получено (за один шаг) из любого другого состояния. (Строго говоря, эргодическая модель обладает тем свойством, что любое состояние может быть получено из любого другого за конечное число шагов.) Как пока- зано на рис. 7а, для модели с четырьмя состояниями (М-4) каждая переходная вероятность а;; эргодической СММ должна быть строго положительна. Отсюда для примера на рис. 7а имеем: 211 а12 а13 а14 а21 а22 а23 а24 а31 а32 а33 а34 а41 а42 а43 а44 9*
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 97 Рис. 7. Пример трех различных типов СММ: (а) эргодическая модель с 4 состояниями; (Ь) лево-правая модель с 4 состоя- ниями; (с) лево-правая модель с 6 состояниями и параллель- ным путем. В некоторых приложениях (в частности, в тех, кото- рые рассматриваются ниже) оказывается, что наблю- даемым свойствам моделируемого сигнала лучше соот- ветствуют другие типы СММ. Одна из подобных моде- лей показана на рис. 7Ь; это — так называемая лево-правая модель, или модель БакисаПО, Непосле- довательность состояний которой обладает тем свойст- вом, что с увеличением времени индекс состояния так- же увеличивается (или остается неизменным); иными словами, состояния переходят из одного в другое слева направо. Вполне очевидно, что этот тип СММ подхо- дит для моделирования таких сигналов, свойства кото- рых изменяются во времени, например речевых сигна- лов. Поскольку в этом случае не разрешены переходы в состояния, индекс которых меньше индекса текуще- го состояния, основное свойство всех лево-правых СММ выражается через значения переходных вероят- ностей следующим образом: а(/ = 0, j < /, (45) Кроме того, поскольку последовательность состояний должна начинаться в состоянии 1 (а заканчиваться в состоянии N), начальное распределение вероятностей состояний обладает свойством f0, i * 1; т, = (46) 11, / = 1. Для того чтобы избежать значительных скачков в ин- дексах состояний при использовании лево-правых моделей на переходные вероятности, как правило, на- лагаются дополнительные ограничения. Например, часто используется ограничение вида: а;/ = 0, / > i + Д. (47) В частности, для модели, представленной на рис. 7Ь, значение Д равно 2, т. е. не разрешены пере- ходы более чем через одно состояние. Таким образом, матрица переходных вероятностей для примера на рис. 7Ь имеет вид аН а12 а13 0 0 Э-22 Зоз 024 I А = ‘ О 0 а33 ам _0 О 0 а« Вполне очевидно, чго переходные вероятности для по- следнего состояния лево-правой модели определяются следующим образом: aNX = 1, (48а) а„, = 0, / < N. (48b) Хотя мы и разделили множество СММ на эргодиче- ские модели и модели типа «слева-направо», существу- ет много допустимых вариаций и комбинаций. На- пример, на рис. 7с показана модель, состоящая из пары параллельных перекрестно-связанных лево-пра- вых моделей. Строго говоря, это тоже лево-правая модель, так как она удовлетворяет всем ограничени- ям, налагаемым на переходные вероятности ац. Одна- ко можно показать, что она обладает определенной гибкостью, отсутствующей у стандартной лево-правой модели (т. е. у модели без параллельных путей). Поскольку любые параметры СММ, первоначально равные нулю, будут сохранять свои нулевые значения и при использовании процедуры переоценки [см. (44)], то, очевидно, наложение ограничений, соответ- ствующих лево-правым моделям или моделям с огра- ниченными переходами, по сути дела никак не влияет на эту процедуру. А. СММ с непрерывной плотностью наблюдений [24—26] До сих пор рассматривался случай, когда наблю- дения можно было считать дискретными символами, выбираемыми из конечного алфавита, а задание теку- щих значений этих символов выполнялось с помощью дискретных функций плотности вероятности. Проб- лема, возникающая при таком подходе, заключается в том, что в некоторых задачах наблюдения являются непрерывными сигналами (или векторами). Хотя та- кие непрерывные сигналы можно квантовать с по- мощью кодовых книг ит. п., подобное квантование мо- жет иногда приводить к серьезным искажениям исход- ного сигнала. Поэтому было бы целесообразно иметь возможность использовать СММ с непрерывными плот- ностями наблюдений. Для обеспечения этой возможности на вид модели следует наложить ряд дополнительных ограничений, с тем чтобы гарантировать состоятельность процедуры повторного оценивания функции плотности вероят- ности. Наиболее общим представлением этой функции, для которого сформулирована процедура повторного
98 ТИИЭР, т. 77, № 2, февраль 1989 оценивания [24—26], является конечная смесь вида Ь,(О) = „S c/m0l[O, ц/т, и/т], 1 < j < N, (49) где О—моделируемый вектор наблюдений, cjm — весовой коэффициент m-й компоненты в состоянии j и Ж — произвольная логарифмически-вогнутая или эллиптически-симметричная плотность вероятности [24] (например, гауссовская) с вектором средних зна- чений и ковариационной матрицей Ujm для т- составляющей в состоянии j'. Как правило,в качестве 3% используется гауссовская плотность. Коэффициен- ты cjm удовлетворяют стохастическим ограничениям м S фт — 1, т = 1 ' С/m — О, 1 < / < N, (50а) 1</<N, 1<т<М, (50b) поэтому функция плотности вероятности оказывается надлежащим образом пронормированной, т. е_. выпол- няется условие b^x) dx = 1, (51) Плотности вида (49) часто используются на практике, поскольку позволяют с любой точностью аппроксими- ровать произвольную непрерывную функцию плотно- сти вероятности, содержащую конечное число компо- нент. Показано [24—26], что формулы повторного оцени- вания для коэффициентов и Ujk, составляющих плотности (49), имеют вид: Т 2 7г(/, к) ----------- (52) S S 7((/, к) r = i т S 7г(/, к) О, , (53) S 7((/, М т _ s 7,(/, к) • (О, - n/t)(O, - ц/к)' И,к = —-------------~Т-----------------, (54) S 7<(ц к) t-i где штрих означает транспонирование вектора, а yt(j, к) — вероятность того, что (при заданной после- довательности наблюдений) в момент времени t мо- дель находится в состоянии /, причем наблюдаемый в этот момент вектор Ot порожден k-й компонентой сме- шанной плотности, т. е. 7;(Л к) = c,tM(O„ U/k) м т = 1 [Заметим, что у( (/, k) является обобщением величины Yt (/), определяемой выражением (26), которая соот- ветствовала случаю одной компоненты и дискретной плотности.] Для atj формула повторного оценивания имеет тот же внд, что и в случае дискретных плотнос- тей наблюдений [т. е. внд (40b)]. Интерпретация фор- мул (52)—(54) весьма проста. Формула повторного оценивания для Cjk — это отношение ожидаемого числа раз, когда модель находится в состоянии / и использу- ет k-to компоненту плотности для порождения симво- лов наблюдения, к ожидаемому числу раз пребывания модели в состоянии j. Аналогично в формуле пере- оценки для вектора средних значений м-у* каждый член числителя в выражении (53) умножается на вектор со- ответствующего ему наблюдения, в результате чего вычисляется ожидание той части вектора наблюдений, которая порождена fe-й компонентой функции плотно- сти. Такую же интерпретацию можно дать и для фор- мулы переоценки элементов ковариационной матрицы В. Авторегрессионные СММ [27, 28] Помимо СММ с непрерывной плотностью распреде- ления наблюдений, которые пригодны для решения широкого круга задач, существует еще один очень ин- тересный класс моделей, которые, в частности, при- менимы для обработки речевых сигналов, а именно авторегрессионные СММ [27, 28]. В этом" случае век- торы наблюдений порождаются процессом авторег- рессии . Более конкретно, рассмотрим вектор наблюдений О с компонентами (х0, *1, х2, ..., xs_i). Так как этот вектор имеет гауссовскую авторегрессионную (напри- мер, порядка р) функцию плотности вероятности, то компоненты вектора О связаны соотношением р Ок = - S a,Ot_; + ек, (55) I -1 где ек, k—Q, 1, ..., К—1 — гауссовские, независимые, одинаково распределенные случайные величины с ну- левыми средними значением и дисперсией о2, a at=\, 2, .... р — коэффициенты авторегрессии (или предска- зания). Можно показать, что при больших значениях К плотность вероятности для О может быть прибли- женно описана выражением ( 1 Г(О) = (.2Ъ02ГК'2 ехр -^5(0, а) (56) где р 6(0, а) = га(0) г<0) + 2 S га(/) г(/), (57а) / = 1 а' = [1, а„ а2, • , ар], (57b) p-i га(/) = S anan + , (a0 = 1), 1 < i < p, (57c) n 0 К - i - 1 r(i) = S x„xn + i, 0 < i < p. (57d) n - 0 В приведенных выражениях переменная r(i), как не- трудно видеть, представляет собой автокорреляцию компонент вектора наблюдений, a ra(i)— автокорре- ляцию коэффициентов авторегрессии.
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 99 Полная (на сегменте) ошибка предсказания а может быть записана следующим образом: а = Е| S (е,)2^ = Ка2 (58) где оа—дисперсия, приходящаяся на один отсчет сигнала ошибки. Рассмотрим нормализованный век- тор наблюдений каждая компонента х; которого поделена на V т. е. нормирована таким образом, что ее дисперсия равна 1. Тогда f(O) можно записать в виде f(O) = fy) exp 5(0, а)). (60) На практике множитель К (перед экспонентой в (60)) обычно заменяют так называемой эффективной длиной сегмента К, которая характеризует эффективную дли- ну каждого вектора данных. Таким образом, если по- следовательные векторы (или блоки) данных перекры- ваются в отношении 3 : 1 (т. е. на 2/3), то в (60) следу- ет использовать К=К13, для того чтобы вес вклада каждого отсчета сигнала в результирующую плотность учитывался точно один раз. Способ, которым в СММ используется авторегрессия с гауссовской плотностью распределения для компо- нент, довольно прост. Предполагается, что плотность распределения наблюдений представляет собой сумму вида Ь,(О) = Д c/mb/m(O), (61) где каждый член bim(O) — это плотность, определяе- мая выражением (60), с вектором коэффициентов авто- регрессии ajm или, что эквивалентно, с автокорреля- ционным вектором rajm, т. е. b/m(O) = ( К ) ехр -- 5(0, а ,„)!. (62) В этом случае формула переоценки (57d) для последо- вательности автокорреляций r(i) /-го состояния и k-й компоненты имеет вид S 7,(/, к) г, rik = —, (63а) S 7((/, к) Г= 1 где Yt (/> k) определяется как вероятность того, что модель, находясь в момент t в состоянии J, использует для генерации символа наблюдения компоненту k: 7.(b к) = «;(/) &(/) S «;(/) 3,(/) I- ' c/fcb/fc(Of) м S cAb/k(O() (63b) Можно показать, что rjk является взвешенной (с по- Рис. 8. Примеры сетей, в которых используются пустые пере- ходы: (а) лево-правая модель; (Ь) сеть с конечным числом состояний; (с) грамматическая сеть. мощью вероятностей появления) суммой нормирован- ных автокорреляций сегментов последовательности наблюдений. Зная rJfe, можно, решив систему обыч- ных уравнений, получить соответствующий вектор коэффициентов ajft авторегрессии для /г-й компоненты и состояния /. Наконец, завершая цикл переоценива- ния, можно на основании авторегрессионных коэф- фициентов вычислить новые автокорреляционные век- торы. С. Варианты структуры СММ: Нулевые переходы и связанные состояния До сих пор рассматривались СММ, в которых на- блюдения были связаны с состояниями модели. Та- ким же образом можно рассмотреть случай, когда на- блюдения соответствуют переходам из одного состоя- ния в другое, т. е. дугам модели. Именно этот тип СММ использовался в распознавателе слитной речи фирмы IBM (131. В этом случае оказалось очень по- лезным разрешить переходы, которые вообще не со- провождаются наблюдениями, т. е. скачки из одного состояния в другое происходят без генерации наблю- даемого сигнала [13]. Подобные переходы называются пустыми (или нулевыми) и обозначаются штриховы- ми линиями с символом ф, который используется для того, чтобы обозначить отсутствие наблюдения. На рис. 8 приведены три примера, взятые из обла- сти обработки речевых сигналов, которые демонстри- руют успешное использование пустых переходов. Пример на рис. 8а соответствует лево-правой СММ с большим числом состояний, в которой можно опус- кать переходы между любыми парами состояний, что обеспечивает порождение последовательности наблю- дений, состоящей из одного наблюдения, а также по- зволяет рассматривать путь, начинающийся в состоя- нии 1 и заканчивающийся в состоянии N. На рис. 8Ь показано представление слова с по- мощью моделей лингвистических единиц, объединен- ных в сеть с конечным числом состояний (т. е. звуки, которые порождаются при прохождении дуг, описы- ваются СММ). Для подобной модели пустой переход дает эффективный и компактный способ представле-
100 ТИИЭР, т. 77, № 2, февраль 1989 ния различных вариантов произнесения слова (на- пример, при пропуске звуков). Наконец, сеть с конечным числом состояний, изо- браженная на рис. 8с, представляет пример того, ка- ким образом использование пустого перехода дает возможность порождать сколь угодно длинные после- довательности слов (цифр) с помощью относительно простой по структуре сети. В этом примере пустой переход позволяет генерировать произвольные после- довательности цифр какой угодно длины, просто воз- вращая модель после генерации очередной цифры в исходное состояние. К другой интересной вариации структуры СММ приводит использование концепции связывания пара- метров [131. Основная идея заключается в том, чтобы установить отношение эквивалентности между пара- метрами СММ в разных состояниях. Таким способом сокращается число независимых параметров СММ и упрощается процедура оценивания их значений. Свя- зывание параметров применяется в тех случаях, когда, например, известно, что два или более состояний имеют одинаковую плотность наблюдений. Такая ситуация часто возникает при описании речевых звуков. Осо- бенно удобен подобный подход, когда количество обу- чающих данных недостаточно для того, чтобы надежно оценить большое количество параметров модели. В та- ких случаях выгодно связать параметры модели, с тем чтобы сократить их число (т. е. понизить размерность модели) и, следовательно, упростить процедуру оце- нивания. Этот метод будет рассмотрен несколько позже. D. СММ с явно заданной функцией плотности длительности состояний s) Возможно, основной недостаток обычных СММ обусловлен используемым в них способом моделиро- вания длительности состояний. Ранее было показано [см. (5)], что плотность вероятности рt (d) пребывания в состоянии St, с переходной вероятностью ац имеет вид: р,(оГ) = - а..,) = = вероятность d последовательных наблюдений в состоянии S,. (64) Однако для большинства физических сигналов эта экспоненциальная плотность вероятности для дли- тельности пребывания в состоянии является неприем- лемой. Вместо этого длительность состояния предпо- читают моделировать явно, в том или ином аналити- ческом виде. Рисунок 9 иллюстрирует (для одной из пар состояний модели St и Sj различия между СММ, с явно и неявно заданными функциями плотности дли- тельности состояния. На рнс. 9а эти состояния имеют экспоненциальные плотности длительности вида (64), полученные соответственно по переходным вероят- ностям ац и ац. На рис. 9Ь коэффициенты таких веро- ятностей «перехода в себя» установлены равными 0 S) В тех случаях, когда используется модель Баклса, т. е. лево-правая модель с числом состояний, пропорциональным средней длительности последовательности наблюдений, явное задание функции плотности пребывания в состоянии не яв- ляется ни необходимым, ни целесообразным. Рис. 9. Иллюстрация связей внутри состояний: (а) обычная СММ с экспоненциальной плотностью вероятности длитель- ности состояний; (Ь) СММ с явным образом заданной плот- ностью длительности состояний, не допускающей переходов <на себя», т. е. из любого состояния обратно в то же состояние. и заданы явные функции плотности длительности со- стояний ”. В этом случае переход из некоторого со- стояния осуществляется только после того, как будет порождено столько наблюдений, сколько их было оп- ределено в соответствии с функцией плотности дли- тельности этого состояния. В соответствии с. простой моделью, представленной на рис. 9Ь, последовательность наблюдений (событий), порождаемая СММх явно заданной плотностью дли- тельности состояний, строится следующим образом. 1) Первое состояние </1=Si выбирается в соответ- ствии с начальным распределением 2) В соответствии с функцией плотности длитель- ности состояния p01(di) выбирается длитель- ность d,. (для удобства и простоты описания мак- симальное значение длительности ограничивает- ся некоторым значением D). 3) В соответствии с плотностью совместных наблю- дений bq, (OiO2. . .Од,) выбираются наблюдения ОхО2- -Од,. При этом обычно полагается, что наблюдения независимы, т.е. Ь?1(0102. . Од,)=П[ (0(). 4) Следующее состояние q2 выбирается в соответ- ствии с переходными вероятностями при наложенном условии, что а?1?,= 0, т. е. не до- пускается возврат снова в то же состояние. (Это требование совершенно очевидно, так как мы полагаем, что в состоянии gj появляется ровно d, наблюдений.) Небольшое размышление должно убедить читателя в том, что СММ с явно заданной плотностью длитель- ности состояний можно сделать эквивалентной обыч- ной СММ, если положить pt (d) равной экспоненциаль- ной плотности вероятности вида (64). Для того чтобы для описанной модели можно было использовать найденные методы переоценки парамет- ров и вычисления Р(О|Х), в формулы, приведенныев разд. III, следует внести некоторые изменения. В ча- 51 Снова отметим, что идея использования функций плот- ности вероятности пребывания в состоянии принадлежит Джеку Фергюсону (IDA). Большая часть материала данного раздела основана на оригинальной работе Фергюсона.
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 101 стности, мы полагаем, что первое состояние начинает- ся в момент t— 1, а последнее состояние заканчивается в момент t—T, т. е. интервалы длительности состояний полностью включены в последовательность наблюде- ний. Поэтому прямая переменная аг(г) определяется как о/((/) = Р(О, О2 * * О„ S, заканчивается в момент t|X). (65) При этом также полагается, что за время t первых на- блюдений было в сумме пройдено г состояний qlt qa, qa, ..., qr с длительностями, равными соответственно di, d2, d3, ..., dr. Таким образом, ограничения для прямой переменной (65) будут иметь вид q, = S,, (66а) Z d5 = t. (66b) $ = 1 Выражение (65) можно теперь записать в виде а,(/) = S S тгъ р (ob,) • Р(О, О2 • ' ' Od\qJ- я d ^Я'.я-.Ря/^2^ ^*(^<6 + 1 ' ’ ’ Ос/, + a.Ip?) 3Я,'.Я>Ря^г1 P^dt+d2+- +с/,„,+1 ’ ' ’ О(|рг), (67) где суммирование ведется повеем состояниям q и всем возможным длительностям состояний d. По индукции а( (/) можно записать в виде а,(/) = S S а, _</(/) S'lPAd) П b,(Os), (68) i = 1 d = 1 s = t-d+1 где D — максимальная длительность пребывания в любом состоянии. Для инициализации вычисления а( (i) используют соотношения «,(/) = т,р,(1) • 5,(0,), <69а> 2 а2(/) = тг,р,(2) П Ь,(О.) + S «,(/) az,p,(1) b,(O2), (69b) 5=1 /=1 /*' 3 2 N a3(i) = ir,p,(3) П b,(O5) + S S a3_d(/) a.7p;(d)- s = 1 d = 1 j= 1 ' /*' П b,(Os) (69с) 5 =4 - d и т. д. до тех пор, пока не будет вычислено a.D(i). За- тем для вычисления аг (i) при всех t>D можно ис- пользовать соотношение (68). Вполне очевидно, что при заданной модели Z вероятность последовательно- сти наблюдений О может быть записана с помощью прямых переменных в следующей форме: Р(О|Х) = S aT(i). (70) / = 1 Для того чтобы получить формулы переоценки па- раметров СММ с явно заданной плотностью длитель- ности состояний, необходимо определить еще три пере- менные прямого и обратного типа, а именно: «*(/) = Р(О, О2 • • О„ S, начинается в момент t + 1 |Х), 0,(0 = Р(О,+1 • • OT|S, (71) заканчивается в момент t, X), (72) &*(/) = Р(О, + 1 • • • OT|S, начинается в момент t + 1, X). (73‘ Переменные а, а*, р и р* связаны между собой соот- ношениями “’(/) = «|(')а,,, i = 1 а,(/) = Е аГ-й(/) p,(d) П Ь,(О5), d = 1 s-(-c/ + 1 0,(0 = Е а,у/3,‘(/), /-1 0,*(/) = S 0t+d(/) P,(d) п b,(Os). Формулы переоценки, полученные с помощью определений, имеют следующий вид: _ _ 7Г,/Зр (/) ~ Р(О|Х)’ S а,(/‘) а(//3,*(/) а>/ ~ ~N Т ’ S S a,a) а,д*()) S [ S «.*(/) • £*(/) - S a,(/) /з,(/) t=i Lr< f T<t — , S.t. Ot = k 7 s s k = 1-------f=1 s.t. Ot = vk (75, (76) (77) ЭТИХ (78) (79) (80) T t + d S a*(i) p,ld) |3, + d(i) П b,(Os) /=1__________________ s-t + 1___._______ (81) Pi(d) D 7 t + d E S «,*(/) p,(d)/31+d(/) П b,(Os) d = 1 t-1 s = l + 1 Формулам переоценки (78)—(81) можно дать следую- щую интерпретацию. Формула для л; определяет ве- роятность того, что при заданных наблюдениях О пер - вым состоянием модели было состояние i. Формула переоценки для ац означает почти то же, что и для обычной СММ, за исключением принятого в ней усло- вия, согласно которому прямые переменные, для кото- рых некоторое состояние заканчивается в момент t, должны объединиться с обратными переменными, для которых некоторое новое состояние начинается в мо- мент /+1. Формула для bj(k} (в предположении, что плотность дискретная) определяет ожидаемое число появлений символа наблюдения 0(=vfe в состоянии I, нормированное с помощью ожидаемого числа появ- ления любых символов в состоянии i. Наконец, фор- мула переоценки для р, (d) — это отношение ожидае- мого числа раз, когда состояние j имело длительность d, к общему числу появлений состояния / независимо от его длительности.
102 ТИИЭР, т. 77, № 2, февраль 1989 Целесообразность введения явного описания для плотностей длительностей состояний подтверждается тем, что для некоторых задач это значительно улучша- ет качество моделирования. Однако подобной модели присущи и свои недостатки, которые мы обсудим ниже. Одна из них — это значительный рост вычислительных затрат, обусловленный введением изменяющихся дли- тельностей состояний, что следует непосредственно из определения (68) и условий инициализации (69) для прямой переменной at(i), согласно которым объем требуемой памяти увеличивается примерно в D раз, а число необходимых вычислительных операций — примерно в О2/2 раз по сравнению с обычными СММ. Так, для значения D порядка 25 (что приемлемо для многих задач, связанных с обработкой речи) объем вычислений увеличивается примерно в 300 раз. Дру- гая проблема, связанная с моделями этого типа, со- стоит в том, что помимо обычных параметров СММ для них необходимо оценивать также большое (рав- ное D) число новых параметров, связанных с каждым состоянием. Кроме того, при фиксированном числе наблюдений Т обучающее множество модели с явно заданной плотностью длительности состояний содер- жит, в среднем, меньше переходов между состояниями и намного меньше данных для оценивания величин pf(d), чем это было бы в случае стандартной СММ. Одна из возможностей ослабить некоторые из этих проблеем — это вместо непараметрической плотно- сти, как это до сих пор делалось, использовать пара- метрическое задание плотностей длительностей со- стояний [29—30]. В частности, предлагалось исполь- зовать семейство гауссовских плотностей распределе- ния р,(с7) = 91(с/, a2) (82) с параметрами у.; и о2 или набор плотностей, описы- ваемых гамма-функцией Р.Ы = ’ (83) Г (и) с параметрами v; и з]г,средним значением и дис- персией v,V2. Были получены формулы переоценки для Hi и v(, использование которых привело к хоро- шим результатам [19]. Еще одна успешно исполь- зуемая возможность основана на принятии допущения о равномерном распределении длительностей состоя- ний (в приемлемом диапазоне) и применении процеду- ры декодирования Витерби для ограниченного пути [31]. Е. Критерии оптимальности: МП, МВИ, МРИ [32, 33] Целесообразность применения СММ обоснована тем, что при тщательном и правильном выборе их параметров они позволяют достаточно хорошо моде- лировать сигнал (или последовательность наблюде- ний). Однако в некоторых случаях их применение не дает желаемого результата, так как либо сигнал не удовлетворяет ограничениям СММ, либо процедура получения надежных оценок параметров СММ оказы- вается слишком сложной. Для решения подобных проблем вместо стандартной оптимизационной про- цедуры оценки по критерию максимального правдо- подобия предложено по меньшей мере еще две альтер- нативных процедуры оценивания параметров СММ. Первая такая процедура [32] основана на том, что для моделируемого сигнала должны быть одновремен- но построены несколько СМЛ1, причем таким образом,, чтобы максимизировать дискриминантную мощность каждой модели (т. е. ее способность отличать последо- вательность наблюдений, которая порождена этой моделью, от последовательностей, порожденных дру- гими моделями), и далее использовать для моделиро- ?'<• вания последовательности наблюдений модель, вы-.' С бранную по критерию оптимальности. Обозначим че- ’ рез Xv, V— 1, 2, ..., V, различные СММ. Стандартный критерий МП для выбора модели основан на использо- ' вании раздельных обучающих последовательностей ’ наблюдений О для оценки параметров каждой модели. Таким образом, стандартная МП-оптимизация дает: Р* = max Р(О“|Хр). . (84) Альтернативный критерий построения СММ — это критерий на основе максимальной взаимной информа- ции (МВИ) Шеннона [311. В этом случае максймизи- руется средняя взаимная информация / между после- довательностью наблюдений О и полным множеством моделей X=(Xj, Хг, .... Xv). Один из возможных спо- собов сделать это заключается в том, чтобы вычислить 1 следующим способом 101: !* = max [log Р(О’|Х,) - log S P(O'|XjL (85) XL «"1 J т. e. выбрать набор моделей X так, чтобы на обучающей последовательности О максимально отделить правиль- ную модель /.v от всех остальных моделей. Суммируя (85) по всем обучающим последовательностям, можно надеяться получить наиболее разделенное (в описан- ном выше смысле) множество моделей. Таким образом, одна из возможных форм данного критерия имеет вид < v г v л /* = max S log Р(СГ|Х,) - log S P(O’|XJ [. (86) x = 1 L w-i ) По ряду теоретических причин получить аналитиче- ские (или типа переоценки) решения для (86) не удает- ся. Поэтому единственный известный способ практи- ческого решения (86) состоит в использовании уни- версальных оптимизационных процедур типа метода наискорейшего спуска [32]. Второй альтернативный подход основан на приня- тии допущения о том, что моделируемый сигнал не обязательно порождается марковским источником, но удовлетворяет определенным ограничениям- (на- пример, имеет положительно определенную корреля- ционную функцию) [33]. Следовательно, цель про- цедуры построения модели состоит в этом случае в том, чтобы выбрать такие параметры СММ, которые минимизируют разделяющую информацию (РИ), или взаимную энтропию, между множеством реальных (т. е. полученных с помощью измерений) плотностей вероятностей сигналов (обозначим это множество че- рез Q) и множеством плотностей вероятностей СММ 10) Выражения (85) и (86) основаны на допущении равнове- роятности всех слов, т. е. иа том, что p(w)=l/V. 10 ТИИЭР Л'« 2
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 103 (обозначим его черезВ общем случае информация, разделяющая Q и ££, определяется выражением - 2- С • " 'D(Q||PX) = j q(y) In (q(y)/p(y)) dy, (87) . • где cf и p — функции плотности вероятностей, соответ- бтвующие Q и Рк. Методы минимизации величины (87) 1 дЛя вычисления оценок оптимальных значений пара- метров^модели Х=(А, В, л) (которые соответствуют минимуму^информации, разделяющей Q и Р>.) весьма t г' нетривиальны. В то же время эти методы эффективно ^приспосбблены для моделирования с помощью СММ, так. Как на каждой итерации основными являются вы- . числения, соответствующие обобщенному алгоритму Баума. [311. Было показано, что все подходы, основанные на критериях максимального правдоподобия (МП), мак- симума взаимной информации (МВИ).и минимума раз- деляющей информации (МРИ), можно рассматривать как реализации различных вариантов подхода на ос- нове минимума разделяющей информации (или мини- мума взаймиой энтропии) 111. Различаются они либо плотностями вероятностей, которые соответствуют моделируемому источнику, либо типом той модели, которая в рамках принятого критерия обладает мак- симальной эффективностью. Заметим, однако, что ни в одном из этих подходов не предполагается, что рас- пределения вероятностей для источника и модели сов- падают. Полагая (произвольно) р=0.6, q—0.7, г=0.2, получа ем s=13/30«0.433. Следовательно, даже в том случае когда эти две модели Хх и Х2 внешне выглядят совер- шенно различными (т. е. Ах сильно отличается от Д2, а Вх от В2), статистически они могут быть эквивалент- ными . Концепцию расстояния между моделями (или не- подобия моделей)можно конкретизировать, определив расстояние D (Хх, Х2) между двумя марковскими моде- лями Xj и Х2 как •1 D(X,, Х2) = - [log PfO®^,) - log P(O®|X2)], (88) где О=О1О2О3...ОГ — последовательность наблюде- ний, порожденных моделью Х2 [34]. По сути дела рас- стояние (88) является мерой того, насколько хорошо модель X. согласуется с наблюдениями, порожденными моделью Х2 в сравнении с тем, насколько хорошо мо- дель Х2 согласуется с наблюдениями, порожденными ею самой. Существуют различные интерпретации меры (88) в терминах взаимной энтропии, дивергенции и разделяющей информации [34]. Неудобством меры (88) является то, что она несим- метрична. Естественным симметричным вариантом этой меры является мера п х \ О(ХхХ2) + D(X2, X,) L/S(A-], Л?) — (89) 2 F. Сравнение скрытых марковских моделей [34] Весьма интересным представляется следующий во- прос, связанный со скрытыми марковскими моделями. Пусть заданы две модели X, и Х2. Тогда, каким образом можно задать приемлемую меру подобия этих моделей? Основным моментом является здесь выбор критерия подобия. В связи с этим рассмотрим, например, слу- чай двух моделей X, = (Av В„ тг-i) X2 = (A2, B2, ir2), где JtST-Q P 1 - P 1 - P P = [1/2 9 1 - q 1 - <7 <7 1/2] A2 L1 - r r B2 Li - , ir2 = [1/2 1/2]. Для того чтобы модель Хх была эквивалентна модели Х2 в том смысле, что обе они имели бы одинаковые ста- тистические свойства для символов наблюдения, т. е. чтобы для всех vk имело место £[O(=vft |k1]=£[O( = =11)11X2], необходимо потребовать, чтобы pq + О - р)(1 - <?) = rs + (1 - г)(1 - s), или, решая это уравнение относительно s, чтобы . <. = р + ч -ipq 1 — 2г u> Ephraim Y., Rabiner L. «On the relation between mode- ling approaches for speech recognition», принята в Trasactions on Information Theory. V. ВОПРОСЫ ПРИМЕНЕНИЯ СММ Материал двух предыдущих разделов был в основ- ном посвящен вопросам СММ и обсуждению некото- рых возможных вариантов подобных моделей. В этом разделе будет рассмотрен ряд вопросов, связанных с практическим применением СММ, включая масштаби- рование данных, множественные последовательности наблюдений, начальные оценки параметров, пропуски данных и выбор типа и размера модели. Для некоторых из этих вопросов можно дать точные аналитические решения, остальные же решаются только на основе опыта, накопленного в процессе работы с СММ в тече- ние нескольких последних лет. А. Масштабирование [14] Для того чтобы понять, почему для выполнения процедуры переоценки скрытых марковских моделей требуется масштабирование, рассмотрим определение (18) для прямой переменной Нетрудно видеть, что а( (i) представляет собой сумму некоторого боль- шого числа членов вида (Д Ь„(О5)), где qt = St. Поскольку члены а и b меньше (как прави- ло, существенно меньше) единицы, то с ростом t (на- пример, при 7^10) каждый член в a((i) начинает экс- поненциально стремиться к нулю. При достаточно A в 1 - г s s 1 - s s
104 ТИИЭР, т. 77, № 2, февраль 1989 больших t (^100) динамический диапазон вычисляем а( (i) будет существенно превышать диапазон точности любой вычислительной машины (даже при удвоенной точности). Следовательно, единственно приемлемый путь выполнить эти вычисления — использовать про- цедуру масштабирования. В качестве основной процедуры масштабирования используется умножение значений а( (i) на масштаб- ный множитель, который не зависит от i (т. е. он зави- сит только от /), с тем чтобы сохранить масштабиро- ванные значения a((i) в пределах разрядной сетки ис- пользуемой ЭВМ для всех моментов времени 1 . Аналогичная процедура масштабирования выполняет- ся для коэффициентов р( (i) (так как они также экспо- ненциально стремятся к нулю), а затем в конце вы- числений масштабные множители полностью сокра- щаются. Для лучшего понимания процедуры масштабиро- вания рассмотрим формулу переоценки для переход- ных вероятностей atj. Записывая формулу переоценки (41) непосредственно через прямую и обратные пере- менные, получаем Т-1 S at(/) а;Д(О, + 1) а,; = -гЧ--------------------• (90) S, S a,(/) a^bytOr+i) ft + 1(/) Рассмотрим вычисление значений прямой переменной a((i). Для каждого t сначала, согласно формуле ин- дукции (20), вычисляем значение a((i), а затем умно- жаем его масштабный множитель с(, где 1 с( = ------• (91) S а,(/) ! = 1 Таким образом, для фиксированного t сначала вычис- ляем «,(/) = S й, _-,(/) а,,8,(0,). (92а) Затем вычисляются масштабированные коэффициенты a((i) N S &,_-,(/} а,,Ь,(О,) «,(/) = ----------------. (92b) S S &,-!(/) а,,Ь,(О,) ;=1/=1 По индукции записываем a(_j(/) как Таким образом, a,(t) можно записать в следующем виде: N \ S «,_,(/')[ П ст) а;,Ь,(О,) /=1 \т«1 / “<(') = ~ТГ~й ------------ S S а,_,(/')[ П ст) а„Ь,(О() I-1j=1 \т=1 / S a,(/) i = i , (93b) т. e. каждое значение a( (i) по существу масштабирует- ся суммой по всем состояниям a((i). Затем вычисляем члены ₽, (0 из обратной рекурсии. Единственное здесь отличие для элементов р от описан- ной выше процедуры для а состоит в использовании одного и того же масштабного множителя для всех моментов времени t. Поэтому масштабированные чле- ны Р будут иметь вид ft(') = С,0,(/). (94) Поскольку каждый масштабный множитель по суще- ству приближает значения членов а к единице и по- скольку значения аир сравнимы, то применение для Р тех же масштабных множителей, которые использо- вались для а,является эффективным способом сохра- нить результаты вычислений в приемлемых границах. Кроме того, введение масштабированных переменных приводит уравнение переоценки (90) к виду Т-1 _ Sa,(/)a,b/(o,#l)^1(/) а« = ---------------------- (95) S йд/) а,,Ь,(О,+1) $,+1(у) а величины a, (i) и р(+1 (/) можно записывать как “<(') = [ П cs] a,(z) = Cta,(i)r (96) ft+i(/) = [(=П i cs] /3, + 1(/) = D, + 1ft + 1(/). (97) Таким образом, (95) принимает вид Т-1 S С(ог((/) а/Д(Ог + 1) D( + 1|3t + i(/) аа = 7--1- N • (98) S S Ctaf(/) a^b^Oj + i) D( + -[/3f + i(/) Наконец, нетрудно видеть, что член CtDt + 1 преобра- зуется к виду t т т CtDt + . = П cs П с5 - П с5 = Ст, (99) $ = 1 S = t + 1 5=1 не зависящему от t. Следовательно, эти члены CtDt+i вычеркиваются как из числителя, так и знаменателя в (98), в результате чего реализуется точное уравнение переоценки. Вполне очевидно, что рассмотренная процедура масштабирования с равным успехом применима и для переоценки параметров л и В. Очевидно также, что процедуру масштабирования (92) следует применять не для всех моментов времени t, а лишь когда это необходимо (например, для устранения переполне- ния). Если в некоторый момент времени / масштабиро- вание не проводится, то масштабные множители Ct для этого момента времени устанавливаются равными единице, и поэтому все рассмотренные выше условия выполняются. Процедура маштабирования вносит только един- ственное реальное изменение в процесс реализации СММ, а именно в процедуру вычисления Р (0|Х). Мы не можем просто суммировать члены ar(i), так как они уже промасштабированы. Однако можно использовать то свойство, что ю*
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 105 т п Г = 1 N с( S аД/) N = Ст £ аД/) = 1. <-1 (100) Поэтому имеем т II с, Р(О|Х) = 1, (101) или Р(О|Х) - 1 ~ т > п с, t»i (102) или log [Р(О|Х)] = - S log С,. (103) Следовательно, может вычисляться логарифм от Р, а не само значение Р, поскольку оно выходит за пре- делы диапазона представления существующих вы- числительных машин. Наконец, отметим, что при использовании алго- ритма Витерби, с помощью которого определяется наи- более вероятная последовательность состояний, ника- кого масштабирования не требуется, если логарифмы использовать следующим образом [отсылаем к (32)— (34)]. Определим ф,(/) = max {log Ptq, q2 • • • qt, О, O2 • • O(lX]} q,.92. (104) с начальным значением ф-td) = log (тг,) + log [Ь,(О,)], (105a) с рекурсивным шагом <M/) = max [^.Д/) + log a,.] + log [b (Ot)] (105b) 1 < I S N и с заключительным шагом log P* = max [0Д/)]. (105c) 1 < i s N Снова получаем log/3*, а не P*, но с существенно меньшими вычислительными затратами и без каких- либо численных проблем. Читатель должен заметить, что члены вида log atj в (105b) могут быть вычислены заранее, и поэтому их можно не учитывать при опре- делении вычислительных затрат. Кроме того, члены вида loglby (О()1 также могут быть вычислены заранее при анализе конечного множества символов наблюде- ний (например, кодовой книги последовательностей наблюдений). В. Множественные последовательности наблюдений [14] В разд. IV обсуждалась одна из форм скрытой мар- ковской модели, получившая название лево-правой модели, или модели Бакиса, в которой последователь- ным образом выполняются переходы из начального со- стояния 1 в момент времени t= 1 в состояние N в мо- мент времени t=T (см. модель, показанную на рис. 7Ь)._Там же обсуждались ограничения, которые лево-правая модель налагает на матрицу переходов между состояниями и на вероятности начальных со- стояний (45)—(48). Однако основным недостатком по- добных моделей является то, что для их обучения (т.е. для переоценки параметров модели) одной после- довательности наблюдений недостаточно, поскольку характер переходов между состояниями данной мо- дели позволяет осуществить лишь небольшое число наблюдений для любого состояния (пока не сделан переход к состоянию-преемнику). Следовательно, для того чтобы иметь достаточное количество данных, поз- воляющих производить надежную оценку всех пара- метров модели, необходимо использовать некоторое множество последовательностей наблюдений. Модификация процедуры переоценки выполняется следующим простым образом. Обозначим множество К последовательностей наблюдений как О = [О(1), O12i, • • , Olk)], (106) где О U,=[O^,O^’...O(^] — fe-я последовательность на- блюдений. Предполагается, что эти последовательно- сти наблюдений не зависят друг от друга, а наша за- дача — подстроить параметры заданной модели А та- ким образом, чтобы максимизировать величину Р(О|Х) = П Р(О!Й|Х) = (107) к = 1 К = П Рк. (108) Так как используемые формулы переоценки базиру- ются на частотах появления различных событий, то для случая многих последовательностей наблюдений эти формулы модифицируются посредством включе ния для каждой последовательности ее собственной часто- ты появления. Таким образом, модифицированные формулы переоценки для atj и Ь, (О имеют вид К Г*-1 _ «)(') а^ЬДО^Д /3,\Д/) а-/ = --Нг- rt-"i-----------------, (Ю9) S - S a;(/)0h') k-1 Рк t = 1 X ^(/)/з{(/) к = 1 Г t = 1 ТГ/m S.l. Ot=V( ~ ~ K 1 Tk-i----------, (110) S - 2 “fWfr) k = 1 Pk t=1 где для лг переоценка не делается, так как Л1=1, Л|=0, г’у=1. Такое масштабирование (109)—(НО) является простым, поскольку каждая последовательность на- блюдений имеет свой собственный масштабный мно- житель. Основная идея состоит здесь в том, чтобы д"о суммирования устранить масштабный множитель из каждого члена. Это можно сделать, записывая уравне- ния переоценки через масштабированные перемен- ные, т. е. в виде К 1 Т1-1 S - S «{(/') а.фДСО^Д/) _ k = 1 рк t = 1 1 а,, =-----к К- -------------------. (111) S У S й,\/) #(/) k-i рк (=т
106 ТИИЭР, т. 77, № 2, февраль 1989 Таким образом, для каждой последовательности О(Л1 одинаковые масштабные множители будут появляться в каждом члене суммы по t по мере того, как они по- являются в члене Phr и поэтому будут полностью со- кращаться. Следовательно, использование масштаби- рованных значений ai} и ₽,•; дает в результате не- масштабированное значение ai}. Аналогичный резуль- тат получается и для члена С. Начальная оценка параметров СММ Согласно теории, уравнения переоценки должны давать значения параметров СММ, которые соответ- ствуют локальному максимуму функции правдоподо- бия. Поэтому основным здесь является вопрос, как выбирать начальные оценки параметров заданной мо- дели, для того чтобы локальный максимум оказался глобальным максимумом функции правдоподобия. Простого и ясного ответа на этот вопрос по сути дела нет. Опыт показывает, что либо случайные (под- верженные стохастичности и ограничениям ненулевых значений), либо однородные начальные оценки пара- метров л и А почти во всех случаях позволяют полу- чать вполне приемлемые повторные оценки для этих параметров. Что же касается параметра В, то опыт показывает, что хорошие начальные оценки являются полезными в случае дискретных символов и необхо- димы (когда рассматриваются .многократные смеси) в случае непрерывного распределения [351. Такие на- чальные оценки могут получаться различными спосо- бами, включая ручную сегментацию последователь- ностей наблюдений на состояния с усреднением числа наблюдений в состояниях, сегментацию наблюдений по методу максимального правдоподобия с усредне- нием, сегментацию с использованием Л-средних с клас- теризацией и т. п. Все подобные методы сегментации будут рассмотрены немного позже. D. Эффекты, связанные с недостаточным объемом обучающих данных [36] Еще одна проблема, связанная с методами пере- оценки параметров СММ, состоит в том, что последо- вательность наблюдений, используемая для обучения, неизбежно должна быть конечной. Таким образом, не- достаточное число появлений различных событий в мо- дели (например, появление символов в состояниях) не позволяет получить хорошие оценки параметров для этой модели. Одно из решений данной проблемы — увеличение размера обучающего множества наблюде- ний, однако это, как правило, трудно осуществимо. Второе возможное решение — уменьшение размера модели (т. е. числа состояний, количества символов в состоянии и т. п.). Хотя такое преобразование всегда возможно, часто конкретный тип модели выбирается на основе каких-либо физических соображений, и по- этому размер модели не может быть изменен. Третье возможное решение — интерполяция одного множест- ва оценок параметров по множеству оценок парамет- ров другой модели, для которой имеется достаточное количество обучающих данных [36]. Идея здесь состоит в том, чтобы одновременно строить как желаемую мо- Рис. 10. Пример представления процесса интерполяции при наличии пропусков с помощью диаграммы состояний. дель, так и модель меньшего размера, для которой существует достаточное количество обучающих дан- ных, позволяющее получать хорошие оценки парамет- ров, и затем интерполировать оценки параметров по этим двум моделям. Таким образом, если мы имеем оценки параметров для модели Х= (А, В, л), а также для модели уменьшенного размера Х'=(А', В', л'), то интерполированная модель Х= (А, В, я)получается как X = еХ + (1 - е)Х’, (112) где е—вес параметров полной модели, а (1—е) — вес параметров уменьшенной модели. Основным во- просом является определение оптимального значения величины е, которая представляет собой функцию, зависящую от количества обучающих данных (пред- полагается, что с увеличением количества обучающих данных значение t стремится к 1.0, а с их уменьшени- ем количества обучающих данных предполагаем, что значение е стремится к 0.0). Елинек и Мерсер (36], рассматривая вопрос определения оптимального зна- чения для t, показали, каким образом оценить опти- мальные значения е, используя алгоритм прямого- обратного хода, который интерпретирует модель (112) как расширенную ССМ, структура которой показана на рис.10. Для этой расширенной модели параметр е — это вероятность перехода из данного (нейтраль- ного) состояния s в модель X; аналогично (1—е) — это вероятность перехода из состояния s в модель X'. Между каждой из этих моделей X и X' и состоянием s существует пустой (нулевой) переход. Используя модель, показанную на рис. 9, значение е можно оце- нить по обучающим данным обычным образом. Основ- ным моментом является разделение обучающих данных Т на два непересекающихся множества: T=TiUT2. Сначала на базе обучающего множества Т, выполняет- ся обучение моделей X и X' [т. е. получение оценок па- раметров (А, В, л) и (А', В', л')].Затем на обучающем множестве Т2 вычисляется оценка е в предположении, что модели X н X' фиксированы. Модифицированная версия этой процедуры обучения, называемая методом интерполяции при наличии пропусков в данных, или методом разделенной интерполяции 136], повторяет рассмотренную выше процедуру посредством много- кратного разделения обучающего множества. Рас- смотрим, например, разбиение обучающего множества, при котором Тг составляет 90% от Т, а Т2— остав- шиеся 10%. Существует большое число способов, с по- мощью которых можно выполнить такое разбиение, но один особенно простой способ состоит в том, чтобы
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 107 циклически повторять заполнение множества Тг, проходя по всему заданному множеству данных, т. е. при первом разбиении в качестве множества Тг исполь- зуются последние 10% этого множества данных, при втором — предпоследние 10% и т. д. Метод разделенной интерполяции успешно при- меняется при решении ряда задач распознавания речи, включая оценку вероятностей триграмм (соче- таний из трех слов) для моделей языка 1131 и оценку вероятностей выходов СММ для триграммных моделей фонем 137, 381. Другой способ борьбы с эффектами из-за недоста- точного объема обучающих данных состоит в положе- нии на параметры модели дополнительных ограниче- ний, с тем чтобы гарантировать, что никакая оценка параметров модели не окажется ниже заданного уров- ня. Так, например, для модели с дискретными симво- лами можно задать ограничение вида Ь,(к) > 6, (113а) а для модели с непрерывным распределением — огра- ничение вида Ulk(r, г) > 6. (113b) Данные ограничения могут использоваться в качестве постпроцессора к уравнениям переоценки, так что если некоторое ограничение нарушается, соответст- вующий параметр корректируется вручную, а все остальные параметры повторно масштабируются таким образом, чтобы плотности удовлетворяли требуемым вероятностным ограничениям. Подобные постпроцес- сорные методы с успехом применяются при решении некоторых задач обработки речи. Из (112) можно ви- деть, что эта процедура ио существу является 'экви- валентом простой формы разделенной итерации, при которой модель X' — это модель с равномерным рас- пределением, а величина интерполяции t выбирается как фиксированная константа (1—б). Е. Выбор модели Вопросы, которые еще остались незатронутыми при рассмотрении СММ, касаются выбора типа модели (эргодическая, лево-правая или некоторый другой тип), выбора размера модели (числа состояний) и вы- бора символов наблюдений (дискретные или непрерыв- ные, состоящие из одной или нескольких компонент), выбора параметров наблюдений. К сожалению, не су- ществует простого и теоретически корректного мето- да, позволяющего решать эти вопросы, поэтому их решение должно осуществляться независимо от моде- лируемого сигнала. Этими замечаниями мы и закан- чиваем обсуждение теоретических аспектов СММ и переходим к рассмотрению вопросов, связанных с применением этих моделей в конкретных задачах распознавания речи. VI. РЕАЛИЗАЦИЯ РАСПОЗНАВАТЕЛЕЙ РЕЧИ, ОСНОВАННЫХ НА СКРЫТЫХ МАРКОВСКИХ МОДЕЛЯХ В данном и последующем разделах статьи показано, как результаты теории скрытых марковских моделей, подроб- но рассмотренные в пяти ее предыдущих разделах, приме- няются к конкретным задачам распознавания речи. Однако теперь мы не будем стремиться к той же последовательнос- ти или полноте, которыми руководствовались при рас- смотрении теории этих моделей, поэтому читатели, заинтересовавшиеся данными вопросами, отсылаются к работам[6,10,12,13,39 — 46], где даны более полные опи- сания отдельных систем. Наша же главная цель — показать применение конкретных результатов теории скрытых мар- ковских цепей, не пытаясь сделать читателя специалистом по реализации методов распознавания речи. А. Общая структура системы распознавания На рис. 11 показана блок-схема распознавателя слитной речи, реализованного на основе методов распознавания образов. Обработка сигнала включает следующие основные этапы. « 1) Анализ признаков. Спектральный и/или временной анализ речевого сигнала выполняется для того, чтобы по- лучить векторы наблюдений, которые могут использо- ваться для обучения СММ, характеризующих различные звуки речи. Подробное обсуждение одного из методов ана- лиза признаков будет дано ниже. 2) Система согласования единиц. Сначала должна быть выбрана единица распознавания речи. Для этой цели можно использовать различные лингвистические единицы, размер которых меньше слова, такие как фонема (или фоне- моподобные единицы), дифоны, полуслоги и слоги [38], а также производные единицы, такие как фенемы, феноны и акустические единицы [13]. В качестве единиц распознава- ния можно также использовать целые слова и даже группы из двух и более слов (например and an, in the, of а, и т. п.). Чем эти единицы проще (например, фонемы), тем, как пра- вило, меньше таких единиц существует в языке, но более ус- ложнены (вариабельны) их структуры в слитной речи. Для распознавания больших словарей (порядка 1000 и более слов) использование речевых единиц меньше слова являет- ся почти обязательным, поскольку достаточно трудно по- Рис. 11. Блок-схема распознавателя непрерывной речи.
108 ТИИЭР, t. 77, № 2, февраль 1989 строить адекватное обучающее множество для СММ, моделирующих единицы размером, равным слову или больше Однако в некоторых частных случаях (например, малый словарь и задача с ограничениями) целесообразно и вполне практично рассматривать слово в качестве базис- ной единицы речи. Ниже мы будем обсуждать только такие системы. Независимость единиц, выбранных для распоз- навания, и каталог таких единиц должны быть получены через обучение. Каждая подобная единица обычно характе- ризуется некоторым типом СММ, оценка параметров ко- торой осуществляется по обучающему множеству речевых данных. Система согласования единиц обеспечивает полу- чение оценок правдоподобия всех последовательностей единиц распознавания для неизвестной входной речи. Ме- тоды, дающие такие оценки правдоподобия согласования и, в частности, наилучшего согласования (при условии лек- сических и синтаксических ограничений в системе), включа- ют в себя процедуру стекового декодирования [7], различные формы синхронного декодирования сегментов речи [37] и процедуру маркировки лексического доступа [46]. 3) Лексическое декодирование Этот процесс устанавли- вает также ограничения в системе согласования единиц, чтобы исследуемые пути соответствовали последователь- ностям речевых единиц, принадлежащих какому-либо сло- варю (лексикону). Выполнение этой процедуры подразу- мевает, что данный словарь системы распознавания до- лжен определяться в терминах основных единиц, выбран- ных для распознавания. Такое определение может быть детерминированным (например, сети с одним и большим конечным числом состояний) или статистическим (напри- мер, вероятности, которые придаются дугам в представле- нии слова с конечным числом состояний). В том случае, когда в качестве единиц распознавания выбраны слова (или комбинации слов), процедура лексического декодирования фактически исключается, что существенно упрощает структуру распознавателя. 4) Синтаксический анализ. Этот процесс, во мно- гом подобный процессу лексического декодирования, налагает на систему согласования единиц дополни- тельные ограничения, с тем чтобы исследовались именно те пути, которые соответствуют речевым еди- ницам, образующим слова (лексическое декодирова- ние), и для которых эти слова образуют правильную последовательность, задаваемую некоторой грамма- тикой слов. Такая грамматика снова может быть представлена либо детерминированной сетью с конеч- ным числом состояний (в которой перечисляются все комбинации слов, допускаемые этой грамматикой), либо статистической грамматикой (например, мо- делью триграмм, в которой задаются вероятности по- следовательностей из трех слов в указанном порядке). В некоторых задачах управления и контроля необхо- димо выполнить распознавание только одного един- ственного слова из конечного множества равнове- роятных слов, поэтому грамматика в них будет либо тривиальной, либо вообще ненужной. Такие задачи часто называются задачей распознавания изолирован- ных слов. В ряде других приложений (например, при распознавании цифровых последовательностей) при- годными часто оказываются весьма простые грамма- тики (например, когда после любой цифры может быть произнесена любая другая цифра). Наконец, су- ществуют задачи, для которых грамматика является доминирующим фактором, а это, хотя и налагает множество ограничений на процесс распознавания, тем не менее значительно улучшает эффективность распознавания, поскольку приводит к правильному выбору последовательности единиц речи в качестве кандидатов для распознавания. 5) Семантический анализ. Этот процесс подобно этапам синтаксического анализа и лексического деко- дирования добавляет дальнейшие ограничения на мно- жество путей поиска при распознавании. Один из способов введения семантических ограничений — ис- пользование динамической модели состояния распо- знавателя. В зависимости от состояния такого распоз- навателя некоторые синтаксически правильные вход- ные цепочки исключаются из рассмотрения, что упрощает задачу распознавания и улучшает эффектив- ность системы. Имеется еще один дополнительный фактор, кото- рый существенно влияет на реализацию речевого рас- познавателя, а именно проблема выделения из входной речи фоновой паузы. Возможны как мини- мум три приемлемых подхода к ее решению: 1) явное обнаружение наличия речи с помощью методов,которые выделяют из речи фоновую паузу на основе энергии сигнала и его длитель- ности. Такие методы уже используются в под- ходах, основанных на сравнении с эталонами, поскольку они просты и обеспечивают хорошие результаты при малом и среднем уровнях шума [48]; 2) построение модели фоновой паузы (например, статистической модели) и представление посту- пающего сигнала как произвольной последова- тельности речи и фона, т. е. в форме сигнал = (пауза) — речь — (пауза), где участок паузы в сигнале является необяза- тельным в том смысле, что он может отсут- ствовать до или после данного речевого отрезка [49]; 3) расширение модели единиц речи за счет вклю- чения фоновой паузы (произвольно) в первое и/или последнее состояния модели, в результа- те чего она, по сути дела, оказывается вклю- ченной во все модели речевых единиц. Все эти методы находят применение в системах распознавания речи. Вместо дальнейшего обсуждения общей системы распознавания слитной речи рассмотрим теперь ряд конкретных приложений, иллюстрирующих использо- вание «технологии» скрытых марковских моделей. Сначала мы опишем систему, в которой базисной еди- ницей речи является слово, и задача состоит в распоз- навании раздельно произносимых слов без наложения синтаксических или семантических ограничений на вы- бор слов. Такая задача обычно называется распозна-
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 109 Рис. 12. Блок-схема распознавателя изолированных слов на основе СММ. ванием изолированных слов. Затем рассмотрена усложненная задача, когда базисной единицей речи остается слово, но выполняется распознавание слит- ного высказывания, содержащего слова из заданного словаря. В качестве примера такой задачи можно на- звать задачу распознавания последовательно произно- симых цифр, которая также соответствует случаю отсутствия синтаксических и семантических ограниче- ний на выбор слова, т. е. случаю, когда любая цифра может следовать за любой другой цифрой. Задачи та- кого типа называются задачами распознавания свя- занных слов, поскольку слитная речь распознается как некоторая сочлененная последовательность из моде- лей слов. Заметим, что использование данного терми- на не является технически правильным, так как на са- мом деле это задача распознавания слитной речи, однако он уже стал общепринятым, поэтому мы про- должаем его употреблять. В. Распознавание изолированных слов В качестве первого примера использования скры- тых марковских моделей рассмотрим задачу построе- ния распознавателя изолированных слов. Предполо- жим, что имеется некоторый словарь из V слов, кото- рые нужно распознавать, и что каждое слово нужно моделировать отдельной СММ12’ Предположим так- же, что для каждого слова из нашего словаря имеется некоторое обучающее множество, состоящее из К ре- ализаций каждого слова (произнесенного одним или несколькими дикторами). Каждая реализация слова представляет собой последовательность наблюдений, а сами эти наблюдения являются некоторым подходя- щим представлением характеристик данного слова (спектральных и/или временных). (Ниже в данном разделе мы еще вернемся к вопросу о том, какое спе- циальное представление используется.) Для того что- бы осуществить распознавание изолированных слов, |2) Превосходное описание речевого распознавателя изолиро- ванных слов с большим словарем, основанного на использовании лексических единиц размером меньше слова, приводится в работе [50], в которой описана система IBM TANGORA. В работе [46] рас- сматриваются вопросы взаимного использования непрерывных и дискретных плотностей применительно к системе распознавания со словарем объемом 60 тыс. слов. необходимо выполнить следующие шаги: 1) для каждого слова v словаря необходимо по- строить СММ X, т. е. требуется определить значения параметров модели (А, В, тг), которые оптимизируют правдоподобия векторов наблю- дения обучающей последовательности для v-ro слова; 2) для каждого неизвестного слова, подлежащего распознаванию, выполняется обработка, схема- тически показанная на рис. 12, а именно: изме- рение последовательности наблюдений О = [Oi С>2 ... Ог] посредством анализа призна- ков речевого отрезка, соответствующего данно- му слову; вычисление вероятностей правдопо- добия всех возможных моделей P(Q I Xv), 1 v И; и выбор слова, вероятность правдо- подобия модели которого наибольшая, т. е. V* = argmax [P(O|XV)]. (114) 1 « v < V Эти вероятности обычно вычисляются с помощью ал- гортима Витерби (т. е. используется наиболее правдо- подобный путь), что требует выполнения порядка V • N2 • Т вычислений. Для словарей умеренного объ- ема, например с V ~ 100, числом состояний у моделей N = 5 и числом наблюдений для данного неизвестного слова Т = 40, для выполнения распознавания потребу- ется 105 вычислений, где каждое вычисление подразу- мевает выполнение операции умножения, операции сложения и операции вычисления плотности наблюде- ний £>(О). Ясно, что такое количество вычислений да- леко от тех возможностей, которыми располагают современные процессоры, предназначенные для обра- ботки сигналов. С. КЛП-анализ признаков [51—54] Одним из способов получения векторов наблюде- ний О по отсчетам речевого сигнала — это выполне- ние предварительного спектрального анализа этого сигнала. (Мы полагаем, что обрабатываются только отсчеты, соответствующие данному произнесенному слову, т. е. все фоновые шумы до и после произнесен-
1 >0- ТИИЭР, т. 77, № 2, февраль 1989 п = 0 0i(m) ’КЛП-коэффициенты^О s m s р С m) » кепстральные коэффициенты , 1 < m < Q Ct(гп) »С1(лп). wc(m), 1 s гл < Q а , dCi(m) АС» (гл) 3 ——----, 1 s m s Q * от Рис. 13. Блок-схема вычислений, необходимых для анализа признаков во входном устройстве распознавателя на основе СММ ного слова уже удалены с помощью того или иного алгоритма обнаружения слов.) Тип спектрального ана- лиза, который часто используется (и будет описан ни- же) называется кодированием на основе линейного предсказания (КЛП). На рис. 13 показана блок-схема такого анализа. Эта общая система является моделью обработки блока, где обрабатывается отрезок из N отсчетов и вычисляется вектор признаков Ot. Данная обработка включает следующие этапы. 1) Предыскажение. Дискретизованный (с частотой 6.67 кГц в рассматриваемых здесь примерах) речевой сигнал обрабатывается цифровым фильтром 1-го по- рядка для выравнивания спектра этого сигнала. 2) Сегментация. Отрезки из № последовательных отсчетов речевого сигнала используются как отдель- ные сегменты, или кадры (мы используем № = 300, что соответствует 45-мс отрезку сигнала). Последова- вательные сегменты берутся с шагом Мл отсчетов (мы используем Мл = 100, что соответствует 15-мс сдвигу каждого последующего сегмента или 30-мс пе- рекрытию соседних сегментов). 3) Взвешивание сегментов. Каждый сегмент умно- жается на весовую функцию (окно) w(n) длиной № отсчетов (мы используем окно Хемминга), для того чтобы минимизировать нежелательные «концевые» эффекты, обусловленные выделением сегментов из № отсчетов из анализируемого непрерывного речевого сигнала. 4) Автокорреляционный анализ. Для каждого взве- шенного множества отсчетов речевого сигнала вычис- ляется автокорреляционная функция, которая дает множество (р + 1) коэффициентов, где р — желаемый порядок КЛП-анализа (мы используем р = 8). 5) КЛП/кепстралъный анализ. С помощью рекур- сивного метода Левинсона или Дербина для каждого сегмента по данному автокорреляционному вектору вычисляется вектор КЛП-коэффициентов, а затем по ним вычисляется вектор кепстральных коэффициентов вплоть до <2-й компоненты, где Q > р й Q = 12 для тех результатов, которые позднее будут описаны в этом разделе. 6) Взвешивание кепстра. Кепстральный вектор из Q коэффициентов с(т) для выделенного интервала времени I взвешивается окном wi(m) вида [55, 56]. . Q /хт\ VVc(m) = 1 + — sin (— \, 1 <; т < Q, (115) что дает c,(m) = cf(m) Wc(m). (116) 7) Дельта-кепстр. Производная по времени от по- следовательности взвешенных кепстральных векторов аппроксимируется ортогональным полиномом перво- го порядка в пределах окна с конечной длительнос- тью, равной 2.К + 1 сегментам, центрированным относительно текущего вектора [57, 58]. (В представ- ленных ниже результатах К = 2; следовательно, для вычисления производной используется окно длиной 5 кадров.) Производная кепстра (т. е. вектор дельта- кепстра) вычисляется по формуле Дс((т) = [ S £сг_*(т)1 - С, 1 < т < Q, (117) Lt--к J где G — коэффициент усиления, выбираемый таким образом, чтобы дисперсии величин ф (т) и Дс/ (т) бы- ли равны. (Используется значение G = 0.375.) Вектор наблюдений Qt, используемый для распоз- навания и обучения, является конкатенацией взвешен- ного кепстрального вектора и соответствующего взвешенного дельта-кепстрального вектора, т. е. Q = {с,.(т), Дс,(т)} (118) и содержит 24 компоненты.
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 111 D. Векторное квантование [18, 39] В том случае, когда вместо описанных выше не- прерывных векторов мы хотим использовать СММ с дискретной плотностью символов наблюдения, для установления соответствия между каждым непрерыв- ным вектором наблюдения и индексом дискретной ко- довой книги необходим векторный квантователь. Как только такая кодовая книга векторов построена, соот- ветствие между непрерывными векторами и индекса- ми кодовой книги устанавливается по правилу ближайшего соседа, т. е. каждому непрерывному век- тору ставится в соответствие индекс ближайшего (в смысле спектрального расстояния) вектора кодовой книги. Таким образом, важным вопросом векторного квантования является разработка соответствующей кодовой книги, необходимой для квантования. К счастью, много уже сделано по разработке от- личной интерактивной процедуры для построения ко- довых книг, основанной на использовании представительной обучающей последовательности векторов [18]. Эта процедура по сути дела разбивает векторы из обучающей выборки на М непересекаю- щихся множеств (где М — размер кодовой книги) и каждому такому множеству ставит в соответствие единственный вектор (vm ,1 т М), который обыч- но является центроидом тех векторов из обучающей выборки, которые были отнесены к m-R области, а затем повторно оптимизирует это разбиение и эту ко- довую книгу (т. е. центроиды каждого разбиения). С векторным квантованием тесно связана проблема ис- кажения, поскольку единственный вектор ставится в соответствие целой области векторного пространства. Вполне очевидно, что искажения должны быть мини- мальны. Однако это требует использования кодовых книг большого размера, что в свою очередь ведет к проблемам реализации СММ с большим числом пара- метров. Зависимость величины искажений из-за кван- тования от числа уровней квантования М (в логариф- мическом масштабе) показана на рис. 14, из которого видно, что, хотя эти искажения непрерывно уменьша- ются с ростом М, скорость этого уменьшения при М > 32 оказывается незначительной. Поэтому в экспе- риментах по распознаванию речи, в которых применя- ются скрытые марковские модели, обычно исполь- Рис. 14. Зависимость искажения из-за векторного квантова- ния от размера кодовой книги М, представленного в логариф- мическом масштабе. Рис. 15. Зависимость средней частоты ошибки (для циф- рового словаря) от числа состояний /V в СММ. зуются кодовые книги с числом векторов от 32 до 256. Е. Выбор параметров модели Вернемся теперь к вопросу, который уже несколько раз поднимался в этой статье, а именно к вопросу вы- бора типа параметров модели. Вполне очевидно, что для распознавания изолированных слов при использо- вании отдельной модели для каждого слова словаря лучше подходит не эргодическая, а лево-правая мо- дель, так как в этом случае проще связать время с со- стояниями модели. Кроме того, можно дать физический смысл состояниям такой модели, рассмат- ривая их как отдельные звуки (например, фонемы, слоги) моделируемого слова. Вопрос о числе состояний в модели каждого слова может решаться с точки зрения двух подходов. При первом подходе число состояний примерно соответ- ствует числу звуков (фонем) в данном слове, и, следо- вательно, в этом случае пригодны модели с числом состояний от 2 до 10. При втором подходе число со- стояний выбирается равным среднему числу наблюде- ний в реализации данного слова; это — так назы- ваемая модель Бакиса [И]. В этом случае каждому со- стоянию соответствует интервал наблюдения, т. е. для анализа мы используем около 15 мс. Для тех ре- зультатов, которые будут описаны позднее в этом разделе, мы вводим ограничения для всех моделей слова, устанавливая в них одно и то же число состоя- ний, а это означает, что такие модели будут лучше всего работать, когда они представляют слова с тем же самым числом звуков. Для иллюстрации эффектов, обусловленных изме- нением числа состояний в модели слова, на рис. 15 представлен график зависимости средней частоты ошибок распознавания слов от числа состояний N при распознавании изолированных цифр (т. е. для словаря из 10 слов). Нетрудно видеть, что величина этой ошибки слабо зависит от N, достигая локального ми- нимума при N = 6; однако и для значений N, близких к 6, частота ошибок отличается от этого минимума весьма незначительно. Следующий вопрос касается выбора вектора на- блюдений и способа его представления. В подразд. VI.C и VI.D в качестве векторов наблюдения для не- прерывных моделей рассматривались взвешенные кеп- стральные коэффициенты и их производные,
112 ТИИЭР, т. 77, № 2, февраль 1989 Рис. 16. Сравнение вычисленной плотности (зубчатый кон- тур) и плотности модели (сглаженный контур) для каждой из девяти компонент вектора наблюдения (восемь кецстральных компонент и логарифм энергии) для первого состояния слова «zero». полученные с помощью КЛП-анализа, а также (для авторегрессионных СММ) автокорееляция КЛП-коэф- фициентов; дискретные символы для дискретных мо- делей получались с помощью кодовой книги. Для напрерывных моделей мы используем до М = 9 сме- сей на одно состояние; для моделей с дискретными символами мы используем кодовые книги, содержа- щие до 256 слов. Кроме того, было показано, что для непрерывных моделей предпочтительнее использовать диагональные ковариационные матрицы с нескольки- ми смесями, а не меньшее число смесей с полными ковариационными матрицами. Причина этого прос- тая, а именно трудности, связанные с выполнением надежной повторной оценки недиагональных элемен- тов ковариационной матрицы из-за ограниченного ко- личества обучающих данных. Для иллюстрации необходимости использования смешанных плотностей для моделирования КЛП-векторов наблюдений (т. е. кепстральных векторов 8-го порядка и логарифма энергии, добавляемого в качестве 9-й компоненты этий векторов), на рис. 16 показаны результаты срав- нения безусловных распределений bj (О) | о = ... о„... с гистограммой реальных наблюдений в некотором со- стоянии (которая определялась посредством сегмента- ции функции максимального правдоподобия всех обучающих наблюдений по состояниям). Эти векторы наблюдений являются векторами 9-го порядка, а для плотности данной модели используется смесь из М — 5 компонент. Ковариационные матрицы строят- ся диагональными для каждого отдельного смешанно- го распределения. На рис. 16 приведены результаты для первого состояния модели слова «zero». Необхо- димость использования значений М < 1 ясно видна по гистограмме первого параметра (первой кепстральной компоненты), которая фактически является многовер- шинной (мультимодальной); аналогичным образом второй, четвертый и восьмой кепстральные парамет- ры показывают необходимость использования более одной гауссовской компоненты, с тем чтобы получить хорошее соответствие эмпирическим данным. По-ви- димому, многие другие параметры будут хорошо под- Рис. 17. Средняя частота ошибки как функция мини- мального значения е дискретной плотности. гоняться с помощью одной гауссовской компоненты, одиако в некоторых случаях даже М = 5 смесям не да- дут приемлемого соответствия. Другим экспериментально проверенным фактом для СММ является необходимость ограничения неко- торых оценок параметров, с тем чтобы предотвра- тить их стремление к слишком малым значениям. Например, для моделей с дискретными символами ограничение вида bj (к) € , где € — некоторое ми- нимальное значение, необходимо для гарантии того, что даже в том случае, когда для заданного обучаю- щего множества к-й символ никогда не появлялся в некотором состоянии j, всегда бы существовала неко- торая конечная вероятность его появления для друго- го множества наблюдений. Для иллюстрации сказан- ного на рис. 17 показана кривая зависимости средней частоты ошибки распознавания слова от параметра е (в логарифмическом масштабе) для обычного экспери- мента по распознаванию слов. Нетрудно видеть, что на очень широком интервале значений этого парамет- ра (10*10 < 10*") средняя частота ошибки оста- ется приблизительно постоянной; однако при € -> О (т. е. к 10*”) частота ошибки резко возрастает. Ана- логичным образом для непрерывных плотностей важ- но ограничить как весовые коэффициенты компонент смесей Cjm, так и диагональные коэффициенты ковари- ационной матрицы Ujm {г, г), которые должны быть не меньше некоторых минимальных значений (во всех случаях мы используем 10*4. F. Разбиение на состояния с помощью сегментной процедуры fc-средних [42] Выше мы установили, что хорошие начальные оценки для параметров плотностей распределения Ь7 (О') необходимы для быстрой сходимости формул переоценки. Поэтому была разработана процедура, которая дает хорошие начальные оценки этих пара- метров; ее блок-схема показана на рис. 18. Данная процедура обучения является вариантом хорошо из- вестного итеративного кластерного алгоритма к- средних. Предположим, что у нас есть обучающее множе- ство наблюдений (аналогичное требуемому для пере- оценки параметров) и начальная оценка всех параметров модели. Однако в отличие от обучающего множества, требуемого для переоценки, начальная
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 113 QiSf Рис. 18. Сегментная обучающая процедура ft-средних, ис- пользуемая для оценки значений параметров при оптималь- ном согласовании непрерывной смешанной плотности с огра- ниченным числом последовательностей наблюдений. (а) (Ь) (с) Рис. 19-_ Графики логарифма энергии (а), суммарной логариф- мической вероятности (Ь) и распределение состояний (с) для отдельной реализации слова «six». модели получается следующим образом: оценка модели может теперь выбираться произволь- ным образом или же на основе любой имеющейся мо- дели, соответствующей этим данным. После инициализации модели данное множество обучающих последовательностей наблюдения разбива- ется на состояния в соответствии с используемой мо- делью X13’ Такое разбиение достигается посредством нахождения оптимальной последовательности состоя- ний с помощью алгоритма Витерби и последующего поиска в обратном направлении вдоль оптимального пути. Эта процедура иллюстрируется на рис. 19, на котором показаны кривая логарифма энергии, кривая суммарной логарифмической вероятности и разбиение на состояния для одиночной реализации слова «six». Из этого рисунка видно, что полученные состояния грубо соответствуют звукам в произнесенном слове «six». Результатом разбиения каждой обучающей после- довательности является (для каждого из N состояний) оценка максимального правдоподобия для множества тех наблюдений, которые входят в каждое из состоя- ний 5г, в соответствии с данной текущей моделью. В том случае, когда используются плотности дискрет- ных символов, каждый из векторов наблюдений внут- ри какого-либо состояния кодируется с помощью кодовой книги размером М, и обновленная оценка па- раметров bj(k) получается следующим образом: bj(k) = число векторов с индексом кодовой книги к в состоянии j, поделенное на общее число векторов в состоянии j. В том случае, когда используются непрерывные плотности наблюдений, применяется сегментная про- цедура ^-средних, с помощью которой выполняется разбиение векторов наблюдений внутри каждого со- стояния Sj на М кластеров (на основе евклидовой ме- ры искажения), где каждый кластер представляет одну из М смесей данной плотности bj{Oj). В результате кластеризации новое множество значений параметров 13) Данная текущая, или начальная, модель могла бы быть построена на основе другого множества дикторов, а также на осно- ве равномерной сегментации каждого слова на состояния. Cjm = число векторов, отнесенных к кластеру т состояния j, поделенное на общее число векторов в состоянии у; ijm = среднее значение векторов, отнесенных к кластеру т состояния j; Ujm = выборочная ковариационная матрица век- торов, отнесенных к кластеру т состоя- ния j. С помощью этой процедуры разбиения на состоя- ния обновленные оценки коюффициентов а,у могут быть получены как отношение числа переходов из со- стояния i в состояние j к общему числу переходов из состояния i в любое другое состояние (включая и пе- реход в себя). Обновленная модель X получается на основе новых параметров модели, а переоценка всех параметров этой модели должна выполняться с помощью фор- мальной процедуры повторного оценивания. Резуль- тирующая модель затем сравнивается с предыдущей моделью посредством вычисления меры отклонения, которая отражает статистическое сходство этих моде- лей). Если эта мера отклонения моделей превышает порог, старая модель X заменяется новой моделью X (для которой выполняется процедура переоценки), и полностью повторяется цикл обучения. Если же мера отклонения не превышает заданного порога, то пола- гается, что модель сходится, и сохраняются парамет- ры последней модели. G. Включение в СММ длительностей состояний ' В подразд. IV.D обсуждался теоретически коррект- ный метод включения информации о длительности со- стояний в механизм СММ. Было также показано, что затраты, связанные с включением плотности распре- деления длительности, являются достаточно высоки- ми, поскольку приводят к ZX-кратному увеличению вычислений и D-кратному увеличению объема памя- ти. При использовании значения D, равного 25 (как того требует распознавание изолированного слова), огромное возрастание вычислительных затрат делает
114 ТИИЭР, т. 77, № 2, февраль 1989 Рис. 20. Гистограммы плотности распределения нормали зованной длительности для пяти состояний цифры «six». подобные методы непригодными для применения. В связи с этим была сформулирована следующая аль- тернативная процедура для включения информации о длительности состояний в СММ. Согласно этой процедуре, вероятность длительнос- ти состояний pj(d) измеряется непосредственно по сег- ментированным обучающим последовательностям, которые использовались в сегментной процедуре к- средних, описанной в предыдущем подразделе. Следовательно, такие оценки вероятностей Pj(d} явля- ются строго эвристическими. На рис. 20 показан ти- пичный набор гистограмм вероятности pj (d) для пяти состояний модели слова «six». (Заметим, что эти ги- стограммы построены не для абсолютных, а для нор- мированных длительностей d/T.) Из этого рисунка видно, что первые два состояния рассматриваются как начальный звук /з/ в слове «six»; третье состояние рассматривается как переход к гласной ///; четвертое состояние рассматривается как гласный звук, и пятое состояние — как взрывной и заключительный звук /5/. Способ использования эвристических плотностей длительностей в распознавателе речи состоит в следу- ющем. Сначала применяется обычный алгоритм Ви- терби, для того чтобы с помощью процедуры поиска в обратном направлении получить наилучшее разбие- ние на состояния последовательности наблюдений не- известного слова. Затем после сегментации каждого состояния определяется их длительность. Далее по- стпроцессор увеличивает значение логарифмической функции правдоподобия, используемой в алгоритме Витерби, иа величину N log Pig, О|Х) = log P(q, О}X) + ad Е log [р (<У )], (119) где од — масштабный множитель для длительностей состояний, dj — длительность состояния j для опти- мального пути, который был определен с помощью алгоритма Витерби. Увеличение вычислительных за- трат постпроцессора из-за привлечения информации о длительности в целом оказывается назначительным, и эксперименты показали, что характеристики распозна- вания по существу не уступают этим характеристикам при использовании теоретически корректной модели длительности. Н. Эффективность СММ при распознавании изолиро- ванных слов Раздел о применении СММ для распознавания изо- лированных слов мы завершаем сводкой результатов экспериментов (оцениваемых средней частотой ошиб- ки распознавания слова) по распознаванию изолиро- ванных цифр, произносимых различными дикторами. Для этой задачи использовалось обучающее множе- ство, состоявшее из 100 произнесений каждой цифры, выполняемых 100 дикторами (т. е. по одному произ- несению каждой цифры на одного диктора). Половина дикторов были женщины, половина — мужчины. Кроме исходного обучающего множества для провер- ки алгоритма использовались также три других неза- висимых тестовых набора (TH) со следующими характеристиками: ТН2: те же 100 дикторов, которые использовались при обучении; по 100 произнесений на каж- дую цифру; ТНЗ: новые 100 дикторов (50 жен- > щин, 50 мужчин); также по 100 произнесений на каждую цифру; ТН4: еще один новый состав дикто- ров (50 женщин, 50 мужчин); также по 100 произнесений на каждую цифру. Результаты испытаний по распознаванию приво- дятся в табл. 1; использовались следующие устрой- ства распознавания: КЛП/ДИМВ — КЛП/ДИМВ/ВК — стандартный распознаватель на основе сравнения с эталона- ми, использующий динамиче- ское изменение масштаба вре- мени (ДИМВ); стандартный распознаватель с процедурой векторного кван- тования (ВК) векторов призна- ков (М - 64); СММ/ВК — распознаватель на основе СММ и векторного квантова- ния (М = 64); СММ/НП — распознаватель на основе СММ, с использованием моде- ли непрерывной плотности (НП) с М = 5 смесями на со- стояние; СММ/АР — распознаватель на основе СММ, использующий авторе- грессионную плотность (АР) наблюдений.
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 115 Таблица 1. Средняя частота ошибок распознавания цифр для некоторых распознавателей Множество, используемое для оценки Типы распознавателей Исходное обучающее множество ТН2 ТНЗ ТН4 клп/димв 0.1 0.2 2.0 1.1 клп/димв/вк — 3.5 — — смм/вк — 3.7 — — смм/нп 0 0.2 1.3 1.8 CMM/AP 0.3 1.8 3.4 4.1 Из табл. 1 видно, что при использовании процеду- ры векторного квантования эффективность распозна- вателя изолированных слов снижается и в случае обычной модели и в случае модели, основанной на СММ. Отметим также близость характеристик обыч- ного распознавателя, основанного на сравнении с эта- лонами, и распознавателя, основанного на СММ с непрерывными плотностями. Наконец, как показыва- ет табл. 1, СММ с авторегрессионной плотностью обеспечивает более низкие характеристики, чем мо- дель с обычной смешанной плотностью. VII. РАСПОЗНАВАНИЕ СВЯЗАННЫХ СЛОВ НА ОСНОВЕ СММ [59—63] Несколько более сложной задачей распознавания речи, для решения которой успешно применяются СММ, является задача распознавания связанных слов. Основной предпосылкой для распознавания связанных слов является то, что это распознавание основано на моделях отдельных слов (в противоположность моде- лям речевых единиц, размер которых меньше слова). Задача распознавания (после получения подходящих моделей слов) состоит в отыскании оптимальной по- следовательности (конкатенации) моделей слов, кото- рая бы наилучшим образом соответствовала (в смысле максимального правдоподобия) неизвестной цепочке связанных слов. В этом разделе мы рассмот- рим один подход (названный методом построения уровней), который позволяет находить такие опти- мальные последовательности моделей слов. Другим методом получения оптимальной последовательности слов является процедура поиска на основе алгоритма Витерби с сегментной (временной) синхронизацией. К числу практических преимуществ процедуры поиска с сегментной синхронизацией следует отнести просто- рно. 21. Блок-схема распознавателя связанных цифр, в кото ром используется процедура построения уровней. 1 2 3 4 №5 Плотность наблюдения Ь] (0) ь2<о) Ь31О> Ь4(С) Ь5(О) Вероятность энергии Р,(Е) Р2(Е) Рз'Е) Р4!Е) Р5^’ Вероятность длительности состояний р,(т) р2'т) р3(т> Р5(П Рис. 22. Характеристики СММ, которая распознавания связанных цифр. используется для ту реализации аппаратных средств в реальном време- ни, легкость обрезания пути, и т. п., но они не затрагивают оптимальности этих двух методов. Для удобства мы ограничимся рассмотрением распознава- ния цепочек связанных цифр. А. Распознавание связанных цифр на основе СММ, использующих метод построения уровней На рис. 21 показана полная блок-схема устройства распознавания связанных цифр на основе метода по- строения уровней. Процесс распознавания включает следующие три этапа. I) Спектральный анализ. Речевой сигнал s(ri) пре- образуется либо в множество КЛП-векторов, либо в множество кепстральных и дельта-кепстральных век- торов. Они определяют последовательность наблюде- ний О неизвестной цепочки связанных цифр. 2) Сравнение с эталонами на основе процедуры построения уровней14] Последовательность спект- ральных векторов (наблюдений) неизвестной цепочки связанных цифр с помощью алгоритма Витерби срав- нивается с моделями отдельных слов. Выходом этого процесса является некоторое множество цепочек из цифр-кандидатов, имеющих, как правило, различную длину (т. е. разное число цифр) и упорядоченных по значениям логарифма вероятности. 3) Постпроцессор. Цепочки из цифр-кандидатов подвергаются дальнейшей проверке на их обоснован- ность (например, с учетом фактора длительности), с тем чтобы исключить неприемлемые (т. е. маловеро- ятные) цепочки. Затем постпроцессор выбирает из оставшихся цепочек-кандидатов наиболее вероятную цифровую цепочку. Каждая отдельная цифра характеризуется некото- рой СММ, структура которой показана на рис. 22. (При реализации метода построения уровней перехо- ды между словами управляются режимом переключе- ния от последнего состояния модели одного слова к первому состоянию модели другого слова.) Для моде- лирования цифр использовались СММ со следующими параметрами: 141 Уровень характеризует положение слова в строке. Следова- тельно, строка из пяти цифр может иметь выходы как минимум на пять уровней, по одному для каждой, цифры в этой строке.
116 ТИИЭР, т. 77, № 2, февраль 1989 1) число состояний Л7 = 5 или N = 8 для моделей цифр, которые были обучены на наблюдениях (произнесениях) одного диктора, и Л7 = 8 или Л7 = 10 для моделей цифр, которые обучались на наблюдениях нескольких дикторов; 2) смешанные непрерывные плотности наблюде- ний с числом смесей Л/=ЗиЛ/=5на одно со- стояние для моделей с одним диктором, и с М = 9 для моделей с несколькими дикторами; 3) вероятность энергии pj (€ ), где — динами- чески нормализуемый логарифм энергии сег- мента (кадра) речи, для которого вычисляется вектор наблюдений Ot; величина pj( • ) являет- ся дискретной плотностью распределения лога- рифма энергии в состоянии j. Эта плотность получается эмпирически по обучающим дан- ным; 4) плотность длительности состояния pj (к), 1 d sj D = 25. Помимо плотности наблюдений, вероятнос- ти логарифма энергии и плотности длительно- стей состояний каждая СММ цифры X” характеризуется также плотностью общей дли- тельности слова pv (Z>) вида pv(D) = 0l(Dv, о?), (120) где Dv — средняя длительность слова v, aj — диспер- сия его длительности, а ОТ. — нормальная плотность. В. Алгоритм построения уровней на основе СММ Использование алгоритма построения уровней на основе СММ иллюстрирует рис. 23. Обозначим через X”, 1 v V, множество СММ для V слов. Тогда для отыскания оптимальной последовательности СММ, соответствующей последовательности О (т. е. макси- мизирующей вероятность ее правдоподобия), необхо- димо выполнить последовательность согласований Витерби. Иными словами, для каждой СММ и для каждого уровня / выполняется процедура согласова- ния Витерби относительно последовательности О на- чиная с первого сегмента (интервала наблюдения) первого уровня, й для каждого сегмента t сохраняют- ся следующие данные: 1) 1 ^Т, накопленная логарифмическая вероятность, вычисляемая вдоль наилучшего пути эталонной модели Xv к сегменту на уровне /; 2) 1 t Т, точка возврата, показывающая, где данный путь начинался в начале этого уровня. Для вычисления /’Г(Г) необходим некоторый ло- кальный критерий того, что последовательность на- блюдений О’ (с логарифмом энергии €г) входила в состояние j модели Xv. В качестве плотности наблюде- ний мы используем функцию Рис. 23. Пример, иллюстрирующий применение СММ в ал- горитме построения уровней. 6^(0,) = ЬДО,) 1р;(е,)Р' • К,, (121) где (полагаемое равным 0.375) — масштабный множитель логарифма энергии, а К\ — нормирующая константа. Коэффициенты переходов между состояни- ями при вычислении Pi(t) вводятся в процессе опти- мизации методом динамического программирования при определении пути (последовательности) Витерби. В конце каждого уровня I (где этот уровень соот- ветствует позиции слова в цепочке) выполняется мак- симизация по v для получения наилучшей модели на каждом сегменте t следующим образом: Pf(f) = max Р,(Г),’ JsvsV lV“(r) = argmax P)(f), 1<V<V F?(t) = 1 < t < T, (122a) 1 < f < 7, (122b) 1 < t < 7, (122c) где Wf(t) указывает номер модели слова, которая да- ла наилучшую вероятность для сегмента t уровня /, a Ff(f) — точку возврата для этой модели. Каждый новый уровень начинается с этой исход- ной наилучшей вероятности от предыдущего сегмента предыдущего уровня и увеличивает счет Витерби по- средством сопоставления моделей слов начиная от этого нового исходного сегмента. Данный процесс по- вторяется на некотором числе уровней, эквивалент- ном ожидаемому максимальному числу цифр в строке (равном, как правило, 7). В конце каждого уровня с помощью процедуры по- иска в обратном направлении определяется наилучшая цепочка из I слов (1 I L) с вероятностью Ff(t~), при этом для получения слов в данной цепочке использу-
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 117 ется массив точек возврата Ff(f). Самой наилучшей цепочке соответствует максимум Pf(t) по всем воз- можным уровням I. С. Обучение моделей слов [59, 61] Основой успешного распознавания связанных слов является получение моделей слов на основе представи- тельного множества цепочек связанных слов. Мы на- шли, что, хотя рассмотренные в этой статье формальные процедуры переоценки и обеспечивают хорошие результаты, они требуют больший вычисли- тельных затрат и что эквивалентно хорошие оценки параметров можно получать, используя сегментную процедуру ^-средних, которая была рассмотрена в разд. VI. Единственное отличие данной процедуры от рассмотренной выше состоит в том, что цифровые цепочки, предназначенные для обычения, сначала сег- ментируются на отдельные цифры с помощью проце- дуры выравнивания Витерби, а затем каждое такое множество, содержащее образы одной цифры, сегмен- тируется на состояния, а векторы внутри каждого со- стояния разделяются на М кластеров. Переоценка параметров СММ на основе такой сегментной проце- дуры A'-средних выполняется приблизительно на поря- док быстрее, чем процедура переоценки Баума—Уэлча, и все наши эксперименты показывают, что результи- рующие оценки параметров по существу идентичны в том смысле, что результирующим СММ соответству- ют фактические одинаковые вероятности правдоподо- бия. Эта сегментная процедура ^-средних использо- валась для получения всех результатов, представлен- ных ниже в данном разделе. D. Моделирование длительности для связанных цифр Существует два вида информации о длительности, которая используется в последовательностях связан- ных цифр, выделенных на этапе распознавания, а именно длительность слова и длительность состоя- ния. Информация о длительности включается в моде- ли следующим образом. В конце каждого уровня для каждого сегмента t накопленная вероятность Pf(f) мо- дифицируется посредством определения длительности слова т' (Г), т.Й) - f - + 1 (123) и далее посредством умножения этой накопленной веро- ятности на вероятность распределения длительности слова, т. е. р;(() = P'.;W [Л(д(0, Dv, о;)]' К2, (124) где tpKD (устанавливается равным 3.0) — весовой коэф- фициент для длительностей слов, аА'; — нормируюшая константа. Вероятности длительности состояний вводятся в по- стпроцессор. Устройство распознавания, использующее процедуру построения уровней, дает на каждом уровне несколько кандидатов (прослеживая многочисленные на- илучшие оценки для каждого сегмента на каждом уров- не). Следовательно, оценки полных вероятностей получаются для RL цепочек, состоящих из L цифр, где R — число кандидатов на один уровень (обычно R = 2). Каждая из этих RL цепочек обрабатывается процедурой обратного поиска, с тем чтобы получить как сами слова, так и отдельные состояния в этих словах. Если обозна- чить длительность состояния j на уровне / через А/ (/), то для каждой возможной цепочки из L слов постпроцессор умножает полную накопленную вероятность Pf (Г) на ве- роятности длительности состояний, что в результате дает L \ ^(Т) = Р?(Т) • П И (>)' М, '125. где (устанавливается равным 0.75) — весовой коэф- фициент для длительностей состояний, w 11) — слово на уровне I, Кз — нормирующая константа. Вычисления в (125) выполняются по всем RL цепочкам, в результат е че- го получается переупорядоченный список наилучших це- почек. Увеличение вычислительных затрат постпроцес- сора незначительно по сравнению с затратами на вычис- ление Pf.(T), и было показано, что его характеристики сравнимы с характеристиками моделей с заранее введен- ными (внутренними) длительностями. Е. Характеристики распознавателя связанных цифр на основе СММ Распознаватель цепочек связанных цифр на основе СММ обучался и тестировался в трех режимах: 1) режим с обучением от диктора: использовались 50 дикторов (25 женщин, 25 мужчин), от каждого из которых были получены обучающее множество, содержащее око ло 500 цифровых цепочек, и тесто- вое множество, также содержащее около 500 цепо- чек связанных цифр; 2) режим с многими дикторами: обучающие множе- ства, полученные от указанных выше 50 дикторов, объединялись в одно общее обучающее множе- ство; аналогичным образом объединялись тесто- вые множества. В этом случае для каждой цифры использовалось по 6 моделей, каждая из которых была построена на базе некоторого подмножества обучающих реализаций; 3) назависимый от диктора режим, основанный на обучающей (TI) и тестовой базах данных. И обуча- ющее, и тестовое множества были составлены на основе произнесений около 113 дикторов (для со- здания каждого множества использовались раз- личные дикторы), которые были разделены на 22 диалектные группы. В этом случае на каждую ци- фру приходилось по 4 модели. Каждая из упомянутых выше баз данных содержит цифровые цепочки различной длины (от 1 до 7 цифр в цепочке). Характеристики распознавателя связанных цифр, ис- пользующего СММ, для перечисленных выше режимов приводятся в табл. 2, в которой указана сред- няя частота ошибок распознавания цепочек для случаев, когда длины этих цепочек были за- ранее не известны (ЗНИ), и для случаев, когда длины це- почек были заранее известны (ЗИ). Результаты приведе- ны как для обучающего множества (на основе которого
118 ТИИЭР, т. 77, № 2, февраль 1989 строились модели слов), так и для независимого тестово- го множества. Таблица 2. Характеристики распознавателя связанных цифр на основе СММ для трех режимов Режимы Обучающее множество Тестовое множество зни зи зни ЗИ С обучением от диктора (50 дикторов) 0.39 0.16 0.78 0.35 С многоми дикторами (50 дикторов) 1.74 0.98 2.85 1.65 Независимый от диктора (50 дикторов) 1.24 0.36 2.94 1.75 VIII. СММ ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ С БОЛЬШИМ СЛОВАРЕМ (6—13, 31, 37, 38, 51, 64—661 Хотя СММ уже успешно применяются для реше- ния задач, связанных с распознаванием изолирован- ных слов и слитной речи, наиболее значимый практический результат, ожидаемый от теории этих моделей (применительно к задачам распознавания ре- чи) — это применение СММ в системах распознавания речи с большим словарем, где распознавание выпо- лняется на основе базисных речевых единиц, размер которых меньше слова. Значение исследований в этой области намного превышает значение исследований в любой другой области обработки речи, да и пробле- матика в ней слишком обширна, для того чтобы об- суждать ее здесь. Поэтому в данном разделе мы лишь кратко опишем общие принципы использования СММ для решения этой задачи. В наиболее перспективных системах (сравнимых, скажем, с системами, которые разрабатываются фир- мами IBM, ВВМ, CMU и рядом других фирм), резуль- таты теории СММ уже применяются для представ- ления фонемоподобных единиц, слов и синтаксиса скрытыми марковскими моделями. Для того чтобы решить задачу распознавания речи, должна использо- ваться трижды вложенная сеть СММ. Это приводит к расширенной сети с астрономическим числом экви- валентных состояний; следовательно, необходима ка- кая-то альтернатива процедуре полного перебора. Среди таких альтернатив — стековый алгоритм [7] и различные виды пучкового поиска Витерби [31]. Эти процедуры уже показали свою пригодность для эф- фективного и надежного оперирования с большими подобными сетями (например, 5000 слов со средним коэффициентом ветвления порядка 100). Однако под- робное обсуждение этих методов выходит за рамки данной статьи. В еще одной попытке применения СММ к распоз- наванию слитной речи используется эргодическая СММ, в которой каждое состояние представляется акустико-фонетической единицей [47], поэтому здесь для представления всех звуков английского языка тре- буется около 40—50 состояний. Эта модель включала различные признаки длительности для каждого состо- яния, с тем чтобы учесть тот факт, что гласные звуки имеют в значительной степени другие характеристики длительности, чем согласные звуки. В этом подходе лексический доступ используется совместно со стан- дартным орфоэпическим словарем, для того чтобы определить наилучшую последовательность из подхо- дящих слов, полученную с выхода СММ, которая мо- делирует используемую в системе лексическую единицу размером меньше слова. Особенности этой системы распознавания также выходят за рамки дан- ной статьи, поскольку цель этого краткого подразде- ла — лишь отметить широкие потенциальные воз- можности ддя представления основных процессов по- рождения речи, а следовательно, их применимость к задачам распознавания для систем с большим словарем. А. Ограничения для СММ Хотя использование результатов теории СММ спо- собствовало новым успехам в распознавании речи, су- ществует ряд ограничений, внутренне присущих этому типу статистических моделей речи. Главным ограни- чением является допущение о том, что последователь- ные наблюдения (сегменты речи) являются независи- мыми, а следовательно, вероятность последователь- ности наблюдений Р (О; О2 • On) может быть пред- ставлена как произведение вероятностей отдельных наблюдений, т. е. г Р(О, О2 • • Ог) = II ИО,). Другим органичением является допущение о том, что распределение параметров отдельных наблюдений с хорошей точностью представимо некоторой смесью гауссовских илн авторегрессионных плотностей. Нако- нец, собственно марковское допущение (т. е. допуще- ние о том, что вероятность пребывания в некотором состоянии в момент времени t зависит только от со- стояния, в котором процесс находился в момент вре- мени I — 1) является, очевидно, неподходящим для звуков речи, где зависимости часто распорстраняются на несколько состояний. Тем не менее несмотря на по- добные ограничения статистические модели с успехом применяются для решения некоторых типов задач распознавания речи. IX. ЗАКЛЮЧЕНИЕ В этой статье мы сделали попытку представить те- орию скрытых марковских моделей, начиная от са- мых простых концепций (дискретных цепей Маркова) и кончая наиболее сложными моделями (моделями с непрерывной плотностью распределения, переменной длительностью). Главной целью статьи было дать фи- зические толкования основным математическим ре- зультатам, что позволило избежать длинных доказа- тельств и выводов и уделить больше внимания интер- претации смысла математических построений и тому, как они могут применяться на практике в реальных системах. Мы также попытались показать применение теории СММ к простым задачам распознавания речи
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ 119 и отметили, что методы, основанные на теории СММ, могут применяться (и уже применяются) в на- иболее перспективных системах распознавания речи. ОТ АВТОРА Автор искренне признателен нескольким своим коллегам, внесшим существенный вклад в изложение в данной статье общей теории скрытых марковских моделей, в особенности д-ру Дж. Фергюсону, д-ру А. Поритцу, д-ру Л. Лайпорейсу, д-ру А. Рихтеру и д-ру Ф. Елинеку, и членам исследовательской группы фир- мы IBM, высказавшим ряд идей по распознаванию ре- чи, выходящих за пределы этих моделей. Автор также выражает благодарность д-ру С. Левинсону, д- ру М. Сондхи, д-ру Ф. Чжану, д-ру А. Дембо и д-ру Й. Эфрайму, внесшим значительный вклад как в тео- рию скрытых марковских моделей, так и в демонстра- цию автору статьи того, как наилучшим образом применить эту теорию к задачам распознавания речи. ЛИТЕРАТУРА [1] L. Е. Baum and Т. Petrie, “Statistical inference for probabi- listic functions of finite state Markov chai ns,“Ann. Math. Stat., vol. 37, pp. 1554-1563, 1966. [2] L. E. Baum and J. A. Egon, “An inequality with applications to statistical estimation for probabilistic functions of a Mar- kov process and to a model for ecology," Bull. Amer. Mete- orol. Soc., vol. 73, pp. 360-363, 1967. [3] L. E. Baum and C. R. Sell, "Growth functions for transfor- mations on manifolds," Рас. J. Math., vol. 27, no. 2, po. 211- 227, 1968. [4] L. E. Baum, T. Petrie, G. Soules, and N. Weiss, “A maximi- zation technique occurring in the statistical analysis of prob- abilistic functions of Markov chains," Ann. Math. Stat., vol. 41, no. 1, pp. 164-171, 1970. [5] L. E. Baum, "An inequality and associated maximization tech- nique in statistical estimation for probabilistic functions of Markov processes," Inequalities, vol. 3, pp. 1-8, 1972. [6] J. K. Baker, “The dragon system—An overview," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-23, no. 1, pp. 24- 29, Feb. 1975. [7] F. Jelinek, "A fast sequential decoding algorithm using a stack," IBM ). Res. Develop., vol. 13, pp. 675-685, 1969. [8] L. R. Bahl and F. Jelinek, “Decoding for channels with inser- tions, deletions, and substitutions with applications to speech recognition,” IEEE Trans. Informat. Theory, vol. IT-21, pp. 404- 411, 1975. [9] F. Jelinek, L. R. Bahl, and R. L. Mercer, "Design of a linguistic statistical decoder for the recognition of continuous speech," IEEE Trans. Informat. Theory, vol. IT-21, pp. 250-256, 1975. jlO] Елинек Ф. Распознавание непрерывной речи статисти- ческими методами. ТИИЭР, 1976, т. 64, № 4, с. 131 — 160. [11] R. Bakis, "Continuous speech word recognition via centi- second acoustic states," in Proc. ASA Meeting (Washington, DC), Apr. 1976. [12] F. Jelinek, L. R. Bahl, and R. L. Mercer, "Continuous speech recognition: Statistical methods," in Handbook of Statistics, II, P. R. Krishnaiad, Ed. Amsterdam, The Netherlands: North- Holland, 1982. [13] L. R. Bahl, F. Jelinek, and R. L. Mercer, “A maximum likelihood approach to continuous speech recognition," IEEE Trans. Pat- tern Anal. Machine Intell., vol. PAMI-5, pp. 179-190, 1983. [14] S. E. Levinson, L. R. Rabiner, and M. M. Sondhi, "An intro- duction to the application of the theory of probabilistic func- tions of a Markov process to automatic speech recognition,” Bel! Syst. Tech. vol. 62, no. 4, pp. 1035-1074, Apr. 1983. [15] В. H. Juang, "On the hidden Markov model and dynamic time warping for speech recognition—A unified view, "AT&T Tech. I., vol. 63, no. 7, pp. 1213-1243, Sept. 1984. [16] L. R. Rabiner and В. H. Juang, "An introduction to hidden Mar- kov models," IEEE ASSP Mag., vol. 3, no. 1, pp. 4-16, 1986. [17] J. S. Bridle, "Stochastic modelsand template matching: Some important relationships between two apparently different techniques for automatic speech recognition," in Proc. Inst, of Acoustics, Autum Conf., pp. 1-8, Nov. 1984. (18] Макхоул Дж., Рукос С., Гиш Г. Векторное квантова- ние при кодировании речи. ТИИЭР, 1985, т. 73, № 11, с. 19—61. (19] Левинсон С. Е. Структурные методы автоматиче- ского распознавания речи. ТИИЭР, 1985, т. 73, №11, с. 100—128. [20] A. W. Drake, “Discrete—state Markov processes," Chapter 5 in Fundamentals of Applied Probability Theory. New York, NY: McGraw-Hill, 1967. [21] A. J. Viterbi, "Error bounds for convolutional codes and an asymptotically optimal decoding algorithm,” IEEE Trans. Informat. Theory, vol. IT-13, pp. 260-269, Aor. 1967. 122] Форчи-мл. Дж. Д. Алгоритм Витерби. ТИИЭР 1973, т. 61, Ks 3, с. 12—25. [23] А. Р. Dempster, N. М. Laird, and D. В. Rubin, "Maximum like- lihood from incomplete data via the EM algorithm," J. Roy. Stat. Soc., vol. 39, no. 1, pp. 1-38, 1977. [24] L. A. Liporace, “Maximum likelihood estimation for multi- variate observations of Markov sources," IEEE Trans. Infor- mat. Theory, vol. IT-28, no. 5, pp. 729-734, 1982. [25] В. H. Juang, "Maximum likelihood estimation for mixture multivariate stochastic observations of Markov chains," AT&T Tech. J., vol. 64, no. 6, pp. 1235-1249, July-Aug. 1985. [26] В. H. Juang, S. E. Levinson, and M. M. Sondhi, "Maximum likelihood estimation for multivariate mixture observations of Markov chains," IEEE Trans. Informat. Theory, vol. IT-32, no. 2, pp. 307-309, Mar. 1986. [27] A. B. Poritz, "Linear predictive hidden Markov models and the speech signal," in Proc. ICASSP '82 (Paris, France), pp. 1291-1294, May 1982. [28] В. H. Juang and L. R. Rabiner, “Mixture autoregressive hidden Markov models for speech signals," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-33, no. 6, pp. 1404-1413, Dec. 1985. [29] M. J. Russell and R. K. Moore, "Explicit modelingof state occu- pancy in hidden Markov models for automatic speech rec- ognition," in Proc. ICASSP '85 (Tampa, FL), pp. 5-8, Mar. 1985. [30] S. E. Levinson, "Continuously variable duration hidden Mar- kov models for automatic speech recognition," Computer, Speech and Language, vol. 1, no. 1, pp. 29-45, Mar. 1986. [31] B. Lowerreand R. Reddy, "The HARPY speech understanding system," in Trends in Speech Recognition, W. Lea, Editor. Englewood Cliffs, NJ: Prentice-Hall, 1980, pp. 340-346. [32] L. R. Bahl, P. F. Brown, P. V. de Souza, and R. L. Mercer, "Max- imum mutual information estimation of hidden Markov model parameters for speech recognition," in Proc. ICASSP '86 (Tokyo, Japan), pp. 49-52, Apr. 1986. [33] Y. Ephraim, A. Dembo, and L. R. Rabiner, "A minimum dis- crimination information approach for hidden Markov mod- eling," in Proc. ICASSP '87 (Dallas, TX), Apr. 1987. [34] В. H. Juang and L. R. Rabiner, "A probabilistic distance mea- sure for hidden Markov models,” AT&T Tech. J., vol. 64, no. 2, pp. 391-408, Feb. 1985. [35] L. R. Rabiner, В. H. juang, S. E. Levinson, and M. M. Sondhi, “Some properties of continuous hidden Markov model rep- resentations," AT&T Tech. J., vol. 64, no. 6, pp. 1251-1270, July- Aug. 1985. [36] F. Jelinek and R. L. Mercer, “Interpolated estimation of Mar- kov source parameters from sparse data," in Pattern Rec- ognition in Practice, E. S. Gelesma and L. N. Kanal, Eds. Amsterdam, The Netherlands: North-Holland, 1980, pp. 381- 397. [37] R. Schv/artz etal., "Context-dependent modeling for acous- tic-phonetic recognition of continuous speech," in Conf. Proc. IEEE Int. Conf, on Acoustics, Speech, and Signal Pro- cessing, pp. 1205-1208, Apr. 1985. [38] K. F. Lee and H. W. Hon, "Large-vocabulary speaker-inde- pendent continuous speech recognition,” in Conf. Proc. IEEE Int. Conf, on Acoustics, Speech, and Signal Processing, pp. 123-126, Apr. 1988.
120 ТИИЭР, т. 77, № 2, февраль 1989 [39] L. R. Rabi пег, S. Е. Levinson, and М. М. Sondhi, "On the appli- cation of vector quantization and hidden Markov models to speaker-independent isolated word recognition/' Bell Syst. Tech. vol. 62, no. 4, pp. 1075-1105, Apr. 1983. [40] , "On the use of hidden Markov models for speaker-inde- pendent recognition of isolated words from a medium-size vocabulary," AT&T Tech. vol. 63, no. 4, pp. 6Z7-642, Apr. 1984. [41] R. Billi, "Vector quantization and Markov source models applied to speech recognition," in Proc. ICASSP '82 (Paris, France), pp. 574-577, May 1982. [42] L. R. Rabiner, В. H. Juang, S. E. Levinson, and M. M. Sondhi, "Recognition of isolated digits using hidden Markov models with continuous mixture densities," AT&T Tech. /., vol. 64, no. 6, pp. 1211-1222, July-Aug. 1986. [43] A. B. Poritz and A. G. Richter, "Isolated word recognition," in Proc. ICASSP ’86 (Tokvo, Japan), pp. 705-708, Apr. 1986. [44] R. P. Lippmann, E. A. Martin, and D. B. Paul, "Multistyle train- ing for robust isolated word speech recognition," in Proc. ICASSP '87 (Dallas, TX), pp. 705-708, Apr. 1987. [45] D. B. Paul, "A speaker stress resistant HMM isolated word recognizer," in Proc. /CASSP'87(Dallas,TX),pp. 713-716, Apr. 1987. [46] V. N. Gupta, M. Lennig and P. MermeUtein, "integration of acoustic information in a large vocabulary word recognizer," in Conf. Proc. IEEE Int. Conf, on Acoustics, Speech, 2nd Sig- nal Processing, pp. 697-700, Apr. 1987. [47] S. E. Levinson, "Continuous speech recognition by means or acoustic-phonetic classification obtained from a hidden Mar- kov model," in Proc. ICASSP '87 (Dallas TX), Apr. 1987. [48] J. G. Wilpon, L. R. Rabiner,and T. Martin, "An improved word detection algorithm for telephone quality speech incorpo- rating both syntactic and semantic constraints," AT&T Bell Labs Tech. vol. 63, no. 3, pp. 479-498, Mar. 1934. [49] J. G. Wilpon and L. R. Rabiner, "Application of hidden Markov models to automatic speech endpoint detection," Computer Speech and Language, vol. 2, no. 3/4, pp. 321-341, Sept./Dec. 1987. [50] A. Averbuch et al., "Experiments with the TANGORA 20,000 word speech recognizer," in Conf. Proc. IEEE Int. Conf on Acoustics, Speech, and Signal Processing, pp. 70I-704, Apr. 1987. [51] B. S. Atal and S. L. Hanauer, "Speech analysis and synthesis by linear prediction of the speech wave," /. Acoust. Soc. Am., vol. 50, pp. 637-655, 1971. [52] F. I. Itakura and S. Saito, "Analysis-synthesis telephony based upon the maximum likelihood method," in Proc. 6th Int. Con- gress on Acoustics (Tokyo, Japan), pp. C17-20, 1968. (53] Макхол Дж. Линейное предсказание. Обзор. ТИИЭР 1975, т. 63, № 4, с. 20—44. (54] Маркел Дж. Д., Грей А. X. Линейное предсказание речи. М.: Связь, 1980. [55] Y. Tokhura, “A weighted cepstral distance measure for speech recognition,” IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-35, no. 10, pp. 1414-1422, Oct. 1987. [56] В. H. Juang, L. R. Rabiner, and J. C. Wilpon, "On the use of bandpass I if tering in speech recognition," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-35, no. 7, pp. 947-954, July 1987. [57] S. Furui, "Speaker independent isolated word recognition based on dynamics emphasized cepstrum," Trans. IECE of japan, vol. 69, no. 12, pp. 1310-1317, Dec. 1986. [58] F. K. Soong and A. E. Rosenberg, "On the use of instantaneous and transitional spectra! information in speaker recogni- tion," in Proc. ICASSP '86 (Tokyo, Japan), pp. 877-880, Apr. 1986. [59] L. R. Rabiner. J. C. Wilpon, and В. H. Juang, "A segmental k- means training procedure for connected word recognition," AT&T Tech. J., vol. 65, no. 3, pp. 21-31, May-June 1986. [60] L. R. Rabiner and S. E. Levinson, "A speaker-independent, syntax-directed, connected word recognition system based on hidden Markov models and level building," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-33, no. 3, pp. 561- 573, June 1985. [61] L. R. Rabiner. J. C. Wilpon, and В. H. Juang, "A model-based connected digit recognition system using either hidden Mar- kov models or templates," Computer, Speech, and Language, vol. 1, no. 2, pp. 167-197, Dec. 1986. [62] H. Bourlard, Y. Kamp, H. Nev, and C. J. Wellekens, "Speaker- dependent connected speech recognition via dynamic pro- gramming and statistical methods," in Speech and Speaker Recognition. M. R. Schroeder, Ld. Basel, Switzerland: Kar- ger, 1985, pp. 115-148. [63] C. J. Wellekens, "Globa! connected digit recognition using Baum-Welch algorithm,' in Prc.c. ICnSSP '86 (Tokyo. Japan,*, pp. 1081-1084, Apr. 1986. [64] A. M. Derouault, "Context dependent phonetic Markov models for large vocabulary soeech recognition," m Proc. ICASSP '87 (Dallas, TX), Paper 10.1.1, pp. 360-363, Apr. 198". [65] B. Merialdo, "Speech recognition with very large size dictio- nary." in Proc. ICASSP '87 (Dallas. TX), Paper 10.2.2, pp 3&4- 367' Apr. 1987. [66] Y. L. Chow etai., "BYBLOS: The BBN continuous speech rec- ognition system," in Proc. ICASSP '87(Dallas, TX), Paper 3.”.1, pp. 89-92, Apr. 1987. Лоренс P. Рабинер родился в 1943 г. Степень доктора фи- лософии в области электротехники получил в Массачусетском технологическом институте в 1967 г. С 1962 по 1964 г. уча- ствовал в комплексной электротехнической разработке фирмы Bell Laboratories, Уиппени и Марри-Хилл, шт. Нью-Джерси. Занимался цифровыми устройствами, проблемами военной связи и проблемами бинаурального слуха. В настоящее время занят исследованиями в области распознавания речи и мето- дов цифровой обработки сигналов в Beil Laboratories, Марри- Хилл, шт. Нью-Джерси. Соавтор следующих трех книг: Theory and Application of Digital Signal Processing («Теория и применения цифровой обработки сигналов»), Prentice-Hall, 1975; Digital Processing of Speech Signals («Цифровая обработка речевых сигналов»), Prentice-Hall, 1378; Multirate Digital Signal Processing («Многоуровневая цифровая обработка сиг- налов»), Prentice-Hall, 1983. Член Национальной инженер- ной академии, почетный член Американского акустического общества.