Автор: Дурбин Р. Эдди Ш. Крог А. Митчисон Г.
Теги: общая генетика общая цитогенетика иммуногенетика эволюционное учение видообразование филогенез биология молекулярная биология биологические науки биоинформатика
ISBN: 5-93972-559-7
Год: 2006
S Р. Дурбин,
. А/ ш.эдди,
крог’
VVi С Г‘ Митчисон t '_> 4
Анализ биологических
последовательностей
Вероятностные модели
белков и нуклеиновых кислот
ф
^Л?ТГ<ш "'<с'
Biological sequence analysis
Probabilistic models of proteins and nucleic acids
Richard Durbin
Sean R. Eddy
Anders Krogh
Graeme Mitchison
CAMBRIDGE
UNIVERSITY PRESS
Р. Дурбин
Ш.Эдди
А. Крог
Г. Митчисон
АНАЛИЗ БИОЛОГИЧЕСКИХ
ПОСЛЕДОВАТЕЛЬНОСТЕЙ
Вероятностные модели
белков и нуклеиновых кислот
Перевод с английского
д.б.н., к.ф-м.н., профессора А. А. Миронова
Москва ♦ Ижевск
2006
УДК 575, 519
Интернет-магазин
http://shop.rcd.ru
• физика
• математика
• биология
• нефтегазовые
технологии
Книга издана при финансовой поддержке факультета биоинже-
нерии и биоинформатики МГУ.
Дурбин Р., Эдди Ш., Крог А., Митчисон Г.
Анализ биологических последовательностей. — М.-Ижевск: НИЦ «Ре-
гулярная и хаотическая динамика», Институт компьютерных исследова-
ний, 2006. - 480 с.
Предлагаемая книга отражает современное состояние сравнительно новой,
но весьма важной и стремительно развивающейся области науки, находящейся
на стыке молекулярной биологии и генетики, математики (статистики и теории
вероятностей) и информатики. Впервые предпринимается попытка представить
научный обзор известных на сегодняшний день методов анализа биологических
последовательностей, особое внимание уделяется вероятностному моделирова-
нию. Подробно рассматриваются скрытые модели Маркова, профильные иссле-
дования, анализ вторичной структуры РНК, филогенетический анализ, парное
и многомерное выравнивание.
Поскольку книга носит междисциплинарный характер, она будет интересна
широкому кругу специалистов в области молекулярной биологии, информатики
и математики.
ISBN 5-93972-559-7 1 5 7 9 0 4 9 S '''
Translation from the English language edition:
Biological Sequence Analysis
Probabilistic Models of Proteins and Nucleic Acids
by Richard Durbin, Sean R. Eddy, Anders Krogh, Graeme Mitchison
Copyright © Cambridge University Press 1998
All Rights Reserved
© НИЦ «Регулярная и хаотическая динамика», 2006
Оглавление
Предисловие к русскому изданию 8
Предисловие................................................ 11
Глава 1. Введение ......................................... 15
1.1. Сходство, гомология и выравнивание последовательностей 16
1.2. Обзор книги ....................................... 17
1.3. Вероятности и вероятностные модели................. 20
1.4. Дополнительное чтение.............................. 28
Глава 2. Выравнивание двух последовательностей............. 29
2.1. Введение........................................... 29
2.2. Схема оценки ...................................... 31
2.3. Алгоритмы выравнивания............................. 36
2.4. Динамическое программирование с более сложными моде-
лями .................................................... 51
2.5. Эвристические алгоритмы выравниваний............... 57
2.6. Выравнивание с линейной памятью.................... 60
2.7. Значимость весов .................................. 62
2.8. Извлечение весовых параметров из данных по выравнива-
нию ..................................................... 70
2.9. Дополнительное чтение.............................. 75
Глава 3. Цепи Маркова и скрытые марковские модели 77
3.1. Цепи Маркова....................................... 79
3.2. Скрытые марковские модели 84
3.3. Оценка параметров НММ 97
3.4. НММ структура модели ............................. 105
3.5. Более сложные цепи Маркова......................... ПО
3.6. Численная устойчивость НММ алгоритмов............. 117
3.7. Дополнительное чтение............................. 120
6
Оглавление
Глава 4. Парное выравнивание с помощью НММ 121
4.1. Парные НММ........................................ 122
4.2. Полная вероятность х и у, суммированная по всем путям 130
4.3. Субоптимальное выравнивание....................... 133
4.4. Апостериорная вероятность того, что выравнивается с yj 136
4.5. Сравнение парных НММ с FSA для задачи поиска сходства 141
4.6. Дополнительное чтение............................. 145
Глава 5. Применение профильных НММ к семействам последо-
вательностей ...........................................146
5.1. Безделеционная матрица весов...................... 148
5.2. Добавление состояний вставок и делений............ 149
5.3. Построение профильной НММ по множественному вырав-
ниванию ............................................... 153
5.4. Поиск при помощи профильных НММ................... 156
5.5. Варианты профильной НММ для не-глобального вырав-
нивания ............................................... 162
5.6. К вопросу об оценке вероятностей.................. 165
5.7. Построение оптимальной модели..................... 173
5.8. Взвешивание обучающей выборки...................... 177
5.9. Дополнительное чтение.............................. 186
Глава 6. Методы множественного выравнивания последова-
тельностей .............................................188
6.1. Что означает множественное выравнивание............ 189
6.2. Вес множественного выравнивания.................... 192
6.3. Многомерное динамическое программирование 196
6.4. Методы прогрессивного выравнивания ................200
6.5. Множественное выравнивание путем обучения профиль-
ных НММ ................................................207
6.6. Дополнительное чтение..............................220
Глава 7. Построение филогенетических деревьев..............221
7.1. Дерево жизни ..................................... 221
7.2. Основные сведения о деревьях.......................222
7.3. Построение дерева по попарным расстояниям 228
7.4. Наибольшая бережливость............................237
7.5. Оценка деревьев: бутстрап..........................244
7.6. Выравнивание и филогения одновременно .............245
Оглавление
7
7.7. Дополнительное чтение..............................257
7.8. Приложение: доказательство теоремы ближайшего соседа 258
Глава 8. Вероятностные подходы к филогении.................261
8.1. Введение.......................................... 261
8.2. Вероятностные модели эволюции .....................263
8.3. Вычисление правдоподобия для безделеционных выравни-
ваний ..................................................267
8.4. Использование правдоподобия для восстановления .... 277
8.5. На пути к более реалистичным эволюционным моделям . 289
8.6. Сравнение вероятностных и не-вероятностных методов . . 300
8.7. Дополнительное чтение..............................310
Глава 9. Трансформационные грамматики 312
9.1. Трансформационные грамматики.......................313
9.2. Регулярные грамматики..............................317
9.3. Контекстно-свободные грамматики 324
9.4. Контекстно-зависимые грамматики 331
9.5. Вероятностные грамматики...........................334
9.6. Вероятностные контекстно-свободные грамматики для мо-
делирования последовательностей ....................... 338
9.7. Дополнительное чтение..............................346
Глава 10. Анализ структуры РНК.............................347
10.1. РНК...............................................348
10.2. Предсказание вторичной структуры РНК..............358
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 369
10.4. Дополнительное чтение.............................399
Глава 11. Сведения из теории вероятностей..................402
11.1. Вероятностные распределения.......................402
11.2. Энтропия..........................................410
11.3. Статистическая оценка параметров..................418
11.4. Выборки и их построение с помощью генератора случай-
ных чисел...............................................422
11.5. Оценивание вероятности по количеству исходов......431
11.6. Алгоритм ЕМ.......................................436
Список литературы..........................................441
Предметный указатель.......................................469
Предисловие к русскому изданию
Теоретические работы в области анализа нуклеотидных последо-
вательностей начались почти сразу после открытия генетического кода.
Хотя в те времена еще не было создано эффективных методов секвениро-
вания нуклеотидных последовательностей, но уже по первым коротким
расшифрованным последовательностям транспортных РНК были сдела-
ны первые важные выводы о ее вторичной структуре [Эйген]. Пример-
но в то же время появились первые (теперь уже классические) работы
по сравнению аминокислотных последовательностей [Needleman] — по-
скольку до изобретения эффективных методов определения нуклеотид-
ных последовательностей определять последовательность белков было
проще.
В конце 70-х годов 20-го века были разработаны достаточно эф-
фективные методы определения первичной структуры нуклеиновых кис-
лот и первые же достаточно длинные опубликованные последовательно-
сти вектора pBR-322, бактериофага фх-174 и вируса зеленой мартышки
SV-40 потребовали серьезного применения компьютеров для их анали-
за. К этому времени и следует относить зарождение новой области нау-
ки — вычислительной молекулярной биологии (computational molecular
boilogy) или биоинформатики. Собственно название этой дисциплины,
специальные журналы и конференции, посвященные этой области, по-
явились позже — в начале 80-х.
Первые работы, по анализу нуклеотидных последовательностей бы-
ли посвящены самым разным задачам. Здесь были и простейшие (но
необходимые) задачи поиска сайтов рестрикции, открытых рамок, или
трансляции нуклеотидной последовательности в аминокислотную, и бо-
лее сложные задачи выравнивания и поиска локальных гомологий,
предсказания кодирующих областей, предсказания вторичных струк-
тур РНК, статистического анализа нуклеотидных последовательностей,
поиска сигналов, восстановление нуклеотидной последовательности по
фрагментам, а также целый ряд других задач. Несколько отдельно сто-
яли задачи, не связанные непосредственно с анализом нуклеотидных и
аминокислотных последовательностей, такие как физическое картирова-
ние молекул ДНК.
Предисловие к русскому изданию
9
К концу 80-х годов объем банков данных превысили 106 основа-
ний, причем появились последовательности первых достаточно больших
полных геномов — бактериофага Ламбда и вируса Эпштейна-Барра. Со-
ответственно изменились и задачи. Стали весьма актуальными задачи
поддержания банков данных, поиска гомологий по банкам последова-
тельностей, установление перекрестных ссылок и т.п. Старые классиче-
ские задачи также несколько изменились. Возникли проблемы опреде-
ления статистической значимости сходства последовательностей, появи-
лись новые семейства сигналов, расширялось секвенирование эукарио-
тических последовательностей, что в свою очередь поднимало проблему
определения экзон-интронной структуры генов.
Начало 90-х годов ознаменовано началом роботы над проектом «Ге-
ном человека». Этот проект по своим масштабам сравним с атомным
проектом конца сороковых или проектом полета на «Луну шестидесятых
годов, но в отличие от этих проектов «Геном человека» является между-
народным проектом, в работу над ним вовлечены специалисты Америки,
Европы, Японии, России. Одним из важнейших направлений проекта
«Геном человека» является биоинформатика. Ни у кого теперь не вызы-
вает сомнений необходимость применения современных информацион-
ных технологий и математических методов для обработки колоссальных
объемов информации. Кроме того, сформировалась новая парадигма экс-
периментальной работы — получение массовых данных и дальнейший
их компьютерный анализ. В качестве примеров такого подхода можно
привести массовое секвенирование EST — коротких фрагментов цито-
плазматической РНК, анализ экспрессии генов, картирование полимор-
физмов. Необходимо отметить, что современная биоинформатика уже не
является только вспомогательной отраслью то ли биологии то ли мате-
матики, а является вполне сформировавшейся областью биологической
науки, интенсивно использующей современные математические методы
для получения биологических результатов.
Несмотря на значимость биоинформатики в настоящее время очень
мало современной литературы на русском языке. К сожалению, среди
биологов до сих пор распространен подход «компьютер посчитал и вот
вам результат». При этом они часто не задумываются о смысле и при-
менимости используемых методов и корректности результатов.
Предлагаемая Вашему вниманию книга посвящена весьма важно-
му аспекту анализа нуклеотидных и аминокислотных последовательно-
стей — вероятностным моделям. Сейчас вероятностное моделирование
является одним из важнейших и наиболее продуктивных подходов к
решению многих задач биоинформатики. Скрытые марковские модели
10
Предисловие к русскому изданию
встречаются почти в половине статей, посвященных исследованию ами-
нокислотных и нуклеотидных последовательностей. При этом авторы за-
частую не понимают до конца смысл использованных программ и рамок
их применимости.
Книга дает интуитивно понятное представление о том, как работают
те или иные методы анализа последовательностей. При этом книга ни в
коей мере не является «путеводителем по программам». Напротив, в ней
изложены в основном идеи и алгоритмы, которые используются в совре-
менной биоинформатике, что, несомненно, гораздо важнее. В конце кон-
цов, в программе можно разобраться, если основные идеи, применяемые
в биоинформатике известны. Обратное неверно — знание как запускать
программу практически никогда не дает представления об идеях. Авторы
смогли найти весьма удачный баланс между математической строгостью
изложения и интуитивным пониманием методов.
Книга рассчитана, с одной стороны, на продвинутых биологов, ин-
тересующихся методами биоинформатики, а с другой — на математиков,
желающих применить свои силы в области биоинформатики. Потенци-
альными читателями книги являются аспиранты и студенты, специали-
зирующиеся в области биоинформатики, а также широкий круг исследо-
вателей, использующих или развивающих биоинформатику.
Математики, прежде чем начинать заниматься биоинформатикой
постарайтесь преодолеть свой математический снобизм. Работая в лю-
бой прикладной области, и, в частности, в биоинформатике, вы должны
разобраться с содержательной стороной молекулярной биологии. Имейте
в виду, что никто вам не принесет четко сформулированные математи-
ческие задачи.
Биологи, прежде, чем использовать методы биоинформатики, и, тем
более работать в этой области постарайтесь преодолеть свой снобизм и
комплексы. Во-первых, многие важные результаты могут быть получены
и без (или до) эксперимента. Надо только применять правильные методы
и понимать, что они могут и чего не могут. В особенности это касается
анализа массовых данных. Во-вторых — не бойтесь формул. На самом
деле они только делают изложение более ясным.
Предисловие
На конференции по нейронным сетям, проходившей в Сноудерде в
1992 году, Дэвид Хауслер (David Hussler) и его коллеги из университета
Калифорнии в Санта-Крузе (включая одного из нас, А. Крофа, A. Krogh)
описали предварительные результаты моделирования множественного
выравнивания белков с помощью вероятностных моделей, называемых
«скрытыми марковскими моделями» (НММ). Экземпляры технического
отчета этого исследования пользовались широкой популярностью. Один
из них попал в лабораторию молекулярной биологии центра медицинских
исследований (MRC) в Кембридже, где Р. Дурбин (R. Durbin) и Г. Мит-
чисон (G.Mitchinson) только что переключились с исследований в об-
ласти нейронных сетей на компьютерный анализ геномных последова-
тельностей. В это время в эту же лабораторию пришел молодой постдок
С. Эдди (S. Eddy), который имел опыт работы в области эксперименталь-
ной молекулярной генетики и интересовался компьютерным анализом.
Позже А. Кроф также пришел в эту лабораторию.
Все мы быстро восприняли идеи вероятностного моделирования.
Мы были убеждены, что скрытые марковские модели и аналогичные
им вероятностные грамматики являются прекрасными математически-
ми объектами, хорошо приспособленными для выявления информации,
скрытой в биологических последовательностях. Группы в Санта-Крузе
и в Кембридже независимо друг от друга создали свободно распро-
страняемые основанные на НММ программные продукты для анализа
последовательностей, и независимо друг от друга расширили методы
НММ на вероятностные контекстно-свободные грамматики для анализа
вторичных структур РНК. Другая группа в Калтехе, возглавляемая Пье-
ром Балди (Pierre Baldi), примерно в то же время также вдохновилась
подходами, основанными на использовании НММ, представленными на
конференции в Сноуберде.
К концу 1995 года мы подумали, что мы приобрели достаточно опы-
та в технике вероятностного моделирования. С другой стороны, мы так-
же чувствовали, что весьма небольшая часть этой работы достаточно
эффективно представлена для научного сообщества. Несмотря на широ-
12
Предисловие
кий интерес к НММ, эта техника рассматривалась скорее как матема-
тический черный ящик, а не как естественная модель для выравнивания
последовательностей. Множество прекрасных работ с описанием идей
и методов НММ посвящены распознаванию речи и были практически
недоступны для биологов. Более того, для нас и других групп станови-
лось очевидным, что эти же идеи можно применить к значительно более
широкому классу задач, включая моделирование структуры белков, по-
иск генов, филогенетический анализ. Во время Рождественских каникул
на рубеже 1995-96 годов, быть может, находясь в заблуждении в связи
с нашими амбициями, наивностью и праздничным расслаблением, мы
решили написать книгу, посвященную анализу биологических последо-
вательностей с упором на вероятностное моделирование. По прошествии
двух лет наши грандиозные план привели к возникновению, как мы на-
деемся, практической книги.
Эта субъективная книга написана авторами, которые имеют свое
мнение. Это не учебник по анализу последовательностей. Наша основ-
ная цель — дать доступное введение в основы анализа последовательно-
стей и показать, почему мы думаем, что подходы, основанные на веро-
ятностном моделировании, являются полезными. Мы пытались избегать
обсуждения конкретных компьютерных программ и вместо этого мы фо-
кусировались на алгоритмах и принципах, лежащих в их основе.
Мы аккуратно цитировали работы многих авторов, оказавших вли-
яние на наше мышление. Однако мы уверены, что мы пропустили ряд
работ, которые нам следовало прочитать, в связи с чем приносим свои
извинения. Кроме того, при написании книги, которая с необходимостью
затрагивает темы от эволюционной биологии через теорию вероятностей
и до биофизики, мы были ограничены временем, собственной энергией,
и нашим неполным пониманием, что не позволило нам охватить многие
аспекты в этой книге.
Вычислительная биология является междисциплинарной областью,
и исследователи, работающие в этой области, включая нас, пришли из
разных областей, включающих молекулярную биологию, математику, те-
оретическое программирование (computer science), физику. Наша потен-
циальная аудитория это аспиранты и продвинутые студенты, специали-
зирующиеся в одной из этих областей науки. Нашей целью было дать
интуитивное представление, что не является ни предельно математич-
ным, ни технически биологичным.
Мы предполагаем, что читатель знаком с основными принципами
молекулярной генетики, такими, как Центральная догма, согласно кото-
рой по ДНК строится РНК, а по РНК строится белок, и что нуклеиновая
Предисловие
13
кислота может быть представлена как последовательность, составленная
из четырех типов нуклеотидов, а белок — это последовательность, состо-
ящая из двадцати аминокислот. Другие детали молекулярной генетики
будут вводиться по мере надобности. Мы предполагаем также базовые
знания из математики, однако в книге есть разделы с большими мате-
матическими деталями. Мы старались помещать такие разделы ближе
к концу каждой главы и в целом ближе к концу книги. В частности,
глава 11 посвящена некоторым разделам теории вероятностей, которые
используются в предыдущих главах.
Мы благодарны нескольким коллегам, которые любезно согласились
проверить части рукописи по первой просьбе. Мы благодарим Евана
Бирни (Ewan Birney), Билла Бруно (Bill Bruno), Дэвида Маккея (David
MacKay), Катти Едди (Cathy Eddy), Джотуна Хейна (Jotun Hein), и осо-
бенно Серен Рис (Soren Riss). Брет «Ларгет (Bret Larget) и Роберт Мау
(Robert Mau) предоставили нам полезную информацию о методах сем-
плирования, использующихся в филогении. Дэвид Хауслер смело ис-
пользовал раннюю весьма версию рукописи при чтении курса в Универ-
ситете Калифорнии в Санта-Крузе весной 1996 года, и мы благодарим
Дэвида и весь его курс за полезные замечания. Мы также весьма благо-
дарны Дэвиду за то, что он впервые указал нам на эту интересную об-
ласть. Нам весьма приятно готовить издание с Дэвидом Транахом (David
Tranah) и Марией Мерфи (Maria Murphy) из издательства Кембридж-
ского Университета и Сью Гловер (Sue Glover) из издательства SG. Они
продемонстрировали нам великолепную работу при редактировании в
Latex текстов, нагруженных уравнениями, алгоритмами и псевдокодом,
и были весьма терпимыми к нашему дикому оптимизму и неаккурат-
ности в представлении материалов в срок. Мы уверены, что некоторые
наши ошибки остались, но их было бы намного больше без помощи этих
людей.
Мы также благодарим тех, кто поддерживал наши исследования и
нашу работу над книгой: Белком Траст (Welcome Trust), Националь-
ный институт исследования генома человека при Национальных инсти-
тутах здоровья (NIH National Human Genome Research Institute), Эли
«Лили (Eli Lilly & Co), организации «Передний край науки о человеке»
(Human Frontiers Science Organization), Национальный научный фонд
Дании (Danish National Research Foundation). Мы также благодарим на-
ши институты: центр Сэнгера (Sanger Centre — Р. Дурбин), Медицин-
ская школа Вашингтонского Университета (Washington University School
of Medicine — С.Едди), Центр анализа биологических последовательно-
стей (Center for Biological Sequence Analysis — А. Кроф) и лаборато-
14 Предисловие
рию молекулярной биологии центра медицинских исследований (MRC
Laboratory of Molecular Biology — Г.Митчинсон). Джим и Энн Дурбин
(Jim and Anne Durbin) любезно позволили нам использовать их дом
в Лондоне в феврале 1997 года, где был почти финальные черновики
книги были сведены воедино в результате интенсивного обсуждения и
согласования. Мы благодарим наших друзей, семьи и исследовательские
группы за терпимое отношение к процессу написания книги и за длин-
ное путешествие в Англию С. Едди и А. Крофа. Мы обещаем не браться
за новые большие проекты, по крайней мере не сразу.
Глава 1
Введение
Астрономия началась тогда, когда вавилоняне создали первые кар-
ты звездного неба. Наши потомки, конечно, не скажут, что биология
началась с современных геномных проектов, но они поймут, насколь-
ко ускорилось накопление биологических знаний именно в наше время.
Осмысление этого знания является сложной проблемой и требует более
глубокого понимания биологии клетки и организмов. Но важная часть
проблемы состоит просто в организации, классификации и структуриро-
вании необъятного богатства последовательностей. Это нечто большее,
чем абстрактная задача грамматического разбора строк, потому что за
строками оснований или аминокислот стоит вся сложность молекуляр-
ной биологии. Эта книга рассказывает о методах, которые в принципе
способны преодолеть эту сложность посредством интегрирования раз-
личных источников биологической информации в ясные, общие и легко
поддающиеся обработке вероятностные модели анализа последователь-
ностей.
Несмотря на то, что эта книга о компьютерной биологии, следу-
ет помнить: наиболее надежный способ определить структуру и функ-
цию биологической молекулы — это прямой эксперимент. Однако на-
много легче получить последовательность ДНК гена, соответствующего
РНК или белку, чем экспериментально определять его структуру или
функции. Это является мощным стимулом для развития компьютерных
методов, позволяющих выводить биологическую информацию непосред-
ственно из последовательности. Компьютерные методы стали особенно
важны с появлением геномных проектов. Только проект генома челове-
ка дал примерно от 70000 до 100000 необработанных генов человека,
лишь малая толика из которых изучена экспериментально1.
1Это предварительные оценки количества генов в геноме человека. Завершение проек-
та «Геном человека» показало, что на самом деле количество генов значительно меньше
(примерно 25 тыс.). — Прим. ред.
16
Глава 1
Большинство проблем компьютерного анализа последовательностей
по существу являются статистическими. В геномах происходят стоха-
стические эволюционные процессы. Выделение важных сходств между
давно эволюционно разошедшимися последовательностями среди хаоса,
образованного случайными мутациями, естественным отбором и генети-
ческим дрейфом. Это позволяет рассматривать задачи анализа последо-
вательностей как задачи выделения сигнала из шума. Многие наиболее
мощные методы используют теорию вероятности. В этой книге мы дела-
ем акцент на использовании вероятностных методов в частности скры-
тых марковских моделей (НММ). Мы постараемся представить в этой
книге общую картину применения статистики для решения широкого
круга проблем анализа последовательностей.
1.1. Сходство, гомология и выравнивание
последовательностей
Природа это ремесленник, а не изобретатель [Jacob 1977]. Новые
последовательности строятся из ранее существовавших, а не порожда-
ются de novo. Это очень выгодно для компьютерного анализа. Часто
удается установить существенное сходство между новой последователь-
ностью и последовательностью, о которой что-либо уже известно. При
этом мы можем перенести часть информации о структуре и/или функ-
ции известной последовательности на новую последовательность. Две
родственные последовательности называются гомологами, и мы перено-
сим информацию по гомологии. На первый взгляд решение о том, что
две биологических последовательности имеют сходство не отличается
от решения о том, что две текстовых строки имеют сходство. Поэтому
многие методы анализа биологических последовательностей берут нача-
ло в теоретическом программировании2, где существует богатая литера-
тура, посвященная сравнению текстовых строк. Концепция выравнива-
ния более сложная. Эволюционирующие последовательности накапли-
вают вставки, делеции и замены, таким образом, для оценки сходства
последовательностей необходимо построить правильное выравнивание.
Почти все методы выравнивания предусматривают нахождение наи-
лучшего выравнивания строк в соответствии с некоторой схемой оценок.
Эти схемы могут быть очень простыми, как например +1 для совпаде-
ния и -1 для несовпадения. Действительно, многие ранние алгорит-
2К сожалению, в русском языке нет адекватного аналога термину “Computer science”.
Поэтому, В зависимости от контекста мы будем его переводить как «теоретическое про-
граммирование» или «теория алгоритмов». — Прим. ред..
1.2. Обзор книги
17
мы выравнивания описаны в этих терминах. Однако, желательно полу-
чить схему оценок, присваивающую более высокую оценку биологически
правильному выравниванию, учитывающему тот факт , что биологиче-
ская молекула имеет историю эволюции, пространственную структуру
и другие черты, которые ограничивают эволюцию их последовательно-
стей. Поэтому кроме алгоритмов выравнивания, методы построения си-
стемы оценок должны быть тщательно построены и могут быть очень
сложными.
Развитие более чувствительных схем оценок и вычисление значимо-
сти оценки выравнивания является скорее сферой статистики, нежели
теории алгоритмов. Одним из первых достижений в этой области было
создание вероятностной матрицы оценки парных выравниваний амино-
кислот [Dayhoff, Eck & Park 1972, Rayhoff,Schwartz & Orcutt 1978], пред-
назначенной для определения эволюционной предпочтительности одних
замен перед другими. Много изощренных подходов к вероятностным мо-
делям привносились в компьютерную биологию из разных источников.
Методы вероятностного моделирования значительно расширили область
приложения, что позволило создать практичную и связную теорию. Она
дала естественный подход, который можно применять к комплексным
задачам компьютерного анализа последовательностей.
1.2. Обзор книги
Книга разбита на 4 независимых части раскрывающих проблемы
парного выравнивания, множественного выравнивания, филогенетиче-
ских деревьев и структуры РНК. На рисунке 1 показано рекомендуемый
путь по главам в форме конечного автомата — одного из видов моделей
используемых в книге.
Рис. 1.1. Обзор книги и рекомендованные пути через нее
18
Глава 1
Отдельные главы раскрывают следующие темы:
2. Парное выравнивание. Мы начинаем с решения проблемы — яв-
ляются пары последовательностей эволюционно близкими или нет.
Мы исследуем традиционные алгоритмы парного выравнивания и
сравнения, которые используют динамическое программирование
для нахождения оптимального выравнивания с делециями. Мы ана-
лизируем параметры оценки качества и обсуждаем статистическую
значимость сопоставлений.
3. Марковские цепи и скрытые марковские модели. Мы вводим по-
нятие скрытых марковских моделей (НММ3) и как они использу-
ют модель последовательности или семейства последовательностей.
В главе рассмотрены все основные НММ алгоритмы и теории на
простых примерах.
4. Парное выравнивание с использованием НММ. Вооруженные те-
орией НММ, мы пересматриваем подход в парному выравниванию.
Мы рассматриваем специальный вид НММ моделирующий пару вы-
ровненных последовательностей. Мы показываем как подход, бази-
рующийся на НММ, позволяет найти несколько путей увеличения
точности выравнивания и оценки сходства, не строя никакого вы-
равнивания.
5. Профильные НММ для семейств последовательностей. Мы рас-
сматриваем проблему поиска последовательностей, гомогичных из-
вестному эволюционному семейству или суперсемейству. Один из
стандартных подходов к этой проблеме состоит в использовании
позиционно-специфичных оценочных параметров полученных с по-
мощью множественного выравнивания. Мы описываем стандарт-
ную форму НММ, называемую профильным НММ для моделирова-
ния семейств белковых последовательностей и последовательностей
ДНК, базирующуюся на множественных выравниваниях. Особен-
ное внимание уделяется параметрам оценки оптимального поиска
новых членов семейства, включая обсуждение схем взвешивания
последовательностей.
6. Методы множественного выравнивания. Одной из близких про-
блем является проблема множественного выравнивания последо-
вательностей или семейства последовательностей. Мы рассмотрим
3Мы будем использовать англоязычную аббревиатуру «НММ» для обозначения скры-
тых марковских моделей. Это объясняется тем, что англоязычная аббревиатура уже при-
жилась в среде российских биоинформатиков.
1.2. Обзор книги
19
существующие алгоритмы множественного выравнивания с точки
зрения построения вероятностной модели перед тем, как опишем
алгоритмы множественного выравнивания, базирующиеся на про-
фильных НММ.
7. Построение филогенетических деревьев. Одним из самых инте-
ресных вопросов в биологии является изучение филогении. Как и
когда гены и виды эволюционируют? Мы делаем обзор некоторых
популярных методов построения эволюционных деревьев включаю-
щих кластерные методы, методы расстояний и бережливости. Глава
заканчивается описанием алгоритма максимальной бережливости
Хейна для одновременного выравнивания и вывода филогенетиче-
ского дерева семейства последовательностей.
8. Вероятностный подход к филогении. Мы описываем приложение
вероятностных моделей к филогении, включающих вычисление мак-
симальной вероятности оценок дерева и методов отбора апостери-
орного распределения вероятностей над пространством деревьев.
Здесь мы также даем вероятностную интерпретацию методов, опи-
санных в предыдущей главе.
9. Трансформационные грамматики. Мы описываем скрытые марков-
ские модели как самый низкий уровень иерархии трансформаци-
онных грамматик Хомского. Мы обсуждаем использование более
сложных трансформационных грамматик в качестве вероятностных
моделей биологических последовательностей и даем введение в опи-
сание стохастических контекстно-свободных грамматик как следу-
ющего уровня иерархии Хомского.
10. Анализ структуры РНК. НММ и другие методы анализа последо-
вательностей не подходят для анализа вторичной структуры РНК.
В связи с этим предлагается использовать для этой цели стохасти-
ческие контекстно-свободные грамматики. Анализ включает пред-
сказание вторичной структуры РНК, построение выравнивания с
учетом вторичной структуры и поиск гомологов в базах данных с
учетом вторичной структуры.
И. Основы вероятностей. Наконец, мы дадим более формальное опи-
сание математического и статистического инструментария, исполь-
зуемого в довольно неформальном стиле на протяжении книги.
20
Глава 1
1.3. Вероятности и вероятностные модели
Некоторые основные принципы использования вероятностей необ-
ходимы для понимания каждой главы данной книги, поэтому перед тем,
как мы начнем анализировать последовательности, мы кратко изложим
ключевые идеи и методы. Для многих читателей это будет знакомая
территория. Однако, может быть полезно хотя бы бегло перелистать
эту главу, чтобы ухватить систему обозначений и некоторые основные
идеи, которые мы будем развивать далее в книге. За исключением это-
го очень сжатого вступления, мы старались минимизировать обсужде-
ние абстрактной теории вероятностей в центральных главах этой книги,
и сконцентрировали математические выводы и методы в главе 11, кото-
рая содержит более полное описание относящихся к делу теорий.
Что мы подразумеваем под вероятностной моделью? Когда мы гово-
рим о модели, мы подразумеваем систему, которая воспроизводит рас-
сматриваемый объект. Вероятностная модель порождает различные ре-
зультаты с различными вероятностями. Таким образом вероятностная
модель воспроизводит целый класс объектов присваивая каждому объек-
ту соответствующую вероятность. В нашем случае объектами являются
последовательности и модель должна описывать семейство родственных
последовательностей.
Рассмотрим очень простой пример. Известной вероятностной моде-
лью с множеством дискретных исходов является бросание шестигранной
игральной кости. Модель бросания (возможно неправильной) кости бу-
дет иметь шесть параметров pi,... ,р6 вероятность выпадения i равна pi.
Поскольку параметры pi являются вероятностями, они должны удовле-
6
творять следующим требованиям р^ 0 и Рг — 1- Если для после-
г=1
довательности из трех последовательных бросаний кости мы принимаем
модель, в которой результаты бросков независимы, то вероятность по-
следовательности [1,6,3] будет равна произведению PiPePz. Мы будем
использовать игральную кость повсюду в начале книги, для того чтобы
дать интуитивное представление о вероятностных моделях.
Рассмотрим второй пример более близкий к нашей биологической
тематике, который является простейшей моделью белковой или ДНК
последовательности. Биологические последовательности это строки сим-
волов с конечным алфавитом кислотных остатков, из четырех нуклео-
тидов или двадцати аминокислот. Предположим, что остаток а случай-
но встречается в последовательности с вероятностью qa независимо от
других аминокислотных остатков или нуклеотидов. Если последователь-
1.3. Вероятности и вероятностные модели
21
ность аминокислот или нуклеотидов представить как zi,...,zn, то ве-
роятность всей последовательности будет тогда произведением4
Qx\ Qx2 • • • Qx7l — J •
Мы будем использовать эту модель случайной последовательности по-
всюду как модель базового уровня или нулевую гипотезу для сравнения
с другими моделями.
Оценка наибольшего правдоподобия
Параметры вероятностной модели обычно оценивают на основе
большого количества примеров, называемых обучающим множеством.
Например, вероятность qa для аминокислоты а может быть получена как
наблюдаемая частота аминокислотного остатка в базе данных извест-
ных белковых последовательностей, такой как SWISS-PROT [Bairoch &
Apweiler 1997]. Мы можем получить двадцать частот, подсчитав около
двадцати миллионов кислотных остатков в базе данных, и мы имеем
достаточное количество данных. Кроме того, обучающее множество по-
следовательностей не смещено по отношению к специфическим компо-
зициям кислотных остатков (выборка является представительной. —
Прим. ред.). Поэтому мы можем ожидать, что частоты разумно оцени-
вают вероятности, лежащие в основе нашей модели. Этот способ оцен-
ки модели называется оценкой наибольшего правдоподобия, поскольку
можно доказать, что использование частот с которыми аминокислоты
встречаются в базе данных в качестве вероятностей qa максимизирует
общую вероятность всех последовательностей данной модели (правдопо-
добие). В общем случае, Пусть задана модель с набором параметров 0
и множество данных D. Тогда максимальное правдоподобие оценивает
параметры 0 так, чтобы максимизировать вероятность P(D\0). Это об-
суждается более формально в главе 11.
Если параметров модели оцениваются по ограниченному количеству
данных, то возникает опасность сверхобучения, т. е. того, что модель
очень хорошо адаптирована к обучающей выборке, но не распространя-
ется на новые данные. Рассмотрим три подбрасывания монеты [решка,
решка, решка] это приведет к оценке максимального правдоподобия то-
го, что вероятность выпадения орла равна 0, а решки — 1.
4Строго говоря, эта модель будет корректна, только если все последовательности имеют
одинаковую длину, поскольку только в этом случае сумма вероятностей по всем последо-
вательностям будет равна 1; см. главу 3.
22
Глава 1
Условные, совместные и полные вероятности
Представим, что мы имеем две кости Di и £>2- Вероятность выпа-
дения i при бросании Di называется P(i\Di). Это условная вероятность
выпадения i на кости D\, Если мы выберем кость случайно с вероят-
ностью P(Dj), j = 1 или 2, вероятность выбора кости j и выпадения i
является произведением двух вероятностей P(i,Dj) — P(i, Dj)P(i\Dj).
Величина P(i,Dj) называется совместной вероятностью. Выражение
Р(Х,У) = Р(Х|У)Р(У) (1.1)
можно применить к любым событиям X и Y.
Когда известны условная или совместная вероятность, мы можем
вычислить полную вероятность, исключив одну из переменных и ис-
пользуя формулу
Р(Х) = ^P(X,Y) = £р(Х|У)Р(У),
где сумма включает все возможные события Y.
Упражнение
1.1 Рассмотрим нечестное казино, в котором используются два вида иг-
ральных костей. 99% костей правильные (fair), но 1% сделаны так,
что шесть выпадает в 50% случаях (loaded). Мы выбираем кости на
столе случайно. Что означает Р(шесть|Р|оа(]е(]) и P(mecTb|Dfair)? Что
означает Р(шесть, D|oaded) и Р(шесть, £>[air)? Какова вероятность вы-
падения шести при бросании кости, если мы выбрали ее случайно?
Теорема Байеса и сравнение моделей
В том же случайно выбранном нечестном казино из упражнения 1.1
мы случайно выбрали игральную кость и бросили ее три раза, полу-
чив последовательно три шестерки. Мы подозреваем, что это налитая
свинцом игральная кость. Как мы можем определить правильно ли это?
Мы хотим вычислить F(£>ioaded|3 шестерки), т.е. апостериорную веро-
ятность гипотезы о том, что в данном случае игральная кость налита
свинцом. Но как мы можем вычислить вероятность данной гипотезы
Р(3 njecTepKH|D|oaded), которая называется правдоподобностью гипотезы.
1.3. Вероятности и вероятностные модели
23
Мы можем вычислить апостериорную вероятность гипотезы, использую
теорему Байеса
(1.2)
Событие что игральная кость налита свинцом в (1.2) соответствует X и
«3 шестерки» соответствуют Y, таким образом
, P(3LBeCTepKH|7?|oaded)P(^|oaded)
P(Pioaded з шестерки) =-----------—----------------------.
Р(3 шестерки)
Нам дано (см. упражнение 1.1), что вероятность P(P|oaded)
выбора неправильной кости равна 0.01 и мы знаем, что веро-
ятность Р(3 шестерки|D|oaded) выпадения трех шестерок на непра-
вильной кости равна 0.53 = 0.125. Общая вероятность выпадения
трех шестерок, Р(3 шестерки) это Р(3 шестерки |Z?ioaded)P(^ioaded) +
+ Р(3 ujecTepKH|D[air)P(D[air). Теперь
/ . х (0.53)(0.01)
^(£>ioaded|3 шестерки) =------------------------------
(0.53)(0.01) + (% )(0.99)
= 0.21.
Таким образом, более правдоподобно, что мы выбрали правильную
кость несмотря на то, что получили три шестерки.
В качестве второго более биологического примера предположим, что
мы верим, что в среднем внеклеточные белки и внутриклеточные бел-
ки имеют различный состав аминокислот. Например, мы можем думать,
что цистеин встречается чаще во внеклеточных, чем во внутриклеточ-
ных белках. Постараемся использовать эту информацию для ответа на
вопрос, является ли новый белок х = х\...хп внеклеточным или вну-
триклеточным. Для этого мы сначала разделим наши обучающие приме-
ры из SWISS-PROT на внеклеточные и внутриклеточные белки (случаи
неподдающиеся классификации мы опускаем). Мы можем определить
множество частот qlJlt для внутриклеточных белков и соответственно
множество частот q%xt для внеклеточных белков. Чтобы получить всю
необходимую информация для применения теоремы Байеса, мы также
должны вычислить вероятность pext того, что всякая новая последова-
тельность представляет внеклеточный белок и вероятность ргта того, что
она соответствует внутриклеточному белку. Мы предполагаем, что каж-
дая последовательность соответствует или полностью внутриклеточному
24
Глава 1
или полностью внеклеточному белку так plTlt = 1 —pext. Значения pext
и prnt называются априорными вероятностями, так как они наилучшим
образом отражают наше априорное знание о последовательности до про-
ведения измерений.
Мы можем написать P(x\ext) = и — ПгУх!*- ^ак
как мы предполагаем, что каждая последовательность соответствует
является либо внутриклеточному либо внеклеточному белку, р(х) =
_ pextp^x\ext^ + pintP(x\int) = В соответствии с теоремой Бай-
еса,
T)ext ГТ „ext
P(ext\x) = ------------———------—
pext . gext + pint . qint
P(ext\x) — искомая величина. Это называется апостериорной вероятно-
стью, того что последовательность является внеклеточный, потому что
это наилучшее приближение которое мы можем сделать после того как
мы увидели данные. Конечно, данный пример не согласуется с тем фак-
том, что многое последовательности трансмембранные трансмембранных
белков имеют как внеклеточные так и внутриклеточные компоненты.
В действительности, желательно в процессе анализа последовательно-
сти иметь возможность переключаться с одного определения на другое.
Это потребует создания более сложной вероятностной модели, которая
будет представлена далее (глава 3).
Упражнения
1.2 Сколько шестерок подряд мы должны увидеть в предыдущем при-
мере, чтобы стало ясно, что мы выбрали неправильную кость?
1.3 Используйте уравнение (1.1) чтобы доказать теорему Байеса.
1.4 Открыто редкое генетическое заболевание. Проверка показала, что
только один из миллиона людей является его носителем. Генетиче-
ский тест показал хорошие результаты 100% чувствительность (все-
гда правильно, если у вас есть это заболевание) и 99.99% точность
(дает неправильный положительный результат в 0.01% случаев).
Используя теореме Байеса поясните, почему вы не воспользовались
этим тестом.
Оценка байесовских параметров
Понятие сверхобучения упоминалось ранее. Если мы не имеем до-
статочно данных для оценки параметров, мы можем использовать наши
1.3. Вероятности и вероятностные модели
25
априорные знания для получения ограничений на оценки параметров,
вместо того, чтобы игнорировать модель данных. Это можно сделать
при помощи байесовской оценки параметров.
Так же как мы использовали теорему Байеса для сравнения моде-
лей, можно использовать ее и для оценки параметров. Мы можем вы-
числить апостериорную вероятность какого-либо отдельного множества
параметров 0 данных £>, пользуюсь теоремой Байеса
jwwl (13)
/ Р(0')Р(£>|0')’
ef
Заметим, что, так как наши параметры чаще бывают непрерывными, чем
дискретными величинами знаменателем является интеграл, а не сумма.
Р(£>) = У P(e')P(D\0’).
д'
Существует несколько спорных вопросов имеющих отношение к урав-
нению (1.3). Одна проблема состоит в том, что такое Р(0) и где мы
получим априорное распределение параметров? Иногда нет никаких со-
ображений о том, как устроено распределение Р(0). В этих случаях
используют плоское (равномерное) априорное распределение вероятно-
стей для параметров. В других случаях есть возможность использовать
информативное Р(0). Например, нам известно, a priori что аминокисло-
та фенилаланин, тирозин, и триптофан имеют структурное сходство и
часто эволюционно заменяемы. Мы предпочитаем такую Р(0), при ко-
торой к множеству параметров, при которых три аминокислоты имеют
сходные вероятности, чем множество параметров которые присваивают
им разные вероятности. Эти проблемы рассмотрены в деталях в главе 5.
Другая проблема заключается в том, как использовать (1.3) что-
бы получить хорошие параметры. Первый подход заключается в том,
чтобы выбрать значения параметров 0У так, чтобы максимизировать
P(0\D). Это называется оценкой максимума апостериорной вероятности
или МАР оценка. Заметим, что знаменатель в (1.3) независим от кон-
кретного значения 0, поэтому МАР оценка это тоже самое , что оценка
максимального правдоподобия.
Другой подход к оценке параметров заключается в том, чтобы вме-
сто оценки максимума апостериорного распределения выбрать среднее
апостериорного распределения. Это может быть более сложной операци-
ей требующей, чтобы апостериорная вероятность могла быть вычислена
26
Глава 1
аналитически или могла быть получена с помощью испытаний Монте-
Карло. Сходный подход состоит в том чтобы вовсе не выбирать специ-
фическое множество параметров, но вместо этого оценивать интересу-
ющие значения модели для многих, если не всех, значений параметров
интегрируя и взвешивая результаты в соответствии с апостериорными
вероятностями параметров. Этот подход более привлекательный, когда
оценка взвешивание могут быть сделаны аналитически — иначе будет
трудно получить значимые результаты, если только пространство пара-
метров не будет очень маленьким.
Описанные подходы являются частью области статистики, называ-
емой байесовской статистикой. [Box & Tiao 1992]. Субъективность в
некоторых деталях, таких как выбор априорной вероятности, заставля-
ют некоторых людей относиться с подозрением к байесовским методам,
хотя обоснованность самой байесовской теоремы для работы с условны-
ми вероятностями не вызывает вопросов. Мы не имеем здесь жесткой
позиции и используем как оценки максимального правдоподобия, так и
байесовские методы в разных частях книги. Однако, когда оценивается
большое множество параметров из небольшого количества данных мы
верим, что байесовские методы обеспечивают последовательный форма-
лизм для получения дополнительной информации из предыдущего опыта
работы с теми же данными.
Пример: Оценка вероятностей для игральной кости налитой
свинцом
Для иллюстрации давайте вернемся к нашему примеру с костью.
Предположим нам дана кость и мы ожидаем что она налита свинцом, но
нам неизвестно каким образом. Нам разрешается бросать кость десять
раз и мы должны предложить лучшие оценки для параметров pi. Мы
получаем выпадение 1,3,4,2,4,6,2,1,2,2. Оценка максимального правдо-
подобия для р5, базирующаяся на наблюдаемых частотах равна 0. Если
это будет использовано в модели, тогда единичная выпавшая 5, приведет
нас к выводу, что серия бросков не соответствует модели. Это кажется
слишком суровым. Интуитивно мы не имеем достаточно данных, чтобы
быть уверенным при бросании кости никогда не выпадет пять.
Один известный подход к этой проблеме заключается в том, что-
бы при оценке вероятностей поправлять наблюдаемые частоты, добав-
ляя’ несколько фальшивых дополнительных ’результатов’ к наблюдаемым
числам . Например, если мы к каждому наблюденному количеству вы-
падений добавим по 1, то оценка для выпадения пяти будет 1/16. До-
1.3. Вероятности и вероятностные модели
27
полнительные числа для каждого класс называются псевдокаутнами5.
Использование псевдокаунтов соответствует предшествующему подхо-
ду, использующему байесовскую теорему и априорное распределение из
семейства распределений Дирихле (детали см. в главе 11). Разные мно-
жества псевдокаунтов соответствует различным априорным предположе-
ниям о том, какой сорт вероятностей будет иметь данная кость. Если в
нашем предыдущем эксперименте большинство костей были правильны-
ми, мы можем добавить много псевдокаунтов; если мы видели кривые
кости в этом конкретном казино, мы будем больше верить данным в
этом специфическом примере, и веса псевдокаунтов будут меньше. Ко-
нечно, если мы соберем достаточно данных, наблюденные числа будут
доминировать над псевдокаунтами. На рисунке 1.2 показана зависимость
правдоподобия P(0\D) от значения и максимум в 0 очевиден. На этом
же рисунке мы видим априорное и апостериорное распределения с пятью
псевдокаунтами на категорию. Априорное распределение р$ нагруженное
ML МАР
Рис. 1.2. Оценка наибольшего правдоподобия (ML) в сравнении с максимумом
апостериорной вероятности (МАР) и оценкой вероятности для ръ (ось X) из
примера 1.1 с пятью псевдокаунтами на категорию. Три кривые искусственно
нормализованы и имеют одинаковое максимальное значение
5Наверное, правильно было бы перевести это слово как ’псевдочисла’ или ’псевдоотсче-
ты’, но в российской школе биоинформатики уже закрепился термин ’псевдокаунты’.
28
Глава 1
псевдокаунтами, Р(в) является распределением Дирихле. Обратите вни-
мание, что апостериорное распределение P(0\D) ассиметрично, поэтому
оценка апостериорного среднего для р5 будет немного больше чем оцен-
ка МАР. □
1.4. Дополнительное чтение
Доступными книгами по компьютерной молекулярной биологии яв-
ляются Computational biology (Waterman 1995), Bioinformatic — The
Machine learning Approach (Baldi & Brunak 1998) и Time Warps, String,
Edits, and macromolecules (Sankoff & Kruskal 1983). Для читателей, не
имеющих фундаментальных знаний по молекулярной биологии, мы реко-
мендуем Molecular Biology of the Gene (Watson et al 1987) как легко чи-
таемую энциклопедическое, фундаментальное введение в молекулярную
генетику. Книгу Introduction to protein structure (Введение в структуру
белков) (Branden & Tooze 1991) можно рекомендовать как прекрасно ил-
люстрированное руководство по пространственным структурам белков.
MacKay написал убедительное введение к байесовским вероятностным
моделям; более элементарное введение к некоторым привлекательным
идеям основанным на байесовских методах изложено в книге (Jefferys
& Berger 1992).
Глава 2
Выравнивание двух
последовательностей
2.1. Введение
Основная задача анализа последовательностей — решить, родствен-
ны ли две последовательности. Для этого две данные последовательно-
сти (или их части) сначала выравниваются, а затем решается, говорит ли
данное выравнивание о родственности последовательностей, или такой
результат можно ожидать, если выровнять две случайно взятые последо-
вательности. Ключевыми аспектами при этом являются: (1) какого типа
выравнивания рассматриваются; (2) система оценки качества выравни-
вания; (3) алгоритм, используемый для нахождения оптимальных (или
хороших) выравниваний; (4) статистические методы, используемые для
оценки значимости качества выравнивания.
На рис. 2.1 показаны оптимальные парные выравнивания одного и
того же фрагмента белковой последовательности человеческого альфа-
глобина (идентификатор в базе данных SWISS-PROT — HBA.HUMAN)
с тремя различными последовательностями. В центральной строчке каж-
дого выравнивания идентичные позиции помечены буквами, а «похо-
жие» — знаком «+». («Похожими» называются пары различных остат-
ков, имеющие положительный вес в матрице замен, используемой для
оценки качества выравнивания; матрицы замен мы обсудим ниже.) Мы
видим, что в первом выравнивании много позиций, в которых два соот-
ветствующих остатка одинаковы; многие другие позиции функционально
консервативны, как, например, пара D-Е в конце выравнивания, пред-
ставляющая выравнивание остатков отрицательно заряженных амино-
кислот — аспарагиновой и глутаминовой. На рис. 2.16 также показано
биологически осмысленное выравнивание, в котором оба белка — как
мы знаем — эволюционно связаны друг с другом, имеют схожие трех-
мерные структуры и связывают кислород. Однако в этом выравнивании
30
Глава 2
намного меньше идентичных позиций, а в альфа- глобиновой последова-
тельности два раза встречаются пропуски (делении) — в тех местах, где
последовательность лег-гемоглобина содержит дополнительные остатки.
На рис. 2.1в показано выравнивание примерно с таким же числом иден-
тичных и консервативных позиций. Однако в этом случае мы видим
биологически бессмысленное выравнивание белков, имеющих совершен-
но различные структуры и функции.
(я)
HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL
G+ +VK+HGKKV A+++++AH+D++ +++++LS+LH++KL
НВВ HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL
(6)
HBB_HUMAN GSAQVKGHGKKVADALTNAVAHV-----D— DMPNALSALS DLHAHKL
++ ++++Н+ KV + +А ++ +L+ L+++H+ К
LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG
(^)
HBA_HUMAN
F11G11.2
GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSD---LHAHKL
GS+ + G + +D L ++ Н+ D+ A +AL D ++АН+
GSGYLVGDSLTFVDLL—VAQHTADLLAANAALLDEFPQFKAHQE
Рис. 2.1. Оптимальные парные выравнивания фрагмента последовательности че-
ловеческого альфа-глобина с тремя последовательностями, (а) Очевидное сход-
ство с человеческим бета-глобином. (б) Структурно правдоподобное выравнива-
ние с лег-гемоглобином из желтого люпина, (в) Выравнивание с неродственным
гомологом F11G11.2 глютатион S-трансферазы из нематоды случайно оказалось
высококачественным
В том, как различить случаи выравнивания, изображенные на рис.
2.16 и 2.1в, и заключается вызов методам парного выравнивания. Для ре-
шения этой задачи мы должны тщательно продумать систему, использу-
емую для оценки качества выравниваний. Следующий раздел посвящен
вопросам вычисления веса выравнивания, а в последующих нескольких
разделах рассказывается о методах нахождения наилучших выравнива-
ний при фиксированной схеме оценки выравнивания. Глава заканчива-
ется исследованием статистической значимости сопоставлений остатков
в выравнивании и более детальным обсуждением параметризации схе-
мы оценки. Однако даже в лучшем случае не всегда возможно отли-
чить «правильное» выравнивание от выравнивания неродственных по-
2.2. Схема оценки
31
следовательностей. Например, найти значительное сходство между лег-
гемоглобином люпина и человеческим альфа-глобином (см. рис. 2.16)
методами парного выравнивания действительно очень трудно.
2.2. Схема оценки
Когда мы сравниваем последовательности, мы ищем свидетельства
того, что они произошли из одной общей последовательности путем му-
таций и отбора. Элементарными мутационными процессами считаются
замены (substitutions), когда меняются остатки в последовательности, а
также вставки (insertions) и делеции (deletions), когда остатки добав-
ляются или удаляются. Вместе вставки и делеции называются разрыва-
ми (gaps). Естественный отбор может влиять на мутационный процесс
путем отсева мутаций, так что некоторые виды мутаций могут наблю-
даться чаще других.
Общий вес (score) каждого выравнивания мы будем вычислять как
сумму весов за каждую пару выровненных остатков плюс сумму весов
за каждое удаление. В нашей вероятностной интерпретации общий вес
будет равен логарифму отношения вероятности того, что последователь-
ности родственны, к вероятности того, что они не родственны. Другими
словами, ожидаемая вероятность идентичных и консервативных замен,
увеличивающих общий вес выравнивания, в «правильных» выравнивани-
ях больше, чем в выравниваниях случайно взятых последовательностей;
а неконсервативных замен, уменьшающих общий вес — меньше.
Использование аддитивной схемы вычисления веса соответствует
предположению, что мутации в разных позициях последовательности
происходят независимо друг от друга (рассматривая удаление произ-
вольной длины как единичную мутацию). В этой главе такая аддитивная
схема используется во всех алгоритмах нахождения оптимального (т. е.
имеющего максимально возможный вес) выравнивания. Предположение
о независимости мутаций выглядит правдоподобным для последователь-
ностей ДНК и аминокислотных последовательностей, хотя мы знаем, что
взаимодействия между остатками играют важную роль в определении
трехмерной белковой структуры. Однако такое предположение неверно
при рассмотрении последовательностей структурированных РНК, для
‘При сравнении двух последовательностей (в отличие от множественного выравнива-
ния) невозможно установить тип события, приведшего к возникновению разрыва — это
может быть как вставка в предковую последовательность, так и деления. Для краткости
в этих случаях мы будем употреблять термин «разрыв» или «деления». При этом надо
понимать, что это вполне может быть и вставкой. — Прим. ред.
32
Глава 2
которых спаривание оснований вносит очень важные дальние по цепи
зависимости. Их можно учесть, однако это приведет к значительным
вычислительным сложностям; мы отложим вопрос о выравнивании РНК
до конца книги (см. главу 10).
Матрицы замен
Для вычисления веса выравнивания нам нужно знать вес каждой
пары выровненных остатков. Биолог с хорошей белковой интуицией смог
бы придумать набор из 210 чисел для всевозможных пар аминокислот,
однако чрезвычайно полезно иметь теорию, которая говорит, что озна-
чает каждое число. Мы получим такой набор чисел из вероятностной
модели.
Сначала введем некоторые обозначения. Мы будем рассматривать
две последовательности хну, длина которых составляет пит остат-
ков соответственно. Пусть х^ будет г-й символ последовательности х,
a Vj ~ символ последовательности у. Эти символы будут взяты
из некого алфавита А; в случае ДНК алфавит А состоит из четырех
оснований {X,G,С,Г}, а в случае белков — из двадцати аминокислот.
Мы будем обозначать символы этих алфавитов строчными буквами: а, b
и т. д. Рассмотрим пока только глобальное выравнивание без удалений,
то есть, две целиком выровненные, сопоставленные друг другу последо-
вательности (пример такого выравнивания изображен на рис. 2.1а).
Предположим, у нас есть две выровненные таким образом после-
довательности; мы хотим вычислить вес выравнивания, который будет
мерой отношения вероятности того, что последовательности родственны,
к вероятности того, что последовательности неродственны. Для этого мы
оценим вероятность возникновения данного выравнивания в каждом из
двух случаев, а затем вычислим отношение двух полученных вероятно-
стей.
«Неродственная» или случайная (random) модель R, является са-
мой простой. В ней предполагается, что символ а встречается независи-
мо от других букв с некоторой частотой qa, следовательно, вероятность
возникновения двух данных последовательностей вычисляется как про-
изведение вероятностей возникновения отдельных остатков:
Р(х,у|Л) = П^П^ (2Л)
i j
В другой, модели — сопоставления — М, каждая выровненная пара
остатков а и b встречается с некой общей вероятностью раь. Это число
2.2. Схема оценки
33
можно воспринимать как вероятность того, что остатки а и b получились
независимо друг от друга путем замены некого неизвестного остатка с
в общей последовательности-предшественнике (с может совпадать с а
и/или Ь). Тогда вероятность всего выравнивания будет
Р(х,у\М) =
i
А отношение этих двух вероятностей будет
Р(.т, у\М) _ ГЪ РХ1У1 _ ГТ P-r^yi
P(x,y\R) П,<Ь. П,<7ю. i Чх,Чу'
Чтобы получить аддитивную весовую функцию, возьмем логарифм
этого отношения:
S = '^s(xi,yi), (2.2)
где
Цйй) <2-3’
— это логарифм отношения вероятности встречи выровненных остатков
а и b к вероятности встречи невыровненных остатков а и Ь.
Как мы и хотели, уравнение (2.2) представляет собой сумму отдель-
ных весов s(a,6) всех выровненных пар остатков. Веса s(a,b) можно
изобразить в виде матрицы. Для белков, например, это будет матрица
20 х 20, содержащая в позиции с индексами i и j элемент s(ai,aj), где
ai и aj — i-й и J-й типы аминокислот (каким-то образом пронумерован-
ные). Такого вида матрица называется весовая матрица (score matrix)
или матрица замен (substitution matrix). В результате процедуры, по
существу не отличающейся от вышеописанной, была получена матрица
BLOSUM50, изображенная на рис. 2.2. Вычисленный с ее помощью вес
выравнивания, изображенного на рис. 2.1а, равен 130. Еще одно широко
используемое семейство матриц называется РАМ. Подробное описание
способа получения матриц BLOSUM и РАМ приводится в конце главы.
Важный результат состоит в том, что если попросить биолога со-
чинить матрицу замен для выравниваний с помощью интуиции, то вы-
численные по ней «частоты замен» совпали бы с вероятностями раъ в
соответствии с нашей теорией [Altschul 1991]. Вообще, по любой мат-
рице замен можно вычислить вероятность встречи двух выровненных
остатков а и b в реальных выравниваниях.
34
Глава 2
ARNDCQEGHILKMFPSTWYV
А 5 -2 -1 -2-1 -1 -1 0 -2 -1 -2 -1 -1 -3 -1 1 0-3-2 О
R -2 7 -1 -2 -4 1 0 -3 0 -4 -3 3 -2 -3 -3 -1 -1 -3 -1 -3
N -1 -1 7 2-2 О О 0 1-3-4 0 -2 -4 -2 1 0 -4 -2 -3
D -2 -2 2 8 -4 0 2 -1 -1 -4 -4 -1 -4 -5 -1 О-1 -5 -3 -4
С -1 —4 —2 —4 13 -3 -3 -3 -3 —2 -2 -3 -2 -2 -4 -1 -1 -5 -3 -1
Q -1 1 0 0 -3 7 2 -2 1 -3 -2 2 0 -4 -1 О-1 -1 -1 -3
Е -1 О 0 2 -3 2 6 -3 0 -4 -3 1 -2 -3 -1 -1 -1 -3 -2 -3
G 0 -3 0 -1 -3 —2 -3 8 —2 —4 -4 -2 -3 -4 -2 0 -2 -3 -3 -4
Н -2 0 1-1-3 1 0-2 10-4-3 О -1 -1 -2 -1 -2 -3 2-4
I -1 —4 -3 —4 —2 -3 —4 —4 -4 5 2 -3 2 0 -3 -3 -1 -3 -1 4
L —2 -3 —4 —4 —2 —2 -3 -4 -3 2 5 -3 3 1 -4 -3 -1 -2 -1 1
К -1 3 0 -1 -3 2 1 -2 0 -3 -3 6 -2 -4 -1 О-1 -3 -2 -3
М -1 -2 -2 -4 -2 0 -2 -3 -1 2 3 -2 7 О -3 -2-1 -1 О 1
F -3 -3 —4 -5 —2 —4 -3 -4 -1 0 1 -4 0 8 -4 -3 -2 1 4 -1
Р -1 -3 —2 -1 —4 -1 -1 -2 —2 -3 —4 -1 -3 —4 10 -1 -1 -4 -3 -3
S 1-1 1 0-1 0-1 О -1 -3 -3 0 -2 -3 -1 5 2 -4 -2 -2
Т 0-10-1-1 -1 -1 —2 —2 -1 -1 -1 -1 -2-12 5 -3 —2 О
W -3 -3 —4 -5 -5 -1 -3 -3 -3 -3 —2 -3 -1 1 -4 -4 -3 15 2 -3
Y -2 -1 -2 -3 -3 -1 -2 -3 2 -1 -1 -2 0 4 -3 -2 -2 2 8 -1
V 0 -3 -3 —4 -1 -3 -3 -4 -4 4 1 -3 -1 1 -3 -2 0 -3 1 5
Рис. 2.2. Матрица замен BLOSUM50. Логарифмы отношений вероятностей от-
нормированы и округлены до ближайшего целого в целях вычислительной эф-
фективности. Веса на главной диагонали матрицы, соответствующие выравнива-
нию идентичных остатков, выделены жирным шрифтом
Упражнение
2.1 Аминокислоты D, Е и К заряжены; V, I и L — гидрофобии. Поль-
зуясь матрицей BLOSUM50, вычислите средний вес замены одного
заряженного остатка на другой? Одного гидрофобного остатка на
другой? Гидрофобного на заряженный? Объясните результат.
Штрафы за разрывы
Разрывы в выравнивании должны быть как-то наказаны. Стандарт-
ная цена удаления g остатков определяется либо линейной функцией
7(^) = ~9d
(2-4)
либо аффинной функцией
7(5) = —d — (д - 1)е
(2-5)
2.2. Схема оценки
35
где d — штраф за открытие разрыва (gap-open), а е — штраф за его
продолжение (gap-extension). Обычно штраф за продолжение разрыва
е меньше штрафа за открытие d\ тогда длинные вставки и делении аф-
финной функцией наказываются меньше, чем линейной, что желательно,
когда ожидаемая частота разрывов в один и несколько остатков пример-
но одинакова.
Штрафы за разрывы также соответствуют вероятностной модели вы-
равнивания, хотя это и менее очевидно, чем вероятностное обоснование
матриц замен. Мы предполагаем, что вероятность появления разрыва
в данном месте последовательности равна произведению функции f(g)
длины разрыва и вероятности появления группы остатков в другой по-
следовательности,
Р(разрыв) = f(g) П qXj. (2.9)
г G разрыву
Запись (2.6) в виде произведения функции f(g) и членов qXi соответству-
ет предположению, что длина разрыва не зависит от типов удаленных
остатков.
Естественно предположить, что вероятности qa здесь такие же, как
и в случайной модели, поскольку оба случая соответствуют независимо-
му появлению невыровненных остатков. В таком случае, после того как
мы поделим вероятность (2.6) на вероятность появления удаленной по-
следовательности остатков согласно случайной модели, чтобы получить
вес разрыва, вероятности qXi сократятся, а останется только зависящий
от длины член y(g) = log(/(g)); таким образом, штрафы за разрывы
соответствуют логарифму вероятности появления разрыва длины д.
С другой стороны, если есть основания считать, что аминокислот-
ный состав удаленных фрагментов и остальных участков цепи отличает-
ся, тогда штраф за удаление остатка должен определяться с учетом типа
этого остатка и быть равен логарифму отношения частоты его встречае-
мости в удаленных фрагментах к частоте его встречаемости в выровнен-
ных участках последовательности. Это может случиться, если, к при-
меру, ожидаемая вероятность удаления полярных аминокислот больше
средней частоты их встречаемости в белковых последовательностях, по-
тому что вставки и делеции чаще соответствуют петлям на поверхности
трехмерной белковой структуры, а не погруженным в гидрофобное ядро
белковой глобулы участкам цепи.
36
Глава 2
Упражнения
2.2 Покажите, что функция распределения вероятностей f(g), соответ-
ствующая линейной (2.4) и аффинной (2.5) схемам штрафов в обоих
случаях — геометрическое распределение вида f(g) = ке~Хд.
2.3 Типичные значения штрафов за разрывы, используемые на практике,
равны d = 8 для линейного случая, или d = 12, е = 2 для аффинного
случая, где d и е выражены в полубитах. Бит (bit) — это единица
измерения логарифма вероятности по основанию 2, таким образом,
в единицах натурального логарифма приведенные значения соответ-
ствуют величинам d = (81og2)/2, и d = (121og2)/2 и е = (21og2)/2,
соответственно. Чему равны соответствующие вероятности разрыва
(любой длины), начинающегося с некой позиции, и каково распре-
деление длин разрывов, если известно, что разрыв есть?
2.4 Используя матрицу BLOSUM50 (см. рис. 2.2) и аффинную функцию
штрафа с d = 12 и е = 2, вычислите вес выравниваний, изображен-
ных на рис. 2.16 и рис. 2.1в.
2.3. Алгоритмы выравнивания
Следом за системой оценки, нам нужен алгоритм нахождения оп-
тимального выравнивания двух последовательностей. Когда длина обеих
последовательностей одинакова, существует только одно возможное гло-
бальное выравнивание (без разрывов — Прим, перев.) полных последо-
вательностей, однако все становится^ сложнее, если разрывы разрешены
(или если мы ищем локальное выравнивание фрагментов исходных по-
следовательностей). Существует
/ 2п \ = (2п)! _ 22» /2 7)
\ п / (и!)2 х/тгп
глобальных выравниваний двух последовательностей длины п. Очевид-
но, что перебрать все варианты физически невозможно, даже для неболь-
ших значений п.
Описываемый нами алгоритм нахождения оптимального выравнива-
ния с фиксированной аддитивной весовой функцией основан на т.н. ме-
тоде динамического программирования (dynamic programming). Метод
динамического программирования занимает центральное место в ком-
пьютерном анализе последовательностей, методы динамического про-
2.3. Алгоритмы выравнивания
37
граммирования используются во всех последующих главах этой кни-
ги, за исключением последней, посвященной математическим вопросам.
Простейшими для понимания примерами использования метода дина-
мического программирования являются алгоритмы выравнивания двух
последовательностей. Читатель должен быть уверен, что он полностью
понял материал этого раздела книги, так как этот материал представляет
фундамент всей книги. Использование метода динамического програм-
мирования гарантирует нахождение множества оптимальных выравнива-
ний. В большинстве случаев для решения этой задачи были разработаны
эвристические методы, которые могут работать очень быстро, но за счет
некоторых допущений, и в некоторых ситуациях не находят наилучшего
выравнивания двух последовательностей. Мы вкратце обсудим несколь-
ко эвристических подходов позже в этой главе.
Так как мы ввели вес выравнивания как логарифм отношения веро-
ятностей, лучшее выравнивание будет иметь больший вес, следователь-
но, для нахождения наилучшего выравнивания мы должны максимизи-
ровать вес выравнивания. Иногда вес выравнивания вводится другими
способами и интерпретируется как редакционное расстояние2 между
последовательностями, в этом случае мы были бы должны минимизи-
ровать цену выравнивания. В литературе по сравнению биологических
последовательностей используются оба метода, причем метод динамиче-
ского программирования применим в обоих случаях — различия заклю-
чаются только в том, что искать — минимум или максимум.
Мы введем четыре основных типа выравниваний. Тип выравнива-
ния, которое мы ищем, зависит от того, какого рода последовательности
мы хотим выровнять. Реализация метода динамического программирова-
ния немного отличается для каждого типа выравнивания. В этом разделе
мы опишем только парное выравнивание с линейной функцией штрафа
за разрывы — штраф за удаление одного остатка обозначим d. Однако,
как мы увидим далее в этой главе, представленный здесь метод легко
обобщается на случаи с более сложными функциями штрафа за разры-
вы.
Чтобы проиллюстрировать работу разных методов выравнивания,
мы возьмем две короткие аминокислотные последовательности,
HEAGAWGHEE и PAWHEAE. Для вычисления веса выравнивания мы будем
использовать матрицу BLOSUM50, а штраф за удаленный остаток возь-
мем d = -8. На рис. 2.3 показана матрица отдельных весов вырав-
2Количество замен/вставок/делеций, которое нужно совершить, чтобы из одной после-
довательности получить другую. — Прим, перев.
38
Глава 2
ниваний s(xi,yj) для всех возможных пар аминокислот, которые могут
встретиться в итоговом выравнивании. Веса выравнивания идентичных
или консервативных остатков выделены жирным шрифтом. Неформаль-
но говоря, цель алгоритма выравнивания состоит в том, чтобы вклю-
чить в выравнивание как можно больше положительно оцениваемых
пар остатков, одновременно минимизируя потери веса из-за разрывов,
выравнивания неконсервативных остатков и других ограничений.
Н Е А G А W G н Е Е
р — 2 -1 -1 —2 -1 —4 —2 —2 -1 -1
А -2 -1 5 0 5 -3 0 —2 -1 -1
W -3 -3 -3 -3 -3 15 -3 -3 -3 -3
н 10 0 -2 -2 —2 -3 — 2 10 0 0
Е 0 6 -1 -3 -1 -3 -3 0 6 6
А —2 -1 5 0 5 -3 0 — 2 -1 -1
Е 0 6 -1 -3 -1 -3 -3 0 6 6
Рис. 2.3. Две последовательности, которые мы будем использовать для иллю-
страции работы алгоритмов динамического программирования, изображены та-
ким образом, чтобы показать соответствующие веса матрицы BLOSUM50 для
всех возможных выравниваний пар остатков, которые могут встретиться в ито-
говом выравнивании. Положительные значения выделены жирным шрифтом
Упражнения
2.5 Покажите, что число способов вставки одной последовательности
длины п в другую длины т (в результате получается одна после-
довательность длины п + т) с сохранением порядка символов в
о f п + т\
каждой последовательности, равно ( —— I.
2.6 Покажите, что существует взаимно-однозначное соответствие меж-
ду выравниванием двух последовательностей с разрывами и после-
довательностью из предыдущего упражнения, получающейся путем
вставки одной последовательности в другую. Тем самым докажи-
те первую часть уравнения (2.7). Указание: возьмите выравнивание
и запишите в одну строчку все его символы следующим образом:
просмотрите все позиции выравнивания слева направо; для каждой
2.3. Алгоритмы выравнивания
39
позиции сначала запишите остаток верхней последовательности, за-
тем — нижней, после чего удалите символы разрыва.
2.7 Пользуясь формулой Стирлинга (.т! = у/2тгхх+^ е~х), докажите вто-
рую часть уравнения (2.7).
Глобальное выравнивание: алгоритм Нидлмана-Вунша
Сначала мы рассмотрим задачу построения оптимального (т. е. име-
ющего максимально возможный вес) глобального выравнивания двух
последовательностей с возможным удалением фрагментов. В области
анализа биологических последовательностей алгоритм для решения этой
задачи для простейшего определения веса выравнивания был предложен
в [Neeldeman & Wunsch 1970]. Ниже мы опишем алгоритм, предложен-
ный в [Gotoh, 1982], использующий более реалистичные весовые функ-
ции. Как алгоритм Нидлмана-Вунша, так и алгоритм Гото основаны на
методе динамического программирования.
I G А хг
L G V yf
A I G А хг
G V у, - -
G А .т? - -
S L G V у}
Рис. 2.4. Три варианта продолжения выравнивания до позиции (z,J) матрицы
динамического программирования: Xi выровнен с yj, символ xi удален, и символ
yj удален
Идея метода заключается в построении оптимального выравнива-
ния, используя ранее полученные оптимальные выравнивания началь-
ных фрагментов исходных последовательностей. Мы строим матрицу F;
элемент F(z,j) этой матрицы содержит вес наилучшего выравнивания
между начальным фрагментом длины i последовательности х и на-
чальным фрагментом длины j последовательности у. Мы можем
построить матрицу F(z,J) рекурсивно. Начнем с того, что мы инициа-
лизируем F(0,0) = 0. Дальше мы заполняем матрицу с верхнего левого
угла к нижнему правому (т. е. в порядке возрастание обоих индексов
i,j. — Прим, перев.). Если F(z - 1, j - 1), F(z - 1, j) и F(i,j - 1) извест-
ны, мы можем вычислить F(z,j). Существует три различных варианта
получения F(z,j) : Xi может быть выровнен с yj, тогда F(z, j) = F(z -
— — 1) + s(xi,yj)', символ Xi удален, тогда F(z,J) = F(z — 1,J) — d;
и символ yj удален, тогда F(z,j) = F(i,j — 1) — d, (см. рис. 2.4). Наи-
40
Глава 2
больший вес выравнивания двух подпоследовательностей и y\...j
найдется как максимум этих трех вариантов:
f F(i - l,j - 1) + s(xi,yj),
F(z,j) = max — 1, j) “ d,
(2.8)
F(zJ-l)-d.
Мы применяем уравнение (2.8) пока вся матрица F(i,j) не будет запол-
нена; при этом последовательно увеличивая номер строки г, а внутри
каждой строки — последовательно увеличивая номер столбца j. Каждое
следующее значение F(z, j) в правом нижнем углу каждого квадрата из
четырех ячеек будет определяться из одного из оставшихся трех осталь-
ных ячеек, как показано на следующем рисунке.
Одновременно с вычислением значений F(z,j), мы запоминаем, по
какому варианту в формуле (2.8) (или из какой клетки на рисунке)
мы получили это значение F(z,j); см. изображение полной процедуры
динамического программирования на рис. 2.5.
Для завершения описания алгоритма, мы должны разобраться с
граничными условиями. Вдоль верхней строчки матрицы, где j = 0, зна-
чения F(i,j - 1) и F(i — l,j — 1) не определены, так что значения F(z, 0)
нужно обработать специальным образом. Значения F(z,0) соответству-
ют выравниванию префикса последовательности х разрывным символам
в последовательности у, значит, мы можем положить F(z,0) = — id. Ана-
логично вдоль левой колонки F(0,j) = — jd.
Значение правой нижней ячейки матрицы, F(n, т), по определению
является наилучшим весом выравнивания х^.л и yi...j, что нам и требо-
валось получить, а именно, вес наилучшего глобального выравнивания
х и у. Для построения самого выравнивания, мы должны восстановить
последовательность выборов согласно (2.8), которая и привела нас к
2.3. Алгоритмы выравнивания
41
Н Е А G А W G Н Е Е
0* -8* -16* —24* -32* -40* -48* -56* -64* -72* -80
р -8 -2 -9 -17* -25 -33* -42* -49* -57 -65 -73
X 'Х
А -16 -10 -3 -4* -12 -20* -28* -36* -44* -52* -60
♦ 1 V X X х
W —24 -18 -и -6 -7 -15 -5* -13* -21* -29* -37
X X X X х
н —32 -14 -18 -13 -8 -9 -13 -7 -3* -И* -19
1 1 V ♦ V х ♦ V х х
Е -40 -22 -8* -16 -16 -9 -12 -15 -7 3 -5
♦ 1 ♦ V X х х 4 V
А -48 -30 -16 -3* -и -И -12 — 12 -15 -5 2
♦ ♦ V X х х х х х
Е -56 -38 —24 -11 -6 -12 -14 -15 -12 -9 1
HEAGAWGHE-E
—P-AW-HEAE
Рис. 2.5. Вверху таблица динамического программирования глобального вырав-
нивания двух наших тестовых последовательностей с указателями для процеду-
ры обратного прохода; значения, соответствующие оптимальному выравниванию
выделены жирным шрифтом. Внизу соответствующее оптимальное выравнива-
ние с весом 1
финальному весу F(n, т). Процедура восстановления выборов называ-
ется процедурой обратного прохода (traceback procedure). Она осуще-
ствляется построением выравнивания с конца, от правой нижней ячейки
матрицы (n,m), далее следуя указателям, которые были записаны при
построении матрицы. На каждом шаге процедуры обратного прохода мы
движемся от текущей ячейки (z,J) к одной из ячеек (г — 1, J — 1), (г — 1, J)
или (i,j — 1), из которой значение F(i,j) было вычислено. Одновременно,
мы добавляем пару символов слева к текущему выравниванию, а имен-
но: Xj и yj, если указатель «смотрит» на ячейку (г — 1, j — 1), .т, и символ
гэпа если указатель «смотрит» на ячейку (г — 1, J), или и yj, если
указатель «смотрит» на (z,j — 1). В конце концов мы достигнем левого
верхнего угла матрицы, где i = j = 0. Пример такой процедуры приведен
на рис. 2.5.
Заметим, что в действительности процедура обратного прохода, опи-
санная здесь, находит только одно выравнивание с наилучшим весом;
если в некий момент максимум величины F(z,j) достигается больше,
чем одним способом, то делается случайный выбор. Алгоритм обратного
42
Глава 2
прохода легко модифицируется для получения более чем одного опти-
мального выравнивания (если их несколько). Набор всех возможных
оптимальных выравниваний удобно представлять, с помощью т.н. гра-
фа последовательности [Altschul& Erickson 1986; Hein 1989а]. Мы вос-
пользуемся структурой графа последовательности в главе 7, где опишем
алгоритм множественного выравнивания, предложенный Хейном [Hein,
1989а].
Причина, по которой описанный здесь алгоритм работает, состоит
в том, что весовая функция состоит из суммы независимых слагаемых,
так что наилучший вес в неком месте выравнивания — это наилучший
вес на предыдущем шаге плюс вес последнего шага.
Обозначение O(f) как характеристика вычислительной сложности
алгоритма
Полезно знать, как время работы алгоритма и необходимое количе-
ство памяти зависят от размера входных данных. Например, при работе
вышеописанного алгоритма Нидлмана-Вунша мы храним в памяти (п +
+ 1) х (m + 1) чисел, и для каждого числа нам нужно сделать фикси-
рованное количество операций (три операции суммирования и одна опе-
рация взятия максимума). В этом случае мы говорим, что время работы
алгоритма (как и размер необходимой памяти) составляет О (пт), где
п и т — длины последовательностей. «О(пт)» (читается как «о боль-
шое от пт») — стандартное обозначение, означающее «порядка пт», то
есть, время работы алгоритма или количество памяти, необходимое для
решения задачи, зависит как произведение пт длин входных последова-
тельностей с точностью до постоянного множителя. Поскольку обычно п
и т одного порядка, про алгоритм обычно говорят, что он требует О(п2)
времени (или памяти). Чем выше степень п, тем менее практичным ста-
новится метод для длинных последовательностей. В области анализа
биологических последовательностей обычными компьютерами алгорит-
мы О(п2) приемлемы, хотя немного медленны, в то время как алгоритмы
О(п3) приемлемы только для очень коротких последовательностей.
Упражнения
2.8 Найдите другое оптимальное выравнивание по матрице динамиче-
ского программирования, изображенной на рис. 2.5.
2.9 Вычислите матрицу динамического программирования, а также най-
дите оптимальное выравнивание для последовательностей ДНК
GAATTC и GATTA, полагая +2 за совпадение оснований, — 1 —
за несовпадение, и линейной функцией штрафа за разрывы с d = 2.
2.3. Алгоритмы выравнивания
43
Локальное выравнивание: алгоритм Смита-Уотермана
До сих пор мы полагали, что знаем, какие последовательности мы
хотим выровнять, и что мы ищем наилучшее выравнивание последова-
тельностей целиком. Намного более обычная ситуация, когда мы ищем
наилучшее выравнивание подпоследовательностей (subsequences) ис-
ходных последовательностей х и у. Такая задача возникает, например,
когда мы подозреваем, что у двух белковых последовательностей есть
общий домен, или когда мы сравниваем длинные участки последова-
тельности геномной ДНК. Еще выравнивание подпоследовательностей
во многих случаях является самым чувствительным способом обнару-
жения сходства при сравнении двух сильно дивергированных последо-
вательностей, даже когда они целиком имеют общее происхождение. Это
обычно справедливо потому, что в таких случаях достаточно сильному
отбору подверглась только часть последовательности, в которой и со-
хранилось заметное сходство; в оставшейся части посредством мутаций
накопилось столько шума, что эту часть уже практически невозмож-
но правильно выровнять. Выравнивание подпоследовательностей после-
довательностей х и у с самым большим весом называется наилучшим
локальным (local) выравниванием.
Алгоритм нахождения оптимального локального выравнивания (или
их множества) тесно связан с алгоритмом глобального выравнивания,
описанным в предыдущем разделе. Существует два отличия. Во-первых,
для каждого элемента матрицы динамического программирования вклю-
чена дополнительная возможность выбора в формуле (2.8), позволяющая
элементу F(i,j) принять значение, равное нулю, если все другие значе-
ния меньше нуля:
О
F(i, j) = max <
F(z - l,j - 1) +з(х{,у,),
F(i - l,j) — d,
F(iJ-l)-d
(2-9)
Выбор нуля соответствует началу нового выравнивания. Если наилучшее
выравнивание на неком этапе имеет отрицательный вес, лучше начать
новое выравнивание, чем продолжать старое. Заметим, что вследствие
добавления нового, «нулевого», выбора элементы верхней строчки и ле-
вого столбца таблицы равны нулю, а не — id и —jd, как в глобальном
выравнивании.
Второе отличие по сравнению с глобальным выравниванием состо-
ит в том, что сейчас выравнивание может заканчиваться в любом месте
44
Глава 2
таблицы, так что вместо F(n, т) наилучшим весом локального вырав-
нивания будет наибольшее значение F(i, j) всей матрицы, так что про-
цедуру обратного прохода нужно начинать с этого места. Обратный про-
ход заканчивается, когда мы встречаем нулевой элемент таблицы, что
соответствует началу выравнивания. На рис. 2.6 показан пример нахо-
ждения оптимального локального выравнивания тех же последователь-
ностей, для которых на рис. 2.5 было найдено оптимальное глобальное
выравнивание. В этом случае локальное выравнивание оказалось под-
множеством глобального выравнивания, однако это не всегда так.
HEAGAWGHEE
0 0 0 0 0 0 0 0 0 0 0
р 0 0 0 0 0 0 0 0 0 0 0
А 0 0 0 5 0 5 0 0 0 0 0
W 0 0 0 0 2 0 20 * ♦ V 12 — 0 0 0
Н 0 10 + ♦ V 2 0 0 0 12 1 18 ♦ V 22 — 14 — 6
Е 0 2 16 ♦ + 8 0 0 4 0 18 ♦ 28 ♦ V 20
А 0 0 8 21 ♦ V 13 5 0 4 10 20 27
Е 0 0 6 13 18 12 - AWGHE AW-HE 4 0 4 16 26
Рис. 2.6. Вверху таблица динамического программирования для поиска опти-
мального локального выравнивания двух тестовых последовательностей. Внизу
оптимальное локальное выравнивание с весом 28
Для того чтобы алгоритм локального выравнивания работал, ожи-
даемый вес выравнивания двух случайно взятых последовательностей
должен быть отрицательным. Если это не так, то любое длинное вы-
равнивание двух совершенно неродственных последовательностей будет
иметь высокий вес, только из-за его длины. Как следствие, хотя алго-
ритм предназначен для поиска локального выравнивания, максимальным
весом будут обладать глобальными или почти глобальные выравнивания,
а правильные выравнивания подпоследовательностей, вероятно, были бы
замаскированы более длинным но неправильным выравниванием, только
2.3. Алгоритмы выравнивания
45
из-за его длины. Аналогично, должны существовать элементы матрицы
замен з(а,6), большие нуля, иначе алгоритм не нашел бы вообще ника-
кого выравнивания (в лучшем случае вес оптимального выравнивания
будет равен нулю, а ноль и без всякого выравнивания можно найти в
каждой ячейке матрицы).
В чем заключается точный смысл требования, чтобы ожидаемый
вес выравнивания двух случайно взятых последовательностей был от-
рицательным? Для ответа на этот вопрос в случае выравнивания без
разрывов нужно оценить ожидаемый вес выравнивания фиксированной
длины. Поскольку позиции выравнивания независимы друг от друга,
нам достаточно рассмотреть только одну позицию, в результате чего
получаем условие
< 0, (2-10)
а,Ь
где qa — частота появления в последовательности символа а. В слу-
чае, когда s(a,b) вводится как логарифм отношения вероятностей, как в
предыдущем разделе, с использованием тех же значений qa, что и для
вероятностей случайной модели, то (2.10) всегда выполняется, так как
= - ^2 (1а<1ь log = -Я(</2||р),
а,Ь а,Ь
где Я(д2||р) — относительная энтропия распределения q2 = q х q по
отношению к распределению р, которое всегда положительно если не
выполняется q2 = р (см. главу 11). В действительности, Я(д2||р) явля-
ется естественной мерой того, насколько различны два распределения.
Эта величина, по определению, также является мерой ожидаемого коли-
чества информации, приходящейся на пару выровненных остатков.
К сожалению, мы не можем привести аналогичный анализ для оп-
тимальных выравниваний с разрывами. Не существует аналитических
методов для предсказания, какие значения штрафов за разрывы будут
отвечать за «локальное» или «глобальное» поведение выравнивания. Од-
нако, поскольку выбор параметров весов (веса сопоставления s(a,b) и
штрафы за разрывы является практически важным вопросом, пред-
ложен ряд таблиц для стандартных схем взвешивания и для них наряду
с другими статистическими свойствами исследовано локально / глобаль-
ное поведение [Altschul & Gish 1996]. Мы вернемся к этой проблеме
позже, при рассмотрении значимости весов.
«Локальная» версия алгоритма динамического программирования
выравнивания последовательностей была разработана в начале 1980х
46
Глава 2
годов. Она впервые описана в [Smith & Waterman 1981] и известна как
алгоритм Смита-Уотермана. Сейчас обычно используется видоизме-
ненная версия алгоритма Смита-Уотермана, работающая с аффинной
весовой функцией за разрывы в выравнивании (алгоритмы выравнива-
ния, использующие аффинную функцию, обсуждаются на стр. 52).
Выравнивание с повторами
Процедура, описанная в предыдущей секции, выдает одно наи-
лучшее локальное выравнивание двух последовательностей. Если одна
или сразу обе выравниваемые последовательности достаточно длинны,
вполне возможно, что существует много различных локальных вырав-
ниваний, имеющих значительный вес, и в большинстве ситуаций нас
интересовали бы все такие выравнивания. Примером может быть белок,
содержащий много копий одного домена или мотива. Сейчас мы приве-
дем метод для поиска таких выравниваний. Этот метод асимметричен:
он находит одну или более неперекрывающихся копий фрагментов одной
последовательности (например, домена или мотива) в другой. Существу-
ет еще один широко используемый подход для нахождения выравнива-
ний с повторами, описанный в [Waterman & Eggert 1987], который мы
опишем в главе 4.
Предположим, нас интересуют только те выравнивания, вес кото-
рых больше некого порогового значения Т. Это допущение корректно,
так как всегда есть короткие локальные выравнивания с небольшим по-
ложительным весом даже при выравнивании совершенно неродственных
последовательностей. Пусть у будет последовательностью, содержащей
домен или мотив, а х — последовательностью, в которой мы ищем копии
участков у.
Пример работы алгоритма с повторами приведен на рис. 2.7. Мы
снова используем матрицу F, но правила рекурсии другие, также как
и смысл значений В финальном выравнивании х будет разделен
на участки, выровненные с разрывами с фрагментами у, и невыровнен-
ные участки. Под весом законченного участка выравнивания мы будем
понимать его вес, вычисленный стандартным образом (как в локальном
выравнивании с разрывами), минус пороговое значение Т. Все веса та-
ких законченных участков будут положительными. F(z,j) для j1
сейчас означает наибольшую сумму весов всех уже законченных участ-
ков выравнивания у префиксу плюс вес текущего незаконченно-
го участка выравнивания, предполагая, что Хг входит в выровненный
участок выравнивания, и что последними выровненными символами на
2.3. Алгоритмы выравнивания
47
данный момент Xi и yj (при этом они могут быть выровнены не друг
с другом, если сейчас идет разрывный участок выравнивания). F(i,0)
сейчас представляет наибольшую сумму весов всех уже законченных
участков выравнивания у префиксу т. е. предполагается, что Хг
находится в невыровненном участке3 * *.
н Е А G А W G Н Е Е
С 0 0 0 .1 И 1 1 1 1 3 05 ♦ 05
р I 0 0 0 1 1 1 1 1 1 3 / 9
А 1 0 0 5 1 1 6 1 1 1 3 / 9
W С ) 0 0 0 / 2 1 4 21 ♦ * 13 *- 5 3 / 9
н ♦ / о О 2 0 / 1 1 13 ♦ 19 ♦ X 23 - 15 1 9
Е С ) 2 16 *- ♦ X 8 / 1 1 5 И 19 ♦ 29 Г ♦ > 21
А 0 0 8 21 4 - 13 6 1 5 11 21 28
Е 0 0 6 13 18 12 - 4 1 5 17 27
HEAGAWFHEE
HEA.AW-HE.
Рис. 2.7. Вверху матрица динамического программирования с повторами для
двух тестовых последовательностей, изображен случай Т = 20. Внизу опти-
мальное выравнивание с общим весом 9 = 29 — 20. Существует два различных
участка выравнивания с весами 1 и 8. Точки использованы, чтобы показать
невыровненные участки последовательности х
Чтобы достичь желаемого, мы, как обычно, начнем с инициализации
F = 0, и затем заполним матрицу F согласно следующим рекуррентным
соотношениям:
гу. ПА / ~ Х’0)’
A(z,l))=max< 1 1
[ F(z - l,j) - Т, j =
(2.11)
3Описываемый алгоритм требует, чтобы начало последовательности х было обязательно
выровнено с фрагментом последовательности у, в то время как конец последовательности х
может быть и не выровнен, т. е. выравнивание может обрываться. — Прим ред.
48
Глава 2
О
F(z,j) = max <
F(i - 1,J - 1) + s(xi,yj),
F(i—l,j) — d,
(2-12)
Уравнение (2.11) обрабатывает невыровненные участки и концы выров-
ненных участков, позволяя последним закончится только тогда, когда
их вес будет не меньше Т. Уравнение (2.12) обрабатывает начала вы-
ровненных участков и их продолжения. Полный вес всех выровненных
участков получается добавлением дополнительной ячейки в матрицу,
а именно F(n + 1,0), вычисляемой согласно (2.11). Этот вес будет сум-
мой весов всех выровненных участков выравнивания за вычетом Т для
каждого такого участка; если при выравнивании не встретится ни одного
участка с весом, большим, чем Т, тогда полный вес получится последо-
вательным применением первого выбора уравнения (2.11) и будет равен
нулю.
Отдельные локальные выравнивания могут быть получены проце-
дурой обратного прохода от ячейки (n -I- 1,0) к ячейке (0,0), в каждый
момент следуя по указателю к той ячейке, по которой операцией взя-
тия максимума было вычислено текущее значение. Такая глобальная
процедура показывает, чему будет выровнен конкретный символ после-
довательности х. Итоговое глобальное выравнивание будет состоять из
более привычных участков локального выравнивания с разрывами под-
последовательностей двух последовательностей, х и у.
Заметим, что алгоритм получает все локальные выравнивания за
один проход. Он находит множество выравниваний с максимальными
весами, в том смысле, что он максимизирует сумму излишков весов каж-
дого локального выравнивания над пороговым значением Т. Изменение
Т изменит и результат работы алгоритма. Повышение Т может привести
к потере некоторых выровненных участков. Уменьшение может привести
к дроблению выравнивания, также как и к нахождению новых участков
с меньшим весом. Оптимальное локальное выравнивание в смысле пред-
шествующего раздела будет раздроблено на куски, если оно содержит
внутри себя выравнивания, чей вес меньше — Т. Однако, может быть это
именно то, что нужно: если есть два участка выравнивания с одинаково
высокими весами, разделенные невыровненным фрагментом с отрица-
тельным весом, непонятно, что считать результатом — одно локальное
выравнивание или два.
2.3. Алгоритмы выравнивания
49
Перекрывающиеся выравнивания
Еще один тип поиска предназначен для ситуации, когда одна после-
довательность содержит другую, или они перекрываются. Такое часто
встречается при сравнении друг с другом фрагментов геномной ДНК,
или при сравнении фрагмента с последовательностью ДНК хромосомы.
При этом могут встретиться несколько вариантов, как показано здесь:
На самом деле, мы хотим получить разновидность глобального вы-
равнивания, но в котором нет штрафа за «свисающие» концы, что дает
подсказку, какого вида алгоритм использовать: мы хотим, чтобы вырав-
нивание начиналось на верхней или на левой границе матрицы, а закан-
чивалось на правой или на нижней границе. Следовательно, инициализа-
ция матрицы будет следующей: F(i, 0) = 0 для i = 1,..., п и F(0,J) = 0
для j — а рекурсивные соотношения для заполнения остав-
шейся части матрицы просто будут такими же, как и для глобального
выравнивания (2.8). Frnax найдется как максимальное значение элемен-
тов матрицы на правой (г, m), i = 1,..., п, и нижней (n,j), j = 1,..., тп
границах матрицы. Процедура обратного прохода начинается с точки
максимума и продолжается, пока не будет достигнут край матрицы.
Существует версия данного алгоритма с повторами, в которой урав-
нения, аналогичные (2.11) и (2.12) записываются в виде:
F(i,0)=max( „ (2.13)
v 7 1 F(z — 1, m) — Т, v 7
' ~ 1,3 - 1) +
F(i, j) = max <
F(i-l,j)-d,
(2-14)
50
Глава 2
н Е А G А W G Н Е Е
0 0 0 0 0 0 0 0 0 0 0
р 0 —2 / -1 -1 -2 -1 —4 —2 —2 -1 -1
А 0 ' —2 -2 4 1 X -1 3 —4 —4 —4 -3 -2
W 0 -3 -5 —4 1 —4 18 *- 1 X 10 2 6 -6
н 0 10 *- 1 X 2 6 -6 4 -1 10 1 16 1 X 20 12 4
Е 0 2 16 1 X 8 0 7 2 8 16 1 26 1 18
А 0 -2 8 21 *- 1 X 13 5 3 2 8 18 25
Е 0 0 4 13 18 12 4 — 4 2 14 24
GAWGHEE
PAW-HEA
Рис. 2.8. Вверху матрица динамического программирования для двух тестовых
последовательностей для поиска перекрывающихся выравниваний. Внизу опти-
мальное перекрывающееся выравнивание с весом 25
Заметим, что из рекурсивного соотношения для F(z,0) (2.13) сле-
дует, что в данной версии алгоритма в каждом повторе (кроме первого
и последнего, см. ниже — Прим, перев.) выравнивается вся последова-
тельность т/, а не любая из ее подпоследовательностей, как в алгоритме
предыдущего раздела (см. (2.11)). Однако (2.11) все-таки используется в
своей первоначальной форме для получения значений F(n+1,0), так что
данный алгоритм допускает выравнивание начала последовательности у
с концом х.
Смешанные условия для получения выравниваний
К этому времени должно быть очевидно, что можно сформулиро-
вать множество различных вариантов метода динамического програм-
мирования. Все вышеизложенные алгоритмы были выражены в терми-
нах значений матрицы F(i,j) с различными граничными условиями и
рекуррентными правилами. Пользуясь общей структурой метода, можно
понять, как придумать алгоритм со смешанными условиями. Мы уже
видели один пример — поиск перекрывающегося выравнивания с повто-
рами. Существует множество других вариантов.
2.4. Динамическое программирование с более сложными моделями 51
Например, когда последовательность у повторяется тандемными ко-
пиями, без разрывов между ними, полезно заменить условие (2.14) для
j = 1 на
F(z, 1) = max <
F(i - 1,0) + «(тйт/1),
F(i - l,n) + s(xi,yC),
F(i — 1,1)-б/,
F(i,0) — d.
Это позволяет избежать штрафа — Т в (2.11), так что этот штраф
вычитается из общего веса выравнивания только раз на каждый кластер
повторов, а не для каждого повтора в отдельности.
Можно представить еще один пример, когда мы хотим, чтобы на-
чала двух последовательностей были выровнены друг с другом, а за-
канчиваться выравнивание может в любом месте. Это можно было бы
осуществить, положив F(0,0) = 0 и используя рекурсивное соотноше-
ние (2.8), но определяя конец выравнивания по максимальному значению
F(z,j) внутри всей матрицы.
На самом деле, можно даже рассмотреть случай смешанных гра-
ничных условий, когда, например, есть основания думать, что вероят-
ность целиком найти короткую последовательность в длинной значи-
тельно больше вероятности найти только ее фрагмент. В этом случае
мы установили бы штрафы на границах или штрафы за начало выравни-
вания фрагмента короткой последовательности, вычислив их значения
как логарифмы соответствующих вероятностей. Такая модель пригоди-
лась бы при поиске членов семейства повторов в геномной ДНК, так как
обычно встречаются полные копии повторов, хотя иногда бывают только
фрагменты.
При выполнении поиска сходства последовательностей в идеале мы
должны всегда обдумывать, какого вида выравнивания мы ищем, и
использовать для каждого случая наиболее подходящий алгоритм. На
практике, часто доступны только хорошие реализации нескольких стан-
дартных случаев, и часто удобнее использовать их, а уж потом обраба-
тывать получившиеся выравнивания.
2.4. Динамическое программирование с более
сложными моделями
До сих пор мы рассматривали только простейшую модель разрывов,
в которой вес разрыва 'у(д) линейно зависел от его длины. Такого ти-
па схема неидеальна для биологических последовательностей: каждый
52
Глава 2
следующий остаток в удаленном фрагменте наказывается так же, как и
первый, в то же время, когда разрывы действительно встречаются, они
часто длиннее одного остатка4. Если задана общая функция штрафа
7(.д), мы все еще можем использовать все версии метода динамического
программирования, описанные в разделе 2.3, с корректировкой рекур-
рентных соотношений типа следующей:
F(z - 1J - 1) + s(xi,yj)
F(z,j) = max< F(Ar, j) + 7(2 — Ar), к = 0,..., i — 1, (2.15)
F(z, к) + 7(2 — к), к = 0,..., z — 1,
которая должна в общем случае использоваться для поиска глобаль-
ного выравнивания вместо предыдущей формулы (2.8). Однако, теперь
алгоритм требует О(п3) операций для выравнивания двух последова-
тельностей длины п, а не О(п2), как в случае линейной штрафной
функции, потому что в каждой ячейке (z,j) мы должны просмотреть
г Ч- 7 -Ь 1 потенциальных ячеек-предшественниц, а не три, как раньше.
Это непомерно высокое увеличение времени работы алгоритма практи-
чески запрещает его использование во многих случаях. При некоторых
условиях, выполненных для функции 7(р), поиск по к можно ограни-
чить, тогда ожидаемое время работы снова будет составлять О(п2), хотя
коэффициент пропорциональности перед п2 будет в этом случае выше
исходного [Miller & Myers 1988].
Выравнивание с использованием аффинной штрафной
функции
Стандартная альтернатива формуле (2.15) — использовать аффин-
ную функцию разрыва (2.5): у(д) = -d - (д - 1)е. Для такого вида
штрафной функции время работы алгоритма динамического програм-
мирования останется равным О(п2). Однако теперь для каждой ячейки
(г, J) матрицы мы должны хранить несколько величин вместо одного зна-
чения F(z, j). Сначала мы объясним процесс выбора для трех величин,
соответствующих трем различным ситуациям, показанным на рис. 2.4,
который мы для удобства еще раз приведем.
I G А х1 A I G А згг G А ~ —
LGV^ G V Vj - - S L G V Vj
4Иными словами, вставки/делеции имеют тенденцию кластеризоваться в биологически
осмысленных выравниваниях. — Прим. ред.
2.4. Динамическое программирование с более сложными моделями 53
Пусть Л/(г, j) означает наибольший вес на данный момент, при усло-
вии, что Xi выровнен с yj (случай слева); ~ наибольший вес при
условии, что символ Xi сопоставлен делении (вставлен по отношению
к последовательности у, случай в центре); и, наконец, ~ наи-
больший вес при условии, что символ yj находится во вставке (случай
справа).
Тогда рекурсивные соотношения, соответствующие (2.15), выглядят
следующим образом:
М(i,j) = max <
M(i - 1, j - 1) +
Ix(i ~ 1,J - 1) + s(xi,yj)
Ix(i, j) = max
M(i — l,j) — d,
Ix(i ~ 1, j) - e,
(2-16)
r / -x f j - 1) - d,
yv [ Iy(i,3 - 1) - e.
В этих соотношениях мы полагаем, что вставка не может идти сразу за
делецией. Это справедливо для оптимального выравнивания, если —d — e
меньше, чем наименьший вес в матрице замен. Как и раньше, само вы-
равнивание можно построить с помощью процедуры обратного прохода.
Систему соотношений (2.16) можно очень изящно представить с
помощью диаграммы, изображенной на рис. 2.9. На ней показаны со-
стояния для трех значений матрицы со стрелками переходов из одного
состояния в другое. Каждому переходу приписано соответствующее из-
менение веса выравнивания, а каждому состоянию — значение Д(г, j),
используемое для того, чтобы определить изменение индексов i и j при
переходе в данное состояние (даже если предыдущее состояние было
таким же — Прим, перев.). Рекурсивные соотношения для расчета всех
трех значений матрицы могут быть «прочитаны» прямо по диаграмме
(сравните рис. 2.9 с уравнениями (2.16)). Новое значение переменной
состояния в ячейке (i,j) — это максимум весов, соответствующих пере-
ходам в это состояние. Вес каждого перехода определяется значением
предыдущего состояния, со значением индексов, определяемых с помо-
щью значения Д(г, J) конечного состояния, плюс вес самого перехода.
В теории алгоритмов такая система называется конечным автоматом
(finite state automaton, FSA). Выравнивание соответствует пути через
54
Глава 2
состояния автомата, а символы в выравнивании переписаны из исходных
последовательностей согласно значениям Д(г, J) состояний. На рис. 2.10
показан пример короткого выравнивания и соответствующей последова-
тельности состояний автомата для аффинной функции разрывов.
Рис. 2.9. Диаграмма взаимосвязей между тремя состояниями, используемых для
выравнивания с аффинной функцией штрафа
Рис. 2.10. Пример последовательности состояний для выравнивания с аффинной
функцией разрывов
На самом деле обычной практикой является внедрение алгоритма с
аффинной функцией с использованием только двух состояний, М и I,
где I олицетворяет возможность системы быть в разрыве. Технически
это гарантирует правильный результат в случае, когда наименьший вес
в матрице замен больше либо равен —2е. Однако даже если бы какой-то
вес оказался меньше —2е, вероятность получения другого выравнивания
очень мала. Более того, если такое все же случится, это не будет играть
2.4. Динамическое программирование с более сложными моделями 55
большой роли, потому что разница будет касаться очень плохо выров-
ненных участков выравнивания. Рекурсивные соотношения для такой
версии следующие:
M(z, J) = max
M(i - 1, j - 1) + s(xi,yj)
I(i- l,j- l) + s(xi,yj)
/(j, j) = maX <
M(i — 1,?’) — d,
I(i - l,j) - e,
M(i,j - 1) — d,
I(i,j - 1) - e.
Для этих уравнений нельзя нарисовать диаграмму FSA, как рань-
ше, потому что состояние I может быть использовано как для A(z, J) =
= (+1,0), так и для A(i,j) = (0,+1). Существует, однако, альтерна-
тивная формулировка FSA, в которой значения A(z,J) связаны с пере-
ходами, а не с состояниями. В автоматах такого типа для алгоритма
выравнивания с аффинной функцией штрафа можно учесть два раз-
личных состояния выравнивания, используя дополнительные переходы
для вариантов вставок и делеций. На самом деле, стандартный алго-
ритм выравнивания с линейной функцией штрафа может быть выражен
как производящий переходы FSA с одним состоянием и тремя перехо-
дами (в это единственное состояние. — Прим, перев.), соответствую-
щими различным значениям A(z,J) — (1,1), (1,0) и (0,1). Для тех, кто
привык выяснять все до конца, скажем, что более простые конечные
автоматы в теории алгоритмов называются автоматами Мура (Moore
machines), а производящие переходы системы называются автоматами
Мили (Mealy machines), см. главу 9.
Более сложные модели FSA
Одно из преимуществ представления алгоритмов динамического
программирования в виде FSA, состоит в том, что легче видно, как при-
думать новый тип алгоритма. Пример приведен на рис. 2.11, где изоб-
ражен FSA с четырьмя состояниями — двумя для разрывов в вырав-
нивании и двумя — для сопоставлений остатков. Идея такой модели
заключается в том, что есть высококачественные участки выравнивания
(где нет разрывов), соответствующие состоянию «сопоставления» А, раз-
деленные низкокачественными участками (с разрывами), соответствую-
щими состоянию «сопоставления» В и «разрывным» состояниям 1Х и 1У.
56
Глава 2
Веса замен s(a,b) и t(a,b) могут быть выбраны таким образом, чтобы
учесть различную ожидаемую степень сходства разных участков вырав-
нивания. Аналогичным образом, можно построить алгоритмы FSA для
выравнивания трансмембранных белков с различными состояниями со-
поставления для внутриклеточных, внеклеточных или трансмембранных
участков, или для других более сложных сценариев [Birney & Durbin
1997]. В [Searls & Murphy 1995] дано более общее определение таких
автоматов; авторы также разработали интерактивные средства для их
построения.
Рис. 2.11. Конечный автомат с четырьмя состояниями: два состояния для вырав-
нивания А и В предназначены для выравнивания высоко- и низкокачественных
участков выравнивания. Заметим, что этот FSA порождает переходы с ценой
s(xlyyi) и Цхг,уг), а не состояния. Различия обсуждаются в тексте
Одна из черт таких более сложных алгоритмов состоит в том, что,
помимо самих символов последовательностей, выравниванию поставле-
на в соответствие «скрытая» последовательность состояний, показыва-
ющая, какие состояния модели были использованы для каждой пози-
ции выравнивания. Например, при использовании модели выравнивания
трансмембранных белков, одновременно с нахождением оптимального
выравнивания, алгоритм определит, какие участки белка будут транс-
мембранными, внутриклеточными или внеклеточными. Во многих слу-
чаях эта «приписанная» последовательность имеет такое же большое
значение, как и само выравнивание.
Мы вернемся к моделям с состояниями для парного выравнивания
в главе 4.
2.5. Эвристические алгоритмы выравниваний
57
Упражнение
2.10 Вычислите вес выравнивания, изображенного на рис. 2.10 со зна-
чением d = 12, е = 2.
2.5. Эвристические алгоритмы выравниваний
До сих пор, все алгоритмы, которые мы рассматривали, были «пра-
вильными», в том смысле, что они гарантированно находили наибольший
вес выравнивания согласно фиксированной схеме оценки. В частности,
версии с аффинной функцией штрафа, описанные в предыдущем разде-
ле, обычно рассматриваются в качестве наиболее чувствительных сре-
ди известных методов выравнивания. Однако алгоритмы динамического
программирования не самые быстрые из известных методов выравнива-
ния, а во многих случаях скорость поиска является важным вопросом.
Алгоритмы динамического программирования, описанные до сих пор,
имеют время работы порядка O(nm), т. е. порядка произведения длин
последовательностей. Существующие на сегодняшний день базы дан-
ных содержат порядка ста миллионов остатков, так что для сравнения
последовательности длиной в тысячу остатков с каждым белком из базы
данных, нужно вычислить примерно 1011 матричных значений. С уче-
том того, что одна рабочая станция на момент написания этих строк
вычисляет примерно десять миллионов значений в секунду, обработка
всего запроса займет 104 секунд, или около трех часов. Если же мы
хотим устроить поиск в базе данных для множества разных последова-
тельностей, время работы программы быстро становится самой важной
проблемой.
По этой причине было много попыток разработать более быстрые ал-
горитмы, чем «честный» метод динамического программирования. Цель
таких методов заключалась в вычислении как можно меньшего числа
ячеек матрицы динамического программирования, в то же время все-
таки проверяя все выравнивания с высоким весом. В случаях, когда
последовательности очень схожи, существуют методы, основанные на
алгоритмах поиска точных совпадений подстрок из теории алгоритмов,
обобщенных на случаи поиска почти точных совпадений, для которых
доказано, что они находят оптимальное выравнивание [Chang & Lawler
1990; Wu & Manber 1992; Myers 1994]. Однако, для матриц замен, ис-
пользуемых для поиска выравнивания удаленных гомологов, эти точные
методы становятся неприемлемыми, и мы должны использовать эвристи-
ческие подходы, которые несколько теряют в чувствительности, так как
58
Глава 2
могут быть случаи, в которых они могут не найти оптимальное выравни-
вание. Существует несколько эвристических методов. Здесь мы вкратце
опишем два хорошо известных алгоритма, BLAST и FASTA, чтобы про-
иллюстрировать типы подходов и за счет чего можно выиграть в скоро-
сти. Однако детальный анализ эвристических алгоритмов находится за
пределами целей этой книги.
BLAST
В пакет BLAST [Altschul et al. 1990] входят программы для нахожде-
ния локального выравнивания с высоким весом между данной последо-
вательностью и последовательностями из базы данных, как для случая
ДНК, так и для белковых последовательностей. Идея, лежащая в основе
алгоритма BLAST, состоит в том, что правильное выравнивание наверня-
ка будет содержать в себе короткий участок подряд идущих одинаковых
остатков, или участок с очень высоким весом. Следовательно, сначала
мы можем искать в базе данных только такие короткие совпадения, а
затем использовать их как «затравки», из которых путем расширения
начальных совпадений получать более длинное хорошее выравнивание.
Условие коротких затравок дает возможность заранее обработать данную
последовательность чтобы сделать таблицу всех возможных затравок с
их координатами в нашей последовательности.
BLAST создает список всех «близких» слов фиксированной длины
(по умолчанию 3 для белковых последовательностей, 11 — для нуклео-
тидных), которые бы локально выравнивались с нашей последователь-
ностью с весом, выше некого порогового значения, обычно около 2 бит
на остаток. Затем алгоритм сканирует базу данных, и всякий раз, ко-
гда находит слово из списка, начинает процесс «расширения совпаде-
ния», чтобы увеличить возможный участок выравнивания без разрывов,
в обоих направлениях, до достижения максимального веса (в действи-
тельности, из-за этого способа реализации мала вероятность того, что
алгоритм остановится, не достигнув правильного фрагмента выравнива-
ния максимальной длины).
Наиболее широко используемая реализация находит только безраз-
рывное выравнивание. Возможно, это прозвучит удивительно, но да-
же при таком ограничении алгоритм теряет только малую часть каче-
ственных выравниваний, отчасти потому, что ожидаемый наилучший
вес неродственных последовательностей быстро падает5, в то время как
5Имеется в виду, что на случайных совпадениях удлинение сегмента выравнивания бы-
стро прекращается из-за того, что веса сопоставления символов в среднем отрицательны.
2.5. Эвристические алгоритмы выравниваний
59
веса безразрывных выравниваний фрагментов родственных последова-
тельностей все еще могут быть значительными. А также потому, что
BLAST может найти более чем одно высококачественное выравнивание
для каждой пары последовательности и придать значение их общему
весу [Karlin& Altschul 1993]. Тем не менее, недавно появились новые
версии BLAST’a, которые выдают в качестве результата выравнивание с
разрывами [Altschul & Gish 1996; Altschul et al. 1997].
FASTA
Еще один широко используемый пакет для эвристического поис-
ка последовательностей называется FASTA [Pearson & Lipman 1988]. В
нем используется многошаговый подход по нахождению локального вы-
равнивания с высоким весом: сначала находятся точные выравнивания
коротких слов, затем они расширяются до выравнивания без разрывов
максимального веса, и, наконец, в результате получается выравнивание
с разрывами.
На первом шаге используется таблица подстановки для нахожде-
ния всех одинаковых слов длины ktup в двух последовательностях. Для
белков обычно используется ktup = 1 или 2, а для последовательностей
ДНК оно может быть 4 или 6. Затем ищутся диагонали, на которых мно-
го совпадений слов. Это очень быстрая операция, которая может быть
выполнена, например, путем сортировки совпадений (z,j) по возраста-
нию разностей i - j.
Наилучшие диагонали передаются дальше, на второй шаг, кото-
рый аналогичен процессу «расширения совпадений» алгоритма BLAST,
в котором точные совпадения расширяются до получения безразрывно-
го участка с максимальным весом (и в котором некоторые «затравки»
сливаются друг с другом).
На третьем шаге проверяется, какие из участков, полученные на
втором шаге, можно продолжить с разрывами, учитывая штраф за эти
разрывы. На заключительном шаге выравнивания с самым высоким ве-
сом, выравниваются полностью заново, используя алгоритм динамиче-
ского программирования, но только в тех участках, которые не затраги-
вают участки безразрывного совпадения, полученные на втором шаге.
Из-за того, что на последней стадии FASTA используется стандарт-
ный метод динамического программирования, полученные при этом веса
можно интерпретировать в точности так же, как и веса, полученные ра-
нее в этой главе. Существует компромисс между скоростью и чувстви-
тельностью метода, регулируемый выбором параметра ktup-. чем выше
60
Глава 2
ktup, тем быстрее алгоритм работает, но тем больше вероятность пропу-
стить качественные выравнивания. Для того, чтобы получить чувстви-
тельность, близкую к таковой для метода динамического программиро-
вания для белковых последовательностей, нужно установить ktup = 1.
2.6. Выравнивание с линейной памятью
Помимо времени, другим вычислительным ресурсом, который мо-
жет ограничить применимость методов динамического программирова-
ния для выравнивания последовательностей, является память. Во всех
описанных до сих пор алгоритмах вычисляются веса F(z,j) матриц
динамического программирования, занимающие общую память порядка
пт — произведения длин двух последовательностей. Для двух типич-
ных белковых последовательностей, в несколько сотен остатков каждая,
используемая память находится в пределах емкости современных персо-
нальных компьютеров; но если одна из сравниваемых последовательно-
стей (или сразу обе) — нуклеотидные, длиной в несколько десятков или
сотен тысяч оснований, требуемое для всех элементов матрицы количе-
ство памяти может превысить количество доступной физической памяти
машины6. К счастью, с памятью дела у нас обстоят лучше, чем со скоро-
стью: существуют методы для нахождения оптимального выравнивания,
требующие памяти порядка п 4- ш, а не пт, с увеличением времени
работы при этом не более чем в два раза. Такие методы обычно назы-
ваются методами с линейной памятью (linear space methods). На них
основан важный фундаментальный алгоритм динамического программи-
рования для построения парного выравнивания.
В действительности, если нужно найти только вес оптимального
выравнивания, проблема решается просто. Поскольку рекуррентные со-
отношения для F(i,j) локальны, т. е. значения F(i,j) зависят только от
значений ячеек, расположенных в предыдущей строчке (столбце) мат-
рицы, мы можем отбросить ячейки, расположенные за этими соседними
ячейками. Если нас интересует локальное выравнивание, мы должны
найти максимальный вес во всей матрице, что просто сделать, запоми-
ная максимальное значение по мере того, как строится матрица. Однако,
в то время как такая процедура дает нам вес выравнивания, она не нахо-
дит само выравнивание; если мы выкидываем некоторые ячейки, чтобы
избежать затрат памяти порядка О(пт), мы также теряем указатели
6В настоящее время память компьютера не представляет большой проблемы, однако
описанный здесь подход Миллера-Маерса весьма поучителен и просто красив. — Прим,
ред.
2.6. Выравнивание с линейной памятью
61
для процедуры обратного прохода. Для получения выравнивания дол-
жен быть использован новый подход.
Давайте на время предположим, что мы ищем оптимальное гло-
бальное выравнивание, используя линейную весовую функцию штрафа.
Изложенный далее метод легко обобщить на другие типы выравнивания.
При построении метода мы используем принцип «разделяй и властвуй»
(divide and conquer). Пусть
п
2
и =
означает целую часть от Предположим на время, что мы можем
найти такое соответствующее и значение v, что процедура обратного
прохода пройдет через ячейку т. е. v — это строчка, где путь
выравнивания пересекает колонку матрицы с номером г = и . Тогда
мы можем разделить задачу нахождения полного выравнивания на две
части — нахождение оптимальных выравниваний в областях матрицы
между ячейками (0,0) и (u,v), и между ячейками (u,v) и (n,m). Пол-
ное оптимальное выравнивание для всей матрицы найдется склеивани-
ем двух оптимальных выравниваний, полученных для отдельных частей
исходной матрицы. (Для того чтобы это работало точно, надо исклю-
чить из определения выравнивания его начало.) Разделив матрицу на
части один раз, далее мы можем ее заполнить рекурсивно, последова-
тельно деля пополам каждый последующий кусок матрицы и фиксируя
на каждом шаге очередную пару выровненных остатков. Эта процедура
продолжается либо до того момента, когда останется выровнять только
подпоследовательности нулевой длины, что будет означать, что полное
выравнивание уже построено, либо когда останется выровнять достаточ-
но короткие подпоследовательности исходных последовательностей, так
что далее может быть использован стандартный алгоритм выравнивания
и обратного прохода сложности О(п2).
Но как мы найдем v? Для i > и определим c(z,j) так, чтобы ячей-
ка (-a, c(z,j)) лежала на пути оптимального выравнивания от (1,1) до
(г, J). Мы можем обновлять c(z,j) по мере вычисления значений F(z,j).
Если (г',/) — предыдущая ячейка, из которой было получено значение
F(z,j), тогда установим c(z,j) = j' если i = и, иначе c(z,j) = с(г',/).
Очевидно, это локальная операция, для которой мы должны запоминать
только предыдущие значения с(), также как для заполнения матрицы мы
должны помнить только предыдущие значения F(). Теперь финальная
ячейка матрицы содержит желаемое значение: v = с(п,т).
62
Глава 2
Насколько нам известно, эта процедура нахождения v не была опуб-
ликована никем из тех, кто ее использует. Более широко известна проце-
дура из теории алгоритмов, впервые описанная в [Hirschberg 1975], а в
вычислительную биологию введенная в [Myers & Miller 1988], и поэтому
обычно эта процедура в области анализа биологических последователь-
ностей называется алгоритмом Маерса-Миллера. В этом алгоритме не
отслеживается указатель для обратного прохода c(z,j), а вместо этого
находится точка середины выравнивания (u,v) путем комбинирования
результатов прямой и обратной процедуры динамического программиро-
вания для строки и (подробности см. в оригинальной работе). Алгоритм
Маерса-Миллера — элегантный рекурсивный алгоритм, но его немного
труднее объяснить в деталях. В [Waterman 1995, стр. 211] дается еще
один алгоритм выравнивания с линейной памятью. В [Chao, Hardison#
Miller 1994] сделан обзор алгоритмов парного выравнивания с линейной
памятью.
Упражнения
2.11 Впишите правильные значения c(z,J) для глобального выравнива-
ния, изображенного на рис. 2.5 для первого шага алгоритма (и =
= 5).
2.12 Покажите, что время работы описанного алгоритма с линейной
памятью лишь в два раза больше времени работы стандартного
О(пт) алгоритма.
2.7. Значимость весов
Теперь, когда мы знаем, как находить оптимальное выравнивание,
ответим на вопрос, как можно оценить значимость веса найденного вы-
равнивания? То есть, как в действительности решить, что мы получи-
ли — биологически осмысленное выравнивание, говорящее о гомологии,
или просто наилучшее выравнивание двух вообще неродственных друг
другу последовательностей? Чтобы ответить на этот вопрос, существует
два возможных подхода. Один из них, по духу байесовский, основан на
сравнении различных моделей. Другой основан на традиционном стати-
стическом подходе вычисления вероятности получения большего, чем в
конкретном случае, веса выравнивания для «нулевой» модели, в которой,
в данном случае, считается, что рассматриваемые последовательности
неродственны.
2.7. Значимость весов
63
Байесовский подход: сравнение моделей
Мы ввели логарифм отношения вероятностей на стр. 33 как вес
выравнивания без достаточной мотивации. Мы можем утверждать, что
в действительности нам нужна вероятность того, что последователь-
ности родственны, по сравнению с вероятностью того, что они нерод-
ственны, что выражалось бы величиной Р(М\х,у), а не вычисленной
ранее вероятностью Р(х,у\М). Р(М\х,у) может быть вычислено, ис-
пользуя правило Байеса, с использованием дополнительных предполо-
жений. Сначала мы должны определить априорные вероятности наблю-
дения последовательности согласно двум моделям. Эти вероятности от-
ражают наши ожидания того, что последовательности родственны, перед
тем, как мы их увидим на самом деле. Мы обозначим эти вероятности
как Р(М) — априорную вероятность того, что последовательности род-
ственны, и, следовательно, что модель сопоставления (match) верна,
и P(R) = 1 - Р(М), априорную вероятность того, что верна случайная
модель. Затем, после того, как мы увидели последовательности, апосте-
риорная вероятность того, что модель сопоставления верна, и, следова-
тельно, что последовательности родственны, равна
х Р(х,у\М)Р(М)
Р(М, х, у) =---—--------=
Р(х,У)
Р(х,у\М)Р(М)
~ Р(х,у\М)Р(М) + P(x,y\R)P(R) ~
Р(х, у\М)Р(М)/Р(х, y\R)P(R)
1 + Р(х, у\М)Р(М)/Р(х, y\R)P(R)'
Пусть
где
S' = S + log
Р(М)
(2.17)
S = log
Р(х,у\М)
P(x,y\R)
— вес выравнивания, вычисленный как логарифм отношения вероятно-
стей. Тогда
Р(М\х,у) = a(S'),
64
Глава 2
где
сг(ж) = —-—-
v ' 1 + е
а(.т) известна как логистическая (logistic) функция. Это сигмовидная
функция, стремящаяся к 1 при стремлении х к бесконечности, и к 0 —
при стремлении х к минус бесконечности, а при х = 0 принимающая
значение 1/2 (см. рис. 2.12). Логистическая функция широко использу-
ется в теории нейронных сетей для перехода от весов, полученных путем
суммирования, к вероятностям, хотя они и не полностью эквивалентны
друг другу.
Рис. 2.12. Логистическая функция
Из (2.17) мы видим, что мы должны добавить логарифм априорного
отношения вероятностей,
1 (р(мЛ
^(^(Я) J
к стандартному весу выравнивания. Это соответствует умножению от-
ношения вероятностей на априорное отношение вероятностей, что имеет
смысл с точки зрения интуиции. После этого мы можем в принципе
сравнить получившееся значение с 0, чтобы решить, родственны ли ис-
ходные последовательности. Для того чтобы это работало, мы должны
быть уверены в том, что все выражения, которые мы используем, дей-
ствительно представляют собой вероятности, в частности, что сумма
этих вероятностей по всевозможным парам последовательностей, кото-
рые могут быть образованы, будет равна 1. Когда схема оценки строится
2.7. Значимость весов
65
под конкретную задачу умозрительно, такой критерий почти наверняка
не будет выполнен.
Особый случай, когда учет априорного отношения вероятностей ста-
новится важен — это когда среди большого числа различных выравни-
ваний мы ищем значимое выравнивание. Это типичная ситуация при
поиске в базе данных. Ясно, что если априорное отношение вероятно-
стей фиксировано, то даже если вся база данных состоит из неродствен-
ных друг другу последовательностей, то вероятность того, что одно из
выравниваний случайно получится значимым, увеличивается, посколь-
ку увеличивается число последовательностей, которые мы пытаемся вы-
ровнять. В действительности, если априорное отношение вероятностей
фиксировано, ожидаемое число (ошибочно) значимых наблюдений будет
увеличиваться линейно с размером базы данных. Если мы хотим, что-
бы это отношение оставалось фиксированным, мы должны установить
априорное отношение вероятностей обратно пропорциональным числу N
последовательностей в базе данных. Эффект такого действия состоит
в том, что для того, чтобы зафиксировать ожидаемое число ошибочно
значимых выравниваний, мы должны сравнивать S с logTV, а не с 0.
Безопасный выбор заключался бы в том, чтобы выбрать вес, который бы
соответствовал ожидаемому числу ошибочно значимых выравниваний,
равному, скажем, 0.1 или 0.01. Конечно, необязательно самым подходя-
щим будет подход именно такого типа. Например, мы можем полагать,
что 1 % всех белков — киназы, в этом случае априорное отношение ве-
роятностей должно быть 1/100, и хотя ожидаемое количество ошибочно
значимых выравниваний будет увеличиваться с ростом базы данных, так
же будет увеличиваться и число действительно значимых выравниваний.
С другой стороны, если мы полагаем, что мы будем искать случаи, когда
во всей базе данных встретится только одно значимое выравнивание, то
сравнение с logJV более разумно.
В этом месте мы можем обратиться к рассмотрению статистической
значимости веса, полученного из алгоритма локального выравнивания.
В этом случае мы должны учесть тот факт, что мы смотрим на луч-
шее из множества возможных различных выравниваний между подпо-
следовательностями двух исходных последовательностей. Простая оцен-
ка числа мест для начала локальных выравниваний дает произведение
длин последовательностей пт. Если бы все локальные выравнивания
были одной постоянной длины и все начальные точки соответствова-
ли бы различным выравниваниям, то в результате мы должны были
бы сравнивать наилучший вес S с log(nm). Однако оба этих предпо-
ложения очевидно неверны (например, участки выравниваний, находя-
66
Глава 2
щиеся в соседних по диагонали ячейках, не являются независимыми),
поэтому вес S должен быть домножен на малый поправочный множи-
тель, который зависит только от весовой функции s, но не от п или т.
Аналитической теории для оценки этого эффекта нет, но для обычно
используемых систем оценки при сравнении белковых последователь-
ностей, по-видимому, подходящий поправочный множитель будет равен
примерно 0.1. Поскольку то, о чем мы беспокоимся, это аддитивный
член, равный логарифму поправочного множителя, его эффект сравни-
тельно мал.
Классический подход: распределение экстремальных
значений
Существует альтернативный способ рассматривать значимость в та-
ких ситуациях, используя классический статистический подход. Мы мо-
жем смотреть на распределение максимума N весов выравнивания по
независимым случайным последовательностям. Если вероятность того,
что этот максимум будет больше, чем наблюдаемый наилучший вес, ма-
ла, тогда наблюдаемый вес считается значимым.
В простом случае фиксированного выравнивания без разрывов (см.
раздел 2.2), вес выравнивания данной последовательности с некой слу-
чайной последовательностью будет равен сумме одинаково распределен-
ных случайных величин, таким образом, этот вес будет хорошо аппрок-
симироваться нормальным распределением. Асимптотическое распреде-
ление максимума MN набора из N независимых нормальных случайных
величин, как известно, имеет вид
P(MN х) « exp(-KNex(x~f‘}) (2.18)
для неких постоянных К, А? Эта форма предельного распределения
называется распределением экстремальных значений (extreme value
distribution, или EVD) (см. Главу 11). Мы можем использовать равен-
ство (2.18), чтобы вычислить вероятность того, что наилучшее выравни-
вание при просмотре большого числа N неродственных последовательно-
стей будет обладать весом, большим, чем наш наблюдаемый максималь-
ный вес S. Если эта вероятность меньше, чем некое малое значение,
например, 0.05 или 0.01, тогда мы можем заключить, что вероятность
того, что последовательности, давшие при выравнивании такой наблюда-
емый максимальный вес, будут неродственны, мала, т. е. очень вероятно,
что эти последовательности родственны.
2.7. Значимость весов
67
Оказывается, что даже когда отдельные веса не распределены нор-
мально, EVD все равно остается правильным предельным распределени-
ем для максимума большого количества отдельных весов (см. главу 11).
Из-за этого факта такой же тип проверки на значимость может быть ис-
пользован для любого метода поиска, который ищет наилучший вес из
большого набора эквивалентных возможностей. Конечно, в задаче поис-
ка наилучшего локального выравнивания алгоритмом локального вырав-
нивания, наилучший вес двух (значимо длинных) последовательностей
сам по себе будет распределен согласно EVD, потому что в этом слу-
чае мы на самом деле сравниваем результаты О (пт) начал различных
случайных выравниваний в пределах одной матрицы.
Для локальных выравниваний без разрывов в [Karlin & Altschul
1990] аналитически выведено соответствующее EVD, используя резуль-
таты, описанные более полно в [Dembo & Karlin 1991]. Мы даем здесь
этот вывод в два шага. Во-первых, число выравниваний неродственных
последовательностей с весом, большим, чем 5, имеет примерно пуассо-
новское распределение, со средним значением
E(S) = Kmne~xs, (2.19)
где А — это положительный корень следующего уравнения:
^qaqbeW} = 1, (2.20)
а,Ь
а К — постоянная, определяемая геометрически сходящимся рядом, так-
же зависящая только от qa и s(a,b). Это значение К полностью соответ-
ствует множителю, который мы описывали в конце предыдущего раз-
дела; он учитывает то, что возможные начальные точки выравниваний
не являются независимыми. Значение А на самом деле — масштабиру-
ющий параметр, преобразующий веса s(a, b) в естественные значения.
Заметим, что если веса s(a,d) были изначально получены как логариф-
мы отношений вероятностей по формуле (2.3), тогда А = 1, потому что
eXs(a,b) = pab/qaqb.
Вероятность того, что существует вес выравнивания, больший,
чем S, определяется равенством:
Р(х > 5) = 1 -e~E(S). (2.21)
Легко видеть, что объединение равенств (2.19) и (2.21) дает распре-
деление такой же предельной формы, что и (2.18), только без /х. В дей-
ствительности, обычно не возятся с вычислением вероятности, а лишь
68
Глава 2
требуют, чтобы E(S) было значительно меньше, чем 1. Это приводит к
следующему требованию
S>T +l«Smn (2 22)
А
для некой фиксированной постоянной Т. Это соответствует байесовско-
му анализу из предыдущего раздела, в предположении, что мы должны
сравнивать S с log(mn), но в этом случае мы можем дать точное значе-
ние используемой величине Т.
Хотя до сих пор не существует соответствующей аналитической
теории для выравниваний с разрывами, в [Mott 1992] предполагается,
что веса выравниваний с разрывами для случайных последовательно-
стей имеют такую же форму предельного распределения, что и веса
безразрывных выравниваний, и сейчас существуют значительные прак-
тические наблюдения, подтверждающие это предположение. Альтшуль и
Гиш [Altschul & Gish 1996] подобрали значения А и К в формуле (2.19)
для набора стандартных весовых функций для выравнивания белковых
последовательностей, используя большое количество случайно сгенери-
рованных данных.
Поправка на длину последовательности
При поиске в базе данных, состоящей из последовательностей раз-
личной длины, наилучшие локальные выравнивания с более длинными
последовательностями из базы данных в среднем имеют более высокие
веса, чем выравнивания с короткими последовательностями, даже ко-
гда все последовательности неродственны друг другу. Пример такого
поведения показан на рис. 2.13. И это неудивительно: если наша по-
следовательность длиной п, а последовательности в базе данных имеют
длину miy то для больших ш, существует больше возможных началь-
ных точек выравнивания шп,-. Однако, если наше априорное ожидание
таково, что выравнивание с любой последовательностью из базы данных
должно быть равновероятным, тогда мы должны сделать так, чтобы ве-
са случайных выравниваний можно было бы сравнивать независимо от
длины выравниваний.
Теоретически законный способ учета зависимости веса от длины
состоит в том, что мы должны отрегулировать наилучший вес для каж-
дой последовательности из базы данных путем вычитания log(mj). Это
следует из выражения для S" в предыдущем разделе. Альтернативный
2.7. Значимость весов
69
Рис. 2.13. Слева — график распределения весов локальных выравниваний, полу-
ченных из сравнения последовательности человеческого цитохрома С (иденти-
фикатор в базе данных SWISS-PROT Р000001) со всеми последовательностями
из базы данных SWISS-PROT34 с помощью алгоритма Смита-Уотермана, реали-
зованного как часть программы SSEARCH [Pearson 1996]. Справа, соответству-
ющее распределение весов, нормированное на длину, показывающее совпадение
с предельным распределением EVD
способ, который, как оказалось, на практике работает немного лучше и
может быть легко осуществлен, когда ищется большое число последо-
вательностей. Он состоит в том, чтобы хранить все последовательности
в базе данных в порядке возрастания их длины, и затем подобрать ли-
нейную функцию логарифма длины последовательностей [Pearson 1995]
(отделение сигнала от «шума» прибавляет немного сложности при реа-
лизации этого подхода).
Зачем использовать вес выравнивания в качестве
статистической проверки?
До сих пор в этом разделе мы всегда полагали, что мы будем ис-
пользовать один и тот же вес для статистической проверки значимости
выравнивания и для нахождения наилучшего выравнивания на стадии
построения выравнивания. Может показаться привлекательной идея по-
иска выравнивания с помощью одного критерия, затем оценки значимо-
сти выравнивания — с помощью другого, никак не связанного с первым.
Казалось бы, это поможет избежать той проблемы, что во время поиска
мы можем иметь более высокий уровень шума, чем при оценке значимо-
70
Глава 2
сти. Однако, нам нужен как метод поиска, так и метод оценки качества,
чтобы иметь как можно большую дискриминирующую мощность метода.
Важно использовать наилучшие имеющиеся статистические методы для
обеих задач. Если мы пропустим действительно правильное выравнива-
ние в фазе поиска, тогда очевидно, что мы не сможем рассматривать его
при проверке на значимость.
Как следствие использования критерия статистической проверки
для поиска, наилучшее выравнивание неродственных последовательно-
стей будет стремиться количественно быть похожим на настоящее вы-
равнивание. Поразительный пример этого приведен в [Karlin & Altschul
1990], где показано, что при нахождении оптимального локального вы-
равнивания без разрывов между случайно взятыми последовательностя-
ми, частота встречаемости выровненных остатков а и b в таких вырав-
ниваниях равна qaqbes(a'b\ т. е. в точности значению вероятности раъ,
с которой мы ожидаем увидеть выровненные остатки а и b в нашей
настоящей, эволюционной модели. Единственное свойство, которое мы
можем использовать для разделения настоящих и ошибочных выравни-
ваний, это величина веса, ожидание которого пропорционально длине
выравнивания.
Конечно, может оказаться, что наиболее чувствительные схемы
оценки предполагают сложные вычисления, которые не могут быть реа-
лизованы на практике на стадии поиска. В этом случае, возможно, необ-
ходимо искать выравнивания, используя более простую весовую функ-
цию, но хранить не просто одно наилучшее выравнивание, а несколько
альтернативных выравниваний с высоким весом. Мы обсудим методы
нахождения таких субоптимальных выравниваний в главе 4.
2.8. Извлечение весовых параметров из данных по
выравниванию
Мы заканчиваем эту главу возвращением к предмету первого разде-
ла: как определить веса замен и разрывов — компоненты модели оценки
выравнивания. Тогда мы описали, как получить из вероятностей веса для
алгоритмов парного выравнивания. Однако остается вопрос, как оцени-
вать сами вероятности. Очевидно, что работоспособность всей нашей
системы выравнивания будет сильно зависеть от значений этих пара-
метров, так что к их оценке нужно относиться со значительной осто-
рожностью.
Простой и очевидный метод заключался бы в том, чтобы вычислить
частоты встречаемости выровненных друг с другом остатков, а также
2.8. Извлечение весовых параметров из данных по выравниванию 71
разрывов в надежных (подтвержденных независимыми источниками —
Прим, перев.) выравниваниях, и установить вероятности pab, qa и f(g)
как нормированные частоты встречаемости. (Это соответствует получе-
нию оценок для вероятностей согласно методу максимального правдопо-
добия; см. главу И.)
Однако существует две трудности в этом простом подходе. Первая
заключается в том, чтобы получить достаточно представительный набор
надежных выравниваний. Из-за того, что белковые последовательности
формируют семейства, выравнивания не являются независимыми друг от
друга. Вторая трудность более хитрая. По правде говоря, разные пары
последовательностей разошлись от общего предка на разные расстоя-
ния. Если две последовательности совсем недавно произошли от общего
предка, мы ожидаем, что большая часть остатков будет в них одинакова.
Вероятность раь для а / b при этом должна быть мала, следовательно,
s(a,b) должны быть большими по модулю отрицательными величинами,
если а / Ь. В другом предельном случае, когда от расхождения двух
последовательностей прошло много времени, мы ожидаем, что раь будет
стремиться к произведению qaqb, так что s(a,b) должно быть близко к
нулю для всех а и Ь. Поэтому, мы должны использовать веса, учитыва-
ющие ожидаемую степень расхождения сравниваемых последовательно-
стей.
Семейство матриц РАМ
В [Dayhoff, Schwartz & Orcutt 1978] обе вышеупомянутые трудно-
сти были приняты во внимание при создании семейства матриц РАМ,
которые широко используются на практике для выравнивания после-
довательностей белков. Идея их метода состоит в том, чтобы получить
данные по заменам аминокислот из выравниваний между очень схожими
белками, тем самым принимая во внимание эволюционные связи белков
внутри белковых семейств, а затем экстраполировать полученную ин-
формацию на большие эволюционные расстояния.
Они начали с построения гипотетических филогенетических дере-
вьев для каждого из 71 белкового семейства, внутри которых любые две
последовательности различались не более чем на 15% остатков. Чтобы
построить деревья, они использовали метод наибольшей бережливости
(см. главу 7), в результате работы которого получился список остатков,
которые можно ожидать с наибольшей вероятностью в каждой пози-
ции последовательности- предка. Из этих данных они смогли собрать
массив Ааь, содержащий частоты всех пар выровненных друг с другом
72
Глава 2
остатков а и b по всем последовательностям и их непосредственным
предкам по дереву. Эволюционное направление замен игнорировалось:
как Ааъ, так и Аьа увеличивались каждый раз, когда остаток а в пред-
ковой последовательности менялся на b в потомке. Затем полученные
значения заносились в структуру дерева; при этом двойные (и более) за-
мены не учитывались из-за малой вероятности их возникновения вслед-
ствие эволюционного родства последовательностей.
Из-за того, что авторы хотели далее экстраполировать полученные
значения на большие времена, первое, что им нужно было оценить, была
не совместная вероятность раъ наблюдения пары остатков выровненных
друг с другом а и 6, а условная вероятность P(b\a, t) того, что остаток а
будет заменен на остаток b за время t. Далее, P(b\a,t) = pab(t)/qa- Мы
можем затем вычислить условные вероятности для длительных проме-
жутков времени путем их перемножения для коротких интервалов вре-
мени, как показано ниже. Эти условные вероятности известны как веро-
ятности замен (substitution probabilities)-, они играют важную роль в
построении филогенетического дерева (см. Главу 8). Оценки Р(Ь\а) для
коротких интервалов могут быть получены из матричных значений Ааь
путем установки Р(Ь\а) = Ва,ь = Ааь/^сАас.
Эти значения затем должны быть модифицированы так, чтобы учи-
тывать время расхождения t. Ожидаемое число замен в «типичном» бел-
ке, в котором остаток а встречается с частотой qa, равно Еа,ьЦадьВаь-
Авторы определили матрицу замен как матрицу в 1 РАМ (аббревиату-
ра от «принятой точечной мутации» («point accepted mutation»)), если
ожидаемое число замен составляет 1%, т. е. если ^a,bqaqbBab = 0-01.
Чтобы преобразовать матрицу В в матрицу вероятностей замен в 1 РАМ,
они умножили недиагональные элементы на множитель о и настроили
диагональные элементы, чтобы сумма значений в каждой строке равня-
лась 1. Если быть более точными, они определили Саь = &Ваь для а / Ь,
и Саа = сгВаа + (1 - <т), где а выбрано так, чтобы получить значения С в
матрицу 1 РАМ; мы будем обозначать это значение С в матрице 1 РАМ
как 5(1). Ее элементы могут рассматриваться как вероятности замены
остатка а остатком b за единичное время t = 1, P(b\a,t — 1).
Для получения матриц замен, подходящих для более длительных
интервалов времени, 5(1) возводится в степень (путем умножения мат-
рицы на саму себя п раз), в результате получается 5(п) = 5(1)п. На-
пример, матрица 5(2), полученная путем умножения 5(1) на саму себя,
содержит величины P(b\a,t = 2) = EcF(a|c, t = l)P(c\b,t = 1), которые
являются вероятностями замены b на а, произошедших через некото-
рый промежуточный остаток с. Для малых п недиагональные элемен-
2.8. Извлечение весовых параметров из данных по выравниванию 73
ты возрастают примерно линейно с п. Другими словами, матрица S(n)
представляет результат п шагов цепи Маркова с 20 состояниями, со-
ответствующих 20 аминокислотам, а каждый шаг имеет вероятность
перехода, определяемую величиной 5(1) (с цепями Маркова мы основа-
тельно познакомимся в главе 3).
Наконец, из S(t) получается матрица весов. Поскольку Р(Ь\а) =
= Pab(t)/qa, элементы матрицы весов для времени t определяются соот-
ношением
, МП 1
s(a, 6|t) = log-—
Эти значения отнормированы и округлены до ближайшего целого
для удобства вычислений. Наиболее широко используемая матрица —
это РАМ250, из которой путем умножения всех значений на 3/log2,
веса получаются выраженными в единицах, равных одной трети бита.
Матрицы BLOSUM
Матрицы РАМ были одной из опор для методов сравнения последова-
тельностей, но они имели свои ограничения. Значения в 5(1) определя-
лись в большинстве своем заменами за короткий интервал времени, а по-
следующее возведение 5(1) в степень для получения, например, матрицы
РАМ250, не отображало действительных различий между заменами за
короткие и длительные промежутки времени [Gonnet, Cohen & Benner
1992]. Среди первых доминировали аминокислотные замены, возникаю-
щие вследствие замены одного основания в кодоне, например, L /,
L <-+ V или Y F, в то время как последние были результатом всевоз-
можных изменений кодонов.
С тех пор, как были сделаны матрицы РАМ, были сформированы
базы данных, содержащие множественные выравнивания более отдален-
ных родственных белков, и эти выравнивания могут быть использованы
для более непосредственного получения матриц весов. Одно из широ-
ко используемых семейств таких матриц весов — это семейство матриц
BLOSUM [Henikoff & Henikoff 1992]. В точности, они были получены
из набора выровненных без разрывов участков белковых семейств, на-
зываемого базой данных BLOCKS [Henikoff & Henikoff 1992]. Последо-
вательности из каждого блока были собраны в кластеры, причем две
последовательности попадали в один кластер всякий раз, когда процент-
ное содержание идентичных остатков превышало некий порог в L%.
Затем авторы вычислили частоты Ааъ встречаемости остатка а из одно-
го кластера, выровненного с остатком Ъ из другого, приняв во внимание
74
Глава 2
размеры кластеров путем умножения каждой частоты на 1/(п1П2), где
П1 и п2 — соответствующие размеры кластеров.
Из АаЬ они оценили qa и раЬ по формуле qa = ^bAab/lbcdAcd, т. е. как
частоту сопоставления в выравнивании двух остатков, которые включа-
ют в себя остаток а, и рпь = Aab/'EcdAcd, т. е. как часть выравниваний
остатков а и b из всех наблюдаемых пар выровненных остатков. Из этих
значений они получили элементы матрицы весов, используя стандарт-
ную формулу s(a, b) = logpab/QaQb (2.3). Как и прежде, получившиеся
матрицы весов, равные логарифмам отношения вероятностей, были от-
нормированы и округлены до ближайшего целого. В частности, матри-
цы, построенные при пороговых значениях L = 62 и L = 50, широко
используются для парного выравнивания и поиска в базах данных, при-
чем BLOSUM62 обычно применяется для выравнивания без разрывов,
a BLOSUM50, пожалуй, лучше работает для выравниваний с разрывами
[Pearson 1996]. BLOSUM62 отнормирован так, чтобы его значения выра-
жались в полубитах, т. е. значения отношений логарифмов вероятностей
были умножены на 2/log2, а значения BLOSUM50 выражены в третях
битов. Заметим, что меньшие значения L соответствуют большим эво-
люционным временам, и применимы для поиска более удаленных друг
от друга последовательностей.
Оценка штрафов за разрывы
Стандартных моделей разрывов, зависящих от времени, не суще-
ствует. Если бы такая модель существовала, разумно было бы предпола-
гать, что ожидаемое число разрывов увеличивается со временем линей-
но, но распределение разрывов по длинам при этом остается постоянным.
При выравнивании с аффинной функцией штрафа за разрывы это соот-
ветствовало бы линейной зависимости штрафа за открытие разрыва d от
log(f), в то время как штраф за продолжение разрыва е оставался бы
постоянным. В работе [Gonnet, Cohen & Benner 1992] подобное распре-
деление выводится эмпирически. На самом деле, они предложили более
подходящую функцию вида = А + Blog(f) + Clog(^). В таком под-
ходе есть некоторая ограниченность, потому что они сделали этот вывод
из полного сравнения всех белков базы данных между собой, используя
алгоритмы выравнивания последовательностей.
На практике после выбора весов замен величины штрафов выби-
рают эмпирически. Это возможно потому, что существует только два
параметра для аффинной функции штрафа, в то время как количество
весов замен для белков составляет 210. Тщательное обсуждение факто-
2.9. Дополнительное чтение
75
ров, влияющих на выбор штрафов за разрывы, можно найти в [Vingron &
Waterman 1994].
Наконец, остался последний трюк, о котором нужно рассказать, раз
уж у нас есть комбинированная модель замен и разрывов. Теперь, ко-
гда есть возможность возникновения разрыва в некой данной позиции
последовательности, совсем необязательно, чтобы в этой позиции было
сопоставление двух остатков. Можно спорить о том, что мы должны
включить в наши веса замен член, отвечающий за вероятность того, что
разрыв не начался. Вероятность того, что в определенной позиции после-
довательности х есть разрыв, равна /(г), точно так же существует
такая же вероятность, что в этой позиции в последовательности у тоже
разрыв. Из этого мы можем получить вероятность того, что разрыва нет,
т. е. что у нас в данном месте два выровненных остатка:
Р(нет разрывов) = 1 - 2^/(г). (2.23)
г>1
Как следствие, вес замены, который соответствует сопоставлению двух
остатков, должен быть не s(a,6), а вместо этого — s'(a,b) = s(a,b) +
+ logP(neT разрывов). Эффект этой процедуры заключался бы в том,
чтобы уменьшать веса замен по мере того, как разрывы становятся все
более вероятными, т. е. по мере того, как штрафы за разрывы умень-
шаются. Однако, эта поправка мала, и обычно ею пренебрегают при
получении системы оценки из частот выравниваний.
2.9. Дополнительное чтение
Хорошие обзоры методов динамического программирования для
сравнения биологических последовательностей даны в [Pearson 1996]
и в [Pearson & Miller 1992]. Чувствительность методов динамического
программирования была исследована и сравнена с быстрыми эвристиче-
скими алгоритмами BLAST и FASTA в [Pearson 1995] и в [Shpaer et al.
1996].
В [Bucher & Hofmann 1996] описана вероятностная версия алго-
ритма Смита-Уотермана, которая связана с методами, обсуждаемыми
в главе 4.
Среди интересных вопросов применения методов динамического
программирования к парному выравниванию, которые мы не охватили,
содержатся быстрые алгоритмы динамического программирования «в по-
лосе» [Chao, Pearson & Miller 1992], проблема выравнивания данной
76
Глава 2
белковой последовательности с последовательностями ДНК [Huang &
Zhang 1996], а также проблема отыскания не только единственного оп-
тимального выравнивания, но также и «субоптимальных» и «близких к
оптимальному» выравниваний [Zuker 1991; Vingron 1996].
Глава 3
Цепи Маркова
и скрытые марковские модели
В главе 2 мы рассмотрели некоторые методы парного выравнивания,
и теперь, в этой главе, мы займемся решением вопросов, связанных с
отдельными последовательностями. Основная цель этой главы — разра-
ботать теорию для очень общей формы вероятностной модели последо-
вательности символов, которая называется скрытой марковской моделью
(сокращенно НММ — Hidden Markov Model). Типы задач, которые будут
рассмотрены, и для решения которых мы можем использовать НММ и
более простые, родственные им, марковские модели, таковы: «Принадле-
жит ли данная последовательность особому семейству?» или «Предпола-
гая, что последовательность действительно принадлежит некоторому се-
мейству, что мы можем сказать о ее внутренней структуре?». Примером
задачи второго типа могла бы послужить задача: попытаться идентифи-
цировать участки последовательности белка, соответствующие альфа-
спиралям и бета-тяжам.
Наряду с примерами из мира биологических последовательностей
мы приводим математические методы и алгоритмы действий над НММ
в более общей форме. Эти методы, или их близкие аналоги, используют-
ся во многих других разделах данной книги. Таким образом, в этой гла-
ве содержится довольно большое количество математических выкладок.
Мы попытались организовать его таким образом, чтобы первая половина
главы знакомит читателя с основными алгоритмами на одном биологиче-
ском примере. В следующем разделе мы представляем множество других
примеров, для того чтобы проиллюстрировать более сложные подходы,
которые являются обобщениями основных.
В следующей главе мы увидим, как НММ можно применить к неко-
торым типам задач выравнивания, которые обсуждались в главе 2. В гла-
ве 5 они используются для поиска в базах данных белковых семейств,
а в главе 6 для выравнивания нескольких последовательностей одновре-
менно. Фактически, процедуры поиска и выравнивания являются, воз-
можно, наиболее известными случаями применения НММ для анализа
78
Глава 3
биологических последовательностей. Однако, мы приводим здесь теорию
НММ в наименее специализированном контексте для того, чтобы пока-
зать, что она имеет более широкую область применимости, выходящую
далеко за рамки задачи выравнивания последовательностей.
Огромное множество статей о НММ встречается в литературе, от-
носящейся к области распознавания речи, где они были применены впер-
вые в начале 70-х годов. Одним из лучших общих введений в рассмат-
риваемую тему является обзор Рабинера [Rabiner, 1989], который также
освещает историю данного вопроса. И хотя данная глава сильно пе-
рекликается с обзором Рабинера, есть разница в расстановке главных
акцентов.
До того, как продолжить рассказ о применении НММ для ана-
лиза биологических последовательностей, наверное, было бы интерес-
но кратко рассмотреть, как они используются для распознавания речи
[Rabiner & Juang 1993].
После записи, речевой сигнал делят на отрезки (называемые фрей-
мами) длительностью 10-20 секунд. После некоторой предварительной
обработки каждый фрейм определяется в одну из многочисленных на-
перед заданных категорий посредством процесса, известного как мно-
гопараметрическое квантование. Обычно имеется 256 таких категорий.
Речевой сигнал теперь представлен как длинная последовательность ме-
ток, обозначающих ту или иную категорию. По этой последовательности
устройство распознавания речи должно определить, какая последова-
тельность фонем (или слов) была произнесена. Трудности связаны тем,
что один и тот же звук произносится немножко по- разному, и время
произнесения различных частей слова также не одинаково.
Многие задачи анализа биологических последовательностей имеют
такую же структуру: по последовательности символов из некоторого ал-
фавита выяснить, что представляет собой эта последовательность. Для
белков такие последовательности состоят из символов алфавита 20 ами-
нокислот, и мы обычно хотим узнать, какому белковому семейству при-
надлежит данная последовательность. В данном случае исходная после-
довательность является аналогом речевого сигнала, а белковое семей-
ство — аналогом произнесенного слова, которое этот сигнал представля-
ет. Отклонения по времени в речевом сигнале соответствуют наличию
вставок и делеций в последовательности белка.
Давайте перейдем к более простому примеру, который мы будем
использовать для представления первой стандартной марковской модели,
с нескрытым разнообразием, а затем для представления простой скрытой
марковской модели.
3.1. Цепи Маркова
79
Пример: CpG островки
В геноме человека, где бы ни встречалась пара нуклеотидов CG
(иногда пишут CpG, чтобы отличать от базовой С-G пары между дву-
мя цепями) нуклеотид С (цитозин), как правило, химически изменен
посредством метилирования. Этот метил-С с относительно большой ве-
роятностью мутирует в Т, вследствие чего CpG динуклеотиды вообще
встречаются в геноме реже, чем можно было ожидать из независимо-
сти распределений С и G. По биологически важным причинам процесс
метилирования подавляется в таких коротких участках генома, как око-
лопромоторные или «стартовые» области перед многими генами. В этих
участках можно наблюдать гораздо больше CpG динуклеотидов, чем
где-либо, и, по сути, больше С и G нуклеотидов вообще. Такие области
называются CpG островками [Bird 1987]. Обычно они имеют длину от
нескольких сотен до нескольких тысяч оснований.
Мы рассмотрим две задачи. Первая: Дан небольшой участок после-
довательности генома. Как определить, принадлежит он какому-то CpG
островку или нет? А вторая: Дан длинный кусок последовательности.
Как найти CpG островки внутри этой последовательности, если они во-
обще там есть? Начнем с первой задачи. □
3.1. Цепи Маркова
Какую вероятностную модель мы можем использовать для обла-
стей CpG островков? Мы знаем, что важны пары нуклеотидов. Поэтому,
нам нужна модель для генерации символов, в которой вероятность сим-
вола зависит от предыдущего символа. Самой простой такой моделью
является классическая цепь Маркова. Нам нравится представлять цепь
Маркова графически в виде набора «состояний», каждый из которых
соответствует одному остатку, и дуг между этими состояниями. Цепь
Маркова для ДНК можно изобразить следующим образом:
80
Глава 3
Здесь можно увидеть состояние для каждой из четырех букв А, С, G
и Т из алфавита ДНК. Вероятностный параметр связан с каждой дугой
на этом рисунке, которая означает вероятность для некоторого остатка
следовать за другим остатком, или для одного состояния следовать за
другим состоянием. Эти вероятностные параметры называются вероят-
ностями переходов, которые мы будем обозначать как ast:
ast = P(xi = t \xi-x = s). (3.1)
Для любой вероятностной модели последовательности мы можем запи-
сать вероятность последовательности как:
Р(т) = • • • ,.^i) =
= P(xL ... ,Т1 )P(tL-i ... ,Т1 )... P(xi),
применяя формулу
Р(Х,У) = Р(Х|У)Р(У)
много раз. Ключевое свойство цепи Маркова заключается в том, что
вероятность любого символа Xi зависит только от значения предшеству-
ющего символа Тг-i, а не от всей предыдущей последовательности, т. е.
P(xi |xZ-i,... ) = P(xi \xi-X) = aXl_lXl.
Предыдущее равенство тем самым обращается в:
Р(т) = P(xL \xL_ 1 )Р(жЬ-1 |^L-2 ) . . . Р{х2 |Ж1 )Р(Т1) =
L
= р(^1)(3-2)
г=2
Не смотря на то, что мы вывели это равенство в контексте задачи о CpG
островках в последовательностях ДНК, в действительности оно является
общим равенством для вероятности получения искомой последователь-
ности из любой цепи Маркова. Есть много литературы, посвященной
цепям Маркова, например Кокс и Миллер [Сох & Miller 1956].
Упражнение
3.1 Сумма вероятностей по всем возможным последовательностям дли-
ны L может быть представлено в форме (при использовании 3.2):
L
52 = 5252 • • • 52 Па*•
{х У 1 ^2 l i=2
Покажите, что это выражение равно 1.
3.1. Цепи Маркова 81
Моделирование начала и конца последовательности
Следует отметить, что помимо определения вероятностей переходов
мы также должны задать P(ti) — вероятность начать в определенном
состоянии. Чтобы избежать неоднородности в равенстве (3.2), возника-
ющей из-за начальных вероятностей, можно добавить к нашей модели
дополнительное начальное состояние. Одновременно с этим мы добав-
ляем букву к алфавиту, которую мы назовем В (begin — начало). По-
ложим то = Б, теперь начало последовательности также включено в
равенство (3.2). Так, например, вероятность первого символа последова-
тельности составляет:
P(xi = s) = a&s.
Аналогично мы можем добавить символ £, обозначающий конец после-
довательности, для того, чтобы смоделировать конец последовательно-
сти. Таким образом, вероятность того, что последовательность оканчи-
вается символом t
P(S\xL =t) = at£.
Для того чтобы привести в соответствие новые символы, мы добавляем
к нашей модели ДНК начальное и конечное состояния (см. рис. 3.1).
Фактически, нам не нужно явно добавлять какие-либо новые символы
в алфавит, а вместо этого мы можем работать с двумя новыми состо-
яниями как с «молчащими», которые служат просто точками начала и
конца.
Рис. 3.1. К цепи Маркова могут быть добавлены начальное и конечное состояния
(модель, изображенная серым цветом) для того, чтобы смоделировать оба конца
последовательности
82
Глава 3
Традиционно конец последовательности в цепях Маркова не моде-
лируют. Предполагается, что последовательность может заканчиваться
где угодно. Добавляя к модели состояния для конца последовательно-
сти, мы моделируем распределения длины последовательности. Таким
образом, модель определяет распределение вероятностей для всех воз-
можных последовательностей (любой длины). Распределение по длине
экспоненциально убывает; смотри следующее упражнение.
Упражнения
3.2 Пусть модель содержит конечное состояние, и пусть переход из лю-
бого состояния в конечное происходит с вероятностью т. Покажите,
что сумма вероятностей (3.2) по всем последовательностям длины L
(которые полностью завершаются переходом конечное состояние)
равна т(1 -
3.3 Покажите, что сумма вероятностей по всем возможным последова-
тельностям любой длины равна 1. Это доказывает, что цепь Мар-
кова действительно описывает полное распределение вероятностей
на всем пространстве последовательностей. (Совет: воспользуйтесь
тем, что для 0 < х < 1, хг = 1/(1 - х)).
Применение цепей Маркова для распознавания
Равенство (3.2) в основном применяется для подсчета значений, ко-
торые потом будут использоваться в критерии отношения правдоподо-
бия. Проиллюстрируем это на реальном примере с CpG островками. Из
набора последовательностей ДНК человека мы выделили всего 48 пред-
полагаемых CpG островков и построили две цепи Маркова, одну для
участков, помеченных как CpG островки («+»-модель), а другую — для
участков из остальной последовательности («—»-модель). Вероятности
переходов для каждой модели мы задали равенством
и аналогично для a~t, где — количество случаев, когда t следует
за s в помеченных участках. a+t и a~t являются оценками максималь-
ного правдоподобия (МП) вероятностей переходов, как было описано в
главе 1.
3.1. Цепи Маркова
83
(В данном случае оценка проводилась по почти 60 000 нуклеоти-
дам, и оценки МП являются адекватными. Если бы число нуклеотидов
каждого типа было маленьким, тогда бы больше подошел критерий оцен-
ки Байеса, что обсуждается в главе 11 и ниже, для НММ). Результаты
представлены в таблицах:
+ А С G Т
А 0.180 0.274 0.426 0.120
С 0.171 0.368 0.274 0.188
G 0.161 0.339 0.375 0.125
Т 0.079 0.355 0.384 0.182
— А С G Т
А 0.300 0.205 0.285 0.210
С 0.322 0.298 0.078 0.302
G 0.248 0.246 0.298 0.208
Т 0.177 0.239 0.292 0.292
где первая строка для каждого случая содержит частоты, с которыми
за А следует каждое из четырех оснований, аналогично для других
строк. Сумма по каждой строке равна единице. Эти числа не равны меж-
ду собой; например, G следует за А с большей частотой чем Т. Заметьте
также, что эти таблицы являются ассиметричными. В обеих таблицах
вероятность С следовать за G ниже вероятности G следовать за С, хотя
этот эффект сильнее выражен в таблице «-», как и ожидалось.
Для того, чтобы использовать эти модели для распознавания, мы
рассчитываем логарифм отношения правдоподобия
S(t) = log
Р(х |model+)
Р(х |model-)
=f>g
i=l
L
0хг_\х.,
i=l
где x — последовательность, а /3Хг_1Хг — логарифмы отношений прав-
доподобия соответствующих переходных вероятностей. Таблица для (3 в
битах1 приведена ниже:
/3 А С G Т
А -0.740 0.419 0.580 -0.803
С -0.913 0.302 1.812 -0.685
G -0.624 0.461 0.331 -0.730
Т -1.169 0.573 0.393 -0.679
На рисунке 3.2 изображено распределение весов, S(z), нормирован-
ных на длину, т. е. среднее число битов на молекулу. Если бы мы не
нормировали на длину, распределение было бы более разбросанным.
Логарифмирование осуществляется по основанию 2. В таких случаях единица изме-
рения называется битом.
84
Глава 3
Рис. 3.2. Гистограмма распределения весов, нормированных на длину. CpG
островки показаны темно-серым, не CpG островки показаны светло-серым
Видно существенное различие между областями, помеченными как
CpG островки, и остальными участками. Это различие не сильно зависит
от нормирования на длину. Если бы мы хотели продолжить процесс
и выявить случаи неправильной классификации, следует помнить, что
ошибки также могут быть вызваны несоответствующей или некорректно
параметризованной моделью, или неправильной разметкой данных для
обучения.
3.2. Скрытые марковские модели
Существует некоторое количество обобщений классических цепей
Маркова, к которым мы вернемся позже в этой главе. Однако, здесь
мы сразу приступим к скрытым Марковским моделям. Будем мотиви-
ровать это возвратом ко второй из задач, которые были предложены
в начале главы, на примере CpG островков: Как их найти в длинной
неразмеченной последовательности? Модели, основанные на цепях Мар-
кова, которые мы только что построили, можно было бы использовать
для этой цели, подсчитывая логарифм отношения правдоподобия веса
для окна, скажем, длины 100 нуклеотидов вокруг каждого нуклеотида
в данной последовательности, и нанося эти значения на график. Тогда
наверняка можно ожидать, что CpG островки выделяться положитель-
ными значениями. Однако, этого недостаточно, если мы полагаем, что в
3.2. Скрытые марковские модели 85
действительности CpG островки имеют четкие границы и различаются
по длине. И почему надо использовать окно длины 100? Одним из бо-
лее подходящих подходов является построение одной модели для всей
последовательности, которая включает в себя обе цепи Маркова.
Для того, чтобы воспроизвести одну модель для «островов» (CpG
островков) и для «моря» (остальной геномной последовательности), нам
нужно представить две цепи Маркова из последнего раздела в виде еди-
ной модели, с маленькой вероятностью перейти из одной цепи в другую
для каждой точки. Однако возникает трудность, что мы теперь имеем
два состояния, соответствующих одному нуклеотидному символу. Для
того, чтобы избавиться от этой трудности, будем приписывать метки к
состояниям. Теперь у нас есть А+, С+, G+ и Т+ , которые производят А,
С, G и Т соответственно в CpG островках, и А_, С_, G_ и Т_ для со-
ответствующих нуклеотидов в областях вне островков; см. рисунок 3.3.
Рис. 3.3. НММ для CpG островков. В дополнение к показанным переходам
имеется также полный набор переходов внутри каждой группы, также как в
ранее рассмотренных простых марковских цепях
Вероятности переходов в этой модели определены так, что в рамках
каждой группы они близки к вероятностям переходов модели первичных
компонент, но существует маленькая, но конечная, вероятность перейти
в другую компоненту. В целом, более вероятно перейти из «+» в «-»,
чем наоборот, поэтому, если позволить модели работать свободно, то она
проведет больше времени в «-» состояниях, чем в островных состояниях.
Смена меток — важный шаг. Существенная разница между цепью
Маркова и скрытой марковской моделью состоит в том, что в скрытой
марковской модели нет взаимно однозначного соответствия между состо-
86
Глава 3
яниями и символами. Здесь уже невозможно сказать, в каком состоянии
находилась модель, когда был сгенерирован символ х^ , глядя только на
символ Xi. В нашем примере невозможно сказать, глядя на один символ
С в отдельности, был он сгенерирован в состоянии С+ или С_.
Формальное определение НММ
Давайте формализуем обозначения для скрытых марковских моде-
лей и вычислим вероятности для отдельной состояний и символов. Те-
перь нам нужно различать последовательность состояний и последова-
тельность символов. Назовем последовательность состояний путем, тг.
Сам по себе путь проходит по обычной цепи Маркова, следовательно,
вероятность состояния зависит только от предыдущего состояния, г-е
состояние в цепи обозначим через тг*. Цепь характеризуется параметра-
ми:
aki = P(iti = I |7Гг-1 = к). (3.4)
Для того, чтобы смоделировать начало процесса, мы добавляем началь-
ное состояние, также, как мы добавляли начало последовательностей в
цепях Маркова (рис. 3.1). Можно считать, что вероятность перехода аок
из этого начального состояния в состояние к равна вероятности стар-
товать в состоянии к. Для удобства обозначим начальное и конечное
состояния через 0 (здесь нет конфликтной ситуации, потому что из на-
чального состояния можно только выйти, а в конечное состояние только
войти, то есть, переменные используются не более чем один раз).
Поскольку мы разделили символы, Ь, и состояния, к, мы должны
ввести новый набор параметров данной модели, еЦЬ). В нашей модели
CpG каждое состояние соответствует одному символу, но это не явля-
ется требованием. Вообще, одно состояние может производить символ
из распределения, построенного по всем возможным символам. Таким
образом, мы определяем
ек(Ъ) = P(xi = 6 |тгг = к). (3.5)
вероятность, что символ b возникает в состоянии к. Эти вероятности
называются эмиссионными вероятностями.
Для нашей модели CpG островков все эмиссионные вероятности
равны или 0 или 1. Для того, чтобы проиллюстрировать, что такое
эмиссионные вероятности, мы вновь обратимся к примеру про казино
из главы 1.
3.2. Скрытые марковские модели
87
Пример: Нечистое на руку казино, часть 1
Рассмотрим пример из главы 1. В казино почти всегда использует-
ся правильная игральная кость, но иногда ее подменяют неправильной.
Неправильная кость имеет вероятность 0.5 выпадения шестерки и ве-
роятность 0.1 выпадения остальных чисел от 1 до 5. Предположим, что
казино подменяет правильную кость неправильной с вероятностью 0.05
перед каждым броском, а вероятность обратной подмены равна 0.1. В та-
ком случае подмена костей является марковским процессом. В каждом
состоянии этого марковского процесса результаты бросков имеют разную
вероятность, и, таким образом, весь этот процесс является примером
скрытой марковской модели. Эго можно изобразить так:
0,95 0,9
Правильная Неправильная
где эмиссионные вероятности е() показаны в жирных рамках. □
Что скрыто в модели, описанной выше? Если просто посмотреть
на последовательность бросков (последовательность наблюдений) не по-
нятно, в каких бросках использовалась неправильная кость, а в каких
правильная, потому что казино держит это в тайне. Это и означает, что
последовательность состояний скрыта. В цепи Маркова всегда точно
известно, к какому состоянию относится данное наблюдение. Очевидно,
что казино ни за что бы ни сказало вам, что они используют неправиль-
ную кость и каковы вероятности подмены. Тем не менее, в этой более
сложной ситуации, к которой мы вернемся позже, возможно оценить
вероятности для НММ, описанной выше (только заподозрив, что ис-
пользуются две различные кости). Название эмиссионные вероятности
связано с тем, что часто бывает удобно представлять НММ в виде ге-
нерирующих модели, которые производят, или «выпускают» (emit — вы-
пускать) последовательности. Например, мы можем сгенерировать слу-
чайную последовательность бросков для модели с подменой кости, опи-
санной выше, имитируя удачный выбор кости, а не бросок выбранной
кости. Вообще, последовательность может быть сгенерирована НММ
88
Глава 3
следующим образом: Первое состояние ти выбирается в соответствии с
вероятностями «ог- В этом состоянии наблюдение генерируется в соот-
ветствии с распределением для этого состояния. Затем выбирается
новое состояние 7Г2 в соответствии с вероятностями переходов a^i и
так далее. Таким способом генерируется последовательность случайных
искусственных наблюдений. Поэтому, мы иногда говорим, что Р(х) — ве-
роятность того, что х сгенерирован данной моделью. Теперь легко можно
записать совместную вероятность последовательности наблюдений х и
последовательность состояний тг:
L
Р^Х^ТГ^ = Q07T1 | | ^7Гг (^г)а7Т, 7Гг+1 ) (3.6)
i— 1
где мы требуем, чтобы 7T£+i = 0. Например, вероятность того, что после-
довательность CGCG была сгенерирована последовательностью состоя-
ний (С+, G_, С_, G+) в нашей модели равна2:
«о,с+ х 1 х ac+,G_ х ас_,С- х 1 х ac_,G+ х 1 х ас+,0-
Равенство (3.6) является НММ аналогом равенства (3.2). Однако, оно не
слишком полезно на практике, так как, вообще говоря, мы не знаем путь.
В следующем разделе мы расскажем, как оценивать путь подбором наи-
более вероятного пути или пользуясь апостериорным распределением
по состояниям. Затем мы рассмотрим, как оценивать параметры НММ.
Наиболее вероятная последовательность (путь) состояний:
алгоритм Витерби
Не смотря на то, что нельзя сказать, в каком состоянии находит-
ся система, глядя на соответствующий символ, часто нас интересует
именно последовательность скрытых состояний. Выяснить, что «означа-
ет» последовательность наблюдений, глядя на скрытые состояния, на-
зывается на жаргоне распознавания речи дешифрованием. Существует
несколько подходов к дешифрованию. Мы рассмотрим наиболее часто
используемый, который называется алгоритмом Витерби. Это алгоритм
динамического программирования, очень близкий к алгоритмам динами-
ческого программирования, освященным в главе 2.
Вообще говоря, может быть много последовательностей состояний,
которые могут иметь результатом любую рассматриваемую последова-
2В оригинале была опечатка в формуле.
3.2. Скрытые марковские модели 89
тельность символов. Например, в нашей модели CpG последовательно-
сти состояний (С+, G+, С+, G+), (С_, G_, С_, G_) и (С+, G_, С_, G+)
все генерируют последовательность символов CGCG. Однако, они это
делают с очень разными вероятностями. Вероятность для третьей явля-
ется результатом произведения маленьких вероятностей переключения
туда и обратно между компонентами, и, поэтому, гораздо меньше, чем
для первой и для второй. Вероятность для второй существенно меньше,
чем для первой, так как она содержит два перехода из С в G, которые
значительно менее вероятны в « —» компоненте, чем в «+» компонен-
те. Таким образом, при данном выборе из трех наиболее вероятно, что
последовательность CGCG возникла из множества «+» состояний.
Предсказанный в НММ путь покажет, какая часть последователь-
ности предсказана как CpG островок, так как выше мы предположили,
что каждое состояние отвечает за моделирование либо CpG островка,
либо других областей. Если мы хотим выбрать только один путь для на-
шего предсказания, по-видимому, следует выбирать путь с самой боль-
шой вероятностью,
тг* = arg шах Р(.г, тг). (3.7)
7Г
Наиболее вероятный путь тг* можно определить рекурсивно. Пусть
Vk(i) — вероятность того, что путь наибольшей вероятности заканчи-
вается в состоянии к при наблюдении I. И пусть Vk(i) известна для всех
состояний к. Тогда эти вероятности можно вычислить для наблюдения
Xi+i как
vt(i + 1) = e.i(xi+1) ma.x(vk(i)aki). (3.8)
к
Все последовательности должны начинаться в состоянии 0 (начальном
состоянии), таким образом, начальным условием является
МО) = 1.
Сохраняя обратные ссылки, искомую последовательность состояний
можно найти при ходе в обратном направлении. Полный алгоритм вы-
глядит следующим образом:
Алгоритм: Витерби
Инициализация (г = 0): г?о(О) = 1 , МО) = 0 для к > 0.
Рекурсия (г = 1... L):3 vi(i) = q(z7) max(M* - 1)ан);
к
ptr^Z) = argmax(vfc(? - 1)аы)-
к
3ptrJZ) — означает указатель на предыдущее состояние. — Прим. ред.
90
Глава 3
Завершение: Р(.т,7г*) = maxfb/^L)^));
к
*1 = argmax(v*:(L)a*:o).
к
Обратный ход (г = L... 1): тг*_1 = р^гДтг*).
Заметьте, что предполагается наличие конечного состояния, из-за
которого на шаге завершения появляется Если концы в модели не
заданы, это а исчезает.
Вот некоторые идеи относительно исполнения для алгоритма Ви-
терби, а также алгоритмов, которые будут описаны позже. Наиболее
трудная практическая проблема заключается в том, что перемножение
многих вероятностей всегда дает малые числа, из-за чего возникает
ошибка из-за потери значимости на любом компьютере. По этой при-
чине алгоритм Витерби следует всегда исполнять в логарифмическом
пространстве, то есть, вычисляя логарифм log(v/(z)), который превраща-
ет произведения в суммы, и числа остаются в разумных пределах. Это
обсуждается в разделе 3.6.
На рисунке 3.4 изображена полная таблица значений v для после-
довательности CGCG и модели CpG островков. Если алгоритм приме-
нить к более длинным последовательностям, построенный оптимальный
путь 7г* будет переключаться из «+» в « —» компоненту данной модели
и при этом давать четкие границы для предсказанных областей CpG
островков.
V С G с G
1 0 0 0 0
А+ 0 0 0 0 0
с+ 0 0,13 0 0,012 0
G+ 0 0 0,034 0 0,0032
Т+ 0 0 0 0 0
А_ 0 0 0 0 0
С 0 0,13 0 0,0026 0
G 0 0 0,010 0 0,00021
Т_ 0 0 0 0 0
Рис. 3.4. Итоговая таблица значений v для модели CpG островков, изображенной
на рис. 3.3, и последовательности CGCG. Наиболее вероятный путь показан
жирным шрифтом
3.2. Скрытые марковские модели
91
Пример: Нечистое на руку казино, часть 2
Для последовательности бросков кости мы можем найти наиболее
вероятный путь с помощью модели, описанной на стр. 87. Всего 300
случайных бросков было сгенерировано моделью так, как было описано
ранее. Каждый бросок также осуществлялся с помощью правильной (F)
или неправильной (L) кости, что подписано под результатами бросков на
рисунке 3.5. Алгоритм Витерби был применен для того, чтобы предска-
зать последовательность состояний, то есть, какая кость использовалась
при каждом из бросков. Как видите, в большинстве случаев алгоритм
Витерби восстановил последовательность состояний достаточно хорошо.
□
Упражнение
3.4 Покажите, что выражение тг* = argmaxP(7r |z) эквивалентно (3.7).
7Г
Алгоритм просмотра вперед
Для цепей Маркова мы вычисляли вероятность последовательности,
Р(т), при помощи равенства (3.2). Полученные значения использовались
для того, чтобы отличить CpG островки от других областей ДНК. Хоте-
лось бы уметь вычислять эту вероятность также и для НММ. Поскольку
различные последовательности состояний могут дать одну и ту же по-
следовательность наблюдений т, то для получения полной вероятности
х мы должны сложить вероятности всех возможных путей
P(z) = 52P(x,7r). (3.9)
7Г
Количество возможных путей тг экспоненциально растет с ростом дли-
ны последовательности, поэтому вычисление выражения (3.9) «в лоб»,
перебирая все пути, не удобно. Один из подходов избежать этого —
применить формулу (3.6) к наиболее вероятному пути тг*, который был
получен в последнем разделе как оценка Р(т). Это неявно предполагает,
единственным путем со значимой вероятностью является тг*, что являет-
ся сильным допущением, которое, однако, во многих случаях работает на
удивление хорошо. Фактически, это приближение не является необходи-
мым, поскольку полная вероятность сама по себе может быть вычислена
92
Глава 3
с помощью динамического программирования, схожего с алгоритмом Ви-
терби, если заменить процедуру взятия максимума суммированием. Эта
процедура называется алгоритмом просмотра вперед.
Параметр в алгоритме просмотра вперед, соответствующий пере-
менной Vk(i) алгоритма Витерби
А(0 = P(xi .. .т?-,7г?- = к). (3.10)
Этот параметр — вероятность наблюдаемой подпоследовательности до
включительно, при требовании тгг = к. Уравнение рекурсии:
fl(i + 1) = e;(xt+i)y^/fc(?:)gfcb (3-11)
к
Полный алгоритм:
Алгоритм: алгоритм просмотра вперед
Инициализация (г = 0): /о(0) = 1, Л(0) = 0 при к > 0.
Рекурсия (г= /;(г) = e^Xi) £ fk(i - l)akl.
к
Завершение: Р(х) = ^/fc(L)afc0. <1
к
Также как и алгоритм Витерби, алгоритм просмотра вперед (и ал-
горитм просмотра назад в следующем разделе) может давать ошибки
из-за потери значимости при исполнении на компьютере. И также эта
проблема может быть решена в логарифмическом пространстве, однако,
не столь элегантно, как это было сделано в алгоритме Витерби. Вместо
этого можно использовать метод масштабирования. Оба подхода описа-
ны в разделе 3.6.
Наряду с использованием в алгоритме просмотра вперед, числа
fk(x) имеют некоторое количество других назначений, в том числе те,
которые описаны в следующих двух разделах.
Алгоритм просмотра назад и апостериорные вероятности
состояний
Алгоритм Витерби находит наиболее вероятный путь для модели,
но, как мы заметили в свое время, этот путь не всегда может быть
наиболее подходящим основанием для дальнейшего понимания после-
довательности. Например, возможно, нам нужно узнать, каково наибо-
лее вероятное состояние для наблюдения т,. Чаще всего нам может
3.2. Скрытые марковские модели
93
понадобиться определить вероятность того, что наблюдение xt появи-
лось в состоянии к при данной последовательности наблюдений, то есть,
Р(?Гг = fc|rr). Это есть апостериорная вероятность состояния к в момент
времени г, когда сгенерированная последовательность известна.
Наш подход к вычислению апостериорной вероятности является
несколько непрямым. Сначала мы вычисляем вероятность генерации
всей последовательности, причем, символ i сгенерирован в состоянии к:
Р(х,7Г, = к) = Р(Т1 . . ..ТЬ7Г,- = k)P(xi+1 . . .XL 1^1 . . ..Тг,7Гг = к) =
= P(xi .. .xh7Vi = k)P(xi+i .. .xl\tvi = к),
(3.12)
вторая строчка следует из того, что все, что сгенерировано после со-
стояния к, зависит только от того, что сгенерировано в состоянии к.
Первый множитель, который, как следует из (3.10), есть ни что иное,
как Д(г), вычислен с помощью алгоритма просмотра вперед, рассмот-
ренного в предыдущем разделе. Второй множитель называется bk(i),
bk(i) = P(xi+i.. .xL\TTi = к) (3.13)
эта переменная является аналогом переменной алгоритма просмотра впе-
ред, но вычисляется с помощью обратной рекурсии, которая стартует с
конца нашей последовательности:
Алгоритм: алгоритм просмотра назад
Инициализация (г = L): bk(L) = ако для всех к.
Рекурсия (г = L - 1,..., 1): bk(i) = ^а^е^+^Ь^ + 1).
I
Завершение: Р(х) = ^aoiei(xi)bi(l). <
i
Стадия завершения редко бывает нужна, поскольку Р(х) обычно
находится алгоритмом просмотра вперед, она показана для полноты кар-
тины.
Равенство (3.12) может быть записано в виде
Р(т,7Гу = к) = fk(i)bk(i),
и отсюда мы получаем искомые апостериорные вероятности, просто на-
ложив условие:
P^i = k\x) = ^^-, (3.14)
F(a:)
где Р(х) является результатом просмотра вперед (или назад).
94
Глава 3
Пример: Нечистое на руку казино, часть 3
На рисунке 3.6 показана апостериорная вероятность того, что кость
правильная для последовательность бросков, изображенной на рисун-
ке 3.5. Заметьте, что апостериорная вероятность в некоторых местах
последовательности не отражает того, какая кость использовалась на
самом деле. Этого следовало ожидать, просто потому, что вводящая в
заблуждение последовательность бросков может получиться случайным
образом. □
Rolls 315116246446644245311321631164152133625144543631656626566666
Die FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFLLLLLLLLLLLLLLL
Viterbi FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFLLLLLLLLLLLL
Rolls 651166453132651245636664631636663162326455236266666625151631
Die LLLLLLFFFFFFFFFFFFLLLLLLLLLLLLLLLLFFFLLLLLLLLLLLLLLFFFFFFFFF
Viterbi LLLLLLFFFFFFFFFFFFLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLFFFFFFFF
Rolls 222555441666566563564324364131513465146353411126414626253356
Die FFFFFFFFLLLLLLLLLLLLLFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFLL
Viterbi FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFL
Rolls 366163666466232534413661661163252562462255265252266435353336
Die LLLLLLLLFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
Viterbi LLLLLLLLLLLLFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
Rolls 233121625364414432335163243633665562466662632666612355245242
Die FFFFFFFFFFFFFFFFFFFFFFFFFFFLLLLLLLLLLLLLLLLLLLLLLFFFFFFFFFFF
Viterbi FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFLLLLLLLLLLLLLLLLLLLFFFFFFFFFFF
Рис. 3.5. Цифры отражают 300 бросков кости, как описано в примере. Ниже
показано, какая кость в действительности использовалась при данном броске
(F для правильной, L для неправильной). Под действительной последовательно-
стью записана последовательность, предсказанная алгоритмом Витерби.
Апостериорное дешифрование
Главным образом Р(тг^ = к\х) используется для двух альтернатив-
ных форм дешифрования в добавление к дешифрованию Витерби, ко-
торое было представлено в предыдущем разделе. Эти методы полезно
применять, когда множество разных путей имеют практически ту же ве-
роятность, что и наиболее вероятный путь, так как в этом случае не
слишком честно рассматривать только путь наибольшей вероятности.
Первый подход заключается в определении последовательности со-
3.2. Скрытые марковские модели
95
Рис. 3.6. Апостериорная вероятность нахождения в состоянии, соответствующем
правильной кости в примере о казино. Ось х отражает номер броска. Заштри-
хованные участки показывают, при каких бросках использовалась неправильная
кость
стояний 7гг, которую можно использовать вместо тг*г,
д’* = argmaxP(7Ti = к |z). (3.15)
к
Из этого определения следует, что эта последовательность состояний мо-
жет быть более подходящей, если нас интересует определение состояния
в рассматриваемой точке г, нежели чем весь путь. Фактически, после-
довательность состояний, заданная тг;, может и не годиться в качестве
пути через всю модель. Она даже может вообще не быть допустимым
путем, если некоторые переходы не разрешены, что является обычной
ситуацией.
Второй и, возможно, более важный новый подход дешифрования
возникает, когда интересна не сама по себе последовательность состоя-
ний, а некоторые другие свойства, которые из нее получаются. Предпо-
ложим, что у нас есть функция д(х), определенная на состояниях. Тогда
значение, которое следует рассматривать
G(i |z) = P^i = к |я?)д(к). (3.16)
к
Важным особым случаем для этого выражения является, когда д(к) при-
нимает значение 1 для некоторого подмножества состояний и 0 для всех
остальных. В этом случае G(z|x) является апостериорной вероятностью
того, что символ i появляется в каком-то состоянии этого установ-
ленного множества. Например, для нашей модели CpG островков, то,
что на самом деле нас интересует, это: является ли основание частью
островка или нет. Для этой цели мы хотим определить д(к) = 1 при
к € {A+,C+,G+,T+} и д(к) = 0 при к е {А_,С_,G_,Т_}. Тогда G(i\x)
есть ни что иное, как апостериорная вероятность, соответствующая той
модели, в которой основание i принадлежит CpG островку.
96
Глава 3
В этом случае там, где мы имеем разметку состояний, определя-
ющую их разделение (так как мы фактически делали с моделью CpG
островков, помечая их «+» или «-»), возможно использовать формулу
(3.16) для того, чтобы найти наиболее вероятную метку для каждой
позиции в последовательности. Это вовсе не наиболее вероятная гло-
бальная разметка данной последовательности. Однако, это не полный
перебор. Для дальнейшего изучения данного вопроса читайте (Schwartz
&Chow 1990) и (Krogh 1997b).
Пример: Предсказание CpG островков
Теперь CpG островки можно предсказать из нашей модели. С по-
мощью алгоритма Витерби можно найти наиболее вероятный путь для
модели. Там, где этот путь проходит через «+» состояния, CpG островок
предсказан. Для выборки, состоявшей из 41 последовательности, каждая
из которых содержала потенциальный CpG островок, все островки бы-
ли найдены, за исключением двух (недопредсказание — false negative),
и предсказаны 121 новых (перепредсказание — false positive). В дей-
ствительности CpG островки имеют достаточно большую длину (поряд-
ка 1000 оснований), не смотря на это предсказанные островки корот-
кие, и CpG островок обычно предсказывается как несколько коротких
островков. При применении двух простых процедур пост-обработки, (1)
объединять предсказания на расстоянии менее чем 500 оснований друг
от друга, (2) убрать предсказания короче, чем 500 оснований, число
перепредсказаний сокращается до 67.
При использовании апостериорного дешифрования те же два CpG
островка были не найдены и было сделано 236 перепредскзания. При
применении пост-обработки, описанной выше, число перепредсказаний
сократилось до 83. Для этой задачи нет большой разницы между этими
двумя методами, за исключением того, что апостериорное дешифрование
предсказывает даже больше очень коротких островков. Возможно, неко-
торые из перепредсказанных островков действительно являются реаль-
ными CpG островками. Полученные недопредсказанные островки, может
быть, неправильно размечены, однако, также возможно, что нужна бо-
лее тонкая модель, чтобы охватить все возможности этих сигналов. □
Пример: Нечистое на руку казино, часть 4
Модель для задачи про казино поменялась так, вероятность подме-
ны правильной кости неправильной теперь составляет только 0.01. Оче-
видно, что тогда вероятность того, что используется правильная кость,
3.3. Оценка параметров НММ
97
будет 0.99, но все остальные вероятности остаются без изменений. Этой
моделью было сгенерировано 1000 бросков. В соответствии с этой после-
довательностью бросков наиболее вероятный путь, найденный алгорит-
мом Витерби, никогда не посещал состояние, соответствующее непра-
вильной кости. На рисунке 3.7 изображена апостериорная вероятность
того, что использовалась правильная кость, для этой последовательно-
сти бросков. Хотя и не идеально, апостериорное дешифрование навер-
няка предскажет что-то разумное, близко к правде. □
Рис. 3.7. Апостериорная вероятность того, что использовалась правильная кость,
но при использовании вероятности 0.01 подмены на неправильную кость (срав-
ните с рисунком 3.6)
3.3. Оценка параметров НММ
Вероятно, самая сложная проблема, с которой мы сталкиваемся, ко-
гда используем НММ, это, во-первых, проблема точного определения
модели. Эта проблема состоит из двух частей: проектирование струк-
туры, то есть, какие есть состояния и как они связаны, и установле-
ние значений параметров, переходных и эмиссионных вероятностей аы
И efc(6).
В данном разделе мы будем обсуждать проблему оценки парамет-
ров, для которой существует хорошо разработанная теория. В следую-
щем разделе мы будем рассматривать проектированием структуры моде-
ли, что является большим искусством.
Рамки, в которых мы будем работать, предполагают, что у нас
есть набор эталонных последовательностей такого типа, который хорошо
узнавался бы нашей моделью. Этот набор называется обучающей выбор-
кой. Обозначим его как х1 .. .xN. будем предполагать, что они являются
независимыми, и тем самым совместная вероятность всех этих после-
довательностей при каком-то значении параметров равно произведению
98
Глава 3
вероятностей последовательностей по отдельности.
/(.т1,..., х" |0) = log Ffx1,..., log ), (3.17)
J=1
где 0 представляет полный текущий набор значений параметров для дан-
ной модели (все а и е). Это выражение эквивалентно логарифму прав-
доподобия модели; смотри главу 11.
Оценка параметров, когда известна последовательность
состояний
Так же как было проще записать вероятность последовательности,
когда путь известен, также проще оценить параметры для вероятности,
когда известен путь для всех эталонных последовательностей. Зачастую
это так. Одним примером мог бы послужить набор геномных после-
довательностей, в которых CpG островки были бы уже размечены, на
основании экспериментальных данных. Другими примерами являются
предсказания вторичной структуры с помощью НММ, когда обучающая
выборка получена из набора белков с известной структурой, или НММ
для предсказания генов в геномной последовательности, где разметка
генома определялась с помощью секвенировния кДНК.
Когда все пути известны, можно посчитать число раз, когда проис-
ходит переход или эмиссия по выборке обучающих последовательностей.
Обозначим их как Aki и Ек(Ь). Тогда, как показано в главе 11, оценки
максимального правдоподобия a^i и efc(z) вычисляются как
_ Аы
akl~^Akl.
и
(3.18)
Ek(b)
ек Hb'Ek(b'Y
Оценка для a^i в точности такая же, как и для обычной цепи Маркова.
Как всегда, есть проблема, что оценки максимального правдоподо-
бия сверхобучены, если недостаточно данных. Действительно, если есть
состояние к, которое ни разу не использовалось в выборке эталонных
последовательностей, то выражение оценки не определено для этого со-
стояния, поскольку в числителе и знаменателе будет ноль. Для того,
3.3. Оценка параметров НММ
99
чтобы избежать таких проблем лучше добавлять к Аы и Ек(Ь) наперед
заданные псевдокаунты перед использованием формул (3.18).
Aki = количество переходов из к в I в обучающей выборке +гн,
Еь(Ь) = количество эмиссий b в к в обучающей выборке +гк(Ь).
Псевдокаунты гы и Гк(Ь) должны отражать нашу априорную необъ-
ективность в отношении значений вероятности. На самом деле они име-
ют действительную вероятностную интерпретацию в качестве парамет-
ров Байесовых априорных распределений Дирихле вероятностей каж-
дого состояния (смотри главу 11). Они должны быть положительны-
ми, но не обязательно целыми. Маленькие суммарные значения гы'
или ^26/Гд:(6') отражают слабое априорное знание, тогда как большие
суммарные значения отражают более определенное априорное знание,
которое нуждается в большем количестве данных для того, чтобы его
изменить.
Оценка, когда пути не известны: обучение по Бауму- Уэлчу
и Витерби
Если пути для обучающих последовательностей не известны, то
больше не существует приведенного уравнения для значений оценивае-
мых параметров, и должна использоваться какая-то итеративная проце-
дура. Все стандартные алгоритмы оптимизации для непрерывных функ-
ций могут быть применены; например, смотри [Press et al. 1992]. Однако,
существует особый итерационный метод, который обычно используется
в таких случаях, известный как алгоритм Баума-Уэлча (Baum-Welch)
[Baum 1972]. Этот алгоритм имеет действительную вероятностную ин-
терпретацию. Неформально, он сначала оценивает Аы и Ек(Ь), рассмат-
ривая вероятные пути для обучающих последовательностей и используя
текущие значения аы и 6^(6). Затем применяется формула (3.18) для
вычисления новых значений всех а и е. Этот процесс повторяется, пока
не будет выполнен некоторый критерий остановки.
Можно показать, что общий логарифм правдоподобия модели воз-
растает с каждой итерацией, и, следовательно, что этот процесс будет
сходиться к какому-то локальному максимуму. К сожалению, обычно
бывает много локальных максимумов, и то, какой из них будет достиг-
нут, сильно зависит от начальных значений параметров. Эта проблема
локальных максимумов является особенно трудной при оценке больших
НММ, и позднее мы будем обсуждать множество способов, как с ней
бороться.
100
Глава 3
Более формально, алгоритм Баума-Уэлча вычисляет Аы и Ек(Ь) как
ожидаемое число раз использовать каждый переход или эмиссию, если
даны обучающие последовательности. Для того, чтобы это сделать, ал-
горитм использует те же значения прямого и обратного просмотра, что
и метод дешифрования апостериорных вероятностей. Вероятность того,
что используется a^i в позиции i в последовательности х
Р/ L 7 1 пч fk(i)akiei(xi+l)bi(i + 1)
P(7Ti = к, 7Гг+1 = I \Х,0) = -——----------. (3.19)
Р(т)
Отсюда мы можем получить ожидаемое число раз того, что aki при
суммировании по всем позициям и по всем обучающим последователь-
ностям,
= £ бгт; £/Же'М+ п, (з.2о)
j Р№) I
где — переменная просмотра вперед А(г), определенная в (3.10),
вычисленная для последовательности j, a Ц (г) соответствует переменной
просмотра назад. Точно также мы можем найти ожидаемое число раз
того, что буква b появится в состоянии к,
j р(:г%н=ч
где внутренняя сумма берется только по тем позициям i, для которых
генерируемый символ — Ь.
Когда посчитаны эти математические ожидания, параметры новой
модели вычисляются точно так же, как ранее, используя (3.18). Мы мо-
жем производить итерацию, используя новые значения параметров для
того, чтобы, как и ранее, получить новые значения всех А и Е, но в
этом случае мы движемся к максимуму в непрерывном пространстве, и,
таким образом, никогда не достигнем максимума. Поэтому, необходимо
установить критерий сходимости, который обычно останавливается, ко-
гда изменения полного логарифма правдоподобия достаточно малы. Для
итерации может быть использован другой критерий остановки, отличный
от изменения полного логарифма правдоподобия. Например, полный ло-
гарифм правдоподобия может быть нормирован на число последователь-
ностей п и, возможно, и на длину последовательности, и, таким образом,
рассматривается изменение среднего логарифма правдоподобия на один
остаток.
Кратко, алгоритм Баума-Уэлча, можно записать так:
3.3. Оценка параметров НММ
101
Алгоритм: Баума-Уэлча
Инициация: Выбираем параметры модели случайным образом.
Рекурсия:
Поставим всем А и Е переменным в соответствие их псевдокаунты г
(или 0).
Для каждой последовательности j = 1... п\
Вычислим А (г) для каждой последовательности J, используя
алгоритм просмотра вперед (стр. 92).
Вычислим bk(i} для каждой последовательности j, используя
алгоритм просмотра назад(стр. 93).
Добавим вклад последовательности j в А (3.20) и Е (3.21).
Вычислим новые параметры модели, используя (3.18).
Вычислим новое значение логарифма правдоподобия модели.
Завершение:
Останавливаемся, если изменение логарифма правдоподобия мень-
ше, чем некоторое наперед заданное пороговое значение, или пре-
вышено максимально допустимое число итераций. <
Отметим, что к значениям А и Е обычно принято добавлять псев-
докаунты, также как в том случае, когда последовательности состояний
известны. Этот алгоритм работает хорошо, но нормальная байесова ин-
терпретация через априорные распределения Дирихле здесь строго не
проводится; смотри главу 11.
Алгоритм Баума-Уэлча это частный случай очень мощного обще-
го подхода к оценке параметров вероятности, называемого алгоритмом
максимизации ожидания (ЕМ). Этот алгоритм и вывод Баума-Уэлча
представлены в разделе 11.6 главы 11.
Существует алгоритм, альтернативный алгоритму Баума-Уэлча, ко-
торый часто используется и который мы будем называть обучением Ви-
терби. В этом подходе, наиболее вероятные пути для обучающих по-
следовательностей строятся с помощью алгоритма Витерби, описанного
выше, и эти пути используются в процессе переоценки, который был
рассмотрен в предыдущем разделе. И снова, процесс повторяется, когда
получены новые значения параметров. В этом случае алгоритм сходит-
ся точно, так как процедура назначения путей является дискретным
процессом, и можно продолжать до тех пор, пока ни один путь не из-
менится. В этой точке оценки параметров также не изменятся, так как
они полностью определяются путями. В отличие от алгоритма Баума-
Уэлча, эта процедура не максимизирует настоящее правдоподобие, то
102
Глава 3
есть Р(х1,...хп\0), которое рассматривается как функция от парамет-
ров модели 0. Вместо этого, она находит значение 0, которое максимизи-
рует вклад в отношение правдоподобия Р(т1,... хп\0, . тг*(тп))
наиболее вероятных путей для всех последовательностей. Возможно, по
этой причине, в целом обучение Витерби достигает худших результатов,
чем алгоритм Баума-Уэлча. Однако он широко используется, и можно
заявлять, что когда НММ применяется для осуществления дешифрова-
ний с помощью алгоритма Витерби, их использование позволяет хорошо
обучать НММ.
Пример: Нечистое на руку казино, часть 5
Мы подозреваем, что казино работает так, как было описано в при-
мере на стр. 87, но мы не знаем точно. Ночь за ночью мы собираем
данные, просто наблюдения за бросками. Когда мы собрали достаточно
данных, мы хотим оценить модель. Предположим, данные, которые мы
собрали, были результатами 300 бросков, изображенные на рисунке 3.5.
По этой последовательности наблюдений модель была оценена с помо-
щью алгоритма Баума-Уэлча. Исходно все вероятности были выбраны
случайным образом. Вот схемы модели, которая генерирует данные (точ-
но также как в примере на стр. 87) и оцененная модель.
0,95
0,9 0,73
Правильная Неправильная Правильная Неправильная
Видно, что они довольно похожи, однако оцененные вероятности пере-
ходов достаточно отличаются от реальных вероятностей. Это частично
проблема локальных минимумов, и предпринимая большее количество
попыток действительно возможно получить модель, которая будет бли-
же к правильной. Однако по ограниченному множеству данных не воз-
можно оценить параметры точно. Чтобы проиллюстрировать последнее
утверждение, было случайным образом сгенерировано 30 000 бросков
(данные не показаны!), и модель была оценена. Эта модель получилась
очень близкой к правильной:
3.3. Оценка параметров НММ
103
0,93
0,88
Правильная Неправильная
Для того чтобы увидеть, насколько хорошо эти модели сравниваются
друг с другом в предположении, что все время использовалась правиль-
ная кость, был вычислен логарифм отношения правдоподобия на один
бросок по 300 наблюдениям для каждой из трех моделей:
Правильная модель 0.101 бит
Модель, оцененная по 300 наблюдениям 0.097 бит
Модель, оцененная по 30 000 наблюдениям 0.100 бит
Худшая модель, оцененная по 300 броскам, имеет почти такое же значе-
ние логарифма отношения правдоподобия, что и две другие. Это происхо-
дит потому, что они тестируются на тех же данных, что и оцениваются.
При тестировании на независимой выборке бросков эта модель дает зна-
чительно более низкие значения логарифма отношения правдоподобия,
чем две другие модели. □
Упражнения
3.5 Вычислите результат (3.19). Используйте тот факт, что
P(7Ti = fe,7ri+i = I |а:, 0) = 1 Р(д:,7г^ = k, тгг+1 = 110),
Р(х|6»)
и это опять можно записать в виде P(xi, = k\0)
и P(xi+1, . . . ,XL,7Tj+i = I |a:i, . . . ,Xi,0,TTi = к).
3.6 Вычислите (3.21).
Моделирование размеченных последовательностей
В примере с CpG островками мы видели, как НММ могут быть при-
менены для предсказания разметки неаннотированной последовательно-
сти. В этих примерах нам пришлось обучать модели CpG островков
104
Глава 3
отдельно от моделей участков, не являющихся CpG островками, и затем
объединяли их в большую НММ. Эта оценка подмоделей по отдельно-
сти может быть довольно утомительной, особенно в том случае, если мы
имеем дело более чем с двумя классами. К тому же, если переходы меж-
ду двумя моделями не ясны, так, например, данная последовательность
может использовать больше чем один переход из CpG-подмодели, тогда
оценка переходов не сводится к простому подсчету. Однако, существует
более простой метод оценки всех подмоделей сразу, который мы сейчас
рассмотрим.
Начальная точка является совместной моделью всех классов, в ко-
торой мы определили метку класса каждому состоянию. В модели CpG
островков естественными метками являются «+» для островных состо-
яний и « —» для неостровных. У нас также есть метки для наблюдений
х = xi ... ть, которые мы назовем у = у\.. .yL. yi является «+», если Xi
является частью CpG островка, и « —» в противном случае. В алгорит-
ме Баума-Уэлча (или альтернативном ему Витерби) разрешаются теперь
только допустимые пути в модели, вычисляя все f и Ь. Допустимый путь
это такой путь, где метки состояний и метки последовательности оди-
наковы, то есть, 7Ti имеет метку yi. В процессе исполнения алгоритмов
просмотра вперед и назад это соответствует тому, что fi = 0 и bi = 0
для всех состояний I с меткой отличной от yi (см. рис. 3.8).
Дискриминационная оценка
Если нет неопределенных переходов между подмоделями, то опи-
санная выше процедура оценки дает такие же результаты, как если бы
подмодели оценивались по отдельности с помощью алгоритма Баума-
Уэлча, и затем были объединены соответствующими переходами. В дей-
ствительности это соответствует максимизации функции правдоподобия
9м L — argmax 10).
в
Обычно нас главным образом интересует получение хороших предсказа-
ний для у, поэтому, вместо этого более предпочтительно максимизиро-
вать Р(у\х,0). Эта функция называется условной функцией максималь-
ного правдоподобия, (CML),
дсмь _ argmax р(у |х,0); (3.22)
в
смотри, например, [Juang& Rabiner 1991] и [Krogh 1994]. Родственный
ему критерий называется максимизация взаимной информации, или
MMI [Bahl et al. 1986].
3.4. НММ СТРУКТУРА МОДЕЛИ
105
Рис. 3.8. Таблица для алгоритма просмотра вперед для модели с четырьмя состо-
яниями, помеченными как + или —. Каждая колонка соответствует наблюдению,
а каждая строка — состоянию модели. Предполагается, что первые десять ре-
зультатов, которые показаны, xi,... , ггю, размечены —++++—
Функция правдоподобия Р(у\х,0) может быть записана в виде
Р(?/М) =
Р&у\в)
р(х\е) ’
где Р(х,у\0) — это вероятность, вычисленная с помощью алгоритма про-
смотра вперед, для размеченной последовательности, описанной выше,
а Р(х\0) — вероятность, вычисленная стандартным алгоритмом просмот-
ра вперед без учета всех меток. Для оптимизации этой функции правдо-
подобия не существует алгоритма максимизации среднего, и оценка ста-
новится более сложной; например, смотри [Normandin & Morgera 1991]
и ссылки, указанные выше.
3.4. НММ структура модели
Выбор топологии модели
До сих пор мы предполагали, что возможны переходы из какого-
либо состояния в любое другое. Хотя это и заманчиво — начать с пол-
носвязной модели, то есть с такой модели, в которой разрешены все
переходы, и «позволить модели понять для себя», какие переходы ис-
пользовать, на деле такой подход почти никогда не работает. Для за-
дач хоть сколько-то реального размера такой подход обычно приводит
к получению очень плохих моделей, даже при наличии большого коли-
чества данных для обучения. Здесь проблема связана не с подгонкой,
а с локальными максимумами. Чем менее несвободной является модель,
106
Глава 3
тем более ощутимой становится проблема локального максимума. Су-
ществуют методы, которые пытаются адаптировать топологию модели,
базирующейся на данных, путем добавления и удаления переходов и
состояний [Stolcke & Omohundro 1993; Fujiwara, Asogawa & Konagaya
1994]. Однако, на практике, удачные НММ строятся путем аккуратно-
го определения того, какие переходы должны быть разрешены в дан-
ной модели, основываясь на знаниях об исследуемой проблеме. Сделать
невозможным переход из состояния к в состояние I означает положить
ай = 0. Если производится оценка по Бауму-Уэлчу (или аппроксимация
Витерби), тогда a^i будут оставаться равными нулю и после процесса
переоценки, так как когда вероятность равна нулю, ожидаемое число
переходов из к в I также будет равно нулю. Поэтому, вся математика
остается прежней, даже если не все переходы возможны.
Нам нужно выбрать модель в терминах нашего знания о проблеме.
Например, для моделирования CpG островков было важно, чтобы модель
была способна давать различную вероятность CG динуклеотидам для
островных состояний и неостровных состояний, так как ожидалось, что
это является основным определяющим фактором для CpG островков.
Моделирование продолжительности
При моделировании какого-либо явления, где, например, распре-
деление нуклеотидов не меняется для некоторой определенной длины
ДНК, самый простой способ построить модель — сделать состояние с
переходом в себя с вероятностью р. Мы делали это и в примере с CpG
островками, и в примере с нечистым на руку казино. После попадания
в состояние вероятность покинуть его составит 1 — р, таким образом,
вероятность остаться в данном состоянии для I остатков равна
Р(1 остатков) = (1 -р)р/-1. (3.23)
(Эмиссионные вероятности игнорируются.) Это экспоненциально убыва-
ющее распределение по длине (называемое геометрическим распределе-
нием) может не подойти в некоторых случаях, где распределение длин
существенно и значимо отличается от экспоненциального. Более слож-
ные распределения длины могут быть смоделированы путем внедрения
нескольких состояний с таким же распределением по остаткам и пере-
ходами между ними. Например, такая (под-)модель:
3.4. НММ СТРУКТУРА МОДЕЛИ
107
дает последовательности минимальной длины 5 остатков экспоненциаль-
но убывающее распределение для более длинных последовательностей.
Сходным образом, такая модель:
может моделировать любое распределение длин от 2 до 10. Более изыс-
канным способом получить негеометрическое распределение длины яв-
ляется использование массива из п состояний, каждое с переходом в
себя с вероятностью рис переходом в следующее состояние с вероят-
ностью 1 — р:
Очевидно, что наименьшая длина последовательности, полученной при
помощи такой модели, равна п. Для любого данного пути длины I по
модели вероятность всех его переходов равна р1~п(1 — р)п (на данный
момент мы пренебрегаем эмиссионными вероятностями, как и выше).
Число возможных путей, проходящих через эти состояния, составляет
I-i \
п — 1 у ’
таким образом, полная вероятность, суммированная по всем возможным
путям, равна:
Р</)= (n-l )P'’”(1~p)"- (3-24)
Это распределение называется отрицательным биномиальным и показа-
но на рисунке 3.9 для р = 0.99 и п 5. Для маленьких длин число
путей через модель растет быстрее, чем убывает геометрическое распре-
деление, и, тем самым, это распределение становится колоколообразной
формы. Количество путей зависит от топологии модели, и возможно де-
лать более общие модели, в которых число путей по- разному зависит
108
Глава 3
от п и I. Для продолженного марковского процесса типы распределений,
которые могут быть получены, называются распределениями Эрланга
или, более широко, распределениями фазового типа, смотри, например,
[Asmussen 1987].
Рис. 3.9. Распределение вероятностей в зависимости от длины для моделей с
р = 0.99 и п одинаковыми состояниями, п ранжировалось от 1 до 5
Альтернативно, возможно недвусмысленно смоделировать распреде-
ление длин. Поскольку длина эквивалентна времени во многих прило-
жениях обработки сигналов, этот подход называется моделированием
продолжительности. Цена, которую приходится платить, это время.
Эти алгоритмы работают намного медленнее. Более подробно смотри
[Rabiner 1989].
Молчащие состояния
Мы уже видели примеры состояний, которые не производят сим-
волов в НММ — начальное и конечное состояния. Такие состояния
называются молчащими состояниями или нулевыми состояниями, и
они также могут быть полезны в других случаях использования НММ.
В главе 5 мы увидим пример, где все состояния в цепи должны быть
связаны со всеми состояниями вверх по цепи. Длина такой цепи обычно
составляет 200 состояний или больше, и для их связывания соответ-
ствующими переходами потребовало бы приблизительно 20 000 веро-
3.4. НММ СТРУКТУРА МОДЕЛИ
109
ятностей переходов (предполагая 200 состояний). Это число является
слишком большим для того, чтобы можно было их надежно оценить по
реальным данным. Вместо этого, при использовании молчащих состоя-
ний мы можем избежать 600 переходов.
Ситуация следующая: для того, чтобы разрешить случайные деле-
ции, цепь состояний должна быть полностью «связанной вперед».
Вместо этого мы можем соединить все состояния с параллельной
цепью молчащих состояний, изображенных здесь в виде кружков:
Поскольку молчащие состояния не производят никаких символов,
возможно добраться из любого «реального» состояния в любое из по-
следующих «реальных» состояний, не производя никаких символов.
Ценой такого сокращения является уменьшение числа параметров.
Например, полносвязная модель может иметь высокую вероятность пе-
реходов из состояния 1 в состояние 5 и из состояния 2 в состояние 4,
но низкую вероятность переходов из 1 в 4 и из 2 в 5. Это было бы
невозможно в модели с использованием молчащих состояний.
Поскольку больше нет петель, состоящих только из молчащих со-
стояний, легко расширить все НММ алгоритмы для того, чтобы объеди-
нить их. Условие отсутствия таких петель означает, что состояния могут
быть пронумерованы таким образом, что любой переход между молча-
щими состояниями идет от состояния с меньшим номером в состояние
с большим номером. В алгоритме просмотра вперед сделаны следующие
изменения:
(i) Для всех «действительных» состояний /, вычисляется fi(i + 1), как
ранее, из Д.(г) для состояния к.
110
Глава 3
(ii) Для любого молчащего состояния /, Д(г + 1) полагается равным
Для ’действительных’ состояний к.
(iii) Начиная с молчащего состояния с наименьшим номером, прибавля-
ем -I- l)afcz к fi(i + 1) для всех молчащих состояний к < I.
Изменение, внесенное в алгоритм Витерби точно такое же (суммы, ко-
нечно, заменены максимумами), а для алгоритма просмотра назад изме-
нения по сути такие же, кроме третьего шага, где молчащие состояния
изменяются в обратном порядке.
Если имеются петли, состоящие целиком из молчащих состояний,
ситуация становится немного сложнее. Можно оценить молчащие состо-
яния из вычисления, подсчитав (точно) эффективные вероятности пе-
реходов между действительными состояниями в модели, что сводится
к транспозиции матрицы для марковской модели молчащих состояний
[Сох & Miller 1965]. Однако, часто эти эффективные переходы соответ-
ствуют полносвязной модели, и это приводит к существенному возрас-
танию сложности модели. Обычно, лучше всего убедиться, что таких
петель нет.
Упражнения
3.7 Вычислить полное число переходов, необходимое в «вперед связан-
ной» модели, как та, что описана выше, с длиной равной L. Вы-
числить то же число для модели с молчащими состояниями (как
выше).
3.8 Показать, что число путей через массив из п состояний требует
( I - 1 \
\ 71 — 1 /
для длины I как в (3.24).
3.9 Каково распределение вероятностей для длины в модели с массивом
из п состояний с петлями, если использовать алгоритм Витерби?
3.5. Более сложные цепи Маркова
Цепи Маркова высокого порядка
Марковский процесс n-го порядка — это стохастический процесс,
в котором каждое событие зависит от п предыдущих событий, следова-
3.5. Более сложные цепи Маркова
111
тельно
P(Xi , ЗЦ ) = Pfai |^г-1, • • • , ^г-п )• (3.25)
Цепи Маркова, которые мы рассматривали до сих пор, являются цепями
Маркова 1-го порядка.
Цепь Маркова n-го порядка над некоторым алфавитом А эквива-
лентна цепи Маркова 1-го порядка над алфавитом Ат n-буквенных слов
(n-грамм). Это следует из простого факта, что
P^Xfc — 1 . . .Хк—п} Р^Хк^Хк—Х . . . Хк — п+ 1 1 . . . Хк — п )
(вероятность А и В при заданном В равна вероятности А при задан-
ном В). То есть, вероятность Хк при заданной n-грамме, которая закан-
чивается в Хк~], равна вероятности n-граммы, заканчивающейся в Хк
при заданной n-грамме, заканчивающейся в Xk-i-
Рассмотрим простой пример цепи Маркова второго порядка для по-
следовательностей, состоящих только из букв двух типов — А и В.
Последовательность переводится в последовательность пар, так, напри-
мер, последовательность АВВАВ превращается в АВ-ВВ-ВА-АВ. Экви-
валентная цепь Маркова 1-го порядка, состоящая из четырех состояний,
будет выглядеть так:
В этой эквивалентной модели не все переходы разрешены (или альтер-
нативно, некоторые из вероятностей переходов равны нулю). Это проис-
ходит потому, что только две разные пары могут следователь за данной
буквой. Например, за состоянием АВ может следовать только состоя-
ния ВА и ВВ. Не существует такой последовательности, которая может
перейти из состояния АВ в состояние АА. Подобным образом, модель
второго порядка для ДНК эквивалентна модели первого порядка над
алфавитом из 16 динуклеотидов. Последовательность из пяти основа-
ний, CGTCA, соответствует цепи из четырех состояний, CG-GT-TC-CA,
в модели динуклеотидов.
Несмотря на теоретическую эквивалентность между моделями п-го
и 1-го порядков, структура моделей высокого порядка (имеется в виду,
112
Глава 3
модели порядка выше, чем 1) иногда более удобна. Теоретически с моде-
лями высокого порядка работают совершенно также, как и с моделями
1-го порядка.
Поиск прокариотических генов
В качестве одного примера дана модель поиска прокариотических
генов. Гены прокариот (бактерий) имеют очень простую одномерную
структуру. Ген, кодирующий белок, начинается со стартового кодона, за-
тем идет некоторое число кодонов, кодирующих аминокислоты, и закан-
чивается стоп-кодоном; смотри рисунок 3.10. Кодоны являются трипле-
тами нуклеотидов ДНК с 61 кодом для аминокислот, а еще три являются
стоп-кодонами. Для того, чтобы сосредоточить внимание на моделиро-
вании, многие сложности, такие как сдвиги рамки считывания и гены,
не кодирующие белок, здесь игнорируются.
Гены
кодоны
I XI/
стартовый кодоны
кодон .ЖМЕТЖЛЖЖШ
XI/ I
кодоны стартовый
кодон
Рис. 3.10. Организация генов в прокариотах
Найти хороших кандидатов для генов очень легко, просто отыски-
вая участки ДНК правильной структуры, то есть такие, которые начина-
ются с одного из трех возможных стартовых кодонов, продолжающихся
некоторым числом не стоп-кодонов, и заканчивающихся одним из трех
3.5. Более сложные цепи Маркова
113
стоп-кодонов. Такой кандидат в гены называется открытой рамкой счи-
тывания (open reading frame, ORF). Обычно есть много перекрываю-
щихся открытых рамок считывания, имеющих один и тот же стоп-кодон,
но различные стартовые кодоны. (Термин ORF обычно используется для
максимальной открытой рамки считывания между двумя стоп-кодонами,
но мы будим использовать его для всех возможных кандидатов в гены.)
Открытых рамок считывания намного больше, чем реальных генов, и
здесь мы опишем в общих чертах возможные пути того, как различать
некодирующий ORF от реального гена.
В этом примере используется ДНК бактерии E.coli (выборка по-
дробно описана в [Krogh, Mian& Haussler 1994]). Мы рассматриваем
только гены длиной более 100 нуклеотидов. В выборке 1100 таких генов.
Эта выборка случайным образом разделяется на обучающую выборку из
900 генов для нашей модели и тестирующую выборку, состоящую из
остальных 200 генов.
Мы оцениваем модель первого порядка точно так же, как мы это
делали ранее для CpG островков в этой главе, и проверяем, насколько
хорошо она отличает гены от прочих открытых рамок считывания. В
данной тестовой выборке мы нашли около 6500 открытых рамок счи-
тывания длины более 100 оснований. ORF, имеющие общий стоп-кодон
с известным реальным геном, не были включены, поскольку они, как
правило, распознаются очень хорошо и затрудняют наш последующий
анализ. Остальные ORF, которые не помечены как кодирующие, будут
называться Н-ORF (для некодирующих ORF).
На рисунке 3.11 изображена гистограмма логарифма отношения
правдоподобия на нуклеотид. В качестве первоначальной модели для
вычисления логарифма отношения правдоподобия мы использовали наи-
более простую из возможных, с вероятностью для каждого нуклеотида
равной частоте, с которой он встречается во всем наборе данных. Сред-
нее значение логарифма отношения правдоподобия на нуклеотид по всем
генам составляет 0.018, в то время как для Н-ORF в два раза мень-
ше (0.009), но это разногласие не играет роли при разделении. Вы бы
ошиблись, думая, что данная модель имеет подходящую мощность для
разделения, если бы построили гистограмму логарифма отношения прав-
доподобия, не разделив на длину последовательности, поскольку гены в
среднем длиннее чем Н-ORF, и, следовательно, общий логарифм отноше-
ния правдоподобия больше для Н-ORF. Почти вся видимая информация
получалась бы из распределения длины, а не из данной модели.
Полезно отметить, что среднее гистограммы находится не в точке
0 бит, и что средние для двух распределений (генов и Н-ORF) доволь-
114
Глава 3
Рис. 3.11. Гистограмма распределения логарифма отношения правдоподобия, нор-
мированного на нуклеотид, для всех Н-ORF (серый) и генов (черная линия),
соответствующая цепи Маркова первого порядка. Из-за большого количества
Н-ORF размер бина диаграммы для Н-ORF в пять раз меньше
но близки. Это отражает то, что цепь Маркова действительно нашла
неслучайную корреляцию между нуклеотидными парами, но по суще-
ству одинаковую в кодирующих и некодирующих областях. В цепи вто-
рого порядка вероятность нуклеотида зависит от двух предыдущих ну-
клеотидов, то есть это охватывает длину кодона. Поэтому, мы также
испробовали модель второго порядка, но результат почти тот же, что и
для модели первого порядка, поэтому мы и не показываем гистограмму.
По-видимому, модель более высокого порядка не помогла бы, поскольку
модели не учитывают триплетность рамки считывания, то есть различие
(неэквивалентность) трех нуклеотидных позиций в кодоне.
Можно создать неоднородную цепь Маркова высокого порядка (рас-
сматривается в следующем разделе) для моделирования, основанного на
трех различных рамках считывания, но поскольку нашей целью является
классификация ORF, мы будем делать это по-другому. Рассматриваемые
последовательности переводятся в последовательности кодонов. Произ-
вольный символ ставится в соответствие каждому из 64 кодонов, и все
гены и Н-ORF переводятся в этот алфавит (давая последовательности в
три раза меньшей длины, чем нуклеотидные). Замете, что этот перевод
не существенно отличается от того, который рассматривался выше для
трансформации модели n-го порядка в модель первого порядка, посколь-
ку триплеты не перекрываются.
3.5. Более сложные цепи Маркова
115
Цепь Маркова первого порядка из 64-х состояний оценивалась по
переведенным последовательностям и тестировалась на генах из тесто-
вой выборки и Н-ORF точно так же, как модели, описанные выше. Ре-
зультат показан на рисунке 3.12. Хотя разделение и не идеально, мы
видим, что оно гораздо лучше, чем у другой рассмотренной модели.
Заметьте, что распределение, с которым мы сравниваемся при подсче-
те логарифма отношения правдоподобия, теперь является равномерным
распределением по кодонам. Серый пик сосредоточен вокруг 0, отра-
жая, что цепь Маркова нашла сигнал, который является особенным для
кодирующего участка, и что кодоны в Н-ORF распределены, по сути,
в среднем случайно. Еще это значит, что существенная часть H-ORF,
имеющая высокий вес, представляет собой реальные гены, которые не
помечены как гены в нашей выборке. Вероятно, большинство ORF, да-
вая вес выше, чем 0.3-0.35 битов на этой гистограмме, перекрываются с
реальными генами. Гистограмма для Н-ORF использует меньший размер
бина (как на рисунке 3.11), а если бы высота столбцов была такая же,
гистограмма для Н-ORF была бы в пять раз выше.
Если логарифм отношения правдоподобия не нормирован на длину
последовательности, распознавательная способность значительно улуч-
шается, поскольку есть тенденция для реальных генов быть длиннее,
чем Н-ORF, смотри рисунок 3.12.
Упражнения
3.10 Вычислите число параметров для модели с кодонами, описанной
выше. Выборка данных содержит порядка 300 000 кодонов. Можно
ли оценить марковскую цепь второго порядка по этой выборке?
3.11 Как можно улучшить модель генов, описанную выше?
Неоднородные цепи Маркова
Как мы видели выше, для построения удачной марковской модели
генов требуется конструирование статистик для кодонов. Это также мо-
жет быть сделано без перевода в другой алфавит. Известно, что в генах
позиции в трехбуквенных кодонах имеют довольно разные статистики.
И, следовательно, естественно использовать три различные цепи Мар-
кова для того, чтобы смоделировать кодирующие области. Если пред-
положить, что xi стоит в позиции 3 кодона, то вероятность Т2,тз,...
будет
12 3 12
^'X\X2^'X2X3^JX-.iX4^'X4J'!-)^JJ'r3xe ' ' ' ’
116
Глава 3
-1,0 -0,5 0,0 0,5 1,0
Отношение правдоподобия на нуклеотид
Рис. 3.12. Верхняя диаграмма является гистограммой Н-ORF и генов для цепи
Маркова, построенной по кодонам (перенесено с рисунка 3.11). Внизу логарифм
отношения правдоподобия показан как функция от длины, для генов (+), а для
H-ORF (.)
где параметры для модели к обозначаются как Такая модель назы-
вается неоднородной цепью Маркова. Здесь мы предполагали, что цепь
имеет первый порядок, но модель, конечно же, возможно расширить до
n-го порядка. Оценка параметров является простым расширением оцен-
ки для однородных моделей, описанных в разделе 3.1: для неоднородной
цепи Маркова второго порядка, как выше, параметры модели 1 оценива-
ются подсчетом триплетов с последним основанием в позиции кодона 1,
и аналогично для моделей 2 и 3.
Неоднородные цепи Маркова широко применяются в программе по-
иска генов GENEMARK [Borodovsky& Mclninch 1993], которая в насто-
3.6. Численная устойчивость НММ алгоритмов
117
ящее время является наиболее часто используемым методом для поиска
генов в прокариотах. Неоднородные модели до пятого порядка для коди-
рующих участков были объединены однородными моделями для некоди-
рующих участков, чтобы определить местонахождение генов в несколь-
ких различных бактериальных геномах.
Модель первого порядка, описанная выше, также может быть по-
строена в виде НММ с числом состояний, равным трем длинам алфа-
вита (суммарно, 12 для ДНК). Модели более высокого порядка могут
быть получены путем добавления к НММ множества дополнительных
состояний. Однако, также можно получить марковские оцененные веро-
ятности n-го порядка в состояниях НММ, в которых оценки вероятно-
стей обусловлены п предыдущими символами, таким образом, оценки
вероятностей (3.5) принимают вид
efr(t»|fci, ,ьп) = P(xi |7Гг = к,Xi-! =bi,.. .,Xi-n = bn).
Все алгоритмы, построенные для стандартных НММ, могут также при-
меняться к моделям с этими оценками, только с очевидными измене-
ниями. Подобные модели также используются для поиска генов [Krogh
1998].
Упражнение
3.12 Изобразите НММ, которая соответствует неоднородной цепи Мар-
кова первого порядка, описанной выше.
3.6. Численная устойчивость НММ алгоритмов
Даже на современных процессорах с плавающей точкой мы столк-
немся с численными проблемами, перемножая много вероятностей в
Витерби алгоритме, в алгоритме просмотра вперед и назад. Например,
в случае с ДНК нам могло бы понадобиться смоделировать генетические
последовательности длиной в 100 000 оснований или более. При допу-
щении, что произведение вероятностей для одной эмиссии и одного пе-
рехода обычно составляет 0.1, вероятность Витерби пути в таком случае
составит порядка 1 ()-100000. Большинство компьютеров плохо работают
с такими числами: может произойти ошибка из-за потери значимости и
программа остановит выполнение, или, что еще хуже, программа будет
продолжать работать и производить случайные неверные числа. Суще-
ствует два различных пути справиться с этой проблемой.
118
Глава 3
Логарифмическая трансформация
Для алгоритма Витерби мы всегда должны использовать логарифм
всех вероятностей. Поскольку логарифм произведения есть сумма ло-
гарифмов, все произведения преобразуются в суммы. Полагая основа-
ние логарифма равным 10, логарифм вероятности 10 100000 равен всего
лишь —100000. Таким образом, проблема потери значимости по суще-
ству решена. К тому же, операция суммирования работает на некоторых
компьютерах быстрее, чем произведение. Таким образом, на этих ком-
пьютерах данный алгоритм будет также работать быстрее.
Мы будем ставить тильду над всеми параметрами модели после взя-
тия логарифма, например dki = loga^. Теперь, рекурсивное отношение
для алгоритма Витерби (3.8) принимает вид
V;(i + 1) = £i(xt+x) + max(Vfc(i) + dfc/),
к
где мы используем V вместо логарифма v. Каково основание логариф-
ма — не имеет значения, лишь бы оно было больше 1 (как 2, е или 10).
Более эффективно логарифмировать все параметры модели до ис-
полнения алгоритма Витерби, для того чтобы избежать вызова логариф-
мической функции повторно в течение итерации динамического програм-
мирования.
Для алгоритмов просмотра вперед и назад существует проблема
с логарифмической трансформацией: логарифм суммы вероятностей не
может быть вычислен из логарифмов вероятностей без использования
возведения в степень и логарифмической функции, которые являются
вычислительно дорогими. Однако, данная ситуация на практике не так
уж плоха. Предположим, вы хотите вычислить г = log(p + q) из ло-
гарифмов вероятностей, р = logp и q = logg. Прямой способ — это
вычислить г = log(exp(p)+ехр(д)). Вынеся р за скобки, можно записать
это равенство как
г = р + log(l + ехр(д - р)).
Можно аппроксимировать функцию log(l +ехр(т)) интерполирова-
нием по таблице. Для разумного уровня точности, эта таблица может в
действительности быть достаточно маленькой, при допущении, что мы
всегда выносим за скобки большее из р и д, поскольку exp(q-p) быстро
приближается к нулю при больших р — q).
3.6. Численная устойчивость НММ алгоритмов 119
Масштабирование вероятностей
Альтернативой использования логарифмической трансформации яв-
ляется изменение масштаба для переменных f и Ь, так, чтобы они оста-
вались в пределах выполнимого численного интервала [Rabiner 1989].
Для каждого i определим масштабируемую переменную Si, и определим
новые переменные f
Ш (3-26)
П>=1 Sj
из этого выражения видно, что
fi(i +
к
таким образом, рекурсия для алгоритма просмотра вперед (3.11) только
незначительно меняется. Она будет работать как бы мы не определи-
ли «г, но удобно выбирать Si так, чтобы Д(г) = 1. Это означает, что
«г+1 = У^е/(тг+1) Д(г)ан-
i к
Переменные b должны масштабироваться с теми же коэффициента-
ми, то есть, шаг рекурсии в (3.3) принимает вид
МО = +
I
Этот метод масштабирования обычно работает хорошо, но в моделях
с большим количеством молчащих состояний, подобных той, что мы
рассматриваем в главе 5, ошибки из-за потери значимости все еще могут
встретиться.
Упражнения
3.13 Воспользуйтесь (3.26) и докажите, что Р(ж) = П^=1 выби-
рая Si, как описано выше. Лучше, конечно, вычислить logP(x-) =
= Ejbgsj.
3.14 Воспользуйтесь результатом предыдущего упражнения и покажи-
те, что равенство (3.20) действительно упрощается при примене-
нии масштабирования к переменным f и Ь. Выведите также ре-
зультат (3.21) для масштабированных переменных.
120
Глава 3
3.7. Дополнительное чтение
Более фундаментальные введения в НММ включают в себя
[Rabiner& Juang 1986] и [Krogh 1998].
Некоторые ранние применения НММ-подобных моделей к анали-
зу последовательностей были сделаны [Borodovsky et al. 1986а; 1986b;
1986с], который использовал неоднородные цепи Маркова, описанные
на стр. 115. Позднее это привело к возникновению программы поиска
генов GENEMARK [Borodovsky & Mclninch 1993]. [Cardon & Stormo
1992] представили метод максимизации ожидания, который имеет много
общего с НММ, для моделирования мотивов связывания белка. Более
поздние применения НММ для поиска генов сделали [Krogh, Mian &
Haussler 1994], [Henderson, Salzberg & Fasman 1997], и [Krogh 1997a,
1997b, 1998], а также системы, комбинирующие нейронные сети и НММ
[Stormo & Haussler 1996; Kulp et al. 1996; Reese et al. 1997; Burge &
Karlin 1997]. Такие гибридные модели становятся достаточно популяр-
ными для других прикладных задач; например, смотри [Bengio et al.
1992], [Frasconi & Bengio 1994], [Renals et al. 1994], [Baldi & Chauvin
1995] и [Riis & Krogh 1997].
[Cherchill 1989] использовал HMM для композиционного различия
между ДНК митохондрий, а также из X хромосомы человека и бактерио-
фага лямбда, и позднее для изучения композиционной структуры гено-
мов [Cherchill 1992]. Другие приложения включают НММ с тремя состо-
яниями для предсказания вторичной структуры белка [Asai, Hayamizu &
Handa 1993]; НММ с десятью состояниями в кольце для моделирова-
ния периодичностей, порожденных нуклеосомными структурами [Baldi
et al. 1996]; определения областей кодирования коротких белков и ана-
лиза сайтов инициации трансляции в цианобактериях [Yada & Hirosawa
1996; Yada, Sazuka & Hirosawa 1997]; и для распознавания точек ветв-
ления [Tolstrup, Коигё & Brunak 1997]. Некоторые другие применения
НММ будут обсуждаться в контексте профильных НММ в главах 5 и 6.
Глава 4
Парное выравнивание с помощью
НММ
Теперь, когда мы овладели новой техникой из теории скрытых мар-
ковских моделей, вернемся ненадолго к парному выравниванию после-
довательностей. В главе 2 мы рассмотрели конечные автоматы с множе-
ственными состояниями как удобный способ описания более сложных
алгоритмов динамического программирования для парного выравнива-
ния. Эти конечные автоматы можно также рассматривать как базис для
вероятностной интерпретации процесса выравнивания с делециями, пре-
образуя их в НММ. Одним преимуществом такого подхода является
то, что мы сможем использовать полученную вероятностную модель для
изучения вопросов о надежности выравнивания, полученного с помо-
щью динамического программирования, а также проанализируем аль-
тернативные (субоптимальные) выравнивания. Действительно, оценивая
вероятность всех альтернативных выравниваний, мы сможем вычислить
схожесть двух последовательностей независимо от любого конкретно-
го выравнивания. Мы также можем строить более специализированные
вероятностные модели из простых частей, чтобы смоделировать более
сложные варианты выравнивания последовательностей, как обсуждалось
ранее для алгоритмов FSA (Final State Automat — конечный автомат).
Давайте сначала сделаем краткий обзор для конечного автомата, ко-
торый мы рассматривали для парного выравнивания с аффинными штра-
фами за делецию. Нам требовалось три состояния, М соответствовало
совпадению (match — совпадение), и два состояния для вставок, кото-
рые мы называли X и У, как показано на рисунке 4.1. Рекуррентные
соотношения для обновления значений для этих состояний в матрице
динамического программирования
(4.1)
122
Глава 4
r/Xz- л Г VM(i-l,J)-d,
V = max < ,.x;. ,
v м/ । Vх(г - 1,j) - e;
Д,. А Г VM(i,j
V ?,?=max< тлу/.
( Vr (z,j - 1) - e.
Эти равенства предназначены для глобального выравнивания. Как и ра-
нее, мы обычно приводим равенства для глобального выравнивания, ука-
зывая, какие изменения нужно внести для локального выравнивания.
4.1. Парные НММ
Нам нужно внести изменения двух типов для FSA, который по-
казан слева на рисунке 4.1, для того, чтобы превратить его в НММ.
Во-первых, как показано справа на рисунке 4.1, мы должны задать веро-
ятности и для эмиссий символов из состояний, и для переходов между
состояниями. Например, состояние М имеет распределение эмиссион-
ных вероятностей раъ для порождения выровненной пары а : Ь, а состо-
яния X и Y будут иметь распределения qa для порождения символа а
напротив делении. Поскольку состояние X порождает символ Xi из по-
следовательности х, мы запишем qXt внутри кружка, представляющего
состояние X. Мы также определим вероятности переходов между состо-
яниями, которые должны удовлетворять требованиям, что сумма веро-
ятностей по всем переходам, выходящим из состояния, равна единице. С
учетом симметрии, есть два свободных параметра для вероятностей пе-
реходов между тремя главными состояниями. Обозначим переход из М
в одно из состояний вставки (X или Y) через <5, а вероятность остаться
в состоянии вставки через s.
Однако полученная модель, изображенная справа на рисунке 4.1 не
порождает полной модели, которая обеспечит распределение вероятно-
стей для всех возможных последовательностей. Для того, чтобы постро-
ить полную модель, нам нужно определить состояния Начала и Конца,
как показано на рисунке 4.2. На самом деле, эти состояния формализу-
ют условия начала и завершения, которые были нам нужны для алго-
ритмов динамического программирования в главе 2. Ниже мы увидим,
что более сложные способы организации состояний Начала и Конца мо-
гут соответствовать локальному выравниванию, а также другим типам
выравниваний. Добавление явного состояния Конца требует введения
другого параметра — вероятности перехода в состояние Конца, кото-
рая на данном этапе предполагается одинаковой для М, X и Y; назовем
ее г. Тем самым мы определяем среднюю длину выравнивания из мо-
4.1. Парные НММ
123
Рис. 4.1. Диаграмма конечных состояний для аффинного выравнивания с деле-
ниями (слева) и соответствующая вероятностная модель (справа)
дели. Теперь, мы будем полагать, что переходы из состояния Начала
равны переходам из состояния М (мы могли просто сказать, что мы на-
чинаем в состоянии М, но хотелось пояснить, что инициализация может
рассматриваться независимо, также как и завершение).
В итоге мы получаем вероятностную модель, которая очень схожа
со скрытой марковской моделью, как мы ее определили в главе 3. Раз-
ница заключается в том, что вместо порождения одиночной последова-
тельности, модель порождает парное выравнивание. Мы будем называть
такой тип модели парным НММ, чтобы отличать его от более тради-
ционных типов НММ, которые порождают одиночные последовательно-
сти. Все алгоритмы из главы 3 переносятся на парные НММ, однако
они требуют дополнительного измерения для пространства поиска из-за
наличия дополнительной порождаемой последовательности. Например,
вместо обозначения vk(i) для вероятностей Витерби мы будем исполь-
зовать обозначение Ниже мы приведем точные равенства для
ключевых алгоритмов, применительно к нашей главной парной НММ,
изображенной на рисунке 4.2.
Также как обычная НММ может порождать последовательность,
наша парная НММ может порождать выровненную пару последователь-
ностей. Модель производит выравнивание, начав работу в состоянии
Начала и двигаясь циклически по двум следующим шагам: (1) выби-
раем следующее состояние в соответствии с распределением вероятно-
стей переходов из данного состояния; (2) выбираем пару символов, ко-
торые нужно добавить к выравниванию, в соответствии с распределени-
ем эмиссионных вероятностей в новом состоянии. Процесс завершается
при переходе в состояние Конца. Поскольку у нас есть вероятности для
124
Глава 4
Рис. 4.2. Полная вероятностная версия рис. 4.1
каждого шага, мы можем отслеживать полную вероятность породить
некоторое выравнивание, которое мы создали. Она равна произведению
вероятностей каждого отдельного шага.
Наиболее вероятным путем является оптимальное FSA
выравнивание
Алгоритм Витерби из главы 3 позволит нам найти наиболее веро-
ятный путь через парную НММ, при заданных последовательностях х
и у. Правильной формой для глобальной парной НММ, изображенной
на рисунке 4.2, является следующая форма. Для того, чтобы упростить
равенства, определим, что, М является состоянием Начала. Также как в
предыдущей главе, будем использовать прописные символы j) для
значений вероятностей и заглавные символы для логарифмов
отношения правдоподобия. Запишем алгоритм Витерби в вероятностной
форме:
Алгоритм Витерби для парных НММ
Начало:
гл/(0,0) = 1. Все остальные r*(?,0), w*(0, j) полагаются равными 0.
Рекурсия: i = 1,..., n, j = 1,..., т\
Vм (ij) = PxtVj max *
(1 — 2S — т)гЛ/(г — 1, j — 1),
(1 - £ - r)vx('i - 1, j - 1),
(1 - £ - r)vY(i - 1, j - 1);
4.1. Парные НММ
125
X/- -\ f &им (г — 1, j),
7; (г,/) = qx max < Y/. . /
[ {г ~ l,j);
Yr f dvM(i,j - 1),
v b, J) — Qu, max < у?. • ,{
v чУз [ evY (i,j - 1).
Завершение:
vE = rniax(vx\n,m),vx (n,m),vY
Для того чтобы найти лучшее выравнивание, будем запоминать
обратные ссылки и, как обычно, осуществлять обратный ход. Конеч-
но же, для получения выравнивания самого по себе при обратном ходе
мы запоминаем последовательность остатков, которые порождаются на
каждом шаге пути, как в главе 2, наряду с последовательностью состо-
яний (или даже вместо нее), как для НММ, описанных в главе 3. Хотя
и ясно, что равенство рекурсии для алгоритма Витерби в случае парных
НММ имеет схожую форму с равенствами для варианта конечного авто-
мата парного выравнивания (4.1), полезно посмотреть на точную форму
соответствия. Во-первых, мы должны преобразовать логарифмы отно-
шения правдоподобия для случайной модели. Фактически, теперь у нас
есть полная вероятностная модель для нашего выравнивания. Нам так-
же нужна случайная модель с надлежащим условием завершения. Ранее
мы игнорировали тот факт, что наша случайная модель в соответству-
ющей вероятностной форме не может производить последовательности
переменной длины. Новая случайная модель, которая также является
парной НММ, показана на рисунке:
Главными состояниями являются X и Y, которые по очереди поро-
ждают две последовательности, независимо друг от друга. В каждом из
них присутствует петля перехода в себя с вероятностью (1 -т/). Наряду
с состояниями Начала и Конца также имеется молчащее состояние меж-
ду X и Y, обозначенное таким же кружком. Оно не порождает никаких
символов, но используется для сбора входных сигналов из состояний
Начала и X (для получения дополнительной информации о том, как
используются молчащие состояния, смотри раздел на стр. 108). Если
126
Глава 4
модель определена таким образом, то она допускает последовательно-
сти нулевой длины х или у, также как парная НММ на рисунке 4.2,
и порождает простое распределение для случайной модели по всем по-
следовательностям. Вероятность породить пару последовательностей х и
у согласно этой модели
п тп.
P(x,y\R) = 7,(1 - ч)"Пм(1 - «Г П =
i=1 7=1 (4.2)
nm V /
= 7/2(1 - 7/)n+m J] qx, П qXj.
i=l j=l
Теперь нам необходимо разместить члены этого равенства таким об-
разом, чтобы составить вероятность выравнивания Витерби так, чтобы
отношение правдоподобия для всего выравнивания можно было предста-
вить в виде произведения отношений правдоподобия отдельных членов
(и, соответственно, так, что логарифм правдоподобия всего выравни-
вания является суммой логарифмов правдоподобия отдельных членов).
Это достигается группировкой одного множителя (1 — ту) и соответству-
ющего qa для каждого остатка, который порождается на каком-то шаге
алгоритма Витерби. Таким образом, для переходов, соответствующих
выравниванию символов, выносятся группы (1 - r])2qaqb, где а и b два
выровненных остатка, а для состояний вставки — (1 — r})qa, где а —
вставленный остаток. Поскольку путь Витерби должен учитывать все
эти остатки, используется как раз ровно (n + т) множителей, и все
множители из (4.2), кроме первого т?2, задействованы.
Что касается логарифма отношения правдоподобия, то мы теперь
можем считать его в рамках аддитивной модели с эмиссионными и пе-
реходными логарифмами правдоподобия. На деле это обычно является
наиболее удобным способом представления парных НММ. Отсюда сле-
дует, что можно объединить эмиссионные и переходные веса, как пока-
зано здесь:
, м 1 РаЬ . 1 (1 - 2<5 - т)
S(a’6) = 1°g^+1°g (1_г/)2 '
<5(1-е-г)
е = - log
4.1. Парные НММ
127
для того, чтобы получить веса, которые соответствуют традиционным
параметрам, используемым при выравнивании последовательностей ди-
намическим программированием. Обратите внимание, что вклад qa в d и
е пропадает, так как множители из Витерби и случайной модели сокра-
щаются. К тому же, для того, чтобы понять разницу между переходами
из состояний совпадения и делеции, был сделан маленький трюк в ра-
венствах для s и d. Мы собираемся использовать s(a,b) в качестве веса
для каждого совпадения, в независимости от того, что за ним следует,
другое совпадение или вставка. Для того, что проделать это правильно,
мы применили к d корректировку, введя поправку на разницу в весе сов-
падения при условии возврата из состояния вставки. Это означает, что
члены матрицы динамического программирования для вставок более не
соответствуют точным значениям логарифма отношения правдоподобия
пребывания в этом состоянии. Тем не менее, конечный результат будет
правильным.
Теперь мы можем задать вариант алгоритма выравнивания Витер-
би в логарифмах правдоподобия, похожий по форме на обычное парное
динамическое программирование.
Алгоритм: оптимальное выравнивание с логарифмами отношения
правдоподобия
Начало:
VM(0,0) = 2 log??, Vх(0,0) = Vy(0,0) = -ос.
Все V*(i,-1), равны —оо.
Рекурсия: i = 0,..., n, j = 0,..., m, кроме (0, 0);
Vм (i, j) = s(xi,yj) + max <
Vх (г, j) = max
= max
Vм(i - l,j)-d,
Vх (i — 1, J) — e;
Vм(г, j - 1) — d,
VY(i,j - 1) - e;
Завершение:
V = max
VY (i,j — 1) — e.
<1
128
Глава 4
Эти равенства идентичны равенствам (4.1), за исключением кон-
станты 2 log7/ на стадии Начала, и константы с = log(l — 2d —г) — log(l —
— е — г) на стадии Завершения, которые нужны для обратной поправки
в нашей корректировке d, описанной выше. Фактически последнее из-
менение просто является результатом того, что была использована одна
и та же вероятность т для выхода из состояний совпадения и встав-
ки. Если вероятности выхода из состояния делении положить равными
(1 — е)т/(1 — г), тогда с обращается в ноль, и тем самым алгоритм с
логарифмами отношения правдоподобия будет иметь в точности такую
же форму, что и наш обычный алгоритм парного выравнивания с аф-
финными штрафами за делении, с одной дополнительной константой,
возникающей из начальных условий.
Данная процедура, как мы ее описали, показывает, как для любой
парной НММ типа, показанного на рисунке 4.2, можно вывести экви-
валентный FSA, чтобы получить наиболее вероятное выравнивание. Это
позволяет нам увидеть точную вероятностную интерпретацию парамет-
ров, используемых при выравнивании последовательностей. Обратное
действие, то есть переход от алгоритма динамического программирова-
ния, изображенного в виде FSA, к парной НММ, является более слож-
ным. Вообще говоря, возникнет необходимость в новом параметре А, ко-
торый будет действовать как глобальный масштабирующий множитель
для весов, и для каждого данного набора весов могут быть ограничения
на выбор т/ и т.
Парная НММ для локального выравнивания
Модель, изображенная на рисунке 4.2, предназначена для поиска
глобального соответствия между последовательностями. Как было опи-
сано в главе 2, многие из наиболее чувствительных алгоритмов парного
поиска являются локальными. Когда мы рассматривали алгоритм ло-
кального выравнивания и другие варианты, такие как алгоритмы поиска
повторов и перекрытий, мы описывали их, внося изменения в равенства и
граничные условия. И те, и другие сделаны явно в теории НММ путем
добавления состояний и переходов. Следовательно, мы можем изобра-
зить отдельную парную НММ для каждого варианта. На рисунке 4.3
мы демонстрируем модель для локального выравнивания. Она выглядит
более сложной, чем модель для глобального выравнивания на рисун-
ке 4.2, но она составлена из более простых частей.
Полная вероятностная модель должна учитывать все последователь-
ности х и у: не только локальное выравнивание между х и у, но и не
4.1. Парные НММ
129
Рис. 4.3. Парная НММ для локального выравнивания. Она основана на глобаль-
ной модели (состояния М, X и Y), к которой примыкают две копии случайной
модели (состояния RXi, RYi и RX2, RY2)
выровненные боковые последовательности. Поэтому, мы добавляем до-
полнительные части к модели до и после сегмента выравнивания, со-
стоящего из трех состояний, с рисунка 4.2. Каждый боковой сегмент
является копией случайной фоновой модели, так как по краям после-
довательности не выровнены. Для этого сегмента большинство членов,
участвующих в отношении правдоподобия, сократятся с эквивалентными
членами случайной модели при подсчете логарифмов отношения правдо-
подобия для модели выравнивания в сравнении со случайной моделью,
оставляя только веса локального сходства из центральной модели и неко-
торые элементы для особых случаев. Подобные составные модели могут
быть построены для моделей поиска повторов и перекрытий, и еще для
многих гибридных моделей, рассмотренных в главе 2.
Упражнения
4.1 Какова вероятность того, что последовательность х имеет длину t
при полностью случайной модели?
4.2 Какова ожидаемая длина последовательностей при полностью слу-
чайной модели? Чему должен быть равен параметр 77?
130
Глава 4
4.2. Полная вероятность х и у, суммированная по всем
путям
Наличие парного НММ позволяет нам сделать больше, чем обес-
печить альтернативное логическое обоснование для обычного парного
выравнивания с помощью динамического программирования. Одна про-
блема, которую мы затрагивали при обсуждении значимости совпадений
в главе 2, заключалась в том, что если сходство слабое, трудно опреде-
лить правильное выравнивание для того, чтобы подсчитать вес и про-
верить на предмет значимости. Теперь мы можем обойти эту проблему
(и подход, который, всюду использовался в главе 2), подсчитав вероят-
ность того, что какие-то две последовательности родственны друг другу,
в соответствии с данной НММ, каким бы ни было выравнивание. Мы
считаем вероятность, суммируя по выравниваниям:
Р(х,у) = ^2 Р(х,у,тг).
выравнивания тг
Как мы считаем сумму? Опять же таки, существует стандартный НММ
алгоритм, который был рассмотрен в главе 3 как алгоритм просмотра
вперед. Способ, которым реализован этот алгоритм для парного вырав-
нивания, таков, что мы можем снова использовать ту же идею динами-
ческого программирования, которую мы использовали для поиска вырав-
нивания максимального веса, но на каждом шаге прибавляя, а не выби-
рая максимум. Вероятностная версия для алгоритмов просмотра вперед
приводится ниже, где представляет совместную вероятность для
всех выравниваний вплоть до (г, J), которые заканчиваются в состоянии
к. Как и ранее, мы приводим версию только для глобальной модели,
изображенной на рисунке 4.2. Ее легко распространить на другие типы
моделей парных выравниваний, таких как локальная модель, описанная
выше.
Алгоритм: вычисление просмотра вперед для парных НММ
Начало: /м(0,0) = 1./х(0,0) = /у(0,0) = 0. Все Л-IJ)
полагаются равными 0;
Рекурсия: i — 0,..., n, j = 0,..., m, кроме (0,0);
= PXlVj[V - 1, j - 1)+
(1 - £ - r)(fx(i - 1, j - 1) + fY(i - 1, j - 1))];
4.2. Полная вероятность хну, суммированная по всем путям 131
fX(iJ) = qxASfM(i - 1, j) + efX(г - 1,J)];
Л(м) =qy3[^fM(i,j - - 1)].
Завершение:
fE(n, m) = r[fM (n, m) + fx (n, m) + fY (n, m)].
Теперь мы можем рассматривать логарифм отношения правдоподо-
бия для итоговой полной вероятности Р(х,у) = fE(n,m) относительно
вероятности нулевой модели, заданной (4.2). Это мера вероятности того,
что две последовательности родственны друг другу при некотором не
определенном точно выравнивании, в противоположность быть нерод-
ственными. Делая это, мы не предполагали никакого определенного вы-
равнивания. Конечно, если существует недвусмысленное лучшее вырав-
нивание, вклад практически во все вероятности в общей сумме будет
внесен одним путем, соответствующим этому лучшему выравниванию.
Однако этот полный вес будет всегда выше, чем вес оптимального вырав-
нивания (при использовании той же схемы подсчета веса), и он может
значимо отличаться при наличии множества сравнимых альтернативных
выравниваний или отклонений в выравнивании.
Важным случаем использования полной вероятности является опре-
деление апостериорного распределения Р(тт\х,у) по выравниваниям тг
при заданной паре последовательностей х, у. Оно задается формулой
р, | \ P(x,y,Tv)
/?(тф,у) = —------—. (4.3)
Р(т, у)
Если мы подставим тг = тг*, путь Витерби, в (4.3), тогда мы по-
лучим апостериорную вероятность, соответствующей пути Витерби
vE(n, m)/fE(n, m), которую мы можем интерпретировать как вероят-
ность того, что выравнивание с оптимальным весом является ’правиль-
ным’. Часто эта вероятность является исчезающе малой! Например, для
выравнивания альфа глобина с леггемоглобином на рисунке 2.1 (Ь) эта
вероятность составляет 4.6 х 10-6. Это наблюдение, хотя, может, и пуга-
ет, поскольку мы надеялись, что алгоритмы стандартного выравнивания
отыщут ’правильное’ выравнивание, однако является совсем неудиви-
тельным. Существует много маленьких вариантов лучшего выравнива-
ния, которые имеют почти одинаковый вес, или, другими словами, почти
одинаковую вероятность. В частности, там, где присутствует деления,
часто есть выбор в том, где эта деления должна стоять. Сдвиг делении
132
Глава 4
влево или вправо на один остаток или около того, часто не приводит к
изменениям или приводит лишь к случайным флуктуациям.
На рисунке 4.4 изображен пример такого поведения с соответ-
ствующими участками последовательностей альфа глобина человека
и леггемоглобина люпина. Первое из изображенных выравниваний
близко к структурно подтвержденному выравниванию, и имеет вес 3
(BLOSSUM50, цена открытие делеции —12, цена продолжения деле-
ции —2). Следующее выравнивание имеет тот же вес, хотя делеция сме-
щена на две позиции. Третье имеет вес 6, хотя делеция смещена на
пять остатков. Разница в весе на 3 соответствует росту относительно-
го правдоподобия одного из двух множителей, соответствующих модели
выравнивания, поскольку веса в BLOSSUM50 отнормированы на одну
треть бита. Ясно, что простое выравнивание последовательностей не яв-
ляется правильным способом определения выравнивания в таком случае,
так как оно, вероятно, имеет сильное отклонение.
HBA_HUMAN KVADALTNAVAHVD------DMPNALSALSDLH
KV + +А ++ +L+ L+++H
LGB2_LUPLU KVFKLVYEAAIQLQVTGVVVTDATLKNLGSVH
НВА HUMAN KVADALTNAVAHVDDM------PNALSALSDLH
KV
+ +A + +
+L+ L+++H
LGB2 LUPLU KVFKLVYEAAIQLQVTGVVVTDATLKNLGSVH
HBA_HUMAN KVADALTNA------VAHVDDMPNALSALSDLH
KV + +A V V +L+ L+++H
LGB2 LUPLU KVFKLVYEAAIQLQVTGVVVTDATLKNLGSVH
Рис. 4.4. Пример неопределенности расположения делеций: изображено 3 зна-
чительно отличающиеся делеции с очень похожими весами в выравнивании гло-
бина из рис. 2.1(b)
Упражнение
4.3 Относительные веса для вариантов расположения делеции, показан-
ных на рисунке 4.4, зависят только от весов замен, а не от весов
делеций. Почему это так и каковы следствия для точности вырав-
нивания при использовании динамического программирования?
4.3. Субоптимальное выравнивание
133
4.3. Субоптимальное выравнивание
Если учесть, что зачастую существуют альтернативные выравнива-
ния с почти такой же вероятностью (или чаще с почти тем же весом),
что и лучшее выравнивание, то, естественно, интересно посмотреть, что
они из себя представляют. Такие выравнивания известны как субопти-
мальные выравнивания. Существует несколько подходов к изучению и
описанию субоптимальных выравниваний. Сначала давайте рассмотрим
более аккуратно, что можно вообще найти.
Одним классом выравниваний с весами, близкими к оптимальному
весу, будут те из рассмотренных ранее, которые отличаются от опти-
мального выравнивания только в нескольких позициях (например, те,
что изображены на рисунке 4.4). Поскольку малые вариации в разных
местах выравнивания могут комбинироваться независимо друг от дру-
га, число таких ’локальных’ вариантов экспоненциально растет с ростом
отклонения в весе от оптимального выравнивания. Следовательно, при-
водить все такие варианты непрактично. Однако гибкость в изменении
данного выравнивания может существенно изменяться в зависимости от
позиции выравнивания. Существуют методы выборочного обследования,
которые дают типичные варианты, и методы, которые показывают для
каждой клетки в матрице динамического программирования, насколько
остатки ’близки’ к тому, чтобы присутствовать в данном выравнивании.
Примеры и тех и других методов приводятся ниже.
Другой тип субоптимальных выравниваний — это такие, которые
существенно или даже полностью отличаются от оптимального вырав-
нивания. Методы для поиска субоптимальных выравниваний такого типа
могут быть использованы там, где допускается, что может быть показано
более одного правильного выравнивания, например, если присутствуют
повторы в одной или в обеих последовательностях. Вообще, эти методы
более важны, чем поиск локальных выравниваний, которые выравнивают
только какую-то часть каждой последовательности.
Вероятностный отбор выравниваний
Сначала рассмотрим метод отбора выравниваний в соответствии с
апостериорным распределением, описанным в (4.3). Вспомним, что этот
метод определял вероятность для каждого возможного выравнивания
двух данных последовательностей, в соответствии с его вероятностью
быть правильным при данном методе. Ансамбль таких выравниваний
даст нам картину информации о выравнивании данного типа, которая
134
Глава 4
с большой вероятностью восстанавливается из данной пары последова-
тельностей. Любое отдельное свойство, которое нас непосредственно ин-
тересует, может быть оценено путем усреднения по всей выборке, как это
предлагается в разделе «Апостериорное дешифрование НММ» (стр. 95).
Этот метод является мощной главной стратегией использования инфор-
мации о сходстве, когда выравнивание точно не задано; например это
используется позже в этой книге, в главе 8.
Для того, чтобы сгенерировать примерное выравнивание, мы осу-
ществляем обратный ход по матрице значений, но вместо того,
чтобы выбирать наибольший вес на каждом шаге, мы осуществляем ве-
роятностный выбор, в зависимости от силы трех данных компонент. Для
того, чтобы показать, как это сделано, давайте представим, что мы яв-
ляемся частью пути при обратном ходе, в состоянии М в позиции (г, j),
которую мы будем называть клеткой M(z,J). Из алгоритма просмотра
вперед нам известно, что
Л = Px.JU - 26 - т)/м(г - 1, j - 1)+
(1 - £ - Л(/Х(« - 1,J ~ 1) + fY(i - 1, j - !))]•
Мы выбираем следующий шаг
-1,7 — 1) с вероятностью
X(г — l,j — 1) с вероятностью
У (г - 1,7 - 1) с вероятностью
Р^(1-2<?-т)/м(г-1,7-1)
Рх1Уз(1 — е — r)fx (i — l,j — 1)
PxlV](l-€-T)fY(i - l,j- 1)
соответственное распределение для клетки X(i,j)
M(i — 1,7) с вероятностью
X (г - 1,7) с вероятностью
qx,efX(i - 1J)
/Х(г,7)
и аналогично для клетки У(г, 7).
Набор примерных глобальных выравниваний их нашего простого
примера приводятся здесь:
4.3. Субоптимальное выравнивание
135
HEAGAWGHEE HEAGAWGHE-E HEAGAWGHEE
-P-A-WHEAE -РА—W-HEAE -P-A-WHEAE
HEAGAWGHEE HEAGAWGHEE HEAGAWGHE-E
Р---AWHEAE -P-AWHEAE -P—AW-HEAE\verb
HEAGAWGHE-E HEAGAWGHE-E HEAGAWGHEE
-P—AW-HEAE —P-AW-HEAE —PA-WHEAE
Как можно видеть, альтернативы более вероятны там, где требуют-
ся делении и правомерность выравнивания слабая, как, например, нача-
ло последовательностей. Спаривания, которые вносят большой вклад в
вес, такие как W с W, или появляются в блоке, например, на конце по-
следовательности, являются более стабильными. Частота спаривания в
таких выборках может быть использована как естественный индикатор
достоверности спаривания в выравнивании. Ниже мы приводим прямой
способ вычисления ожидаемого значения этой частоты, то есть веро-
ятности того, что какая-нибудь пара остатков должна быть выровнена,
в соответствии с данной моделью.
Подход к отбору, подобный тому, который мы здесь использовали,
будет применен позже в этой книге при построении множественного
выравнивания (глава 5).
Построение особых субоптимальных выравниваний
Как было отмечено выше, некоторое количество различных методов
были приведены для поиска выравниваний, не являющихся просто несу-
щественными вариантами оптимального выравнивания. Один подход за-
ключается в том, чтобы использовать ’повторный’ алгоритм из главы 2.
Этот алгоритм находит оптимальный набор совпадений высокого веса
между одной последовательностью и множеством неперекрывающихся
сегментов другой последовательности. Однако для рассматриваемых це-
лей, этого недостаточно, поскольку алгоритм работает с двумя данными
последовательностями по-разному. К тому же, наилучшее выравнивание
может вообще отсутствовать в этом наборе.
Наиболее широко используемый метод поиска особых субоптималь-
ных выравниваний разработан Ватерманом и Эггертом [Waterman &
Eggert 1987], которые предложили алгоритм для поиска следующе-
го лучшего выравнивания, который не имеет общих выровненных пар
остатков с любым определенным ранее выравниванием. Как только мак-
симальный вес достигнут, пересчитывается стандартная матрица дина-
мического программирования (Витерби). И при этом осуществляется до-
полнительный шаг во время рекурсии, на котором ячейки, соответствую-
136
Глава 4
щие парам остатков, которые входят в лучшее выравнивание, полагаются
равными нулю, предотвращая их вхождение в следующее выравнивание.
Таким образом, полученная матрица и вес будут содержать информацию
о втором лучшем выравнивании. Эту процедуру можно повторить, обну-
ляя все клетки для любого совпадения до тех пор, пока следующий вес
не станет ниже Т (смотри рисунок 4.5). Фактически, если матрица хра-
нится в памяти, то нет необходимости пересчитывать всю матрицу на
каждой итерации: может быть применена процедура маркирования для
отражения того, какие клетки нужно обновить. Для получения ссылок
на некоторые другие подходы к поиску субоптимальных выравниваний
смотри раздел 4.6.
4.4. Апостериорная вероятность того, что Xi
выравнивается с yj
Если вероятность того, что какой-нибудь отдельно взятый полный
путь является совершенно правильным, мала, можем ли мы сказать что-
нибудь о локальной точности выравнивания? Часто бывает так, что часть
выравнивания не вызывает сомнений, а остальные области менее надеж-
ны. Степень консервативности варьируется в зависимости от структур-
ных и функциональных ограничений, так что последовательности ядра
могут быть очень консервативными, в то время как участки петель не
могут быть точно выровнены1. В такой ситуации было бы полезно задать
меру точности для каждой части выравнивания.
Формализм НММ позволяет нам это сделать. Идея заключается в
том, что мы считаем совместную вероятность всех выравниваний, кото-
рые проходят через определенную выровненную пару остатков (xi,yj).
Затем мы сравниваем это значение с полной вероятностью всех вырав-
ниваний для данных двух последовательностей, вычисленной в преды-
дущем разделе. Если отношение близко к единице, то можно сказать,
что эта выровненная пара весьма надежна, если близко к нулю, то нена-
дежна. Применяемый с такой целью метод близок к алгоритму апосте-
риорного дешифрования из главы 3.
Введем новое обозначение Xj oyj того, что выровнена с yj. Тогда
из стандартной теории условных вероятностей мы имеем
= P(.Xi...i,yi...j,XiOyj)P{Xi+l...n,yj+i...m\XiOyj).
1 По-видимому, речь идет о пространственной структуре белка и имеются ввиду ядро
белка и поверхностные петли. — Прим, перев.
4.4. Апостериорная вероятность того, что Xi выравнивается с у3 137
н Е А G А W G н Е Е
0 0 0 0 0 0 0 0 0 0 0
р 0 0 0 0 0 0 0 0 0 0 0
А 0 0 0 5 0 5 0 0 0 0 0
W 0 0 0 0 2 0 20 — ♦ X 12- 4 0 0
Н 0 10- 1 X 2 0 0 0 12 1 18 1 X 22 — 14- 6
Е 0 2 16 — 1 X 8 0 0 4 10 18 ♦ 28 1 X 20
А 0 0 8 21- ♦ X 13 5 0 4 10 20 17
Е 0 0 н 6 Е 13 А 18 G 12 — А 4 W 0 G 4 Н 16 Е 26 Е
0 0 0 0 0 0 0 0 0 0 0
Р 0 0 0 0 0 0 0 0 0 0 0
А 0 0 0 5 0 0 0 0 0 0 0
W 0 0 0 0 2 0 0 0 0 0 0
Н 0 10- ♦ X 2 0 0 0 0 0 0 0 0
Е 0 2 16- 1 X 8 0 0 0 0 0 0 6
А 0 0 8 21 — ♦ X 13 5 0 0 0 0 0
Е 0 0 6 13 18 12 — 4 0 0 6 6
Рис. 4.5. Алгоритм Ватермана-Эггерта, примененный к нашему стандартному
примеру с последовательностями. Вверху: матрица стандартного локального вы-
равнивания, такая же, как на рис. 2.6; внизу: ячейки с наилучшим локальным
совпадением обнулены, так что получено второе наилучшее выравнивание
Первый член является прямой вероятностью вычисленной
выше с помощью алгоритма просмотра вперед. Второй соответствует
обратной вероятности которая вычислена с помощью соответ-
ствующего алгоритма просмотра назад.
Алгоритм: просмотра назад для парных НММ
Начало:
Ьм(п,тп) — Ьх(п,тп) = Ьу (п,тп) = т.
Все 5*(г,т+1), b*(n + l,j) полагаются равными 0.
138
Глава 4
Рекурсия: i = n,..., 1, j = m,..., 1 кроме (n, m);
bM(i, j) = (1 - 25 - т)рХг+1У]+1Ьма + 1, j + 1)
+<5[gx,+l5xG +1, J) + qyj+ibY(i,j +1)];
bx(i,j) = (1 — £ — r)pXt+lyj+1bM(i + 1,J + 1) +eqXt+lbx(i + 1, j)-,
bY(i,j) = (1 — £ — r)pXt+iyi+ibM(i + l,j + 1) + eqyi+IbY(i,j + 1).
Здесь не требуется никакого особого шага завершения, поскольку
нам нужны только значения b*(i,j) для i,j 1.
Теперь мы можем воспользоваться правилом Байеса, чтобы полу-
чить P(xi о yj \х,у) = P(x,y,Xi о yj}/Р(х,у), и можем также получить
подобные значения для апостериорных вероятностей использования спе-
циальных состояний вставки. Рисунок 4.6 демонстрирует результаты
применения этой процедуры к примеру с последовательностями, кото-
рый мы использовали в главе 2.
Миязава [Miyazawa 1994] описывает по сути такой же подход,
и продолжает определять то, что мы называем ’вероятностным вырав-
ниванием’. Определить какое-то выравнивание х и у с помощью поиска
таких i и j, которые максимизируют P(xi<>yj) (с этого момента и далее
мы не будем подробно указывать условия относительно х и у, так как
они всегда будут присутствовать) может показаться очень заманчивым.
Однако, это не гарантирует, что мы получим правильное выравнивание.
Оно может содержать правильные пары (21,71) и (22,7*2), которые про-
тиворечат порядку последовательности, то есть, для которых ii > i2 и
ji < 72. Миязава обращает внимание на то, что если мы ограничимся
парами (2,7), для которых P(xi<>yj) > 0.5, тогда они всегда будут упоря-
дочены, а также будут выравнивать каждый Хг не более чем с одним yj.
В областях, где выравнивание очевидно, оно будет консервативным при
этих условиях. С другой стороны, там, где оно не является очевидным,
например, в областях петель в далеких белках, будут делеции в обеих
последовательностях, там, где нет решительного подтверждения о том,
что отдельные пары остатков могут быть выровнены.
Ожидаемая точность выравнивания
Подход Миязавы обычно дает в качестве результата неполные вы-
равнивания, в котором могут присутствовать значимые участки, для ко-
торых не выполняется P(xi о yj) > 0.5. Хотя эти участки могут быть
4.4. Апостериорная вероятность того, что хг выравнивается с yj 139
Match
н Е А G А W G н Е Е
87 — 0 0 0 0 0 0 0 0 0 0
р 0 24 k 36 — 18 — 7 0 0 0 0 0 0
А 0 0 2 26 15 43 0 0 0 0 0
W 0 0 0 0 0 0 k 85 — 1 0 0 0
н 0 0 0 0 0 0 0 12 73 0 0
Е 0 0 0 0 0 0 0 1 8 k 65 0
А
А 0 0 0 0 0 0 0 0 1 21 0
Е 0 0 0 0 0 0 0 0 0 0 k 86
X insert
н Е А G А W G н Е Е
0 — 62 26 7 0 0 0 0 0 0 0
Р 0 0 22— 32 — 36 0 0 0 0 0 0
А 0 0 0 2 28 42 0 0 0 0 0
W 0 0 0 0 0 0 0 — 72 0 0 0
Н 0 0 0 0 0 0 0 0 3 0 0
Е 0 0 0 0 0 0 0 0 0 0 1 0
А 0 0 0 0 0 0 0 0 0 1 0
Е 0 0 0 0 0 0 0 0 0 0 2
Y insert
н Е А G А W G н Е Е
0 — 0 0 0 0 0 0 0 0 0 0
Р 0 0 0 — 0 — 0 0 0 0 0 0 0
А 0 0 0 0 0 4 0 0 0 0 0 0
W 0 0 0 0 0 0 0 — 0 0 0 0
н 0 0 0 0 0 0 1 0 0 0 0
Е 0 0 0 0 0 0 0 0 12 0 1 64 0
А 0 0 0 0 0 0 0 0 0 0
Е 0 0 0 0 0 0 0 0 0 0 10
Рис. 4.6. Апостериорные вероятности для примера с последовательностями, ис-
пользованного в гл. 2. Три таблицы показывают апостериорные вероятности со-
стояний М, X и Y относительно каждой позиции (z,j). Значения показаны в
процентах, т. е. относительная вероятность, умноженная на 100 и округленная
до ближайшего целого. Показанный путь является путем оптимальной точности
в смысле (4.4)
140
Глава 4
искомыми, но для того, чтобы дать полное выравнивание с максималь-
ной общей точностью, в смысле, указанном ниже, можно использовать
апостериорные вероятности. Сначала мы отметим, что можно посчитать
ожидаемое перекрытие Л(тг) между данным выравниванием тг и путем,
выбранным в соответствии с апостериорным распределением. Это экви-
валентно ожидаемому числу правильных выровненных пар в тг, которое
является естественной мерой общей точности тг.
Л(тг) = ^2
где сумма берется по всем выровненным парам в тг. Для выравнивания
альфа глобина и леггемоглобина с рисунка 2.1(b) Л(тг) = 16.48, или,
в среднем, 0.40 на один выровненный остаток.
Можем ли мы найти выравнивание между двумя последователь-
ностями с высокой точностью при этой новой форме для веса вырав-
нивания? В то время как, возможно, предложенный подход и не дает
наибольшего дискриминационного веса для определения степени род-
ства последовательностей, можно надеяться, что он позволяет получить
более точное выравнивание, в случае, если последовательности явля-
ются родственными. Метод решения этой задачи является на удивление
простым. Мы выполняем обычное динамическое программирование с ис-
пользованием значений веса, заданных апостериорными вероятностями
парных совпадений, без учета количества делеций. Рекурсивные равен-
ства:
A(z,J) = max <
A(i - - 1) + P(xi<>yj)
A(i - 1, j),
A(i,j - 1),
(4-4)
и стандартная процедура обратного хода даст лучшее выравнивание. Яс-
но, что эта процедура будет оптимизировать сумму P(xi,oyj) членов и
подтверждать выравнивание. Интересно, что тот же алгоритм работает
для любого способа вычисления веса делеции. То, что поменяется для
других весов — это сами P^XiOyf) члены, которые получены из стан-
дартных процедур динамического программирования для подсчета веса
в зависимости от схемы, которые были рассмотрены выше.
Путь оптимальной точности для коротких последовательностей, ко-
торые использовались в качестве примера в главе 2, изображен на ри-
сунке 4.6. Замете, что он отличается от пути наибольшей вероятности,
или Витерби пути. Видно, что начальная Р в более короткой последо-
вательности предпочитает выравниваться с Е и не выравниваться с А
4.5. Сравнение парных НММ с FSA для задачи поиска сходства 141
более длинной последовательности, хотя отдельные веса выравнивания
Р с А и с Е одинаковы. Интуитивно понятно, что причина заключается в
том, что выравнивание с Е предлагает больше вариантов того, где может
разместиться следующая деления.
4.5. Сравнение парных НММ с FSA для задачи поиска
сходства
Один из самых важных моментов вероятностного моделирования
состоит в том, что если данные соответствуют выборке, полученной из
модели А/, то, в пределе к бесконечно большому количеству данных,
правдоподобие принимает для М свое максимальное значение, то есть
P(D\M) > P(D |л7), где М — любая другая модель. В частности,
если М имеет набор параметров, таких как переходные и эмиссионные
вероятности для НММ, правдоподобие данных будет максимизировано
при значениях параметров модели, соответствующих данной выборке.
Как следствие, если параметры парной НММ хорошо описывают
статистику пар в родственных последовательностях, то следует исполь-
зовать эту модель с такими значениями параметров для поиска сход-
ства. Если у нас также есть модель /?, которая дает хорошее описание
порождения случайной последовательности, тогда Байесова модель со-
поставления М и R является подходящей процедурой (стр. 63 в главе 2).
Согласно этой философии, мы должны использовать вероятностные мо-
дели для поиска. Однако, большинство используемых в настоящее вре-
мя алгоритмов (глава 2) не оправдывают ожиданий по двум причинам.
Во-первых, они не вычисляют полную вероятность Р(х, у \М) для па-
ры последовательностей, суммируя по всем выравниваниям, а вместо
этого ищут лучшее выравнивание, или путь Витерби. Во-вторых, рас-
сматриваемые в качестве FSA, их параметры порой не могут быть легко
преобразованы в вероятности.
Сначала рассмотрим следствия использования путей Витерби. Лег-
ко показать, что в данном случае, модель, параметры которой подходят
к данным, не обязательно является лучшей моделью для поиска. Рису-
нок 4.7 демонстрирует простой пример НММ. Состояние S порождает
символы с вероятностями qa; S имеет переход в себя с вероятностью а и
может осуществлять переход с вероятностью (1 —а) в следующий блок В
состояний, которые порождают фиксированную строку abac длиной 4
основания до возврата в первоначальное состояние. Вероятность поро-
дить abac из S составляет Р$(abac) = в то время как ве-
142
Глава 4
роятность породить abac из состояния В (начав в S) составляет (1 — а).
Если Ps(abac) > 1 — а, то наиболее вероятный путь для любого набора
данных будет использовать S, так как переход в В имеет слишком ма-
лую вероятность. Тем не менее, наличие в данных большего числа строк
abac, чем ожидалось, отличает результат данной модели от результата
случайной модели, которая порождает символы с вероятностями qa. Со-
поставление моделей с использованием лучшего выравнивания, нежели
чем полной вероятности, не сможет определить источник данных, даже
для больших выборок. Мы можем частично исправить эти недостатки,
изменяя наши параметры. Например, модель сможет определять после-
довательности такого типа, если вероятность перехода в состояние В
возрастет до г, где т > Ps(abac). Однако, тогда каждая abac будет
классифицирована как пришедшая из В, что тоже не верно.
Рис. 4.7. Это FSA порождает последовательности из S с вероятностью qa и
строку abac из блока В в четыре нижних состояния. Если вероятность перехода
в В низкая, наиболее вероятный путь никогда не использует В, даже если в
последовательность включена строка abac
Теперь рассмотрим проблему преобразования FSA для парного вы-
равнивания в вероятностную модель. На рисунке 4.8(a) изображен FSA
для локального выравнивания; он имеет начальное и конечное состоя-
ния, которые порождают неспаренную последовательность с нулевой це-
ной. Поскольку длина этой неспаренной последовательности может быть
произвольной, и поскольку вероятностная модель всегда будет иметь
ненулевой штраф за каждую эмиссию, ни одна фиксированная проце-
дура изменения масштаба не может преобразовать веса этой модели в
4.5. Сравнение парных НММ с FSA для задачи поиска сходства 143
логарифмы вероятностей НММ. С другой стороны, если мы применя-
ем Байесово сопоставление моделей, и если мы определяем случайную
модель R, которая порождает неспаренную последовательность с теми
же вероятностями, которые использует модель локального выравнива-
ния М для начального и конечного невыровненных участков, тогда ло-
гарифм отношения правдоподобия для неспаренной последовательности
будет равен нулю. Тогда мы сможем найти две парные НММ, у которых
логарифм отношения правдоподобия соответствует весам данной FSA,
например, на рисунке 4.8(b). Заметьте, что вероятности переходов здесь
не внушают доверия, поскольку они неявно выражают очень короткие
последовательности. Однако известно, что параметры, предполагаемые
для FSA, работают хорошо. На основании этого мы полагаем, что стан-
дартные параметры установлены эмпирически для того, чтобы ’непред-
намеренно’ скомпенсировать некоторые недостатки алгоритма Витерби
как метода поиска, что показано для простого случая на рисунке 4.8.
Это приводит нас к предположению о том, что вероятностные модели
не могут улучшить стандартные методы выравнивания, если Витерби
используется для поиска по базе данных. Однако, если используется
алгоритм просмотра вперед для получения полного веса независимо от
конкретного выравнивания, то вероятностные модели, такие как парные
НММ, улучшают стандартные методы.
Упражнения
4.4 Покажите, что применение полной вероятностной модели и при-
мера, изображенного на рисунке 4.7, позволяет отличать данные,
порожденные моделью, от случайных данных.
4.5 Сравните использование полной вероятностной модели с использо-
ванием пути Витерби в модели, где вероятность перехода в состоя-
ние В возросла до т такого, что т > Ps(abac).
4.6 Преобразуем модель, положив все эмиссионные вероятности в S
равными одному и тому же значению, 1/А, где А — размер алфави-
та. Разница между этой моделью и случайной моделью с такими же
эмиссионными вероятностями составляет точно число строк abac в
данной выборке. Обладает ли эта модель теми же дискриминацион-
ными свойствами, что и модель полной вероятности?
144
Глава 4
Рис. 4.8. (а) Вычисление FSA с помощью алгоритма локального совпадения.
s(a,b) являются весами для матрицы BLOSUM50. (Ь) Две НММ: модель по-
следовательного выравнивания (вверху) и случайная модель (внизу), у которой
логарифм отношения правдоподобия, такой же, как вес FSA, показанный в (а).
Вероятности раь и qn используются для определения матрицы BLOSUM50
4.6. Дополнительное чтение 145
4.6. Дополнительное чтение
Хотя подробная формулировка парного выравнивания в рамках пар-
ных скрытых Марковских моделей, рассмотренных здесь, не является
стандартной, некоторые авторы рассмотрели эквивалентную полную ве-
роятностную модель. [Bucher & Hofmann 1996] рассматривают поиск с
помощью локальной вероятностной модели, нормированной посредством
статистической суммы. [Bishop & Thompson 1986] представляют род-
ственный алгоритм в контексте эволюционного анализа, направление,
исследованное позже [Thorne, Kishino & Felsenstein 1991; 1992], кото-
рые разработали методы оценки параметров для вероятностных моделей
выравниваний последовательностей ДНК с делециями. Мы обсуждаем
некоторые из этих эволюционно обусловленных моделей позднее, в гла-
ве 8.
[Zuker 1991] описывает метод поиска субоптимальных выравнива-
ний, сходный с [Waterman & Eggert 1987]. Другой подход рассмотрен
в [Barton 1993]. [Mevissen & Vingron 1996] предлагают альтернативный
подход для измерения надежности выравнивания с помощью динамиче-
ского программирования, a [Vingron 1996] дает хороший обзор новых
методов поиска и оценки значимости субоптимальных выравниваний.
Глава 5
Применение профильных НММ к
семействам последовательностей
Пока что предметом нашего рассмотрения были свойства, прису-
щие отдельным последовательностям, такие как CpG-острова в последо-
вательности ДНК, или присущие парному выравниванию. Однако функ-
циональные биологические последовательности объединяют в семейства,
и многие мощные методы анализа последовательностей основываются
на установлении родства отдельной последовательности и целого семей-
ства. Последовательности в семействе по своей первичной структуре
расходятся друг от друга в ходе эволюции либо после дупликации в
геноме, либо в результате спецификации, дающей преимущества отно-
сительно родственных организмов. В обоих случаях они сохраняют ту
же или похожую функцию. Таким образом, причисление последователь-
ности к некоторому семейству и выравнивание ее с другими членами
этого семейства часто позволяет предположить ее функцию.
Если у вас уже есть набор последовательностей, принадлежащих к
некоторому семейству, то для того, чтобы найти новых представителей
этого семейства, вы можете воспользоваться поиском по базе данных,
взяв любую последовательность семейства в качестве запроса. Для боль-
шей полноты можно провести такой поиск для каждой последовательно-
сти семейства. Однако парный поиск по любой, имеющейся в семействе,
последовательности может все равно не найти последовательности, до-
статочно удаленные от всех, имеющихся на данный момент в семействе,
последовательностей. Другой подход к поиску особенностей состоит в
учете всего набора последовательностей. Аналогично, выравнивание по-
следовательностей в семействе может быть значительно улучшено, если
учитывать особенности, сохраняющиеся в каждой последовательности.
Как же мы можем выявлять такие особенности? Тогда как парное
выравнивание отражает взаимосвязи двух последовательностей, множе-
ственное выравнивание может показывать, как между собой связаны
Применение профильных НММ к семействам последовательностей 147
последовательности в семействе. Рис. 5.1 изображает множественное вы-
равнивание семи последовательностей из большого семейства глобинов
(в белковых базах данных можно встретить сотни последовательностей
глобинов). Для каждого белка на этом выравнивании известна простран-
ственная структура, и само выравнивание строилось на основании сопо-
ставления восьми альфа-спиралей консервативного глобинового фолда
(способа укладки), а также сопоставляя некоторые ключевые остатки
последовательностей, такие как два консервативных гистидина (Н), ко-
торые в активном центре взаимодействуют с кислород- связывающей
простеической группой гема.
Видно, что некоторые позиции в выравнивании более консерватив-
ны, чем другие. Вообще говоря, спирали более консервативны, чем пет-
левые участки между ними, и остатки в некоторых позициях практи-
чески неизменны. При отнесении новой последовательности к классу
глобинов было бы правильно убедиться, что такие консервативные осо-
бенности в новом белке также присутствуют. И темой данной главы
будет то, как выявлять и применять такую информацию.
«Логично предположить, что наш подход к консенсусному моделиро-
ванию будет состоять в построении вероятностной модели. В частности,
мы разработаем специальный вид скрытых марковских моделей, хоро-
шо применимых к моделированию множественного выравнивания. Мы
назовем их профильные НММ, что является продолжением идеи стан-
дартных профилей, которые описывают близкородственные структуры
без вероятностной модели и рассматривались ранее для схожих целей
у Gribskov, McLachlan и Eisenberg [1987]. Профильные НММ — это
на данный момент, возможно, самое популярное применение скрытых
марковских моделей в молекулярной биологии [Eddy 1996].
Для целей этой главы мы предположим, что у нас имеется пра-
вильное выравнивание. Для него будет строиться модели, применимые
для нахождения и оценки потенциальных совпадений с новой после-
довательностью. Множественное выравнивание может быть построено
с использованием структурной информации, как в примере с глобина-
ми, или же оно может являться результатом процедуры выравнивания
последовательностей, аналогичной той, которая обсуждается в главе 6.
Данная глава опирается на материалы главы 3 об НММ общего ви-
да. Основные алгоритмы будут описаны снова, но в другой форме, более
подходящей для профильных НММ. Также будут обсуждаться вопросы
подбора оптимальных вероятностных параметров для множественного
выравнивания последовательностей.
148
Глава 5
Helix АААААААААААААААА ВВВВВВВВВВВВВВВВССССССССССС
HBA_HUMAN ---------VLSPADKTNVKAAWGKVGA—HAGEYGAEALERMFLSFPTTKTYEPHF
HBA_HUMAN ---------VHLTPEEKSAVTALWGKV----NVDEVGGEALGRLLVVYPWTQRFFESF
MYG_PHYCA ---------VLSEGEWQLVLHVWAKVEA—DVAGHGQDILIRLFKSHPETLEKFDRF
GLB3_CHITP-----------LSADQISTVQASFDKVKG-----DPVGILYAVFKADPSIMAKFTQF
GLB5_PETMA PIVDTGSVAPLSAAEKTKIRSAWAPVYS—TYETSGVDILVKFFTSTPAAQEFFPKF
LGB2_LUPLU --------GALTESQAALVKSSWEEFNA—NIPKHTHRFFILVLEIAPAAKDLFS-F
GLB1_GLYDI --------GLSAAQRQVIAATWKDIAGADNGAGVGKDCLIKFLSAHPQMAAVFG-F
Consensus Ls.... vaWkv. . g . L.. f . P . F F
Helix DDDDDDDEEEEEEEEEEEEEEEEEEEEE FFFFFFFFFFFF
HBA_HUMAN -DLS-----HGSAQVKGHGKKVADALTNAVAHV D— DMPNALSALSDLHAHKL-
HBA_HUMAN GDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHL---D--NLKGTFATLSELHCDKL-
MYG_PHYCA KHLKTEAEMKASEDLKKHGVTVLTALGAILKK----K-GHHEAELKPLAQSHATKH-
GLB3_CHITP AG-KDLESIKGTAPFETHANRIVGFFSKIIGEL—P---NIEADVNTFVASHKPRG-
GLB5_PETMA KGLTTADQLKKSADVRWHAERIINAVNDAVASM--DDTEKMSMKLRDLSGKHAKSF-
LGB2_LUPLU LK-GTSEVPQNNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG-
GLB1_GLYDI SG---AS---DPGVAALGAKVLAQIGVAVSHL--GDEGKMVAQMKAVGVRHKGYGN
Consensus t ... v..Hg kv. a a...l d . a 1. 1 H
Helix FFGGGGGGGGGGGGGGGGGGG HHHHHHHHHHHHHHHHHHHHHHHHHH
HBA_HUMAN -RVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR------
HBA_HUMAN -HVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH------
MYG_PHYCA -KIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
GLB3_CHITP —VTHDQLNNFRAGFVSYMKAHT—DFA-GAEAAWGATLDTFFGMIFSKM--------
GLB5_PETMA -QVDPQYFKVLAAVIADTVAAG--------DAGFEKLMSMICILLRSAY-------
LGB2_LUPLU —VADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA---
GLB1_GLYDI KHIKAQYFEPLGASLLSAMEHRIGGKMNAAAKDAWAAAYADISGALISGLQS----
Consensus v. fl.................... f . aa. k. . 1 sky
Рис. 5.1. Выравнивание семи глобинов из Bashford, Chothia & Lesk [1987]. Сле-
ва показаны идентификаторы базы данных SWISS-PROT [Bairoch & Apweiler,
1997]. Буквами А-Н над выравниванием обозначены восемь альфа-спиралей.
В консенсусной строке под выравниванием верхним регистром показаны остат-
ки, совпадающие в шести из семи последовательностей, нижним регистром —
остатки, совпадающие в четырех или пяти последовательностях, и точками —
позиции, где совпадают остатки трех последовательностей
5.1. Безделеционная матрица весов
На рис. 5.1 можно заметить одну особенность, которая является
общей для множественных выравниваний белковых семейств, делении
стремятся выстроиться друг под другом, оставляя целые блоки, где ни
в одной последовательности нет ни вставок, ни делений. Мы начнем с
рассмотрения моделей таких безделеционных областей.
В качестве примера рассмотрим спираль Е на рис. 5.1. Естественная
вероятностная модель задается независимыми эмиссионными вероятно-
стями еДа) порождения аминокислоты а в позиции г. В соответствии с
5.2. Добавление состояний вставок и делений 149
этой моделью, вероятность новой последовательности х есть:
L
Р(х\М) = Ц
i=}
где L — это длина блока, в нашем случае 21. Как и в большинстве слу-
чаев, более интересным для нас является отношение этой вероятности к
вероятности х для случайной модели, поэтому для проверки на принад-
лежность к семейству мы будем вычислять логарифмическое отношение
правдоподобия
i=l
Величины log Сг^- ведут себя как элементы матрицы весов s(a, 6), где
вместо аминокислоты b стоит позиция г. Такая конструкция известна
как позиционная матрица весов (PSSM, Position Specific Score Matrix).
PSSM можно использовать для поиска соответствий в последовательно-
сти х большей, чем блок выравнивания, длины. Для этого нужно под-
считать веса Sj для каждой начальной позиции j в последовательности
х от 1 до N - L -I- 1, где L — это длина PSSM.
5.2. Добавление состояний вставок и делеций
Несмотря на то, что PSSM отражают некоторую консервативную
информацию, она не является представлением всей информации о мно-
жественном выравнивании белкового семейства. Нам необходимо каким-
то образом учесть разрывы (т. е. делеции и вставки). Веса набора мо-
делей безделеционных блоков можно скомпоновать, как было сделано,
например, у [Henikoff & Henikoff, 1991] в базе данных BLOCKS. Однако
мы преследуем цель разработать одну вероятностную модель для всего
выравнивания вцелом.
Один вариант — это разрешить разрывы в каждой позиции вырав-
нивания, используя веса делеций 7(0), как для случая парного вырав-
нивания. Однако, при таком подходе снова теряется информация, т. к.
выравнивание сообщает нам, где разрывы более предпочтительны, а где
менее. Мы хотим собрать эту информацию в позиционные веса, ана-
логично тому, как эмиссионные вероятности формировали позиционные
веса замен.
150
Глава 5
Подход, который мы избрали, состоит в построении скрытой мар-
ковской модели (НММ) с повторяющейся структурой состояний, но с
разными вероятностями в каждой позиции. Это позволит нам получить
полную вероятностную модель последовательностей в семействе. Для
начала заметим, что PSSM можно рассматривать как простой НММ,
состоящий из серии одинаковых состояний (которые мы будем называть
состояниями совпадения), соединенных переходами с вероятностью 1.
Выравнивание в этом случае простое, т. к. нет возможности выбора при
переходах. Для состояний совпадения мы переобозначим эмиссионные
вероятности как едд(а).
Далее учтем разрывы. Мы должны описать вставки и делеции от-
дельно. Для разрешения вставок, т. е. фрагментов т, не совпадающих
ни с чем в модели, введем набор новых состояний Ц. Они будут озна-
чать вставку после совпадения остатка в г-й колонке множественного
выравнивания. Ц имеют эмиссионное распределение ед (а), причем это
фоновое распределение qa, так же как при рассмотрении невыровнен-
ных вставок в парном выравнивании. Нам нужны переходы из М, в Д,
кольцевой переход с 17 на себя для описания многобуквенных вставок и
переход обратно из I, в ЛД+i. Так выглядит одно состояние вставки:
Мы будем обозначать состояния вставки ромбиками. Логарифмическая
стоимость вставки есть сумма стоимостей вставочных переходов и по-
рождений исходов. Учитывая то, что ед(а) = gtt, т. е. порождения дают
нулевые логарифмические стоимости, получаем, что вес вставки дли-
ны К есть
logttA/,/, + 1оёаЛЛ/,+1 + (^ -
Можно заметить, что вставки такого типа соответствуют весовой модели
аффинных делеций.
Делеции, т. е. участки множественного выравнивания, не соответ-
ствующие ни одному остатку последовательности х, можно реализовать,
5.2. Добавление состояний вставок и делений
151
например, переходами вперед, перепрыгивающими через несколько со-
седних состояний совпадения:
Однако, для того, чтобы учесть длинные делении, такая модель
потребует большое количество переходов. Вместо этого мы введем мол-
чащие состояния аналогично тому, как описано в параграфе 3.4:
т. к. молчащие состояния не порождают остатков, из них можно полу-
чать целые последовательности между двумя несоединенными состояни-
ями совпадения, соответствующими соседним остаткам последователь-
ности. Стоимость делении при этом будет суммой стоимости перехода
М D, стоимостей дальнейших переходов D D и стоимости окон-
чания D —> М. На первый взгляд это в точности повторяет определение
стоимости вставки, хотя путь на модели отличается. На самом деле пе-
реходы D -+ D могут иметь различные вероятности, тогда как переходы
I —> I внутри одной вставки возвращают нас в одно и то же состояние,
что гарантирует одинаковую цену за них.
Окончательная структура НММ показана на рис. 5.2. В такой форме
(мы назовем ее профильная НММ) модель впервые описана у [Haussler
et al., 1993] и [Krogh et al., 1994]. Мы добавили описанные у них пе-
реходы между вставками и делециями, хотя они маловероятны. Если их
убрать, то это вряд ли сильно изменит оценку совпадения, однако может
создать проблемы при построении модели.
Профильная НММ обобщает парное выравнивание
Мы видели, как стоимость использования делеционных состояний в
профильной НММ отражает аналогичную стоимость в парном выравни-
вании с аффинными делециями. Чтобы лучше понять эту связь, можно
152
Глава 5
Рис. 5.2. Структура переходов в профильной НММ. Состояния вставки обозна-
чены ромбиками, а делеции — кружками
рассмотреть случай, где множественное выравнивание, по которому мы
строим НММ, состоит из одной последовательности. Давайте сравним
рис. 5.2 и рис. 4.2. Если мы обозначим последовательность профиля
за у, то рис. 5.2 станет развернутой версией НММ на рис. 4.2, где поро-
ждения исхода yi соответствуют своей отдельной копии парной НММ.
Состояния Mj соответствуют последовательности состояний совпадения
М, Ij соответствуют копиям X, Dj — копиям Y. Чтобы установить соот-
ветствие на столько, на сколько это возможно, эмиссионные вероятности
емг(а) в состояниях совпадения положим равными рУга/(1уг (что означа-
ет условные вероятности порождения исхода а при условии yi в парном
выравнивании). А для вероятностей переходов пусть верно:
umj, = = 5
и
«дд = аргр,+1 = £
для всех г.
Формально говоря, наша профильная НММ является скрытой мар-
ковской моделью, полученной применением парной НММ на рис. 4.2 к
порождаемой последовательности у как к одной из последовательностей
выравнивания. Поэтому алгоритм Витерби для нахождения оптимально-
го выравнивания последовательности X и профильной НММ аналогичен
алгоритму оптимального выравнивания X и Y на парной НММ, описан-
ному в главе 4. Будет показано, что если мы преобразуем алгоритм к
виду с логарифмическими величинами, то мы придем к формулам (2.16)
для парного выравнивания со стандартными аффинными делениями. Все
5.3. Построение профильной НММ
153
отличия будут связаны только с тем, что начальные (а также конечные)
состояния описаны немного по-разному.
5.3. Построение профильной НММ по
множественному выравниванию
Не смотря на то, что профильные НММ решают тот же класс за-
дач динамического программирования, что мы раньше использовали для
парного выравнивания, мы описываем их в данной главе не для это-
го. Основная идея использования профильных НММ — это то, что в
структуре на рис. 5.2 мы можем установить вероятности переходов и
порождений исходов так, чтобы учесть специфическую информацию о
каждой позиции множественного выравнивания всего семейства в це-
лом. т. е. мы хотим построить модель, представляющую консенсусную
последовательность семейства, а не каждую входящую последователь-
ность отдельно.
Есть несколько различных методов выбора значений параметров на
основании множественного выравнивания последовательностей семей-
ства. Рассмотрим эти методы на примере фрагмента выравнивания гло-
бинов (см. рис. 5.3).
HBA_HUMAN
HBB_HUMAN
MYG_PHYCA
GLB3_CHITP
GLB5_PETMA
LGB2_LUPLU
GLB1 GLYDI
...VGA--HAGEY..
. . . V-NVDEV. .
...VEA—DVAGH..
. . . VKG---D. .
...VYS—TYETS..
...ENA—NIPKH..
...IAGADNGAGV..
Рис. 5.3. Десять колонок множественного выравнивания белковых последова-
тельностей семи глобинов, показанного на рис. 5.1. Колонки, помеченные звез-
дочкой, будут названы «совпадениями» в профильной НММ
Без-вероятностные профили
Впервые модель, похожая на профильную НММ, была описана у
[Gribskov, McLachlan & Eisenberg, 1987]. Они первыми использовали
слово ’профиль’ (см. также [Gribskov, Luthy & Eisenberg, 1990]). Однако
154
Глава 5
за основу они взяли не вероятностную модель, а точно сопоставлен-
ные, зависящие от позиции веса для состояний совпадения и разрыва,
используемые в стандартном динамическом программировании. Они вы-
числяли веса каждой консенсусной позиции как среднее весов замен
по всем остаткам соответствующей колонки множественного выравни-
вания. Например, для остатка а в колонке 1 нашего примера был бы
использован вес
5/7s(V,a) 4- l/7s(F,a) + l/7s(I, а),
где s(a,b) — стандартная матрица замен. Для оценки штрафов за де-
леции в каждой колонке были использованы эвристические выражения,
уменьшающие плату за вставку или делецию в зависимости от самой
длинной делеции, пересекающей колонку множественного выравнива-
ния.
Несмотря на то, что такой способ сбора информации интуитивно
понятен и эффективно использовался многими людьми для поиска но-
вых представителей семейств, он может порождать аномалии. Например,
в выравнивании на рис. 5.3 колонка 1 много более консервативна, чем
колонка 2, но информация в ней будет размазана матрицей замен почти
также как и во второй. Если у нас есть выравнивание из 100 после-
довательностей с цистеином (С) в некоторой колонке, то моделируемое
вероятностное распределение для этой колонки в «среднем» профиле бу-
дет точно таким же, как если бы профиль строился по одной последова-
тельности. Это не соответствует нашему ощущению, что правдоподобие
цистеина должно возрастать с ростом числа содержащих его последова-
тельностей.
В дополнение к этому рассмотрению весов замен, заметим, что и
веса делеций не удовлетворяют ожиданиям. Например, вес делеции для
колонки 6 выравнивания на рис. 5.3 будет таким же как и для колонки 4,
где делеция в пяти из семи последовательностей. Было бы более логично,
чтобы вероятность открытия новой делеции в колонке 4 была больше.
Чтобы разрешить эти и другие проблемы, без-вероятностная модель
корректировалась (см. [Thompson, Higgins & Gibson, 1994b], [Gribskov
& Veretnik, 1996]), и мы вернемся к этому вопросу позже.
Базовая параметризация профильных НММ
Давайте вернемся к профилям на скрытых марковских моделях.
Как и все НММ, они имеют эмиссионные вероятности и вероятности
5.3. Построение профильной НММ
155
переходов. Предположим, что эти вероятности ненулевые. Тогда про-
фильная НММ может моделировать любую последовательность остатков
из заданного алфавита, т. е. НММ задает распределение вероятностей
на всем пространстве последовательностей. Цель процесса параметриза-
ции — сосредоточить распределение на представителях семейства.
Для формирования распределения нам доступны доступны для из-
менения как параметры вероятностей так и размер модели. Оптимальный
выбор этих параметров — отдельная тема для обсуждения. Мы приво-
дим здесь базовые методы из [Krogh et al., 1994]. После глав про поиск
в базах данных и варианты в локальных выравниваниях мы вернемся к
более подробному обсуждению техник подбора параметров.
Выбор размера модели связан с вопросом, каким колонкам мно-
жественного выравнивания должны быть приписаны состояния совпа-
дения, а каким — состояния вставки. Профильная НММ, которую мы
построили по одной последовательности у, имеет состояния совпадения
для каждого остатка yi. Однако, если посмотреть на рис. 5.3, становит-
ся ясно, что консенсусная последовательность этого фрагмента должна
включать восемь остатков, а два остатка, непомеченные звездочками,
должны быть описаны как вставки. Пока для того, чтобы решить, какой
колонке сопоставить совпадения, мы будем пользоваться эвристическим
правилом. Простое правило, которое хорошо работает, состоит в том,
что вставками объявляются колонки, где больше половины символов —
делеции, остальные колонки объявляются совпадениями.
Вторая проблема — это выбор вероятностных параметров. Предпо-
ложим у нас имеется набор независимых выравниваний последователь-
ностей х с нашей НММ. Мы можем оценить параметры, просто исполь-
зуя формулы из параграфа 3.3. Для этого нам нужно подсчитать число
раз, когда задействуется тот или иной переход или порождение исхода
и вычислить вероятности:
_ Ан
akl~^,Akl,
и
Ек(а
где к и I — номера состояний, a^i и — вероятности переходов и
порождений исходов, a Аы и Еь — соответствующие счетчики.
Если в тренировочном наборе очень много последовательностей, то
эти вычисления дадут адекватную оценку вероятностей. Однако, если
156
Глава 5
последовательностей немного, возникают проблемы. Основная пробле-
ма — в том, что некоторые переходы и исходы не встречаются в трениро-
вочном наборе ни разу и, поэтому, будут оценены нулевой вероятностью.
Это означает, что они никогда не будут выбраны в будущем. Пока мы не
использовали ранее известные знания о множественных выравнивани-
ях, как это делали в без-вероятностных методах, где бралась отдельно
построенная матрица замен. Самый простой способ избежать нулевые
вероятности — это добавить к эмиссионным частотам псевдокаунты (как
в главах 1 и 3). Простейший вид псевдокаунтов — это правило Лапла-
са: добавляем к каждому счетчику частоты единицу. Более правильный
способ выбора значений псевдокаунтов и другие подходы для оценки
параметров будут обсуждаться в более полном объеме в параграфе 5.6.
Пример: Параметры НММ, соответствующей рис. 5.3
Предположим, что мы используем правило Лапласа для корректи-
ровки параметров НММ, соответствующей выравниванию на рис. 5.3.
Тогда eM1(V) = 6/27, = 2/27» а елл(а) = V27 Для
любого остатка а кроме V, I и М. Аналогично, а^цм2 — 7/Ю, QMiD2 —
= 2/10 и амгц = 1/Ю (учитывая, что в колонке 1 шесть переходов из
совпадения в совпадение, один переход в состояние делеции и нет вста-
вок). На рис. 5.4 в виде диаграммы показан полный набор параметров
НММ. □
5.4. Поиск при помощи профильных НММ
Одна из основных целей построения профильных НММ — это ис-
пользование их для выявления потенциальной принадлежности к семей-
ству путем отбора значимых соответствий последовательностей и про-
фильной НММ. Мы будем предполагать, что нас интересуют глобальные
совпадения. На практике, как и для парных выравниваний, для поиска
дальних совпадений может оказаться более чувствительным один из ме-
тодов локального выравнивания. Это будет обсуждаться в следующем
параграфе.
Мы можем по-разному вычислять вес совпадения. Можно исполь-
зовать формулы Витерби, получая самое вероятное выравнивание тг* по-
следовательности х и его вероятность Р(т,тг*|7И), или выбрать формулы
просмотра вперед, вычисляя полную вероятность Р(х\М) последователь-
ности х по всем возможным путям.
5.4. Поиск при помощи профильных НММ
157
Рис. 5.4. Скрытая марковская модель, построенная по короткому выравниванию
на рис.5.3 с использованием правила Лапласа. Эмиссионные вероятности пока-
заны в прямоугольниках напротив аминокислот для каждого состояния совпаде-
ния, вероятости переходов изображены толщиной линий. В состояниях вставки
показаны вероятности переходов I —> 7, умноженные на 100. (Рисунок создан
автоматически пакетом SAM)
В обоих случаях при практической оценке потенциальных совпаде-
ний мы хотим руководствоваться логарифмическим отношением правдо-
подобия результирующей вероятности к вероятности х для нашей стан-
дартной случайной модели:
Р(х|/?) = П</х..
Мы приведем версии алгоритмов Витерби и просмотра вперед, разра-
ботанные специально для профильных НММ. Они выдают результат
сразу в виде логарифмических отношений. Стоит заметить, что форма
логарифмических отношений не меняет результат. Мы могли бы вычесть
логарифмические веса случайной модели в конце, однако яснее и эффек-
тивнее делать это сразу. С другой стороны, работая в логарифмических
единицах, мы решаем проблему потери точности, как обсуждалось в
параграфе 3.6.
Формулы Витерби
Пусть V?M(z) — это логарифмический вес лучшего пути при совпа-
дении последовательности и подмодели слева до состояния j. При
158
Глава 5
этом Xi является исходом, порожденным в состоянии Mj. Аналогично
V- (г) — это вес лучшего пути, оканчивающегося исходом , порожденным
в состоянии Ij, a VjD(i) соответствует лучшему пути до состояния Dj.
Тогда мы можем написать:
VA'(i) = log
Vм-
з~-
+ max V-_
V- (г) = log —------------------h max <
I
(г) = max <
1) + loga/i/j-iMj
1) + loga^-,^
, V/ZiG - 1) + logaD,-^//
' Vм (i - 1) + k>gaMjI]
V-(i - 1) + loga/jZj
. У/(г - 1) + logaDj/j;
' VMx(i) + log«A/j 1Dj
V/-i(0 + loga/J_1DJ
. VjD-i{i} + logaDj_1Dj.
Это основные формулы. В обычной ситуации в выражении для V/(г) сла-
гаемое с весом ej (xi) пропадает, т. к. предполагается, что эмиссионное
распределение в состояниях вставки Ij совпадают с фоновым распреде-
лением. Также можно не учитывать переходы D —> I и I -+ D, что уже
обсуждалось.
Обратим внимание на то, как организовать начало и завершение
динамического программирования. Мы хотим разрешить выравниванию
начинаться и заканчиваться в состояниях делении или вставки на слу-
чай, если начало или конец последовательности не соответствует перво-
му или последнему состоянию совпадения. Простейший способ достиг-
нуть требуемого — это переименовать состояние Begin в Mq и положить
VoM(O) = 0 (как это делалось в главе 3). Далее разрешим переходы в /0
и £>i. Аналогично, в конце мы можем собрать все возможные пути, окан-
чивающиеся в состояниях делении и вставки, переименовав состояние
End в ML+1 и использовав для подсчета окончательного веса
верхнюю формулу без эмиссионного слагаемого.
Если сравнить эти рекурсивные выражения с применяемыми для
стандартного делеционного динамического программирования в (2.16),
то после переименования переменных видно, что это один и тот же алго-
ритм, но с весами замен, открытия и продолжения делеций, зависящими
от позиции j в модели.
5.4. Поиск при помощи профильных НММ
159
Алгоритм просмотра вперед
Рекурсивные формулы алгоритма просмотра вперед очень похожи на
формулы Витерби с той лишь разницей, что операция тах() заменена
на сложение. Мы введем переменные Fj(i) и F^i) частичных
логарифмических отношений для полной вероятности аналогично У-*1 (г),
Vj(i) и VjD(i). Рекурсивные отношения выглядят так:
= log ——— + log
exp (Fj’fji - 1)) +
+ai3-xMj exp (FjLji - 1)) +
+aD]_lMj exp (F^Jz - 1))
exp (F}M (z - 1)) +'
F/(?) = log
+ log +aZj/j exp (F/(z - 1))+
FP(i) = log
L+aCj/j exp (F/Jz - 1)) _
ам3^о3 exp (F/Jz)) +
exp (F/.Ji)) + aDj_iDj exp (F^Jz))
Начальные и конечные условия устанавливаются аналогично алго-
ритму Витерби, при этом FoM(0) кладется равным нулю.
Не смотря на то, что выражения кажутся сложными, реальная реа-
лизация операции log(ex + е?у) может использовать подмену функций и
интерполяцию с хорошей точностью и эффективностью.
Альтернативы логарифмическому отношению
В некоторых ранних работах по НММ вместо вычисления весов
логарифмического отношения к случайной модели, использовались про-
сто логарифмированные вероятности последовательностей при условии
модели. Такой вес называют логарифмическим правдоподобием: LL(t) =
= logР(х\М). LL-вес сильно зависит от длины, а значит, при поиске
не достаточно использовать простой порог. Лучше использовать LL, де-
ленный на длину последовательности, но даже это не всегда хорошо,
т. к. зависимость между LL и длиной последовательности не является
линейной (см. пример ниже).
Способ обойти эту трудность — это оценить средний вес и стан-
дартное отклонение как функции длины, а потом для каждой после-
довательности подсчитать, на сколько стандартных отклонений ее вес
отличается от среднего. Это называется Z-скор и также иллюстрируется
ниже.
160
Глава 5
Пример: моделирование и поиск глобинов
По 300 случайно выбранным глобиновым последовательностям бы-
ла построена профильная НММ с помощью итеративной процедуры, т. е.
начиная с невыровненых последовательностей (это будет описываться
в главе 6). При этом использовалась простая корректировка псевдок-
аунтов. Процедура была проделана несколько раз, и в результате была
выбрана модель с наибольшим LL-весом (исп. пакет SAM, версия 1.2,
Hughey & Krogh [1996], с установками по-умолчанию).
Полученная модель была использована для поиска в базе данных
SWISS-PROT (релиз 34; Bairoch & Apweiler [1997]), где около 60 000
белков, с помощью алгоритма просмотра вперед. Для каждой после-
довательности были найдены веса LL и логарифмических отношений.
В качестве нулевой модели мы взяли частоты аминокислот 300 после-
довательностей обучающей выборки. На рис. 5.5 показаны веса всех
глобинов обучающей выборки, всех остальных глобинов и всех осталь-
ных белков с длиной до 300 аминокислот, нормализованные на длину
последовательности1. Последовательности глобинов четко отделяются от
остальных белков за исключением нескольких попадающих в т.н. серую
зону.
Длина белка
500
400
300
200
О
100
0
-100
-200
0 50 100 150 200 250 300
Длина белка
Рис. 5.5. Слева показан LL-вес, нормализованный на длину, как функция от
длины последовательности. Справа показано то же для весов логарифмических
отношений
*Из этих данных были удалены несколько сомнительных глобинов и другие странные
последовател ьности.
5.4. Поиск при помощи профильных НММ
161
Основное различие между ними заключается в вариабельности ве-
сов не-глобинов, которая меньше для логарифмических отношений, и в
этом случае разделение проще. Однако, выбирая для логарифмических
отношений отсечение с порогом ноль, мы можем при поиске потерять
много настоящих глобинов. Это связано с тем, что профильная НММ
не достаточно точна: она сконцентрирована на подмножестве глобинов.
Несмотря на то, что эта проблема может быть решена (что мы позже и
сделаем), можно разработать формальный подход для отделения сигнала
от шума при поиске на основании Z-скоров для каждого нахождения.
Для вычисления Z-скоров не-глобиновых последовательностей по
LL-весам или весам логарифмических отношений строится гладкая кри-
вая (см. Krogh et al. [1994]). Для каждой длины (или небольших участ-
ков длин) оценивается стандартное отклонение, и для всех весов под-
считываются расстояния от гладкой кривой в единицах стандартного
отклонения. Это Z-скор. Результат (снова как функция от длины после-
довательности) показан на рис. 5.62.
Длина белка
Рис. 5.6. Z-скор, вычисленный по LL-весам (слева) и логарифмическим отноше-
ниям (справа)
Длина белка
Видно, что теперь можно подобрать порог, который отделит боль-
шую часть глобинов от остальных последовательностей. Также ясно, что
2Нет никаких аналитических результатов о форме распределения этих весов. Распре-
деление для глобального выравнивания, возможно, не является в точности гауссовским
[Waterman, 1995], но хорошо им апроксимируется. Для локального выравнивания рас-
пределение экстремальных значений может быть более осмысленным (как обсуждалось в
главе 2).
162
Глава 5
веса, основанные на логарифмических отношениях, более уместны для
задачи отделения, т. к. имеют в три раза большее отношение сигнала
к шуму, чем у LL-весов. Причина этого состоит в том, что деление на
случайной модели убирает влияние аминокислотного состава последова-
тельностей. Если этого не делать, то последовательности со схожим с
глобинами составом приобретают больший вес, чем последовательности,
содержащие другие остатки, и это увеличивает вариабельность шума.
Выравнивание
Помимо нахождения совпадений, другое важное применение про-
фильных НММ — это построение выравнивания последовательности и
семейства или, более точно, добавление ее к множественному выравни-
ванию семейства. Это основной предмет рассмотрения следующей главы,
где выравнивание с помощью профильных НММ подробно обсуждает-
ся. Сейчас хочется только отметить, что простое решение — это строить
выравнивание, как путь наибольшего веса (т. е. Витерби путь). Это де-
лается обратным прохождением по переменным v* алгоритма Витерби
в точности так же, как и для парного выравнивания. Т. о. здесь мож-
но применять все методы главы 4, и для исследования вариантов и для
оценки значимости алгоритма.
5.5. Варианты профильной НММ для не-глобального
выравнивания
Мы уже видели, как сильно связаны Витерби-выравнивание после-
довательности по профильной НММ и сравнение двух последовательно-
стей на основе динамического программирования с аффинными делеци-
онными штрафами, описанное в главе 2. Но это означает, что возможно
обобщить все вариации динамического программирования так, чтобы
использовать профильные НММ, включая даже те, которые находят ло-
кальные, повторяющиеся или перекрывающиеся совпадения.
Однако, начиная с главы 2, мы довольно подробно прорабатывали
вероятностные модели. И в этот раз мы хотим аккуратно проверить, что
в результате перехода к локальному алгоритму мы получим правиль-
ную вероятностную модель, т. е. что приписанные каждой последова-
тельности вероятности дадут в сумме Р(х\М) = 1. Наш подход для
достижения этого состоит в задании для последовательности х новой
модели, которая включит исходную профильную НММ вместе с одной
5.5. Варианты профильной НММ для не-глобального выравнивания 163
или несколькими копиями простой самозацикленной модели, описываю-
щие фрагменты невыравниваемой последовательности. Это очень похоже
на состояния вставки, которые мы добавили к исходному профилю. Мы
назовем их состояниями побочных моделей, т. к. они моделируют после-
довательности, побочные относительно профильного совпадения.
Модель для локального выравнивания (стиль Смита-Ватермана)
выглядит так:
Состояния побочной модели показаны как темные ромбики. Необходимо
заметить, что тогда как эмиссионные вероятности для новых состоя-
ний все также qa, вероятности переходов мы вынуждены задать новые.
Петлевые вероятности на побочных состояниях должны быть близки
к 1, т. к. они соответствуют длинным фрагментам последовательности.
Давайте зададим их равными (1 — т/). Также можно видеть, что мы ис-
пользуем молчащие состояния, показанные темными кружками.
Следующая проблема состоит в определении вероятностей перехо-
дов из побочных состояний в различные начальные точки модели. Один
из вариантов — положить их равными т]/Ь. Другой вариант — сопо-
ставить началу модели большую вероятность. В пакете HMMER для
профильных НММ [Eddy, 1996] началу профиля по-умолчанию сопо-
ставляют Z//2, а остальным позициям — ?y/(2(L—1)), тем самым поощряя
старт в начале модели.
Если вся вероятность приписана первому состоянию модели, то это
заставит модель выделять только целые копии профильной НММ, не
разрешая перекрытий. Это может быть полезно, когда, например, НММ
представляет белковый домен, который должен присутствовать целиком
либо отсутствовать. Однако, чтобы учесть такой редкий случай как по-
164
Глава 5
теря первого остатка, можно разрешить переход из побочного состояния
в состояние делеции, как показано на рисунке:
Ясно, что перебирая различные комбинации переходов и вероятно-
стей, мы можем получать большое количество моделей, потенциально
пригодных в разных условиях. Последний пример похожий на первую
модель локальных совпадений:
позволяет повторять совпадения с частью профильной модели, как вари-
ант алгоритма повторения из главы 2.
Надо понимать, что различные варианты структуры и приписанных
вероятностей отражаются не только на видах допустимых совпадений,
но также и на весе. Более правильные распределения переходов будут
давать больший вес при нахождении правильного совпадения, а значит,
предпочтительнее проектировать модель, отражающую те виды правиль-
ных совпадений, которые мы ожидаем.
Упражнения
5.1 Покажите, что если случайная модель та же, что и в главе 4 (два
состояния, зацикленные на себя с вероятностью (1 — ту), где ту такая
5.6. К ВОПРОСУ ОБ ОЦЕНКЕ ВЕРОЯТНОСТЕЙ 165
же, как в побочных моделях), то модель локального выравнивания
соответствует равенствам (2.9).
5.2 Объясните причины всех расхождений.
5.6. К вопросу об оценке вероятностей
Как и обещалось выше, сейчас мы вернемся к более детальному
обсуждению вопроса об оценке параметров. Не смотря на то, что на-
ше обсуждение в основном будет сфокусировано на эмиссионных ве-
роятностях, аналогичные методы можно применять и для вероятностей
переходов. Целью является описание самих методов. Более подробное
описание математических вопросов об оценке вероятностей по выборке
дается в главе 11 (стр. 418).
Самый прямой подход для оценки параметров состоит в нахождении
наибольшего правдоподобия для оцениваемых параметров. Мы немного
изменим обозначения, используемые ранее. Имея наблюдаемые частоты
Cja остатка а в позиции j выравнивания, мы можем оценить наибольшее
правдоподобие для параметров емДл):
= (5.2)
Как обсуждалось ранее, проблема оценки состоит в том, что если нет
наблюдаемых реализаций некоторого исхода, то его вероятность будет
оценена как ноль. И это довольно частая ситуация. Например, в первой
колонке выравнивания на рис. 5.3 присутствуют только У, I и F. Одна-
ко, возможно, что для других последовательностей глобинов в этой по-
зиции встретятся другие аминокислоты. Самый простой способ решения
этой проблемы — это добавление псевдокаунтов к наблюдаемым счетчи-
кам Cja. Далее мы вначале более подробно обсудим подход, основанный
на псевдокаунтах, а потом опишем более сложные альтернативы.
Простые псевдокаунты
Очень простой и часто используемый метод псевдокаунтов — это
добавление ко всем счетчикам константы, что исключает нулевые веро-
ятности. Если константа — единица, как в примере, описанном выше,
166
Глава 5
это называют «правилом «Лапласа». Немного более замысловатый метод
состоит в добавлении величин, пропорциональных фоновому распреде-
лению:
емэ (а) =
Cja “Ь Aqa
CJa' +
где Cja — реальные счетчики, а А — это вес, приходящийся на псевдок-
аунты в единицах счетчиков. Значения А, близкие к двадцати, хорошо
работают для белковых выравниваний.
Отличительной чертой такой регуляризации является то, что в ситу-
ации нехватки данных, т. е. когда реальные счетчики малы в сравнении
с А, ем/а) будут примерно равны qa. С другой стороны, когда имеется
достаточно данных, эффект регуляризации почти пропадает, и (а)
примерно равны решению наибольшего правдоподобия. Т.о. на этом ин-
туитивном уровне псевдокаунты имеют большое значение.
Добавляя псевдокаунты, мы как бы пополняем выравнивание неко-
торыми воображаемыми данными в соответствии с нашими общими зна-
ниями о белках. Это делается, чтобы учесть все случаи, которые могли
бы произойти. Т.о. псевдокаунты соответствуют априорной информации
о белковых семействах, не связанной с конкретными данными для се-
мейства в виде выравнивания. Эти рассуждения можно формализовать
в рамках байесовской науки. Байесовское равенство говорит нам, как
соединить данные, D с априорным распределением по параметрам Р(0),
чтобы получить апостериорное распределение по 0, которое мы можем
максимизировать или усреднить и использовать как лучшую оценку па-
раметров:
= wm
k 1 7 Р(£>)
В нашем случае параметрами являются вероятности модели. Опи-
санный выше метод псевдокаунтов соответствует в данном байесовском
контексте введению априорного распределения Дирихле с параметрами
аа = Aqa (это изложено более подробно в главе 11).
Смеси Дирихле
Проблема простых псевдокаунтов состоит в том, что в сравнении
с методами на матрицах замен, вектором псевдокаунтов можно описать
только очень простое априорное знание. По этой причине для хорошей
оценки параметров нам необходимо большое количество данных по вы-
равниваниям. Практика показывает, что в этом случае для хорошего
5.6. К ВОПРОСУ ОБ ОЦЕНКЕ ВЕРОЯТНОСТЕЙ
167
отделения моделируемого семейства выборка должна достигать пятиде-
сяти последовательностей. Для того, чтобы включить в априорные ве-
роятности больше информации, Браун (Brown et al. [1993]) предложил
использовать смесь распределений Дирихле. Идея состоит в том, что
должно быть несколько различных наборов псевдокаунтов
соответствующих разным видам областей в выравниваниях, при этом
ctf соответствуют Aqa из предыдущего примера. Один набор может опи-
сывать области внешних петель, другой — области маленьких остатков
и т.д. Имея счетчики cja, мы вначале оценим, насколько каждое апри-
орное распределение предпочтительно (на основании того, как хорошо
оно описывает данные), а затем соединим их вклады в соответствии со
следующими апостериорными вероятностями:
емДа) = ^Р(к\с,)
к
Cja + «а
Sa' cia' + Ola'
где P(k\cj) — апостериорные коэффициенты смеси. Мы будем счи-
тать их по байесовскому правилу:
P(k\Cj) =
pkP(cj\k)
Sv Pk'P(cj\k'y
где pk — это априорные вероятности каждого компонента смеси, P(cj\k)
— это вероятность данных, при соотнесении их с компонентом к. Равен-
ство для P(cj\k) имеет пугающий вид, но фактически является простым
для вычисления:
Р(С |М = (^а^а)!Г(ЕдС>а+^) Г^Х)
ПаХ ПаГ(С>а+а*) ПаГХ)’
где Г(т) — гамма-функция, стандартная функция на действительных
числах, связанная с факториалом для целых чисел. Для более деталь-
ного понимания этой тематики нужно обратиться к главе 11, где также
описывается построение распределений «^’-компонентов смеси.
При использовании этого подхода для хорошего соответствия про-
фильной НММ и выравнивания достаточно, чтобы обучающая выборка
составляла 10-20 последовательностей [Sjolander et al., 1996].
168
Глава 5
Смеси на матрицах замен
Альтернативный подход использования смесей Дирихле состоит в
расширении псевдокаунтов в одиночной формулировке Дирихле, исполь-
зуя матрицу замен. Этот подход не является теоретически хорошо обос-
нованным, но является интуитивно понятным эвристическим методом,
соединяющим свойства методов без-вероятностных профилей и псевдок-
аунтов Дирихле.
Первым шагом является преобразование матричных элементов
в условные вероятности Р(6|а). Если предположить, что мат-
ричные элементы являются логарифмическими отношениями, как в гла-
ве 2, то s(a, b) = log(P(b, a)/qaqb)y что тоже, что и log(P(6|a)/P(6)),
т. е. P(b\a) = qbes(a'bV Фактически мы можем извлекать значения Р(6|а)
из настоящей матрицы весов s(a, 6), зная фоновые вероятности qa (см.
далее).
Имея условные вероятности Р(6|а), мы можем генерировать псев-
докаунты следующим образом. Пусть fja — это вероятности наиболь-
шего правдоподобия, полученные из счетчиков, т. е. fja = Cja/Cja' •
Используя эти значения, мы установим следующие величины псевдок-
аунтов:
aja — А fjbP(a\b),
ь
где А — это положительная константа, аналогичная используемой для
простых псевдокаунтов [Tatusov, Altschul& Koonin, 1994; Claverie, 1994;
Henikoff& Henikoff, 1996]. Далее мы используем равенство, похожее на
(5.3), для подсчета параметров модели:
Нет обоснованной статистической интерпретации таких псевдокаун-
тов, но идея вполне логична: аминокислота i пополняет псевдокаунт j
пропорционально присутствию в колонке и вероятности ее замены на
аминокислоту j. Формула интерполирует приемы выравнивания и пра-
вило наибольшего правдоподобия. Вклад матрицы замен доминирует в
случае небольшого числа последовательностей (особенно если А 1),
а если величины счетчиков большие (более точно, сумма Cj А), пара-
метры приближаются к оценкам наибольшего правдоподобия.
Есть разные варианты выбора константы А. Например, у Lawrence
et al. [1993] использовано А = 1, но на практике это дает слишком сла-
бый эффект. Claverie [1994] предложил А = min (20,1V), а в Henikoff &
5.6. К ВОПРОСУ ОБ ОЦЕНКЕ ВЕРОЯТНОСТЕЙ 169
Henikoff [1996] было предложено А = 5R, где R — это число различ-
ных типов аминокислот, наблюдаемых в колонке (т. е. это количество
индексов а, для которых с?а > 0).
Извлечение Р(Ь\а) из произвольной матрицы
Даже если матрица весов не строилась, как матрица лога-
рифмических отношений, но выполнены определенные условия, все рав-
но возможно найти множитель А такой, что Xs(a, b) довольно хорошо
отражают логарифмические отношения [Altschul, 1991]. Нахождение га-
рантировано при условии, что матрица является отрицательно опреде-
ленной, т. е. Habqaqbsfa, 6) < 0, и в ней имеется хотя бы один положи-
тельный элемент.
Нашей целью является нахождение для которых верно:
х»-6) =
При этом гаь можно воспринимать как вероятность пары а, Ь. Это равен-
ство довольно просто преобразуется к вероятностям, выраженным через
элементы матрицы замен, гаъ = дадьехр(А«(а, 6)). Будучи вероятностя-
ми, гаь дадут в сумме единицу. Т.о. нам нужно найти такую, что
f(X) = ^qaqbeXs^ -1=0. (5.4)
а,Ь
Одно решение — это А = 0, но ясно, что это не то, что нам нужно.
Два условия, выполнение которых мы потребовали вначале, гарантиру-
ют, что есть еще одно положительное решение этого уравнения (см.
упражнения).
Искомое значение А называется натуральным множителем матрицы
замен. Такая вероятностная интерпретация матрицы замен приводит к
понятию энтропии матрицы Habhab ^og(rab/qaqb), которое является по-
лезным при описании и сравнении матриц замен [Altschul, 1991].
Упражнения
5.3 Используя условие отрицательной определенности, покажите,
что /(А) отрицательно при достаточно малых А. Подсказка: посчи-
тайте /'(0)’ производную /(А) при А = 0.
170
Глава 5
5.4 Используя второе условие, что имеется хотя бы одно положительное
s(a,b), покажите, что /(А) становится положительным, для доста-
точно больших А.
5.5 Окончательно, покажите, что вторая производная /(А) положитель-
на, и используя это вместе с предыдущими упражнениями, сделайте
вывод, что существует одно и только одно значение А, удовлетворя-
ющее (5.4).
Оценка, основанная на предковой последовательности
Есть более обоснованный и прямой способ учитывания информации
матрицы замен при оценке вероятностей НММ, чем способ, описанный
выше. Этот подход не использует псевдокаунты. Вместо этого предпола-
гается, что все наблюдаемые последовательности получены независимо
из общего предка и проводить оценку для остатков, находящихся в дан-
ной позиции общего предка (а также для апостериорного распределения
вероятностей того, какой остаток в этой позиции был). Это значит, что
мы можем оценить вероятности наблюдения каждого остатка в новом,
не входящем в обучающую выборку, потомке.
Предположим, что у нас есть обучающие последовательности хк
с остатком Ту в колонке j выравнивания (надо заметить, что в этой
к • к
нотации Xj не является j-m остатком последовательности хК, если в
выравнивании она имеет разрывы).
Нам снова нужны условные вероятности Р(Ь\а), получаемые по мат-
рице замен. Пусть остаток в общем предке будет yj. Тогда мы можем
вычислить апостериорные вероятности того, что yj = а, используя бай-
есовское правило:
P(yj = a\alignment) =
'Еа'Яа' Пк
(5-5)
Заметьте, что нам нужно знать априорное распределение для остатков в
общем предке, в качестве которого мы взяли qa, т. к. это наше фоновое
распределение вероятностей для аминокислот в отсутствие дополнитель-
ной информации.
Теперь для новой последовательности мы можем вычислить эмис-
сионные вероятности НММ как предсказанные вероятности
ед/Да) = ^2 = alignment). (5.6)
а'
5.6. К ВОПРОСУ ОБ ОЦЕНКЕ ВЕРОЯТНОСТЕЙ
171
Проблема этого подхода состоит в том, что как мы уже говори-
ли, разные колонки сильно различаются по консервативности. На самом
деле это одно из свойств, которые мы хотим собрать при построении
НММ по выравниванию. Однако использование одной матрицы замен
означает фиксацию процента сходства. Как уже обсуждалось в главе 2,
матрицы обычно строятся сериями и различаются по уровню внутренней
консервативности. Примерами служат матрицы РАМ [Dayhoff, Schwartz
& Orcutt, 1978] и BLOSUM [Henikoff & Henikoff,1992]. Следовательно,
мы можем значительно улучшить методику в (5.5) и (5.6), если введем
оптимизацию по выбору матрицы из серии. При этом для очень кон-
сервативных колонок должны использоваться консервативные матрицы,
такие как РАМЗО, а для очень изменчивых колонок должны применять-
ся далекие матрицы, такие как РАМ500.
Как же мы будем выбирать оптимальную матрицу? Естественный
прием — максимизировать правдоподобие наблюдаемых данных
(5.7)
а к
где t — параметр серии матриц (эволюционное время). Также здесь воз-
можно применить байесовский подход, задав априорное распределение
по Z, скомбинировав его с (5.7) по байесовскому правилу для получения
апостериорного распределения для t и подставив все в (5.6). Однако это
может потребовать значительно большего вычислительного времени.
Подход наибольшего правдоподобия, зависимого от времени, до-
вольно близок к методу ’эволюционных весов’ в пакете PROFILE
[Gribskov & Veretnik, 1996]. Однако метод эволюционных весов оце-
нивает отдельно эволюционное время t для каждой потенциальной ами-
нокислоты предка, а также подтягивает веса в зависимости от набо-
ра исходных вероятностей. Также методы данного параграфа довольно
сильно связаны с обсуждаемыми позже в главе 8, где будут строиться
филогенетические деревья с использованием методов наибольшего прав-
доподобия.
Проверка методов введения псевдокаунтов
Все методы, упомянутые выше, проверялись различными способами.
Прямые проверки, в которых строился профиль и далее использовался
для поиска, проводились у Henikoff & Henikoff [1996]. Лучшим методом
был назван метод, основанный на матрице замен (5.6), где А = 5R, как
172
Глава 5
обсуждалось ранее. Регуляризатор на смесях Дирихле оказался вторым
с небольшим отрывом. Другие тесты дают другие результаты [Tatusov,
Altschul & Koonin, 1994; Karplus, 1995], так что не ясно, какой метод
лучше, и возможно, что это зависит от приложения и деталей реализа-
ции, таких как компоненты смесей или используемая матрицы замен.
Интересный метод для проверки разных регуляризаторов был пред-
ложен у Karplus [1995]. Вместо запуска большого количества поисков
по базе данных, он задал следующий вопрос3: на сколько хорошо рас-
пределение аминокислот может быть приближено на основании малень-
кой выборки? Из большого числа толстых выравниваний (база данных
BLOCKS, Henikoff & Henikoff, 1991) были отобраны колонки. Давайте
представим, что у нас есть маленькая выборка размера п со счетчика-
ми sa из колонки с полными счетчиками Са- По счетчикам sa мы можем
посчитать вероятности es(a) других символов, которые могут присут-
ствовать во всей колонке (мы использовали индекс s, чтобы показать,
что оценки зависят от подвыборки 6-). Для этого применим один из ме-
тодов, описанных выше. Мы также можем оценить вероятности других
символов напрямую по частотам, с которыми они встречаются во всех
колонках базы данных, а также вероятность P(s\C) получить s в колон-
ке С (используя мультиномиальное распределение). Эта оценка выгля-
дит так:
р/ IX 12с-колонки Р(я\С)Са
ws> Ec_^IQI<T
где |С| означает число символов в колонке С. F(a|s) может быть по-
считана только для п не больше 5, но это как раз самые интересные
случае, т. к. для маленьких выборок регуляризация наиболее подверже-
на ошибкам. Далее мы можем использовать относительную энтропию
-SaP(a|s) loges(a), чтобы сравнивать идеальную вероятность P(a\s) с
выдаваемой регуляризатором. Суммируя по всем подвыборкам s разме-
ра п, получаем
ЕТ1 = ^2 p(s) j , (5-8)
s,|s|=n \ а /
где P(s) — вероятность получить подвыборку s, усредненная по всем
колонкам базы данных. Она может быть посчитана так: P(s) =
= ScP(.s|C)|C|/Ec|C|.
3Во втором издании страница была переписана.
5.7. Построение оптимальной модели
173
Карплус предположил, что хороший регуляризатор должен миними-
зировать Еп. Он показал, что некоторые сложные регуляризаторы, опи-
санные выше, дают в результате величину, близкую к оптимальной, при-
чем Еп была довольно маленькой при п 5. Конечно, нам прежде всего
интересен поиск по базе данных, и никто не гарантировал, что регуля-
ризатор, показывающий минимальное Е„, будет действительно лучшим
для поиска. В исходной базе данных выравниваний типичные значения
сходства скорее всего будут отличатся от тех, что будут результатом
поиска нашей НММ.
Подход Карплуса может использоваться для оценки свободных па-
раметров в различных методах, описанных выше, например общее число
псевдокаунтов А из (5.3). Для любого значения А мы можем посчи-
тать Еп либо напрямую по базе данных колонок, либо используя какое-
нибудь случайное разыгрывание. По идее мы можем посчитать градиент
относительной энтропии по А, а далее найти значение А, минимизирую-
щее эту среднюю энтропию, используя либо методы градиентного спуска
[Press etl al, 1992], либо другие методы оптимизации. В принципе это
можно сделать для любого размера подвыборок п, получая параметры,
зависящие от и.
5.7. Построение оптимальной модели
Когда мы впервые обсуждали параметризацию профильных НММ,
мы отметили, что помимо оценивания вероятностных параметров, необ-
ходимо решить, какие колонки выравнивания соответствуют состояниям
вставки, а какие — состояниям совпадения. Назовем этот процесс по-
строением модели. Раньше мы описали простую эвристику, но мы можем
принимать решения более правильно. Можно использовать эффектив-
ный алгоритм динамического программирования, который одновременно
с поиском вероятностных параметров будет находить сопоставления для
колонок, максимизирующие апостериорную вероятность модели.
В рамках теории профильных НММ предполагается, что выровнен-
ная колонка символов соответствует либо исходам, порожденным одним
и тем же состоянием совпадения, либо исходам одного и того же со-
стояния вставки. Это значит, что мы можем пометить, какие колонки
приходят из состояний совпадения и таким образом задать архитекту-
ру профильной НММ и пути состояний для всех последовательностей
выравнивания (см. рис. 5.7). В помеченных колонках символы соот-
ветствуют состояниям совпадения, а разрывы — состояниям делеций.
В непомеченных колонках символы соответствуют состояниям вставки,
174
Глава 5
а разрывы игнорируются. Счетчики для переходов между состояниями и
для символьных исходов формируются по пути состояний и далее могут
использоваться для оценки вероятностей одним из методов предыдуще-
го параграфа. Нужно заметить, что при такой процедуре подбора мо-
дели предполагается, что множественное выравнивание корректно, т. е.
приписанные пути состояний имеют вероятность один, а все остальные
пути — вероятность ноль. Следующая глава освещает вопросы одновре-
менного выравнивания и подбора модели.
(а) Множественное выравнивание:
X x . X
bat A G - - - C
rat A - A G - C
cat A G - A A -
gnat - - A A A c
goat A G - - - c
1 2 . 3
(Ь) Архитектура профильной НММ:
Рис. 5.7. В качестве примера построения модели по выравниванию приведено ко-
роткое множественное выравнивание ДНК (а) с тремя колонками, помеченными
сверху иксами. Эти три колонки соответствуют позициям 1-3 архитектуры мо-
дели (Ь). Соответствие колонок и позиций модели определяет счетчики исходов
символов и переходов между состояниями, по которым рассчитываются вероят-
ностные параметры
Всего существует 2L способов пометить L колонок выравнивания,
а значит 2L различных профильных НММ, из которых нужно выбрать
одну. Есть по крайней мере три возможности задать разметку. Ручное
(с) Подсчет наблюдаемых
исходов/переходов
позиции модели
0 1 2 3
/А - 4 0 0
состояния / С 0 0 4
совпадения G - 0 3 0
\т - 0 0 0
/ А 0 0 6 0
состояния / С 0 0 0 0
вставки \ G 0 0 1 0
\т 0 0 0 0
/М-М 4 3 2 4
/ M-D 1 1 0 0
М-1 0 0 1 0
состояния ' / /1-М 0 0 2 0
исходов I-D 0 0 1 0
\Ы 0 0 4 0
D-M - 0 0 1
\ D-D - 1 0 0
\ЕИ_ - 0 2 0
5.7. Построение оптимальной модели
175
задание, когда пользователь помечает колонки выравнивания руками,
и это, возможно, самый простой способ дать пользователю возможность
определить архитектуру модели конкретного выравнивания. Вторая воз-
можность — эвристическое конструирование, где при маркировании ко-
лонок используется специальное правило. Например, колонка объявляет-
ся отмеченной, если доля разрывов в ней меньше определенного порога.
Третья возможность — это MAP-построение, при котором динамиче-
ским программированием определяется наибольший апостериорный вы-
бор. Этот алгоритм мы сейчас опишем.
МАР: приписывание совпадений-вставок
Алгоритм MAP-построения рекурсивно вычисляет величины Sj, ко-
торые определяют логарифмические вероятности оптимальной модели
для части выравнивания слева от помеченной колонки J, включая колон-
ку. Sj вычисляется по меньшим подвыравниваниям, оканчивающимся на
колонках i (i < J), прибавлением к Si суммарной логарифмической ве-
роятности переходов и порождений для колонок между i и j. Связанные
вероятностные параметры оцениваются «на лету» по счетчикам, отра-
жающим то, что колонки i и j помечены, а колонки между ними, если
таковые имеются, не помечены.
Счетчики переходов и порождений части выравнивания, ограничен-
ной маркированными колонками i и j, не зависят от того, как были
помечены колонки левее i и правее j, а значит тут можно использовать
рекурсию динамического программирования, т. к. в рекурсии рассматри-
ваются только помеченные колонки, то счетчики переходов и порожде-
ний не являются не зависимыми от разметок соседних колонок; одно
состояние вставки может соответствовать более чем одной колонке вы-
равнивания.
Например, пусть 7^ означает суммарную логарифмическую вероят-
ность всех переходов по состояниям между помеченными колонками i
и j. Мы можем вычислить по наблюдаемым счетчикам переходов сху
и вероятностям аху\
T'ij = Ст/у log (1ху •
х,у£М ,D,I
Счетчики переходов сху формируются по частичным путям состоя-
ний, образованным маркированием i и j. Например, если в некоторой
176
Глава 5
последовательности присутствует разрыв в колонке г, 5 остатков в ко-
лонках г + 1,— 1 и остаток в колонке J, то мы должны распознать
это как один переход делеция-вставка, 4 перехода вставка-вставка и
один переход вставка-совпадение. Вероятности переходов аху вычисля-
ются по сху обычным образом, например, задействовав априорные члены
Дирихле аху (или на самом деле любую априорную информацию, не за-
висящую от разметки снаружи г,... ,J):
СХу 4" <%ху
а-г у ~ . •
2^у С-ГУ + аху
Пусть Mj означают аналогичные логарифмические вероятности
символьных исходов, порожденных в состоянии совпадения в колонке Д
a 1 — то же, но для исходов, порожденных в состоянии вставки
в колонках г + 1,..., j - 1 (при j - i > 1). Теперь мы можем привести
алгоритм.
Алгоритм: MAP-построение модели
Инициализация:
So = 0,A1l+i =0.
Рекурсия: для j = 1,..., L + 1:
Sj = max Si + 'Tij -T A4j -T J/y-i-ij-i T- A;
aj = argmaxSj 4- + Mj 4- 4- A;
Обратный ход: начиная c j — crL+1, пока j > 0:
Помечаем колонку j как состояние совпадения;
> = <т7. <
Далее по размеченному выравниванию строится профильная НММ.
Дополнительный член А означает штраф, используемый для предпочте-
ния моделей с меньшим количеством состояний совпадения. В байесов-
ских терминах А — логарифмическая априорная вероятность пометки
каждой колонки, подразумевающая простое, но адекватное экспоненци-
ально убывающее априорное распределение длин модели.
При некоторой аккуратности при реализации, этот алгоритм требует
<9(L) памяти и <9(L2) времени, где L — длина выравнивания.
5.8. Взвешивание обучающей выборки
177
5.8. Взвешивание обучающей выборки
Тема, которую мы пока совсем не затрагивали — это взвешива-
ние последовательностей при оценке параметров. Типичной для вырав-
ниваний является ситуация, когда некоторые последовательности очень
близки друг к другу. Интуитивно понятно, что часть информации в этих
последовательностях является для них общей, а значит, мы не должны
давать им влиять на оценочный процесс так же как одна последователь-
ность, далекая от всех остальных. Для крайнего случая, когда две по-
следовательности совпадают, ясно, что они должны получить половину
веса остальных последовательностей, так что суммарный эффект будет
таким, как если бы у нас была одна из них. Говоря в терминах статисти-
ки, проблема состоит в том, что имеющиеся у нас примеры чаще всего
не образуют хорошую случайную выборку на всех последовательностях,
образующих семейство; предположение о независимости не верно. Что-
бы правильно действовать в такой ситуации, можно воспользоваться
одним из множества способов приписать последовательностям веса. В
принципе любое такое взвешивание можно применять в комбинации с
методами предыдущих параграфов, связанными с подбором параметров
и структуры модели.
Простые схемы взвешивания, получаемые по дереву
Многие подходы взвешивания основаны на построении дерева род-
ства последовательностей, т. к. последовательности в семействе связа-
ны эволюционным деревом, довольно естественным было бы попытаться
восстановить это дерево и использовать его при оценке независимых
частей последовательностей, уменьшая вес последовательностей, толь-
ко недавно разошедшихся. Построение в полном объеме филогенетиче-
ских деревьев обсуждается в главах 7 и 8, а также в следующей гла-
ве про множественные выравнивания последовательностей. Для наших
конкретных целей интересные детали метода скорее всего не так важны,
поэтому мы будем предполагать, что у нас есть дерево, связывающее по-
следовательности; длины его ветвей отражают относительный процент
расхождения для каждого ребра в дереве.
Одна из самых интуитивно простых схем взвешивания [Thompson,
Higgins & Gibson, 1994b] может быть описана так. У нас есть дерево,
сделанное из провода постоянной толщины, к корню которого приложено
напряжение. Все листья имеют нулевой потенциал и потоки, текущие
из них, измеряются и берутся в качестве весов. Ясно, что в сильно
178
Глава 5
отделенных частях потоки будут меньше, так что веса имеют правильные
свойства. Их можно считать по правилу Кирхгофа. Например, давайте
рассмотрим дерево на рис. 5.8 и обозначим поток и напряжение в узле п
за 1п и Уп, соответственно, т. к. константный множитель не отразится на
вычислениях, можно положить сопротивление равным времени на ребре.
Далее найдем У5 = 2Л = 2Z2, V6 = 2Л + 3(Л +12) = 513 и У7 = 814 =
= 513 + 3(Д + 12 + 1з). Теперь у нас есть три уравнения, связывающие
четыре потока, что дает нам пропорцию Ц : /2 : /3 : Ц = 20 : 20 : 32 : 47.
Рис. 5.8. Слева — дерево последовательностей с длинами ветвей. Справа —
соответствующие величины ’потоков’ и ’напряжений’, используемые в подходе
Кирхгофа для взвешивания последовательностей (см. текст)
Другая замечательная и простая идея была предложена у Gerstein,
Sonnhammer & Chothia [1994]. Их алгоритм обрабатывает дерево с ли-
стьев, увеличивая веса. Вначале вес последовательности кладется рав-
ным длине (времени) ребра, находящегося непосредственно над ее ли-
стом. Теперь пусть достигнут узел п. Ребро над п имеет время tn, и
это время разделяется по весам всех последовательностей на листьях
ниже п, причем добавки к весам пропорциональны самим весам. Фор-
мально, добавка Awz к весу равна
Wi
Awi = tn
2—/листья (к) ниже (п)
(5.9)
Та же операция применяется вплоть до корня.
5.8. Взвешивание обучающей выборки 179
Видно, что это простой и эффективный алгоритм. Например, веса
для дерева на рис. 5.8 вычисляются следующим образом: изначально
веса установлены в длины ребер у листьев, иц = w2 = 2, w3 = 5 и
W4 = 8. Ребро длиной 3 над узлом 5 разделяется пополам между wi
и w2, прибавляя к каждому 3/2, так что теперь wi = w2 = 2 + 3/2 =
= 3.5. Над узлом 6 имеется ребро длиной 3, разделяемое по узлам 1, 2
и 3 в отношении 3.5 : 3.5 : 5, что дает нам wi = w2 = 3.5 + 3 * 3.5/12,
a w3 = 5+3*5/12. Учитывая, что = 8, мы получаем иц : w2 : : W4 =
= 35 : 35 : 50 : 64. Несмотря на то, что эти веса похожи на полученные по
правилу Кирхгофа, методы противоположны по смыслу, т. к. для дерева
с двумя листьями, у которых ребро одного листа длиннее ребра другого,
более длинное ребро получит меньший вес по Кирхгофу, но больший вес
по (5.9).
Корневые веса по гауссовским параметрам
Еще одна точка зрения на веса состоит в том, что они должны от-
ражать влияние листьев на корневое распределение. Altschul, Carroll &
Lipman [1989] показали, что эту идею можно формализовать. Они взяли
за основу алгоритм ’обрезки’, используемый для непрерывных парамет-
ров [Felesenstein, 1973]. Вместо отдельных членов алфавита у нас есть
непрерывная действительная переменная, например вес организма. В ро-
ли матрицы замен выступает плотность вероятности, что одно значение х
этой переменной будет заменено другим, у. Простой пример такой плот-
ности — это гауссовское распределение, где вероятность х —> у вдоль
ребра с временем t есть ехр—(т — у)2/(2сг2^). Алгоритм ’обрезки’ стро-
ится в точности, как и для конечного алфавита, только с интегралами
вместо конечных сумм [Felsenstein, 1973]4.
Алгоритм строит в корне дерева гауссовское распределение для
неизвестного параметра, среднее которого линейно зависит от значений
х^ параметров в листьях, т. е. у, = ^WiXi. Altschul, Carroll & Lipman
[1989] предложили использовать Wi в качестве весов, т. к. они представ-
ляют влияние каждого листа на корень дерева.
4Исторически, непрерывный вариант появился раньше, и Felsenstein описал алгоритм
обрезки для параметров с действительными значениями. В указанной статье он учитывает
распределения параметров на каждом листе, т. е. среднее и отклонение каждого организма.
Он обрывочно дает определение ковариации между значениями для различных листьев.
Не очень ясно, говорит он, как считать ковариацию между коровами и кошками. Для
белков, имеющих в выравнивании много фрагментов соответствия, вычисление корреляции
в принципе допустимо.
180
Глава 5
Рис. 5.9. Дерево, описанное в тексте при построении гауссовских весов
Пример: веса Altschul-Carroll-Lipman для трехлистного дерева
Чтобы продемонстрировать, как строятся веса, рассмотрим на
рис. 5.9 простое трехлистное дерево, где лист i имеет значение Xi. Рас-
пределение вероятностей в узле 4 выглядит так
(я? Я?1) (-С Я7 2 )
Р(х на узле 4|Li,L2) = Kie 2tl e 2t2 ,
где Ki — нормализующая константа. Можно переписать это как
X'l — У2Х2)2
Р(х на узле 4|Li, L2) = Kie 2tl2 ,
где V! = t2/(t1 + f2), v2 = + t2), a fi2 = M2/(*i + *2). Если
бы мы рассматривали только двухлистное дерево с корнем в узле 4,
то среднее корневого распределения было бы равным // = щхх + и2х2,
а веса были бы щ и v2. Возвращаясь к нашему трехлистному дереву,
можно убедиться, что распределение в узле 5 выглядит так
(з/-^з)2 г (х-У1Х1-У2Х2)2 (х-у)2
Р(у на узле 5|Ь1,£2,£з) = К2е 2t:i / е 2ti2 е 2t4 dx,
где К2 — нормализующая константа, а интеграл взят по всем возможным
значениям в узле 4 (это точный эквивалент суммы по всем возможным
5.8. Взвешивание обучающей выборки
181
предковым остаткам для дискретного распределения). Это стандартный
интеграл, после взятия которого получаем
(х— WiXi — W2X2— W3X3)2
Р(у на узле 5|Li, L2, — К3е 2tl23 ,
где Кз — нормализующая константа, а £123 = + й(£1 + £2)/^, при
Q = tit2 + (£3 + й)(^1 + t2)- Среднее распределения величины у, т. е.
корневого распределения, равно
fl = W1X1 + W2X2 + W3T3,
где wi = t2t3/Q w2 = w3 = tit2 + f4(fi + t2)/Sl. Это есть, следо-
вательно, веса Altschul-Carroll-Lipman для дерева с тремя листьями.
Взвешивание с помощью многогранников Вороного
Также есть весовые схемы, не связанные с деревьями. Один такой
подход основан на образах последовательностей из семейства, лежащих
в «пространстве последовательностей». Вообще говоря, некоторые по-
следовательности могут образовывать кластеры, другие образы сильно
удалены. Философия схемы Вороного [Sibbald & Argos, 1990] предпола-
гает, что такая неуравновешенность отражает эффекты разыгрывания,
в том числе и разыгрывания, выбираемого естественным отбором при
выборе определенной филогении. Более полный проход по всем возмож-
ным последовательностям белкового семейства должен породить плос-
кое распределение в некоторой области. Чтобы скомпенсировать пусто-
ты, мы хотим сопоставить последовательностям веса, пропорциональные
пространству вокруг них.
Если бы пространство последовательностей было бы двумерным или
даже еще меньшей размерности, то мы могли бы воспользоваться стан-
дартными методами вычислительной геометрии, чтобы разделить про-
странство на области вокруг точек выборки. Стандартный подход со-
стоит в соединении пар соседних точек и построении их срединных
перпендикуляров. Соединяя срединные перпендикуляры в точках их пе-
ресечений, получаем многоугольники (для двух измерений), названные
«диаграммой Вороного» [Preparata & Shamos, 1985]. Многоугольники
имеют свойство, что они содержат все точки, которые ближе к данной
точке выборки, чем к другим.
Пространство последовательностей, конечно, является конструкци-
ей высокой размерности, для которой геометрия Вороного трудно отоб-
ражаема и трудно вычислима. Однако мы можем применить лежащий
182
Глава 5
в ее основе принцип при разыгрывании случайных последовательностей
в пространстве последовательностей и проверки, к какому члену семей-
ства последовательности лежат ближе всего. Трюк состоит в разыгры-
вании. Оно осуществляется выбором в каждой позиции выравнивания
остатка равномерно из наблюдаемых в этой позиции во всех последо-
вательностях. Если ni штук из таких случайных последовательностей
оказываются ближе всего к г-му члену семейства (дробя счетчик при
равной удаленности), то мы определим г-й вес как rii/^2knk.
Веса наибольшей дискриминации
Другой независимый подход к взвешиванию берет начало из пере-
формулированного основного тезиса построения модели [Eddy, Mitchison
& Durbin, 1995]. Нас интересует не столько максимизация правдоподо-
бия последовательностей в семействе или даже апостериорная вероят-
ность, сколько умение правильно оценить, является ли последователь-
ность членом семейства или нет. т. е. нам интересна вероятность
Р(М |т) =
Р(х\М)Р(М)
Р(х\М)Р(М) + Р(х|Я)(1 - Р(М)) ’
где х — последовательность семейства, М — модель семейства, которую
мы подбираем, R — наша альтернатива, случайная модель не входящих
в семейство последовательностей, Р(М) — априорная вероятность при-
надлежности новой последовательности к семейству. Имея последова-
тельности хк из обучающей выборки, мы хотим максимизировать веро-
ятность правильной классификации этих последовательностей, которая
равна
D =
к
но не ЦР(хк\М) как обычно принято в подходах наибольшего правдо-
подобия. Мы называем D дискриминацией модели на наборе последо-
вательностей хк. Максимизация D приведет к улучшению качества на
далеких или сложных членах семейства. Последовательности, которые
классифицировать просто, будут иметь Р(М\х), близкую к единице; из-
менение параметров, увеличивающее правдоподобие Р(х\М), несильно
отразится на D. С другой стороны увеличение правдоподобия для по-
следовательностей с маленькой Р(М\х) может дать ощутимый эффект.
Это приводит нас к тому, что значения параметров, максимизирую-
щие D, будут также максимизировать взвешенный вариант правдоподо-
бия с весами, пропорциональными 1 — которые означают веро-
5.8. Взвешивание обучающей выборки
183
ятности неправильной классификации последовательности г. Эту связь
можно продемонстрировать так. Рассмотрим функцию у = ех/(К + ех).
Для нее верно следующее:
dlogy _ 1 _ х
дх К + ех
Если мы положим х = \og(P(x\M)/P(x\R)), которое есть логариф-
мическое отношение правдоподобий для последовательности х, то у =
= Р(М\х). Т.о. точка максимума log D будет максимизировать и взве-
шенную сумму логарифмических отношений правдоподобия, где веса
есть 1 — P(M\xt). т. к. случайная модель фиксирована, это эквивалентно
максимизации взвешенного логарифмического правдоподобия модели М.
Это означает, что критерий наибольшей дискриминации является систе-
мой взвешивания.
Однако эта система отличается от других тем, что ее веса опреде-
ляются в некотором циклическом виде; они зависят от подбираемой мо-
дели. При использовании весов по методу наибольшей дискриминации,
должен применяться итеративный подход: в модели задается начальный
набор весов, после чего можно вычислять Р(М\х), а значит и новые
веса, т. е. после этого можно переопределить модель. Итерации продол-
жаются пока наблюдаются изменения. Такая итерационная процедура
оценки похожа на вариант ЕМ-алгоритма, используемого для подгонки
параметров НММ по набору неразмеченных последовательностей.
Обучение наибольшей дискриминации имеет большое преимуще-
ство, состоящее в том, что мы делаем упор на распознавание наиболее
отдаленных последовательностей при каждой итерации по оптимизации
модели. С другой стороны, эта цель может приводить к проблемам. Если
одна из обучающих последовательностей классифицируется неправиль-
но, то поправка, необходимая для придания ей хорошего веса, может
нарушить качество истинных членов класса. Более того, эта же про-
блема остается для всех схем взвешивания: неправильно распознанные
последовательности обычно самые дальние в любом дереве, построенном
по обучающей выборке.
Веса наибольшей энтропии
В конце мы опишем два метода взвешивания, основанные на попыт-
ке ввести статистическую основу настолько, на сколько это возможно.
Предположим, что в колонке i множественного выравнивания име-
ется kia остатков типа а, а разных типов остатков — Для того, чтобы
184
Глава 5
сделать распределение равномерным настолько, на сколько это возмож-
но, введем веса: для А;-ой последовательности вес 1/(тгкгхк). Оценка
наибольшего правдоподобия дает распределение pia = kia/(jnikia) =
= 1/mi, т. е. все остатки, присутствующие в колонке будут иметь одина-
ковую вероятность. Чтобы продемонстрировать идею, представим, что у
нас есть 10 последовательностей с остатком А в колонке и одна последо-
вательность с В, так что невзвешенные частоты А и В есть с а = 10/11
и св = 1/11. Веса последовательностей есть wi = W2 = . •. = wio =
= 1/(2 х 10) = 0.05, a wn = 1/(2 х 1) = 0.5, что дает эффект уравнивания
полного веса А и В.
В предыдущем абзаце рассматривалась только одна колонка. За-
давая только один вес на последовательность, конечно, не возможно
достичь равномерного распределения сразу во всех колонках выравни-
вания. Однако при усреднении по всем колонкам можно надеяться, что
веса останутся более-менее осмысленными. Веса усредняются так:
= 52 —£—,
“ mikixk
а потом нормализуются в сумме до единицы. Такая схема взвешивания
была предложена в [Henikoff & Henikoff, 1994].
Помимо усреднения есть и другой подход, комбинирующий инфор-
мацию из разных колонок, имеющий простое теоретическое обоснова-
ние. Стандартной мерой равномерности распределения является энтро-
пия (11.8), которая тем больше, чем распределение равномернее. Дей-
ствительно, не трудно убедиться в том, что веса, выбранные выше на
основе одной колонки, максимизируют энтропию распределения pia для
этой колонки. НММ задает распределение вероятностей на последова-
тельностях, и, следовательно, естественное расширение взвешивания од-
ной колонки на всю последовательность состоит в максимизации энтро-
пии полного распределения НММ [Krogh & Mitchison]. Мы увидим,
что это неожиданным образом имеет большую связь со взвешиванием
наибольшей дискриминации.
Давайте рассмотрим все сайты в выравнивании без делеций. Про-
суммируем энтропии каждого сайта и выберем веса, максимизирующие
сумму; нам нужно максимизировать J2-Hj(w.) + где Hi(w.) =
= а рга — взвешенная частота остатка а в г-ом сайте,
вычисленная, как и раньше.
Предположим для примера, что у нас есть последовательности х1 —
= AFA, х2 = ААС и .т3 = DAC. Сопоставив им веса wi, W2 и W3 соответ-
5.8. Взвешивание обучающей выборки
185
ственно, получим для каждого сайта следующие энтропии:
= -(wi + w2) log(wi + w2) - w3 logw3,
Я2(М = -Wi log W[ - (w2 + w3) log(w2 + w3),
Я3(?п.) = -Wi log Wi - (w2 + w3) log(w2 + w3).
Мы предполагаем, что сумма весов равна единице, и поэтому при
поиске максимума энтропии мы должны учесть множитель Лагранжа
A Приравнивая производные Я1(м.)+ Я2(м.) + Я3(м.) + A
к нулю, получаем (wi+w2)w2 = (гщ +w2)(w2 +w3)2 = w3(w2 + w3)2, что
дает нам wi = w2 = 0.5, w3 = 0. Эти веса уравнивают частоты в каждой
колонке, что и было нашей целью. Если вам кажется странным нуле-
вой вес, то заметьте, что остаток в каждом сайте последовательности
х2 также присутствует и в одной из остальных. Интуитивно это значит,
что х2 лежит между х1 и х3 (фактически, х2 может являться предко-
вой последовательностью для х1 и х3 в эволюционной реконструкции,
основанной на парсимонии; см. главу 7).
Другая точка зрения на результат в этом примере состоит в том, что
если мы положим вероятности модели равными взвешенным частотам,
как если бы применялась процедура взвешенного наибольшего правдо-
подобия, то результирующая модель сопоставляла бы одинаковые веро-
ятности всем исходным последовательностям х1, х2 и х3. Это выглядит
довольно логичным, учитывая точку зрения, что все последовательно-
сти обучающей выборки должны расцениваться как одинаково хорошие
члены семейства. Фактически Krogh & Mitchison [1995] показали, что
процедура наибольшей энтропии сопоставляет последовательностям обу-
чающей выборки веса так, что либо последовательности некоторого под-
множества (или все) имеют ненулевые веса и одинаковые вероятности
в результирующей модели, либо они имеют большую вероятность и ну-
левой вес. Первые могут рассматриваться как граничные точки области
в пространстве последовательностей, занятой семейством, тогда как по-
следние являются внутренними точками.
Более того, эмпирические проверки показывают, что веса наиболь-
шей энтропии являются оптимальными в том смысле, что они макси-
мизируют наименьший из весов последовательностей обучающей выбор-
ки [Krogh & Mitchison, 1995]. Это абсолютный вариант критерия весов
наибольшей дискриминации, описанного в предыдущем параграфе; в от-
личие от простого взвешивания, больше внимания уделяется самому
слабому совпадению, и все усилия по подгонке параметров направлены
186
Глава 5
на увеличение его веса, пока он не достигнет уровня остальных после-
довательностей. Помимо достижения желанной цели, взвешивание наи-
большей энтропии характеризуется наличием той же проблемы, что и
критерий наибольшей дискриминации: если последовательность чужая,
то метод все равно будет считать ее полноправным членом семейства,
возможно ухудшая качество на других последовательностях. В допол-
нение можно заметить, что отказ от всей информации для некоторых
последовательностей может оказаться нежелательным.
Упражнение
5.6 По каждому из методов взвешивания, описанных выше, кроме весов
Вороного (для которого требуется случайное разыгрывание после-
довательностей) посчитайте веса для следующих последовательно-
стей: AGAA, ССТС, AGTC.
5.9. Дополнительное чтение
В течение 1980-х развивались методы PSSM поиска новых предста-
вителей семейств последовательностей. При этом матричные значения
не всегда получали точную вероятностную основу. Для методов исполь-
зовались и другие названия, например весовые матрицы [Staden, 1988].
Последние статьи, связанные с PSSM, включают Stormo [1990]; Henikoff
& Henikoff [1994]; Tatusov, Altschul & Koonin [1994].
Без-вероятностные варианты профилей известны уже довольно дав-
но и за время их существования было предложено и проверено множе-
ство методов. Thompson, Higgins & Gibbson [1994b] и Luthy, Xenarios &
Bucher [1994] сообщают об улучшении при взвешивании последователь-
ностей с использованием матрицы BLOSUM [Henikoff & Henikoff, 1992]
вместо матрицы РАМ. В работе Thompson, Higgins & Gibson [1994b]
улучшен анализ делеций.
Было предложено несколько способов встраивания в профили струк-
турной информации. В Luthy, McLachlan & Eisenberg [1991] построены
матрицы замен для шести отдельных структурных сред: три элемента
вторичной структуры ct-спираль, /3-слой и «другое» скомбинированы с
классификацией внутри/снаружи, основанной на доступности аминокис-
лоты для растворителя. Другие варианты структурных профилей можно
найти у Bowie, Luthy & Eisenberg [1991]; Wilmanns & Eisenberg [1993].
Впервые профильные HMM были применены у Baldi et al. [1994],
который использовал их для моделирования глобинов, иммуноглобули-
5.9. Дополнительное чтение 187
нов и киназ. В этой работе был использован особый метод подгонки,
основанный на градиентном спуске, см. также Baldi & Chauvin [1994].
После этого похожая базовая структура профильной НММ стала при-
меняться в нескольких различных областях. Была создана библиоте-
ка НММ для всех крупных белковых семейств под названием PFAM
[Sonnhammer, Eddy & Durbin, 1997]. Библиотека регулярных выраже-
ний PROSITE [Bairoch, Bucher & Hofmann, 1997] была пополнена чем-
то похожим на профильные НММ [Bucher et al. 1996]. Профильные
НММ также находят применение и для ДНК. Например, они использу-
ются для поиска представителей семейства ДНК-повторов на больших
последовательностях.
Глава 6
Методы множественного
выравнивания последовательностей
В главе 5 мы предполагали, что осмысленное множественное вы-
равнивание последовательностей уже было дано как начальная точка
для построения профильных НММ. Теперь мы рассмотрим, что такое
осмысленное выравнивание и как его строить из невыровненных после-
довательностей.
Множественное выравнивание чаще всего необходимо строить, на-
чиная с отдельных последовательностей. Биологи формируют множе-
ственные выравнивания высокого качества вручную на основании экс-
пертного знания об эволюции белковых последовательностей1. Это зна-
ние приходит с опытом. Важными факторами являются: колонки вырав-
ниваний особого рода, такие как сильно консервативные остатки или
спрятанные гидрофобные остатки; влияние вторичной или третичной
структуры, как, например, чередование гидрофобных и гидрофильных
колонок в бета-слоях; ожидаемые шаблоны вставок и делеций, которые
тяготеют к чередованию с консервативными блоками. Более того, фи-
логенетические отношения между последовательностями накладывают
ограничения на различия в колонках и в шаблонах делеций. Выравни-
вания РНК описываются похожими правилами, но, в дополнение, ча-
сто очень сильно ограничены моделью вторичной структуры, которая во
многих случаях может быть установлена по первичной (глава 10).
Ручные множественные выравнивания очень трудоемки. Методы ав-
томатического множественного выравнивания — предмет длительных и
обширных исследований в вычислительной биологии. Вообще говоря,
любой автоматический метод должен уметь сопоставлять выравнива-
ниям веса так, чтобы лучшее множественное выравнивание получало
больший вес. При этом необходимо аккуратно отделить задачу оценки
веса множественного выравнивания от задачи поиска среди возможных
*А также представлений о структуре у функции белков.
6.1. ЧТО ОЗНАЧАЕТ МНОЖЕСТВЕННОЕ ВЫРАВНИВАНИЕ
189
множественных выравниваний лучшего. Разработчики программ множе-
ственного выравнивания склонны делать акцент больше на алгоритме
выравнивания, нежели чем на функции оценки веса. Однако сейчас уже
должно становиться ясным, что функция оценки — вопрос первой необ-
ходимости в вероятностном моделировании, тогда как алгоритмы явля-
ются вторичными, хотя тоже важными. Одна из наших целей в веро-
ятностном моделировании — вложить в процедуру оценки веса столько
экспертных эволюционных критериев, сколько возможно.
Поэтому наше обсуждение автоматического выравнивания мы на-
чнем с аккуратного рассмотрения того, что же мы хотим сделать. Мы
посмотрим, что означает множественное выравнивание, структурно и
эволюционно. Затем мы рассмотрим вопрос, связанный с тем, как лучше
всего превращать биологический критерий в числовую схему веса так,
что программа будет распознавать хорошее выравнивание. Мы проверим
различные подходы, используемые в различных программах множествен-
ного выравнивания. В заключение мы опишем чисто вероятностные под-
ходы множественного выравнивания, основанные на профильных НММ,
которые описывались в главе 5, сравним их сильные и слабые стороны
с остальными методами. Мы ограничимся в основном белковыми вы-
равниваниями, однако большую часть обсуждения можно без проблем
приложить к выравниваниям ДНК (выравнивание РНК более сложно
в силу спаривания оснований и, как следствия, корреляций дальнего
действия и не обсуждается вплоть до главы 10).
6.1. Что означает множественное выравнивание
В множественном выравнивании гомологичные остатки последова-
тельностей в наборе выравниваются вместе в колонки. Слово «гомоло-
гичные» понимается сразу в двух значениях, в структурном и в эво-
люционном. В идеале остатки в выровненной колонке занимают схо-
жие положения в пространственной структуре, а с другой стороны все
они разошлись от общего предкового остатка. Для примера на рис. 6.1
показано построенное вручную множественное выравнивание 10-ти по-
следовательностей из суперсемейства иммуноглобулинов. Известна кри-
сталлографическая структура одной из последовательностей (Itlk, тело-
кин). Структура телокина и выравнивание его с другими родственными
последовательностями выявили консервативные характеристики фолда
(способа укладки) суперсемейства иммуноглобулинов группы I, вклю-
чая восемь консервативных бета-тяжей и несколько ключевых остатков,
таких как два совершенно консервативных цистеина в «Ь» и «Г» тяжах,
190
Глава 6
которые образуют дисульфидные мостики в ядре уложенной структуры.
Остальные девять последовательностей из различных молекул адгезии
нейронных клеток были вручную подравнены к Itlk, опираясь на эти
экспертные знания.
structure:
Itlk
AXO1_RAT
AXO1_RAT
AXO1_RAT
AXO1_RAT
NCA2_HUMAN
NCA2_HUMAN
NCA2_HUMAN
NRG—DROME
NRG_DROME
consensus:
structure:
Itlk
AXO1_RAT
AXO1_RAT
AXO1_RAT
AXO1_RAT
NCA2_HUMAN
NCA2_HUMAN
NCA2_HUMAN
NRG_DROME
NRG_DROME
consensus:
. . . aaaaa . . . bbbbbbbbbb.cccccccCCC. . C..ddd
ILDMDWEGSAARFDCKVEGY—PDPEVMWFKDDNP--VKESR-----HFQ
RDPVKTHEGWGVMLPCNPPAHY-PGLSYRWLLNEFPNFIPTDGR--HFV
ISDTEADIGSNLRWGCAAAGK—PRPMVRWLRNGEP—LASQN-----RVE
RRLIPAARGGEISILCQPRAA—PKATILWSKGTEI — LGNST---RVT
----------------------------------------------DINVGDNLTLQCHASHDPTMDLTFTWTLDDFPIDFDKPGGHYRRAS
RTPQEFREGEDAVIVCDWSS — LPPTIIWKHKGRD--VILKKDV--RFI
PSQGEISVGESKFFLCQVAGDA-KDKDISWFSPNGEK-LTPNQQ--RIS
IVNATANLGQSVTLVCDAEGF—PEPTMSWTKDGEQ—IEQEEDDE-KYI
RRQSLALRGKRMELFCIYGGT—PLPQTVWSKDGOR—IQWSD-----RIT
PQNYEVAAGQSATFRCNEAHDDTLEIEIDWWKDGQS—IDFEAQP—RFV
----------------------------------------------G. . + . + .C.+.+ .W.+.++
ddd-----eeeeee......fffffffff-------444949444494 •
IDYDEEGNCSLTISEVCGDDDAKYTCKAVNSL....GEATCTAELLVET
SQTT................................GNLYIARTNASDLGNYSCLATSHMDFSTKSVFSKFAQLNLAA
VLA.................................GDLRFSKLSLEDSGMYQCVAENKH.........GTIYASAELAVQA
VTSD................................GTLIIRNISRSDEGKYTCFAENFM........GKANSTGILSVRD
AKETI...............................GDLTILNAHVRHGGKYTCMAQTVV.......DGTSKEATVLVRG
VLSN................................NYLQIRGIKKTDEGTYRCEGRILARG......EINFKDIQVIVNV
WWNDDSSSTLTIYNANIDDAGIYKCWTGEDG.....SESEATVNVKIFQ
FSDDSS..............................QLTIKKVDKNDEAEYICIAENKA.......GEQDATIHLKVFA
QGHYG...............................KSLVIRQTNFDDAGTYTCDVSNGVG......NAQSFSIILNVNS
KTND................................NSLTIAKTMELDSGEYTCVARTRL........DEATARANLIVQD
....................................L.+. . + . . .+.+.Y.C.+ . + . + . .
Рис. 6.1. Множественное выравнивание доменов суперсемейства иммуноглобули-
нов группы I, взятое из Harpaz &Chothia [1994]. Слева показаны идентификато-
ры баз данных PDB или SWISS-PROT. Восемь бета-тяжей структуры телокина
(Itlk) показаны в верхней строке (от а до g; С означает тяж с’). Выравненные
колонки описаны в нижней строке буквами (если все остатки совпадают) или
плюсами (если колонка очень консервативна)
Кроме случая сильно совпадающих последовательностей, невозмож-
но однозначно установить позиции, гомологичные структурно или эво-
люционно, и построить единственное «верное» множественное выравни-
вание. Так как структура белка тоже эволюционирует (хотя и медлен-
нее, чем последовательность), мы не ждем, что две белковые структуры
с разными последовательностями будут полностью наложимы друг на
друга. Chothia & Lesk [1986], проверяя попарные структурные выравни-
6.1. ЧТО ОЗНАЧАЕТ МНОЖЕСТВЕННОЕ ВЫРАВНИВАНИЕ
191
вания для некоторых белковых семейств, обнаружили, что для пары бел-
ков, разошедшихся, но достаточно гомологичных (30% сходства) обычно
только 50% отдельных остатков в двух структурах наложимы друг на
друга (рис. 6.2). Семейство глобинов, часто используемое как «типич-
ное» белковое семейство в вычислительных работах, является на самом
деле исключительным: для сильно разошедшихся последовательностей
структура сохраняется почти полностью. Однако определение «струк-
турной наложимости» является субъективным и может различаться у
разных экспертов.
1,0
* О
О °
□
О
О О
*
0,8
А
0,6
□
А
0,4
0,2
О глобин
□ цитохром с
О церин протеаза
А основной им му н но глобул ин
* другие
0,0 I—
100
80
60
40
Частота совпадения (%)
20
0
Рис. 6.2. Доля структурно наложимых остатков в попарных выравниваниях, как
функция от совпадения последовательностей; построено по данным из Chothia &
Lesk [1986]. Структурные выравнивания «Другие» включает попарные выравни-
вания двух дигидрофолатных редуктаз, двух лизоцимов, пластоцианина/азурина
и папаина/актинидина
В принципе всегда существует однозначное правильное эволюцион-
ное выравнивание, даже если разошлись структуры. Однако на практике
построить правильное эволюционное выравнивание чаще всего бывает
сложней, чем структурное. Поскольку структурное выравнивание имеет
192
Глава 6
независимый источник информации (наложение кристаллографических
или ЯМР структур), а эволюционная история остатков в семействе по-
следовательностей не может быть установлена не из какого независи-
мого источника; она должна восстанавливаться по выравниванию. Так
как последовательность тяготеет к более быстрому расхождению, чем
структура, то белки, невыравниваемые структурно, чаще всего не вы-
равниваются и по последовательности.
Таким образом, наша возможность найти единственно верное вырав-
нивание зависит от родства выравниваемых последовательностей. Вы-
равнивание очень похожих последовательностей будет, вообще говоря,
однозначным, такие выравнивания не представляют для нас большого
интереса, их может построить простая программа. Для случаев наше-
го рассмотрения (т. е. семейства белков, имеющих в среднем возможно
только 30% попарного сходства) мы должны помнить, что нет объек-
тивного способа узнать однозначное правильное выравнивание. Обычно
небольшое подмножество ключевых остатков может быть выровнено од-
нозначно для всех последовательностей в семействе, что почти не за-
висит от расхождения последовательностей [Harpaz & Chothia, 1994].
Структурные элементы ядра также тяготеют к сохранению, а значит,
могут быть выровнены; но остальные области становятся невыравнивае-
мыми из-за структурной эволюции и расхождения последовательностей.
При оценке качества множественного выравнивания необходимо по-
мнить об этих соображениях. Требуя от выравнивающей программы по-
строения в точности такого же выравнивания, как, например, ручное
структурное, мы столкнемся при работе с тем же непониманием, т. е.
как структурно выровнять невыравниваемые области. Вместо этого мы
должны сосредоточить внимание на подмножестве колонок, соответству-
ющих ключевым остаткам и структурным элементам ядра, которые га-
рантированно выравниваются [McClure, Vasi & Fitch, 1994].
6.2. Вес множественного выравнивания
Наша весовая система должна принимать во внимание как мини-
мум две важные особенности множественных выравниваний: (1) факт,
что некоторые позиции более консервативны, чем другие, т. е. позици-
онно зависимый вес; и (2) факт, что последовательности не являются
независимыми, а наоборот, имеют родство по филогенетическому дере-
ву. Поэтому идеальный способ оценки веса множественного выравни-
вания состоял бы в задании полной вероятностной модели эволюции
молекулярной последовательности. При наличии правильного филогене-
6.2. Вес множественного выравнивания
193
тического дерева вероятность множественного выравнивания вычисля-
ется как произведение вероятностей всех эволюционных событий, необ-
ходимых для получения этого выравнивания после прохождения проме-
жуточных предковых последовательностей, помноженное на априорную
вероятность корневой предковой последовательности. Такая эволюцион-
ная модель была бы очень сложной. Вероятности эволюционных событий
зависели бы не только от эволюционного времени вдоль каждой ветви
дерева, но и от зависящих от позиции структурных и функциональных
ограничений, налагаемых природой таким образом, что ключевые остат-
ки и структурные элементы сохраняются. При такой модели, выравнива-
ния, имеющие высокую вероятность, были бы хорошими в структурном
и эволюционном смысле.
К сожалению, у нас нет достаточного количества данных для пара-
метризации такой сложной эволюционной модели. Нужно ввести упро-
щающие допущения. В этой главе мы уделим внимание работающим
приближениям, которые частично или совсем не используют филогене-
тическое дерево при оценке позиционно зависимых весов структурно
совместимых остатков. В главах 7 и 8 мы изучим более точные модели
филогенетических деревьев и молекулярной эволюции, большая часть
которых является скорее независимым, чем зависимым от позиции при-
ближением.
Почти все методы выравнивания предполагают, что отдельные ко-
лонки выравнивания статистически независимы. Такая весовая функция
может выглядеть так:
S(m) = G + ^S(mi), (6.1)
где тг — колонка i множественного выравнивания т, S(mi) — вес
колонки г, a G — функция веса делеций, наблюдаемых в выравнивании.
Мы написали G как функцию без аргументов, потому что есть очень
много разных методов для оценки веса делеций в множественном вырав-
нивании. Самый простой метод — это считать делеционный символ еще
одним видом остатков, что дает нам S(m) = Однако боль-
шинство методов множественного выравнивания используют аффинную
весовую функцию, при которой открытие делеции имеет большую цену,
чем ее продолжение, а это значит, что смежные делеционные остат-
ки не рассматриваются как независимые. Для простоты на протяжении
нескольких следующих параграфов мы ограничимся рассмотрением ве-
сов колонок выровненных остатков без делеций.
194
Глава 6
Наименьшая энтропия
Теперь мы введем систему обозначений. Как и раньше т — это
множественное выравнивание. Пусть т- — это символ в колонке i для
последовательности j. Пусть Cia — это счетчики (количества) для остат-
ков а, наблюдаемых в колонке г; cia = = а), где = а)
равна 1, если т? = а и 0 иначе. Пусть mi — столбец т},..., выров-
ненных символов в колонке г, и пусть Ci — вектор счетчиков сц,... ,CiK
символов, наблюдаемых в колонке i для алфавита, состоящего из К
различных остатков.
Если филогенетическое дерево последовательностей имеет много
промежуточных предков, то статистическая зависимость между после-
довательностями будет сложной (см. главу 7). Проблема оценки веса
сильно упрощается если предположить, что все последовательности по-
явились независимо. Если мы предположим, что остатки внутри колонки
независимы, равно как и между колонками, то вероятность колонки бу-
дет равна
F(mi) = Г[р-;а,
(6-2)
где pia — это вероятность остатка а в колонке г. Мы можем задать вес
колонки как отрицательный логарифм вероятности этой колонки:
= - 5? Cia logPia
(6.3)
Это формула энтропии, напрямую связанная с уравнением для эн-
тропии Шеннона из теории информации (глава 11). Это удобная мера рас-
согласованности, наблюдаемой в выровненной колонке остатков. Боль-
шая рассогласованность дает большую энтропию. Полностью сохранен-
ная колонка дает вес 0. Мы можем определить хорошее выравнивание
как минимизирующее общую энтропию (т. е. ^^(mj)).
Как мы видели раньше (глава 5) параметры pia могут быть оценены
по счетчикам например, оценка наибольшего правдоподобия — это
всего лишь
Pia = . (6.4)
2^а' сга'
На практике эти оценки обычно регуляризируют с использованием псев-
докаунтов Дирихле.
Очевидно, что это довольно близко к формулированию проблемы
в терминах НММ. Профильные НММ позволяют пойти дальше и мо-
делируют вставки и делеции в выравнивании также вероятностно. Воз-
вращаясь к неиспользованию эволюционного дерева и предположению
6.2. Вес множественного выравнивания
195
о независимости последовательностей между собой, мы приходим к воз-
можности напрямую оценить позиционно зависимую модель сразу двух
объектов, и вероятностей остатков в колонке и вставок с делециями.
Стандартные профили строят на похожих предположениях.
Предположение о том, что последовательности независимы, может
быть оправданным, если аккуратно выбрана репрезентативная выборка
последовательностей семейства. Однако часто бывает, что выборка по-
следовательностей перекошена и отдельные эволюционные подсемейства
недо- или пере-представлены относительно остальных. В этом случае
для частичной компенсации дефектов предположения о независимости
последовательностей можно применять одну из многих схем взвешива-
ния, основанных на деревьях (глава 5).
Сумма пар: СП-веса
Стандартный метод оценки веса множественного выравнивания не
формулируется в терминах НММ, но он схож в том, что не использует-
ся филогенетическое дерево и предполагается статистическая независи-
мость для колонок. Веса колонок оцениваются функцией «суммы пар»,
основанной на весовой матрице замен. СП- вес колонки задается как
S(mt) = (6.5)
к<1
где веса s(a,b) приходят из весовой матрицы замен, такой как РАМ
или BLOSUM. Для простых линейных цен делеций задаются s(a,-)
и $(—, а) как цены за делеционные символы, а «(—,—) кладется равным
нулю. При более сложных схемах веса делеций оцениваются отдельно
(например, для аффинных делеционных штрафов).
Суммирование всех весов попарных замен в колонке должно быть
довольно естественной вещью. Однако веса замен для попарных срав-
нений обычно строятся как веса логарифмических отношений. Для слу-
чая трехмерного выравнивания величины \og(pabc/Qa(lbQc) были бы более
правильным расширением, чем СП-веса log(pab/<7nW>) + ^(Рьс/яьЯе) +
-I-log(рас/ЦаЯс)- Для СП-весов нет вероятностного обоснования; вес каж-
дой последовательности оценивается так, будто последовательность яв-
ляется потомком N — 1 других последовательностей, а не единственного
предка. Перепредставленность эволюционных событий — это проблема,
которая растет с ростом числа последовательностей. Altschul, Carroll &
Lipman [1989] заметили эту проблему и предложили схему взвешивания,
частично уравновешивающую такой дефект в СП-весах (глава 5).
196
Глава 6
Пример: Проблема СП-весов
В качестве примера проблемы стандартных СП-весов на уровне
интуитивного понимания рассмотрим выравнивание N последователь-
ностей. Во всех последовательностях в некоторой позиции находится
лейцин (L) по некоторой важной функциональной причине. Вес L, вы-
ровненного с L, равен 5 в соответствии с матрицей замен BLOSUM50
(рис. 2.2), а значит СП-вес колонки равен 5 * N(N - 1)/2, где N(N -
— 1)/2 — это количество пар символов в колонке. Если бы вместо этого
в колонке был один глицин (G) и N — 1 лейцинов, то вес колонки был бы
на 9 * (TV — 1) меньше, т. к. вес пары G-L равен —44 вместо +5, а таких
пар N — 1 штука. Это значит, что СП-вес колонки с одним G хуже чем
вес колонки из всех L на долю
9(7У-1) 18
57V(7V—1)/2 5N'
Заметьте обратную зависимость от N; относительная разница меж-
ду весами правильного и не правильного выравниваний уменьшается с
ростом числа последовательностей в выравнивании. Но интуитивно яс-
но, что относительная разница должна возрастать с усилением факта,
что мы наблюдаем консервативный лейцин. На стр. 153 можно найти
еще один пример. □
6.3. Многомерное динамическое программирование
Помня о сделанных выводах относительно оценки веса, перейдем
теперь к алгоритмам построения множественных выравниваний.
Возможен вариант обобщения динамического программирования по-
парного выравнивания (глава 2) на выравнивание N последовательно-
стей. Однако, как мы скоро увидим, это неприменимо на практике, если
последовательностей больше некоторого количества. Мы предполагаем,
что колонки выравнивания статистически независимы, а кроме этого
примем, что веса делеций линейны, т. е. плата за делецию длины д рав-
на 7Q7) = gd, где d — плата за делеционный символ. Таким образом
полный вес S(rn) выравнивания может быть посчитан как сумма весов
5(шг) каждой колонки г:
S(m) =
(6.6)
6.3. Многомерное динамическое программирование 197
Многомерное динамическое программирование с аффинными ценами де-
леций и многими состояниями также реализуемо методами, похожими
на описанные в главе 2, но формализм также становится очень трудоем-
ким. Определим как наибольший вес выравнивания на левых
подпоследовательностях, заканчивающихся символами
Алгоритм динамического программирования выглядит так:
^Й ,Й — I,".,— 1 ’ ^2 ? • • • •) ) 1
«й — 1,12, ?3_ !,•••»*№ 1 + 5 5 • • • 1 )’
Г^й ,Й , • • •N — таХ
о^-132-1,+S'(x-t11, х22,(6.7)
— 1 + *^( ’ ’ ' ’ * > )’
где фигурируют все комбинации делеций кроме одной, в которой все
остатки заменены делециями. Всего таких комбинаций 2N — 1. Инициа-
лизация, завершение и обратный ход здесь не приводятся, но устроены
способом, аналогичным алгоритму парного динамического программиро-
вания.
Можно упростить обозначения, если ввести переменные А*, прини-
мающие значения 0 или 1, и определить произведение
Дг ’ X =
если Д7 = 1,
если Aj = 0.
(6-8)
Теперь рекурсию можно записать
Cedergren, 1983; Waterman, 1995]:
следующим образом [Sankoff &
А шах {^й —Д!,г2 —Д2,...,г№An Т"
Ai+...+An>o
+ S(A1..<,A2-4i...,AJvC)}.
Алгоритм требует заполнения всей матрицы динамического про-
граммирования, состоящей из L\Lz...Ln элементов. Для вычисления
каждого элемента нам необходимо найти максимальную из всех 2N —
— 1 комбинаций разрывов в колонке, кроме комбинации, когда все А^
198
Глава 6
равны нулю. Пусть для простоты все последовательности имеют одну
и ту же длину L. Тогда трудоемкость алгоритма многомерного динами-
ческого программирования по памяти является O(LN), а по времени —
O(2nLn\
Заметьте, что мы не задали функциональный вид веса колон-
ки S(rrii). Только потребовали то, что необходимо для работы много-
мерного динамического программирования, т. е. что веса колонок неза-
висимы. В принципе S(mi) можно вычислять, используя эволюционную
модель [Sankoff, 1975].
Упражнение
6.1 Предположим, у нас есть некоторое количество последовательно-
стей, длиной 50 остатков каждая. При этом попарное сравнение
двух таких последовательностей занимает одну секунду работы про-
цессора на нашем компьютере. Выравнивание четырех последова-
тельностей требует (2L)/V“2 = io27V4 = 104 секунд (несколько
часов). Если у нас есть неограниченная память и мы готовы ждать
ответ пять миллиардов лет, пока солнце не потухнет, то сколько
последовательностей сможет выровнять наш компьютер?
Программа MSA
Carrillo & Lipman [1988] нашли замечательный алгоритм, умень-
шающий количество элементов матрицы многомерного динамического
программирования, требующих проверки. Этот алгоритм реализован в
программе множественного выравнивания MSA [Lipman, Altschul &
Kececioglu, 1989]. MSA может выравнивать до 5- 7 белковых последова-
тельностей нормальной длины (200-300 остатков) за разумное время.
Carrillo & Lipman использовали в алгоритме систему СП-весов и
для остатков и для делеций. Мы предполагаем здесь, что вес множе-
ственного выравнивания есть сумма весов всех попарных выравниваний
внутри множественного выравнивания; возможен и более общий вари-
ант определения веса [Altschul, 1989]. Пусть akl обозначает попарное
выравнивание между последовательностями к и I. Тогда вес всего вы-
равнивания будет равен
S(a) = ^S(akl). (6.10)
к<1
Пусть dkl — это оптимальное попарное выравнивание /си/, которое
мы можем вычислить за O(L2) времени стандартным динамическим
6.3. Многомерное динамическое программирование
199
программированием. Очевидно, что S(akl) < S(akl). Сопоставляя это
простое наблюдение с определением системы СП-весов, мы можем най-
ти нижнюю границу любого попарного выравнивания, которое являет-
ся частью оптимального множественного выравнивания. Предположим
на мгновение, что нам уже известна нижняя граница <т(а) для веса
оптимального множественного выравнивания, т. е. а(а) < S(a). Из вы-
шесказанного и определения СП-весов вытекает, что для оптимального
выравнивания а верно
<т(а) S(akl) - S(akt) + 8(ак'1'),
к'<1'
а значит
S(akl) > вк1„
где /Зк1 = <т(а) + S(akl) — ^2 S(ak t ).
к'<1'
Таким образом, нам достаточно рассматривать только такие вырав-
нивания /си/, вес которых лучше /Зк1. Нижние границы /Зк1 просто вы-
числяются. Хорошую границу а(а) можно получить, используя любой
быстрый эвристический алгоритм множественного выравнивания (на-
пример, один из прогрессивных алгоритмов, описываемых далее). Фор-
мируется N(N — 1)/2 оптимальных попарных выравниваний akl, и для
них вычисляется вес по стандартному алгоритму. Чем больше эти гра-
ницы, тем меньше объем матрицы динамического программирования,
который должен быть вычислен, и тем быстрее алгоритм (в действи-
тельности, по-умолчанию в MSA эвристически увеличиваются 0kl, что
не гарантирует оптимального множественного выравнивания).
Теперь для каждой пары к,1 мы можем сформировать множество
Bkl, состоящее из пар координат (г^, г/) таких, что лучшее выравнивание
последовательностей хк и х1, проходящее через имеет вес боль-
ше /Зк1. Это вычисляется за время (Э(£2), суммируя для каждой ячейки
таблицы динамического программирования два веса Витерби, просмот-
ра вперед и назад, и проверяя, является ли сумма больше /Зк1. После
этого в алгоритме многомерного динамического программирования мож-
но ограничиться только ячейками из пересечения этих множеств, т. е.
ячейками (й Л2,..., г/v), для которых (й,г/) лежат в Bkl для всех к,1
(см. рис. 6.3). Этот трюк используется для обработки матрицы пересе-
чения и для достижения большей эффективности при вычислениях в
динамическом программировании. Более детально это описано в Gupta,
Kececioglu & Schaffer [1995].
200
Глава 6
Рис. 6.3. Алгоритм Каррилло-Липмана позволяет ограничить поиск оптималь-
ных выравниваний подмножеством многомерной матрицы динамического про-
граммирования, показанной здесь трехмерной. Наборы Bkl выделены тем-
но-серым, а клетки матрицы, которыми можно ограничиться при поиске обведе-
ны черным
Altschul & Lipman [1989] распространили теорию Carrillo-Lipman
алгоритма для более реалистичных систем весов, основанных на эволю-
ционных звездах и деревьях, а не на СП-весах, но нам не известно ни
об одной реализации этих идей.
6.4. Методы прогрессивного выравнивания
Возможно, наиболее часто используемый подход для построения
множественного выравнивания — прогрессивное выравнивание. При
этом строится последовательность попарных выравниваний. Вначале вы-
бираются две последовательности, которые выравниваются стандартным
алгоритмом попарного выравнивания, и это выравнивание фиксирует-
ся. После этого выбирается третья последовательность, и она подрав-
6.4. Методы прогрессивного выравнивания
201
нивается к первому выравниванию. Процесс повторяется, пока не будут
выровнены все последовательности.
Стратегии прогрессивного выравнивания были описаны во многих
работах [Hogeweg & Hesper 1984, Waterman & Perlwitz 1984, Feng &
Doolittle 1987, Taylor 1987, Barton & Sternberg 1987, Higgins & Sharp
1989]. Алгоритмы различаются в нескольких аспектах: (1) по способу
выбора порядка выравниваний, (2) по тому, подравниваются ли последо-
вательности по одной к единственному растущему выравниванию, или
на основе дерева строятся подсемейства, и в некоторый момент выравни-
вание выравнивается с выравниванием и (3) по тому, какая процедура
используется для выравнивания и определения веса последовательно-
стей или выравниваний против существующих выравниваний.
Прогрессивное выравнивание — эвристика: оно не отделяет процесс
взвешивания выравнивания от алгоритма оптимизации. Оно не оптими-
зирует напрямую никакую глобальную весовую функцию, описывающую
правильность выравнивания. Преимущество прогрессивного выравнива-
ния в том, что оно быстро и эффективно, и во многих случаях получа-
ющиеся выравнивания разумны.
Самая важная эвристика в алгоритмах прогрессивного выравнива-
ния — выровнять сначала пару наиболее похожих последовательностей.
Такие выравнивания наиболее надежны. Большинство алгоритмов стро-
ят «направляющее дерево». Это бинарное дерево, чьи листья соответ-
ствуют последовательностям, а внутренние узлы — выравниваниям. Кор-
ню соответствует полное множественное выравнивание. Самым дальним
от корня узлам соответствуют самые схожие пары. Методы построения
направляющих деревьев похожи на методы построения филогенетиче-
ских деревьев (глава 7), на направляющие деревья обычно «быстрые
и грязные» и не подходят для серьезных филогенетических исследова-
ний.
Прогрессивное множественное выравнивание
Фенга-Дулиттла
Алгоритма Фенга-Дулиттла был одним из первых алгоритмов про-
грессивного выравнивания [Feng & Doolittle 1987]. Вкратце он таков:
Алгоритм: прогрессивное выравнивание Фенга-Дулиттла
(i) Вычисляем диагональную матрицу из N(N — 1)/2 расстояний меж-
ду всеми парами из N последовательностей с помощью стандартно-
202
Глава 6
го алгоритма попарного выравнивания, переводя сырые веса вырав-
ниваний в приблизительные попарные «расстояния».
(ii) Строим по матрице расстояний направляющее дерево с помощью
алгоритма кластеризации, описанного в [Fitch & Margoliash 1967а].
(iii) Начиная с первого узла дерева, выравниванием дочерние узлы (это
могут быть две последовательности, последовательность и выравни-
вание или два выравнивания). Повторяем это для всех остальных
узлов в том порядке, в котором они прибавлялись к дереву (т. е. от
самой похожих пар к менее похожим), пока не будут выровнены все
последовательности.
Метод перевода весов выравниваний в расстояния не должен быть
особенно точным, поскольку цель состоит в том, чтобы построить только
приближенное направляющее дерево, а не настоящее дерево эволюции.
По алгоритму Фенга-Дулиттла расстояние D вычислялось как
O=-logS,H = -lug^^^, (6.11)
*^max ^случ
где й'набл — наблюдаемый вес попарного выравнивания, Smax — макси-
мальный вес, т. е. средний вес выравнивания каждой последовательности
с самой собой, а 5случ — ожидаемый вес выравнивания двух случайных
последовательностей той же длины и аминокислотного состава. Послед-
ний, З'набл, может быть вычислен путем случайного перемешивания двух
рассматриваемых последовательностей или с помощью приближенной
формулы, данной в [Feng & Doolittle 1996]. Таким образом, эффективный
вес, 5Эфф, можно рассматривать как нормализованный процент сходства.
Можно ожидать, что он будет приблизительно экспоненциально убы-
вать к нулю с возрастанием эволюционного расстояния, поэтому взят
его отрицательный логарифм, чтобы сделать меру более линейной по
эволюционным расстояниям. При построении филогенетических дере-
вьев к вычислению расстояний по выравниваниям нужно подходить с
большей осторожностью.
Алгоритм Фитча-Марголиаша — один из быстрых алгоритмов кла-
стеризации, которые строят эволюционное дерево по матрице расстоя-
ний. Алгоритмы кластеризации описаны в главе 7.
Выравнивания двух последовательностей делают с помощью обыч-
ного попарного алгоритма динамического программирования. Последо-
вательность добавляется к существующей группе путем попарного ее
6.4. Методы прогрессивного выравнивания
203
выравнивания со всеми последовательностями группы по очереди. Вы-
равнивание с наибольшим весом определяет, как будет выровнена эта
последовательность с группой. Чтобы выровнять группу с группой, про-
буются все возможные пары последовательностей из этих групп, и луч-
шее попарное выравнивание последовательностей определяет выравни-
вание двух групп. Таким образом, система взвешивания — это, по сути,
стандартная система весов РАМ с аффинными штрафами за делеции.
После того, как выравнивание сделано, символ делеции заменяется на
нейтральный символ X. Фенг и Дулиттл назвали это правило «едино-
жды делеция — всегда делеция». Это правило позволяет использовать
попарные выравнивания последовательностей для построения выравни-
ваний последовательностей с группой или группы с группой — иначе
любое данное попарное выравнивание не обязательно согласуется с уже
существующим выравниванием группы. Поскольку не взимается ника-
кого штрафа за выравнивание X с чем угодно, включая символ делеции,
это правило имеет приятный побочный эффект, состоящий в том, что де-
леции возникают в одних и тех же колонках последовательный попарных
выравниваний. Включение X не требуется в основанных на профилях
алгоритмах прогрессивного выравнивания (см. ниже).
Профильное выравнивание
Недостаток подхода Фенга-Дулиттла состоит в том, что все вы-
равнивания определяются попарными выравниваниями последователь-
ностей. «Лучше было бы, после того, как была построена выровненная
группа, использовать позиционно-специфичную информацию, получен-
ную из множественного выравнивания группы, чтобы подровнять к ней
новую последовательность. Нужно принимать во внимание степень кон-
сервативности каждой позиции, и несовпадения в высококонсерватив-
ных позициях штрафовать строже, чем в более вариабельных. Штрафы
за делеции могут быть уменьшены, если в выравнивании кластера много
делеций, и увеличены, если делеций там нет. Это те же аргументы, ко-
торыми была мотивирована разработка профилей последовательностей
для поиска по базе данных (глава 5). Разумно применить профили и при
прогрессивном множественном выравнивании последовательностей.
Многие методы прогрессивного выравнивания используют вырав-
нивание последовательности к профилю [Thompson, Higgins & Gibson
1994а, Gribskov, McLachlan & Eisenberg 1987] или выравнивание профи-
ля к профилю (см. например [Gotoh 1993]) как подпрограмму, которая
выполняется много раз в процессе вычислений. Различается точное опре-
204
Глава 6
деление весовой функции, использованной в выравнивании профиль- по-
следовательность или профиль-профиль. Выровненные остатки обычно
взвешиваются с помощью какой-либо формы веса по сумме попарных
весов, но делении в разных методах рассматриваются существенно раз-
личными способами.
Как обсуждалось ранее, для линейных штрафов за делении про-
фильное выравнивание строится просто, потому что штрафы за делении
можно включить в СП- веса (6.5), положив s(—,а) = «(а,—) = — д и
«(—,—) = 0. Предположим, имеется два множественных выравнивания
(или «профиля»), в одном последовательности от 1 до п, в другом —
от п + 1 до N. Выравнивание этих двух профилей означает, что деле-
ния вставляется во всю колонку, так что выравнивание внутри одного
профиля не изменяется. Вес (6.5) глобального выравнивания тогда равен
i i k<l^N
= 5252 sH’m')+52 52 sM’m')+52 52
i k<l^.n г n<k<l^.N i k^.n,n<l^N
Единственное, что здесь было сделано — общая сумма была разбита
на две суммы, касающиеся каждого профиля, и одну сумму, содержа-
щую перекрестные слагаемые. На первые две суммы глобальное вырав-
нивание никак не повлияет, потому что добавление столбцов делеций не
прибавляет ничего к весу ($(—, —) = 0). Поэтому можно получить опти-
мальное выравнивание двух профилей, оптимизируя только последнюю
сумму, с перекрестными слагаемыми. Это можно сделать точно так же,
как в стандартном попарном выравнивании, когда столбцы взвешивают-
ся против столбцов путем прибавления парных весов. Очевидно, один
из профилей может состоять только из одной последовательности, что
соответствует выравниванию одной последовательности к профилю.
CLUSTALW
Одна из широко используемых реализаций прогрессивного мно-
жественного выравнивания, основанного на профилях, — программа
CLUSTALW [Thompson, Higgins & Gibson 1994a], которая последовала
за более ранней популярной программой CLUSTALV [Higgins, Bleasby &
Fuchs 1992]. Во многом CLUSTALW работает также как метод Фенга-
Дулиттла, однако он тонко настроен для использования методов про-
6.4. Методы прогрессивного выравнивания
205
фильного выравнивания. Вкратце, алгоритм CLUSTALW работает сле-
дующим образом:
Алгоритм: прогрессивное выравнивание CLUSTALW
(i) Строим матрицу расстояний между всеми N(N — 1)/2 парами с по-
мощью попарного выравнивания по методу динамического програм-
мирования. Затем приближенно переводим веса сходства в эволю-
ционные расстояния по модели Кимуры [Kimura 1983].
(ii) Строим направляющее дерево по алгоритму кластеризации по ме-
тоду ближайшего соседа [Saitou & Nei 1987].
(iii) Прогрессивно выравниваем в узлах в порядке убывания сходства,
используя выравнивания последовательности к последовательности,
последовательности к профилю или профиля к профилю.
CLUSTALW не смущает произвольность на стадии построения вы-
равнивания и взвешивания. В дополнение к обычным методам постро-
ения профилей и выравниваний различные дополнительные эвристики
CLUSTALW делают его еще более точным:
• Последовательности взвешиваются для того, чтобы компенсировать
неравную представленность в больших подсемействах. Функция
взвешивания профилей в CLUSTALW — по сути, сумма пар. Как
и в случае алгоритма Карилло-Липмана, взвешивание последова-
тельностей важно для компенсации дефектов суммы пар.
• Матрица замен, используемая для взвешивания выравнивания, вы-
бирается на основе ожидаемого сходства выравнивания — близко
родственные последовательности выравниваются по «жесткой» мат-
рице (например, BLOSUM80), более далекие — по «мягкой» (напри-
мер, BLOSUM50).
• Позиционно-зависимые штрафы за открытие делеции умножаются
на число, зависящее от наблюдаемого в этой позиции остатка. Эти
штрафы были получены из частот делеций, наблюдаемых на боль-
шом количестве основанных на структуре выравниваний. В целом,
гидрофобные остатки (которые с большей вероятностью погружены
внутрь глобулы) дают более высокие штрафы за делеции, чем гидро-
фильные или подвижные остатки (которые с большей вероятностью
могут быть доступны на поверхности).
206
Глава 6
• Штрафы за открытие делеции также уменьшаются, если позиция
содержится в отрезке последовательных пяти или более гидрофиль-
ных остатков.
• Штрафы и за открытие, и за продолжение делеции увеличиваются,
если в столбце не было делеций, но они возникали рядом в вы-
равнивании. Это правило пытается заставить делеции возникать в
одних и тех же местах выравнивания.
• На стадии прогрессивного выравнивания, если вес выравнивания
низок, направляющее дерево может быть подправлено на лету, что-
бы отложить выравнивания с низким весом до более поздней ста-
дии прогрессивного выравнивания, когда будет собрано больше про-
фильной информации.
С точки зрения вероятностного моделирования интересно изучить
столь тщательно разработанные эвристики. Возможно, было бы хоро-
шо включить эвристики в более формальные вероятностные модели, что
придало бы им возможность, присущую полным вероятностным моде-
лям, оптимизировать большой набор свободных параметров.
Методы итеративного уточнения
Одной из проблем алгоритмов прогрессивного выравнивания явля-
ется то, что подвыравнивания «замораживаются», т. е. после того, как
выровнена группа последовательностей, их выравнивание друг с другом
не изменяется на более поздних стадиях, когда будет получено боль-
ше информации. Методы итеративного уточнения пытаются обойти эту
проблему [Barton & Sternberg 1987, Berger & Munson 1991, Gotoh 1993].
При итеративном уточнении создается исходное выравнивание, на-
пример, так, как было описано выше, а потом какая-либо последова-
тельность (или несколько последовательностей) из него изымаются и
перевыравниваниются к профилю оставшихся последовательностей. Ес-
ли оптимизируется осмысленный вес, это либо увеличивает общий вес,
либо оставляет его на прежнем уровне. Затем выбирается другая после-
довательность и перевыравнивается, пока выравнивание не перестанет
изменяться. Эта процедура гарантированно сходится к локальному мак-
симуму веса, при условии, что будут перевыровнены все последователь-
ности, а максимальный вес существует просто потому, что пространство
последовательностей конечно.
6.5. Множественное выравнивание
207
Метод Бартона-Стернберга [Barton & Sternberg 1987] — пример то-
го, как могут быть скомбинированы некоторые из упомянутых выше
методов. Он работает следующим образом:
Алгоритм: множественное выравнивание по методу
Бертона-Стернберга
(i) Выберем две последовательности с самым высоким попарным сход-
ством и выровняем их по стандартному алгоритму попарного вырав-
нивания с помощью динамического программирования.
(ii) Найдем последовательность, наиболее близкую к профилю выравни-
вания первых двух, и подравняем ее к ним с помощью выравнивания
последовательности к профилю. Повторяем, пока все последователь-
ности н войдут во множественное выравнивание.
(iii) Удалим последовательность х1 и перевыровняем ее к профилю
оставшихся выровненных последовательностей x2,...,xN с помо-
щью выравнивания последовательности к профилю. Повторяем для
последовательностей т2,..., xN.
(iv) Повторяем предыдущий шаг перевыравнивания фиксированное ко-
личество раз или пока вес выравнивания не сойдется. <
Идеи профильного выравнивания и итеративного уточнения доволь-
но близки к формулировке подходов к проблеме множественного вырав-
нивания с помощью скрытых марковских цепей. Обратимся теперь к
методам, основанным на НММ.
6.5. Множественное выравнивание путем обучения
профильных НММ
В главе 5 мы показали, как профилям последовательностей мож-
но придать новую, вероятностную, форму в идее профильных НММ.
Таким образом, можно просто использовать профильные НММ вме-
сто стандартных профилей алгоритмах прогрессивного или итеративно-
го выравнивания. Использование формализма профильных НММ может
давать некоторые преимущества. В частности, произвольную, по сути,
СП-схему взвешивания можно заменить на более ясное предположе-
ние НММ, что последовательности генерируются независимо из одного
«корневого» вероятностного распределения.
208
Глава 6
Профильные НММ можно также обучать, начиная с невыровнен-
ных последовательностей, используя алгоритм максимизации ожидания
Баума-Уэлча, описанный в главе 3. Подходы такого типа, берущие на-
чало из литературы по НММ, были первыми основанными на НММ
подходами, примененными к множественным выравниваниям. Если обу-
ченная модель используется на последнем шаге алгоритма Витерби для
каждой последовательности, обучение дает в дополнение к модели мно-
жественное выравнивание [Krogh et al. 1994].
Множественное выравнивание с известной
профильной НММ
Прежде чем заниматься проблемой оценки модели и множественно-
го выравнивания одновременно, из изначально невыровненного набора
обучающих последовательностей, рассмотрим более простую задачу по-
лучения множественного выравнивания по известной модели. Эта про-
блема часто возникает при анализе последовательностей, например, если
есть выравнивание и модель маленького представительного набора по-
следовательностей семейства, а мы хотим использовать эту модель для
выравнивания большого числа других членов семейства.
Мы видели, как выровнять последовательность к профильной
НММ — наиболее вероятный путь по модели находится по алгорит-
му Витерби. Построение множественного выравнивания просто требу-
ет вычисления выравнивания Витерби для каждой последовательности.
Остатки, выровненные с одним состоянием сопоставления в профильной
НММ, выравниваются в столбцы. Отсюда вытекает важное различие
множественных выравниваний по профильным НММ и традиционных
множественных выравниваний, которое будет видно яснее из примера.
На рис. 6.4 показана небольшая профильная НММ и множествен-
ное выравнивание, из которого она была получена. Заштрихованные
остатки были произвольно определены как вставки в целях этого при-
мера, а остальные десять столбцов соответствуют десяти состояниям
сопоставления профильной НММ. Те же самые семь последовательно-
стей были перевыровнены к этой модели, что дает оптимальные пути
Витерби, изображенные на рис. 6.5. Эти пути дают множественное вы-
равнивание, показанное на рис. 6.6 слева, где остатки, обозначенные
строчными буквами, соответствуют состоянию вставки, а остатки, обо-
значенные заглавными буквами, состоянию сопоставления.
Важное наблюдение здесь состоит в том, что исходное выравнива-
ние (рис. 6.4) и новое выравнивание (рис. 6.6, слева) — это одно и то
6.5. Множественное выравнивание
209
FPHF-DLS-----HGSAQ
FESFGDLSTFDAV GNPK
FDRFKhIkTEAE, Г ASED
FTQFAG-KDLESIKGTAP
FPKFKGiTTADQiKKSAD
FS-FL -GTSEVP2NNPE
FG-FSG1-—ABb-DPG
Рис. 6.4. Модель (вверху), полученная из выравнивания (внизу). Остатки в за-
штрихованной части выравнивания рассматривались как вставки. См. описание
изображения модели на рис. 5.4
же выравнивание. Профильная НММне пытается выравнивать строчные
остатки, соответствующие состояниям вставки. Выбор того, как вста-
вить остатки вставки в выравнивание, произволен, некоторые реализа-
ции НММ профилей просто выравнивают области вставки по левому
краю, как и изображено на рис. 6.6. Остатки состояния вставки обычно
обозначают части последовательностей нетипичные, неконсервативные
и разумно не выравнивающиеся. Как мы отмечали раньше, это биоло-
гически реалистичный взгляд на множественное выравнивание. Напри-
мер, можно ожидать, что петли гомологичных белков часто структурно
различны и невыравниваемы. Напротив, многие другие алгоритмы вы-
равнивания выравнивают последовательности целиком, вне зависимости
от того, какие их части выравниваемы, а какие нет.
Выравнивание справа на рис. 6.6 показывает, как новая последова-
тельность подравнивается к той же модели. В этой последовательности
больше остатков вставки, чем в любой другой из семи последователь-
ностей в заштрихованной области, соответствующей состоянию вставки
6, поэтому выравнивание семи последовательностей должно быть подо-
210
Глава 6
Позиция 1 2 3 4 5 6 Вставка 7 8 9 10 И
F Р н F - D LS Н G S А Q
F Е S F G D LSTPDAV М G N Р К
F D R F К Н LKTEAEM К А S Е D
F Т Q F А G KDLESI К G Т А Р
F Р к F К G LTTADQL К К S А D
F S - F L К GTSEVP Q N N Р Е
F G - F S G AS - - D Р G
Рис. 6.5. Наиболее вероятный путь семи последовательностей по модели. Если
путь проходит через состояние сопоставления в позиции i модели, соответству-
ющий остаток помещается в столбец, помеченный i. Если он приходит через
состояние делеции, вместо этого в таблицу помещается «-», а когда он проходит
чрез состояние вставки в позиции 6, соответствующий остаток помещается в
столбец с меткой «вставка»
гнано, чтобы появилось место для этих двух новых остатков. В при-
ложениях мы обычно смотрим на все оптимальные по Витерби пути и
находим наибольшее число вставленных остатков для каждого состоя-
ния вставки, прежде чем строить множественное выравнивание, поэтому
мы с самого начала знаем, сколько нам потребуется пространства, чтобы
разместить вставки.
FPHF-Dls.....HGSAQ
FE S FG D1s tpdavMGNРК
FDRFKHlkteaemKASED
FTQFAGkdlesi.KGTAP
FPKFKGlttadqlKKSAD
FS - FLKqt s qvp . QNN PE
FG-FSGas.....--DPG
FS-FLKngvdptaai--NPK
FPHF-Dls......HGSAQ
FESFGDlstpdav..MGNPK
FDRFKHlkteaem..KASED
FTQFAGkdlesi...KGTAP
FPKFKGlttadql..KKSAD
FS-FLKqtsevp...QNNPE
FG-FSGas.......--DPG
Рис. 6.6. Слева: выравнивание семи последовательностей, где вставка обозна-
чена строчными буквами. Точки — символы, просто заполняющие место, чтобы
строки правильно располагались друг относительно друга. Справа: то же вы-
равнивание после добавления к набору еще одной последовательности. Новая
последовательность
6.5. Множественное выравнивание
211
Обзор обучения профильных НММ по невыровненным
последовательностям
Теперь обратимся к более сложной задаче оценки и модели, и мно-
жественного выравнивания по изначально невыровненным последова-
тельностям. Этот метод вкратце выглядит так:
Алгоритм: множественное выравнивание с использованием
профильных НММ
Инициализация: Выберем длину НММ и проинициализируем парамет-
ры.
Обучение: Оценим модель по алгоритму Баума-Уэлча (стр. 101) или по
альтернативному алгоритму Витерби (стр. 102). Обычно необходи-
мо использовать эвристический метод, чтобы избежать локальных
оптимумов (см. ниже).
Множественное выравнивание: Выравниваем последовательности к окон-
чательной модели по алгоритму Витерби (стр. 88) и строим множе-
ственное выравнивание, как описано в предыдущем пункте. <
Теперь рассмотрим проблемы инициализации и обучения более по-
дробно.
Начальная модель
Профильная НММ является повторяющейся линейной структурой
из трех состояний (совпадение, делеция и вставка). Единственное, что
нужно решить при выборе начальной архитектуры для оценки по Бауму-
Уэлчу это то, какова длина модели, М. Здесь М — число состояний
сопоставления в профильной НММ, а не общее количество состояний,
которое составляет 37И + 3 для архитектуры профильной НММ, рас-
смотренной в главе 5. Принято определять М таким образом, чтобы
она равнялась средней длине обучающих последовательностей (или на
основании априорных знаний).
Поскольку оценка по Бауму-Уэлчу находит локальные оптимумы,
а не глобальные, важно аккуратно выбирать начальные модели. Модель
должна поощрять использование «целесообразных» переходов. Напри-
мер, вероятности переходов в состояния сопоставления должны быть
высокими по сравнению с другими вероятностями переходов. В то же
212
Глава 6
время, мы хотим запустить алгоритм Баума-Уэлча из множества различ-
ных точек, чтобы посмотреть, сходятся ли все решения приблизительно
к одному оптимуму, поэтому, нам нужна некоторая произвольность при
выборе начальных параметров модели.
Один разумный подход заключается в том, чтобы выбирать началь-
ные параметры модели из априорного распределения Дирихле для пара-
метров модели (глава 11). Альтернативно, мы можем инициализировать
модель с частотами, полученными из этого априорного распределения,
использовать эту модель для порождения небольшого числа случай-
ных последовательностей и затем использовать их счетчики в качестве
’данных’ для оценки начальной модели. Следующий вариант — оценить
устройство начальной модели из существующего предположения отно-
сительно некоторых или всех последовательностей во множественном
выравнивании. Данная базовая оценка параметров сделана путем непо-
средственного применения алгоритма Баума-Уэлча из главы 3. Ниже мы
приводим эти алгоритмы в обозначениях главы 5 для сравнения.
Алгоритм: просмотра вперед для профильных НММ
Начало: /мо(0) = 1.
Рекурсия: /мк(г) = емк(г){/мк^(г ~ l)aMk_iMk + fi^ti - i)aik_1Mk +
fik(i) = ~ i)aMkIk + fIk(i - l)a/Ufc + fDk(i - l)aDfc/J.
Завершение, f+1) /мы (Ь)амм Мм + i + fiM +
+ fDM(L)aDMMM+i- <1
Алгоритм: просмотра назад для профильных НММ
Начало: bMkl+1 (L + 1) = 1;
Ьмм(Ь) = аМмМм+1;
^1М (^') а1м Мм + 1 >
<1Dm Мм +1
Рекурсия: ЬМк (г) = Ьмк+1(г + 1)амкм^1 емк+1 (^г-ц) +
+ bik(i + l)aMkikeik(xi+i) + bDk+1 (z)aMkDk+1;
bikG) 1(* 3" 1 &мк+1 (зч+i) 4" Ь[к(z + l)dikIk&Ik (^г+1) +
+ bDk+ t(i)aikDk+i; bDk(i) = bMk+l(i + l)aDkMk+teMk+Axi+i) + bik(.i +
+ l)dDkikeik(xi+i) + bDk+i(i)aDkDk+l. <
6.5. Множественное выравнивание
213
Данные алгоритмы просмотра вперед и назад могут быть совместно
использованы для переоценки эмиссионных и переходных вероятностей
следующим образом:
Алгоритм: равенства для переоценки по Бауму-Уэлчу для
профильных НММ
Ожидаемые количества эмиссий, определяемые по последователь-
ности х:
Емк(а) = -Г- У2 fMk(i)bMk(i),
Р{х)
(а) =
i\Xi=a
Ожидаемые количества переходов, определяемые по последователь-
ности х:
Ахкмк+1 = y^^y^Jxk(i)axkMk+leMk+l(xl+l)bMk+l(i + I);
^2fxk(i)axkikeik(xi+l)bik(i + I);
= у^^/хк(г)ахкрк+1Ьрк+1(г').
<l
Как обычно, процедуру переоценки по Бауму-Уэлчу можно заме-
нить альтернативной процедурой Витерби, описанной на стр. 102 (а
также смотри ниже). Оценки другого типа также использовалась для
оценки профильных НММ, такие как градиентный спуск [Baldi et al.
1994].
Как избежать локальных максимумов?
Алгоритм Баума-Уэлча гарантирует нахождение локального мак-
симума на ’поверхности’ вероятности, но не существует гарантии того,
что этот локальный оптимум находится где-то недалеко от глобального
оптимума, а также что он является логичным по биологическим сообра-
жениям. Тоже самое касается любого используемого на практике метода
214
Глава 6
оптимизации веса множественного выравнивания (многомерное динами-
ческое программирование находит глобальный максимум, но он также не
имеет практической ценности). Частично это объясняется тем, что эти
модели, как правило, достаточно длинные, и, следовательно, существу-
ет много возможностей застрять в неверном решении. Например, для
двух вариантов одного и того же консервативного мотива может ока-
заться, что они смоделированы как два различных мотива, или какой-то
консервативный участок втиснут между двумя другими участками и мо-
делируется как вставка. Один способ поиска пространства параметров -
вновь запустить алгоритм много раз из различных (случайных) началь-
ных моделей и выбрать в итоге модель с наилучшим весом.
Более сложный подход заключается в том, чтобы использовать неко-
торый алгоритм стохастического поиска, который ’удерживает’ алгоритм
Баума-Уэлча от нахождения локальных максимумов. (Оба этих подхода
могут применяться совместно, и, как правило, так и делают.) Наибо-
лее распространенным стохастическим алгоритмом является алгоритм
искусственного отжига [Kirkpatric, Gelatt & Vecchi 1983]. Мы рас-
смотрим, что делает алгоритм искусственного отжига и затем обсудим
алгоритм обучения профильных НММ с помощью искусственного от-
жига.
Теоретические основы искусственного отжига
Некоторые структуры кристаллизуются только тогда, когда они мед-
ленно прокаливаются при понижении температуры от высокой к низкой.
Если температура понижается слишком быстро, структура достигает
локального минимума свободной энергии и упорядоченность пропада-
ет. В задаче оптимизации у нас имеется некоторая функция, которую
нужно минимизировать. Мы можем назвать ее ’энергией’ Е(х), где х
представляет собой все переменные, по которым ее нужно минимизиро-
вать (максимизировать функцию это то же самое, что минимизировать
эту функцию, взятую с обратным знаком). Воодушевившись примером
из физики, можно ввести искусственную ’температуру’ Т, и, в соот-
ветствии с законами статистической физики, вероятность набора (или
’состояния’) х задается распределением Гиббса:2
РСг) = |ехр(-1ад). (6.12)
Z/ \ 1 J
2В физике температура домножается на константу Больцмана, но здесь температура
не является действительной физической температурой, и, следовательно, здесь в этом нет
необходимости.
6.5. Множественное выравнивание 215
Нормирующий множитель Z — f exp(—±E(x))dx в статистической фи-
зике называется статистическим интегралом. Поскольку обычно пе-
ременная х многомерна, этот интеграл является сложным и Z невоз-
можно вычислить.
В пределе Т —> 0, все конфигурации, кроме одного (или несколь-
ких), с наименьшей энергией, имеют вероятность 0 (система ’замороже-
на’). В пределе Т —> ос все конфигурации равновероятны (система ’рас-
плавлена’). По аналогии с кристаллизацией, минимум (или минимумы)
могут быть найдены выбором распределения вероятностей сначала при
высокой температуре, а затем при постепенно опускающихся темпера-
турах. Это называется искусственным отжигом. В других приложениях,
которые здесь не обсуждаются, искусственный отжиг осуществляется
с помощью так называемых методов Монте-Карло [Binder & Heerman
1988].
Для какой-нибудь НММ естественной функцией энергии является
логарифм правдоподобия, взятый с обратным знаком, — \ogP(data |0),
таким образом, вероятность (6.12) составляет
exp(-i[-logP(data|0)]) _ P{data\ey/r _
Z ~ Z ~
= P(data\ey/T......
f P(data\0fy/Td0f
Оказывается, подобрать точно модель на основе этого распределе-
ния непросто. Два метода, которые мы приводим ниже, дают приближе-
ние.
Добавление шума при переоценке по Бауму-Уэлчу
Специально созданный для этой цели подход, который взял за осно-
ву идею искусственного отжига, был предложен в [Krogh et al. 1994].
Важным свойством искусственного отжига является то, что можно избе-
гать локальных максимумов вследствие стохастического выбора конфи-
гурации (в противоположность алгоритму поиска все уменьшающейся
энергии). Тот же эффект может быть получен при добавлении шума,
который медленно уменьшается, точно также, как падает температура
при искусственном отжиге. В [Krogh et al. 1994] шум порождается слу-
чайными блужданиями в исходной модели. Некоторые систематические
изучения эффективности модели приводятся в [Hughey & Krogh 1996].
216
Глава 6
Витерби оценка НММ на основе искусственного отжига
Второй подход был предложен [Eddy 1995]. В этом подходе модель
обучается с помощью варианта алгоритма Витерби на основе искусствен-
ного отжига для приближенного вычисления оценок по Бауму-Уэлчу.
Подобный алгоритм описан в [Allison & Wallace 1993], но в контексте
конечных автоматов, а не НММ.
Напомним, что в оценке Витерби (стр. 102) наиболее вероятный
путь используется для получения счетчиков, по которым оценивается
новая модель, а не суммирование по всем путям для получения средних
значений счетчиков. Если имеется N последовательностей, то задан и
способ точного перевода N путей тг1,..., ttn в параметры модели. По-
этому, мы можем трактовать пути как фундаментальные параметры, при
которых максимизируется вероятность, и искусственный отжиг может
быть выполнен с использованием этих (дискретных) переменных вместо
(непрерывных) параметров модели, 0.
Ключевым различием между оценкой Витерби и этим вариантом ис-
кусственного отжига является то, что в то время как алгоритм Витерби
выбирает путь самой большой вероятности тг для каждой последователь-
ности х, искусственный отжиг выбирает каждый путь тг в соответствии
с вероятностью пути, который дает текущая модель, при изменении тем-
пературы Г:
' р(7г,х\еу/Т
РгоЬ(тг) — -------------—.
^Р(тг',х|0)^
Знаменателем является Z, статистическая сумма. Однако, это про-
сто сумма по всем путям и, поэтому, она может быть получена с помо-
щью преобразованного алгоритма просмотра вперед с использованием
потенцированных параметров переходов и эмиссий. Потенцированные
параметры вычисляют предварительно для эффективности вычисления:
1/Т
aij ~ aij ’
И
£j(x) = ej(x)1/T
и используют вместо не преобразованных вероятностных параметров при
вычислении алгоритма просмотра вперед, описанного на стр. 92. Ста-
тистическая сумма Z получается в результате выполнения алгоритма
просмотра вперед, она соответствует F(z), полученному при не потен-
цированных параметрах.
6.5. Множественное выравнивание
217
Затем выбирается субоптимальный путь тг по матрице динамиче-
ского программирования просмотра вперед с помощью стохастического
обратного хода. Выравнивание состоит из серий состояний тг^, которые
выбираются рекурсивно с вероятностью, определенной переменной про-
смотра вперед. Поскольку этот алгоритм применяется к любой НММ,
мы используем те же основные обозначения, что и в алгоритме просмот-
ра вперед, как описано в главе 3:
Алгоритм: обратный ход стохастического выбора для НММ
Начало: ttl+i = End.
Рекурсия:: для L + 1 i 1,
Prob{lVi—\ |7Гг ) — fi— 1,7гг_ 1 ^7гг_ 1,7гг/
Другими словами, для каждого состояния, в которое мы попада-
ем при обратном ходе, предыдущее состояние выбирается на основании
его вклада в (потенцированную) суммарную вероятность по всем путям,
проходящим через это состояние3.
Этот алгоритм нахождения субоптимального выравнивания затем
используется для осуществления варианта обучения Витерби на осно-
ве искусственного отжига. Вместо того, чтобы определять оптималь-
ное множественное выравнивание, соответствующее текущей модели на
каждом шаге каждой итерации, выбирается субопимальное множествен-
ное выравнивание. Степень субоптимальности контролируется темпера-
турным множителем Г, который вначале большой (дает случайное вы-
равнивание) и медленно уменьшается. Поскольку новое выравнивание
выбирается в соответствии с распределением вероятностей выравнива-
ний, порожденных предыдущей моделью (как на шаге получения мат.
ожидания алгоритма максимизации ожидания), а не по вероятности вы-
равнивания, соответствующей ее оптимальной модели, данная процедура
не совсем корректна с точки зрения основ статистической механики для
искусственного отжига [Kirkpatrick, Gelatt & Vecchi 1983].
Поиск лучшего ’расписания’ того, насколько быстро уменьшается
температура, само по себе является наукой (или даже искусством). Су-
3Алгебраическое доказательство того, что этот алгоритм правильно вычисляет стати-
стическую сумму и правильно выбирает путь в соответствии с распределением Больцмана-
Гиббса из всех возможных путей (при заданной текущей модели ) явно следует непо-
средственно из того факта, что потенцирование дистрибутивно относительно операции
умножения, например, (а1,2Я2,заз,4)Т = («1,2)т(а2,з)Т(аз,4)т = «1,2^2,3^3,4•
218
Глава 6
ществуют теоретические результаты для искусственного отжига, кото-
рые гласят, что если температура падает достаточно медленно, то нахо-
ждение оптимума гарантированно, но время, которое для этого требу-
ется, чрезмерно велико. На практике часто используется простая экс-
поненциальная или линейная схема уменьшения температур, в которой
каждый шаг означает умножение Т на некоторое число, меньшее 1, или
уменьшает ее на некоторое маленькое значение константы.
Сравнение с Гиббс-самплером
Алгоритм ’Гиббсовский самплер’, описанный [Lawrence et al. 1993],
по сути, очень похож. Статистическая модель, используемая в [Lawrence
et al.], представляет собой модель короткого мотива без делеций, кото-
рый по существу является профильной НММ без состояний вставок и
делеций (хотя они и не говорят, что это НММ). Обучающая выборка
состоит из набора последовательностей, которые содержат (в самом про-
стом случае) ровно по одному вхождению некоторого мотива, например,
особого участка связывания на ДНК, где позиция мотива изначально не
известна. Задача состоит в поиске позиций мотивов и оценке параметров
для статистической модели их консенсуса (зная одно, мы можем найти
другое, поскольку выравнивание неявно выражает некоторую НММ и
наоборот). Это естественная задача для максимизации ожидания (ЕМ;
глава 11), в которой искомыми данными являются позиции мотивов, ко-
торые можно просто задать их начальными позициями. Эти мотивы соот-
ветствуют выравниваниям, которые являются искомыми данными, кото-
рые мы пытаемся получить при обучении НММ. Действительно, ранние
алгоритмы [Lawrence & Reilly 1990] применяли максимизацию ожида-
ния к такой задаче, но оказалось, что эти подходы склонны находить
плохие локальные максимумы.
В рамках НММ, оба описанных выше алгоритма, искусственный
отжиг и гиббсовский самплер, являются вариантами приближения Ви-
терби для ЕМ со стохастическим выбором. На каждой итерации Гибб-
совского самплирования из выравнивания удаляется какая-то последо-
вательность; по остальным выровненным последовательностям строится
НММ; и затем новое выравнивание удаленной последовательности с
остальными выбирается вероятностным образом с помощью алгоритма
стохастического поиска при Т — 1. Эта итерация повторяется до тех
пор, пока модель не достигнет области высокой вероятности. Таким об-
разом, гиббсовский сеплер похож на описанный выше алгоритм Витерби
на основе искусственного отжига при значении константы Т = 1, где вы-
6.5. Множественное выравнивание
219
равнивания выбираются в соответствии с распределением вероятностей,
которое не изменяется, каким бы ни был температурный множитель.
Общее описание гиббсовского самплера дано в главе 11.
Адаптивно изменяющаяся архитектура модели; ’хирургия’
модели
После (или даже в процессе) обучения модели, мы можем рассмот-
реть выравнивание, которое она порождает, и решать, что: (а) некоторые
состояния совпадений являются избыточными и должны быть поглоще-
ны каким-то состоянием вставки; или (Ь) есть подозрение, что одно или
несколько состояний вставки поглощают слишком большую часть по-
следовательности, в случае чего они должны быть расширены (то есть,
можно добавить больше модулей совпадений до или после этого со-
стояния вставки). Такие проблемы могут возникать и из-за того, что
выбор первоначальной длины модели был не слишком удачным, и из-за
того, что во время обучения встречались локальные максимумы. Полез-
но разработать процедуру адаптивного изменения архитектуры модели в
процессе обучения и сразу после того, как обучение завершено.
В [Krogh et al. 1994] описан метод, который называется ’хирур-
гия’ модели. По ’счетчикам’, полученным процедурой просмотра вперед-
назад (или аналогом Витерби) мы можем увидеть, насколько часто ис-
пользуется обучающими последовательностями определенный переход.
Использование состояния совпадения есть сумма количеств всех букв в
этом состоянии. Если некоторое состояние совпадения используется, по
крайней мере, половиной последовательностей (или какой-нибудь дру-
гой заранее определенной частью), соответствующий модуль удаляется.
Аналогично, если более половины (или другой заранее определенной
части) последовательностей используют переходы в какое- то состояние
вставки, то это состояние дополняется некоторым количеством новых
модулей. Количество новых модулей определяется средней длиной вста-
вок. Хотя эта процедура разработана специально для таких случаев, она
работает хорошо и в других случаях.
Другой подход состоит в переоценке и архитектуры модели, и ее
параметров, используя алгоритм построения максимальной апостери-
орной вероятности (МАР), рассмотренный в главе 5. Поскольку эта
процедура требует выравнивания, а не средних счетчиков, она не мо-
жет применяться в обычной процедуре максимизации ожидания Баума-
Уэлча. Ее можно правильно использовать для алгоритма к Баума-Уэлча
при обучении приближением Витерби, и она фактически может заме-
220
Глава 6
нить обычный процесс переоценки параметров, приводя к (локальному)
сходящемуся алгоритму, который одновременно оптимизирует и архитек-
туру, и параметры НММ. Она также может добавляться периодически
(точно также как применяется ’хирургия’ модели) при полной оценке
по Бауму-Уэлчу путем добавления итерации Витерби выравнивания и
построения МАР модели. При таком использовании она не гарантиру-
ет улучшения общей вероятности данных, но, как и ’хирургия’ модели,
является замечательной эвристикой.
6.6. Дополнительное чтение
Обзоры большого количества литературы по алгоритмам множе-
ственного выравнивания содержат [Carrillo & Lipman 1988], [Chan, Wong
& Chiu 1992], и [Gotoh 1996].
Класс алгоритмов множественного выравнивания, который мы здесь
не рассматривали, это алгоритмы искусственного отжига, которые опре-
деляют ’сдвиги’ (небольшие изменения в потенциальном выравнивании)
и целевой функции определения вероятности того, должен ли быть осу-
ществлен предложенный сдвиг или нет. Этими алгоритмами сэмпли-
рования являются алгоритмы искусственного отжига в стиле Монте-
Карло, которые сильно отличаются от рассмотренного нами варианта
искусственного отжига Витерби оценки НММ [Lukashin, Engelbrecht &
Brunak 1992; Hirosawa et al. 1993, Kim & Pramanik 1994; Kim, Promanik
& Chung 1994].
Мы вкратце обсудили, что алгоритмы поиска консенсусных мотивов,
такие как гиббсовский самплер, родственны алгоритмам множественно-
го выравнивания. Другие примеры поиска мотивов, помимо Гиббсовского
сэмплера, описаны в [Stormo & Hartzell 1989], [Hertz, Hartzell & Stormo
1990], [Bailey & Elkan 1994] и [Bailey & Elkan 1995]. Задача множествен-
ного выравнивания трехмерных структур также является родственной к
задаче множественного выравнивания последовательностей (только она
сложнее) [Russell & Barton 1992; Holm & Sander 1993; Gerstein & Levitt
1996].
Некоторые статьи методично протестировали точность различных
алгоритмов множественного выравнивания в сравнении с методами, ко-
торые получают выравнивания структурно или вручную. Среди них
[McClure, Vasi & Fitch 1994] и [Gotoh 1996].
Глава 7
Построение филогенетических
деревьев
В предыдущей главе мы рассмотрели задачу построения множе-
ственного выравнивания набора последовательностей. Можно заметить
[Sankoff, Morel & Cedergren, 1973], что выравнивание последовательно-
стей должно учитывать эволюционные отношения. Например, выравни-
вание, которое требует множества замен в эволюционно близких после-
довательностях, менее правдоподобно, чем то, в котором большинство
изменений происходят на больших эволюционных расстояниях.
Некоторые алгоритмы множественного выравнивания используют
дерево — например, мы видели, что некоторые алгоритмы прогрессив-
ного выравнивания используют «направляющее дерево». Как и следует
из имени, это дерево скорее должно направлять процесс кластеризации,
чем описывать правильную таксономию. В этой главе мы переместим ак-
цент, и начнем всерьез заниматься построением деревьев. Однако, мы не
забудем и про выравнивание — в последнем параграфе описаны методы
одновременного построения выравнивания и дерева.
Здесь мы сосредоточимся на двух основных подходах к построению
деревьев: методы расстояний и максимальная бережливость, в следую-
щей мы опишем филогению с точки зрения вероятности.
7.1. Дерево жизни
Сходство молекулярных механизмов всех изученных организмов
позволяет с большой вероятностью предположить, что у всех организ-
мов на Земле был общий предок. Значит, любо набор видов находится в
родстве, и это родство называется филогенией. Обычно родство может
быть представлено с помощью филогенетического дерева. Задача фило-
генетического анализа — восстановить это дерево на основе наблюдений
над существующими организмами.
222
Глава 7
В биологической традиции было использовать морфологические
признаки (современных и ископаемых организмов) для восстановления
филогении. Впервые в статье Zuckerkandl & Pauling [1962] было пока-
зано, что молекулярные последовательности дают нам наборы символов,
которые могут нести в себе большое количество информации. Следо-
вательно, если у нас есть набор последовательностей из разных видов,
мы можем использовать их, чтобы восстановить возможную филогению
рассматриваемых видов. При этом предполагается, что эти последова-
тельности произошли от общего предкового гена в общем предковом
виде.
Частые случаи дупликации генов означают, что предыдущее пред-
положение необходимо с осторожностью проверять. Филогенетическое
дерево группы последовательностей не обязательно отражает филоге-
нетическое дерево их видов-хозяев, потому что механизм дупликации
генов — это еще один, вдобавок к видообразованию, механизм, по ко-
торому две последовательности могут разделиться и разойтись от об-
щего предка. Гены, разошедшиеся благодаря видообразованию, называ-
ются ортологами. Гены, разошедшиеся путем дупликации, называются
паралогами. Если мы хотим восстановить филогению видов, несущих
определенные гены, мы должны использовать ортологичные последова-
тельности. Но, конечно, нам может быть интересна и филогения событий
дупликации, и в этом случае мы можем строить филогению паралогов,
даже паралогов в одном и том же виде. Различие между ортологами и
паралогами проиллюстрировано на рис. 7.1.
7.2. Основные сведения о деревьях
В этой главе мы будем предполагать, что все деревья бинарные, т. е.
каждое ветвящееся ребро разделяется на два дочерних ребра (рис. 7.2).
Это эквивалентно утверждению, что в каждом узле встречаются три
ребра, где узел — это конечная точка ребра. Предположение, что дерево
бинарно, не является серьезным ограничением, потому что любую схему
ветвления можно приблизить бинарным деревом, у которого некоторые
ветки будут просто очень короткими.
С каждым ребром дерева связана определенная доля эволюцион-
ного расхождения, определяемая какой-либо мерой расстояния между
последовательностями или из модели замен остатков в течение эволю-
ции. Введем здесь общий термин «длина» или «длина ребра», и будем
изображать это через длину ребер деревьев на наших рисунках. Связь
между филогенетически определенными длинами и палеонтологически-
7.2. Основные сведения о деревьях
223
гигансткая
панда малая
панда
аксолотль
утка
ястреб '
гриф аллигатор
! альфа дзета (—I—j
тета | I бета дельта
эпсилон гамма
миоглобин
------- гемоглобины --------------------►
Рис. 7.1. Вверху: дерево ортологов, построенное на основании набора
альфа- гемоглобинов. Внизу: дерево паралогов — альфа-, бета-, гамма-,
дельта-, эпсилон-, дзета- и тета-цепи гемоглобина человека и миоглобин
человека. Ортологи — альфа-гемоглобины, идентификаторы SWISS-PROT:
HBA_ACCGE, HBA.AEGMO, HBA.AILFU, HBA.AILME, HBA.ALCAA,
HBA_ALLMI, HBA-AMBME и HBA_ANAPL, были выбраны, потому что
это восемь первых по алфавиту альфа-глобинов в PFAM [Sonnhammer,
Eddy & Durbin 1997] (http://genome.wustl.edu/Pfam/). Паралоги — гло-
бины с идентификаторами SWISS-PROT HBAT.HUMAN, HBAZ_HUMAN,
HBA-HUMAN, HBB.HUMAN, HBD.HUMAN, HBE.HUMAN, HBG.HUAMN
и MYG_HUMAN. Деревья сделаны по методу соединения соседей
(см. главу 7.3) с помощью пакета программ J. Felsenstein PHYLIP
(http://evolution.genetics.washington.edu/phylip.html). Расстояния, использован-
ные для соединения соседей — построенные с помощью матриц РАМ расстояния
наибольшего правдоподобия (см. стр. 307), вычисленные программой PROTDIST
из пакета PHYLIP
224
Глава 7
Рис. 7.2. Пример бинарного дерева, на котором показаны корень и листья, а так-
же направление эволюционного времени (самые поздние события находятся в
нижней части рисунка). Также приведено соответствующее неукорененное дере-
во, здесь направление времени не определено
ми промежутками времени была изучена в работе Langley & Fitch [1974],
где было показано, что разные белки могут изменяться с очень раз-
ной скоростью, а одни и те же белки могут эволюционировать в одних
организмах значительно быстрее, чем в других. Однако усреднение по
большому набору белков позволяет наблюдать общее соответствие меж-
ду длинами и эволюционными промежутками времени [Doolittle 'et al.
1996; Wray, Levinto & Shapiro 1996].
В настоящей биологической филогении есть «корень», или изна-
чальный предок всех последовательностей. Некоторые алгоритмы позво-
ляют узнать или, по крайней мере, предположить, где находится корень.
Другие, такие как алгоритмы наибольшей бережливости или вероят-
ностные модели из следующей главы, не дают никакого представления
о его местонахождении, и для укоренения дерева приходится использо-
вать другие критерии. Здесь мы рассмотрим, как можно представлять и
укорененные, и неукорененные деревья.
На рис. 7.2 представлено неукорененное дерево и его укорененный
вариант. Обратите внимание, что в последнем случае мы изобразили
корень наверху, а листья — терминальные узлы, соответствующие на-
блюдаемым последовательностям, в нижней части картинки.
У листьев дерева есть имена или номера. Иногда их можно поменять
друг с другом без изменения филогении (как, например, номера 4 и 5
на рис. 7.2), но чаще этого сделать нельзя (например, если поменять
местами номера 1 и 2 на том же рисунке, филогения изменится). Дерево
с данной разметкой мы будем называть размеченной схемой ветвления.
7.2. Основные сведения о деревьях
225
Более неформально это называется топологией) дерева и обозначается
буквой Т. Чтобы закончить определение филогенетического дерева, мы
должны указать длины всех его ребер, которые обычно обозначаются2
через tz, с подходящей системой нумерации г.
Количество деревьев и их разметка
Узлы и ребра укорененного дерева можно пересчитать следующим
образом. Пусть у дерева п листьев. По мере движения вверх по дереву
два ребра сходятся в каждом узле. Каждый раз, как это происходит,
количество ребер уменьшается на единицу. Значит, в дереве должно
быть еще (п — 1) узлов ветвления, вдобавок к п листьям, что в сумме
дает (2п— 1) узел, а ребер на одно меньше, т. е. (2п —2), потому что нет
ребра над корневым узлом. Будем нумеровать листья числами от 1 до п,
узлы ветвления — числами от п+1 до 2п — 1, причем корень будет всегда
иметь номер 2п - 1. Длины ребер будут нумероваться в соответствии с
номер узла внизу ребра, т. е. di — это длина ребра над узлом 1 и т.д.
Неукорененное дерево с п листьями имеет в общей сложности 2п — 2
узла и 2п — 3 ребра. Можно поставить корень на любом из его ребер, что
дает (2п —3) укорененных деревьев. Рис. 7.3 иллюстрирует это для слу-
чая п = 3 — три положения корня дают три укорененных дерева. Значит,
для данного количества листьев п, количество укорененных деревьев в
(2п — 3) больше количества неукорененных деревьев.
Вместо корня к неукорененному дереву с тремя листьями на рис. 7.3
можно добавить новое ребро, или «ветку», с новой меткой (например,
«4») на конце, получив таким образом неукорененное дерево с четырь-
мя листьями. Есть три таких дерева, каждое с (2п - 3) = 5 ребрами, и
легко видеть, что у всех них разная размеченная схема ветвления. Да-
лее, есть пять способов добавления следующей ветви, помеченной новой
меткой («5»), что дает нам всего 3 х 5 = 15 неукорененных деревьев с
пятью листьями. Продолжая этот процесс, мы увидим, что количество
неукорененных деревьев с п листьями —
(3) • (5) •... • (2п — 5),
что также обозначается через (2п — 5)!!. Из вышесказанного следует,
что количество укорененных деревьев — (2п — 3)!!. Количество деревьев
1 Тополог бы оставил этот термин для описания неразмеченной схемы ветвления, т. е.
различных классов деревьев, которые не могут быть переведены друг друга изменением
порядка ребер в узлах или растяжением или сжатием ребер.
Преднамеренная отсылка к слову «время» — «time». Время — это та переменная,
значение которой нас в конце концов и интересует.
226
Глава 7
3
1 3
2
Рис. 7.3. Укорененные деревья (правый столбец) получены из неукорененного
дерева для трех последовательностей путем выбора разных ребер местом для
посадки корня (стрелка)
растет очень быстро с ростом п: для п = 10 существует приблизительно
два миллиона неукорененных деревьев, при п = 20 их уже 2.2 х 1О20.
Дальнейшие данные расчетах количества деревьев можно найти в работе
[Felsenstein 1987b].
7.2. Основные сведения о деревьях
227
Упражнения
7.1 Нарисуйте укорененные деревья, получающиеся добавлением корня
во всех возможных семи положениях к неукорененному дереву на
рис. 7.2.
7.2 Все деревья с тремя и четырьмя листьями на рис. 7.3 имеют оди-
наковые неразмеченные схемы ветвления. Сколько листьев долж-
но иметь укорененное дерево, чтобы для него были возможны по
крайней мере две разные неразмеченные схемы ветвления? Неукоре-
ненное дерево? Найдите рекуррентное соотношение для количества
укорененных деревьев. (Подсказка: рассмотрите деревья, получаю-
щиеся соединением двух деревьев их корнями.)
7.3 Все рассмотренные до сих пор деревья были бинарными, но мож-
но рассмотреть и тернарные деревья, такие, которые в укорененном
виде имеют по три ветки, отходящих от каждого узла ветвления.
В неукорененном дереве, таким образом, из каждого узла ветвле-
ния расходятся по четыре ребра. Если в дереве т узлов ветвления,
сколько у него листьев и сколько ребер?
7.4 Затем рассмотрим составное неукорененное дерево, состоящее из т
тернарных и п бинарных узлов ветвления. Сколько у него листьев и
сколько ребер? Пусть Nm,n ~ количество различных размеченных
схем ветвления этого дерева. Расширьте рассуждения, использо-
ванные для вычисления количества различных схем ветвления для
бинарных деревьев, и покажите, что
Nm,n = (Зш -|- 2п l)7Vmn_i + (и -|- 1)А^ш—1 ,п+1 •
(Подсказка: первое слагаемое после знака равенства — количество
способов добавить новое ребро к существующему ребру, т. е. создать
новый бинарный узел, второе слагаемое описывает ребра, добавля-
емые к бинарным узлам, тем самым создавая тернарный узел.)
7.5 Используйте приведенное выше рекуррентное соотношение, чтобы
вычислить Nrn^ — количество чисто тернарных деревьев с т узлами
ветвления для малых т. (Подсказка: мы знаем, что N(}yi = (2г — 1)!!,
и рекуррентное соотношение позволяет выразить Nin^ через Л^о,ь
где г п. Программист бы с удовольствием написал рекурсивную
программу, делающую эти вычисления.) Проверьте, что вычислен-
т
ные значения удовлетворяют формуле Nm^ = П (14-9г(г - 1)/2).
г=1
Вы можете ее доказать?
228
Глава 7
7.3. Построение дерева по попарным расстояниям
Некоторые из наиболее интуитивно очевидных методов начинают
с построения набора расстояний dij для каждой пары i,j последова-
тельностей из данного набора. Есть много разных способов определить
расстояние. Например, можно положить равным доле f среди всех
сайтов и, в которых различаются остатки хги и х3и (последовательно-
сти предполагаются выровненными). Это дает нам разумную меру при
малых долях /. Однако для двух неродственных последовательностей,
благодаря случайным заменам, f будет близко к случайно ожидаемой
доле различий, а нам бы хотелось, чтобы расстояние возрастало, когда
/ стремится к этой величине. Можно использовать марковские моде-
ли замен остатков, такие как модель Джукса-Кантора для ДНК (см.
стр. 265) — расстояния, определяемые с их помощью, ведут себя именно
так. Так, расстояние Джукса-Кантора определяется как d^ = — log(l —
-4//3) и стремится к бесконечности при приближении к равновесному
значению f (различаются 75% остатков). Мы вернемся к определению
расстояния в параграфе 8.6.
Методы кластеризации: UPGMA
Начнем с процедуры кластеризации [Sokal & Michener 1958] под
названием UPGMA, что значит невзвешенный метод парной группиров-
ки с использованием среднего арифметического (unweighted pair group
method using arithmetic averages). Несмотря на устрашающее название,
это простой и интуитивно понятный метод. Он кластеризует последова-
тельности, сливая на каждом шаге два кластера и создавая одновремен-
но новый узел дерева. Можно представлять себе, что дерево строится
вверх: каждый узел создается над предыдущими, а длины ребер опреде-
ляются как разница между высотой узлов на верхнем и нижнем конце
ребра.
Сначала определим расстояние d^ между двумя кластерами Ci и Cj
как среднее расстояние между парами последовательностей их каждого
кластера:
dij = 1С ПС I dp4'
|Сг||С-?1 риз С>.чнзС3
где |G| и |Cj| — количество последовательностей в кластерах i и
соответственно. Обратите внимание, что если Ск — объединение двух
кластеров Ci и Cj, т. е. Ск = Ci U Cj и Ci — какой-то другой кластер,
7.3. Построение дерева по попарным расстояниям
229
то (упражнение 7.6)
dki
du \Ci\ + dji |Q|
IGI + IQI
(7.2)
Процедура кластеризации:
Алгоритм UPGMA:
Инициализация:
Каждой последовательности i сопоставим ее собственный кла-
стер Ci,
Определим по одному листу Т для каждой последовательности и
поместим их на высоту 0.
Итерация:
Найдем два кластера i и j, для которых dij минимально. (Если есть
несколько эквидистантных пар, возьмем одну произвольную.)
Пусть новый кластер к определяется соотношением Ск = Ci U Cj и
пересчитаем dki для всех I используя (7.2).
Пусть новый узел к имеет дочерние узлы i и j и находится на
высоте d^/2.
Добавим кластер к к имеющимся кластерам и удалим кластеры i
и j-
Остановка:
Когда осталось только два кластера i и j, поместим корень на вы-
соте d^/2. <
Чтобы проверить, что в результате этой процедуры получаются хо-
рошо определенные длины веток, нужно доказать, что родительский
узел всегда лежит над дочерними узлами (упражнение 7.7). Существуют
варианты UPGMA, в которых расстояние между кластерами определя-
ется как минимум или максимум расстояний между составляющими их
последовательностями, а не как среднее, но похоже, что традиционная
форма UPGMA работает лучше всех.
Пример: применение UPGMA к пяти последовательностям
Расстояния между пятью последовательностями схематично пред-
ставлены как расстояния на плоскости (рис. 7.4). UPGMA работает так:
сначала он находит две ближайшие последовательности. Предположим,
230
Глава 7
Рис. 7.4. Пример создания укорененного дерева по алгоритму UPGMA путем по-
следовательной кластеризации последовательностей. В этом случае дан набор из
пяти последовательностей, расстояния между которыми могут быть изображены
точками на плоскости (в общем случае это не так для произвольного набора
расстояний)
7.3. Построение дерева по попарным расстояниям
231
что это т1 и х2. Их родительскому узлу присваивается номер 6, а дли-
ны ребер ti и £2 определяются как ti = t2 = |^12- Затем положим
расстояние между каждой из последовательностей хг и новым уз-
лом ветвления 6, соответствующим кластеру {ж1,ж2}, равным среднему
+ ^2г) и найдем ближайшую пару среди оставшихся последова-
тельностей и узла 6. Это пара {т4,ж5}. Их родительский узел, узел 7,
строится как описано выше, и длины ребер и t$ полагаются равны-
ми f4 = Z5 = |d45- Этот процесс повторяется. Следующая ближайшая
пара — это т3 и узел 7. Вводится родительский узел для т3 и узла 7,
узел 8, и ребру над .т3 присваивается длина t% = а ребру над уз-
лом 7 — длина £7 = |б/з7 — Таким образом, сумма времен по всем
ветвям3 остается постоянной. В последнюю очередь сливаются узлы 6
({т1,х2}) и 8 ({т3, т4, z5}), и расстояние d68 = |(di3 + ^14 + ^15 +^23 +
+ ^24 “Ь ^2б)- О
Упражнения
7.6 Покажите, что, если расстояния между кластерами определяются
через (7.1) и Ck = CtUCj, то d^i для любого I определяется по (7.2).
7.7 Покажите, что родительский узел всегда лежит над своими дочер-
ними узлами. (Подсказка: если это не так, покажите, что при фор-
мировании одного из дочерних кластеров была допущена ошибка в
выборе ближайших кластеров.)
Молекулярные часы и свойство ультраметричности
расстояний
UPGMA строит укорененное дерево специального вида. Длины ре-
бер окончательного дерева можно рассматривать как времена, отмерен-
ные молекулярными часами, идущими с постоянной скоростью. Пред-
полагается, что расхождение последовательностей происходит с посто-
янной скоростью во всех точках дерева, что эквивалентно утверждению,
что сумма времен по любому пути от любого узла к листьям постоянна,
т. е. не зависит от выбора пути. Если наши данные о расстояниях полу-
чены суммированием длин ребер дерева Т с молекулярными часами, то
UPGMA правильно восстановит дерево. Чтобы это понять, вообразите
3По всем путям от корня до каждого листа. — Прим, перев.
232
Глава 7
горизонтальную линию, поднимающуюся по дереву Т начиная с уров-
ня листьев: каждый раз, когда она пересекает узел, расстояние, от всех
листьев в левой от этого узла ветви до листьев в правой ветви будет ми-
нимальным текущим расстоянием, и, таким образом, узел добавляется
точно в том месте, где он находится в исходном дереве Т.
Если исходное дерево в этом смысле не очень хорошо себя ведет —
разные пути к листьям у него имеют разную длину, как на рис. 7.5 сле-
ва — UPGMA может восстановить его некорректно (рис. 7.5 справа). Не
работает здесь вот что: самые близкие листья не являются соседними —
у них нет общего родительского узла. Условие улыпраметричности да-
ет возможность проверить правильность восстановления. Расстояния
называются ультраметрическими, если для любой тройки последователь-
ностей x\xi,xk расстояния dij.djk.dik либо все равны между собой,
либо два из них равны, а третье их меньше. Это условие выполняется
для дерева с молекулярными часами.
Рис. 7.5. Дерево (слева) некорректно восстанавливается алгоритмом UPGMA
(справа)
Упражнение
7.8 Можно показать, что если расстояния d^ — ультраметрические,
а дерево восстанавливается из этих расстояний по алгоритму
UPGMA, то расстояния, получаемые из этого дерева путем удвое-
ния высоты узла на пути между г и j в точности равны d^. Про-
верьте, что это так для примера применения UPGMA к пяти по-
следовательностям, если расстояния ультраметрические. (Подсказ-
ка: Покажите, что, если два кластера Ck и Ci сливаются, из условия
ультраметричности следует, что расстояние между любым листом из
Ck и любым листом из Ci одно и то же.)
7.3. Построение дерева по попарным расстояниям
233
Аддитивность и метод ближайшего соседа
При описании свойства молекулярных часов у деревьев, восстанав-
ливаемых алгоритмом UPGMA, мы неявно подразумевали еще одно важ-
ное свойство — аддитивность. Длины ребер данного дерева называются
аддитивными, если расстояние между любыми двумя листьями равно
сумме длин ребер на пути, соединяющем эти листья. Это свойство авто-
матически выполняется при построении дерева по алгоритму UPGMA.
Однако бывают случаи, когда молекулярных часов нет, а аддитивность
остается, и для них есть алгоритмы, правильно восстанавливающие де-
рево.
Пусть дано дерево с аддитивными длинами {d.}. Можно попытать-
ся восстановить его следующим образом. Найдем пару соседних листов,
т. е. имеющих общий родительский узел к. Пусть их номера i и j. Уда-
лим их из списка листьев и добавим в него к, определив расстояния до
листа т как
dkm = ъ^гт “Ь djTri dij). (7.3)
Из аддитивности следует, что определенные таким образом расстояния
dkm в точности равны расстояниям между эквивалентными узлами в
исходном дереве (см. рис. 7.6). Таким образом мы можем ощипывать
листья, уменьшая их-количество на один при каждой операции, пока не
достигнем пары листьев.
Рис. 7.6. Для любых трех листьев i,j и т есть узел, здесь обозначенный к, где
встречаются ветки, растущие от них. Из аддитивности (1гт = dzk -I- dkm, dJTn =
— djk Я- dkm и dij — dik И- djk, откуда следует, что dkm — 2 (dim H- djm ^zj)
уравнение (7.3)
Если только из расстояний можно было бы определить, какие ли-
стья соседние, мы бы таким образом могли точно восстановить дерево
с аддитивными длинами. Замечательный факт состоит в том, что мы
234
Глава 7
можем выбирать пары соседних листьев по методу, предложенному в
работе [Saitou & Nei, 1987] и модифицированному в работе [Studier &
Keppler, 1988].
Обратите внимание, что недостаточно просто взять два ближай-
ших листа, т. е. пару г, J, для которой dij минимально. На рисунке 7.7
видно, почему. Если у одного из пары соседей короткое ребро, а у дру-
гого — длинное, то тот, который с коротком ребром, может оказаться
ближе к другому листу, чем к своему истинному соседу, что и произо-
шло на представленном дереве. Прием, позволяющий этого избежать,
состоит в вычитании усредненного расстояния до всех остальных ли-
стьев, в результате это компенсирует долинные ребра. Пусть
Dij = — (ri + rj),
и через \L\ обозначен размер множества L листьев. Теперь утверждается,
что пара листьев, для которой DtJ минимально, — соседи. Доказатель-
ство этого будет приведено в конце главы. Поучительно проверить, что
это выполняется для дерева на рис. 7.7 (см. упражнение 7.9).
Рис. 7.7. Дерево, на котором пара ближайших листьев — не соседи. Показаны
длины ребер. Если длины аддитивны, то di2 — 0.3, a di3 = 0.5, т. е. соседние
листья 1,3 дальше друг от друга, чем несоседние 1,2
Полный алгоритм ближайшего соседа строит дерево Т по шагам,
на каждом шаге помня список L активных узлов дерева. Если бы было
7.3. Построение дерева по попарным расстояниям 235
заранее известно аддитивное дерево, то L было бы в каждый момент
множество листьев, оставшихся после того, как некоторые соседние па-
ры были вычеркнуты, а Т было бы деревом, построенным по этим вы-
черкнутым узлам.
Алгоритм: метод ближайшего соседа
Инициализация:
Пусть Т — множество листьев, по одному на каждую данную по-
следовательность, положим L = Т.
Итерация:
Возьмем пару z,j, для которой DZJ, определенное по (7.4), мини-
мально.
Определим новый узел к и набор dkm = ^(dirn + djm -dij) для всех
тп из L.
Добавим к к Т вместе с ребрами длиной dik = | — г7) и
djk — d^ — dik, соединяющие к с i и j соответственно.
Удалим i и j из L и добавим к.
Остановка:
Когда L состоит из двух листьев i и j, добавим оставшееся ребро
между i и j с длиной dij. <
Определение dik как j (dij + гi - rj;) дает правильную длину, ес-
ли выполняется аддитивность, поскольку это выражение — среднее
j (d^ 4- dirn ~ djm) по всем листьям m, а каждое такое слагаемое —
просто dik (ср. (7.3)).
Аддитивность — свойство, зависящее от использованной меры рас-
стояний: дерево может быть аддитивно относительно одной меры и неад-
дитивно относительно другой. В параграфе 8.6 мы увидим, что опре-
деленная форма меры расстояний максимального правдоподобия будет
аддитивной для предельного случая большого количества данных, если,
конечно, правильны предположения базовой модели. Ясно, что реальные
данные в лучшем случае будут только приближенно обладать свойством
аддитивности.
Можно использовать метод ближайшего соседа, даже если длины
не аддитивны, но в этом случае правильность восстановленного дере-
ва не гарантирована. Так же, как условие ультраметричности позволяет
проверить свойство молекулярных часов, мы можем использовать следу-
ющее свойство расстояний как тест на аддитивность: для любых четырех
листьев г, j, к и / два из расстояний dTJ + dki, dik + dji и du + djk должны
236
Глава 7
быть равны и больше третьего. Это условие четырех точек следует из
аддитивности, потому что две из сумм включают в себя длину «мости-
ка», соединяющего пары листьев (см. рис. 7.8).
Рис. 7.8. Аддитивность означает, что две из сумм длин di2 + <йз + ^24,
di4 + d,23 должны быть больше третьей и равны между собой. Это выполняется,
если попарные расстояния получены суммированием длин ребер, как показано
на диаграммах
Упражнения
7.9 Покажите, что наименьшее из расстояний Dij на дереве на рис. 7.7
соответствует паре соседних листьев.
7.10 Покажите, что для дерева с четырьмя листьями для пары сосе-
дей меньше, чем для любой другой пары на удвоенную «длину
мостика», т. е. длину ребра, соединяющего два узла ветвления де-
рева.
Укоренение деревьев
Метод ближайшего соседа, в отличие от UPGMA, дает неукоренен-
ные деревья. Нахождение корня — следующая задача, ее можно решать
путем добавления внешней группы, или группы видов, про которые из-
вестно, что они находятся в более дальнем родстве со всеми остальными
видами, чем между собой. Тогда точка дерево, где присоединяется ребро
от внешней группы, — лучший кандидат на местонахождение корня. На
7.4. Наибольшая бережливость
237
верхнем дереве на рис. 7.1, например, аксолотля можно рассматривать
в качестве внешней группы, поскольку это амфибия, тогда как осталь-
ные виды — амниоты. Поэтому разумно поместить разделение между
аксолотлем и всеми остальными видами раньше, чем все другие ветв-
ления. Если удобной внешней группы нет, можно использовать некото-
рые немного волюнтаристские методы, например выбрать середину са-
мой длинной цепи последовательных ребер, которая, как можно было бы
ожидать, соответствует корню, если отклонения от молекулярных часов
не слишком велики.
7.4. Наибольшая бережливость
А теперь мы переходим к рассмотрению, возможно, наиболее часто
используемого алгоритма построения деревьев — максимальной береж-
ливости. Он ищет дерево, которое может объяснить наблюдаемые по-
следовательности наименьшим количеством замен. Он использует стра-
тегию, отличную от той, по которой работают рассмотренные до сих
алгоритмы, основанные на расстояниях. Вместо того, чтобы строить де-
рево, он приписывает данному дереву стоимость. Значит, чтобы найти
«наилучшее» дерево, надо рассмотреть все возможные топологии или
воспользоваться более эффективной системой поиска, достигающей то-
го же эффекта (см. стр. 242). Таким образом, в этом алгоритме можно
выделить две составные части:
( 1) вычисление стоимости данного дерева Т;
( 2) поиск по всем деревьям, чтобы найти минимальную стоимость.
Начнем с примера. Пусть у нас есть следующие четыре выровнен-
ных нуклеотидных последовательности:
AAG
ААА
GGA
AGA
Можно попробовать посадить эти последовательности на разные де-
ревья и посчитать количество замен, необходимых для каждого дерева,
суммируя по всем позициям. На рис. 7.9 представлены три возможных
дерева для приведенных выше последовательностей, они различаются
порядком, в котором последовательности сопоставляются листьям. В
каждом дереве предковому узлу ставится в соответствие гипотетическая
последовательность таким образом, чтобы минимизировать количество
238
Глава 7
замен на всем дереве. Скоро мы увидим, как это делается. В самом ле-
вом дереве требуется меньшее количество замен (в сумме три), чем в
двух других (по четыре в каждом).
Рис. 7.9. Построение дерева с помощью максимальной бережливости
Как мы видим из этого примера, алгоритмы наибольшей бережли-
вости рассматривают каждую позицию независимо, а потом складывает
количество замен во всех позициях. Таким образом, основной шаг —
подсчет минимального количества замен, требующихся в одной пози-
ции, а ф b при данной топологии и сопоставлении последовательностей
листьям. Есть простой алгоритм, выполняющий этот шаг. Сначала рас-
смотрим небольшое расширение максимальной бережливости, взвешен-
ную максимальную бережливость, которая не просто считает количе-
ство замен, а прибавляет стоимость S(a,6) за каждую замену а на Ь.
Целью является минимизация стоимости [Sankoff & Cedergren 1983].
Взвешенная максимальная бережливость сводится к традиционной мак-
симальной бережливости, когда S(a, а) = 0 для всех а и S(a,b) = 1
для всех . Чтобы посчитать минимальную стоимость в позиции и, будем
поступать так: обозначим через S/Да) минимальную стоимость сопостав-
ления а в узле к.
Алгоритм: взвешенная максимальная бережливость
Инициализация:
Положим к = 2п — 1 — номер корневого узла.
Рекурсия:
Если к — лист:
Положим S'fc(a) = 0, если а = х^, S/Да) = оо в противном
случае.
Если к не лист:
Вычислим Si (a), Sj(a) для всех а в дочерних узлах i,j и поло-
жим S/Да) = min/, (5Д6) + S(a, b)) + min/, (Sj(b) + S(a, b)).
7.4. Наибольшая бережливость
239
Остановка:
Минимальная стоимость дерева = mina S2n-i(a)- <
Обратите внимание на то, что для выполнения шага «Рекурсия»
требуется вычисление Si и Sj для дочерних узлов к, i и J, а это означает
возврат к «Рекурсии» для i и для j. В результате алгоритм начинает
с листьев и работает вверх по дереву к корню. Такой способ обхода
дерева называется обратным ходом и играет важную роль во многих
компьютерных реализациях алгоритмов на деревьях.
Иногда интересно найти предковое сопоставление остатков, которое
дает минимальную стоимость. Например, один из способов определения
длины ребра — посчитать количество несовпадений, произошедших на
этом ребре, во всех предковых сопоставлениях, дающих минимальную
стоимость дерева. Этого можно добиться, если сохранять указатели от
каждого остатка а в узле к на те остатки b и с в дочерних узлах г и j со-
ответственно, которые доставляют минимум в уравнении для Sk(a) в ал-
горитме взвешенной максимальной бережливости. Пусть Zfc(a) и rfc(a) —
указатели для левого и правого дочернего узла к соответственно (у этих
указателей может быть больше одной цели, если есть несколько возмож-
ных минимизирующих остатков). Добавим шаги.
Пусть = arg min/, (S';(b) + S(a,b)) и
Гк(а) = arg min (Sj(b) 4- S(a, 6)), (7.5)
b
в конце блока рекурсии алгоритма взвешенной максимальной береж-
ливости. Чтобы получить сопоставление предковых остатков, возьмем
остаток а, дающий в корне минимальную стоимость S2n-i(a), просле-
дим назад к листьям путь по указателям, выбирая остаток произвольным
образом в тех случаях, когда у указателя больше одной цели.
В случае традиционной максимальной бережливости, когда мы про-
сто подсчитываем количество замен, все, что нужно, чтобы найти сто-
имость дерева, — это хранить в каждом узле список остатков, дающих
минимальную стоимость и текущую стоимость С.
Алгоритм: традиционная максимальная бережливость [Fitch 1971]
Инициализация:
Пусть С = 0ик = 2п — 1.
Рекурсия: Чтобы получить набор Rk'
Если к — лист:
240
Глава 7
Положим Rk = х^.
Если к не лист:
Вычислим Ri и Rj для дочерних узлов к, i и j. Набор Rk =
= RiP\Rj, если это пересечение не пусто, а в противном случае
положим Rk = Ri U Rj и увеличим С.
Остановка:
Минимальная стоимость дерева = С. <
Процедура обратного хода для восстановления предковых сопостав-
лений в традиционной максимальной бережливости: выбираем остаток
из R^n-i и спускаемся вниз по дереву. Выбрав некоторый остаток из
набора Rk, мы выбираем тот же самый остаток из дочернего набора Ri,
если это возможно, в противном случае выбираем любой остаток из Ri
(и то же самое для другого дочернего набора Rj).
Дерево Т на рис. 7.10 демонстрирует два возможных набора предко-
вых остатков, полученных при помощи такой процедуры обратного хода
(два рисунка в центре). На левом нижнем рисунке показано другое со-
поставление, которое таким способом не получается. Причина этого в
том, что поддержание минимальной стоимости в каждом узле исключа-
ет возможность компенсировать заплаченную за несовпадение цену на
более высоком уровне дерева. Это автоматически принимается во вни-
мание в алгоритме взвешенной максимальной бережливости. На правом
нижнем рисунке показаны минимальные стоимости за А и В в каждом
узле и те выборы указателей, определенных в (7.5), которые ведут к
сопоставлению как в дереве слева внизу. Обратите внимание, что левый
указатель из верхнего узла ведет в остаток В, стоимость которого на
единицу больше минимальной. Эта разница компенсируется, поскольку
за В при этом переходе не надо платить штраф за несовпадение. В це-
лом, сопоставления, которые нельзя найти обратным ходом по Rk, мож-
но найти, если хранить набор Qk остатков, чья стоимость на единицу
больше стоимости остатков в Rk. Алгоритм традиционной максимальной
бережливости может быть легко расширен так, чтобы Q вычислялись
одновременно с R.
Мы описали максимальную бережливость в контекста укорененных
деревьев. Однако в случае традиционной максимальной бережливости
минимальная стоимость дерева не зависит от положения корня. В самом
деле, в оптимальном дереве не может быть замен одновременно на обоих
ребрах, идущих от корня, иначе сопоставление в корне можно было бы
заменить на сопоставление одного из дочерних узлов, что привело бы к
уменьшению стоимости. Это означает, что, в принципе, корень можно
7.4. Наибольшая бережливость
241
{А,В}
А
{А,В}
В
Рис. 7.10. Традиционная максимальная бережливость с ценой единица за за-
мену (отмечены крестом на ребрах) и ноль в противном случае. Наборы Rk
показаны на верхнем дереве. На двух средних деревьях показаны сопоставле-
ния предковых остатков, полученных обратным ходом из Rk. На нижнем левом
дереве показан еще один допустимый набор предковых остатков, который не
может быть получен таким образом. Нижний правый рисунок показывает, как
это сопоставление можно получить с помощью обратного хода взвешенной мак-
симальной бережливости (7.5)
242
Глава 7
было бы убрать и посчитать стоимости по ребрам неукоренного дерева.
На самом деле проще считать стоимость по укорененному дереву, по-
тому что оно однозначно определяет отношение «родительский узел —
дочерний узел» для применения алгоритма максимальной бережливости.
Однако независимость от положения корня означает уменьшение коли-
чества деревьев, по которым надо делать поиск.
Упражнения
7 .11 Покажите, что алгоритм традиционной максимальной бережливо-
сти дает ту же стоимость дерева, что и взвешенная максимальная
бережливость с весами S(a,a) = 0 для всех а и = 1 для всех
а / Ь. (Подсказка: Покажите, что, чтобы найти остаток а, доставля-
ющий минимальную стоимость S'fc(a) в каждом узле к, достаточно
помнить список Rk в каждом узле.)
7 .12 Покажите, что минимальная стоимость взвешенной максимальной
бережливости также не зависит от положения корня при условии,
что стоимость замен — метрика, т.е. удовлетворяет S(a,a) = О,
симметрии S(a,b) = S(b,a) и неравенству треугольника S(a,c)
S(a, b) -|- S(b, с) для любых а, b и с.4 (Подсказка: Если в корне нахо-
дится остаток Дав его дочерних узлах — остатки В и С, покажите,
что из неравенства треугольника следует, что стоимость не может
быть минимальной. Используйте остальные два свойства метрики,
чтобы показать, что корень можно перенести в любой из дочерних
узлов без увеличения стоимости.)
Выбор размеченных схем ветвления методом ветвей и
границ
В предыдущем параграфе мы увидели, что объем поиска при по-
строении деревьев методом максимальной бережливости может быть
уменьшен, потому что нужно рассматривать только неукорененные де-
ревья. Несмотря на это, количество возможных топологий быстро растет
с ростом количества листьев. Поэтому нужны более эффективные, чем
простое перечисление, стратегии поиска.
Существуют стохастические методы поиска деревьев. Например,
можно случайным образом менять местами ветви дерева, переходя к
4В работе [Sankoff & Cedergren, 1983] предполагается, что введенная стоимость замен —
метрика, но это единственное место, в котором требуется это свойство.
7.4. Наибольшая бережливость
243
новому дереву в том случае, если его вес лучше (стоимость ниже), чем
у текущего дерева. При это не гарантировано, что мы найдем самое
лучшее дерево. Другая стратегия — строить дерево, добавляя ребра по
одному. Три последовательности выбираются случайно и располагаются
на неукорененном дереве. Затем выбирается новая последовательность
и добавляется к тому ребру, которое дает наилучший вес дерева из
четырех последовательностей. Следующая случайно выбранная после-
довательность также располагается в месте, дающем наилучший вес и
так далее. Этот путь также не гарантирует получение самого лучшего
дерева, и, действительно, если мы будем добавлять последовательно-
сти в другом порядке, мы можем получить другое финальное дерево
[Felsenstein 1981а].
В случае максимальной бережливости есть способ гарантированно
найти наилучшее дерево. Он использует тот факт, что увеличить количе-
ство замен в дереве можно, только добавив лишнее ребро. Метод ветвей
и границ основан на том, чтобы систематически стоить дерево с увели-
чивающимся количеством листьев, всякий раз отказываясь от какого-то
определенного пути построения, если стоимость текущего неполного де-
рева превышает наименьшую стоимость, полученную к этому моменту
для полного дерева.
Пронумеруем все неукорененные деревья массивом [г3] [г5] [гу]...
[^2п-5], где ik принимает значения Соответствие с деревьями
строится следующим образом. Возьмем неукорененное дерево из трех
последовательностей ж1, х2 и .т3, и добавим на ребро, отмеченное г3,
узел, от которого будет отходить ребро для .т4. Поскольку новое ребро
делит старое на два, общее количество ребер становится 3 + 2 = 5. Зна-
чение г5 определяет, к которому из этих ребер мы добавим .т5, что даст
нам 5 + 2 = 7 ребер. И так далее, вплоть до хп, для которой существует
(2п — 5) возможных мест прикрепления.
Теперь представьте, что
[*3] [^б] [^7] • • • [^2п—б]
— одометр (счетчик километров) на панели автомобиля. Самое правое
число растет, пока не станет равным 2п — 5, после чего оно сбрасывается
на 1, а второй справа элемент массива возрастает на единицу. Когда
второй справа счетчик достигнет значения 2п — 7, он опять начинает с 1,
а следующий за ним счетчик возрастает на 1. И так далее.
Таким образом мы перечислим все деревья с п листьями, но, по-
скольку мы будем строить деревья переменного размера, нам нужно
244
Глава 7
учитывать деревья и с меньшим количеством листьев. Для этого мы
добавляем «О» к каждому счетчику, что означает, что пока нет ребра
того порядка, который описывается счетчиком. Тогда каждый счетчик
будет изменяться от 0 до гь Однако в таком случае мы можем получить
некоторые бессмысленные значения, потому что невозможно добавить
ребро к еще не существующему, т. е. ненулевой счетчик не может встре-
титься справа от 0. Поэтому если в какой-то момент в правой части
возникло некоторое количество нулей, чтобы сделать следующий шаг,
мы должны все эти счетчики одновременно увеличить до единицы (на-
пример, перейти от (i) к (ii) на рис. 7.11).
7 0 0 0 0
7 1111
8 0 0 0 0
Рис. 7.11. Одометр для перечисления неукорененных деревьев
Процесс начинается с установки одометра на [1][0][0]... [0]. Пусть
наименьшая на данный момент стоимость дерева — С. Как только сто-
имость текущего дерева Т становится больше С, становится ясно, что
дерево Т не оптимально. Но (и в этом фокус) если в этот момент все
счетчики справа от некоторого ненулевого счетчика — нули, вместо того,
чтобы увеличивать их все до 1, мы можем перевести этот самый правый
ненулевой счетчик на единицу вперед. Это можно сделать потому, что
самый правый ненулевой счетчик определяет дерево с к < п листьями,
а добавление следующих листьев может только увеличить стоимость
дерева. Поэтому можно сразу перейти к следующему дереву с к листья-
ми (например, от (i) к (iii) на рис. 7.11). Этот метод позволяет сильно
сэкономить на поиске.
7.5. Оценка деревьев: бутстрап
Описанные алгоритмы построения деревьев дают дерево или, в слу-
чае максимальной бережливости, несколько оптимальных деревьев, но у
7.6. Выравнивание и филогения одновременно
245
нас нет никакого представления о том, насколько этим деревьям можно
доверять. В работе [Felsenstein 1985] предлагается использовать метод
бутстрап [Efron & Tibshirani 1993] для оценки значимости какой-либо
филогенетической особенности, такой как отделение определенного на-
бора видов на свою собственную ветку (’кладу’).
Бутстрап работает так. По данному выравниванию последовательно-
стей путем случайного выбора и перемещения колонок строится искус-
ственное выравнивание. («Любая колонка исходного выравнивания мо-
жет, таким образом, появиться несколько раз в искусственном выравни-
вании.) После этого алгоритм построения дерева применяется к этому
новому выравниванию, и вся процедура выбора и построение дерева
повторяется некоторое количество раз, обычно, порядка 1000. Предпо-
лагается, что частота, с которой появляется данная филогенетическая
особенность, и есть мера доверия к ней.
Для определенных вероятностных моделей можно показать, что ча-
стота по бутстрап некоторой филогенетической особенности F аппрок-
симирует апостериорное распределение F(F|data) (см. стр. 286). При
применении бутстрап для модели, не формулируемой в терминах веро-
ятности, такой как максимальная бережливость, его можно интерпрети-
ровать с смысле статистической проверки гипотез, хотя может потребо-
ваться более сложная, чем описанная выше процедура, чтобы бутстрап
соответствовал стандартному понятию доверительного интервала [Efron,
Halloran & Holmes 1996].
7.6. Выравнивание и филогения одновременно
Теперь займемся задачей одновременного выравнивания последова-
тельностей и нахождения для них подходящей филогении. Есть два ал-
горитма типа максимальной бережливости, которые решают эту задачу.
Первый использует модель замены делеции символом, а второй — аф-
финные штрафы за делеции. Оба находят оптимальное выравнивание по
дереву, и необходимо искать среди всех деревьев, чтобы найти общий
оптимум.
Алгоритм замены делеции Санкоффа-Седергрена
Алгоритм Санкоффа-Седергрена гарантирует нахождение предко-
вых последовательностей и выравнивания их с последовательностями
на листьях, которые вместе минимизируют вычисленную по дереву сто-
имость типа максимальной бережливости [Sankoff & Cedergren 1983]. По
246
Глава 7
сути, этот алгоритм — комбинация двух уже описанных в этой книге
алгоритмов (рис. 7.12). В главе 6 на стр. 197 был описан метод вырав-
нивания набора из N последовательностей, х1, .т2,..., xN, с помощью
динамического программирования [Sankoff & Cedergren 1983, Waterman
1995]. Заменим максимум на минимум (мы считаем стоимости, а не вес),
и получим минимальную стоимость выравнивания, оканчива-
ющегося на х- ,xf ...., х-\,
лй {^й — At -й - А2,.. In - А/у “Ь
Д14-...4-Длг>0
+ <ЙД1 • ^!, > д2 • xl2,..., Ajv • , (7.6)
где Аг равно 0 или 1, и Д?: • х = х, если А; = 1 и А, • х = ' - ', если
А/ = 0. ст — это стоимость дерева по методу взвешенной максималь-
ной бережливости для выравнивания символов расширенного алфавита.
Эту стоимость можно посчитать проходом вверх по дереву по алгоритму
взвешенной максимальной бережливости (стр. 238), где 5(а,5) опреде-
лено не только когда а и b — пара остатков, но и когда один из них или
оба - символы делении « —».
Таким образом, процедура алгоритма Санкоффа-Седергрена тако-
ва: когда в индукции мы доходим до остатков , £tv), каждый из
членов ай-Д1,12-Д2, ..in-An в (7.6) уже посчитан для всех 2N-1 комби-
наций Ai,..., An, a ст (Ai • х^, А2 • гг22,..., Ayv • можно посчитать
проходом вверх по дереву (для чего требуется порядка N шагов, по
одному на каждое ребро). Все вычисления, таким образом, требуют по-
рядка A^(2ri)N шагов, где п — длина последовательностей. К сожалению,
это слишком долго если последовательностей больше, чем полдюжины,
и они нормальной длины (порядка 100 остатков).
Алгоритм аффинных штрафов Хейна
Алгоритм Хейна использует аффинные штрафы за делении, что бо-
лее реалистично, чем считать делении заменами. Это также значительно
быстрее, чем алгоритм Санкоффа-Седергрена в большинстве реальных
случаев — достаточно быстро, на самом деле, чтобы позволить себе по-
иск по топологиям дерева для наборов последовательностей скромного
размера. В настоящее время это единственный алгоритм, позволяющий
эффективно выравнивать последовательности и исследовать различные
филогении. Цена за эти существенные преимущества — то, что алгоритм
делает упрощающее предположение при выборе предковой последова-
7.6. Выравнивание и филогения одновременно
247
Рис. 7.12. Матрица динамического программирования для алгоритма Санкоф-
фа-Седергрена для трех последовательностей. Все переходы в матрице показаны
стрелками. Для трех последовательностей в каждой точке существует 7 возмож-
ных переходов. Каждому из них приписана стоимость — минимальная стоимость
дерева по алгоритму максимальной бережливости, листья которого определяют-
ся переходом так: если единица вычитается из координаты, соответствующему
листу приписывается предыдущий символ во входящей последовательности; ес-
ли координата не изменяется, ее листу приписывается «—». Например, пере-
ходу из (z,j — 1,/с) в (i,j, к) сооответствует дерево, показанное на рисунке
тельности, которое не всегда приводит к глобально лучшему решению в
смысле максимальной бережливости.
Предположим, нам дано дерево. Вспомним, что алгоритм традици-
онной максимальной бережливости поднимается по дереву, приписывая
каждому узлу список возможных остатков. Это именно те остатки, кото-
рые минимизируют количество замен на двух ребрах к обоим дочерним
узлам. В этом случае можно найти минимальное количество замен на
всем дереве, минимизируя его в каждом узле. Та же самая процедура ис-
пользована в алгоритме Хейна — при обходе дерева вверх в каждом узле
248
Глава 7
рассматриваются только те последовательности, которые имеют мини-
мальную стоимости при данных последовательностях в дочерних узлах.
В дальнейшем мы увидим, что, в отличие от традиционной максималь-
ной бережливости, не гарантировано, что таким способом мы найдем
минимальную стоимость для всего дерева. Но сначала давайте разбе-
ремся, как определяются последовательности минимальной стоимости в
каждом узле.
Цель — найти в данном узле последовательности г, выровненные с
обеими последовательностями х и у в дочерних узлах и удовлетворяю-
щие условию
S{x,z) + S(z,y) = S(x,y) (7.7)
где S — полная стоимость данного выравнивания двух последователь-
ностей. Если предположить, что цена несовпадения единица, и ноль в
остальных случаях, равенству (7.7) удовлетворяет последовательность г,
в которой каждая позиция совпадает с х или у (или с обеими, если ути
у в этой позиции один и тот же остаток). Алгоритм Хейна можно также
расширить для общего случая взвешенной максимальной бережливости
(см. упражнение 7.13).
Мы пока еще не показали, что можно найти последовательность г,
удовлетворяющую (7.7), так как надо разобраться с делециями. Для это-
го мы используем процедуру динамического программирования для аф-
финных штрафов за делеции, описанную в главе 2. Пусть через Vм(i, j),
VYобозначены минимальные стоимости выравнивания до
позиции i последовательности х и позиции j последовательности у в
случаях, когда (1) г-й остаток х выровнен с j-м остатком у\ (2) г-й оста-
ток х выровнен с делецией в у и (3) j-й остаток у выровнен с делецией
в х. Это стоимости по алгоритму Витерби до состояния сопоставления
M(z,j) и состояний вставки X и Y соответственно. Пишем три числа
Vм, ух и yY в клетке j) матрицы динамического программирования
(рис. 7.13). Пусть аффинный штраф за делецию длины к равен d+(k —
— 1)е, где е d. Рекурсия запишется так:
Vx(i,j) = min{VM(z — 1, J) + d, Vх (i — 1, j) + e},
VY(i, j) = inin{VM(i, j — 1) + d, VY(i,j — 1) + e}
(7-8)
Здесь мы предполагаем, что штраф за несовпадение меньше 2е, что дает
нам гарантию, что никогда за делецией в одной последовательности не
7.6. Выравнивание и филогения одновременно 249
ТТАС__
будет немедленно следовать делеция в другой, например тт_GG, Напро-
ТТАС
тив, мы предпочтем сопоставить остатки, для этого примера TTGG •
С Т С А С А
Рис. 7.13. Матрица динамического программирования для двух последователь-
ностей. В ячейках записаны Vм, Vх и VY сверху вниз. Оптимальные пути
обозначены линиями между ячейками. Здесь d = 2, е = 1, а цена за несовпа-
дение — 1. Обратите внимание, что сюда включены стоимости, получающиеся
при вставке делеции в одну последовательность сразу после делеции в другой
последовательности (например, VY = 4 во второй слева ячейке второго свер-
ху ряда получается из Vх = 2 в верхней ячейке), несмотря на то, что такие
сопоставления не оптимальны
Отметим все переходы, которые дают минимальную стоимость (на-
пример, отмеченные на рис. 7.13). «Любой путь, составленный из этих
переходов, даст нам оптимальное выравнивание х и у. Предположим те-
перь, что х и у — последовательности в двух дочерних узлах узла п.
«Любой путь по нашим отмеченным переходам также позволяет опреде-
лить допустимую предковую последовательность в узле п следующим
образом. Если переход соответствует сопоставлению двух остатков в х
и у, мы записываем один из этих остатков предковую последователь-
250
Глава 7
ность. Если переход соответствует сопоставлению остатка и делении, в
предковую последовательность мы записываем либо делению, либо этот
остаток.
Это даст нам последовательность г,выровненную с х и у. Из спосо-
ба построения z ясно, что если в какой-то позиции ух и у стоят остатки,
то в г стоит остаток, совпадающий либо с х, либо с у (или, возможно, с
ними обоими). Значит, сделан равный вклад в обе части равенства (7.7).
То же самое будет выполняться, если в х или у стоит деления, если
мы проявим немного осторожности с штрафами за открытие делении.
По сути наш рецепт построения предковой последовательности нужно
дополнить таким правилом: если на пути встречается блок последова-
тельных делеций в одной последовательности против остатков в другой
последовательности, в предковой последовательности эти остатки либо
должны быть все пропущены, либо все включены.
Например, при данных двух последовательностях САС и СТСАСА
(см. рис. 7.13), можно получить предковую последовательность СТС, ес-
ли идти по нижнему пути в матрице, который соответствует выравни-
САС---
ванию с выбором Т во второй позиции и пропуском блока из
Cz X CzZxCzA.
трех делеций. Эта предковая последовательность возможна, потому что
САС
ее можно выровнять и с САС — стс — со стоимостью 1 за несовпадение
стс__________________________
А нТ, и с СТСАСА — со стоимостью d -I- 2е. Сумма двух этих
САС----
стоимостей — d + 2e + 1 — стоимость исходного выравнивания
Cz X CzZtCzZt
Похожим образом, САСАСА — другая допустимая предковая последо-
вательность, полученная выбором остатков из блока, выровненного с
делециями. Что не разрешено — это использовать только некоторые из
этих остатков. Например, САСАС — не предковая последовательность.
В самом деле, оптимальные выравнивания с дочерними последователь-
САСАС САСАС-
ностями — со стоимостью d-|-е и со стоимостью d+ 1,
САС— СТСАСА
и обе стоимости включают штраф за открытие делеции. Сумма этих сто-
имостей 2d+e+1 больше d+2e+l (стоимость исходного выравнивания),
поскольку мы предполагаем, что d > е.
Теперь формализуем идею прохода по пути в матрице динамическо-
го программирования с помощью извлечения графов из этой матрицы.
Какой бы из трех входов в ячейку матрицы динамического программиро-
вания не был использован в оптимальном пути, обозначим это вершиной
7.6. Выравнивание и филогения одновременно
251
на графе. Важно отметить, что разные точки входа в ячейку требуют
различных вершин. Ситуация на рис. 7.14 иллюстрирует, почему: оба
оптимальных пути проходят через предпоследнюю ячейку, один через
состояние М со стоимостью 3, а другой — через состояние X со стои-
мостью 4. Если бы мы перепутали пути в этой ячейке, мы бы потеряли
информацию о том, открываем ли мы или продолжаем делецию (см.
[Altschul & Erickson, 1986]).
Направленные ребра графа — переходы в оптимальном выравнива-
нии. Приписываем остатки всем этим ребрам: если переход приводит
к сопоставлению двух остатков, ребру приписываются они оба, если
сопоставляются остаток и делеция, ребру приписывается только этот
остаток. В конце мы добавляем «пустые ребра», которые соответствуют
последовательному блоку из двух или более делеций. Они ведут от вер-
шины в начале блока к вершине в его конце, и им не приписаны никакие
остатки.
Теперь рассмотрим пути по этому графу от начальной точки до точ-
ки, соответствующей последнему остатку в каждой последовательности.
Правило состоит в том, что каждый путь при проходе по ребру выбра-
сывает соответствующие символы, при этом если на ребре несколько
символов, он выбирает один. Легко видеть, что любой путь по графу
выбрасывает допустимую последовательность. Будем называть этот граф
графом последовательностей.
Эта конструкция применима к случаю, когда каждый из двух дочер-
них узлов — лист, и ему соответствует только одна последовательность.
Что происходит, когда мы поднимаемся по дереву, и дочерним узлам со-
ответствуют много допустимых последовательностей? Остроумная идея
Хейна заключается в том, чтобы проделать точно ту же конструкцию, но
в качестве объектов для сопоставления с помощью матрицы динамиче-
ского программирования использовать графы, а не последовательности.
Для этого сначала растянем каждый граф так, чтобы его вершины
вытянулись в линию (средний рисунок на рис. 7.14), это всегда можно
сделать так, чтобы все ребра указывали в одном направлении. Пусть
есть два графа — Gi и G2. Снова будем хранить значения Vм, Vх и
VY в каждой ячейке. Однако вместо того, чтобы рассматривать пере-
ходы из предшествующих остатков последовательностей, теперь опре-
делим «предшествующие» вершины как те, из которых ведут входящие
ребра в графе. Если среди них есть пустое ребро, мы можем вернуться
к вершине, где оно началось, и предшествующее непустое ребро из нее
определит предшествующую вершину. Обратите внимание, что, так как
пустое ребро перепрыгивает целый блок делеций, и поскольку условие,
252
Глава 7
Рис. 7.14. Граф последовательностей, полученный из путей в матрице динамиче-
ского программирования на рис 7.13. Вверху: граф с пустыми ребрами (помечен-
ными <5). В центре: тот же граф с узлами, вытянутыми в линию. Внизу: пустые
ребра заменены на ребра, идущие из стартовой вершины предыдущего ребра,
и выбрасывающие символ, приписанный к этому ребру
что стоимость несоответствия меньше 2е, исключает возможность по-
явления блока делеций в одной последовательности сразу после такого
блока в другой, не может быть цепочки последовательных пустых ре-
бер. Следовательно, комбинаторный взрыв количества предшествующих
остатков произойти не может.
7.6. Выравнивание и филогения одновременно
253
Процедуру обработки пустых ребер можно заменить на предвари-
тельную модификацию каждого графа последовательностей — удалить
в них все пустые ребра (помеченные J на рис. 7.14) и заменить их на ре-
бра, идущие от начала ребра, предшествующего пустому, с символами,
приписанными этим предшествующим ребрам. Средний и нижний рису-
нок на рис. 7.14 показывают, как работает эта замена. Теперь переходы в
матрице динамического программирования описать просто: это ровно те,
которые получаются при проходе по ребрами модифицированных графов
Gi и G? (см. рис. 7.15).
После того, как мы определили все V в ячейках матрицы, нахо-
дится оптимальный путь, как и прежде, обратным проходом, и строится
новый граф последовательностей G3. Есть одна особенность. Ребрам гра-
фа могут быть приписаны несколько символов, которые соответствуют
наборам Rk в алгоритме традиционной максимальной бережливости. Ту
же процедуру, что и для алгоритма максимальной бережливости, мож-
но применить здесь для комбинирования наборов символов. Если Vм
определено по какому-то ребру Gi и какому-то ребру G2, и если у этих
ребер есть общий символ (т. е. не было штрафа за несовпадение в пути
через оба эти ребра), то новому ребру G3 приписываются только общие
символы. Если общих символов не было, то новое ребро получает все
символы с обоих ребер.
Теперь по матрице можно провести рекурсию (7.8). Оптимальные
пути по матрице определяют новый граф, и таким образом, мы про-
должаем подниматься по дереву, пока не придем к корню. После этого
можно спуститься по дереву и восстановить дочерние последовательно-
сти, соответствующие данной последовательности в корне. Для этого
нужно пройти по последовательным ребрам каждого дочернего графа
по следу предковой последовательности, выбирая в потомках символы,
которые сочетаются с символами в предке. Если в одном из дочерних
графов делеция или череда делеций перепрыгивают через последова-
тельные узлы, пропущенные ребра должны быть заполнены, при этом
символы выбираются произвольно. Например, на рис. 7.13 след предко-
вой последовательности САС проходит по нижнему пути, тогда первые
три символа СТС . . . дочерней последовательности СТСАСА восста-
навливаются из него, а последние три символа . . . АСА должны быть
добавлены, хотя они и пропущены в предковом пути при использовании
пустого ребра (ребро 8 длины 3 в верхней части рис. 7.14). Возмож-
ные предковые последовательности для некоторого дерева показаны на
рис. 7.16. Графы последовательностей для этого дерева изображены на
рис. 7.13 и 7.15.
254
Глава 7
с
Рис. 7.15. Матрица динамического программирования для графов последова-
тельностей: нижний граф на рис. 7.14 против последовательности ТАС. Граф
последовательностей, порожденный этой матрицей, дает все возможные пред-
ковые последовательности для верхнего узла на рис. 7.16. Значения Vм, Vх
и VY в каждой ячейке определяются как минимум по всем «предшествующим»
вершинам (вершинам — началам ребер, идущих в данную вершину). Это про-
иллюстрировано на верхнем рисунке для вычисления значения Vм в ячейке
7.6. Выравнивание и филогения одновременно
255
ТАС
।—САС —
САС
СТСАСА
Рис. 7.16. Возможные предковые последовательности для последовательностей
ТАС, САС и СТСАСА на листьях при дереве, показанном на рисунке
Мы описали, как можно выровнять последовательности по данному
дереву. Также необходимо провести поиск по всем деревьям, для каковой
цели Хейн [Hein 1989b] предложил свой эффективный алгоритм поис-
ка. Всю процедуру можно провести, если графы последовательностей не
слишком сложные. Если нам придется включать почти все переходы в
матрице динамического программирования, общая сложность вычисле-
ний будет возрастать, как сложность алгоритма Санкоффа-Седергрена.
Приходится предположить, что большинство выравниваний дают мало
путей с минимальной стоимостью. Это правда, если последовательности
достаточно похожи, поскольку тогда будут возникать длинные куски
несомненных совпадений, которые определяют единственный путь через
матрицу.
Упражнение
7.13 Алгоритм Хейна можно расширить для обобщенных весов S(a,6),
добавив к каждому ребру графа вместо набора Rk набор мини-
мальных стоимостей Sfc(a) (как в алгоритме взвешенной макси-
мальной бережливости). Покажите, что (7.7) выполняется, если z
имеет общий остаток с х или у, при условии, что S(a,a) = 0 для
любого а. Оцените минимальные стоимости (предполагая алфавит
нуклеиновых кислот) для графов последовательностей на рис. 7.13,
7.14 и 7.15.
256
Глава 7
Ограничения модели Хейна
Вернемся теперь к процедуре Хейна, при которой при проходе вверх
по дереву в каждом узле берутся последовательностей минимальной сто-
имости. Чтобы понять, что это может не давать глобального оптимума
для всего дерева, предположим, что цена делеции длиной к равна 13 +
+ 3(fc - 1), а цена несовпадения 4 (эти значения Хейн использовал в
примере выравнивания 5S РНК). Допустимые предковые последователь-
ности G и GTT — это только сами G и GTT. В каждом случае требуется
сделать делецию длиной 2 при выравнивании с одной из дочерних по-
следовательностей. Ее цена — 13 + 3 = 16. Последовательность GT не
является допустимой, потому что в этом случае требуется по одной де-
леции в обоих выравниваниях ( и ), что в общей сложности
GT GTT
стоит 2 х 13 = 26. Но предположим, что в нашем дереве от корня идут
ребра к предку G и GTT и к еще одному листу GT (см. рис. 7.17). Тогда
общая стоимость дерева с недопустимым предком GT меньше, потому
что в этом случае требуется сделать всего две делеции размера 1, то-
гда как при любом из допустимых предков потребуется одна делеция
размера 1 и одна делеция размера 2.
GTT
GT
Рис. 7.17. Случай, для которого правило Хейна для выбора оптимальной пред-
ковой последовательности не дает общего оптимального восстановления предко
Предупреждение'. В. Schwikowski недавно показал, что процедура
конструирования пустых ребер имеет недостатки. Альтернативная про-
цедура, которая использует граф последовательностей Хейна, но избега-
ет этих ловушек, описана в работе Schwikowski, В and Vingron, М. 1997.
The deferred path heuristic for the generalized tree alignment problem.
Journal of Computational Biology 4:415-431.
7.7. Дополнительное чтение
7.7. Дополнительное чтение
257
Алгоритм максимальной бережливости впервые был сформулирован
в работах [Edwards & Cavalli—Sforza, 1963; 1964] для случая непрерыв-
ных параметров, и это фактически было нахождением дерева минималь-
ной длины, соединяющего точки в евклидовом пространстве. Алгоритмы
подсчета стоимости для максимальной бережливости в случае последо-
вательностей или других дискретных переменных были введены в рабо-
тах [Camin & Sokal, 1965; Eck & Dayhoff, 1966; Fitch, 1971] и других.
Сочетание простоты этих алгоритмов и обилия данных о последователь-
ностях сделало эти алгоритмы очень популярными.
Существует мнение, что максимальная бережливость — прямой фи-
лософский потомок бритвы Оккама, и поэтому она свободна от спе-
цифических эволюционных предположений, например: «Использование
максимальной бережливости в филогенетической систематике ничем не
отличается от использования ее в любом другом разделе биологии или
любой другой науки, (и) не предполагает никакого специального эволю-
ционного механизма» [Brooks & McLennan 1991, стр. 65]. Поучительное
разоблачение этой точки зрения можно найти в [Edwards 1996]. См.
также раздел 8.6, где приведена новая интерпретация максимальной бе-
режливости, связывающая ее с вероятностными моделями, описанными
в этой книге.
Филогенетические методы расстояний были также впервые описаны
в работах [Edwards & Cavalli-Sforza, 1963; 1964]. Они предложили оп
методу наименьших квадратов оценить разницу между наблюдаемыми
расстояниями и суммами длин по дереву. Алгоритм ближайшего соседа
также можно интерпретировать в терминах наименьших квадратов —
в этом случае наблюдаемые расстояния сравниваются расстояниями в
упрощенном дереве [Saitou & Nei 1987]. Кроме описанных здесь, есть
много других методов расстояний. Упомянем только один из них: ме-
тод, описанный в [Fitch & Margoliash 1967а] сочетает кластеризацию с
определением расстояний по (7.3).
Некоторое количество математических предложений выполняется
для деревьев с аддитивными длинами. В дополнение к теореме Студье-
Кепплера, доказанной в разделе 7.8, в работе [Buneman 1971] показа-
но, что если набор расстояний удовлетворяет условию четырех точек
(стр. 236), может быть найдено дерево и набор длин ребер, для которых
эти расстояния являются суммами длин ребер.
Горизонтальный перенос генетического материала приводит к инте-
ресному повороту в вопросах филогении. С первого взгляда это делает
258
Глава 7
невозможным использование простой структуры дерева, так как реком-
бинация связывает последовательность с ее двумя предками, тем самым
создавая цикл. Однако фрагмент с каждой стороны от точки рекомби-
нации имеют каждый своего предка, значит геном можно представлять
себе как объединение сегментов, каждый со своим собственным фило-
генетическим деревом [Hein 1993]. События рекомбинации, вероятно,
наиболее важны в прокариотах и вирусах, где и часто происходит гори-
зонтальный перенос. (Рекомбинации, возникающие в диплоидном «гене-
алогическом дереве», конечно, еще более часты, но это требует другой
модели, в которой доминирует кроссинговер, а последовательности эво-
люционируют мало.)
Обобщение деревьев было предложено в работе [Bandelt & Dress
1992]. В ней показано, как строить по расстояниям сети, которые вет-
вятся, как деревья, там, где сильны основания для такой топологии,
и образуют сетку в сомнительных участках. Полезные ссылки по общим
вопросам о филогении — работы [Waterman 1995], [Swofford & Olsen
1996], недавние обзоры можно найти в [Saitou 1996] и [Felsenstein 1996].
7.8. Приложение: доказательство теоремы ближайшего
соседа
Для полноты изложения и потому, что это приятный математи-
ческий результат, мы включили сюда доказательство, изложенное в
[Studier & Keppler 1988], того, что листья с минимальным вычисленным
в методе ближайшего соседа модифицированным расстоянием — дей-
ствительно, соседи. Это гарантирует, что дерево с аддитивными длинами
будет правильно восстановлено по методу ближайшего соседа. Недавняя
статья расширяет этот результат и показывает, что метод ближайшего
соседа также правильно восстанавливает дерево, в котором длины ребер
аддитивны только приблизительно [Attenson 1997].
Теорема. Для дерева с аддитивными расстояниями, минимальное
значение Dij определяет пару соседних узлов i,j.
Доказательство.
Предположим, что — наименьшее значение из всех D. Пусть i
и j — не соседние листья. Покажем противоречие.
Поскольку i и j — не соседи, на пути от г к j должно быть по край-
ней мере два узла (см. рис. 7.18). Назовем эти узлы I и к и пусть Lk —
множество листьев, отходящих от третьего ребра от узла к, т. е. не от
ребра к i или j. Пусть Li — то же самое для узла I. Пусть тип — пара
7.8. Приложение: доказательство теоремы ближайшего соседа 259
Рис. 7.18. Вверху: Если листья i и j — не соседи, то на пути, соединяющем их,
есть по крайней мере два узла, обозначенные здесь к и I. Ветвь от к, которая не
идет ни кг, ни к J, называется Lk, и здесь на ней обозначены два соседних листа
тип. Ветвь от I называется Li, и на ней обозначен лист z. Внизу: Показаны
пути от г до у (точки) и от j до у (пунктир), что наглядно доказывает, что
<%гу Н- djy = (1гj “h %dky
соседних листьев из Lk и р — соединяющий их узел (если такой пары не
существует, возможно другое рассуждение, см. упражнение 7.14). Пусть
duv — сумма длин ребер на пути, соединяющем любые два узла и и v. Из
аддитивности следует, что duv — правильное расстояние, если оба узла
и и v — листья. Для любого у из Lk очевидно, что diy + djy = dij + 2dky
(см. нижний рисунок на рис. 7.18). Аналогично, dmy + dr)y = dTr)/n + 2dpy.
Следовательно,
diy ~h djy dmy dny — d[j -|- ^dky 2dpy dmn.
Аналогично для z из Li
diz + djz drnz dnz — djj d7nn
(7-10)
260
Глава 7
Из определения DTJ
Dij Dmn — dij d-i
^mn n 2| diii H- dju drnu dnu
\по всем листьям и
и легко вывести из (7.9) и (7.10), что коэффициенты d^ и drnn, просум-
мированные по всем листьям и дерева, оба равны (N — 2) (см. упраж-
нение 7.15). Таким образом, слагаемое d^ — drnn сокращается, и можно
записать:
Dij Drnn
N^2 52 (2dpy 2dky) + (2dpk ~h 2dik) j “Ь Сч
\ у из Lk z из Li /
где С — по всем остальным положительным слагаемым из других ветвей
на пути от i до j кроме /си/. Обозначив через \Li\ и \Lk\ количество
листьев в Li и соответственно, и используя тот факт, что dpy —
dfcy > dpk, имеем
— Drnn > 2dpk (|Ь/| — |Z/fc|)/(7\7 — 2).
Поскольку — минимально, то £>mn > DZJ, следовательно, \Li\ < \Lk\-
Но то же рассуждение можно провести, поменяв местами I и к. Тогда
мы получим, что \Lk\ < \Li\. Значит, наше предположение неверно, и i
и j — соседние листья.
Упражнения
7.14 Если на ветви от к есть только один лист т (т. е. невозможно найти
пару соседних листьев в L^), покажите, что из того, что на пути от i
до j есть еще один лист, следует, что DZJ > DJTn, что противоречит
предположению о минимальности DXJ.
7.15 Покажите, что в (7.9) отсутствует слагаемое 2dpy, если у = т или
у = п. Покажите, что это означает, что слагаемое 2dpy можно вклю-
чить в сумму 52 (2dpy — 2dky) в (7.11) для любого у из L^, включая
у = т и у = п, при условии, что мы вычитаем из этой суммы
2dprn + 2dpn. Покажите, что слагаемое drnn уничтожается, и про-
верьте случаи, когда у = i и у — j.
Глава 8
Вероятностные подходы к филогении
8.1. Введение
Цель этой главы — сформулировать вероятностные модели фило-
гении и показать, как можно восстановить дерево по набору последо-
вательностей методами наибольшего правдоподобия или выборочными
методами. Также мы вернемся к филогенетическим методам, рассмот-
ренным в предыдущей главе, и покажем, что часто их можно интерпре-
тировать с точки зрения вероятности, хотя обычно их не рассматривают
таким образом.
Обзор вероятностных подходов к филогении
Основная цель основанной на вероятности филогении — оценивать
деревья либо с точки зрения их правдоподобия Р(данные|дерево), либо,
если принять более байесовскую точку зрения, их апостериорной ве-
роятности Р(дерево|данные). Возможны и второстепенные цели, такие
как нахождение правдоподобия или апостериорной вероятности опреде-
ленных таксономических особенностей, например, группировки какого-
либо набора организмов на отдельной ветви. Для достижения любой из
этих целей мы должны уметь определить и вычислить Р(т*|Т, £.) —
вероятность набора данных при условии дерева. Здесь данные — это
набор из п последовательностей х\ где j = l...n, который мы кратко
обозначаем через х*. Т — дерево с п листьями, в котором на листе j
находится последовательность j, a t9 — длины ребер этого дерева. Для
определения Р(х*\Т, £.) нужна модель эволюции, т. е. событий мутаций
и отбора, которые изменяют последовательности вдоль ребер дерева.
Предположим, мы можем определить P(x\y,t) — вероятность пред-
ковой последовательности у эволюционировать в последовательность х
за время t. Тогда вероятность Т с определенным набором предков в уз-
лах можно получить, перемножив эволюционные вероятности для каж-
дого ребра дерева. Например, для дерева, изображенного на рис. 8.1, эта
262
Глава 8
вероятность выглядит так:
P(xl,,..,x5\T,t.) =
= Р (х1 |т4, ^1) Р (т2|т4, £2) Р (z3|z5, £3) Р (т4|т5, ^4) Р (т5) ,
где через Р (т5) обозначена вероятность возникновения .т5 в корне де-
рева. В основном (за исключением лабораторных экспериментов, таких,
как описанный в [Hillis et al. 1992]), предковые последовательности
неизвестны, значит, чтобы получить Р (ж1,..., .т3|Т, — вероятность
известных последовательностей при данном дереве, нужно просуммиро-
вать по всем возможным предкам т4,т5. Это похоже на суммирование
по всем различным путям в НММ для получения вероятности наблюда-
емых данных (см. главу 3).
Рис. 8.1. Пример дерева из трех последовательностей
В этой модели можно искать дерево наибольшего правдоподобия,
а именно, дерево с топологией Т и длинами ребер которое максими-
зирует Р(х*\Т, £.). Для нахождения этого максимума нужно: (1) сделать
поиск по всем топологиям дерева, включая различный порядок приписы-
вания последовательностей листьям и (2) для каждой топологии сделать
поиск по всем возможным длинам ребер t9.
Как мы уже видели (стр. 226), существует всего (2п — 3)!! укоре-
ненных бинарных деревьев с п листьями, а это слишком много, если
последовательностей больше полудюжины. Поэтому для выполнения (1)
необходима эффективная процедура поиска (см. пример на стр. 242 и
8.2. Вероятностные модели эволюции 263
[Felsenstein 1981а]). Часть (2) — максимизацию правдоподобия по дли-
нам ребер — можно выполнить, используя разнообразные оптимизаци-
онные техники (см. раздел 8.3).
Другая стратегия — стохастический поиск по деревьям случайным
выбором из апостериорного распределения Р(т*|Т, t.) (раздел 8.4). Эта
стратегия была предложена недавно, но метод кажется многообещаю-
щим.
8.2. Вероятностные модели эволюции
Мы еще не определили форму P(x\y,t) — вероятности того, что по-
следовательность у эволюционирует в последовательность х за время t.
Для этого нам нужна модель эволюции. Мы знаем, что в ходе эволю-
ции одни остатки заменяются другими, происходят делеции и вставки
групп остатков, а также что структуры нуклеиновых кислот и белков
накладывают более сложные ограничения. Модели делеций и вставок
мы рассмотрим позже, а для начала сделаем некоторые предположения,
радикально упрощающие картину: что каждую позицию данных после-
довательностей можно рассматривать независимо, и что не происходит
делеций и вставок. Это значит, что наши последовательности образуют
безделеционное выравнивание, каждая позиция которого эволюциони-
рует независимо.
Пусть P(b\a, £) — вероятность того, что остаток а будет замене на
остаток b при прохождении по ребру длиной t. Тогда из наших предпо-
ложений следует, что для двух выровненных, безделеционных последо-
вательностей х и у Р(х\у, £) = П Р {хи\Уи где и индекс позиции в
выравнивании.
Теперь рассмотрим возможные формы вероятностей замен P(b\a,t)
для остатков а и Ь. Пусть алфавит остатков имеет размер К. Можно
записать эти вероятности в зависящую от t матрицу КхК, которую мы
обозначим S(t):
P(Ai\Ai,t) P(A2|A!,0 P(AK\Aut) \
P(Ai\A?,t) F(A2|A2,f) F(Ak|A2,£)
Т(Ж,0 P(A2|AK,t) ... Р(АК\АК,Р)/
S(0 =
Некоторые важные семейства матриц замен мультипликативны, т. е.
S(t)S(s) = S(t + s) (8.1)
264
Глава 8
для всех значений длин s и t. Это эквивалентно утверждению, что ве-
роятности замен удовлетворяют условию
^2 t)P(b\c, s) = Р(а\с, t 4- s)
ь
для всех а, с, з и t. Если принять точку зрения, при которой t рассмат-
ривается как переменная времени1, то мультипликативность матриц —
следствие того, что процесс замен Марковский и стационарный (послед-
нее означает, что вероятность замены а в момент времени t на b в момент
времени s зависит только от интервала времени (s — t) (упр. 8.2)).
Одна из существующих моделей для нуклеотидных последователь-
ностей — модель Джукса-Кантора [Jukes & Cantor 1969]. В ней предпо-
лагается, что матрица скоростей R имеет вид
А С G Т
А / —За а а а \
С а -За а а
G а а —За а
Т \ а а а -За /
(8-2)
что значит, что нуклеотиды переходят друг в друга с постоянной ско-
ростью а. Матрица замен для коротких времен е приближенно задается
формулой S(s) = (I + Jte), где I — единичная матрица с единицами на
диагонали и нулями во всех остальных местах. Тогда
/ 1 — 3as as as as
I Ч- Re — I as 1 — 3as as as
as as 1 — 3as as
\ as as as 1 — 3as /
Из мультипликативности S(t 4- s) = S(t)S(s) = + Re). Это мож-
но записать как (S(t + s) - S(t))/e = S(t)R, и в пределе малых е мы
получаем Sf(t) = S(t)R. Отсюда можно вычислить матрицу замен для
времени t. Симметричность матрицы скоростей заставляет попытаться
найти S(t) в следующей форме:
S(t) =
rt St St St
St rt St St
St St rt St
St St St rt
(8-3)
1 Например, t может быть пропорционально скорости мутаций, помноженной на эволю-
ционное время.
8.2. Вероятностные модели эволюции
265
Подставляя это в S'(t) = S(t)R, получаем уравнения
г = —Заг + 3os,
s = —as + or,
и легко проверить, что им удовлетворяют
rt = I (1 + Зе-4"'),
(8-4)
Матрица (8.3) с этими значениями rt и st называется моделью Джукса-
Кантора. Обратите внимание, что при t = оо rt = st = |. Это означает,
что равновесные частоты нуклеотидов в этой модели = qc = qG =
= qi = i
Модель Джукса-Кантора не учитывает некоторых важных особен-
ностей нуклеотидных замен. Например, транзиции, т. е. замены пури-
на на пурин или пиримидина на пиримидин, происходят гораздо чаще
трансверсий, которые меняют тип нуклеотида2. Чтобы это учесть, в ра-
боте [Kimura 1980] предложена модель с матрицей скоростей
—20 — а 0 а 0 \
0 а —20 — а 0 0 —20 -а a j /3 (8-5)
0 а 0 —20 — а /
Это можно проинтегрировать так же, как в модели Джукса-Кантора,
и получится общая зависящая от времени форма
/ rt St Ut St \
S(t) = St rt St Ut
Ut St rt St
\ St Ut St rt /
(8-6)
^ = 1(1- е-Л ,
щ = 1 (1 + e~40t - e-2(«+X?)t) ?
rt = 1 - 2st - ut.
2T.e. транзиции — это А G и С Т, а трансверсии — А <-> Т, G <-> Т, А <-> С и
С ~ G.
266
Глава 8
Эта модель, хотя ей и широко пользуются, все еще далека от реаль-
ности, так как ее равновесные частоты равны между собой — qa = Qc =
= Qg = Qt = — а у многих организмов отношение АТ к GC сильно
сдвинуто. Модель, которая позволяет учесть это, а также неравенство
вероятностей транзиций и трансверсий, описана в [Hasegawa, Kishino &
Yano 1985].
Если говорить о белковых последовательностях, то в разделе 2.8 мы
видели, что матрицы РАМ условных вероятностей для натуральных п
определяются соотношением S(n) = 5(1)п, т. е. матрица РАМ1 возво-
дится в n-ую степень. Это можно расширить для любых значений t (не
только для натуральных, но для любых положительных действительных
чисел) и получить матрицы, формально очень похожие на матрицы в
моделях Джукса-Кантора и Кимуры для ДНК.
Вспомним, что 5(1) определялась нормализацией рядов симметрич-
ной матрицы А (стр. 72) с последующим ремасштабированием (чтобы
получить матрицу 1 РАМ). То же самое получится, если эти операции
поменять местами — сначала ремасштабирование, потом нормализация.
Поскольку матрица, полученная ремасштабированием А, симметрична,
она диагонализируема [Mathews & Walker 1970]. Ремасштабирование не
меняет диагональной формы матрицы, поэтому можно записать 5(1) =
= L7£>(Ai)t7-1, где U — преобразование координат, a Z?(Aj) — диа-
гональная матрица с собственными значениями Ai... А2о по диагона-
ли. Эти собственные значения находятся в промежутке от 0 до 1, так
что можно записать, что Xi = ехр(—Теперь степени 5(1) имеют
простую форму в системе координат диагональной матрицы: например
5(2) = 5(1)5(1) = UD(Xi)U~1UD(Xi)U~1 = UD(X^U-\ или, вообще,
5(f) = UD(Xti)U~1. Таким образом, можно записать:
Это показывает, что каждый элемент 5(f) можно выразить в виде суммы
экспонент: пусть Ai обозначает г-ую аминокислоту, тогда P(Aj|Ai,f) =
= Z2 uik exp (—/zfcf) Vkj, где игк и v^j — соответствующие элементы U
к
и U~\
Это напоминает матрицы скоростей для моделей ДНК, и легко
видеть, почему. Если диагонализировать матрицу скоростей модели
Джукса-Кантора, т. е. для подходящего преобразования координат U
8.3. Вычисление правдоподобия для безделеционных выравниваний 267
записать R = UD (А^) U~l, то уравнение Sf(t) = S(t)R приобретает вид
T'(t) = T(t)D, где S(t) = Но уравнение T'(t) = T(t)D легко
решить при начальном условии, что 5(0) диагональна — в самом деле,
T(t) сама должна быть диагональна с элементами ехр (А^) по диаго-
нали. Поскольку собственные значения равны 0 и —4<% легко видеть,
что применением процедуры, аналогичной описанному выше получению
матриц РАМ, мы получим элементы матрицы Джукса-Кантора (8.4).
При t = оо матрица РАМ принимает вид
( QAi Яа2 • • • QA20 \
QAi Ча-2 • • • <М2() j
X <JA> 4A2 ЧАш /
где qAt — равновесные частоты аминокислот, близкие к частотам амино-
кислот в базе данных, по которой были изначально построены матрицы,
описанные в [Dayhoff, Schwarz & Orcutt 1978].
Упражнения
8.1 Покажите, что матрицы замен Джукса-Кантора и Кимуры мульти-
пликативны.
8.2 Пусть через Р (а (i2) \b (ti)) обозначена вероятность, что остаток Ь,
существующий в момент времени ti будет заменен на а к момен-
ту времени £2. Стационарность означает, что это можно записать
в виде P(a\b, t2 - £i). Марковость означает, что Р (a (t2) \Ь (ti)) =
= P(a(t2) |6(*i) ,c(to)), где t0 < ti, т. е. что на вероятность замены
b на а не влияет присутствие в этой позиции остатка с в более
ранний момент времени t^. Покажите, что
52 Р (a (s + t) |b(t), с(0)) Р (6(t)|c(0)) = Р (a(s + t)|с(0)),
b(t)
и что выполняется мультипликативность (8.1).
8.3 . Вычисление правдоподобия для безделеционных
выравниваний
Здесь мы покажем, как можно вычислить правдоподобие дерева,
используя вышеописанные модели. Начнем со случая двух последова-
тельностей и перейдем к общему случаю п последовательностей.
268
Глава 8
Случай двух последовательностей
Предположим, нам даны две последовательности х1 и х2. В этом
случае возможно только одно дерево, а именно, с двумя ветвями и кор-
невым узлом, представляющим предполагаемого общего предка х1 и х2
(рис. 8.2). Значит, нужно только исследовать, как изменяется правдопо-
добие в зависимости от длин ветвей ti и £2-
Рис. 8.2. Простое дерево
Рассмотрим позицию и. Тогда остатки на листьях 1 и 2 — х1п и x2L
соответственно. Сопоставим корню остаток а (здесь используется дру-
гое, чем для листьев, обозначение, чтобы подчеркнуть, что этот остаток
может быть переменным и не определяется данными х1 и х2).
= QaP(4|a,ti) P(xl\a,t2)
— это вероятность выбрать а из распределения в корне (которое пред-
полагается равновесным распределением семейства матриц замен) и за-
менить а на 4 и х2и. Обратите внимание, что сюда включены случаи,
когда одна из х^ и или они оба совпадают с а. Поскольку мы не
знаем, каким был корневой остаток, чтобы получить вероятность я*,
мы должны просуммировать по всем а. Формально
Р = ^2?aF(:4|a,ti) P(xl\a,t2). (8.7)
Если в выравнивании всего N позиций, то полное правдоподобие запи-
8.3. Вычисление правдоподобия для безделеционных выравниваний 269
сывается как
N
= f[F(4,4|T,ti,t2). (8.8)
Пример: правдоподобие двух нуклеотидных последовательностей
Пусть нам даны две нуклеотидных последовательности, и пусть,
для простоты, в них присутствуют нуклеотиды только двух типов, С и G.
Например, последовательности могут быть такими:
CCGGCCGCGCG
CGGGCCGGCCG
Каково правдоподобие Р х^|Т, fi, f2) этих последовательностей при
модели Джукса-Кантора?
Из вероятностей перехода (8.4) и (8.7) получаем, что вероятность
получить С на обоих листьях дерева Т равна
F(C, C|T,fi,f2) =
= 9сП1П2 + qGStlSt2 + QA«ti-St2 + QTStiSt2 = I (П1П2 + 3.S(1S(2) .
Из симметрии P(G, G|T, fi,f2) = F(C, C|T, fi,f2). Аналогично,
F(C, G|T, fx, f2) = F (G, C|T, fi, f2) = | (rtlst2 + stlrt2 + 2stlst2).
Подставляя значения для г и s, получаем
Р(С, C|T,ti,i2) = i (1 + 3e~4Q(tl+t2)) ,
Р(С, G|T,ti,t2) = (i - e“4Q(tl+t2)) .
Теперь предположим, что в ni позициях остатки одинаковы, а в п2 по-
зициях произошла замена. Тогда из (8.8) имеем
P(x\x2\T,ti,t2} =-----(1 + 3e-4a(tl+t2)>)ni (1 -e-4Q(tl+t2))n2.
(8-9)
Обратите внимание, что правдоподобие зависит только от суммы f i и f2.
Так происходит, потому что процесс замен Джукса-Кантора симметри-
чен по времени, а значит, нет никакой информации для определения
270
Глава 8
положения корня. Правдоподобие остается прежним, если корень сколь-
зит, а сумма ti -I- Z2 постоянна. Мы обсудим эту неопределенность по-
ложения корня более подробно на стр. 273. На рис. 8.3 показано, как
правдоподобие (изображен логарифм правдоподобия) меняется в зависи-
мости от ti -I-t2. □
Рис. 8.3. Логарифм правдоподобия Р (ж1, х2\Т, ti, £2), вычисленный по (8.9) при
П1 = 100,П2 = 250 и Hi = 1000,712 = 2500. Последняя кривая круче, потому что
больше данных позволяют лучше определить пик наибольшего правдоподобия.
Кривые сдвинуты так, чтобы их пики совместились
Правдоподобие произвольного числа последовательностей
Теперь мы можем расширить эти вычисления на случай п после-
довательностей. Предположим, нам дано дерево Т с длинами ребер
Обозначим через а(г) непосредственного предка узла г, т. е. узел навер-
ху ребра, расположенного над г. Через .. .х”, как обычно, обозначим
остатки в 71-ой позиции п последовательностей т1,...,^71. Вероятность
Р (х„ .. . т™|Т, f.) получить эти остатки на п листьях Т дается перемно-
жением вероятностей замен на всех ребрах дерева. Таким образом,
p(4...x:iT,t,) =
2п —2 п
Е П Р (а'Кк(,)л) ГР (4|a"(iU),
an + 1 ,an + 2,...,a2n_ 1 г=п+1 г=1
(8.Ю)
8.3. Вычисление правдоподобия для безделеционных выравниваний 271
где суммирование происходит по всем возможным сопоставлениям остат-
ков ак не-листьям к (эти узлы пронумерованы от п + 1 до 2п — 1).
Эту вероятность можно вычислить, идя по дереву вверх от листьев
обходом в глубину [Felsenstein 1981а]. Обозначим через P(Lk\a) веро-
ятность всех листьев ниже узла к при условии, что в к стоит остаток а.
Тогда вычисляем Р (Lfc|a) из вероятностей P(LJb) и P(Lj|c) для всех
b и с, где i и j — дочерние узлы к (рис. 8.4) по следующему алгоритму.
к
а
Ч Р
b : ...I..., с
Рис. 8.4. Разметка ветвления дерева
Алгоритм: Алгоритм Фельзенштейна вычисления правдоподобия
Инициализация:
Пусть к = 2п - 1.
Рекурсия: Вычисляем P(Lk\a) для всех а:
Если к — лист:
Полагаем P(Lk\a) = 1, если а = хк, и P(Lk\a) = 0, если
а / х*.
Если к не лист:
Вычислим P(Li\a) и Р (Lj\a) для всех а в дочерних узлах i и j,
и положим Р (Lk|а) = ^Р (b\a, ti) Р (Li\b) Р (с|а, tj) Р (Lj\c).
Ь,с
Остановка:
Правдоподобие в позиции и равно Р(т*|Т, £.) = Р (L2n-i|a) да-
а
<
272
Глава 8
Обратите внимание на сходство с алгоритмом взвешенной макси-
мальной бережливости (стр. 238). Мы это еще обсудим на стр. 300.
Для завершения вычисления правдоподобия нужно воспользоваться
предположением о независимости позиций и записать
P(x*\T,t.) = JJ Р(х*|Т, £,). (8.11)
и=1
Пример: дерево из трех нуклеотидных последовательностей
Расширим пример со стр. 269 до дерева с тремя листьями (рис. 8.5,
слева). Даны три нуклеотидные последовательности, состоящие только
из С и G, например CCGGCCGCGCG
CGGGCCGGCCG
GCCGCCGGGCC
Рис. 8.5. Дерево с тремя листьями (слева), которое для вычисления правдоподо-
бия можно упростить до дерева-трифуркации (справа)
Вычислим правдоподобие по модели Джукса-Кантора. Как и преж-
де, отдельно рассмотрим позиции с разным сопоставлением остатков.
Рассмотрим случай, когда С наблюдается на всех листьях. Имеем
Р(С, С, Wb) = <7сП3 (rt4rtlrt2 + 3st4stiSt2) +
+ (<?Д + QG + qr) St3 {rt4StxSt2 + 2st4StlSt2 + 5t4rfirt2)
= \rtirt2 (rt3rt4 + 3st3st4) + (2$t3st4 4- st3rt4 + n3st4)
4 St2 S^3-|_^4 ) ,
где после первого знака равенства просто расписаны слагаемые (8.10),
начиная с равновесных вероятностей в корне, после второго — их пе-
регруппировка, а после третьего — следствие из мультипликативности
8.3. Вычисление правдоподобия для безделеционных выравниваний 273
матриц Джукса-Кантора (упражнение 8.3). И опять видно, что длины
ребер, отходящих непосредственно от корня, здесь t% и t4, возникают
только в виде суммы. Это выполняется для всех сопоставлений на ли-
стьях, не только для ’С, С, С’. Следовательно, это верно и для полного
правдоподобия, что позволяет нам сдвинуть корень в узел 4 и получить
дерево-трифуркацию (рис. 8.5, справа). Упростим обозначения, записы-
вая длину третьего ребра как £3, а не как £3 + t4. Теперь легко мож-
но вычислить правдоподобие, просуммировав по всем сопоставлениям в
корне и произведениям вероятностей по трем ребрам:
Р (x1u,xl,xl\T,t1,t2,t3) = ^qaP (zLMi) P(x„|a,*2) P(x3u\a,t3).
a
Возможны четыре типа слагаемых — когда все остатки одинаковы и ко-
гда один отличается от остальных двух. Например,
/^(С, С, С|Т\ 11, ^2 Дз) = 4 (^ti^t2rt3-^-t4 “Ь 3s^iSt25^3_|_^4) ,
(С л С f С|Т, £1, ^2 7 ^з) ~ 4 (^ti ^t2 St3 4“ Sti ^t2^t3 St2^t3 ) •
Если у нас всего ni позиций с одинаковыми остатками, п2 позиций типа
CCG или GGC, п3 позиций типа CGC или GCG и п4 позиций типа GCC
или CGG, то из симметрии
Р £1,^2,^з) =
= 4-3(п1+„2+„з+п4)а b (tb t2, <зГ b (fj , t3, t2)n3 b (t3, t2, ti)ni ,
(8.12)
где a(ti,t2,tz) и Ь(£1,*2,*з) — суммы экспонент (см. упражнение 8.4).
Иллюстрация этой функции правдоподобия приведена на рис. 8.6. □
Упражнения
8.3 Покажите, что слагаемые rt3n4 + 3st3st4t и 2st3st4 + st3rt4 + rt.3st4
получаются из перемножения матриц Джукса-Кантора для времен
tz и £4, и что их можно записать как пз+^4 и st3+t4 соответственно.
8.4 Покажите, что a(G,^2,^3) и Ь(^,^2,^з) задаются выражениями
a (ii, «2, £з) = 1 + 3e-4a(tl+t2) + зе-4“(«*+‘з)+
। зе-4а(*2-Нз) । gg-4a(ti+t2+^3)
274
Глава 8
Рис. 8.6. Функция правдоподобия, заданная (8.12) для ni = 10, п2 = 20, пз =
= 15,П4 = 17. Белый и пять степеней серого показывают значения правдопо-
добия в интервалах, разделенных 0, 0.001, 0.01, 0.07, 0.3, 0.9, 1. В каждом
квадрате показаны значения правдоподобия для определенного £3 (обозначенно-
го под квадратом), по двум осям квадрата отложены значения ti и £2, интервалы
которых обозначены в квадрате в верхней части рисунка
и
b (ti, t2, <з) = H-3e-4a(tl+t2)-e_4f‘(t|+t:,)-e_4fv(t2+t3)-2e_4"('1+f2+<3)
Обратимость и независимость от положения корня
При использовании метода максимальной бережливости нужно де-
лать поиск по всем топологиям неукорененных деревьев. Значительно
менее очевидно, что метод наибольшего правдоподобия также не зави-
сит от положения корня, но при определенных разумных предположени-
ях это так. На самом деле достаточно двух предположений. Первое —
8.3. Вычисление правдоподобия для безделеционных выравниваний 275
что семейство матриц замен мультипликативно (8.1), что, как мы виде-
ли, выполняется среди прочих и для матриц Джукса-Кантора и РАМ.
Второе — что должна выполняться обратимость. Это означает, что
Р (b\a, t)qa = Р (a\b, t) qb (8.13)
для всех а, b и t. Очевидно, что это выполняется для матриц Джукса-
Кантора и Кимуры, потому что они симметричны. Обратимость матриц
РАМ следует из того факта, что информация о направлении эволюци-
онного времени не учитывается при сборе данных: замена предкового
остатка а на остаток b в потомке рассматривается как эквивалентная
замене в противоположную сторону (см. раздел 2.8 и пример для семей-
ства РАМ ниже).
Покажем, что из мультипликативности и обратимости следует, что
все положения корня дают одно и то же правдоподобие. Предположим,
что два узла под корневым узлом 2п — 1 — узлы i и j. Из определе-
ния Р (L2n-i|e) через P(Lje) и Р (Lj|e) в алгоритме Фельзенштейна
следует, что правдоподобие последовательностей х* и позиции и можно
записать как
= ^9oP(L2n-i|a) =
а
= 52 ЯаР (Ь|а, ti) Р (с|а, tj) Р (Li\b) Р (L, |с),
Ь,с,а
следовательно, из обратимости,
Р (х*и\Т, t.) = 52 [ 52 Р (с|а, Р (а|Ь, ti) ) qbP (Ц\Ь) Р
Ь,с \ а /
Из мультипликативности, внутреннюю сумму можно переписать как
J2P(c|a, tj) Р (a\b, ti) = Р (c\b,ti + tj), что означает, что Р не зависит
а
от сопоставления символов в узле 2п — 1, а зависит только от суммарной
длины ребер под корнем. Значит, корень можно свободно двигать между
i и j, в значит его можно передвинуть куда угодно внутри дерева. Это
называется «принцип блока» в [Felsenstein 1981а]. Из него следует, что,
если используются матрицы, обладающие свойствами мультипликатив-
ности и обратимости, поиск нужно делать только по всем неукорененным
деревьям.
276
Глава 8
Пример: обратимость семейства РАМ
Как замечено в разделе 2.8, матрица счетчиков Л, используемая для
конструирования матриц РАМ, симметрична, т. е. Ааь = Аьа для всех
а и Ь. Поскольку ра = ^Ааь / 52АСС/, нормализованная матрица В
Ь / c,d
удовлетворяет
Ра,Ваъ — Ааь /
/ c,d
Acd — Аьа I У Acd — Pb^ba-
/ c,d
Так как S(l) получается ремасштабированием В, отсюда следует обра-
тимость при t = 1. Чтобы показать обратимость S(n) для любого п,
предположим, что мы уже показали ее для всех к < п. Тогда, применяя
обратимость для п — 1 и 1,
РаРп (b|a) = T^PaPn-i (с|а) Р1 (Ь|с) = 5?Pn-i (а|с)рсР1 (6|с) =
= 5?Рп-1 (а|с)Р1 (с\Ь)рь = Рп (а|Ь)рь- П
Пример: семейство матриц, не обладающих свойством обратимости
Как могла бы выглядеть матрица, не обладающая свойством обра-
тимости? Предположим, что из двух остатков А и В замена А —> В
происходит чаще, чем В —> А. Чтобы поддерживать постоянными часто-
ты остатков, между другими остатками должны происходить баланси-
рующие замены. Самый простой случай — когда в алфавите всего три
остатка, и рисунок замен циклический, что дает моментальную матрицу
замен
(—а а 0 \
О -а а . (8.14)
а 0 — a j
Это ведет к зависящему от времени семейству
(П st ut
ut rt st
st ut rt
8.4. Использование правдоподобия для восстановления
277
где
rt = | (1 4- 2e~3at^2 cos (VSat/2)) ,
st = j (1 — e-3at/2 cos ^y/Sat/2) + \/Зе-3а^2 sin ^y/Sat/2)) , □
Ut = 1 - rt - st.
Упражнения
8.5 Покажите, что вышеописанное семейство мультипликативно, эле-
менты матриц положительны, и скорости замен при t = 0 задаются
(8.14). Найдите предельное распределение и покажите, что обрати-
мость, т. е. (8.13), не выполняется ни для каких t > 0.
8.6 Мы показали, что корень можно передвинуть в любое место на
дереве. Что произойдет, если корень передвинуть в один из листьев?
8.4. Использование правдоподобия для восстановления
Сейчас мы приблизились к самому главному в вероятностной фило-
гении. После формулировки эволюционной модели и определения алго-
ритма вычисления правдоподобия по этой модели, нужно заставить весь
этот аппарат работать для восстановления филогенетических свойств
наборов данных. Сейчас мы сделаем обзор вероятностных методов вос-
становления, начиная с наиболее уважаемого и широко используемого из
них — метода наибольшего правдоподобия. Вероятностные методы мож-
но также использовать для того, чтобы оценить качество вероятностной
модели или других атрибутов, но мы не будем это обсуждать, пока не
познакомимся с некоторыми примерами более детально разработанных
моделей (см. раздел 8.5).
Максимизация правдоподобия
Кандидат на звание «лучшего» дерева — дерево, которое максими-
зирует правдоподобие. Вспомните, что стратегия состоит в том, чтобы
искать по всем деревьям, и для каждой топологии Т подбирать такие
длины f., которые максимизируют правдоподобие Р (т* |Т, £.). Тополо-
гия и сопоставление длин ребер, которые дают глобальный максимум, —
и есть искомое дерево.
278
Глава 8
Если последовательностей немного, скажем, от двух до пяти, все
деревья легко перечислить3. Для каждого дерева можно выписать прав-
доподобие как функцию длин ребер, и максимизировать ее подходящим
численным методом. По сути, это то, что сделано в [Kishino, Miyata
& Hasegawa 1990],где использован метод оптимизации Ньютона [Press
et al. 1992]. Этот метод предназначен для максимизации правдоподобия
филогении белковых последовательностей и использует матрицы РАМ.
Для большего количества последовательностей правдоподобие мож-
но вычислить по алгоритму Фельзенштейна (стр. 271). В работе
[Felsenstein 1981а] также приведен максимизирующий ожидание (ex-
pectation maximization, ЕМ) алгоритм для нахождения оптимальных
длин ребер в этом случае. С другой стороны, мы можем использо-
вать стандартные техники максимизации, такие как метод сопряжен-
ных градиентов [Press et al. 1992]. Это требует вычисление производ-
ных правдоподобия по длинам ребер, но их вычислить просто: мы за-
меняем Р (ук\у^к\ tk) везде, где она возникает в (8.10) ее производной
ЭР (yk\yn(k\tk)/dtk.
Даже при использовании лучшей оптимизационной техники, мак-
симизация правдоподобия требует больших вычислительных затрат, еще
больше для белковых последовательностей, потому что основные вычис-
ления используют матрицу 20 х 20, а не 4 х 4. Для работы с большими
объемами данных требуется иная стратегия. Одним из подходов являет-
ся использование выборочных методов.
Упражнение
8.7 В некоторых простых случаях можно вычислить длины ребер, мак-
симизирующие правдоподобие, непосредственно. Покажите, что в
нашем примере двух нуклеотидных последовательностей (стр. 269)
решение задачи максимального правдоподобия —
й + Й =
3 Зщ - п2
4 3r;.i+37i2’
Сэмплирование из апостериорного распределения
Как мы видели, максимальное правдоподобие требует больших вы-
числительных затрат. Более того, не очевидно, что это, в конечном счете,
лучшая стратегия. Если бы мы знали априорное распределение Р(Т, £.),
3Все топологии. — Прим, перев.
8.4. Использование правдоподобия для восстановления 279
мы бы могли воспользоваться формулой Байеса для вычисления апосте-
риорной вероятности Р (T,t.\x*)-.
P(T,f.|z*)
P(x*|T,f.)P(T,£.)
Апостериорное распределение дает нам ту информацию, которая
нам на самом деле нужна, а именно, насколько вероятна каждая фи-
логенетическая модель при условии данных.
Некоторые авторы использовали байесовские методы для небольших
наборов данных, где легко перечислить все топологии дерева(например
[Rannala & Yang 1996]). Недавно в работе [Mau, Newton & Larget 1996]
было показано, как можно обрабатывать довольно большие объемы дан-
ных с помощью сэмплирования из апостериорного распределения по ал-
горитму Метрополиса.
Сэмплирование в пространстве деревьев — это выбор случайного
дерева с вероятностью из некоторого распределения, в данном случае —
апостериорного. Если проб было достаточно много, то частота, с кото-
рой среди этих деревьев появляются деревья с каким-либо свойством
деревьев, сходится в пределе по большому количеству проб к апостери-
орной вероятности этого свойства при заданной модели. Например, если
определенная топология дерева присутствует в доле f выборки, то f —
оценка апостериорной вероятности этой топологии. Также можно опре-
делить вероятность того, что данная группа — монофилетическая, или
что какое-то разветвление происходит между двумя другими, например,
считая количество случаев, когда требуемое условие выполняется. Такие
вопросы непросто решать с помощью методов правдоподобия, потому что
это требует интегрирования по переменным, а правдоподобия — не ве-
роятностные распределения (см. стр. 418).
Метод сэмплирования, использованный в [Mau et al.], алгоритм
Метрополис, создает последовательность деревьев, одно из другого.
Предполагается, что механизм может построить одно дерево из друго-
го случайным образом, сэмплируя из предполагаемого распределения.
Пусть Pi = Р(Т, £»|яе) — апостериорная вероятность данного дерева,
а Р2 = Р — апостериорная вероятность предлагаемого нового
дерева. Правило Метрополиса состоит в том, что новое дерево принима-
ется в качестве следующего шага, если Р2 Pi, а если Р2 < Pi, то оно
принимается с вероятностью Р2/Рь В противном случае на следующем
шаге сохраняется исходное дерево (и такое повторение Т, если оно
280
Глава 8
происходит, является важной частью процесса, поскольку мы должны
подсчитать количество проб с определенными свойствами)4.
Эта процедура гарантирует правильное сэмплирование из апостери-
орного распределения при условии, что предполагаемое распределение
симметрично в том смысле, что вероятность предположить T,t. из T,t.
такая же, как предположить Т, t. из T,t* (см. раздел 11.4).
Упражнение
8.8 Рассмотрим упрощенное филогенетическое пространство, состоящее
из двух деревьев Т и Т с вероятностями Р (Г) и Р Если про-
цедура предположения всегда выбирает другое дерево, т. е. не то,
которое в данный момент текущее, покажите, что алгоритм Метро-
полис создаст последовательность, в которой частоты Т и t сходят-
ся к их вероятностям.
Предполагаемое распределение для филогенетических
деревьев
Чтобы алгоритм Метрополис хорошо работал, самое важное — пра-
вильно выбрать предполагаемое распределение. Если предполагаемое де-
рево просто случайным образом выбирается из пространства деревьев,
оно будет иметь маленькую апостериорную вероятность, и будет мно-
го бессмысленных повторений. С другой стороны, если предполагаемое
дерево слишком близко к текущему дереву, понадобится много шагов,
чтобы адекватно прощупать пространство филогений. Искусство в том,
чтобы найти способ предполагать деревья — многообещающие варианты
текущего.
В [Mau et al.] предложен такой механизм, состоящий из двух ча-
стей: первая — подбор длин ребер, что интересным образом может при-
вести к смене топологии, вторая — изменение порядка сопоставления
последовательностей листьям. Первый шаг использует представление
дерева, называемое профилем обхода (traversal profile). Это диаграм-
ма, полностью эквивалентная исходному дереву, но позволяющая более
удобно изменять топологию. В профиле обхода5 узел располагается на
40братите внимание, что правило Метрополиса использует только отношение Р2 к Pi,
что хорошо, потому что в формуле Байеса знаменатель может быть получен только инте-
грированием по всему пространству деревьев, и обычно неизвестен.
5В [Mau, Newton & Larget 1996] узлы соединялись линиями с постоянным наклоном,
а не располагались на одинаковом расстоянии по горизонтали, как это представлено у нас.
8.4. Использование правдоподобия для восстановления
281
высоте, соответствующей сумме длин ребер от корня до этого узла. Узлы
находятся на одинаковом расстоянии по горизонтали, в том порядке, в
котором они перечисляются при обходе дерева. Этот обход определяется
так: начинаем с самого левого узла и проходим дерево по всей глубине
слева направо, присваивая возрастающие номера и нумеруя узел, как
только мы до него дойдем. Таким образом обеспечивается, что для лю-
бого узла с номером к все его левые дети имеют номера меньше к, а все
его правые дети — номера больше к. На верхней картинке на рис. 8.7
показан пример дерева, узлы которого пронумерованы в соответствии с
его профилем обхода.
10
порядок обхода
Рис. 8.7. Вверху: пример дерева с узлами, пронумерованными в порядке профиля
обхода. Внизу: Реконструкция дерева по профилю обхода
По данному профилю обхода можно восстановить дерево процеду-
рой, проиллюстрированной на рис. 8.7. Корнем считается верхний узел
282
Глава 8
(узел 10 на рисунке). Потом проводятся ребра от корня к верхним уз-
лам слева и справа от него (узлы 6 и 16 на рисунке). Предположим, мы
дошли до узла к. Его дочерние узлы лежат на горизонтальном отрезке,
ограниченном всеми узлами выше к. Внутри этого отрезка, как и рань-
ше, проводятся ребра к верхним узлам слева и справа. Так, на рисунке
область, в которой может находиться правый потомок узла 6, ограни-
чена вертикальными пунктирными линиями. Процесс останавливается,
когда достигнут лист (листья на рисунке обозначены незакрашенными
кружками).
Одна часть процедуры [Mau et al.] состоит в том, чтобы взять про-
филь обхода и двигать узлы, вверх и вниз на величину, взятую из равно-
мерного распределения с определенными границами. Как только относи-
тельная высота узлов изменяется, появляется новая топология (рис. 8.8).
Однако это никогда не позволит листьям, не следующим друг за другом
в порядке обхода, стать соседями (но см. упражнение 8.10). Поэтому
для этой цели вводится дополнительный механизм предположения. Он
переупорядочивает листья путем случайной смены направления ветвей
в каждом узле. Это не дает изменения апостериорной вероятности (по-
этому всегда принимается), но уводит в новую область пространства
деревьев. Подбор высот в профиле обхода, конечно, ведет к изменению
апостериорной вероятности, но эти изменения непрерывны по изменению
высоты, даже если происходит смена топологии (упражнение 8.9). Меха-
низм предположения ведет себя в этом отношении лучше, чем переста-
новка ветвей — интуитивно очевидный механизм модификации деревьев,
который, однако, часто сильно меняет апостериорную вероятность.
Чтобы определить апостериорную вероятность, нужно выбрать
априорное распределение на деревьях. Поскольку мало достоверной ин-
формации о распределении деревьев, в [Mau et al.] предполагается плос-
кое априорное распределение, которое приписывает равные вероятности
всем наборам длин ребер Для п последовательностей для
любой топологии дерева. (Обратите внимание, что отсюда не следует,
что все топологии дерева имеют равную априорную вероятность — см.
упражнение 8.11). Чтобы распределение вероятностей было точно нор-
мализуемо, вводится верхняя грань на суммарную длину ребер от корня
до любого листа6. Авторы показали, что они воспроизводимо находят
Ограничение на длины ребер в априорном распределении может показаться искус-
ственным, но оно на самом деле не оказывает большого влияния, поскольку деревья с
очень длинными ребрами обычно имеют маленькое правдоподобие. Это происходит пото-
му, что вероятности замен на длинных ребрах стремятся к равновесным частотам, что
уничтожает корреляции с другими последовательностями.
8.4. Использование правдоподобия для восстановления
283
Рис. 8.8. Две части механизма предположения — изменение высоты узлов в
профиле (слева) и перетасовка листьев с помощью перестановки ветвей (справа).
Первая может давать изменение топологии, как здесь показано. Вторая этого не
делает, она просто реорганизует существующую топологию. Однако изменение
порядка листьев может привести к новым топологиям через несколько шагов
первого типа
наиболее вероятные топологии для наборов данных до 32 последова-
тельностей. Похоже, что этот метод работает лучше всего при наличии
молекулярных часов, т. е. когда все листья в профиле обхода находятся
на одной и той же высоте.
Упражнения
8.9 Рассмотрим изменение профиля, показанное на двух левых рисун-
ках на рис. 8.8. Предположим, что два узла, указанные стрелка-
ми, на верхнем рисунке находятся на высоте hi и Л2, и их высоты
меняются на Д2 и hi. Покажите, что результирующее изменение
правдоподобия стремится к нулю, когда hi - h2 стремится к нулю.
8.10 Покажите, что два крайних листа на профиле обхода могут стать
соседями, но никакие два других не следующих друг за другом
листа не могут.
284
Глава 8
8.11 Плоское априорное распределение по длинам ребер дает априорную
вероятность любой топологии интегрированием по всем возмож-
ным длинам ребер для данной топологии. Интеграл будет опре-
делен, если мы наложим, так же, как это было сделано в [Маи
et al.], ограничение на суммарную длину ребер от корня до лю-
бого листа. Назовем эту границу В. Рассмотрите случай дерева с
молекулярными часами и покажите, что дерево с четырьмя листья-
ми и топологией ((01)(23)) имеет интегральную вероятность В3/3,
а интегральная вероятность для топологии ((0(12))3) равна В3/б.
(Подсказка: определите времена от трех узлов ветвления на де-
реве до настоящего момента и проинтегрируйте по этим трем пе-
ременным.) Это показывает, что разные топологии могут иметь
разную априорную вероятность. Покажите, однако, что если опре-
делить размеченную историю как определенный порядок времен
разветвления относительно настоящего момента (в предположении
молекулярных часов), то все размеченные истории для четырех ли-
стьев имеют равные априорные вероятности. Расширьте это для п
листьев.
Другие применения выборочных методов в филогении
Выборочные методы используются не только в филогении видов или
генов, но и для восстановления истории популяций из набора современ-
ных индивидуумов. В работе [Kuhner, Yamato & Felsenstein 1995] ис-
пользован выборочный метод для нахождения допустимых деревьев, Т,
устанавливающих родство между индивидуумами. Здесь априорное рас-
пределение на деревьях зависит от размера популяции 0 — интуитивно
ясно, что чем больше популяция, тем дальше, мы ожидаем, надо будет
вернуться назад, чтобы найти общего предка любых двух индивидуумов.
Значит, для любого дерева Т мы можем использовать априорное рас-
пределение Р (Т|0) как правдоподобие для оценки 0. Тогда выборочный
процесс позволяет нам накапливать данные о правдоподобии пропорцио-
нально Р(данные|Т), что в пределе большого количества проб искомую
функцию правдоподобия JР(данные|Т)Р(Т|0)б/Т = Р(данные|0).
Механизм предположения, использованный в [Kuhner, Yamato &
Felsenstein 1995], очень похож на [Mau, Newton & Larget 1996]. Вместо
подбора высот всех узлов в профиле обхода в нем подбираются относи-
тельные высоты двух узлов, а их дети могут быть переименованы. Таким
8.4. Использование правдоподобия для восстановления 285
образом, это локальная версия двух компонент метода [Mau et al.]. Ин-
тересно было бы узнать, какой из механизмов сэмплирования работает
эффективнее.
Априорное распределение Р (Т\0) может быть трудно вычислить,
потому что это требует суммирования по всем деревьям, которые мог-
ли бы отображать филогению для современных индивидуумов в дан-
ной популяции. Однако существует замечательно простой способ оце-
нить Р(Т\0), основанный на идее развернуть время и разрешить ветвям
срастаться [Kingman 1982а, 1982b, Hudson 1990]. Для фиксированного
большого размера популяции плотность вероятности срастания по време-
ни равна 2/0. Представьте себе горизонтальную линию, поднимающуюся
по дереву Т с уровня листьев. Каждый раз, когда две ветки срастаются,
количество ребер уменьшается на единицу. Предположим, время между
срастаниями от к до (к - 1) ребер равно Тк- Тогда вероятность сраста-
ния на промежутке dt двух ребер из к(к — 1)/2 пар равна к(к - l)dt/O,
следовательно вероятность того, что срастание произойдет к конце от-
резка Тк и не раньше равна (2/0) ехр (—Ткк(к - 1)/0). Перемножая по
всем интервалам Тк, получим полную вероятность дерева
4 7 \ к=2 /
Со схождением тесно связано априорное распределение, полученное из
простой эволюционной модели, в которой дерево рассматривается как
ряд событий расщепления. Если существует постоянная плотность ве-
роятности, А, того, что расщепление произойдет на растущем ребре,
процесс разделения называется процессом Юла. Результирующее апри-
орное распределение на деревьях имеет простую форму и пропорцио-
нально ехр(-А ^ti) для длин ребер (см. упражнение 8.12). Это от-
личается от априорного распределения по срастанию, потому что здесь
предполагается, что в листьях присутствуют все потомки корневой по-
следовательности, без пропусков или вымирания, тогда как априорное
распределение по срастанию рассматривает виды или гены как выбран-
ные случайно из большой совокупности. Какое из распределений более
применимо, зависит от того, рассматривает ли таксономист маленькую
близко родственную семью или селекцию в широких границах.
Упражнения
8.12 В предположении процесса Юла плотность вероятности того, что
на промежутке от 0 до t не произойдет расщеплений, задает-
286
Глава 8
ся пределом (1 — при St -* 0 и равна, следовательно,
ехр(—где t? — все длины ребер. Используя те же рас-
суждения, что и в упражнении 8.11, покажите, что априорные ве-
роятности размеченных историй для четырех листьев равны при
Юловском априорном распределении. Расширьте это на случай п
листьев.
8.13 В предположении молекулярных часов вычислите ожидаемые дли-
ны всех ветвей укорененных деревьев с двумя, тремя и четырьмя
листьями при Юловском априорном распределении со скоростью
расщеплений А и при априорном распределении по срастанию с
размером популяции 0. (Подсказка: Рассмотрим случай трех ли-
стьев. Пусть два коротких ребра имеют длину <$, а длинное ребро —
длину t. Общая длина ребер дерева (2.s + t), значит вероятности
дерева при Юловском процессе пропорциональна exp (-А (2s + £)).
Проверьте, что вероятность дерева по срастанию пропорциональна
охр (—(2f + 4s)/0). Теперь вычислите средние s и t для этих рас-
пределений стандартным образом, т. е. интегрированием по всем
О t С ос и 0 s С t.)
Еще раз о бутстрап
Бутстрап (стр. 244) можно применить и к методу наибольшего прав-
доподобия, точно так же, как и к другим методам построения деревьев.
Искусственные данные генерируются случайным выбором и перемеще-
нием колонок из настоящего данного выравнивания, а потом по ис-
кусственным данным находится максимальное правдоподобие. Частота
возникновения каких-либо особенностей при многократном повторении
этой процедуры является мерой нашей в ней уверенности при восста-
новлении по наибольшему правдоподобию.
Таким образом, мы получаем информацию, похожую на ту, которая
получается при выборе из апостериорного распределения, и, действи-
тельно, эти два метода родственны. Для некоторых филогенетических
моделей доверие к особенности по бутстрап аппроксимирует апостери-
орную вероятность этой особенности в предположении плоского апри-
орного распределения по деревьям. Чтобы немного разобраться, почему
это так, рассмотрим простой случай оценки наибольшего правдоподобия
вероятности получить герб при бросании монетки, на основании набора
данных.
8.4. Использование правдоподобия для восстановления 287
Пример: бутстрап результатов эксперимента по бросанию монетки
Монетку бросают N раз, при чем выпадает т гербов (Г) и п ре-
шек (Р). Апостериорная вероятность р герба при плоском априорном
дается распределением Дирихле:
Р(р\тГ,пР) = р-(1 (8.15)
mini
Вычисление бутстрап начинается с того, что из данных вытягивается N
подбрасываний монетки с вероятностью m/N для Г и n/N для Р. Если
в этом наборе к гербов, то вероятность наибольшего правдоподобия,
оцененная по этим данным, равна pML = k/N. Тогда
. /V — к / лт\
(#) (J- (8Л6)
Для больших N это можно приблизить распределением
(\ Np / \ N — Np / 1\Г \
%) (#) + (8л7)
где множитель (7V+1) возникает потому, что мы заменили (АГ + 1) слага-
емых биномиального разложения плотностью на [0, 1]. Для больших N
(8.15) можно приблизить нормальным распределением (стр. 404):
Р(р|тГ, nF) = ^+1) _ ехр (_ ~ . (8.18)
5v/2ttA^p(1 — р) у 27Vp(l — р) J
Аналогично, (8.16) становится
/ мт \ (7V+1) ( (m — Np)2\
Р (рм = р) = — ехр |---------—1 . (8.19)
\j2-nmn/N у 2mnf N J
Легко показать, что если N достаточно велико, т. е. если данных
много, эти два распределения близки друг другу (упражнение 8.14). □
Этот результат легко расширить на мультиномиальные распределе-
ния. В филогенетических примерах вероятность вытянуть определенное
сопоставление на листьях определяется мультиномиальным распределе-
нием. Рассмотрим следующий случай, когда мультиномиальное распре-
деление сводится к биномиальному, и к которому можно прямо приме-
нить пример с бросаниями монеты.
288
Глава 8
Пример: бутстрап для простого дерева
Пусть нам даны две нуклеотидные последовательности, которые мы
хотим промоделировать с помощью дерева с двумя листьями, используя
матрицы замен Джукса-Кантора. Мы можем поместить корень в один
из листьев и обозначить через t длину ребра, соединяющего два листа.
Пусть ns — количество позиций в исходных данных, в которых обе по-
следовательности на листьях имеют один и тот же нуклеотид, a nd —
количество позиций, в которых нуклеотиды различаются. Если всего N
позиций, то ns + nd = N. Продолжая вычисления в (8.9) и предполагая
плоское априорное распределение на e_Qt, можно записать апостериор-
ную вероятность как
P(e-Q!f| данные) = (1 + 3e-^)ns(l - e~at)nd/Z, (8.20)
где Z — нормализующий множитель из теоремы Байеса. Обозначим
через пху количество сопоставлений листьев типа XY в исходных дан-
ных, а через тху — соответствующее число в данных для бутстрап.
Вероятность вытянуть набор данных для бутстрап задается мультино-
миальным распределением
тле
АГ!
тАА\тАС\
(8-21)
Теперь наибольшее правдоподобие данных для бутстрап задается оче-
видным расширением упражнения 8.7 в виде
exp
о1 V
(8.22)
где ms и md — количество одинаковых и различных пар листьев в дан-
ных для бутстрап. Значит tML зависит только от ms и т^, а не от
отдельных счетчиков тху, и все Р (m*|ne), имеющие одинаковые зна-
чения та и md, можно просуммировать и получить частоту, с которой
возникает значение бутстрап tML. Суммирование по этим слагаемым
дает
3ms -md\
3N J
(8.23)
Сравнивая (8.20) с (8.15) и (8.16) с (8.23), а также замечая, что из (8.22)
следует, что
ms = N (1 + Зехр (—atML))
8.5. На пути к более реалистичным эволюционным моделям 289
и md = 3N (1 — exp (—atML))/4, мы видим, что апостериорная вероят-
ность аппроксимируется бутстрап, так же, как и при подбрасываниях
монетки. □
Таким образом, распределение по бутстрап может, для определен-
ных филогенетических моделей и при достаточном количестве данных
(достаточно большое N), давать хорошую аппроксимацию апостериор-
ного распределения. Однако затраты, необходимые для оценки боль-
шого количества деревьев наибольшего правдоподобия, делает бутстрап
непривлекательной заменой сэмплированию. Бутстрап, возможно, более
полезен для не-вероятностных методов построения деревьев. В особен-
ности он полезен для борьбы с возражениями, изложенными в [Hillis &
Bull 1993]. Авторы генерировали образцы наборов данных по дереву, и
считали частоту, с которой это дерево правильно восстанавливалось по
алгоритму максимальной бережливости, а также вероятность этой топо-
логии по бутстрап. Они обнаружили, что распределение частот по бут-
страп значительно шире, чем распределение исходных образцов. Однако,
это неудивительно, потому что применение бутстрап после сэмплирова-
ния добавляет дисперсию от двух шагов. На самом деле, распределение
по бутстрап в этом моделировании имеет правильную дисперсию при
условии данных [Efron, Halloran & Holmes 1996], т. е. если рассматри-
вать его как апостериорное распределение.
Упражнение
8.14 Покажите, что при достаточно больших N Р(р\тГ,пР}, заданное
(8.18), и P(pML =р), заданное (8.19), либо оба очень малы, либо
принимают почти равные значения.
8.5. На пути к более реалистичным эволюционным
моделям
Обсуждавшиеся до сих пор эволюционные модели делают доволь-
но радикальные упрощающие предположения (стр. 263). Из-за того, что
они ограничиваются безделеционными выравниваниями, теряется полез-
ная филогенетическая информация, заключенная в расположении деле-
ций и вставок. Также очевидно, что некорректно моделировать все по-
зиции одинаковыми матрицами замен, как это предполагается в (8.11),
поскольку в разных позициях выравнивания действуют разные ограни-
чения, накладываемые структурой белка, спаривание оснований РНК
290
Глава 8
и т.д. Сосредоточим наше внимание только на одном основном свой-
стве позиций: давно известно, что в одних позициях замены происходят
гораздо быстрее, чем в других [Fitch & Margoliash 1967b]. Опишем сна-
чала некоторые попытки смоделировать это поведение, разрешив разные
скорости эволюции, а потом — способы рассмотрения выравниваний с
делециями.
Разные скорости в разных позициях
Основная стратегия поиска наибольшего правдоподобия заключает-
ся в том, чтобы взять дерево Т и набор длин веток t. и вычислить
правдоподобие по всем позициям по формуле
N
p(x*\T,t.) = ГР«1Т*.).
и=1
В работе [Yang 1993] было предложено ввести позиционно-зависимую
переменную ги, которая масштабирует t. в позиции и. Если бы значение
ги в каждой позиции было известно, можно было бы записать правдо-
подобие в виде
N
P(x*\T,t,,ru) =
Поскольку мы обычно не знаем значений ги, лучший выход — предпо-
ложить для них априорное распределение и проинтегрировать по всем
значениям г. В [Yang 1993] в качестве априорного использовано гамма-
распределение g(r, а, а), которое имеет среднее 1 и дисперсию 1/а, и по-
этому дает большой спектр распределений от узких (для больших а) до
широких (когда а мало). Правдоподобие имеет вид
N ™
Р (т*|Т, f., q) = / Р « |Т, rt.) g(r, ct, a)dr. (8.24)
Для каждого фиксированного Т это правдоподобие максимизируется от-
носительно t. и а. В [Yang 1993] на наборе глобинов было получе-
но оптимальное дерево для четырех млекопитающих и показано, что
логарифм вероятности значительно уменьшается, когда времена меня-
ются, в отличие от фиксированных времен, использованных в методе
[Felsenstein 1981а].
8.5. На пути к более реалистичным эволюционным моделям 291
Можно аналитически оценить интегралы в (8.24) (это просто ин-
тегралы гамма-функций), но количество слагаемых в результирующем
выражении экспоненциально растет с числом последовательностей, по-
этому вычислительно оптимизация может быть медленной. Поэтому в
[Yang 1994] предложен приближенный метод, в котором интеграл заме-
нен дискретной суммой. Интервал (0,оо) разделен на т частей, каждая
из которых содержит одинаковую площадь гамма-распределения. Пусть
rk — среднее гамма-распределения на /с-ом интервале. Тогда положим
N 7П
P(x*\T,t,,a) = J] ^P(x*u\T,rkt,)/m. (8.25)
1 A-=l
Там же показано, что т = 3; 4 дает достаточно хорошее приближение к
непрерывной версии модели. Поскольку здесь требуется всего в m раз
больше вычислений, чем в случае с одинаковыми позициями, это более
выполнимый алгоритм.
Здесь, так же как и в непрерывной модели, а оценивается из данных
путем максимизации правдоподобия. Это было бы приемлемо, если бы
данных было в избытке, но при маленьких объемах данных этот подход
страдает теми же недостатками, что и профильные НММ при оцен-
ке вероятностей по счетчикам. Поэтому может быть лучше определить
значение а из большого набора достоверных филогений.
В [Felsenstein & Churchill 1996] предложен алгоритм, похожий на
вышеописанный, но в терминах скрытых марковских цепей. В этой мо-
дели каждой позиции соответствует столбец выравнивания. В каждой
позиции есть набор состояний, соответствующих разным скоростям эво-
люции. Есть переходы ко всем возможным состояниям скоростей в сле-
дующих позициях. Если в позиции и выбрано состояние г, оно добавляет
к правдоподобию множитель Р (т* |Т, г^.), где п — скорость для состоя-
ния г. Можно применить некоторую модификацию алгоритма просмотра
вперед, чтобы получить суммарную вероятность для всех возможных
выборов скоростей. Разница между этим алгоритмом и алгоритмом про-
смотра вперед для НММ, описанным на стр. 92, состоит в том, что (1)
путь через модель — это набор выборов скоростей, а не выравнивание
последовательности к модели и (2) вероятности — это не эмиссионные
вероятности состояния, которые суммируются к единице, а правдоподо-
бия полного набора последовательностей в данной позиции. Формально,
однако, эти алгоритмы идентичны, если мы заменим набор q (т*) и aki
в алгоритме просмотра вперед для НММ на правдоподобие в позиции i
292
Глава 8
для скорости I и вероятность перехода от скорости I к скорости к соот-
ветственно.
Полное правдоподобие, вычисленное с помощью скрытой марков-
ской цепи [Felsenstein & Churchill 1996] совпадает с тем, что дает дис-
кретная модель[Уап£ 1994] (8.25), за исключением того, что в скрытой
марковской цепи есть вероятности перехода аы между состояниями. Эти
переходные вероятности могут описывать тенденцию некоторых наборов
скоростей возникать в соседних позициях. В белках замены чаще сво-
боднее происходят на поверхности белка, и набор скоростей зависит от
вторичной структуры. Можно ожидать несколько подряд идущих откры-
тых для растворителя сайтов в петлях, что можно промоделировать, сде-
лав более вероятными переходы между быстрыми состояниями. Однако
бета-листы, например, имеют другой рисунок — чередование открытых
и спрятанных остатков, а альфа-спирали — грубо, триплетный рисунок.
Потребуются модели более сложной архитектуры, чтобы описать эти
структурные особенности.
Эволюционные модели с делециями
Обратимся теперь к проблеме, как разрешить делеции в выравнива-
нии последовательностей на листьях. Грубый способ ввести делеции —
рассматривать их как еще один символ алфавита из К остатков и заме-
нить матрицу замен остатков размера К х К на матрицу размера {К +
-I- 1) х (К + 1), в которую включен символ делеции. Здесь совершается
обычная ошибка: делеции в соседних позициях считаются независимы-
ми, и поэтому не имеют тенденции возникать блоками.
Можно создать более хорошую модель путем введения состояния
делеции или вставки. В [Allison, Wallace & Yee 1992b] показано, что, в
принципе, это возможно и дает в филогениях делеции аффинного типа.
Их подход с использованием описаний минимальной длины тесно связан
с максимальным правдоподобием. К сожалению, в настоящее время рас-
смотрение аффинных штрафов за делеции таким образом вычислительно
невозможно.
Другой подход, с помощью модели замены фрагментов, [Thorne,
Kishino & Felsenstein 1992], привлекателен тем, что до определенной
степени биологически обоснован, но до сих пор он был применен только
в случае двух последовательностей.
Опишем теперь тип моделей, которые учитывают штрафы аффинно-
го типа за делеции разумным, с вычислительной точки зрения, способом.
НММ для дерева (tree НММ) [Mitchison & Durbin 1995] использует
8.5. На пути к более реалистичным эволюционным моделям 293
архитектуру профильных НММ и рассматривает пути через цепь как
объекты, терпящие эволюционные изменения [Mitchison 1998].
Мы предполагаем, что последовательности можно выровнять со
скрытой марковской цепью более простой архитектуры, чем архитек-
тура профильной НММ, описанная в [Krogh et al. 1994] — у нее есть
только состояния сопоставления или делеции, которые мы обозначим
Мк и Dk, где к — позиция в модели. Предположим, последовательность
у — предок последовательности х. Можно считать, что они лежат на
концах ребра длины t дерева. Предположим, что обе последовательно-
сти выровнены с моделью, а значит, каждая из них проходит через нее
по определенному пути, порождая определенные остатки в состояниях
сопоставления. Рассмотрим фрагмент модели, показанный на рис. 8.9.
Обе последовательности проходят через состояние сопоставления Мк,
х порождает остаток Xi в Мк, у — остаток yj. Вероятность замены
yj —> Xi берется равной P(xi\yj, £), как и при стандартной филогении по
наибольшему правдоподобию.
дерево t
yJ+i
У]+2
Рис. 8.9. Фрагмент НММ, показаны пути, по которым проходят х и у
294
Глава 8
Затем рассмотрим возможность того, что у использует другие пе-
реходы, чем х, и поэтому они не проходят через одно состояние. На
рис. 8.9 в позиции к х проходит от состояния сопоставления к состо-
янию делеции —> Dfc+i, а у идет в следующее состояние сопостав-
ления — Mk —> Mk+i. Этой смене перехода приписывается вероятность
аналогично тому, как замене порождаемого символа с yj на х^. Обозна-
чим переход от сопоставления к сопоставлению «ММ» (match-to-match),
а от сопоставления к делеции — «MD» (match-to-deletion), а эту веро-
ятность будем обозначать Р (MD\MM, t).
В позиции к + 1 на рис. 8.9 х совершает переход Dk+i —> Мк+2,
который мы обозначим «DM», а у — М^+\ Мк+2- Здесь мы делаем
предположение, что последовательности ведут себя независимо друг от
друга, если переход начинается из разных состояний. Значит, если в х
возникает делеция относительно у, ее выбор между DD и DM опреде-
ляет длину делеции и предполагается определяемым мутационным про-
цессом, который действует независимо от последовательности у. Мы
предполагаем, что вероятности переходов на независимом пути х опре-
деляются априорным распределением, т. е. вероятность для х перехода
—> Лй+2 равна qdm-
Мы можем представить и априорные вероятности переходов, и ве-
роятности переходов при заменах в виде матрицы 4x4, соответствую-
щей четырем переходам, возможным для этой конкретной архитектуры
НММ, а именно, ММ, MD, DM и DD. Однако это не обычная матри-
ца замен, потому что суммы по ее строкам не равны единице. Вместо
этого она состоит из четырех блоков 2x2, определяемых состояниями
(сопоставления или делеции), из которых начинают переход предковая
последовательность и ее потомок:
/ (qDMqDD\ \
t) Р (MD\MD, t)J \qDM qDDJ
\4mm9mdJ \P(DM\DD,t)P(DD\DD,t)jJ
Посмотрим, как это работает в случае НММ для дерева, показанной на
рис. 8.9. В позиции к мы получаем уУ)Р (xi\yj, t) из вероятностей поро-
ждения остатков, qyj из априорного распределения для корня у. Перехо-
ды добавляют qMMP (MD\MM, t), где умм — априорная вероятность
в корне перехода ММ. Возможно, покажется странным включать апри-
орные вероятности и в вышеприведенную матрицу замен, и в выражение
для вероятности дерева, обратите внимание, что они имеют одно и то же
8.5. На пути к более реалистичным эволюционным моделям 295
происхождение — если какой-то аспект поведения последовательности
не объяснятся предком, мы возвращаемся к априорным распределениям.
Поэтому в позиции к4-1 переходы дают qmmQmd — здесь оба сомножи-
теля из априорного распределения, потому что обе последовательности
ведут себя независимо от своих предков (хотя мы, конечно, знаем, что
предок х - у, тогда как предок последнего не определен).
Пусть нам дано произвольное дерево Т с длинами ребер t. и по-
следовательностями х* на листьях, все из которых выровнены с НММ.
По аналогии с вероятностной моделью для безделеционного выравнива-
ния (8.10) определим Р(т*|Т, f.) как произведение вероятностей замен
для всех ребер Т, включая априорные вероятности для корня. Однако
если мы имеем дело с НММ для дерева, есть два типа вероятностей пе-
рехода — вероятности порождения и вероятности переходов. Для того,
чтобы получить полную вероятность в безделеционной модели, нужно
просуммировать по всем возможным сопоставлениям остатков предко-
вым узлам в каждой позиции. В случае НММ для дерева мы сходным
образом суммируем по всем возможным сопоставлениям относящихся к
делу переменных, которыми здесь являются и варианты порождения, и
переходы. Если определить путь не только теми перехода, через кото-
рые он проходит, но и символами, которые он порождает, то предыдущее
высказывание эквивалентно тому, что мы суммируем по всем путям для
предковых последовательностей.
Для иллюстрации вычисления некоторых слагаемых в правдоподо-
бии обратимся к рис. 8.10. В центральной позиции модели происходят
переходы DD, DM, ММ и DM на листьях 1, 2, 3 и 4 соответственно.
Предполагается, что они известны из заданного выравнивания после-
довательностей на листьях. Предковые переходы, однако, неизвестны,
и по ним надо суммировать. Пунктирными стрелками показан один на-
бор предковых путей, однако есть много других возможных комбинаций.
В центральной позиции модели данный набор предковых путей дает де-
рево переходов, показанное внизу (в центре). Можно вычислить вероят-
ность по нашей матрице переходов:
Вероятность дерева = te)P(MM\MM, f3)
х Qdm x qdmP(DD\DM, ti)P(DM\DM, 12).
Множители, разделенные знаком умножения, можно рассматривать как
вероятности поддеревьев, получившихся при разрывах на ребрах. Эти
разрывы происходят там, где есть смена состояния, из которого начина-
ется переход.
296
Глава 8
корень
Рис. 8.10. Фрагмент НММ для дерева в случае дерева с четырьмя листьями. Пу-
ти, по которым проходят последовательности на листьях, показаны сплошными
стрелками. Одно из возможных восстановлений предковых путей показано пунк-
тирными стрелками. Дерево изображено внизу, с пронумерованными листьями
(слева), с переходами, происходящими в центральной части модели (в центре)
и с обозначением «корень» там, где использовано априорное распределение вме-
сто переходных вероятностей (справа), т. е. там, где родительская и дочерняя
последовательность начинаются из разных состояний
Все такие слагаемые можно просуммировать с помощью алгоритма
динамического программирования. Это, однако, будет значительно мед-
леннее, чем процедура просмотра вперед для профильных НММ, потому
что надо помнить одновременно предыдущее состояние пути и состоя-
ния его предкового пути. Это создает вычислительный груз, который
растет экспоненциально с ростом числа последовательностей, поэтому
алгоритм применим только для малого числа последовательностей. Од-
нако есть хорошая аппроксимация этого правдоподобия [Mitchison 1998],
которая может быть вычислена с затратами, сравнимыми с затратами в
исходном алгоритме [Felsenstein 1981а].
Оценка качества разных вероятностных моделей
Одной из проблем при создании более сложных моделей может быть
то, что неясно, сколько мы выигрываем, добавляя новые элементы в
структуру модели. Если модель М2 сложнее какой-то другой модели М\,
8.5. На пути к более реалистичным эволюционным моделям 297
максимум правдоподобия для Л/2 может быть больше максимума для
7И1 (и это обычно так, если Л/2 — дальнейшая разработка модели Mi и
включает в себя Mi как частный случай). Однако М2 может оказаться
плохой моделью в том смысле, что ее правдоподобие не пренебрежимо
мало только для очень узкого спектра значений параметров. Поэтому
вместо того, чтобы сравнивать максимумы правдоподобия, лучше срав-
нить вероятности P(D\Mi) и P(D\M2), полученные интегрированием
по всем параметрам для каждой модели. Более точно, если Mi имеет
параметры 0. с априорными вероятностями Р(0.), имеем
P(D\Mi) = j P(D\Mi,0)P(0.)d0i...dOn
и так же для P(D\M2). Вероятность Р (D\M) иногда называется аде-
кватность (evidence) модели М при условии данных [MacKay 1992].
Если не пренебрежимо малый вклад дает маленькая область в простран-
стве параметров с априорной вероятностью Рг, это накладывает ограни-
чение Р (D\M) < max# Р (D\M, 0) Рг, и Р (D\M) будет мало. Естествен-
ный способ сравнить две модели Mi и М2, учитывая их априорные веро-
ятности P(Mi) и Р(М2), — вычислить апостериорную вероятность Mi
как
/ . х P(D\Mi}P(Mi)
Р - р (£>|М1) р (М1) + р (£>|М2) р (д/2) • (8-26)
Альтернативный метод оценки качества модели был предложен
в [Goldman 1993], что расширяет [Сох 1962]. Обозначим через Li(D)
и L2(D) наибольшее правдоподобие данных D по моделям Mi и М2
соответственно, где каждый максимум оценивается независимо от дру-
гой модели (максимумы могут быть достигнуты при разных значениях
параметров из зоны, где они перекрываются для двух моделей). Пусть
Д = log (l2(D)) - log (£1 (£>))•
По вышеизложенным причинам само значение А — не очень хороший
показатель какого-либо превосходства М2. Но если мы теперь будем
с помощью Mi порождать данные, используя параметры, которые до-
ставляют максимум правдоподобия для £>, можно спросить, будет ли
значение А типичным среди значений А* для искусственных данных Di
(например, лежать в границах 95% их распределения), или оно будет
298
Глава 8
превосходить почти все Д^. Если произошло последнее, то более слож-
ная модель учитывает какие-то свойства данных, которые Mi не
может симулировать, и Mi можно отвергнуть.
Этот метод иногда называется параметрический бутстрап, и это
более мощный тест, чем определенный ранее (стр. 244) простой бут-
страп. Поэтому он больше подходит как тест на значимость вероят-
ностной модели. В [Goldman 1993] показано, как можно использовать
параметрический бутстрап для сравнения интересующей в настоящий
момент модели Mi с моделью с большим количеством параметров, М2,
которая приписывает вероятности всем возможным наборам остатков в
каждой позиции. Следующий пример показывает, как этот метод работа-
ет в более простой ситуации, а также иллюстрирует байесовскую модель
сравнения одних и тех же данных.
Пример: сравнение двух моделей матриц замен
Пусть есть два типа остатков,
одним параметром р
( 1 -Р
\ Р
и М2 с двумя параметрами pi и р2
А и В, и две модели замен — Mi с
(8.27)
1 - Ру
Ру
Pi А
1 - Ру )'
(8.28)
Сначала создадим основной набор данных D сэмплированием из М2 с
параметрами pi = 0.5, р2 = 0-4. Предположим, что есть N = 500 остат-
ков А и В, выбранных случайно с равной вероятностью, и мы будем
производить из них остатки, используя условные вероятности, заданные
матрицей (8.28). Обозначим через пАА и пАВ количество А и В, соот-
ветственно, произведенных из А, и через пВА и пвв количество А и В,
произведенных из В. Значения pi и р<2 достаточно близки, и можно ожи-
дать, что данные не слишком плохо описываются обеими моделями Mi
и М2. Вопрос в том, распознает ли какой-нибудь из наших тестов, что
М2 описывает их, возможно, лучше.
По этим данным D определим найдем значение р, доставляющее
наибольшее правдоподобие для Mi, и сгенерируем 1000 наборов данных
Di из Mi. Для каждого набора находится А*, и они дают распределение,
показанное на рис. 8.11 в виде гистограммы. Тонкой вертикальной лини-
ей отмечен значение А для основного набора данных D. Это дает оценку
8.5. На пути к более реалистичным эволюционным моделям 299
Р (Д$ < Д), которая в этом случае равна 0.985. Это говорит о том, что D
лежит вне границ 95% распределения, поэтому должна быть отверг-
нута, и мы делаем вывод, что двухпараметрическая модель М2 подходит
лучше.
Рис. 8.11. Пример с двумя матрицами замен, рассмотренный в тексте. Гистограм-
ма показывает распределение логарифма разность правдоподобий Д; для набора
сгенерированных данных. Значение Д для исходных данных показано тонкой
вертикальной линией
Если повторить весь эксперимент начиная с сэмплирования из М2,
чтобы получить набор данных D, мы получим распределение значе-
ний Р(Дг < Д). Это распределение мы теперь сравним с распределени-
ем байесовских вероятностей. Для получения последних предположим
плоское априорное распределение по всем параметрам, тогда
Р(£>|ЛЛ) = у Р (D\Mi,p) dp = (3 У рп“+п“(1
где /3 — биномиальный коэффициент, общий для Р (£>|Mi) и P(D\M2).
Соответствующее выражение для P(D\A12>) —
Р (D\M2) = (1 - Р1)ПАА р^ (1 - Р2)Пвв dP1dP2.
300
Глава 8
Эти интегралы можно выразить через факториалы (см. 11.6):
Р + ?Тва)! (паа + ^вв)!
(7V + 1)! ’
Р(Г|М2) = ^ав!пва!паа!пвв!
(пав + Маа)! (пва + пвв)!
откуда, используя (8.26), можно вычислить P(M2\D) в предположении
равных априорных вероятностей для Р (Mi) и Р(М2). Рис. 8.12 пока-
зывает распределение значений P(M2\D), полученных из 100 наборов
данных £>, по оси абсцисс и оцененные значения Р(Д; < А) по оси орди-
нат. Для большинства точек, для которых последняя вероятность больше
0.95, т. е. Mi отвергается с 95 %-ной значимостью, P(M2\D) также боль-
ше 0.5, что говорит о предпочтительности М2. Эти тесты, очень разные
по характеру, таким образом, согласуются для этих конкретных данных.
Однако с увеличением количества точек в £>, N, байесовский метод
часто предпочитает Mi тогда, когда она отвергается параметрическим
бутстрап, и обратная тенденция прослеживается при малом количестве
точек. Связь этих двух методов достойна дальнейшего изучения, особен-
но в свете возрастающего интереса к использованию методов отношения
правдоподобий [Huelsenbeck & Rannala 1997].
8.6. Сравнение вероятностных и не-вероятностных
методов
В оставшейся части этой главы мы вернемся к филогенетическим
методам из прошлой главы, а именно к максимальной бережливости
и методу попарных расстояний, и дадим им вероятностную интерпрета-
цию.
Вероятностная интерпретация максимальной бережливости
Предположим, нам дан набор вероятностей замен Р(а|6), и мы пре-
небрегаем зависимостью от длины t. Можно получить набор стоимостей
замен, положив S(a,b) = -logP(a|b). Если использовать эти стоимости
в методе взвешенной максимальной бережливости, то, как было отмече-
но в [Felsenstein 1981b], минимальную стоимость в позиции и для всего
дерева Т, полученного по алгоритму взвешенной максимальной береж-
ливости (стр. 238), можно рассматривать как аппроксимацию правдо-
8.6. Сравнение вероятностных и не-вероятностных методов
301
Рис. 8.12. Сравнение моделей с одним и двумя параметрами. Для 100 наборов
данных D размера 500 изображена байесовская вероятность P(M2\D) по оси
абсцисс и значение достоверности Кокса Р(Д; < Д), оцененное по гистограмме
на рис. 8.11. 95%-ный уровень достоверности изображен горизонтальной пунк-
тирной линией, а значение Р(Л/2|Р) = 0.5 — вертикальной
подобия. В самом деле, это аппроксимация Витерби полной вероятно-
сти Р (дг*,.. .ж™|Т), заданной формулой (8.10). Также как полная веро-
ятность суммируется по всем путям в НММ, тогда как метод Витерби
находит наиболее вероятный путь, так и вероятность, задаваемая (8.10),
суммируется по всем возможным сопоставлениям остатков в предковых
узлах, тогда как максимальная бережливость, минимизируя сумму отри-
цательных вероятностей — logP(a|6), находит предковое сопоставление,
которое максимизирует вероятность. Соответствие не полное, потому
что эквивалент распределения в корне из вероятностной модели обычно
не включается в максимальную бережливость. Однако, если предполо-
жить, что это распределение плоско, то оно добавляет константу, кото-
рой можно пренебречь при вычислении оптимального дерева по методу
максимальной бережливости.
Не все наборы стоимостей S(a,b) можно таким образом перевести
в вероятности. Однако стоимости традиционной максимальной бережли-
вости, т. е. 1 для любой замены и 0 для одинаковых остатков, можно лег-
ко интерпретировать как логарифмы вероятностей. На самом деле, так
можно интерпретировать любую матрицу с а на диагонали и /3 во всех
302
Глава 8
остальных местах, где (3 < а. Потому что тогда максимальная бережли-
вость с 5(а,а) = — log (а) и S(a,6) = — log(/3) для а 7^ b эквивалентна
традиционной максимальной бережливости (см. упражнение 8.15).
Максимальная бережливость — привлекательный метод, потому что
он быстрый. На самом деле, основной выигрыш при использовании мак-
симальной бережливости в том, что она не требует оптимизации по
длинам ребер, которую делает наибольшее правдоподобие. Если интер-
претировать максимальную бережливость как аппроксимацию Витерби
наибольшего правдоподобия, то можно получить это упрощение, удалив
параметр времени t из Р(а\Ь, £). Это может иметь неприятные послед-
ствия, как показано в следующем примере.
Пример: сравнение максимальной бережливости и наибольшего
правдоподобия
Простой способ тестирования качества работы алгоритмов постро-
ения деревьев — строить деревья случайно, сэмплированием, а потом
посмотреть, как часто данный алгоритм правильно их восстанавливает.
Процесс сэмплирования состоит в том, чтобы выбрать в корне остаток а
с вероятностью qa, потом принять замену на b по ребру к узлу i с веро-
ятностью Р(Ь\а, 1^, и так далее, идя вниз по дереву. Таким образом мы
получим сопоставление остатков на листьях. Последовательность дли-
ны N получается N независимыми применениями этой процедуры. Для
неукорененных деревьев в качестве корня можно выбрать произвольный
узел провести всю эту процедуру. При условии, что модель, использован-
ная при построении, обратима, выбор корневого узла не имеет значения.
Если для восстановления дерева используется та же вероятностная
модель, то, по причине своей согласованности, наибольшее правдоподо-
бие должно стремиться правильно восстанавливать деревья в пределе
больших объемов данных. Интересный вопрос, как хорошо другие алго-
ритмы справляются с этой задачей.
Дерево с четырьмя листьями, изображенное на рис. 8.13, было ра-
бочей лошадкой многих таких имитационных исследований. Особенный
интерес представляет случай, когда два листа имеют короткие ребра,
а два других — длинные. Этот случай был впервые изучен в [Felsenstein
1978а] и [Cavender 1978], где было показано, что максимальная береж-
ливость дает неправильный ответ даже на больших объемах данных.
Так же, как и в [Felsenstein 1978а], предположим для простоты, что
8.6. Сравнение вероятностных и не-вероятностных методов
303
алфавит состоит из двух символов, {А, В}, с матрицей замен7
1 -Р
Р
Р
1 -Р
(8.29)
Положим р = 0.3 для листьев 1 и 3, р = 0.1 для листьев 2 и 4 и р =
= 0.09 для ребра, соединяющего пары листьев. Это дерево изображено
на рис. 8.13.
Для четырех листьев существует три возможных неукорененных
дерева (стр. 226), назовем настоящее дерево Ti, а две другие возмож-
ности — Т2 и Т3. Нижеприведенная таблица содержит результаты 1000
тестовых прогонов методов максимальной бережливости и наибольше-
го правдоподобия для разной длины последовательности N. В колонках
показано количество раз, когда было выбрано каждое дерево Ti.
Восстановление деревьев с помощью наибольшего правдоподобия:
N Ti т2 Тз
20 419 339 242
100 638 204 158
500 904 61 35
2000 997 3 0
Восстановление деревьев с помощью максимальной бережливости:
N т2 Тз
20 396 378 224
100 405 515 79
500 404 594 2
2000 353 646 0
Обратите внимание, что с ростом N наибольшее правдоподобие все
больше и больше предпочитает Ti, как того и можно было ожидать.
Это не так для максимальной бережливости, которая со значительным
перевесом предпочитает Т? с ростом N. Чтобы понять, почему она оши-
бается, рассмотрим сопоставление А, А, В, В листьям 1, 2, 3 и 4 соответ-
ственно (рис. 8.13, левый рисунок в нижнем ряду). Эта ситуация будет
возникать довольно часто, потому что замены с большой вероятностью
произойдут на длинных ребрах к листьям 3 и 4, тогда как листья 1 и
7Из нее можно сделать мультипликативное семейство матриц, считая р =
= | (1 — ехр(—atf)), но мы не пользуемся этим здесь.
304
Глава 8
Рис. 8.13. Вверху: неукорененное дерево с очень неравными длинами. Средний
ряд: исходное дерево 7\ и два альтернативных неукорененных дерева (Т2 и Тз).
Нижний ряд: определенное сопоставление остатков пронумерованным листьям,
показано для топологий Т\ и Т?
2 близки. Это сопоставление по алгоритму максимальной бережливо-
сти имеет стоимость два несовпадения для дерева Ti, а для дерева Т2
требуется только одно (правый рисунок в нижнем ряду), когда замена
8.6. Сравнение вероятностных и не-вероятностных методов
305
происходит на «мостике» между узлами 5 и 6. Наибольшее правдоподо-
бие в эту ловушку не ловится. Когда ребра имеют правильную длину,
замена между 5 и 6 маловероятна, потому что ребро короткое. Так что
наиболее вероятное объяснение этого сопоставления требует двух замен
как в дереве 7*2, так и в дереве Т\. Это демонстрирует недостатки отсут-
ствия зависимости от времени, присущего максимальной бережливости.
Можно сказать, что дерево в этом примере имеет патологию, по-
скольку длины сильно различаются между крайними узлами, и оно
сильно противоречит предположению молекулярных часов. Однако су-
ществуют примеры деревьев с пятью листьями, которые удовлетворяют
свойству молекулярных часов и все равно неправильно восстанавлива-
ются с помощью максимальной бережливости [Hendy & Реппу 1989].
□
Упражнение
8.15 Покажите, что нахождение оптимального по максимальной береж-
ливости дерева с ценами S(a, а) = — log(a) и S(a,6) = - log(/3)
для а ф b эквивалентно традиционной максимальной бережливо-
сти с ценой несовпадения 1.
Наибольшее правдоподобие и методы попарных расстояний
Теперь вернемся к методам попарных расстояний и изучим их связь
с вероятностным моделированием.
Пусть дано дерево Т с длинами ребер t9. Будем сэмплировать по-
следовательности длины N на листьях так, как описано на стр. 300,
используя мультипликативную, обратимую матрицу замен. Возьмем два
листа i и j. Легко видеть, что полученные сэмплированием последова-
тельности на этих листьях также могли быть получены сэмплированием
из «ощипанного» дерева, которое получится, если из данного убрать все
ребра, кроме тех, которые находятся на пути, соединяющем i и j (см.
самый правый рисунок на рис. 8.14). Это следует из того, что только ша-
ги сэмплирования от корня к г и j имеют отношение к выбору остатка
в г и j. Более того, части дерева над верхним узлом ощипанного дерева
(узел 8 на рис. 8.14), поскольку из обратимости распределение в верхнем
узле такое же, как в корне.
Используя мультипликативность, можно просуммировать длины ре-
бер на каждом пути от верхнего узла к i или j. Например, если дано
306
Глава 8
^i + iG+^7+
Рис. 8.14
дерево на рис. 8.14 и i = 1, j — 3, из мультипликативности следует, что
Р (а1 |а8, ti + £б) = У^ ? (fll lfl6’ ^i) (a6|fl8’ М’
где через ак обозначен остаток в А:-м узле. Отсюда следует, что при
каком-то данном выборе а8 сэмплирование по ребру длины ti будет
на листе 1 давать остатки стой же вероятностью, что и вероятности при
последовательном сэмплировании сначала в узле 6, а потом в листе 1
(см. центральный рисунок на рис. 8.14).
Обратимость позволяет пойти еще дальше и «выпрямить» ощипан-
ное дерево, развернув одну из его ног. Например, при данном централь-
ном дереве на рис. 8.14 и распределении в корне q вероятности остатков
а1 и а3 такие же, как если бы а3 было выбрано с вероятностью д, а а1 —
сэмплированием по дереву с одним ребром длины ti + tG + t7 + f3 (см.
правый рисунок на рис. 8.14). Это следует из того, что
У^ Р (а1^8,*! + f6) р (а3|а8, ti + й) <7а« =
= У^ Р (а1^8,^ + Р (a8|a3,Z7 + Z3) qa* =
— Р (а1 й + ^6 + + t?) Qa3 •
В случае общего дерева предположим, что длины ребер, соединяю-
щих i и j, — . ,tkr- Тогда из нашего предыдущего обсуждения
8.6. Сравнение вероятностных и не-вероятностных методов 307
вытекает, что
Р (4> = q^P (414, tkl + tk2 + ... + .
Определим расстояние наибольшего правдоподобия [Felsenstein 1996]
как
dijL = argmax < [ >
L и )
где произведение берется по всем позициям. Поскольку множитель qxJ
не зависит от f, можно записать, что
d™L = argmax j JJ P (4|4, t) 1. (8.30)
*( и J
Тогда для большого N из согласованности наибольшего правдоподобия
(стр. 418) следует, что
rfML f. (8.31)
Следовательно, если вероятностная модель правильна, расстояния наи-
большего правдоподобия должны быть очень близки к аддитивным при
условии большого количества данных. Тогда становится ясно, что метод
ближайшего соседа также правильно восстановит дерево по расстояни-
ям наибольшего правдоподобия, если они были построены с применени-
ем мультипликативной и обратимой модели, и если данных было много
(и, конечно, если соответствующая вероятностная модель правильна).
Ниже приведен пример, который демонстрирует, что метод ближайшего
соседа в самом деле правильно работает для дерева на рис. 8.13, для
которого максимальная бережливость столь очевидно проваливается.
Метод ближайшего соседа, в целом, значительно быстрее любого
вероятностного подхода, поскольку избегает необходимости делать по-
иск по всему пространству деревьев, поэтому есть искушение полностью
отказаться от вероятностных методов. Однако тут игнорируется сильная
сторона этих методов — возможность оценить надежность деревьев и
применимость самой модели с помощью апостериорной вероятности мо-
дели. Поэтому надо рассматривать метод ближайшего соседа или другие
методы расстояний не как замену вероятностным методам, а как сред-
ство, при данной такой модели, строить допустимые деревья. Дерево,
которое он дает может, например, быть хорошей начальной точкой для
процедуры сэмплирования.
308
Глава 8
Пример: восстановление дерева методом ближайшего соседа
В качестве примера успешного применения метода ближайшего со-
седа были созданы данные, как описано на стр. 300, с использованием
матрицы вероятностей замен (8.29). С помощью той же матрицы были
получены расстояния наибольшего правдоподобия, а потом для восста-
новления дерева был применен метод ближайшего соседа. Количества
раз, когда эта процедура давала каждое из возможных неукороненных
деревьев, приведены в таблице ниже.
Восстановление деревьев методом ближайшего соседа:
N Ti Т2 т3
20 477 301 222
100 635 231 134
500 896 85 19
2000 995 5 0
Видно, что метод ближайшего соседа при большом количестве дан-
ных с большой достоверностью восстанавливает правильное дерево 1\.
В этом конкретном случае, на самом деле, существует немного причин
предпочесть ему метод наибольшего правдоподобия. □
В заключение этого раздела кратко ознакомимся с некоторыми
особыми случаями расстояния наибольшего правдоподобия. Модель
Джукса-Кантора для ДНК дает простую формулу: из упражнения 8.7
следует, что dML = — дМп (1 — где / — доля позиций, в которых
остатки различаются. Расстояние Джукса-Кантора обычно выража-
ют не в единицах времени, а в ожидаемом количестве замен на рас-
стоянии dML. Из матрицы скоростей (8.2) видно, что это число равно
3adML = In (1 -
Матрица Кимуры (8.6) тоже дает компактное выражения для рас-
стояний. В [Kimura 1980] через Q обозначена доля трансверсий, Р —
доля транзиций в выравнивании двух последовательностей. Затем в обо-
значениях (8.6) полагается st = Q/2 и ut = F, откуда после неболь-
ших манипуляций можно получаем, что at = log (1 - 2Р - Q) +
+ |log(l - 2Q), a (3t = log(l - 2Q). Из (8.5) ожидаемое общее ко-
личество замен на ребре длины t равно (2/3 + о) £, следовательно,
К = (2/2 4-a) t = —| log(l — 2Р — Q) — | log(l — 2Q).
8.6. Сравнение вероятностных и не-вероятностных методов
309
К называется расстоянием Кимуры. Способ его получения можно ин-
терпретировать следующим образом:
logР =W((1-P-Q)logrt+
и
+Q/2 log st + Р log ut + Q/2 log st),
где N — общее количество выровненных позиций. Это относительная
энтропия вероятностей r*, st, ut, st, стоящих в строке матрицы Киму-
ры (8.6) относительно частот соответствующих типов замен 1 — Р — Q,
Q/Z, Р, Q/2. Мы знаем (рис. 11.5), что относительная энтропия мак-
симальна, когда эти наборы вероятностей одинаковы, откуда следуют
уравнения Кимуры st = Q/2 и ut = Р.
Далее, максимум относительной энтропии может быть достигнут в
общем случае, если максимизировать по одной t. Может оказаться, что
нет такого значения £, которое бы удовлетворяло обоим предыдущим
уравнениям одновременно. Однако если максимизировать одновременно
по t и по отношению ct//3, сохраняя а 4- /3 постоянным, то количество
неизвестных совпадает с количеством уравнений, и можно разрешить
уравнения Кимуры. Если данных много, оценка а//3 из данных таким
образом может быть устойчивой процедурой, но если две последова-
тельности не слишком длинны, может быть лучше ввести априорное
распределение для а//3. Например, можно использовать гамма-функцию
и определить К = argmaxt шаха/^ {д (а/0, а, Ь) Пи Р /?)},
где а и b — подходящие константы, а через Р ^xzu\x3u,t,a, /3) обозначена
вероятность замены из матрицы Кимуры.
Наконец, переходя к белковым последовательностям, можно исполь-
зовать матрицы РАМ S(t) для определения Р (xzu\x3u,t) в (8.30). Макси-
мизирующее значение t не выражается аналитически, но его легко найти
с помощью градиентного спуска или более эффективной оптимизацион-
ной техники.
Упражнение
8.16 Получите расстояние Джукса-Кантора из принципа максимальной
относительной энтропии (рис. 11.5).
Вероятностная интерпретация алгоритма
Санкоффа-Седергрена
Если интерпретировать веса в алгоритме Санкоффа-Седергрена как
логарифмы вероятностей, и если провести его процедуру с «+» вместо
310
Глава 8
«max», то получившийся алгоритм вычислит полную вероятность, как
отмечено в [Allison, Wallace & Yee 1992а]. Вес дерева
s (Д1 -42,...,An -^)
станет суммой по всем сопоставлениям в предковых узлах, а рекур-
сия (7.6) будет брать сумму по всем предыдущим а, и следовательно,
суммировать по всем возможным выравниваниям. Как и в исходном ал-
горитме Санкоффа-Седергрена, вычислительная стоимость делает его
непрактичным для большинство задач.
Вероятностная интерпретация алгоритма Хейна
Как было замечено выше (стр. 300), максимальную бережливость
можно рассматривать как аппроксимацию Витерби полной вероятности,
если интерпретировать веса как \ogP(x\y), где Р(х\у) — вероятности
замен, не зависящие от времени. Полученные таким образом веса обыч-
но имеют различные значения для разных замен. Это означает, что обыч-
но существует только одно оптимальное выравнивание двух последова-
тельностей, и поэтому граф последовательностей Хейна будет состоять
только из одного пути. Однако обычно будет достаточно много путей,
лишь слегка субоптимальных. Поэтому в этом случае максимальная бе-
режливость дает плохую аппроксимацию полной вероятности. Если по-
пытаться поправить положения используя «+» вместо «шах», то придет-
ся включать все пути через матрицу динамического программирования в
граф последовательностей. В первом узле над листьями этот граф име-
ет размер 7V2, в следующих по высоте узлах — размер 7V3, 7V4 и так
далее. Очевидно, что мы теряем все преимущества перед полным, но
медленным подходом Санкоффа-Седергрена.
В качестве компромисса можно было бы попытаться выбирать
около-оптимальные пути в надежде хорошо приблизить полную веро-
ятность, сохраняя при этом граф последовательностей в разумных раз-
мерах. Такая стратегия, возможно, даст хороший алгоритм выравнива-
ния/филогении, но, возможно, потребует очень хитроумных эвристик
при выборе этих путей.
8.7. Дополнительное чтение
Наибольшее правдоподобие было впервые применено к филогении
в [Edwards & Cavalli—Sforza 1963, 1964], где был изучен случай непре-
рывных переменных, таких, как размер скелетных особенностей видов
8.7. Дополнительное чтение
311
или частота генов в популяции. Была описана эволюция этих перемен-
ных с помощью случайного блуждания в комбинации с процессом Юла,
позволяющим бифуркации [Edwards 1970]. Для реализации этого бы-
ли разработаны вычислительные методы [Thompson 1975], и они были
применены к некоторым интересным примерам.
В важной статье [Felsenstein 1981а] показано, как применить ме-
тод наибольшего правдоподобия в случае дискретных символов, таких,
как остатки в последовательностях. В ней введен основной алгоритм
вычисления вероятностей для деревьев любого размера (стр. 271), при-
ведена эффективная процедура максимизации вероятности по длинам
ребер (стр. 277) и показано, как можно использовать обратимость, что-
бы сузить задачу на неукорененные деревья (стр. 273). Это заложило
основы методов правдоподобия, которые наиболее часто применяются в
современной молекулярной филогении.
В этой и предыдущей главах мы рассматривали последовательности
ДНК и белков как в общем сходные, за исключением размера алфавита,
типы данных. Но, конечно, их биологическая роль очень различна, что
делает их подходящими для разных целей. Например, частые замены в
третей позиции кодона позволяют изучать недавние эволюционные собы-
тия, тогда как более консервативные участки белков могут нести инфор-
мацию о ранних в истории Земли событиях видообразования [Doolittle
et al. 1996]. Во многих случаях надо одновременно рассматривать уров-
ни ДНК и белка. В [Goldman & Yang 1994] показано, как это можно
сделать с использованием марковской модели, состояния которой — ко-
доны, а вероятности переходов отражают свойства замен ДНК, и (если
происходит смена кодируемого остатка) свойства аминокислот.
Будущее филогении выглядит очень оптимистичным. Впечатляющие
успехи геномики означают, что становятся доступными большие объемы
данных о последовательностях, и, возможно, в филогении будут исполь-
зоваться новые типы информации о последовательностях. Уже ясно, что
наличие различных семейств повторов может быть полезным филогене-
тическим маркером [Shimamura et al. 1997], также как и хромосомные
инверсии и другие геномные перестановки [Hannenhalli et al. 1995]. На
этот раз лес данных может позволить нам рассмотреть деревья более
ясно.
Глава 9
Трансформационные грамматики
До сих пор мы рассматривали биологические последовательности
как символьные строки, символы в которых независимы. Это допуще-
ние удобно для компьютерной обработки, но не реалистично. Процесс
образования пространственной структуры белков и нуклеиновых кис-
лот включает взаимодействие между удаленными (не обязательно со-
седними) остатками первичной структуры. Можно ли обобщить вероят-
ностные модели белковых и аминокислотных последовательностей так,
чтобы они учитывали удаленные взаимодействия? Сможем ли мы эффек-
тивно проводить расчеты по этим моделям? В этой главе мы отвлечемся
от частных проблем анализа последовательностей и обратимся к тео-
ретическим вопросам. Мы увидим, многие ли из методов, описанные в
предыдущих главах, укладываются в более общее представление о фор-
мировании последовательностей.
Общая теория, позволяющая анализировать символьные строки, бы-
ла разработана в рамках компьютерной лингвистики [Chomsky 1956;
1959]. Эта теория известна как иерархия трансформационных грам-
матик Хомского (Chomsky hierarchy of transformational grammars).
Большинство моделей, которые мы ранее использовали в этой книге, —
это низшие из четырех рассмотренных Хомским типов моделей; слож-
ность и описательная сила моделей растет от низших типов к высшим.
Трансформационные грамматики были разработаны, как попытка понять
структуру естественного языка. Эта теория стала очень важной для тео-
ретического программирования [Hopcroft & Ullman 1979; Gersting 1993],
поскольку компьютерные языки, в отличие от естественных языков, мо-
гут быть точно заданы формальными грамматиками. Не так давно идеи
трансформационных грамматик были применены в молекулярной биоло-
гии к задаче анализа последовательностей [Searls 1992; Dong & Searls
1994; Rosenblueth et al. 1996].
Примером применения теории грамматик к структурам более
высокого порядка (вторичным и третичным) в анализе биологиче-
ских последовательностей может служить использование вероятностных
9.1. Трансформационные грамматики 313
контекстно-свободных грамматик (ВКСГ) в анализе вторичной структу-
ры РНК. [Eddy & Durbin 1994; Sakakibara et al. 1994; Grate 1995; Lefebvre
1995; 1996]. Многие методы выравнивания последовательностей в ком-
пьютерной молекулярной биологии можно интерпретировать в терминах
вероятностных регулярных грамматик. Однако у этих методов есть своя
длинная история, и они вполне могут существовать, пребывая в счаст-
ливом неведении относительно Хомского и его иерархии. С другой сто-
роны, применение ВКСГ к вероятностному моделированию вторичной
структуры РНК — это относительно новое достижение и соответству-
ющий язык остается очень близким к своим корням в компьютерной
лингвистике. Чтобы понимать ВКСГ РНК, необходимо понимать основы
компьютерной лингвистики. Основная цель этой главы — создать плац-
дарм для применения вероятностных методов, базирующихся на ВКСГ,
в задаче моделирования вторичной структуры РНК. Мы начнем с опи-
сания невероятностных трансформационных грамматик. После этого мы
введем вероятностные грамматики как формальную систему для постро-
ения полной вероятностной модели последовательностей с удаленны-
ми корреляциями (long-range correlations) и ограничениями. Закончим
мы общим алгоритмом выравнивания для вероятностных контекстно-
свободных грамматик; как частный случай, эти алгоритмы будут приме-
нимы к моделям РНК, обсуждаемым в следующей главе.
9.1. Трансформационные грамматики
Несмотря на свою абсурдность, предложение «colourless green ideas
sleep furiously» является грамматически правильным предложением ан-
глийского языка1. Большинство носителей английского языка (за исклю-
чением тех, кто читал Хомского) никогда не видели ни этого предложе-
ния ни даже его части. Тем не менее, все они распознают его, правиль-
но разберут его и произнесут его с правильной интонацией английского
предложения.
Хомскому было интересно, каким образом мозг человека или ком-
пьютерная программа при помощи алгоритмов могут установить, явля-
ется ли неизвестное ранее предложение грамматически правильным или
нет. Он создал конечные формальные аппараты, «грамматики», которые
рекурсивно перечисляли бесконечное множество предложений данного
языка. Теория грамматик заменяет вопрос «Относится ли это предло-
жение к данному языку?» на вопрос «Может ли это предложение быть
!Так же как и предложение «бесцветные зеленые идеи яростно спят» — для русского
языка. — Прим, перев.
314
Глава 9
порождено грамматикой?» Если на первый вопрос трудно ответить, т.
к. множество всех возможных предложений бесконечно, то на второй
вопрос можно дать ответ для многих полезных форм грамматик. На-
сколько хорошо работает эта система, зависит от того, насколько хоро-
шо грамматическая модель отражает принятые в языке ограничения; т. е.
насколько много грамматических предложений грамматика не в состо-
янии породить и насколько много неграмматических предложений она
ошибочно порождает.
Иногда трансформационные грамматики называют порождающими
грамматиками (generative grammars). Можно говорить в терминах по-
рождения последовательностей даже если главной целью использования
модели является узнавание, подсчет и/или анализ строк. В третьей главе
мы описываем скрытые модели Маркова как порождающие вероятност-
ные модели, которые «порождают» последовательности. О том, принад-
лежит ли данная последовательность к некоему семейству или нет, мож-
но сделать вывод, посчитав вероятность того, что данная последователь-
ность может быть порождена скрытой моделью Маркова этого семейства.
Когда люди, занимающиеся построением скрытых моделей Маркова, го-
ворят о порождении последовательности, биологи иногда считают, что
такая формулировка только сбивает с толку. Очевидно, что белковую
последовательность породила биологическая эволюция, а не НММ. Тер-
мины «порождение» и «эмиссия» — просто части удобного формализма,
являющегося в основном заслугой Хомского.
Определение трансформационной грамматики
Формализм трансформационной грамматики содержит некоторое ко-
личество символов (symbols) и некоторое количество правил подста-
новки а (3, также называемых правилами вывода, где а и /3 —
строки символов. Существует два типа символов: абстрактные нетер-
минальные символы и терминальные символы, которые и появляются
в действительности в наблюдаемых строках. Левостороннее а содержит,
по крайней мере, один нетерминальный символ, который обычно транс-
формируется в новую строку из терминальных и/или нетерминальных
символов с правой стороны вывода. В случае, когда мы моделируем пред-
ложение естественного языка, терминальными символами будут слова;
если же мы моделируем белковые последовательности, терминальными
символами будут аминокислоты. Мы будем обозначать терминальные
символы строчными буквами, а нетерминальные — заглавными.
Самый простой способ понять, как действует трансформационная
9.1. Трансформационные грамматики 315
грамматика — изучить ее на примере. Мы будем использовать двух-
буквенный терминальный алфавит {а, Ь} и однобуквенный нетерминаль-
ный S. Специальный пустой символ е будет означать конец процесса.
Вот трансформационная грамматика, которая генерирует цепочку любой
длины, состоящую из символов а и Ь:
S —> aS, S —> bS, S —> s.
Чтобы сгенерировать строку из символов а и Ь, мы выполним серию
трансформаций, начиная, согласно правилам грамматики, с начальной
строки. По построению, мы начинаем с нетерминального символа S (ко-
торый в данном случае представляет наш единственный нетерминальный
символ). Выберем подходящее правило вывода, такую, у которой слева
стоит строка S, и S заменяется на строку, стоящую в правой части пра-
вила вывода. Процесс выбора подстроки и подстановки, согласно одному
из разрешенных правил, продолжается до тех пор, пока строка не бу-
дет содержать только терминальные символы и дальнейшее подстановка
станет невозможной. Последовательность строк, полученная в итоге это-
го процесса, называется трансформацией или выводом, из грамматики.
Примером трансформации в нашем простом случае может служить
S => aS => abS => abbS => abb.
Для удобства далее мы будем использовать сокращенную запись
для множественных возможных подстановок, типа S —> aS'|5S'|s, где
символ «|» означает «или». В нашем примере есть три варианта то-
го, во что можно трансформировать S. Применяя трансформационные
грамматики к задаче анализа последовательностей, обычно мы держим
в голове какую-то специфическую последовательность. Вопрос в том,
соответствует ли наша последовательность грамматике (т. е. может ли
грамматика породить нашу последовательность). Однако мы работаем
в обратном направлении — пытаемся понять, существует ли вывод для
этой строки. Если вывод существует, значит, строка является полноправ-
ным членом языка, смоделированного нашей грамматикой. Нахождение
правильного вывода для заданной последовательности называется раз-
бором, и в данном контексте вывод называется разбором последователь-
ности2. Мы можем говорить о разборе как о выравнивании грамматики
и последовательности. Так же как выравнивание последовательности с
2При этом никто не гарантирует единственность разбора (единственность последова-
тельности правил вывода). — Прим. ред.
316
Глава 9
НММ по алгоритму Витерби — это приведение последовательности к
виду НММ, так и разбор последовательности с помощью грамматики —
это, по существу, приведение последовательности к виду грамматиче-
ских нетерминальных символов.
Иерархия Хомского
Хомский [1959] описал четыре типа ограничений на правила подста-
новки. В результате получилось четыре класса грамматик, составивших
иерархию, известную как иерархия Хомского. В последующих приме-
рах мы будем использовать W для обозначения любых нетерминальных
символов, а — для обозначения терминальных символов, а и 7 — для
обозначения любых строк из терминальных и/или терминальных симво-
лов, в том числе и нулевую строку, а (3 — для обозначения любых строк
из нетерминальных и/или терминальных символов, не включая нулевую
строку.
Регулярные грамматики. Разрешены только следующие правила под-
становки: W aW и W а.
Контекстно-свободные грамматики. Разрешены правила вида W—>/3.
С левой стороны может стоять только один нетерминальный символ,
с правой же может быть любая строка.
Контекстно-зависимые грамматики. Здесь возможны преобразования
вида —► cti/ta2- Набор разрешенных преобразований нетер-
минального символа W зависит от его контекста cti и Можно
доказать, что требование того, что правая сторона содержит, по
крайней мере, столько же символов, сколько и левая сторона не на-
рушает общности. Выводы контекстно-зависимых грамматики нико-
гда не сжимаются. Например, это разрешает контекстно-зависимые
подстановки вида АВ —> В А.
Неограниченные (фразовой структурой) грамматики. Разрешены
любые подстановки вида > 7-
Автоматы
В программировании каждой грамматике сопоставлено надлежа-
щее абстрактное вычислительное устройство, называемое автоматом.
Грамматики описываются как порождающие модели, тогда как автоматы
9.2. Регулярные грамматики
317
обычно описываются как разборщики, которые допускают или отбрако-
вывают данные им последовательности. Есть две конкретные причины,
почему здесь мы считаем полезным для наших целей использовать ав-
томаты. Первая: автоматы обычно интуитивно более понятны и проще в
объяснении, чем эквивалентные им грамматики. В частности, для конеч-
ных автоматов есть отличное графическое представление, которое проще
понять, чем трудный список правил подстановки регулярных грамматик.
Вторая: автоматы дают более конкретное понимание того, как мы можем
распознать последовательность, используя формальную грамматику.
Таблица 9.1. Соотнесение абстракций синтаксического анализа (parser
abstraction) с грамматической иерархией.
Грамматика Автомат синтаксического ана- лиз
регулярная грамматика конечные автоматы (finite state automaton)
контекстно-свободная грамматика автомат с магазинной памятью (push-down automation)
контекстно-зависимая грамматика автомат линейно ограничен- ной памятью (linear bounded automaton)
неограниченные грамматики машина Тьюринга (Turing machine)
9.2. Регулярные грамматики
Все правила вывода в регулярной грамматики имеют вид либо
W aW, либо W —> а, где W и а обозначают соответственно любой
нетерминальный или терминальный символ грамматики. Иногда также
мы будем разрешать дополнительную подстановку W —> s, для терми-
нальных правил вывода, где s — это нулевая строка3. Естественно, что
регулярная грамматика генерирует последовательности слева направо.
3Правило W —» е — это «сжимающее» правило. Правая сторона короче левой. Тех-
нически, это делает продукцию неограничивающим грамматическим правилом. Однако
может быть доказано, что регулярная грамматика всегда может быть расширена до вклю-
чения е. Например, упоминавшаяся регулярная грамматика S —» aS|bS|e то же самое,
что и S —» aS|bS|a|b. Продукции с е не являются серьезной проблемой для алгоритмов
разбора регулярной или контекстно-свободной грамматик, но представляют некоторую тех-
ническую трудность для доказательств.
318
Глава 9
Регулярные грамматики не могут хорошо описывать удаленные корре-
ляции между терминальными символами. Это модели «для первичных
структур»4.
Пример: нечетная регулярная грамматика
Первая грамматика, приведенная в этой главе, была регулярной
грамматикой, которая генерирует любую строку, состоящую из символов
а и b — довольно скучная грамматика. Регулярные грамматики полны
гораздо более интересных, а иногда и удивительных, случаев. Вот при-
мер грамматики, которая генерирует только строки из символов а и b с
нечетным количеством символов a [Searls 1992]:
начинаем с S,
S aT\bS,
Т aS\bT\e.
В момент, когда строка содержит нечетное количество а, проис-
ходит трансформация нетерминального Т; а когда количество а четно,
трансформируется S. Поскольку заканчиваться процесс подстановки мо-
жет только применением вывода для нетерминального символа Г, то
эта грамматика может генерировать только строки с нечетным количе-
ством а. □
Конечные автоматы
Регулярной грамматике можно поставить в соответствие конечные
автоматы синтаксического анализа. Мы рассматривали конечные авто-
маты в главе 2, как основную модель для алгоритмов парного выравни-
вания. Теперь сосредоточимся на них подробнее. Конечный автомат —
это устройство, читающее в один момент один символ, начиная с начала
строки. Символ может быть либо принят, в таком случае автомат перехо-
дит в новое состояние, либо не принят, тогда автомат останавливается и
забраковывает строку. Если автомат достиг конца процесса в состоянии
«поддержки», то данная строка успешно распознана автоматом.
Конечный автомат — это модель, состоящая из набора состояний,
а состояния, в свою очередь, связаны между собой переходами. Состо-
яния и переходы соотносятся с нетерминалами и выводами регулярной
4Также могут быть грамматики, трансформирующие слева направо, состоящие только
из продукции W —► или только из W —► х. Это тоже регулярные грамматики. Если
разрешаются и W —► Wx и W —► xW в одной грамматике, то это уже контекстно-
свободная грамматика
9.2. Регулярные грамматики
319
Рис. 9.1. Иерархия Хомского для трансформационных грамматик, вложения по
принципу большего нарастания ограничений на правила вывода в грамматике.
С точки зрения разрешенных выводов, регулярная грамматика наиболее простая
и наиболее ограниченная грамматика, и поэтому наиболее простая для разбора.
Тем не менее, регулярная грамматика также имеет небольшую силу в описании
«структурных» ограничений на строки
грамматики, эквивалентной данному конечному автомату. Конечные ав-
томаты обычно схематично изображают так: круги обозначают состоя-
ния, стрелочки — переходы.
Пример: область повторяющихся триплетов FMR-1
В FMR-1 гене человека, есть область повторяющихся триплетов,
в которой последовательность CGG повторяется некоторое количество
раз. Количество триплетов сильно варьируется между индивидуумами,
и увеличение количество повторов сцеплено с синдромом хрупкости хро-
мосомы X, генетическим заболеванием, являющимся причиной умствен-
ной отсталости и других симптомов, появляющихся у одного из 2000
детей. Конечный автомат, показанный на рис. 9.2, кратко моделирует
область FMR-1 с повторяющимися триплетами CGG, разрешая цикличе-
ский переход обратно к новому триплету CGG.
Чтобы проверить, соответствует ли последовательность этому опи-
санию FMR-1 CGG повторов, автомат «съедает» по одному символу по-
следовательности. Если первый символ G, автомат переходит в состоя-
ние 1, в противном случае автомат забраковывает последовательность.
Если автомат в состоянии 1 и он считывает С, он успешно переходит в
состояние 2. И так до тех пор, пока автомат не распознает всю после-
довательность, достигнув конечного состояния Е, в котором слева нет
никаких символов для оценки. Этот конечный автомат признает пра-
вильной любую строку «языка», которая содержит строки GCG CTG,
320
Глава 9
а) Фрагмент последовательности тРНК гена FMR-1 человека
0
. . . GCG CGG CGG CGG CGG CGG CGG CGG CGG
CGG CGG AGG CGG CGG CGG CGG CGG CGG CGG
CGG CGG AGG CGG CGG CGG CGG CGG CGG CGG
CGG CGG CTG . . .
с
Рис. 9.2. (а) Последовательность области повторяющихся триплетов в гене
FMR-1, взятая из банка GENBANK, из записи HSFMRIA (АС=Х69962), два
варианта триплета AGG в повторе подчеркнуты, (б) Конечный автомат, распозна-
ющий область повторяющихся триплетов в гене FMR-1 с любым количеством
триплетов. Обращаем внимание на наличие перехода, поддерживающего отлич-
ные от CGG триплеты AGG
GCG CGG CTG, GCG CGG CGG CTG, GCG CGG CGG CGG CTG, так до
бесконечности с любым количеством повторов CGG. Регулярная грамма-
тика, соответствующая этому конечному автомату будет такой.
S^gW,
Wt -> cW2
W2 gW3
W3 -> cW4
W4 cW6
W5 gW6
WG сЩаИЦсЩ
W7 -> tWs
Машины Мура и Мили
В FMR-1 автомате на рис. 9.2, терминальные символы соотнесены
с переходами в автомате. Конечные автоматы, у которых символам со-
поставлены переходы, называются машинами Мили (Mealy machines).
В противоположность таким автоматам, для скрытых моделей Маркова в
главе 3 мы соотносили терминальные символы с состояниями автомата,
а порождение отдельных символов происходило при переходах между
9.2. Регулярные грамматики
321
состояниями. Конечные автоматы, в которых поддержка символа проис-
ходит после перехода в некое состояние, называются машинами Мура
(Moore machines). Эти два варианта взаимозаменяемы. Например, мы
можем пометить состояние 1 как G, и, таким образом, для поддержки G
иметь состояние, а не переход в состояние. В машине Мили правила
перехода, соотносящиеся с состоянием 1 в FMR-1 автомате будет таким:
S —> gW\, но оно также может быть записано в машине Мура следую-
щим образом: - -
5 —> Wi, Wi gWy,
где Wi — дополнительный промежуточный нетерминал. (Поскольку два
этих варианта эквивалентны, мы должны хорошо понимать, что правило
S —> Wi в машине Мура не строго соответствует правилу регулярной
грамматики.)
Детерминированные и недетерминированные автоматы
FMR-1 автомат — пример недетерминированного конечного авто-
мата. Когда автомат находится в состоянии 6, а следующий входящий
символ С, этот автомат может поддержать С, перейдя в любое из состо-
яний 4 и 7. В детерминированных конечных автоматах всегда не более
одного возможного перехода для любого состояния или входящего сим-
вола. Доказано, что любой недетерминированный автомат может быть
приведен к детерминированному.
Анализ с помощью детерминированных конечных автоматов очень
эффективен. Алгоритмы детерминированного конечного автомата лежат
в основе быстрых поисковых программ базы данных BLAST [Altschul et
al. 1990]. Анализирующие алгоритмы недетерминированного конечного
автомата могут проверять все возможные пути перед тем как забраковать
последовательность, но до сих пор не могут быть качественно сделаны.
Утилиты операционной системы UNIX для поиска фрагментов текста,
такие как GREP, SED, AWK и VI, довольно качественно реализуют
недетерминированный конечный автомат; При этом используется термин
«регулярные выражения» (regular expressions), который эквивалентен
регулярным грамматикам.
Упражнения
9.1 Преобразуйте FMR-1 автомат из рис. 9.2 в машину Мура, где каж-
дое состояние поддерживает отдельный символ, в отличие от маши-
ны Мили, где каждый переход поддерживает отдельный символ.
9.2 Преобразуйте FMR-1 автомат в детерминированный автомат.
322
Глава 9
Мотивы PROSITE
Великолепный пример биологического приложения регулярной грам-
матики — это база данных PROSITE, созданная Амосом Байрохом
(Amos Bairoch) и его коллегами в Женеве [Bairoch, Bucher & Hofman
1997]. Элемент базы данных PROSITE содержит белковое семейство и
шаблон последовательности для характерных высококонсервативных мо-
тивов, участвующих во всех или почти во всех членах этого белкового
семейства. В отличие от методов, оценивающих выравнивания, шабло-
ны PROSITE признают последовательность соответствующей или нет;
это регулярная грамматика, находящая соответствие последовательно-
сти, используя конечный автомат.
Шаблоны PROSITE содержат строку элементов, отделенных друг от
друга тире и заканчивающихся точкой. В элементе шаблона буква обо-
значает однобуквенный код одной из аминокислот; квадратные скобки
обозначают, что может встретиться любой заключенный в них оста-
ток; фигурные скобки обозначают, что может встретиться любой, кроме
заключенных в них, остаток; и х обозначает, что может встретиться
абсолютно любой остаток. В круглых скобках даются длина или диа-
пазон длин; так, -а?(4) соотносится с промежутком из четырех любых
остатков, а —а?(2,4) соотносится с промежутком из двух, трех или че-
тырех любых остатков. На рисунке 9.3 приведен пример одного из 1029
шаблонов PROSITE выпуска февраля 1995 года.
RU1AHUMAN
SXLF_DROME
ROCHUMAN
ELAVDROME
SRSLKM
KLTGRP
V G С S V Н
GNDTQT
RNP-1 motif
К Е V S S
NKREE
V N Е R N
DKREE
Т
Q
R
Т
А
А
А
б)
[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-х-[ГУМ].
Рис. 9.3. (а) Часть множественной последовательности выравнивания является
высококонсервативной ‘RNP-Г последовательностью мотивов главного семейства
РНК строительных белков. (Ь) Шаблон PS00030 для RNP-1 PROSITE
Любой образ PROSITE представляет собой регулярную граммати-
ку и может быть приведен к недетерминированному конечному авто-
мату. Синтаксис шаблонов PROSITE близок стандартному синтаксису
выражений регулярной грамматики. Некоторые общедоступные поиско-
9.2. Регулярные грамматики
323
вые реализации шаблонов PROSITE используют в качестве поискового
инструмента утилиту UNIX GREP, с предварительным преобразовани-
ем их в регулярные выражения UNIX, которые GREP, в свою очередь,
перестраивает в автомат5.
Пример: шаблон PROSITE в форме регулярной грамматики
Сейчас мы приведем пример регулярной грамматики, соответству-
ющей RNP-1 шаблону PROSITE, изображенному на рисунке 9.3. Мы
будем использовать начальный нетерминал S и восемь нетерминалов
соответствующих восьми позициям консервативного моти-
ва. Для краткости некоторые правила вывода записаны в скобках, как в
описаниях PROSITE, например, [ac]W обозначает aWfcW.
Wi gW2
W2 [afilmnqstvwy]W^
W3 [agsci]W4
W4 - №№
lW6liW6lvW6laW6
И2 ~► [acdefghiklmnpqrstvwy]W7
W7 f\y\m
□
Упражнение
9.3 Образ PROSITE для семейства цинкового пальца С2Н2, важного
ДНК-связывающего белкового мотива, выглядит следующим обра-
зом: С-х (2,4 )-С-х (3) - [LIVMFYWC]-х (8)-Н-х (3,5)-Н. Изоб-
разите конечный автомат, поддерживающий этот шаблон.
Чего не может регулярная грамматика
Два классических примера [Chomsky 1956] языков L, которые ре-
гулярные грамматики описать не могут:
5Весьма мощным и популярным инструментом для работы с регулярными выражени-
ями является язык программирования PERL. Многие другие языки программирования в
настоящее время имеют библиотеки для обработки регулярных выражений. — Прим. ред.
324
Глава 9
(i) L содержит все строки вида аа, bb, abba, abaaba, и т.д., т. е. такие,
которые одинаково читаются туда и обратно (язык палиндромов).
(ii) L содержит все строки вида аа, abab, aabaab, т. е. такие, которые
состоят из двух одинаковых частей (язык повторов).
Регулярные грамматики могут порождать палиндромы; важно то, что
регулярные грамматики не могут порождать только палиндромы и, сле-
довательно, не могут правильно отличить палиндром от не палиндрома.
Описание все более и более специфических ограничений на грамматиче-
ские строки языка требует более сложной, чем регулярная, грамматики.
Как видно из рисунка 9.4, взаимодействия в языке палиндромов
вложенные, т. е. линии, показывающие взаимодействия, не пересекают-
ся; в языке повторов линии могут пересекаться. Это оказывается суще-
ственным различием при определении типа грамматики, порождающей
каждый из языков.
Регулярный язык: a b а а а b
Язык повторов:
Язык палиндромов:
aabaab
Рис. 9.4. В отличие от регулярных языков, в языке палиндромов и языке по-
второв есть соответствия между удаленными позициями. Линии показывают
коррелированные позиции в строках языка палиндромов и языка повторов
9.3. Контекстно-свободные грамматики
Язык палиндромов связан со следующим уровнем иерархии Хомско-
го — контекстно-свободными грамматиками (context-free grammars),
или КСГ. Проблема разбора фразы типа «а роза упала на лапу Азора»6
нечасто возникает в компьютерной биологии. Но есть причина, чтобы
внимательнее взглянуть на контекстно-свободные грамматики: вторич-
ная структура РНК — это вариант языка палиндромов, что показано
6В оригинале фраза “Doc, note. I dissent. A fast never prevents a fastness. I iet on cod”.
9.3. Контекстно-свободные грамматики
325
в последующем примере. С вторичной структурой РНК связана следу-
ющая задача: собственно последовательность не имеет значения, пока
сохраняются отношения между некоторыми вложенными позициями.
Контекстно-свободные грамматики предписывают определенные пра-
вила, которые разрешают грамматике создавать вложенные, удаленные
парные корреляции между терминальными символами. «Левая сторона
правила вывода по-прежнему должна быть единичным нетерминальным
символом; правая же часть правила вывода может быть комбинацией
терминальных и нетерминальных символов. Тем самым правая сторо-
на может порождать пары коррелирующих единичных нетерминальных
символов, в отличие от правил регулярной грамматики, которые должны
независимо генерировать пару символов из двух разных нетерминалов.
Примером КСГ, умеющей генерировать язык палиндромов, может слу-
жить следующая грамматика:
S —> aSalbSblaalbb.
Вот правила вывода для палиндрома ’aabaabaa’ посредством этой КСГ:
S => aSa => aaSaa => aabSbaa => aabaabaa
В то время как регулярная грамматика порождает строки слева
направо, контекстно-свободная грамматика умеет генерировать строки
«изнутри». Только вложенные корреляции могут быть учтены благодаря
этой «внутренней» генерации. Перекрестные корреляции языка повторов
нарушают эти вложенные ограничения. Таким образом, язык повторов —
это не контекстно-свободная грамматика.
Пример: Контекстно-свободная грамматика для петли РНК на
стебле7
На картинке ниже изображены две последовательности РНК seql
и seq2, которые могут свернуться в одну и ту же вторичную струк-
туру, несмотря на их различие, потому что они имеют один и тот же
шаблон, необходимый для спаривания оснований (A-U и С-G). Последо-
вательность seg3, хотя и составлена из первой половины seql и второй
половины seq2, все же не может свернуться в подобную структуру. Об-
щая вторичная структура РНК шаблона накладывает на нуклеотидную
7Обычно такую структуру РНК называют шпилькой. — Прим. ред.
326
Глава 9
последовательность несколько вложенных ограничений, как и палин-
дромный язык, за исключением того, что взаимозависимые основания
РНК должны быть комплементарными, а не одинаковыми.
seqi seq2 seq3
А А С А С А
G А G А G А
G • С U • А U х с
А • U С • G С х и
С • G G • С G х G
I I , ill
CAGGAAACUG seqi
GCUGCAAAGC seq2
GCUGCAACUG seq3
КСГ, которая моделирует петли РНК GCAA или GAAA (как в последова-
тельностях segl и seq2), на стебле, состоящим из трех пар оснований,
можно записать в виде:
S aW1u\cW1g\gWic\uWia
Wi —> aW2u\cW2g\gW‘2c\uW2a
W2 а1Уз^|с1Уз^|^И/зс|<г/Илза
IV3 —> дааа\дсаа
Упражнения
9.4 Напишите правила вывода для последовательностей seql и seq2,
используя контекстно-свободную грамматику из вышеприведенного
примера.
9.5 Напишите регулярную грамматику, которая генерирует последова-
тельности scql и seq2, но не генерирует последовательность seq3
(см. пример выше).
9.6 Рассмотрите полный язык, генерируемый КСГ из приведенного вы-
ше примера. Опишите регулярную грамматику, которая генерирует
в точности такой же язык. Кажется ли Вам описание семейства
последовательностей, составляющих язык, с помощью регулярной
грамматики хорошей идеей?
Деревья разбора
Сопоставление правил контекстно-свободной грамматики и после-
довательности (т. е. грамматический разбор последовательности) имеет
9.3. Контекстно-свободные грамматики 327
элегантное представление, называемое деревом разбора. Корнем дере-
ва является стартовый нетерминал S. Листья дерева — это терминаль-
ные символы последовательности. Внутренние узлы представляют собой
нетерминалы. Потомки внутреннего узла являются выводами из этих
нетерминалов, перечисленных в порядке слева направо.
Поддеревом мы будем называть фрагмент дерева разбора с корнем в
промежуточном узле. Любое поддерево порождает непрерывный сегмент
наблюдаемой последовательности. Это свойство очень важно. Оно поз-
воляет алгоритмам строить оптимальные деревья разбора для последо-
вательностей путем рекурсивного построения все больших оптимальных
поддеревьев для все больших фрагментов последовательностей. Пример
дерева разбора для КСГ и короткой последовательности РНК приведен
на рис. 9.5.
caggaaacugggugcaaacc
Рис. 9.5. (а) Дерево разбора для последовательности CAGGAAACUGGGUGCAAACC
и грамматика РНК-шпилек, расширенная правилом вывода S —> SS, чтобы мож-
но было делать более интересные деревья, (б) Вторичная структура РНК для та-
кой же последовательности, которая близко соответствует представлению дереву
разбора
Пример: Дерево разбора для шаблона PROSIТЕ
Регулярные грамматики являются подмножеством контекстно-сво-
бодных грамматик. Следовательно, выравнивание регулярных грамматик
с последовательностями также может быть представлено в виде дерева.
На рис. 9.6 показано дерево разбора для регулярной грамматики шабло-
328
Глава 9
на PROSITE RNP-1 с рис. 9.3. Очевидно соответствие между выравни-
ванием и деревом разбора. □
Рис. 9.6. Дерево разбора для RNP-1 мотива RGQAFVIF, соответствующее регу-
лярной грамматике со стр. 323. Регулярные грамматики представляют собой ли-
нейный специальный случай контекстно-свободных грамматик, и, следователь-
но, дерево разбора для регулярной грамматики по существу лишь стандартное
линейное выравнивание нетерминалов с последовательностью терминалов v
Автоматы с магазинной памятью
Автомат, анализирующий КСГ, называется автоматом с магазин-
ной памятью (push-down automaton). В то время как конечные автома-
ты требуют память лишь для запоминания последовательности текущих
состояний, автоматы с магазинной памятью хранят конечное число сим-
волов в форме магазина8.
Автомат с магазинной памятью анализирует последовательность
слева направо в соответствии со следующим алгоритмом. Магазин ав-
томата инициализируется путем помещения в него стартового нетерми-
нального символа. Затем повторяются следующие шаги до тех пор, пока
не останется входных символов. Если магазин пуст в тот момент, ко-
гда не осталось входных символов, значит, последовательность успешно
проанализирована.
8Магазин — это массив или список значений, доступ к которым осуществляется по
принципу «последним зашел — первым вышел». Элементы помещаются в магазин сверху,
и извлекаются из него также сверху, так что магазин похож на стопку тарелок.
9.3. Контекстно-свободные грамматики
329
Алгоритм: Разбор с помощью автомата с магазинной памятью
Извлечь символ из магазина.
Если извлеченный символ нетерминальный:
- Заглянуть во входную последовательность из текущей позиции и
выбрать подходящую подстановку для нетерминала, взятого из ма-
газина. Для детерминистического автомата с магазинной памятью
существует максимум одна возможность. Для недетерминистиче-
ского — оценить по отдельности все возможности. Если подходя-
щей подстановки не существует, отвергнуть последовательность и
закончить работу.
- Поместить правую часть выбранного правила вывода в магазин, при-
чем начать нужно с самого правого символа.
Если извлеченный символ терминальный:
- Сравнить его с текущим символом входной последовательности. Ес-
ли они одинаковы, сместить автомат вправо на одну позицию по
входной последовательности (входной символ принят). Иначе от-
вергнуть последовательность и закончить работу. <
Автоматы с магазинной памятью неэффективны при распознавании
с использованием недетерминистических контекстно-свободных грамма-
тик. Нужно основательно испытывать все варианты подходящих шагов
автомата до тех пор, пока либо входная последовательность не будет
успешно принята, либо не останется подходящих шагов автомата. Хо-
тя этот тупой «в лоб» алгоритм можно использовать для распознавания
строк с использованием многих не слишком сложных недетерминистиче-
ских КСГ, потенциально существует опасность комбинаторного роста ко-
личества различных вариантов порождений, которые нужно проверить.
Позже в этой главе мы опишем более сложный алгоритм разбора CYK
(Cocke-Younger-Kasami) для контекстно-свободных грамматик.
Пример: Разбор шпилечной структуры РНК с помощью автомата с
магазинной памятью
Рассмотрим разбор последовательности GCC GCAA GGC контекстно-
свободной грамматикой, разработанной для шпилечной структуры РНК
(см. стр. 326). Ниже показана последовательность операций, которая
осуществляется над магазином автомата при разборе последовательно-
сти. Позиция автомата на входе (левый столбец) выделена прямоуголь-
ником. Символы в магазине показаны в среднем столбце с вершиной
330
Глава 9
магазина слева. В зависимости от текущей позиция входа и верхнего
символа в магазине выбирается следующая операция автомата (после-
довательность операций изображена в третьем столбце). Для краткости
нетерминалы обозначены своими номерами, т. е. «1» используется для
обозначения «ГИр> и т. д.
Входная строка Магазин Операции автомата над магазином и входной строкой
| G |CCGCAAGGC s Извлечь S. Посмотреть на вход; пра- вило S glc.
[g~]ccgcaaggc glc Извлечь д. Принять д\ сдвинуться вправо во входной строке.
g[~g~|cgcaaggc 1c Извлечь 1. Посмотреть на вход; пра- вило 1 —> с2д
g|~g]cgcaaggc c2gc Извлечь с. Принять с; сдвинуться вправо во входной строке.
gc[g~|gcaaggc 2gc Извлечь 2. Посмотреть на вход; пра- вило 2 сЗд
gc|~g~|gcaaggc сЗддс Извлечь с. Принять с; сдвинуться вправо во входной строке.
gcc|~g]caaggc Зддс Извлечь 3. Посмотреть на вxoд^ пра- вило 3 —> дсаа
GCC|~G~|CAAGGC gcaaggc Извлечь д. Принять д; сдвинуться вправо во входной строке.
(несколько принятий символов)
gccgcaagg[c~| c Извлечь с. Принять с; сдвинуться вправо во входной строке.
GCCGCAAGGC| | — Магазин пуст. Входная строка закон- чилась. Принять строку.
□
Упражнение
9.7 Модифицируйте алгоритм разбора автоматом с магазинной памятью
так, чтобы он случайно генерировал одну из возможных подходя-
щих последовательностей в языке с контекстно-свободной грамма-
тикой.
9.4. Контекстно-зависимые грамматики 331
9.4. Контекстно-зависимые грамматики
Хотя на первый взгляд язык копирования кажется не более слож-
ным, чем язык палиндромов, языки копирования не являются языками с
контекстно-свободными грамматиками. В общем случае, языки копиро-
вания требуют контекстно-зависимых грамматик. Контекстно-зависимая
грамматика, которые генерирует даже наш простой пример с языком
копирования, сложна. Рассмотрим, например, язык копирования, состо-
ящий из строк типа сс, асса, abaccaba, bbabccbbab\ т. е., из всех строк,
состоящих из двух копий любой строки символов а и 6, которые разделе-
ны парой символов с. Контекстно-зависимая грамматика, генерирующая
такой язык, выглядит следующим образом:
Инициализация:
S —> CW Генерирование терминалов:
Генерирование нетерминалов: С А —> аС
W AAW\BBW\C СВ ЬС
Переупорядочивание нетерминалов: АС Са
АВ В А ВС СЬ
АА —> АА Завершение:
В А АВ СС сс
ВВ ВВ
У нас есть семь различных нетерминалов, S, А, А, В, В, С и W.
А и А предназначены для генерирования символа а (так же как В и В —
для генерирования символа b, а С — символа с). Нетерминалы А и В
генерируют левую половину строки, в то время как А и В — правую
половину.
Контекстно-зависимая грамматика не генерирует прямо парные пе-
рекрестные взаимодействия между символами в языке копирования.
Вместо этого, нетерминал W генерирует их как пары с неперекрест-
ными взаимодействиями, затем грамматика переупорядочивает нетер-
миналы соответствующим образом, проверяя их локальный контекст.
Правила переупорядочивания меняют местами нетерминалы, перемещая
нетерминалы с крышечкой вправо, чтобы они ниходились правее всех
нетерминалов без крышечек. Поскольку любое правило продукции мо-
жет быть использовано в любой момент, когда его левая часть встре-
чается в процессе вывода, грамматика тщательно сконструирована так,
чтобы не начать генерировать терминалы до тех пор, пока все нетерми-
налы не будут упорядочены надлежащим образом.
332
Глава 9
Пример порождения строки aabccaab с помощью этой грамматики
выглядит следующим образом:
S => CW => AAW => CAAAAW => CAAAABBW => СААААВВС
=> СААААВВС => САААВАВС СААВААВС => СААВААСЬ
=> CAABACab => CAABCaab => aCABCaab => aaCBCaab
=> aabCCaab => aabccaab
Автомат для разбора с помощью контекстно-зависимой грамматики
называется линейно ограниченным автоматом. Линейно ограниченный
автомат представляет собой механизм для методичной работы в обрат-
ном порядке по всем возможным правилам вывода наблюдаемой строки
до тех пор, пока либо вывод не достигнет стартового нетерминала, ли-
бо не переберутся все возможные правила вывода и ни одно из них не
подойдет. Из-за того, что контекстно-зависимая грамматика ограниче-
на, т. е. левая часть правила продукции не может быть длиннее правой,
должно быть конечное число вариантов возможных выводов. В любом
промежуточном месте в процессе разбора строки не может встретиться
строки, длиннее, чем сама наблюдаемая строка. В учебниках по теоре-
тическому программированию линейно ограниченные автомату описы-
ваются как абстрактную «ленту» линейной памяти и головку для чте-
ния/записи; термин «ограниченный» означает, что количество требуемой
ленты гарантированно будет меньше либо равно длине наблюдаемой по-
следовательности. Однако, число возможных выводов экспоненциально
велико. На данный момент не существует общего полиномиального по
времени алгоритма для разбора с помощью контекстно-зависимой грам-
матики. Это серьезная проблема при рассмотрении любых практических
применений с использованием контекстно-зависимых грамматик.
NP задачи и «не решаемые эффективно» задачи
Задачи, в которых не существует известных полиномиальных по
времени алгоритмов для нахождения решения, но решение может быть
проверено на правильность за полиномиальное время, называются неде-
терминистическими полиномиальными, или NP задачами. Много ин-
тересных задач являются NP задачами, включая задачу разбора текста с
использованием контекстно-зависимой грамматики. Доказательство, что
не существует полиномиального по времени алгоритма для решения NP
задач, является святым граалем в области теоретического программиро-
вания. Подкласс NP задач, включая как разбора контекстно-зависимой
9.4. Контекстно-зависимые грамматики
333
грамматикой, так и знаменитую задачу коммивояжера, называются NP-
полными (NP-complete) задачами. Полиномиальный по времени алго-
ритм, который решит одну NP-полную задачу, решит и все NP-полные
задачи9.
NP задачи иногда называются «нерешаемыми». Однако важно по-
мнить, что с многими NP задачам можно (и приходится — прим, ред.)
работать. Точные тупые алгоритмы, такие как метод ветвей и границ
могут быть использованы, если задача не слишком велика. Приблизи-
тельные алгоритмы, такие как алгоритм искусственного отжига, могут
быть применены даже к большим задачам10.
Также важно понимать, что могут существовать частные «решае-
мые» случаи для многих задач по моделированию, которые являются
NP задачами в более общей форме. В качестве примера можно привести
задачу нахождения тандемных повторов в последовательностях ДНК.
Хотя очевидно, что последовательности с тандемными повторами обра-
зуют языки копирования, и, следовательно, явным образом являются NP
задачами разбора, существует множество эффективных полиномиальных
по времени алгоритмов, которые локализуют тандемные повторы. Очень
грубый полиномиальный по времени алгоритм состоит в перечислении
всех различных подпоследовательностей (z,j) исходной последователь-
ности; существует около L2 таких подпоследовательностей. Каждая под-
последовательность может быть затем выровнена индивидуально с ис-
ходной последовательностью, чтобы проверить, содержит ли она тандем-
ные повторы, используя алгоритм динамического программирования из
главы 2 со временем работы O(L2), что дает общее время O(L4).
Неограниченные грамматики и машины Тьюринга
Неограниченная грамматика — это трансформационная граммати-
ка, в которой левые и правые части правил продукции могут быть лю-
бой комбинацией символов. Эквивалентным автоматом, анализирующим
такую грамматику, является машина Тьюринга (Turing machine). Не су-
ществует общего алгоритма, который бы за конечное время с гарантией
определял, имеет ли строка подходящий вывод из неограниченной грам-
матики или нет. Интуитивно это объясняется тем, что правила вывода
9Хорошее объяснение теории NP и NP-полных задач приведено в переводной книге
Т. Кормен, Ч.Лейзерсон, Р. Ривест, «Алгоритмы построение и анализ» МЦНМО, Москва,
2001. — Прим. ред.
,0В последнее время все большую популярность для решения таких задач приобретают
генетические алгоритмы, моделирующие эволюцию.
334
Глава 9
позволяют могут сжиматься правой части. Промежуточные строки при
обратной работе по возможным выводам машины Тьюринга могут вы-
растать до размеров, больших исходной строки, и таким образом, число
возможных выводов может неограниченно расти. В противоположность
неограниченным грамматикам, число промежуточных строк в выводах
контекстно-зависимой грамматики должно быть конечным, потому что
промежуточные строки на ленте линейно ограниченного автомата могут
становиться только меньше по мере того, как автомат работает обрат-
но по направлению к возможным решениям. Свойства машин Тьюринга
представляют огромный интерес с точки зрения теоретического програм-
мирования, но отсутствие какого-либо алгоритма для разбора, который
бы гарантированно заканчивал свою работу, превращает неограничен-
ные грамматики непривлекательными для практических применений, за
исключением, возможно, более ограниченных частных случаев таких
грамматик. Многие задачи, которые могут быть сформулированы как
неограниченные грамматики, вместо этого формулируются как задачи
оптимизации и разбор осуществляется нестрого, например, с помощью
искусственного отжига, как описано выше для контекстно-зависимых
грамматик и NP задач.
9.5. Вероятностные грамматики
Тщательное рассмотрение шаблонов PROSITE обнаруживает недо-
статок использования простых конечных автоматов для вычислительной
биологии. По мере того, как определяются новые последовательности,
белковое семейство растет, и становится все более трудно создавать
определенный шаблон. Исключения из созданного правила могут встре-
титься в любой позиции. Например, RNP-1 мотива еще одного РНК-
связывающего белка, SRP55 белка с идентификатором SR55_DROME,
который участвует в сплайсинге мРНК у дрозофил, имеет последо-
вательность NGYGFVEF. Первый остаток N не соответствует шаблону
PROSITE, который требует присутствия в этой позиции остатков R или
К. Шаблон должен быть модифицирован, чтобы разрешить быть остат-
ку N в первой позиции. По мере того, как исключения накапливаются,
а шаблон становится менее жестким, специфичность шаблона падает.
В результате шаблон может содержать настолько мало информации, что
ему будут соответствовать даже несвязанные, случайно взятые после-
довательности. Для нескольких белковых семейств с разнообразными
последовательностями оказалось невозможным сделать дискриминиру-
ющий шаблон PROSITE. Логическое решение этой проблемы состоит
9.5. Вероятностные грамматики
335
в том, чтобы разрешить все исключения, но вместо равновероятности
всех возможностей, придать исключениям меньший вес, чем сильному
совпадению с консенсусной последовательностью. Эта идея приводит к
вероятностной регулярной грамматике, подобной «профилям» последова-
тельностей (глава 5) и скрытым цепям Маркова (глава 3).
Любая грамматика из иерархии Хомского может быть использована
в вероятностной форме в качестве базиса для вероятностной модель-
ной системы для последовательностей. Вероятностная грамматическая
модель 0 генерирует различные строки х с вероятностями Р(х\0), в то
время как невероятностные грамматики либо генерируют строку х, либо
нет.
В вероятностной регулярной грамматике или в вероятностной
контекстно-свободной грамматике сумма вероятностей всех возможных
порождений, которые можно получить из любого данного нетерминала,
равна 1. Результирующая вероятностная грамматика определяет распре-
деление вероятностей по последовательностям х, т. е. Р(х\0) = 1.
Например, в первом правиле вывода нашего примера шаблона PROSITE,
S rWi\kWi, в вероятностной регулярной грамматике можно каждому
выводу приписать вероятность, равную 0.5:
S^rW! S^kWi.
(0.5) (0.5)
После этого в вероятностной регулярной грамматике могут прини-
маться исключения без сильной потери способности узнавания наиболее
убедительных мотивов, определяя для исключений низкие, но все же
ненулевые вероятности. Например, не входящая в консенсус N в пер-
вой позиции RNP-1 мотива SR55_DROME может быть смоделирована с
помощью правил вывода, подобных изображенным ниже:
S^rWr, S^kWly S-^nWr.
(0.45) (0.45) (0.10)
Если правила вывода позволяют с некоторой вероятностью появ-
ляться всем возможным символам (любым из двадцати аминокислот)
и грамматика построена таким образом, что она может генерировать
последовательности любой длины, тогда язык, определяемый вероят-
ностной грамматикой, включает все возможные строки, а не только их
часть. Вероятностная грамматика может, следовательно, быть использо-
вана, чтобы задать распределение вероятностей по всему бесконечному
пространству последовательностей.
336
Глава 9
Вероятностные контекстно-зависимые или неограниченные
грамматики
Мы не будем исследовать вероятностные контекстно-зависимые или
вероятностные неограниченные грамматики в каких-либо деталях, по-
скольку мы не знаем ни одного их практического применения в вычис-
лительной биологии. Однако мы должны заметить здесь, что правила
вывода для вероятностных версий контекстно-зависимых и неограни-
ченных грамматик должны быть сформулированы более осторожно, чем
описание, которое мы дали только что для регулярных и контекстно-
свободных грамматик. Нетерминал W может иметь различные правила
вывода в различных контекстах, а сами контексты необязательно долж-
ны быть уникальными. Рассмотрим для примера контекстно-зависимую
грамматику S —> aW, S —> bW, bW —> bb,W a,W —» 6, с вероятностя-
ми реализаций этих правил pi,... ,р5. Язык, генерируемый этой грамма-
тикой, состоит из множества предложений {аа, ab, ba, bb} с вероятностя-
ми {piP4,PiP5,Р2Р4, (Р2Р3+Р2Р5)}• Можно легко показать алгебраически,
что простое требование, чтобы сумма вероятностей порождения для S
и W равнялась единице, т. е. чтобы pi + р2 = 1 и р3 + pt + = 1,
не дает распределения вероятностей по строкам языка, за исключением
частных случаев, когда pi = 0 или р3 = 0. Эта проблема может быть
решена путем реконфигурации грамматики, так чтобы контекст нетер-
минала уникально определял набор возможных правил вывода и чтобы
ни для одного нетерминала никогда не было более одного варианта левой
части правил вывода. Тогда установка суммы вероятностей подстановки
нетерминала в заданном контексте приводит к вероятностной грамма-
тике. Например, вышеприведенная грамматика может быть изменена на
S —> aW, S —> bW, bW —> bb, bW —> ba, aW —> aa, aW —> ab, с вероятно-
стями реализаций этих правил pi,... ,рв, где теперь условия р\ + р2 = 1,
Рз +Р4 = 1, Р5 +Рб = 1 дают правильную вероятностную грамматику.
Скрытые цепи Маркова — вероятностные регулярные
грамматики
Скрытые цепи Маркова эквивалентны вероятностным регулярным
грамматикам. Единственное отличие заключается в том, что два вида це-
пей традиционно изображаются по-разному. НММ обычно описываются
как машины Мура, которые выпускают символы по приходу в состоя-
ния, независимо от переходов. Порождения вероятностной регулярной
9.5. Вероятностные грамматики
337
грамматики соответствуют машинам Мили, которые выпускают терми-
нальные символы по переходу в новый нетерминал (т. е. правил вывода
вида W\ —> aW2). Как мы уже видели ранее в этой главе, машины Мура
и Мили можно преобразовать друг в друга. Например, любое состоя-
ние НММ, которое делает N переходов в новые состояния, каждое из
которых выпускает один из М может быть также смоделировано как на-
бор из NM порождений вероятностной регулярной грамматики. Таким
образом, алгоритмы для выравнивания, вычисления веса и подбора пара-
метров (обучения)для вероятностных регулярных грамматик такие же,
что и алгоритмы, которые мы использовали для скрытых цепей Маркова
(глава 3).
Упражнения
9.8 Спаренные нуклеотиды G и U могут быть в черенках РНК, но
встречаются с меньшей частотой, чем Уотсон-Криковские пары G-C
и A-U. Переделайте грамматику РНК-шпилек со стр. 326 в веро-
ятностную контекстно-свободную грамматику, позволяя паре G-U
встречаться в черенке с вдвое меньшей вероятностью, чем Уотсон-
Криковские пары.
9.9 Обобщите алгоритм работы автомата с магазинной памятью со
стр. 329, чтобы генерировать последовательности согласно веро-
ятностной контекстно-свободной грамматике в соответствие с их
вероятностями. (Заметим: Это дает эффективный алгоритм для от-
бора последовательностей из любой ВКСГ, включая более сложные
РНКовые ВКСГ из следующей главы.)
9.10 Рассмотрите простую НММ, которая моделирует два вида нуклео-
тидного состава в ДНК. Модель имеет два состояния, полностью
взаимосвязанных четырьмя переходами. Состояние 1 выпускает
CG-богатые последовательности с вероятностями (pa,pr,py,pt) =
= 0.1,0.4,0.4,0.1, а состояние 2 — АТ-богатые последовательности
с вероятностями (pa,Pc,Pg,Pt) = {0.3,0.2,0.2,0.3}. (а) Нарисуйте
такую НММ. (б) Установите переходные вероятности так, чтобы
ожидаемая длина запуска состояния 1 составляла 1000 нуклеоти-
дов, а ожидаемая длина запуска состояния 2 — 100 нуклеотидов,
(в) Определите такую же модель для формы вероятностной регу-
лярной грамматики с терминалами, нетерминалами и правилами
вывода с соответствующими приписанными вероятностями.
338
Глава 9
9.6. Вероятностные контекстно-свободные грамматики
для моделирования последовательностей
Теперь мы можем записать вероятностные контекстно-свободные
грамматики как модели последовательностей. Однако, записывание ве-
роятностной грамматики только первый шаг в создании полезной веро-
ятностной модельной системы для задачи анализа последовательностей.
Так же, как и с НММ, мы должны иметь алгоритмы, чтобы изучить
следующие три проблемы:
(i) Нахождение оптимального выравнивания последовательности с па-
раметризованной вероятностной грамматикой. (Задача выравнива-
ния.)
(ii) Вычисление вероятности наблюдения последовательности, при за-
данной параметризованной вероятностной грамматике. (Задача оцен-
ки.)
(iii) При заданном наборе тестовых последовательностей/структур, оцен-
ка оптимальных параметров для непараметризованной вероятност-
ной грамматики. (Задача обучения.)
В главе 3 мы видели решения для каждой задачи в применении
к скрытым цепям Маркова (и следовательно для вероятностных регу-
лярных грамматик). Алгоритм Витерби решает задачу выравнивания.
Процедура прямого прохода прямого-обратного алгоритма решает зада-
чу оценки. Прямой-обратный алгоритм используется в максимизации
ожидания по Бауму-Вельчу для решения тренировочной задачи. Анало-
гичные алгоритмы динамического программирования также существуют
для вероятностных контекстно-свободных грамматик.
Нормальные формы для вероятностных
контекстно-свободных грамматик
КСГ могут иметь неограниченное многообразие символьных строк
в правой части правил вывода. Чтобы изобразить общий алгоритм раз-
бора КСГ, очень полезно придать ограниченную «нормальную форму»
правилам вывода. Одна такая нормальная форма — нормальная форма
Хомского (Chomsky normal form). Нормальная форма Хомского требует,
чтобы все правила вывода КСГ были выражены в форме Wv WxWy
или Wv —» а. Любая КСГ может быть переделана в нормальную фор-
му Хомского путем расширения не имеющих нужную форму правил
9.6. Вероятностные контекстно-свободные грамматики 339
вывода в несколько порождений нормальной формы из дополнительно-
го нетерминала, следовательно, алгоритм разбора, который применим
к КСГ в нормальной форме Хомского, становится вообще применим к
любой КСГ. Например, правило вывода S —> aSa из нашей палиндром-
ной КСГ со стр. 325 может быть расширено до S —> WiW2, Wi а,
W2 —> SWi в нормальной форме Хомского.
Упражнения
9.11 Преобразуйте правило вывода W —> aWbW в нормальную форму
Хомского. Предполагая, что вероятность исходного вывода равна
р, вычислите вероятности для подстановок в версии с нормальной
формой.
9.12 Преобразуйте правило вывода W3 —> дааа\дсаа из грамматики для
шпилечной структуры РНК со стр. 326 в нормальную форму Хом-
ского. Предполагая, что вероятность подстановки W3 —> дааа рав-
на pi, а вероятность подстановки W3 —> дсаа равна р2 = 1 — pi,
вычислите вероятности для подстановок в нормальной форме. По-
кажите, что в Вашей версии правильно получаются вероятности
Pi и р2 для петель GAAA и GCAA, соответственно.
Внутренний алгоритм
Внутренний-внешний алгоритм для ВКСГ в нормальной форме Хом-
ского [Lari & Young 1990] — естественный аналог алгоритма про-
смотра вперед-назад для НММ (глава 3). Внутренний алгоритм вы-
числяет вероятность (вес) последовательности в фиксированной ВКСГ,
точно так же, как и алгоритм просмотра вперед использовался для
НММ. Вариант внутреннего алгоритма с наилучшим путем, алгоритм
CYK (Cocke-Younger-Kasami), находит наиболее вероятное выравнива-
ние ВКСГ с последовательностью, точно так же, как был использо-
ван в НММ алгоритм Витерби. Внутренний-внешний алгоритмы пред-
ставляют собой рекурсивные алгоритмы динамического программирова-
ния, как и прямой-обратный алгоритмы, но вычислительная сложность
внутреннего-внешнего алгоритма значительно выше.
Введем некоторые обозначения. Рассмотрим ВКСГ в нормальной
форме Хомского с множеством из М различных нетерминалов W =
= ИЛ,..., WM. Стартовый нетерминал — Wi. Пусть v,y и z будут ин-
дексами для нетерминалов Wv, Wx и Wy. Правила вывода будут вида
Wv —> WxWy или Wv а (где а — возможный символ терминального
340
Глава 9
алфавита). Пусть вероятностные параметры для этих подстановок обо-
значаются tv(y, z) и ev(a), соответственно (для перехода и эмиссии). По-
следовательность х содержит L символов, обозначаемых как х^,... ,хь.
Символы последовательности х в позициях г, j1 и к будем обозначать
как Xi, Xj и х^.
Внутренний алгоритм вычисляет вероятность v) поддере-
ва разбора с корнем в нетерминале Wv для подпоследовательности
Xi,...,Xj для всех i,j и v [Lari & Young 1990]. Для вычисления тре-
буется трехмерная матрица динамического программирования размером
L х L х М. Вычисление начинается с подпоследовательностей длиной 1
(г = j), затем то же самое делается для подпоследовательностей дли-
ной 2, и продолжает расширяться «наружу», работая для все более и
более длинных подпоследовательностей, пока вероятность дерева разбо-
ра не будет определена для всего дерева с корнем в стартовом нетер-
минале. Схематическая иллюстрация рекурсивной природы алгоритма
изображена на рис. 9.7. Формально, внутренний алгоритм таков.
v
Рис. 9.7. Иллюстрация шага повторения для вычисления вероятности
выравнивания поддерева с корнем в v и подпоследовательности от i до j. Она
вычисляется рекурсивно путем суммирования поддеревьев для состояний у и z
и меньших подпоследовательностей от i до к и от к + 1 до j, для всех у, z и к,
а затем умножением на вероятность перехода v —> yz
Алгоритм: внутренний
Инициализация: для i — 1, ..., L и для v = 1, ..., М:
a(i,i,v) = ev(xi).
Итерация: для i = 1,..., L — 1; для j = i + 1,..., L и для v = 1,..., М:
М М J-1
у=1z=l к—г
Завершение: Р(х\в) = a(l, L, 1). <
9.6. Вероятностные контекстно-свободные грамматики
341
Таким образом, внутренний алгоритм вычисляет вероятность (вес)
последовательности для ВКСГ. Необходимое количество памяти для ра-
боты внутреннего алгоритма составляет O(L2A/), что очевидно из нали-
чия трех индексов для величины а. Временная сложность алгоритма со-
ставляет O(L3M3), что очевидно из использования в рекурсивной петле
трех индексов i,j и к для позиций последовательности и трех индексов
v,y и z для грамматических нетерминалов.
Внешний алгоритм
Внешний алгоритм вычисляет вероятность (3(i,j,v) выравнивания
полного дерева разбора с корнем в стартовом нетерминале с целой по-
следовательностью т, исключая все поддеревья разбора для подпосле-
довательностей с корнем в нетерминале Wv для всех z, j и v
[Lari & Young 1990]. Как и во внутреннем алгоритме, вычисление выпол-
няется на трехмерной матрице динамического программирования разме-
ром Lx Lx М. Вычисление вероятностей требует знания значе-
ний а(г, и) из предыдущего внутреннего алгоритма. Внешний алгоритм
начинает работу с максимально возможной исключенной подпоследова-
тельности а затем рекурсивно углубляется «внутрь». Схема-
тичная иллюстрация работы внешнего алгоритма приведена на рис. 9.8.
Формально, алгоритм таков:
Алгоритм: внешний
Инициализация: /?(1, L, 1) = 1; (3(1, L, v) = 0 для v = 2, ..., М.
Итерация: для г = 1,..., L; для j = L,..., i и для v = 1, ..., М:
г — 1
= ^2^а(А;,г - 1, z)0(k, j,y)tv(z,v)+
y,z k=l
L
+ 52 12 a(j + l,k,z)0(i,k,y)ty(v,z).
y,z k=j + l
Завершение:
м
r = l
для каждого i. <
342
Глава 9
Рис. 9.8. Иллюстрация рекурсивного вычисления значений (3(i, j, v), суммы веро-
ятностей всех деревьев разбора, исключая поддеревья с корнем в нетерминале
которые генерируют подпоследовательность i,j (пустые кружочки). Диаграмма
(а) соответствует первой части итерационного правила внешнего алгоритма, где
учитывается вклад в (3(i, j, v) комбинации внешнего значения для нетерминала
у и подпоследовательности \,j + 1, ..., L, комбинации внутреннего
значения для нетерминала z, генерирующего подпоследовательность к,..., i — 1,
и переходной вероятности у —> vz
Переоценка параметров с помощью максимизации
ожидания
Внутренние переменные а и внешние переменные (3 могут быть ис-
пользованы, чтобы сделать переоценку вероятностных параметров ВКСГ
с помощью максимизации ожидания (МО), процедуры, большая часть
которой совпадает с таковой для прямых и обратных переменных при
тренировке НММ с помощью МО [Lari & Young 1990]. Ожидаемое чис-
9.6. Вероятностные контекстно-свободные грамматики
343
до раз, когда состояние v используется в выводе, равно
L L
' I ' г=1 j=i
Эта формула может быть далее расширена, чтобы находить ожида-
емое число раз, когда встречается нетерминал Wv и затем используется
подстановками Wv WxWy\
L — l l j-i
ф ^y,z)= * ^2 52 +
' I ' i=l k—i
Затем следует, что формула для переоценки с помощью МО для
вероятностей подстановок Wv —> WxWy выглядит следующим образом:
f , х Ф~> У*)
tv(y,z) =---—— =
ф)
_ Sf-i+i ECi 0(i,j,v)a(i,kyy)a(k + 1, j, z)tv(y, z)
Ef=l Е^ФФ'ФЖФ)
Похожие формулы справедливы для других правил вывода вида
Wv а, откуда следует
„ , ч ф^а)
е„(а) =----т-r— = —г-----г----------------•
Ф) Y,i=i Ф, Л «)Ф, J,w)
Обобщение этих формул для переоценки параметров для одной на-
блюдаемой последовательности на случай множества независимо наблю-
даемых последовательностей очевидно. Ожидаемое число раз встречи
того или иного нетерминала или использования какого-либо правила
вывода находится суммированием по всем последовательностям.
Алгоритм выравнивания СУК
Оставшаяся задача состоит в нахождении для последовательности
оптимального дерева разбора (выравнивания). Эта задача решается алго-
ритмом, называемым СУК (алгоритм Cocke-Younger-Kasami), вариантом
344
Глава 9
внутреннего алгоритма, в котором операции суммирования заменены на
операции взятия максимума11. В нем вычисляется переменная
что в конечном счете приводит к вычислению значения logF(z,i|0), где
тг — наиболее вероятное дерево разбора. Мы также храним переменную
обратного прохода v), которая представляет собой триплет чисел
которые нужны нам для обратного прохода по трехмерной мат-
рице динамического программирования и восстановления оптимального
выравнивания. Формально, стадия алгоритма для заполнения матрицы
такова:
Алгоритм: СУК
Инициализация: для i = 1,..., L и для v = 1,..., М:
7(м» = log ev(xi);
= (0,0,0)-
Итерации: для i = 1,..., L — 1; для j = i + 1,..., L и для v = 1, ..., М\
7(2,7, г?) — max max 7(2, к, у) 4- у (к + l,j, z) -I- log£v(?/, г);
y,z k—i . . . j-1
= argmax 7(2, k,y) + y(k + l,j,z) -I- log^(?/, z).
(y,z,k),k=i . . . j-1
Завершение: logP(jr,?r|0) = 7(1,L, 1). <
За этой стадией следует процедура обратного прохода для восста-
новления наилучшего выравнивания, что делается путем вталкивания и
извлечения триплетов в и из магазина:
Алгоритм: процедура обратного прохода для алгоритма СУК
Инициализация:
Поместить (1,L, 1) в магазин.
Итерации:
Извлечь из магазина v).
(y,z,k) =
Если v) = (0,0,0) (что подразумевает, что i = j), прикрепить
Xi в качестве потомка v\
Иначе:
Прикрепить у, z к дереву разбора в качестве потомков v.
11 Как было изначально независимо описано этими авторами [Cocke, Younger & Kasami],
CYK является точным алгоритмом выравнивания для не вероятностных КСГ. Следователь-
но, наше использование названия «алгоритм CYK» для алгоритма разбора ВКСГ несколько
неточно, но мы не встречали в литературе никаких других названий для варианта алго-
ритма CYK в применении к ВКСГ
9.6. Вероятностные контекстно-свободные грамматики
345
Поместить в магазин (к + l,j, г).
Поместить в магазин (г, к, у).
<
Так же, как алгоритм выравнивания Витерби может быть исполь-
зован как приближение алгоритма обучения МО для НММ, СУК мо-
жет быть использован в качестве приближения для обучения внешнего-
внутреннего алгоритма. Вместо вычисления ожидаемого числа счетчи-
ков, используя вероятностный внешний-внутренний алгоритм, мы вы-
числяем оптимальные выравнивания алгоритмом СУК для обучающих
последовательностей и затем считаем число переходов и эмиссий, кото-
рые встретились в полученных выравниваниях.
Сводка по алгоритмам ВКСГ
Используя внешний-внутренний и СУК алгоритмы, ВКСГ могут
быть использованы как полная вероятностная модельная система, в точ-
ности так же, как мы использовали НММ. В следующей таблице про-
суммированы свойства алгоритмов ВКСГ в сравнении с их аналогами
для НММ:
Цель Алгоритм НММ Алгоритм ВКСГ
Оптимальное выравнивание Витерби CYK
РЖ Прямой Внутренний
Оценка параметров МО Прямой-обратный Внутренний-внешний
Затраты памяти: O(LM) O(L2M)
Временные затраты: O(LM2) O(L3M3)
Вычислительная сложность алгоритмов ВКСГ кажется пугающей,
но большая часть этой сложности происходит от общности алгорит-
ма. Для более ограниченных ВКСГ существуют более быстрые алго-
ритмы. Алгоритмы ВКСГ для РНК из следующей главы работают за
время порядка О(ЬЛМ). Это все еще плохо, однако намного лучше,
чем O(L3Af3).
Иногда говорят, что внутренний-внешний алгоритм может быть при-
менен только к ВКСГ, записанной в нормальной форме Хомского, под-
разумевая тем самым, что ВКСГ должна быть тщательно переведена в
нормальную форму Хомского перед тем, как приступить к ее разбору.
Это верно только для педантичного определения внутреннего- внешнего
алгоритма. Внутренний-внешний алгоритм приводится для нормальной
346
Глава 9
формы ВКСГ Хомского только лишь для общности и удобства обозна-
чений (вспомним, что любая ВКСГ, какие бы сложные правила вывода
в нее ни входили, может быть переписана в нормальной форме Хомско-
го). В сущности такие же алгоритмы следуют для других «нормальных
форм» ВКСГ, в которых вводятся ограничения на правую часть правил
вывода. Мы увидим естественные альтернативы нормальной форме Хом-
ского при моделировании РНК в следующей главе.
9.7. Дополнительное чтение
Приведенное в этой главе описание теории формальных языков не
является строгим. Заинтересованные читатели за подробностями луч-
ше обратиться к таким книгам, как «Введение в теорию формальных
языков» [Harrison 1978] или «Введение в теорию автоматов, языки и вы-
числения» [Hopcroft & Ullman 1979]. В обеих книгах в деталях расска-
зывается о не вероятностных контекстно-свободных грамматиках, авто-
матах с магазинной памятью и быстрых алгоритмах для разбора с КСГ,
поскольку это важно для разработки компьютерных языков и эффек-
тивности языковых компиляторов. В [Myers 1995] также написано об
алгоритмах разбора с участием КСГ.
Наше описание алгоритмов ВКСГ основывается на работах [Lari &
Young 1990; 1991] в области распознавания речи.
Теория трансформационных грамматик была применена к формали-
зованным описаниям биологических задач иначе, чем к анализу последо-
вательностей с различной степенью успешности. Эти задачи включают
моделирование метаболических путей [Collado-Vides 1989; 1991] и путей
развития [Lindenmayer 1968]. Вдобавок, существуют другие «лингвисти-
ческие» подходы в области компьютерного анализа последовательностей,
которые основываются на значениях частот встречаемости слов (A;-tuple),
а не на теории трансформационной грамматики [Brendel, Beckmann &
Trifonov 1986; Pesole, Attimonelli & Saccone 1994; Pietrokovski, Hirshon &
Trifonov 1990].
Глава 10
Анализ структуры РНК
Во многих интересных случаях вторичная структура РНК, отра-
жающая взаимодействие спаренных друг с другом оснований, сохра-
няется в ходе эволюции в большей степени, чем последовательность
РНК. Это делает анализ последовательностей РНК более сложным и
трудным, чем анализ последовательностей белков и ДНК. Для анализа
вторичной структуры РНК представляется естественным использовать
вероятностную модель, построенную с использованием вероятностных
контекстно-свободных грамматик (ВКСГ), теория которых изложена в
главе 9. В этой главе мы рассмотрим две задачи анализа последователь-
ностей РНК, представляющих биологический интерес.
Первая задача состоит в предсказании вторичной структуры для
единичной последовательности РНК. Мы в общих чертах опишем два из-
вестных алгоритма динамического программирования для предсказания
вторичной структуры РНК — алгоритмы Нуссинов (Nussinov) и Цукера
(Zuker). Далее мы используем задачу предсказания вторичной структу-
ры РНК в качестве вводного примера использования ВКСГ для анализа
РНК посредством создания небольшой ВКСГ, реализующей вероятност-
ную версию алгоритма Нуссинов.
Вторая задача состоит из нескольких связанных задач, предназна-
ченных для анализа множественных выравниваний семейств родствен-
ных РНК. Как и в 5-й главе, где профиль НММ использовался как
для множественного выравнивания, так и для поиска в базе данных, мы
строим модель структурных профилей РНК, называемую «ковариантной
моделью» (КМ), для работы с множественным выравниванием, где учи-
тываются ограничения, накладываемые вторичной структуры. КМ ис-
пользуются как для множественного выравнивания РНК, так и для по-
иска в базах данных. Процесс предсказания общей вторичной структуры
для множественного выравнивания последовательностей РНК, называе-
мый сравнительным анализом последовательностей РНК, также отчасти
автоматизирован при помощи алгоритмов, обучающих ковариантную мо-
дель.
348
Глава 10
Читая эту главу, следует иметь в виду, что методы анализа РНК на
базе ВКСГ не являются широко известными и часто используемыми. Все
описываемые нами ВКСГ методы находятся на стадии развития и имеют
серьезные проблемы с вычислительной сложностью. Весьма вероятно,
что очень скоро появятся улучшенные методы ВКСГ для анализа РНК.
В этой главе мы постараемся уделить внимание принципам построения
вероятностных методов анализа РНК, основанных на ВКСГ, не вдаваясь
в детали, которые в скором времени могут измениться. Наконец, ВКСГ
РНК представляют собой учебный пример теории, дополняющей теорию
для построения профилей НММ. Мы увидим, насколько вероятностный
аппарат, разработанный для НММ, также применим для различных,
более сложных моделей.
10.1. РНК
Для многих РНК означает лишь пассивный промежуточный пере-
носчик информации от генов ДНК к аппарату трансляции белка. Мат-
ричная РНК часто описывается как линейный неструктурированный по-
лимер, интересный лишь из-за аминокислотной последовательности, ко-
торую он кодирует. Однако существует много некодирующих РНК, кото-
рые сворачиваются в сложные трехмерные структуры, а некоторые даже
катализируют химические реакции. Со времени поразительного откры-
тия каталитических РНК в начале 1980-х [Cech & Bass 1986] обнаруже-
но много интересных структурированных и каталитических РНК. Позже
были разработаны новые РНК, используя технологии in vitro эволюции
(метод SELEX) для отбора из репертуара случайных последовательно-
стей РНК новых специфических лигандов и катализаторов [Gold et al.
1995].
Открытие катализа РНК возродило гипотезу о происхождении жиз-
ни, широко известную в настоящее время как «мир РНК» [Gilbert 1986;
Gesteland & Atkins 1993]. Согласно этой гипотезе перед возникнове-
нием геномов ДНК и белков-катализаторов в мире существовали РНК
геномы, которые реплицировались РНК-катализаторами. Иногда можно
услышать точку зрения, что многие современные структурные и ката-
литические РНК являются «молекулярными ископаемыми», которые до-
стались нам в наследство за время эволюции от вымершего мира РНК.
Структурные и каталитические РНК также важны в молекуляр-
ной биологии современных организмов. Есть мнение, что пептидил-
трансферазная активность рибосом обусловливается рибосомной РНК
[Noller, Hoffarth & Zimniak 1992]. Сплайсинг РНК (удаление интронов
10.1. РНК
349
из эукариотических транскриптов — предшественников мРНК) катали-
зируется РНК-белковым комплексом (сплайсосомой), которая содержит
пять основных видов малых ядерных РНК [Baserga & Steitz 1993]. Узна-
ющая сигнал частица, которая вовлечена в транслокацию белков че-
рез плазматическую мембрану, также является РНК-белковым комплек-
сом [Larsen & Zwieb 1993]. Специфические процессинг и модификация
рибосомной РНК требуют массы малых ядрышковых РНК [Maxwell &
Fournier 1995]. В транскриптах матричных РНК, структура РНК (в осо-
бенности ее 5’ и 3’ нетранслируемых областей) используется множе-
ством способов для выполнения пост-трансляционной генетической регу-
ляции. Известные пост-трансляционные регуляторные механизмы вклю-
чают контроль на уровне сплайсинга мРНК [McKeown 1992], модуляции
трансляционной продуктивности [Melefors & Hentze 1993] и регуляции
стабильности мРНК [Peltz & Jacobson 1992].
Терминология вторичной структуры РНК
РНК — это полимер, состоящий из четырех различных видов ну-
клеотидов. Сокращенно эти четыре нуклеотиды записываются как А, С,
G, и U, обозначая, соответственно, аденин, цитозин, гуанин и урацил.
В ДНК вместо урацила используется тимин (Т).
Гуанин с цитозином, а аденин — с урацилом, могут формировать во-
дородные связи друг с другом, образуя пары G-С и A-U; также говорят,
что гуанин комплементарен цитозину (а аденин — урацилу). В парах
G-С формируется три водородных связи, из-за чего они обладают боль-
шей стабильностью, чем пары A-U, в которых только две водородных
связи. Пары оснований примерно компланарны и в трехмерной струк-
туре почти всегда уложены стопкой друг на друга; возникающее при
этом взаимодействие называется czne/шнг-взаимодействием (stacking),
а непрерывная стопка уложенных друг на друга пар оснований называ-
ется стеблем (stem). В трехмерном пространстве стебли РНК обычно
образуют регулярную двойную спираль (в A-форме). В отличие от ДНК,
РНК обычно появляется как однотяжевая молекула, которая затем сво-
рачивается сама на себя с формированием множества коротких стеблей.
Эта структура называется вторичной структурой (secondary structure)
РНК. Вторичные структуры РНК обычно изображаются двухмерными
рисунками, подобных рис. 10.1.
Названия элементов вторичной структуры РНК показаны на рис.10.2.
Однотяжевые участки РНК, ограниченные спаренными основаниями, на-
зываются петлями (loops). Петля на конце стебля называется шпилеч-
350
Глава 10
Canis familiar is
SRP-RNA
Рис. 10.1. Вторичная структура РНК узнающей сигнал частицы (signal
recognition particle, SRP) РНК из собаки, Canis familiaris
ной петлей (hairpin loop). Простые подструктуры, состоящие из просто-
го стебля и петли, называются стеблевыми петлями или шпильками
(stem loops или hairpins), из-за того, что они в нарисованном виде по-
хожи на шпильки для волос. Группа неспаренных основания в одном из
тяжей стебля, называется выпячиванием (bulge или bulge loop). Неспа-
ренные основания, прерывающие оба тяжа стебля РНК, называются вну-
тренней петлей (interior loop). Наконец, существуют разветвленные
петли (multi-branched loops), из которых отходят три и более стеблей.
Помимо канонических пар А- и G-С, во вторичной структуре РНК
встречаются также и неканонические пары. Наиболее распространен-
ной неканонической парой является пара G-U, которая почти так же
термодинамически выгодна, как и Уотсон- Криковские пары. Также мо-
гут встречаться и другие пары. Неканонические пары нарушают регу-
лярную A-форму РНКовых спиралей. Эти нарушения представляются
привлекательной мишенью для белков, специализирующихся на распо-
знавании РНК.
Спаренные основания почти всегда встречаются во вторичной струк-
туре РНК вложенным друг в друга образом. Неформально это означает,
что если мы нарисуем дуги над участками РНК, соединяющими спа-
10.1. РНК
351
с
С G
• •
G С
G
U
5'
безструктурные
одиночные стебли
G
G *С
разветвленные ветви JP
G • С
3'
выпячивание
стеблевые
петли
стебли
G U
С А
С G
внутренние петли
С
и
С
G
С
G V
Рис. 10.2. На гипотетическом примере показаны основные элементы вторичной
структуры РНК
ренные основания, ни одной дуге не придется пересечься с другой ду-
гой. Более формально, пара оснований с индексами i и j и другая пара
оснований с индексами if и / вложены тогда и только тогда, когда
i < г' < jf < j или i' < i < j < j'. (Вспомните, что это условие бы-
ло справедливо и для палиндромных языков из главы 9 — вот почему
КСГ применяют при анализе вторичной структуры РНК.) Места, где
встречаются невложенные пары оснований, называются псевдоузлами
(pseudoknots). Пример псевдоузла приведен на рис. 10.3.
Ни один из алгоритмов динамического программирования, которые
мы описали, не может работать с псевдоузлами, включая алгоритмы сво-
рачивания РНК Цукера и Нуссинов, а также ВКСГ алгоритмы. Мы виде-
ли в предыдущей главе, что описание пересекающихся взаимодействий
в полной общности, потребовало бы контекстно-зависимых грамматик.
Поскольку псевдоузлы встречаются во многих важных РНК, мы игно-
рируем биологически важную информацию, когда не учитываем псев-
доузлы. К счастью, полное число оснований, формирующих псевдоуз-
лы, обычно мало по сравнению с количеством спаренных оснований во
вложенной вторичной структуре РНК. Например, в одной вручную по-
строенной модели вторичной структуры Е. coli SSU рРНК существуют
447 Уотсон-Криковских и G-U пар оснований, что подтверждено сравни-
тельным анализом последовательностей, из которых только восемь пар
участвуют в невложенных псевдоузловых взаимодействиях [Gutell 1993].
352
Глава 10
G*C \\ W\\
C*G \\\\\\
C*G W\\\ \
U*G \\\\\\
u’aaaa ugagc u-3'
G AG C U-3'
Рис. 10.3. Пары оснований между петлей и нуклеотидами, расположенными сна-
ружи находящегося внутри стебля, называются псевдоузлами (слева). Еще одно
изображение этого же псевдоузла показано справа. В трехмерном пространстве
два стебля могут коаксиально (соосно) сложиться друг на друга и быть похожи-
ми на непрерывную спираль в A-форме. Этот частный пример — искусственно
отобранный РНКовый ингибитор обратной транскриптазы вируса иммунодефи-
цита [Tuerk, MacDougal & Gold 1992]
Для многих задач, включающих поиск гомологов РНК по базам данных,
люди обычно жертвуют информацией о псевдоузлах в обмен на эффек-
тивные алгоритмы динамического программирования. Для других целей,
таких как предсказание трехмерной структуры псевдоузлы необходимо
учитывать, и такие жертвы неуместны.
Эволюция последовательностей РНК ограничена
структурой
Достаточно просто найти примеры гомологичных РНК с общей вто-
ричной структуры, но, однако, без значительного сходства последова-
тельностей. В последовательности могут быть допущены поразитель-
ные изменения, до тех пор, пока компенсаторные мутации не нарушают
комплементарность спаренных в исходной структуре оснований. Было
бы выгодно уметь искать консервативные участки вторичной структуры
вдобавок к консервативным участкам последовательности при поиске в
базах данных гомологичных РНК.
Структура, показанная на рис. 10.4, представляет собой консенсус-
ную структуру сайта связывания белка оболочки РНК-содержащего бак-
териофага R17 [Witherell, Gott & Uhlenbeck 1991]. Белок оболочки R17
10.1. РНК
353
связывается с этим сайтом и подавляет трансляцию бактериальной ре-
пликазы, что является частью нормальной фазы литического цикла R17.
Только четыре позиции последовательности специфицированы в консен-
сусной структуре, причем две из них вырождены. Если бы мы хотели
найти в нуклеотидной последовательности места встречи консенсусного
сайта связывания белка оболочки R17, бесполезно было бы использовать
стандартный метод выравнивания последовательностей.
N Y
А А
N»N'
n»n'
R
N»N'
n»n'
n»n'
n»n'
n»n'
Рис. 10.4. Общая структура сайта связывания белка оболочки фага R17. N, Y
и R — стандартные «вырожденные» символы для обозначения множества воз-
можных нуклеотидов. N обозначает {А, С, G, U}, Y - {С, U) и R - {A, G}. N’
обозначает нуклеотид, комплементарный к нуклеотиду N
Насколько бесполезно? Поучительно сделать несколько приближен-
ных расчетов, пользуясь Шенноновской теорией информации. В терми-
нах теории информации, консенсусная пара оснований содержит столь-
ко же информации, что и одно консервативное основание. Информация
(относительная энтропия), содержащаяся в совершенно консервативном
основании (рх = 1) равно рж log2 = 2 битам (исходя из одина-
fx
ковой ожидаемой частоты встречаемости оснований, равной fx = 1/4).
Аналогично, вырожденные символы R и У, изображенные на рис. 10.4,
каждый несет 1 бит информации, a N — 0. Информация, содержащаяся
в любой Уотсон-Криковской паре любой РНК, также равна 2 битам, по-
скольку V J2 рХу log2 у^ = 2 (опять же, в предположении равенства
Jxy
ожидаемых частот встречаемости fxy = 1/16, и что Уотсон-Криковские
пары встречаются с равной вероятностью, pau = Pcg = Pgc = Pua =
= 1/4).
354
Глава 10
Рассматривая консервативность только первичной структуры, кон-
сенсусная последовательность R17 несет 6 бит информации. То есть, мы
ожидаем, что каждая 64-я (26) наудачу взятая последовательность ну-
клеотидов будет такого же вида, что и наша последовательность. Если
же добавить к описанию консенсусной последовательности информацию
о наличии семи пар оснований (взятую из вторичной структуры — Прим,
перев.), мы прибавим 14 бит информации, увеличивая содержание ин-
формации до 20 бит, и уменьшая вероятность случайного нахождения
комплементарной последовательности до одной миллионной (220). Если
мы ищем последовательность вида NNN NNN NRN NAN YAN NNN NNN в
геноме родственного бактериофага MS2 (идентификатор в базе данных
GENBANK — MS2CG; R17 отсутствует в этой базе данных), состоя-
щем из 3569 пар оснований, мы найдем 38 таких последовательностей,
37 из которых попались совершенно случайно. Если мы повторим свой
поиск, требуя, чтобы в найденной последовательности было 7 пар осно-
ваний, мы найдем только одну последовательность, которая и является
настоящим сайтом связывания белка оболочки.
Этот поиск был осуществлен программой поиска РНК по шабло-
ну, аналогичной программе RNAMOT [Gautheret, Major & Cedergren
1990]. Программа ищет детерминистические (в противоположность ве-
роятностным) мотивы, учитывая, однако, ограничения, накладываемые
вторичной структурой, задаваемые дополнительно. Программа хорошо
работает для небольших, хорошо определенных шаблонов, но в некото-
рой степени нечувствительна к нахождению последовательностей с ме-
нее консервативной структурой. На данный момент считается благора-
зумным для более чувствительных и основанных на статистике поисков
в базе данных РНК аккуратно писать специальную программу для каж-
дой интересуемой структуры РНК [Dandeker & Hentze 1995]. Несколько
таких программ существует для нахождения генов транспортных РНК
[Fichant & Burks 1991; Pavesi et al. 1994; Lowe & Eddy 1997], и одна —
для нахождения каталитической группы I в интронах [Lisacek, Diaz &
Michel 1994]. Однако, поскольку число различных известных интерес-
ных видов РНК растет, существующее положение дел нельзя признать
удовлетворительным.
Определение структуры путем сравнительного анализа
последовательностей
Те же самые ограничения, накладываемые вторичной структурой,
которые затрудняют поиск по базе данных, делают задачу предсказания
10.1. РНК
355
консенсусной вторичной структуры РНК относительно простой — по
крайней мере, относительно предсказания белковой структуры. В струк-
турно правильном множественном выравнивании РНК, консервативные
пары оснований часто выявляются по высокой частоте коррелированных
компенсаторных мутаций. Этот метод является теоретическим методом
предсказания структуры; тем не менее, предсказание вторичной струк-
туры РНК с помощью такого процесса сравнительного анализа после-
довательностей (comparative sequence analysis) считается наиболее
надежным средством определения вторичной структуры РНК, уступая
лишь определению структуры с помощью ядерного магнитного резонанса
(ЯМР) или рентгеновского рассеяния на трехмерных кристаллах РНК.
Принятые для использования консенсусные структуры наиболее изучен-
ных РНК были получены сравнительным анализом [Woese & Расе 1993]
(рис. 10.5).
Рис. 10.5. С помощью сравнительного анализа последовательностей видно, что в
выделенных прямоугольниками позициях множественного выравнивания (слева)
мутации оснований коррелированны так, чтобы сохранить Уотсон-Криковскую
комплементарность. Эта коррелированность подразумевает наличие спаривания
соответствующих оснований, что приводит к предсказанию вторичной структуры
(справа)
Сравнительный анализ — тяжелое искусство. Предсказание пра-
вильной структуры сравнительным анализом требует знания структурно
верного множественного выравнивания, в то же время, структурно пра-
вильное множественное выравнивание подразумевает знание правиль-
ной структуры. Структура «решается» итеративной процедуры улучше-
ния, состоящей из построения структуры на основе существующего мно-
жественного выравнивания, а затем —перестраивания выравнивания на
основе полученной структуры. Сравниваемые последовательности долж-
ны быть достаточно схожи, чтобы они могли быть выровнены лишь на
основе гомологии первичной структуры для начала итеративного процес-
са, но в то же время, они должны достаточно отличаться, чтобы можно
было ожидать наличие коррелированных мутаций.
Количественная мера парной ковариации последовательностей про-
исходит из теории информации [Chiu & Kolodziejczak 1991; Gutell et
356
Глава 10
al. 1992]. Взаимная информация M7J двух выровненных столбцов i и j
определяется следующей формулой
= £ fXlX, iog2
хг,х- JXrJXj
где Д, — частота наблюдения в г-м столбце одного из четырех осно-
ваний (А, С, G, U), a fXlXj — совместная (парная) частота наблюде-
ния в столбцах i и j одной из шестнадцати возможных пар оснований.
Mij показывает, насколько распределение совместных частот отличает-
ся от распределения, ожидаемого в случае независимого изменения двух
столбцов. Для четырехбуквенного РНКового алфавита, находится в
пределах от 0 до 2 бит. MLj максимально, если в позициях i и j основа-
ния появляются независимо и совершенно случайно (fXi = fx = 0.25),
и минимально, если основания превосходно коррелированны, что наблю-
дается для Уотсон-Криковских пар.
С точки зрения интуиции, говорит нам, сколько информации
мы получаем о нуклеотиде в одной позиции, если нам известно, ка-
кой нуклеотид находится в другой. В случае спаривания основания без
ограничений на последовательность, мы получаем 2 бита информации:
например, если нам известно, что в позиции i находится G, тогда в пози-
ции j находится С, т. е. из четырех возможностей может реализоваться
только одна, и мы получаем 2 бита информации. Если же i и j нескорре-
лированны, количество взаимной информации равно нулю. Если как г,
так и j — высококонсервативные позиции, мы также почти не получаем
информации: если нуклеотид в позиции не меняется, мы не узнаем о нем
ничего нового, когда нам скажут, какой нуклеотид находится в другой
позиции.
На рис. 10.6 показан контурный график значений вычислен-
ных по множественному выравниванию 1415 последовательностей тРНК.
Легко выделить области, соответствующие четырем стеблям структу-
Рис. 10.6. На графике взаимной информации (сверху), построенного по множе-
ственному выравниванию последовательностей тРНК видны четыре диагонали
коррелированных позиций, соответствующих четырем стеблям структуры кле-
верного листа тРНК (внизу; показана вторичная структура фенилаланиновой
тРНК из дрожжей). Пунктирными линиями показаны некоторые дополнитель-
ные обусловленные третичной структурой контакты, наблюдаемые в кристал-
лической структуре дрожжевой тРНК-Phe. Некоторые из этих контактов по-
рождают более слабые корреляции, которые также можно увидеть на графике
взаимной информации.
10.1. РНК
357
взаимная информация (бит)
2-|
5'
А-З'
СС76
А
GeC
CeQ акцепторный стебель
G*C70
tRNA-Phe дрожжей Go и
5A*U
U*А ТФСС стебель
□ •А С и А
65gacac бо ... g
CUGUGT/ r
сп и и V
X G 55 :
AG 5 :
45 =
15 у....... U
и G д .•....А
и С и С G1(k.
? , G A G С „
:GGA 25 G C<G
2° D стебель n п
с •и
A* U антикодоновым
30 G • C4gTe6ejlb
A*U
: : С А
И и A j
N gaa ;
358
Глава 10
ры клеверного листа РНК. D- и T^CG-стебли, у которых относительно
высококонсервативна первичная структура, в некоторой степени менее
заметны, чем антикодоновый и акцепторный стебли, первичная структу-
ра которых чрезвычайно вариабельна.
Упражнение
10.1 Вычисление взаимной информации по формуле (10.1) требует под-
счета частот встречаемости всех шестнадцати различных пар осно-
ваний. Выгода этой формулы состоит в том, что не делается ника-
ких предположений о Уотсон-Криковском спаривания, так что вза-
имная информация может быть вычислена и для неканонических
пар, типа А-А или G-G. С другой стороны, вычисление требует
большого числа выровненных последовательностей, чтобы полу-
чить достоверные значения шестнадцати частот. Предложите аль-
тернативную меру количества информации для коррелированно-
сти спаренных оснований, если рассматривается только два класса
спаренных оснований: Уотсон-Криковские и G-U пары составляют
один класс, а все остальные — другой. Сравните свойства этого
способа с вычислением Mij как для малого числа последовательно-
стей, так и в пределе очень большого числа последовательностей.
10.2. Предсказание вторичной структуры РНК
Предположим, мы хотим предсказать вторичную структуру для од-
ной последовательности РНК. В этом случае можно придумать много
вариантов предполагаемой вторичной структуры. Их число растет экспо-
ненциально с увеличением длины последовательности. Для РНК длиной
всего в 200 пар нуклеотидов существует более 1050 возможных струк-
тур со спаренными основаниями. Наша задача состоит в выделении био-
логически правильной структуры из всех остальных неправильных. Для
этого нам нужны как функция, которая будет иметь максимальное зна-
чение на правильных структурах, так и алгоритм для оценки весов всех
возможных структур.
Максимизация числа спаренных оснований и алгоритм
сворачивания Нуссинов
Один из подходов может заключаться в нахождении структуры с
наибольшим количеством пар оснований. Нуссинов предложила эффек-
10.2. Предсказание вторичной структуры РНК
359
тивный алгоритм динамического программирования для решения этой
задачи [Nussinov et al. 1978]. Хотя критерий наибольшего числа пар и
слишком упрощенный для точного предсказания структуры, алгоритм
Нуссинов поучителен, потому что логика его работы такая же, как и
у многих сложных алгоритмов сворачивания РНК путем минимизации
энергии и вероятностных алгоритмов с использованием ВКСГ.
Алгоритм работает рекурсивно. Наилучшая структура рассчитыва-
ется сначала для маленьких подпоследовательностей, а затем — для все
больших и больших подпоследовательностей. Ключевая идея рекурсив-
ного вычисления состоит в том, что существует только 4 способа полу-
чить наилучшую структуру для фрагмента последовательности от г-го
нуклеотида до j-ro из лучших структур меньших подпоследовательно-
стей (рис. 10.7):
j
Пара i,j
Неспаренная i
Неспаренная j
Рис. 10.7. Алгоритм Нуссинов выбирает один из четырех способов построения
вторичной структуры РНК. В каждом способе наилучшая структура РНК для
подпоследовательности г, j может быть получена путем добавления г и/или j к
одной из уже найденных оптимальных подструктур для меньших подпоследова-
тельностей. Псевдоузлы не рассматриваются
(1) добавить неспаренную позицию г к лучшей структуре, найденной
для подпоследовательности г Н-1,
(2) добавить неспаренную позицию j к лучшей структуре, найденной
для подпоследовательности i,j - 1;
(3) добавить спаренные позиции i и j к лучшей структуре, найденной
для подпоследовательности i + 1, j - 1;
(4) объединить две оптимальные подструктуры г, к и к +
360
Глава 10
Более формально, алгоритм Нуссинов сворачивания РНК выглядит
следующим образом. Пусть нам дана последовательность х длины L с
символами Пусть <5(2,7) = 1 если xi и Xj — пара комплемен-
тарных оснований; иначе 8(i,j) = 0. Далее мы рекурсивно вычисляем
веса 7(2,7), которые являются максимальным числом пар оснований, ко-
торое может быть сформировано для подпоследовательности х^... ,Xj.
Алгоритм: сворачивания РНК Нуссинов, стадия заполнения
матрицы
Инициализация: 7(2, i — 1) = 0 для г = 2 до L; 7(2,2) = 0 для i = 1 до L.
Рекурсия: начиная со всех подпоследовательностей длины 2 до подпо-
следовательностей длины L:
7(2,7) = max <
' У(г + 1,Л,
7(м - 1),
7(г + М - 1) +
< maxi<fc<J- [7(2, к) +у(к +!,»]•
На рис. 10.8 приведен пример заполнения матрицы в алгоритме Нус-
синов.
Значение 7(1, L) равно числу пар оснований в структуре с макси-
мальным количеством таких пар. Часто существует несколько альтерна-
тивных структур с одинаковым числом пар оснований. Чтобы найти одну
из таких структур, мы должны проделать процедуру обратного прохо-
да по матрице динамического программирования, полученной на стадии
заполнения, начиная с 7(L). В псевдокоде эта процедура выглядит сле-
дующим образом:
Алгоритм: Нуссинов сворачивания РНК, процедура обратного
прохода
Инициализация: Поместить (1,L) в магазин.
Рекурсия: Повторять, пока магазин не будет пуст:
— извлечь (2,7).
— если 2 >=, продолжить;
если же 7(2 4-1,7) = 7(2,7), поместить (2 4- 1,7) в магазин;
если же ^(i,j — 1) = 7(2,7), поместить (2,7 — 1) в магазин;
если же 7(2 + 1,7 - 1) 4- S(i,j) = y(i,j\.
— записать пару оснований i,j‘,
— поместить (2 + 1,7 — 1) в магазин.
10.2. Предсказание вторичной структуры РНК
361
я) 7 —
G G G A A A U С С
G Го]
G 0 0
«) 3 ----
Рис. 10.8. Стадия заполнения матрицы в алгоритме Нуссинов сворачивания РНК
показана на примере последовательности GGG AAA UCC. (а) Половина матри-
цы с инициализированной диагональю, (б) Матрица после вычисления весов
для всех подпоследовательностей длины 2. (в) Пример двух различных наилуч-
ших подструктур для одной и той же подпоследовательности. Для подпоследо-
вательности AAAU, либо А в позиции i может быть спарено с U в позиции j
(диагональ), либо нуклеотид в позиции i может быть добавлен к подструкту-
ре, в которой уже спарены А в позиции i + 1 и U в позиции j (вертикаль),
(г) Окончательный вид матрицы. Значение в верхнем правом углу показывает,
что максимальное число пар оснований в данной последовательности равно трем
иначе для k = i + 1 до j — 1: если 7(2, к) + + 1,J) =
— поместить (к 4- 1,J) в магазин.
— поместить (г, Аг) в магазин.
— выйти из цикла. <1
362
Глава 10
Время работы процедуры обратного прохода и количество необходи-
мой памяти линейно зависят от размера входных данных. Лимитирую-
щей стадией является стадия заполнения, поскольку она требует O(L2)
памяти, а время работы составляет O(L3). Пример процедуры обратно-
го прохода изображен на рис. 10.9. В этом примере оптимальный путь
не разветвлен, так что в магазине в этой стадии нет нужды. Магазин
становится важным, когда совершается проход по разветвленным струк-
турам. В магазине запоминается одна часть разветвления, в то время как
для другой части совершается обратный проход, напоминающая работу
автоматов с магазинной памятью из главы 9.
j —
А А
V )
А» U
G* С
G* С
Рис. 10.9. Процедура обратного прохода алгоритма Нуссинов сворачивания РНК
показана для матрицы, заполненной на рис. 10.8. Оптимальный путь обозначен
кружочками. Оптимальная структура, соответствующая этому пути, изображена
справа
Упражнения
10.2 Найдите еще две оптимальные структуры с тремя парами основа-
ний вдобавок к изображенной на рис. 10.9. Модифицируйте про-
цедуру обратного прохода так, чтобы он находил одну из Ваших
структур вместо изображенной на рис. 10.9.
10.3 В приведенном виде в алгоритме Нуссинов могут быть бессмыс-
ленные «пары оснований» между соседними комплементарными
остатками (например, одна из возможных структур в предыдущем
упражнении содержит такую пару AU). Модифицируйте алгоритм
10.2. Предсказание вторичной структуры РНК 363
сворачивания так, чтобы шпилечные петли имели минимальную
длину в h нуклеотидов. Напишите новые правила рекурсии для
заполнения матрицы и для обратного прохода.
10.4 Покажите, что алгоритм Нуссинов может быть тривиально обоб-
щен для нахождения структуры с максимальным весом, в которой
при спаривании оснований а и b добавляется вес s(a,b). (Напри-
мер, мы можем установить s(G, С) = 3, a s(A, U) = 2, чтобы лучше
учитывать большую стабильность пар G-C).
ВКСГ версия алгоритма Нуссинов
Алгоритм Нуссинов в основе аналогичен алгоритмам ВКСГ из гла-
вы 9. Как пример того, как ВКСГ можно применить к анализу вторич-
ной структуры РНК, рассмотрим следующие правила продукции простой
ВКСГ для сворачивания РНК:
S aS\cS\gS\uS
S —> Sa|Sc\Sg\Su
S aSu\cgS\gSc\uSa
S^SS
(z не спарено)
(j не спарено)
' (10.2
(z спарено c j)
бифуркация
В этой грамматике — один нетерминал S и 13 правил продукции с ассо-
циированными вероятностными параметрами. Пока для простоты пред-
положим, что вероятностные параметры известны. Результатом нахожде-
ния с помощью этой грамматики наиболее вероятного разбора последо-
вательности будет выравнивание продукций и позиций последователь-
ности. Из-за того, что продукции соответствуют элементам вторичной
структуры (пары оснований и основания в одиночных тяжах), наиболее
вероятный разбор последовательности эквивалентен наиболее вероятной
вторичной структуре. Если вероятность продукции пар оснований отно-
сительно высока, ВКСГ будет поощрять разборы с максимальным числом
спаренных оснований.
Хотя продукции для ВКСГ записаны не в нормальной форме Хом-
ского, алгоритм разбора CYK легко переписать так, чтобы он находил
наиболее вероятную вторичную структуру. Альтернативно, мы можем
конвертировать ВКСГ в нормальную форму Хомского и применить ал-
горитмы из главы 9. Хотя общность подхода для нормальной формы и
привлекательна, специализированные алгоритмы для конкретных ВКСГ
обычно более эффективны. Далее мы приводим адаптированный вариант
364
Глава 10
алгоритма CYK. Обозначим вероятностные параметры для продукций
ВКСГ как p(aS), p(aSu) и т.д.
Алгоритм: CYK для ВКСГ, написанной для алгоритма Нуссинов
Инициализация: 7(2,2 — 1) = —ос для i = 2 до L;
^0—{М
для всех 2 от 1 до L
Рекурсия: для i = 1 до L - 1, j — i + 1 до L:
7(2, г) = max <
7(г + 1, j) + \ogp(xiS);
- 1) +logp(SarJ;
7(1 + 1, j - 1) + \<>gp(x,Sx,y,
max 7(1, k) + 7(fc + 1, J) + \ogp(SS).
i<k<j
После завершения работы алгоритма, 7(1, L) представляет собой ло-
гарифм отношения вероятностей logP(z,i|0) оптимальной структуры тг,
определенной для ВКСГ модели 0. Обратный проход для нахождения
структуры, соответствующей наилучшему весу, либо осуществляется
аналогично обратному проходу для алгоритма Нуссинов, либо помеще-
нием дополнительных указателей на стадии заполнения матрицы, ана-
логично алгоритму CYK из главы 9.
Принципиальное различие этого варианта и оригинального алго-
ритма Нуссинов состоит в том, что описание с помощью ВКСГ пред-
ставляет собой вероятностную модель. Мы получаем доступ к несколь-
ким принципиально новым опциям для оптимизации параметров модели.
Мы можем установить параметры ВКСГ путем субъективной оценки со-
ответствующих вероятностей или путем оценки параметров подсчетом
переходов из одного состояния в другое для известных структур РНК
и последующим преобразованием числа переходов в вероятности. Мы
можем даже получить вероятности для какой-нибудь РНК с неизвест-
ной структурой, используя максимизацию ожидания (МО) и обучение
внутренним-внешним алгоритмом, чтобы итеративно предсказывать как
структуры, так и параметры (т. е. структуры будут скрытыми в алгорит-
ме МО). Раз уж мы написали ВКСГ как полную вероятностную модель
для задачи сворачивания РНК, можно применить целиком весь веро-
ятностный аппарат, который мы выучили в предыдущих главах почти
наизусть.
10.2. Предсказание вторичной структуры РНК 365
Как и алгоритм Нуссинов, эта небольшая грамматика — хороший
пример для начала, но она слишком проста, чтобы правильно сворачи-
вать РНК. В ней не учитываются важные структурные свойства, такие
как предпочтения определенных длин петель или предпочтения опре-
деленных ближайших соседей по структуре, возникающие вследствие
стекинг-взаимодействий между соседними парами оснований в стеблях
РНК.
Упражнения
10.5 Для приведенного выше алгоритма напишите процедуру обратного
прохода для определения наилучшей вторичной структуры РНК.
10.6 Придумайте ВКСГ, использующую различные нетерминалы для
моделирования выпячиваний, шпилечных петель, разветвленных
петель и одиночных оснований.
Минимизация энергии и алгоритм сворачивания Цукера
Сворачивание РНК обусловлено физическими причинами, а не под-
счетом и максимизацией числа спаренных оснований. Наиболее слож-
ным методом предсказания вторичной структуры одиночной молекулы
РНК является алгоритм Цукера, алгоритм минимизации энергии, в ко-
тором предполагается, что правильная структура в равновесии облада-
ет наименьшей свободной энергией (AG) [Zuker & Stiegler 1981; Zuker
1989а].
AG вторичной структуры РНК оценивается как сумма свободных
энергий петель, пар оснований и других элементов вторичной струк-
туры. Важное отличие от более простого алгоритма Нуссинов состоит в
том, что при вычислении энергии стеблей энергия стекинга соответству-
ет взаимодействию соседних пар оснований, а не самим парам. Другими
словами, энергия стебля из п пар оснований вычисляется как сумма
энергий п — 1 стекинг-взаимодействий, а не как сумма энергий п пар
оснований. Это улучшает согласие с экспериментально наблюдаемыми
значениями AG, но затрудняет алгоритм динамического программиро-
вания. Таблицы параметров AG для предсказания структуры РНК были
подобраны, исходя из результатов экспериментальных термодинамиче-
ских исследований малых модельных РНК [Freier et al. 1986; Turner
et al. 1987]. Эти параметры учитывают стекинг, длины шпилечных пе-
тель, выпячиваний, внутренних петель, разветвленных петель, одиноч-
ных болтающихся нуклеотидов и неспаренных концов стеблей.
366
Глава 10
Пример предсказания величины AG для структуры РНК приведен
на рис. 10.10. Предполагается, что выпячивание, состоящее из одного
основания, не разрушает стекинг-взаимодействия в другом тяже стебля,
что учтено на рис. 10.10. В случае более длинных выпячиваний стекинг
разрушается и соответствующий член не учитывается. Энергия шпилеч-
ной петли вычисляется как сумма двух членов: энергии дестабилизации
петли, зависящей только от длины петли, и энергии неспаренных концов
петли, зависящей от типа оснований на концах петли, а также от первого
и последнего оснований в стебле. Энергии, использованные на рис. 10.10
взяты из старых «правил Фрэйера» [Freier et al. 1986] при 37° С1.
4 nt петля +5,9 ---1 д
G е ► -1,1 неспаренные концы шпилек
~ ~ -2,9 стек
и • с
1 nt выпячивание +3.3 А ------► -2,9 стек (особый случай 1 nt выпячивания)
G • С -1 8 стек
U * А--► - 0,9 стек
А * U► - 1,8 стек
C*G----► 2,1 стек
5' болтающиеся нуклеотиды —0,3-^- А • U
неспаренные концы стебля 0,0 3'
/
5'
общее AG= -4,6 kcal/mol
Рис. 10.10. Пример вычисления AG для петли РНК на стебле (сайт связывания
белка оболочки в диком типе R17)
Структура с минимальной энергией может быть вычислена рекур-
сивно с помощью алгоритма динамического программирования (в пред-
положении отсутствия псевдоузлов), очень похожего на приведенный вы-
ше алгоритм нахождения структуры с максимальным количеством пар
оснований. Главное отличие состоит в том, что из-за параметров сте-
кинга, вместо одной матрицы, заполняются две (обозначаемые V и ГИ).
обозначает энергию наилучшей структуры от г-й позиции до J-й.
обозначает энергию наилучшей структуры от г-й позиции до J-й
в предположении, что основания, стоящие в г-й и J-й позициях спа-
рены между собой. Тогда алгоритм может хранить указатели стекинг-
взаимодействий, добавляя новые пары оснований только в матрице V.
’На текущий момент наиболее современные параметры доступны по следующему адре-
су в Интернете: http://www.ibc.wustl.edu/ zuker/rna/energy/.
10.2. Предсказание вторичной структуры РНК
367
Идейно, такое вычисление с использованием двух состояний очень похо-
же на использование дополнительных разрывных состояний для парного
выравнивания алгоритмом динамического программирования с аффин-
ной функцией штрафа (глава 2), чтобы хранить последовательность вста-
вок. Полное описание алгоритма Цукера см. в [Zuker & Stiegler 1981].
Мы можем написать ВКСГ, которая удовлетворяет похожим пра-
вилам. Простейшее правило продукции, соответствующее стекинг-
взаимодействию, может выглядеть, например, как eVд —> cgVcg для
продукции в стебле пары G-С, которая образует стекинг-взаимодействие
с находящейся ниже по стеблю парой С-G. Здесь V используется как
нетерминал генерирующий пары оснований (аналогичный матрице V
в алгоритме Цукера). Технически, это контекстно-зависимое правило
(т. к. слева фигурируют терминалы с и g как контекст для продук-
ции пары G-С), так что мы не можем использовать такие правила как
основу для ВКСГ. Однако, мы можем их преобразовать к контекстно-
свободному виду, используя четыре различных нетерминала Vau, Vc9t
уде, Vua и правые части вида —> cV9Cg для продукции пары G-C, —
нетерминал V9C «помнит», что только что прошла продукция пары G-C.
(Другими словами, все, что мы делаем — это превращение модели
в процесс Маркова более высокого порядка.) Вероятность продукции
Vcg —> cV9Cg, например, будет вероятностью продукции пары G-С, об-
разующей стекинг- взаимодействие с парой С-G.2 Другие детали алго-
ритма Цукера и две матрицы V и W могут быть включены аналогично
в полную вероятностную модель с двумя нетерминалами V и W (рас-
ширенными с учетом контекста, создаваемого ближайшими соседями).
CYK и внутренний-внешний алгоритмы для ВКСГ версии алгоритма Цу-
кера имеют такую же алгоритмическую сложность, что и сам алгоритм
Цукера.
Субоптимальное сворачивание РНК
Оригинальный алгоритм Цукера находит только одну оптимальную
структуру. Биологически правильная структура часто не совпадает с
вычисленной оптимальной структурой, а представляет собой структу-
ру, чья свободная энергия находится в пределах нескольких процентов
(т. е. в пределах погрешности) от минимальной энергии. Значительным
усовершенствованием исходного алгоритма является эффективный алго-
2Поскольку возможен только один нетерминал для данной пары Xi,Xj, а вероятность
остальных трех равна нулю, все четыре нетерминала в алгоритмах разбора ведут себя как
один с точки зрения затрат памяти и времени.
368
Глава 10
ритм субоптимального сворачивания. Алгоритм Цукера субоптималъ-
ного (suboptimal) сворачивания РНК [Zuker 1989b] аналогичен запуску
алгоритма CYK как во внутреннем, так и во внешнем направлении. Од-
на матрица (что в точности аналогично алгоритму CYK) используется
для нахождения свободной энергии наилучшей структуры для всех под-
последовательностей (z,j) при условии, что основания в позициях i и
j спарены. Вторая матрица (что аналогично внешнему алгоритму CYK)
используется для нахождения наилучшей структуры для последователь-
ностей со спаренными основаниями в позициях г и J, и исключенной
подпоследовательности (г +1, j - I).3 Сумма элементов двух матриц для
данных i,j есть свободная энергия оптимальной структуры, в которой
основания i и j спарены. На основании этого субоптимальный алгоритм
сворачивания «случайно» выбирает пару оснований i и j согласно их
значениям AG, затем делает обратный проход как во внутренней, так
и во внешней матрице, чтобы найти оптимальную структуру, в кото-
рой основания i и j спарены. (Следовательно, более корректным будет
говорить, что алгоритм субоптимально выбирает одну пару оснований.
Оставшаяся часть структуры представляет собой оптимальную структу-
ру с данной парой оснований.)
ВКСГ версии алгоритмов сворачивания РНК могут также выбирать
структуры согласно их вероятностям путем обратного прохода внутрен-
ней матрицы, аналогично способу, в котором субоптимальные выравни-
вания профильных НММ выбирались из прямой матрицы в Главе 6.
Оценки достоверности спаривания оснований
Вычисления функции распределения для расчета вероятностей кон-
кретной пары оснований или структур были предложены для алгоритмов
сворачивания с минимизацией энергии в [McCaskill 1990]. Алгоритм
МакКаскилла преобразует значения AG в вероятности, используя урав-
нение Гиббса-Больцмана и суммирует вероятности всех структур вместо
выбора одной структуры с минимальной энергией. Сумма вероятностей
всех структур, содержащих пару оснований i и j, деленная на сумму,
найденную для всех структур, рассматривается как оценка достоверно-
сти пары z,J.
3В действительности Цукер удваивал последовательность, рассматривал ее как коль-
цевую и вычислял энергию наилучшей структуры по j, Для кольцевых
РНК такой процедура дает такой же результат, что и внешний алгоритм. Для линейных
РНК, алгоритм Цукера должен обрабатывать несуществующее соединение 3’ и 5’ концов
специальным образом. Возможно, внешний алгоритм проще в реализации.
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 369
С точки зрения ВКСГ, алгоритм МакКаскилла по существу пред-
ставляет собой внутренний-внешний алгоритм, в то время как алгоритм
Цукера по существу — алгоритм CYK. Оценка достоверностей пары
оснований для ВКСГ идейно похоже на оценку достоверностей парного
выравнивания, описанного для парных НММ в главе 4.
Упражнения
10.7 Напишите внутренний, внешний алгоритмы и соответствующие
формулы переоценки для ВКСГ (10.2), соответствующей алгоритму
Нуссинов.
10.8 По аналогии с выбором субоптимального выравнивания в про-
фильной НММ, придумайте алгоритм для вероятностного выбора
структур из вашей внутренней матрицы.
10.9 Покажите, как использовать Ваши переменные внутреннего и
внешнего алгоритмов, чтобы вычислить вероятность того, что осно-
вания в позициях i и j спарены, взятую по всем структурам. Функ-
циональная форма ответа будет аналогична вашим формулам пере-
оценки для внутреннего-внешнего алгоритма.
10.3. Ковариантные модели: профили РНК,
основанные на ВКСГ
Рассмотрим семейство родственных РНК (например, транспортных
РНК или группу I каталитических интронов), в котором РНК имеют
не только общую вторичную структуру, но и некоторые общие моти-
вы в последовательностях. Мы хотим найти в базе данных последова-
тельностей новые РНК, принадлежащие тому же семейству. В гл. 5 для
представления консенсуса семейства белковых или нуклеотидных после-
довательностей, мы использовали НММ и связанные с ними профили.
Однако в главе 9 было показано, что НММ — это модели, ориентирован-
ные на первичные структуры и их нельзя эффективно использовать при
наличии ограничений, налагаемых вторичной структурой РНК. В этом
разделе мы опишем т.н. ковариантные модели (КМ), основанные на ве-
роятностных контекстно-свободных грамматиках (ВКСГ). Эти модели и
грамматики строятся по множественным выравниваниям РНК аналогич-
но тому, как НММ строятся на основе множественных выравниваний
фрагментов ДНК или белков. НММ описывает регулярную линейную
370
Глава 10
структуру и хорошо подходит для описания множественного выравни-
вания последовательностей. В то же время КМ описывает характерную
для ВКСГ регулярную древовидную архитектуру и может служить для
представления консенсуса вторичных структур РНК.
При описании ковариантных моделей мы следуем [Eddy & Durbin,
1994]. Отметим, что одновременно и независимо те же идеи и алго-
ритмы были разработаны в работе Й. Сакакибары, Д. Хаусслера и др.
[Sakakibara et al., 1994].
КМ — достаточно сложные модели. Мы начнем с того, что рассмот-
рим на интуитивном уровне относительно простые модели, соответству-
ющие выравниваниям малых РНК.
Добавление переводчика. Авторы несколько вольно обращаются с
терминами «грамматика», «модель» и «профиль». В нашем переводе
мы всюду под грамматикой будем понимать грамматику в смысле
Хомского — в этой главе, обычно, — контекстно-свободную грамма-
тику. Вероятностная контекстно-свободная грамматика (ВКСГ) —
это грамматика, в которой на каждом множестве продукций с об-
щим порождающим нетерминалом, задано распределение вероятно-
стей. Как мы увидим ниже, КСГ, удобно представлять в виде графа
(точнее, — гиперграфа, см. Finkelstein, Roytberg, 93). Вершины это-
го графа соответствуют нетерминалам грамматики. Этот граф
мы называем ковариационной моделью (КМ), соответствующей КСГ.
При этом вершины графа будем называть состояниями, а порожде-
ние терминальной цепочки в соответствии с грамматикой будет
интерпретироваться, как переход модели из одного состояния в дру-
гое (или одновременно в несколько других, как в бифуркационных со-
стояниях). Аналогичное соответствие есть между рассмотренными
ранее НММ и регулярными грамматиками. Далее, множество нетер-
миналов, в рассматриваемых нами КС-грамматиках находится в со-
ответствии с элементами т.н. консенсусной вторичной структуры
(см. ниже). Соответственно, каждому элементу вторичной струк-
туры можно приписать упомянутое выше распределение вероятно-
стей. Такую структуру с приписанными ее элементам распределени-
ем вероятностей, мы называем «профилем». Этот термин объясня-
ется аналогией с НММ и соответствующими им регулярными грам-
матиками. В последнем случае состояния НММ (т. е. нетерминалы
регулярной грамматики) соответствуют колонкам множественного
выравнивания. Поэтому распределения вероятностей, соответству-
ющие каждому нетерминалу, удобно представлять в виде классиче-
ских частотных профилей.
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 371
ВКСГ для безделеционных выравниваний РНК
На рис. 10.11 показано множественное, не содержащее делеций,
выравнивание семейства последовательностей РНК, а также вторичная
структуры РНК, соответствующая консенсусу этого выравнивания. Для
того, чтобы моделировать подобные семейства РНК с помощью ВКСГ,
мы будем использовать несколько типов нетерминалов; каждый тип
нетерминала ВКСГ соответствует определенному элементу вторичной
структуры РНК.
и с
и G
C»G
А
A*U
G • С
д A U С г А
м G G G
• • • С
сс СА
человек
мышь
червь
муха
касатка
[структура]
Рис. 10.11. Внизу — множественное выравнивание родственных последователь-
ностей РНК. Первые пять колонок представляют РНК из пяти организмов [че-
ловек, мышь, червь, муха, касатка]. Колонки, образующие тяжи, взяты в рамки,
спаренные колонки соединены линиями. Последняя строка выравнивания — это
структурный консенсус выравнивания; подобный формат мы используем всю-
ду при описании выравниваний вторичных структур РНК [Konings & Hogeweg
1989]. Вверху — консенсусная вторичная структура РНК, соответствующая это-
му выравниванию
Парные эмитирующие нетерминалы используются для порождения
пары нуклеотидов, соединенных водородной связью. Левосторонние и
правосторонние эмитирующие нетерминалы используются для поро-
ждения нуклеотидов, не участвующих в образовании водородных связей
(«неспаренных»). При этом для описания выпячиваний и внутренних пе-
372
Глава 10
тель мы будем, по возможности, использовать левосторонние нетермина-
лы4. Бифуркационные нетерминалы используются для разделения мно-
жественных петель на отдельные спирали и петли. Стартовые нетер-
миналы соответствует произвольной структуре РНК; они входят в пра-
вую часть продукций для бифуркационных нетерминалов. Начальный
нетерминал грамматики также является нетерминалом стартового типа5.
Наконец, мы вводим заключительные (end nonterminal) нетерминалы,
каждый из которых с вероятностью 1 переходит в пустое слово е и тем
самым останавливает вывод. Ниже приведены продукции (порождающие
правила), возможные для нетерминалов каждого из типов.
Р aWb- L->aW; R Wb;
В SS' S E^e
Здесь P обозначает нетерминал парного типа; L и R — нетерминалы
соответственно лево- и право-стороннего типа; В — нетерминал бифур-
кационного типа; S — нетерминал стартового типа и Е — нетерминал
заключительного типа. Наконец, W обозначает нетерминал произволь-
ного типа, строчные буквы обозначают терминалы, т. е. элементы ал-
фавита {А, С, G, U}. (В порождающем правиле В SS в левой части
могут быть использованы разные нетерминалы стартового типа. — Прим,
перев.)
Ниже приведена ВКСГ, соответствующая выравниванию на рис.10.11.
Для простоты, вместо того, чтобы приводить, например, 4 продукции:
S\ —> Lza', Si —> L<2C\ Si —> S\ —> L2U\
мы указываем только одно из этих правил, после которого пишем мно-
готочие:
Si —> Ьъа.
Такому «метаправилу», (т. е. набору всех правил, в левой части кото-
рых находится нетерминал Si) естественно, должно быть сопоставлено
4В русскоязычной литературе о формальных грамматиках нет устоявшегося перево-
да выражения “to emit the terminal symbol” и производных от него, например, “emitting
nonterminal”. Иногда говорят, что терминал выводится или печатается. Мы выбрали
кальку «эмитируется» как наименьшее из зол. Впрочем, когда это не будет приводить
к недоразумениям, мы будем пользоваться и более естественными для русского языка
терминами. — Прим, перев.
5Необходимости использовать нетерминалы одного типа и в качестве начального нетер-
минала, и в бифуркационных правилах нет. Однако это позволяет упростить ряд приве-
денных ниже алгоритмов. С другой стороны, это позволяет трактовать каждую часть
множественной петли как самостоятельный домен.
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 373
4 вероятности ра,рс,рд,ри. Аналогично, каждое метаправило для нетер-
минала парного типа соответствует 16 правилам и ему должно быть со-
поставлено 16 вероятностей. (Все бифуркационные и конечные правила
имеют вероятность 1, так как в наших грамматиках каждому бифурка-
ционному и конечному нетерминалу соответствует ровно одна продук-
ция. — Прим, перев.)
Левый конец Спираль 1 Спираль 2
Si l2*> S15 Lie
L2 —> аЬз . . . Рв 9Р7С ... L16 —> иРи .
L3 —> аВд . . . Р7 —> aRsu ... Р17 —► gPi&c.
В4 S5S15 Rs —> Р9а ... Р18 -> дР\9с
Р9 -> cL10g . .. Р19 —► сРго •
Lio uLn ... Р20 gL2ic
Ln UL12 • • • L21 —> aL22 •
L12 —> CL13 ... L22 —► С-^23 •
В13 дЕц... Z/23 —> (1E24 .
В14 £ Р24 £
Приведенная грамматика имеет следующие важные свойства. Во-
первых, для каждого парного, правостороннего и левостороннего тер-
минала правые части всех соответствующих ему продукций содержат
ровно один (и общий для них всех) нетерминал. Этот входящий в пра-
вую часть нетерминал мы будем называть наследником нетерминала из
левой части продукции. Во-вторых, каждому бифуркационному нетер-
миналу соответствует ровно одна продукция вида В S'S".
Стартовые нетерминалы S' и S" мы будем называть соответствен-
но левым и правым наследниками нетерминала В. И, наконец, нашу
грамматику можно представить в виде дерева. Вершинами этого дерева
являются нетерминалы, ребра ведут из каждого нетерминала к его на-
следникам* 7. (Это не является свойством всех ВКСГ; например, рассмот-
ренные выше ВКСГ сворачивания РНК этим свойством не обладают).
Структура дерева описанной на рис. 10.11а ВКСГ отражает вторичную
структуру РНК. Дерево вывода произвольной РНК в нашей грамматике
^По-видимому здесь опечатка. В оригинале «Si —> Ьч». — Прим, перев.
7В силу вышесказанного, из бифуркационных состояний выходит по два ребра, из за-
ключительных — ни одного, из остальных — по одному. Выше мы описали ориентирован-
ный граф. То, что этот граф является деревом, объясняется важным свойством, грамматик,
используемых для описания семейств РНК: в них нет циклов, т. е. из нетерминала нельзя
вывести слово, содержащее этот же нетерминал. — Прим, перев.
374
Глава 10
получается из дерева грамматики «навешиванием» терминальных сим-
волов (см. рис. 10.12). Из приведенного примера ясно, что явное пред-
ставление ВКСГ в виде списка продукций достаточно громоздко даже
для простейших семейств РНК. Поэтому мы часто будем использовать
компактное и интуитивно ясное графическое представление ВКСГ.
Модель использует 24 нетерминала для выравнивания РНК дли-
ной 24 нуклеотида. Это простое совпадение. Однако, грубо говоря, ко-
личество нетерминалов растет линейно с ростом длины выравнивания.
Действительно, нам нужен один парный нетерминал на каждую пару
спаренных нуклеотидов, один нетерминал на каждое неспаренное осно-
вание и некоторое количество символов типа В, S, Е.
Между ВКСГ, представленной списком продукций на рис. 10.11а,
и моделью на рис. 10.12 есть важное (хотя и техническое) различие.
ВКСГ порождает символ при переходе от нетерминала к нетерминалу
(например, продукция Wi —> aW2b порождает символы а, b и переходит
от нетерминала Wi к нетерминалу W2 одновременно). С другой сторо-
ны, мы можем отделить вывод символов от перехода и связывать вывод
символов исключительно с нетерминалом в правой части, независимо
от предшествующей продукции. Эти два вида моделей подробно обсу-
ждались в гл. 9 (автоматы Мили и автоматы Мура). В НММ мы, как
правило, использовали автоматы Мура (вывод связан с состоянием, а не
с переходом). В рассматриваемых в этой главе ковариационных моделях,
основанных на ВКСГ, мы тоже будем придерживаться техники Мура. Та-
ким образом, в модели на рис. 10.12 каждому парному состоянию припи-
саны 16 выходных вероятностей, а каждому одностороннему состоянию
приписано 4 выходных вероятности. Вероятности, приписанные непо-
средственно продукциям, т. е. переходам от нетерминала к нетерминалу,
нам понадобятся позже, когда мы рассмотрим выравнивания, содержа-
щие делеции и вставки.
Отметим, что отображение структуры РНК в ВКСГ можно прове-
сти несколькими способами. Например, «шпилечные» петли можно по-
рождать как слева направо, так и справа налево. Если можно, мы всегда
в подобных случаях будем использовать левосторонние состояния, по-
скольку они более близки к привычным нам НММ.
Модель на рис. 10.12 адекватно порождает семейство РНК, изоб-
раженное на рис. 10.11, поскольку мы запретили вставки и делеции.
В терминах НММ это соответствует модели в которой есть только со-
стояния СИМВОЛ [match], но нет состояний ВСТАВКА и УДАЛЕНИЕ.
Эта модель, в принципе, может быть использована при поиске в базе
данных («хорошими» считаются РНК, которые могут быть порождены
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 375
стебель 1 стебель 2
G • С G • С
A*U G*C
А С
С *G G *С
стебель 1 стебель 2
стебель 1 стебель 2
ВКСГ Структура РНК Дерево вывода
Рис. 10.12. Слева приведено графическое представление ВКСГ, которая соот-
ветствуют выравниванию на рис. 10.11 (вероятности для парных, лево- и пра-
во-сторонних продукций не приводятся). Каждый квадрат, помеченный буквой
Р, представляет 16 соответствующих парных продукций. Каждый квадрат, поме-
ченный L (или R) представляет 4 левосторонних (соответственно, — правосто-
ронних продукций). Аналогично, квадраты с пометками S, В и Е представляют
стартовые, бифуркационные и конечные продукции. В центре показана консен-
сусная структура РНК, справа — дерево вывода для этой структуры
в данной модели с высокой вероятностью. — Прим, перев.)*. Однако
мы можем потерять много гомологичных РНК, в которых есть встав-
8В общем случае для оценки соответствия ковариационной модели и последовательно-
сти РНК требуется использовать трудоемкие алгоритмы — двусторонний (inside-outside)
376
Глава 10
ки и удаления. В следующем разделе мы рассмотрим ковариационные
модели, которые допускают делеции и вставки в исходных множествен-
ных выравниваниях. Переход к этим моделям будет сделан аналогично
подобному переходу для НММ.
Упражнение
10.10 Перепишите продукции грамматики на рис. 10.12 так, чтобы вы-
ходной символ зависел только от нетерминала в правой части, а не
от продукции в целом (по аналогии с НММ).
Разработка ковариационных моделей
Ковариационная модель (как и соответствующая ей КСГ) строится
на основе консенсусной структуры РНК. Вероятности вывода терминаль-
ных символов и вероятности перехода между состояниями определяются
по множественному выравниванию РНК, соответствующему этой моде-
ли. Отличие от рассмотренного выше случая состоит в том, что мы хотим
рассматривать семейства РНК, в которых между гомологичными после-
довательностями допускаются не только замены, но и вставки/делеции
произвольной длины и в произвольном месте. Стратегия перехода к об-
щему случаю будет подобна стратегии, которую мы использовали для
НММ. Напомним, что НММ сопоставляет каждой позиции выравнива-
ния 3 состояния (СИМВОЛ [match], ВСТАВКА, УДАЛЕНИЕ). Удобно
представлять, что одно состояние СИМВОЛ, использовавшееся в безде-
леционной модели превратилось 3 состояния модели, допускающей уда-
ления и вставки. Аналогично, каждое состояние ковариационной модели,
построенной для безделеционного случая, стандартным образом превра-
щается в группу новых состояний. Такую группу мы будем называть
узлом [node]. С этой точки зрения, НММ — это линейная последова-
тельность однотипных узлов, каждый из которых содержит 3 состоя-
ния. В свою очередь, КМ — это разветвленная древовидная структура
разнотипных узлов, каждый из которых содержит разное число состо-
яний. (При этом каждый узел модели соответствует «узлу» вторичной
структуры РГК (паре спаренных нуклеотидов, неспаренному нуклеоти-
ду, ветвлению в множественной петле). — Прим, перев.).
Так, левостороннее состояние L превращается, подобно состояниям
НММ, в 3 состояния — ML (оно означает, что генерируемая РНК в
и алгоритм Кока-Янгера-Касами (СУК). Оценка соответствия РНК безделеционной модели
может быть выполнена за линейное время.
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 377
данной позиции соответствует консенсусу и требуется породить некото-
рый символ). IL (перед «основным», т. е. соответствующим консенсусу,
символом будет порожден еще один символ). D (в порождаемой РНК де-
ления и основной символ не порождается). Аналогично, правосторонняя
вершина R превращается в триплет MR, IR, D.
Для парного узла мы должны учесть много вариантов вставок и де-
леций. При делеции могут быть удалены оба основания, либо лишь одно
из них (основание слева, т. е. со стороны 3’- конца или основание справа,
т. е. со стороны 5’-конца); в случае одностороннего удаления в спирали
образуется выпячивание. Вставка в спираль может также произойти в
какой-либо один из тяжей, либо в оба. В рассматриваемых ниже КМ
каждый парный узел содержит 6 состояний: МР (основное состояние,
оба символа порождаются), ML, MR (порождается лишь один из симво-
лов), D (не порождается ни один из символов), IL, IR (до основной пары
порождается дополнительный символ справа или слева).
Узел, который соответствует начальной стартовому состоянию S,
содержит 3 состояния: S’, IL, IR (Более точно — вводится новое старто-
вое состояние, которое не порождает никаких терминальных символов
и с той или иной вероятностью переходит в одно из перечисленных. —
Прим, перев.). Стартовое состояние, которое является левым наслед-
ником в бифуркационной продукции, превращается в узел, состоящий
из единственного стартового состояния. Узел, соответствующий правому
наследнику, состоит из двух состояний — S и IL (вставка слева). Это
гарантирует единственность способа порождения вставленных символов
в случае бифуркации9.
Каждый бифуркационный и заключительный узел КМ общего вида
состоит из единственного состояния (типа В или Е соответственно).
Теперь необходимо определить переходы между состояниями. Все
состояния, кроме состояний типа вставка (IL, IR) переходят в состоя-
ния следующего (по дереву вторичной структуры) узла. Состояния типа
вставка переходит в себя же (в том же узле) или в другие состояния в
следующем узле. В парных узлах разрешен переход из IL в IR (в том же
узле), но не наоборот. Как и в случае стартовых узлов, это ограничение
введено для того, чтобы вывод данной последовательности был един-
ственным. Все сведения о возможных переходах показаны графически
на рис. 10.13.
9 Альтернативно, можно было бы для левого наследника определить узел из двух со-
стояний {S, IR} и узел из одного состояния S для правого наследника. Наш выбор связан
с желанием наиболее полно сохранить аналогию с НММ.
378
Глава 10
Е узел
Рис. 10.13. Состояния КМ (маленькие прямоугольники) сгруппированы в узлы,
соответствующие дереву консенсусной структуры РНК (большие прямоугольни-
ки). Приведенный пример построен искусственно, чтобы показать все 8 типов
узлов КМ на одном рисунке. Переходы между состояниями показаны стрелка-
ми. «Основная линия» консенсусной структуры показана толстыми стрелками.
Волнистые линии соответствуют узлам, опущенным на рисунке
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 379
Построенная КМ — это ориентированный граф состояний, органи-
зованный в соответствии с заданным заранее консенсусным деревом.
«Основа» этого графа совпадает с консенсусным деревом, однако он со-
держит и дополнительные пути, позволяющие учесть возможность вста-
вок и удалений в гомологичных РНК.
Мы описали только один из возможных способов построения КМ
по консенсусной структуре РНК. Например, в спиралях часто возможны
парные вставки, изменяющие ее длину. Соответственно, в парном узле
можно ввести состояние парной вставки (IP) . Далее, в парных узлах
можно исключить состояния ML и MR, заменив их на полное удале-
ние D с последующей вставкой IR или IL. Еще более сложный способ
построения КМ может учесть, что вставки в РНК часто сами имеют
вторичную структуру. Если не ограничивать себя вычислительными ре-
сурсами, мы могли бы заменить каждое состояние вставки на модель,
соответствующую обобщенной ВКСГ, описанной в разделе 10.1.
Построение КМ по множественному выравниванию РНК
Пусть дано множественное выравнивание РНК (возможно, вклю-
чающее делеции) в котором (1) отмечено, какие колонки следует рас-
сматривать как вставки, а какие — как консенсусные; (2) указана кон-
сенсусная вторичная структура, т. е. заданы пары консенсусных колонок,
образующих водородные связи10. По этим данным мы можем однозначно
построить КМ. Прежде всего, мы явно строим консенсусное дерево. Его
узлы — это пары спаренных колонок (парные узлы); неспаренные ко-
лонки (односторонние узлы), и дополнительные бифуркационные узлы,
соответствующие множественным петлям. Далее, по описанным выше
правилам, каждому узлу дерева ставится в соответствие узел КМ и
определяются переходы между состояниями, входящими в эти узлы. Те-
перь каждой из РНК, представленных в множественном выравнивании,
соответствует дерево вывода в построенной КМ; при этом можно подсчи-
тать сколько раз (во всех деревьях вывода для данного выравнивания)
выполнялся тот или иной переход между состояниями или порождение
того или иного символа. Эти подсчеты, как обычно, могут быть исполь-
зованы чтобы оценить вероятности переходов и порождения символов,
например, с использованием смесей Дирихле и оценки апостериорных
вероятностей. Поскольку КМ непосредственно отражает консенсусную
10Эти пары задают правильную древовидную структуру, иными словами, структура не
содержит псевдоузлов. — Прим, перев.
380
Глава 10
структуру РНК, эта процедура определена корректно и достаточно бы-
стра.
Если консенсусные колонки не выделены явно, их можно опреде-
лить с помощью простой эвристики. Например, считать консенсусными
колонки, содержащими не более 50% символов удаления. Отсутствие яв-
но заданной консенсусной структуры является существенно более труд-
ной проблемой. Мы обсудим ее в последующих разделах этой главы.
Итак, мы научились строить КМ по структурно-аннотированному
множественному выравниванию РНК. Теперь мы займемся алгоритмами
выравнивания КМ с последовательностью РНК, которые необходимы
для поиска в базах данных, построения выравниваний РНК, основан-
ных на их вторичной структуре, а также для обучения КМ исходя из
изначально невыровненных последовательностей с неизвестной вторич-
ной структурой.
Алгоритмы выравнивания ковариационных моделей
и последовательностей РНК
В главе 9 мы привели алгоритмы анализа ВКСГ, которые предпо-
лагают, что ВКСГ представлена в нормальной форме Хомского. Однако,
как указывалось выше, нормальная форма неудобна для анализа РНК,
в частности, потому, что не допускает продукций вида W —> cW'g.
В этом разделе мы опишем аналоги алгоритмов из главы 9, адапти-
рованные для анализа РНК и соответствующих КМ.
Обозначения: типы состояний и ограничения на рассматриваемые
ВКСГ
Фиксируем КМ, имеющую М различных состояний (нетерминалов)
буквы v,y, z ниже используются для обозначения номеров
(индексов) состояний. Каждое состояние принадлежит к одному из 7
типов11:
• Р (состояние вывода пары символов или парное состояние);
11 На самом деле, есть еще состояния, отвечающие вставке символа (инсерционные)
состояния, которым естественно было бы сопоставить букву I. По не вполне понятным
причинам, авторы не упоминают здесь об инсерционных состояниях. Возможно, для того,
чтобы не углубляться в детали упоминавшихся выше «подтипов» IL, IR. Типы продукций,
допустимых для «подтипов» IL, IR, — такие же, как для типов соответственно L, R (см.
таблицу 10.1). — Прим, перев.
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 381
• L (состояние вывода символа слева, т. е. с 5’-стороны или левосто-
роннее состояние);
• R (состояние вывода символа справа, т. е. с З’-стороны или право-
стороннее состояние);
• D (пропуск символа или делеционное состояние);
• S (стартовое состояние);
• В (бифуркационное состояние);
• Е (заключительное состояние).
Состояние ГИ1 является начальным состоянием КМ, это состояние S-
типа. Отметим, что, как правило, КМ содержит более одного состояния
заключительного типа. Будем говорить, что продукция связана с состо-
янием Wv, если Wv — нетерминал в левой части этой продукции. Во
всех продукциях, связанных с данным нетерминалом, слева и справа от
нетерминала в правой части выводится одно и то же количество терми-
нальных символов. Эти числа будут обозначаться соответственно Al(v)
и Дд(и), они определяются типом состояния. Подобные обозначения мы
использовали при описании алгоритма TV-мерного динамического про-
граммирования Санкоффа-Седергрена в гл. 6. Допустимые продукции,
а также вероятности переходов и вывода терминальных символов для
каждого из 7 возможных типов приведены в таблице 10.1.
Таблица 10.2. Семь типов состояний ковариантной модели. (В последних двух
столбцах приведены обозначения соответствующих вероятностей. — Прим, пе-
рев.)
состояние Продукция &l(v) Afi(v) Вероятность вывода Вероятность перехода
р Wv —> XiWyXj 1 1 tv(y)
L > X^Wy 1 0 ev(xi) tv(.y)
R Wv —> WyXj 0 1 ev ) tv(y)
D wv^wy 0 0 1 tv(y)
S wv Wy 0 0 1 tv(y)
В Wv WyWz 0 0 1 1
Е Wv^£ 0 0 1 1
382
Глава 10
Для удобства дальнейшего изложения мы свяжем с каждым состо-
янием Wv дополнительные обозначения:
sv — тип состояния v, т. е. одна из букв Р, L, R, D, S, В, Е;
Cv — множество индексов наследников состояния Wv, т. е. состоя-
ний, в которые возможен переход из состояния
Pv — множество индексов предков состояния Wv, т. е. состояний,
из которые возможен переход в состояние v.
Отметим, что для каждого бифуркационного состояния (В-состоя-
ния) Wv в КМ есть только одна продукция Wv —> WyW2, где Wy и Wz —
стартовые состояния. Т.е. Cv = Pv(y) = Pv(z) = W- В KM,
связанных с РНК, В-состояния нужны только для описания ветвлений
в множественных петлях; большинство состояний модели — это Р, L и R
состояния. Ограничение на количество В-состояний в модели позволяет
существенно снизить сложность алгоритмов ее анализа.
Как мы увидим ниже, наши алгоритмы одинаково обрабатывают
стартовые (S) и делеционные (D) состояния, единственное отличие со-
стоит в положении этих вершин в графе КМ. Стартовые состояния —
это наследники бифуркационных состояний, а делеционные состояния
появляются как элементы Р-, L- и R-узлов.
Все рассматриваемые нами ВКСГ и соответствующие им КМ удо-
влетворяют трем ограничениям. Во-первых, для каждого типа состояния
возможен только один тип продукций (см. таблицу 10.1), иными слова-
ми, продукции, связанные с состоянием v полностью определяются ее
типом sv. Во-вторых, количество наследников (и предков) у каждого
состояния тоже определяется его типом и не зависит от общего числа
состояний М. И, наконец, последнее ограничение. Мы будем считать,
что состояния перенумерованы так, для любого состояния v = Wn и
любого его наследника Ws € Cv выполнено: s > п или s п (если
v; = Wn — состояние инсерционного типа). Последнее возможно пото-
му, что граф состояний наших КМ не содержит циклов. В частности,
нам будет важно, что не образуют циклов состояния, не приводящие к
выводы терминального символа (типов S, D, В). Отметим, что аналогич-
ным ограничениям удовлетворяли НММ, описанные в главе 3. Теперь
мы готовы рассмотреть важнейшие алгоритмы анализа ковариационных
моделей, связанных с РНК.
Вероятность порождения РНК: алгоритм «снаружи-внутрь»
Пусть дана последовательность РНК х = х\.. .х^ длины L. Сначала
мы рассмотрим проблему, состоящую в вычислении (scoring) вероятно-
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 383
сти Р(х\в) порождения последовательности х при заданной ковариацион-
ной модели 0. Алгоритм, вычисляющий эту вероятность, называется ал-
горитмом «снаружи — внутрь» (inside) алгоритмом или Н-В-алгоритмом.
Н-В-алгоритм рекурсивно заполняет трехмерную матрицу динами-
ческого программирования значениями av(i,j), где av(i,j) — это вероят-
ность вывода слова Xi...Xj, из состояния Wv, т.е. сумма вероятностей,
приписанных всем таким деревьям вывода для слова хг.. . у которых
корню соответствует состояние Wv. При этом av(i + 1,г) при любом г
означает вероятность вывода пустого слова; такие вероятности нам по-
надобятся при определении граничных условий для «неэмитирующих»
состояний типов D, S и В. Нам будет удобно использовать обозначение
ev(xi,Xj,) для вероятностей вывода символов при всех типах состоя-
ния v (см. таблицу 10.1). При этом, если v — состояние L-типа, то мы
полагаем ev(xi,Xj,) = ev(xi,); если v — состояние R-типа, то мы пола-
гаем ev(x^ Xj,) = ev(xj,)\ если v — состояние D, S или В-типа, то мы
будем считать, что ev(xi,Xj,) = 1.
Алгоритм: Н-В алгоритм для ковариационных моделей РНК
Инициализация: for j = 0 to L, v = M to 1:
Sy — E . sv e S,D 1; E tv(y)ay(j + 1,»;
av(j + 1, j) = < yECv
Sy = В <*y(j + + 1J);
Sy e P,L,R 0.
Рекурсия: for j = 0 to L, i = 0 to 1, v = M to 1:
f sv = E : 0;
sv = P, j = 1: 0;
sv = В :
иначе:
j
5? ay(i,k)az(k + 1,j);
k—i — 1
Xj) tv(y)c*y(j 4- A„, j — A?;).
у€С„
По окончании рекурсии получим искомую вероятность Р(х\в) — это
величина &i(i,j). Если модель содержит 6, бифуркационных состояний
и а других состояний (М = а + Ь), то память, необходимая алгоритму
имеет порядок O(L2M), а время — O(aML2 4- bML3).
384
Глава 10
Алгоритм «изнутри-наружу» для ковариационных моделей
Приведенный ниже алгоритм «изнутри-наружу» [outside algorithm],
или В-Н алгоритм понадобится нам для оценки параметров ковариацион-
ной модели с помощью двустороннего (inside-outside) алгоритма или Н-
В-Н алгоритма. Как и в случае Н-В алгоритма, мы будем считать фикси-
рованными ковариационную модель 0 и слово х = xi .. . Пусть Wv —
нетерминал модели 0. Через 0v обозначим модель, в которой нетерминал
Wv заменен нетерминалом заключительного типа (и, соответственно,
удалены все нетерминалы, выводимые из Wv). В-Н алгоритм для каж-
дого состояния Wv и каждой пары чисел i,j таких, что 1 г j L,
вычисляет значение (3v(i, j). Это значение — вероятность вывода в мо-
дели 0v слова, которое получается из слова х удалением слова Xi.. .Xj.
В-Н алгоритм предполагает, что вероятности уже подсчи-
таны для всех состояний v и позиций В-Н алгоритм использует
такую же трехмерную матрицу динамического программирования, что
и Н-В алгоритм. Вначале все ее элементы устанавливаются равными 0.
Далее исходящий алгоритм работает следующим образом.
Алгоритм: В-Н алгоритм для ковариационных моделей РНК
Инициализация: /31(1, L) = 1.
Рекурсия:
= <
for sv = S, Pv - y,Cy = {v, z} :
L
^f3y(i,k)az(j + l,k);
k=j
forsv = S,PV = y, Cy = {z,v} :
L
^/3y(k,j)az(k,i - Ij + 1);
forsv e P,L,R,D,B,E:
ey(Xi-^^ + + i Ay ).
< ye?v
Сложность В-Н алгоритма по времени и памяти — такая же, как и
у Н-В алгоритма.
12На самом деле нам нужны значения av только для таких v, что Wv — это состояние
S-типа. Это полезно иметь в виду, если нужно экономить память.
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 385
Двухпроходный алгоритм оптимизации параметров
ковариационной модели
Предположим, что структура ковариационной модели известна (т. е.
известна консенсусная структура РНК), однако неизвестны вероятност-
ные параметры модели. Эти параметры можно оценить исходя из набо-
ра последовательностей РНК, при этом не требуется, чтобы последова-
тельности РНК были выровнены. Соответствующий алгоритм использу-
ет как значения q7;(z,j), вычисленные Н-В алгоритмом, так и значения
/ШД вычисленные В-Н алгоритмом, поэтому этот алгоритм мы будем
называть Н-В-Н алгоритмом («снаружи-внутрь-наружу», inside-outside
algorithm). Отметим, что на практике Н-В-Н алгоритм применяется ред-
ко. Практически всегда консенсусная структура семейства РНК нахо-
дится из множественного выравнивания последовательностей. Поэтому
мы можем воспользоваться описанным ранее способом построения ко-
вариационной модели по структурно- аннотированному множественному
выравниванию. Тем не менее, для полноты изложения материала мы
приводим здесь версию Н-В-Н алгоритма в применении к ковариацион-
ным моделям для РНК. Можно представить ситуацию, когда консенсус-
ная структура семейства РНК стала известной независимо от аннотации
множественного выравнивания. С другой стороны, мы можем не быть
уверены в правильности множественного выравнивания и соответствен-
но можем не хотеть непосредственно использовать это выравнивание
при оценке параметров модели.
Вероятность того, что фрагмент Xi... Xj последовательности х бу-
дет выведен из нетерминала Wv равна (l/P(x\0))av(i,j)/3v(i,j). Произ-
ведения вида мы будем называть Н-В-Н произведениями
[inside-outside products], они будут играть основную роль в этом разде-
ле. Суммируя подобные произведения, мы можем вычислить ряд важ-
ных величин, в том числе те, которые нужны для оценки вероятностей
перехода и вывода по методу максимизации ожидаемого [expectation
maximization] — так же, как мы это делали для ВКСГ в нормальной
форме Хомского.
Назовем количеством использований c(^used) нетерминала Wv при
выводе данной последовательности х отношение суммарной вероятность
всех таких деревьев вывода для данной последовательности т, которые
содержат нетерминал Wv к вероятности Р(х\0) получить последователь-
ность х в данной модели 0
c(v“‘ed) ‘ лЬ)
Ы-1 L
Е Е
i=l j=i—l
386
Глава 10
Аналогично, количество использований переходов из состояния Wv в со-
стояние Wy задается формулой:
с(у у used) =
1
РЩ))
L + l L
52 12 0v(i,j)ev(xi,Xj)tv(y)av(i+^,j-^).
Пусть теперь мы располагаем N независимыми последовательностями
ж1,... ,xN. В этом случае, как это обычно делается при обучении моде-
лей, суммируем количества, полученные для каждой из последователь-
ностей xh, используя при этом соответствующие величины ah и (3h. Так,
для величины с(у у used) получим:
N L + l L
c(v^yused)=^ 1 52 12 0v(.iJ)ev(x^,x^tv(y)a^(i+^,j-^).
h=p\X i=lj=i-l
Аналогично, перевычисляется и величина c(v used). Поэтому для
вероятности перехода tv(y) получаем «переоценку» (уточненную оцен-
ку)13:
Е р, Е Е +Д^,7-Д^)
h=i Р(хк\0) i=i j=i-i
tv^ =-----------n-----------------------------------•
Е -4^ Е Е а№Л/ШЛ
h=l P(xn\0) i=i j=i-i
Аналогичные соображения ведут к переоценкам с помощью вели-
чин ah и f3h для вероятностей вывода символов («эмиссионных веро-
ятностей») данного состояния Wv. В приведенных ниже формулах <5()
равно 1, если выражение в скобках истинно и равно 0 в противном слу-
чае.
для sv = Р\
Е р(Д|9) Е Е = {а,ЬМ(г,Л^(г,Л
. z h=l i=lj=i
ev(a,b) = -----------------------------------------;
E р(Д|9) E Е/ШЛа£(м)
h=l i=lj—i
,3Вероятности перехода для бифуркационных состояний равны 1 и нам нет нужды уточ-
нять их значения.
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 387
д л я s 1) — L
Е рОТ) Е Е = а)0!№Л)<*№Л)
. , ч h=l к г=1j=i
еда) = -----------------------------------
Е р(Д|0) Е Е
/i=l г=1 j=i
ДЛЯ St, = R
Е Р(Д|g) Е Еs(xj = Л
л /1=1 г=1 j=i
ev(a) = ---------------------------------
Е р(}’.|о) Е Е^(м)<4‘(м)
/г= 1 г=1 j=i
Н-В-Н произведения могут быть использованы и для оценки дру-
гих величин, представляющих интерес. Например, вероятность того, что
нуклеотиды xL и Xj образуют водородную связь задается формулой:
Pfaxj спарены) =
Поиск в базах данных: алгоритм Кока-Янгера-Касами (алгоритм
CYK) с ограничениями
Предположим, что нам дана очень длинная последовательность (на-
пример, полный геном) и нам требуется найти в ней одну или более под-
последовательностей, которые удовлетворяют нашей модели семейства
РНК. Приведенные в предыдущих разделах алгоритмы можно рассмат-
ривать как алгоритмы глобального выравнивания последовательности
РНК и ковариационной модели, нам же теперь требуется аналог алго-
ритма поиска неточных вхождений. Конечно, нам бы не хотелось, чтобы
сложность алгоритма поиска росла как куб размера базы данных L. По-
этому мы введем ограничение на максимальную длину D искомой после-
довательности РНК. Это вместе с преобразованием координат в матрице
динамического программирования позволит нам эффективно использо-
вать модифицированный CYK-алгоритм (как его прямой [inside], так и
обратный [outside] проход) для поиска в базах данных (или, что с алго-
ритмической точки зрения то же самое — в полных геномах). Мы будем
индексировать матрицу динамического программирования переменными
v,j,d (а не v,i,j как раньше), где d — j — г + 1 — длина подпоследова-
тельности от г-го до j-ro нуклеотида и d D. На рисунке 10.14 показан,
388
Глава 10
порядок, в котором при этом вычисляются веса оптимальных выравни-
ваний для подпоследовательностей длины заканчивающихся в
позиции j.
Рис. 10.14. (а) Один из двумерных уровней стандартной трехмерной матрицы
динамического программирования, каждый такой уровень отвечает одному из
А/ нетерминалов модели. В этом примере размер «базы данных» (или данно-
го генома) L = 10; элементы уровня индексированы начальной (г) и конечной
(j) позициями рассматриваемых фрагментов. Ограничение на длину фрагмента
D = 5; часть матрицы, которая должна быть рассмотрена при этом ограничении
показана белым. Порядок заполнения клеток матрицы показан стрелками: алго-
ритм последовательно заполняет каждую из строк матрицы в порядке возраста-
ния ее номера j. (b) Альтернативная система координат для того же вычисления
CYK алгоритма. Вместо координаты i использована длина фрагмента d = j -
— г + 1; соответственно, размер матрицы равен D х L, а не L х L, как в случае
(а). Размер памяти, необходимой для сканирования базы данных (генома) с по-
мощью модифицированного СУКалгоритма становится не зависящим от L (при
обработке данной строки нам нужны сведения из не более, чем D предыдущих
строк)
Стандартный CYK алгоритм (см. главу 9) находит логарифм веро-
ятности F(S, 7г|0) для оптимального дерева вывода тг данной последова-
тельности S в модели 0. Эта величина существенно зависит от длины
последовательности S, что затрудняет выбор между перекрывающимися
фрагментами генома, хорошо соответствующими модели 0. Как и в слу-
чае НММ, выход из ситуации может быть в том, чтобы рассматривать
не логарифмы вероятностей, а логарифмы их отношений правдоподобия
(log-odds) по отношению к некоторой «нулевой» модели случайных по-
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 389
следовательностей. Если в качестве нулевой случайной модели берется
Бернуллиева модель независимых одинаково распределенных символов,
то вероятность последовательности согласно нулевой гипотезе будет рав-
на произведению вероятностей составляющих ее остатков fa. Тогда, как
и в случае НММ, чтобы найти оптимальное дерево вывода в смысле
отношений правдоподобия, достаточно в ковариационной модели эмис-
сионные вероятности каждого терминального символа а разделить на ве-
личину fn и затем применить CYK алгоритм к этой измененной модели14.
Ниже мы приводим CYK алгоритм, модифицированный для поис-
ка в базах данных. Мы используем обозначение loge чтобы отличить
логарифмы отношений правдоподобия от логарифмов эмиссионных веро-
ятностей loge:
для sv = Р\ loger(a,6) = log(e?;(a,
для sv = L\ \ogev(a,b) = log(e?;(a)//b;
для sv = R: logev(a,b) = log(ev(b)/ft,-
Модифицированный алгоритм CYK для поиска в базах данных:
Инициализация: for j = 0 to L, v = M to 1:
дл я sv = Е 0;
7t>(J,0) = < для sv €D,S max[7^0', 0) + log <„(?/)]; yecv
для sv иначе: = В, Cv = (y,z) — ОС 7»С7,0) +7z(J, 0);
Рекурсия: for j = 1 to L, d = 1 to D (и d j), v = M to 1:
f для sv = E — oo; для sv = P&d <2 — oo;
7v(J>d) = < для sv = B,Cv = (y,z) max [yv(J - k,d- k) + ^z(j, k)]; O^.k^.d иначе max[7j,(j - Af, d - A^ - A*)+ y€Cv . + log tv (y)] + log ev (Xi, Xj).
14Для полноты картины нулевая случайная модель должна также задавать распреде-
ление вероятностей р(Т) на длинах последовательностей Т; при этом вероятность по-
следовательности х = Х1...хт определяется как произведение вероятностей символов
а?1,.. . ,хт на вероятность р(Т). На практике членом р(Т), как правило, пренебрегают.
390
Глава 10
Отметим несколько деталей, важных с точки зрения программной ре-
ализации. Вместо того чтобы инициализировать в начале первые по-
зиции всех L строк, стоит включить инициализацию этих позиций в
рекурсивную часть алгоритма и при обработке строки j вначале иници-
ализировать значения 7^(7,0), а затем вычислять значения yv(j,d) для
d = 1,..., D. Отметим, что значения 7^(0,0) не зависят от рассматрива-
емой последовательности и могут быть вычислены заранее и запомнены.
Далее, для всех типов состояний, кроме бифуркационных (см. рис. 10.15)
значения в строке j зависят только от значений в строке j — 1. В слу-
чае бифуркационного состояния нам дополнительно нужны значения в
строках j — к, где к D. Поэтому в любом случае при обработке строки
j достаточно помнить только D + 1 последних строк.
Вес 7o(j, d) равен логарифму отношения правдоподобия (log-odds)
для выравнивания фрагмента [j — d+ l,j] исходной последовательности
со всей моделью (поскольку состояние Wq — начальное состояние мо-
дели); как отмечалось выше, это значение хранится в d-й ячейке j-й
строки матрицы (см. рис. 10.16). Таким образом, фрагмент исходной по-
следовательности, соответствующий «хорошему» весу определяется про-
сто по координатам (j, d) клетки матрицы, в которой находится этот вес
7o(j, d), никакие дополнительные процедуры (вроде обратного прохода)
не нужны.
Программная реализация алгоритма, в принципе, может выдавать
сведения о всех фрагментах, имеющих вес выше некоторого порога. Од-
нако, каждый реальный хит сопровождается «тенями» — фрагментами,
немного отличающимися от хита, и имеющими достаточно высокий (хо-
тя и меньший, чем у «реального» хита) вес. Поэтому более адекватным
будет выдавать набор непересекающихся хитов. Это можно сделать, на-
пример, так (не изменяя порядка необходимых времени и памяти). По-
сле обработки строки j мы находим максимальное значение величины
7о(.7, d) для всех клеток (j, d) этой строки. Если этот максимум выше
предусмотренного порога, то тройка (70 (j, d),j, d) заносится в проме-
жуточный список вывода. Если отрезок [j - d + пересекается с
отрезком предыдущего элемента списка, то тройка с меньшим весом из
списка удаляется. Если тройка (70 (j, d), j, d) такова, что j < j* — D, где
j* — текущая рассматриваемая строка, то такая тройка переносится в
окончательный список найденных хитов.
Временная сложность рассмотренной модификации CYK алгорит-
ма — O(MaLD -F MbLD2), где Ма — количество небифуркационных
состояний в модели, а Мь — количество бифуркационных состояний,
L — размер базы данных, D — ограничение на длину фрагмента, соот-
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 391
d
Рис. 10.15. Четыре варианта шага рекурсии CYK алгоритма для поиска в базе
данных (каждый вариант соответствует своему типу состояния Wv). В каждом
случае слева дан срез матрицы динамического программирования по плоскости
(j,d). Третья координата, соответствующая номеру состояния, показана внутри
клетки. Выделенная белым клетка с пометкой v соответствует исходному состо-
янию И4 и некоторому фрагменту (j, d), т. е. фрагменту длины d с концом в
позиции j; в этой клетке должно находиться значение величины yv(j,d). Кроме
того, белым выделены клетки, соответствующие значениям, используемым при
вычислении yv(j,d). Например, в случае (а) — левый верхний угол — это клет-
ки вида (y,j,d— 1) для всех состояний Wyt которые являются наследниками
состояния Wv [В КМ-грамматике, построенной по консенсусной структуре РНК,
см. выше, каждое левостороннее состояние имеет только одного наследника. Од-
нако, рассматриваемая модификация CYK алгоритма применима и тогда, когда
последнее ограничение места не имеет. Однако, как показано на рисунке, всем
наследникам Wv соответствует один и тот же отрезок (j,d— 1). — Прим, пе-
рев.] Справа от среза матрицы динамического программирования схематически
показано, как происходит порождение фрагмента (y,j,d) исходной последова-
тельности из состояния Wv. Например, в случае (а) при выполнении продукции
W„ —> aWy порождается (j — d + 1)-я буква искомого слова, а оставшийся фраг-
мент длины d— 1 с концом в позиции j порождается из состояния Wy. В случае
состояний типа R (вверху справа) и Р (внизу слева) ситуация аналогична. Вы-
числение значения 7-r(.7, d) для бифуркационного состояния Wv (внизу справа)
требует выбора перебора значений 7^(7 — к, d — к) + 72(j, к) для разных к и
выбора оптимального из них
392
Глава 10
Рис. 10.16. Простой пример, демонстрирующий два неперекрывающихся «хита»,
т. е. два фрагмента исходной последовательности, имеющий большой вес вырав-
нивания с данной ковариационной моделью. Эти хиты (с позиции 5 по позицию
10 и с позиции 13 по позицию 19) отмечены прямоугольниками слева от матрицы.
Клетки матрицы, содержащие высокие веса, соответствующие хитам показаны
черным. Области матрицы, которые нужны, чтобы восстановить выравнивание
каждого из хитов с моделью выделены серым. Каждый из серых треугольников
кроме того показывает, как по координатам (j, d) клетки, содержащей вес хита,
можно найти положение его начала г; хранить при этом всю матрицу в памя-
ти необходимости нет. Как обычно, для простоты показан только один уровень
трехмерной матрицы динамического программирования
ветствующего модели. Необходимая память — O(MaD 4- MbD2). Время
работы алгоритма растет линейно с ростом размера базы данных, а необ-
ходимая память не зависит от этого размера.
Упражнение
10.11 Описанное преобразование координат может быть применено так-
же и к рассмотренным ранее Н-В и В-Н алгоритмам. При этом,
в отличие от алгоритма CYK, Н-В алгоритм находит суммарную
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 393
вероятность всех способов вывода данной последовательности в
данной модели, а не только наибольшую из таких вероятностей.
Напишите вариант Н-В алгоритма для поиска локальных соответ-
ствий модели при условии, что длина фрагмента, соответствующе-
го модели, не может превышать величины D. [Соответствие меж-
ду Н-В алгоритмом и CYK алгоритмом, так же, как между анало-
гичными алгоритмами для НММ, может быть прозрачно объясне-
но в алгебраических терминах. См., например, статью Finkelstein
& Roytberg, 1993 и монографию Ахо, Хопкрофт, Ульман, 1973. —
Прим, перев.}
Выравнивание структур: CYK алгоритм с обратным проходом
Подавляющая часть матрицы динамического программирования не
представляет интереса с точки зрения результатов поиска. Поэтому в
вышеописанном алгоритме результатом работы является список троек
(70 (j, d), j, d); каждая тройка задает хит (фрагмент) и его вес; вырав-
нивание хита с моделью при этом не строится. Ценой использования
дополнительной памяти алгоритм легко изменить так, чтобы для най-
денного фрагмента строить и его оптимальное дерево вывода в данной
ВКСГ. Напомним, что рассматриваемые в этой главе КМ отражают кон-
сенсусную вторичную структуру семейства РНК. Поэтому упомянутое
оптимальное дерево вывода задает также оптимальное (по отношению к
данному семейству — Прим, перев.) предсказание вторичной структуры.
А именно, в эту структуру войдут все пары позиций, ассоциированные
с состояниями типа Р (парными).
Обратный проход CYK алгоритма может быть реализован либо с
помощью второй матрицы, хранящей нужные указатели, либо путем ре-
конструкции вычисления весов — подобно алгоритмам динамического
программирования, описанным в гл. 2. Для осуществления обратного
прохода, соответствующего данному хиту, в памяти должны находить-
ся D + 1 предшествующих строк (либо указателей, либо весов). Ес-
ли дополнительно используется контроль пересечения хитов (см. конец
предыдущего раздела), то нужно помнить 2D + 1 строк, чтобы иметь
возможность проверить — не имеет ли вновь найденный хит общих во-
дородных связей с предыдущим. Можно также просто после того, как
хит локализован (выполнен локальный вариант CYK алгоритма) при-
менить к найденному фрагменту глобальный вариант CYK алгоритма,
выполнить для него обратный проход и восстановить искомое дерево
вывода (иными словами — найти выравнивание хита и модели).
394
Глава 10
В случае локального алгоритма обратный проход начинается с клет-
ки (0,j, d), содержащей вес yo(j,d), найденного хита длины d, оканчи-
вающегося в позиции j\ для глобального алгоритма мы всегда начинаем
с веса 7o(L,L). Сам проход полностью аналогичен тому, который был
описан для НММ или для более простых моделей ВКСГ; поэтому мы
опускаем детали его реализации.
Упражнение
10.12 Измените СУК алгоритм так, чтобы он в каждой клетка матрицы
динамического программирования сохранял информацию, необхо-
димую для восстановления оптимального дерева вывода. Какие
данные являются минимально необходимыми для обработки би-
фуркационного состояния? Какие — для состояний других типов?
«Автоматический» сравнительный анализ
последовательностей с помощью КМ
Пусть у нас есть семейство невыровненных последовательностей
РНК и их консенсусная вторичная структура неизвестна. Сравнитель-
ный анализ такого семейства требует совместного использования мето-
дов множественного выравнивания и поиска консенсусной структуры,
причем этот процесс в значительной степени требует работы «вручную».
Ранее мы описали Н-В-Н алгоритм уточнения параметров модели требу-
ет предварительного знания консенсусной структуры (и начальных зна-
чений параметров. — Прим, перев.). Кроме того, мы привели методы
распознавания вторичной структуры РНК, по которой можно затем по-
строить ковариационную модель. Также был описан алгоритм построе-
ния КМ по множественному выравниванию в случае, когда консенсусная
структура неизвестна. В этом разделе мы опишем метод «автоматизиро-
ванного» сравнительного анализа последовательностей, основанный на
этих двух алгоритмах.
Главная идея состоит в итерации двух шагов: (а) построить ра-
зумную (оптимальную или «почти оптимальную») КМ, основываясь на
данном множественном выравнивании; (б) построить оптимальное мно-
жественное выравнивание относительно данной КМ.
Для выполнения шага (а), т. е. для построения консенсусной вто-
ричной структуры РНК по множественному выравниванию, существу-
ет несколько подходов. Например, эвристический подход, использован-
ный в работе [Eddy & Durbin, 1994] состоит в следующем. Сначала для
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 395
каждой пары колонок z,j вычисляется количество их взаимной инфор-
мации Mij. Затем для определения вторичной структуры используется
метод динамического программирования (фактически — алгоритм Нус-
синов); при этом максимизируется сумма значений Mij для спаренных
колонок. Шаг рекурсии состоит в вычислении максимального значения
для суммы Sij, соответствующей фрагменту [i,j] исследуемой РНК по
формуле:
Sij = max <
колонка i неспарена
колонка j неспарена
колонка i неспарена
бифуркация
Обратный проход по этой матрице дает нам дерево консенсусной
структуры, по которому в свою очередь, можно построить КМ. Преиму-
щество этого подхода в том, что во вторичную структуру включаются
только колонки, «поддержанные» сравнительным анализом последова-
тельностей; это достигается за счет использования совместной информа-
ции. Недостаток метода состоит в том, что он склонен включать лишние
пары в предсказанную структуру, поскольку всегда Mij > 0. Другой
недостаток, также связанный с использованием информационных вели-
чин Mij вместо энергетических параметров, что метод часто ошибочно
предсказывает структуру в высококонсервативных участках.
Далее, найденная структура используется для того, чтобы найти
оптимальное дерево вывода для каждой из строк множественного вы-
равнивания; подсчитывается, сколько раз был реализован каждый пере-
ход между состояниями и вывод символа и, наконец, по этим данным
обычным образом устанавливаются вероятностные параметры модели.
С другой стороны, возможен алгоритм поиска КМ по данному мно-
жественному выравниванию РНК, который одновременно строит опти-
мальную (в смысле максимума апостерирорной вероятности) структуру
КМ и ее вероятностные параметры [S. R. Eddy, неопубликованная рабо-
та — (похоже, она до сих пор не опубликована. — Прим, перев.)] Этот
алгоритм — обобщение поиска максимума апостерирорной вероятности
(МАР) для НММ, описанного в гл. 5.
В случае шага (б), т. е. для построения множественного выравни-
вания, соответствующего данной КМ, мы к каждой последовательности
РНК применяем CYK алгоритм. Как и в случае НММ, набор вырав-
ниваний последовательностей с одной и той же моделью индуцирует
множественное выравнивание этих последовательностей.
396
Глава 10
Описанный итеративный подход в целом аналогичен описанному
выше методу максимизации ожидания; при этом CYK алгоритм играет
роль Н-В-Н алгоритма на этапе оценки параметров, а алгоритм постро-
ения модели (который уточняет и структуру, и параметры, а не только
параметры) используется на шаге оптимизации.
Описанная «автоматизированная» методика воспроизводит стиль ра-
боты исследователя, использующего сравнительный анализ последова-
тельностей. Иногда она даже приводит к тем же ответам. Работа начи-
нается с построения очень приблизительного множественного выравни-
вания исходных последовательностей (обычно, никак не использующего
структурные соображения). По этому выравниванию делается примерное
предсказание структуры. Затем последовательности перевыравниваются
с учетом этого предсказания, делается новое предсказание структуры
и т. д. — до тех пор пока итерации не сойдутся к устойчивому решению.
Этот подход успешно работает на «идеальных» семействах, например,
на наборе из 100 транспортных РНК, использованном в работе [Eddy &
Durbin, 1994].
Однако, столь хорошие семейства — редкость. Алгоритму для рабо-
ты требуется большое количество коротких последовательностей РНК.
При этом последовательности должны быть достаточно различными
(иначе не сработает информационный подход к поиску консенсусной
структуры), а вторичная структура — достаточно консервативной. Вдо-
бавок, сходство между последовательностями должно быть глобальным.
Более того, наш алгоритм ищет локальный максимум, и при этом сам по
себе настолько требователен к вычислительным ресурсам, что использо-
вание совместно с ним метода модельного отжига (simulated annealing),
как это было описано для НММ, становится мало перспективным. Все
эти технические ограничения не представляются непреодолимыми, нуж-
но сказать, что автоматическая версия сравнительного анализа с исполь-
зованием ВКСГ представляет скорее теоретический, чем практический
интерес. Наиболее практически значимое применение ковариационных
моделей лежит в области поиска в базах данных, чему и посвящен сле-
дующий раздел.
Пример практического использования КМ
Чтобы представление об использовании КМ было более полным,
стоит рассмотреть пример реального их использования.
В большинстве геномов самое большое семейство генов — это не
одно из белковых семейств, а семейство транспортных РНК (тРНК).
10.3. Ковариантные модели: профили РНК, основанные на ВКСГ 397
Например, в геноме дрожжей Saccaromyces cerevisiae есть 274 гена
тРНК; в геноме человека — около 1500 таких генов. Существует много
программ для поиска генов тРНК, такие программы используются в лю-
бом геномном проекте, их параметры аккуратно подбираются вручную.
Обычная доля ошибочно предсказанных генов (false positive) составляет
0.2-0.4 ошибочных предсказания на миллион нуклеотидов [Fichant &
Burks 1991; Pavesi et al. 1994]. Такой уровень ошибок приемлем для
небольших геномов, например, для дрожжей (14 миллионов нуклео-
тидов), но для генома человека (3 миллиарда нуклеотидов) подобная
программа выдаст около тысячи ошибочных предсказаний, что составит
весьма заметную часть всех предсказанных генов.
Транспортные РНК — идеальный кандидат для использования кова-
риационных моделей. Они короткие (75-95 нуклеотидов), имеют отно-
сительно невысокое сходство по первичной структуре, но весьма консер-
вативную вторичную структуру («клеверный лист»). При этом тысячи
тРНК доступны для обучения статистических моделей.
Исходным материалом для построения ковариационной модели
тРНК было множественное выравнивание 1415 последовательностей из
различных организмов, включая органеллы и вирусы [Steinberg, Misch &
Sprinzl 1993]. Тридцать восемь последовательностей включали короткие
интроны в антикодонной петле, так что обученная модель была «готова»
к тому, что эукариотические гены тРНК содержат короткие интроны.
В то же время, длинные интроны (в основном, каталитические интроны
групп I и II) были исключены из выравнивания, так как мы сочли их
слишком длинными для возможностей нашего алгоритма.
Модель была построена непосредственно по выравниванию с ис-
пользованием имевшейся аннотации вторичной структуры; время по-
строения модели оказалось пренебрежимо малым. Модель содержит 285
состояний, которые сгруппированы в 72 узла: 3 бифуркационных, 28
парных, 33 левосторонних, 1 правосторонний и 7 стартовых; 28 парных
узлов соответствуют 28 консенсусным парам в четырех спиралях кле-
верного листа и вариабельной спирали (arm helix).
Реализация алгоритма CYK для поиска в базе данных (програм-
ма COVELS в пакете программ COVE) ведет поиск со скоростью 20
нуклеотидов в секунду на рабочей станции SGI Indigo2 R4400 при огра-
ничении на длину тРНК D — 150 [Eddy & Durbin, 1994]. Для хранения
матрицы динамического программирования потребовалось около 500К
оперативной памяти, таким образом, при поиска тРНК время оказалось
существенно более лимитирующим фактором, чем память. Распаралле-
ленная реализация алгоритма на мультипроцессоре MasPar увеличила
398
Глава 10
скорость до 2000 нуклеотидов в секунду, однако использование специа-
лизированных процессоров не представляется оправданным.
В итоге мы остановились на гибридном подходе, реализованном в
программе TRNASCAN-SE [Lowe & Eddy 1997]. Эта программа исполь-
зует две ранее существовавшие программы для быстрого отбора канди-
датов, каждый из которых затем выравнивался с построенной ковари-
ационной моделью. Статистически значимые участки 20 бит в тер-
минах логарифмов отношения правдоподобия log-odds score) выдавались
в качестве предсказаний генов тРНК. Таблица 10.2 дает представление
о работе программы TRNASCAN-SE и других программ предсказания
генов тРНК.
Таблица 10.3. Сравнение методов предсказания генов тРНК15
Программа Скорость (нукл/сек) Правильно предсказан- ные гены (%%) Ошибочные предсказа- ния (на млн нукл)
TRNASCAN 1.3 [Fichant & Burks 1991] 400 95.1 0.37
P0L3SCAN [Pavesi et al. 1994| 373000 88.8 0.23
CM alone [Eddy & Durbin 1994| 20 99.8 <0.002
TRNASCAN CE [Lowe & Eddy 1997] 30000 99.5 <0/00007
Наиболее автоматизированная реализация подхода, основанного на
КМ, — программа TRNASCAN-SE — позволила существенно улучшить
как точность предсказания (процент правильно предсказанных генов),
так и его избирательность (количество ошибочных предсказаний). Так,
ожидаемое количество ошибочных предсказаний программы на 3 мил-
лиарда нуклеотидов генома человека — менее одного.
Еще одно преимущество подхода, основанного на КМ-моделях (в до-
полнение к точности и избирательности) — его общность, модель можно
15Надо иметь в виду, что современные компьютеры на несколько порядков быстрее.
10.4. Дополнительное чтение
399
построить по любому множественному выравниванию РНК. Например,
в программу TRNASCAN-SE была встроена дополнительная модель для
распознавания тРНК селеноцистеина, которые во многих аспектах отли-
чаются от большинства других тРНК.
Принципиальные недостатки использования ковариационных моде-
лей — высокие требования к необходимым времени и памяти. В случае
TRNASCAN-SE ограничения по времени были преодолены за счет пред-
варительной фильтрации генома с помощью других программ. Однако,
такой подход не универсален, так как для большинства других семейств
РНК подобные фильтры неизвестны. Для более длинных РНК понадо-
бятся лучшие алгоритмы и/или лучшие компьютеры.
10.4. Дополнительное чтение
Для предсказания вторичной структуры РНК используется оптими-
зация энергии не только с помощью метода динамического программи-
рования, но и используя другие подходы, включая генетические алгорит-
мы [Shapiro & Wu 1996; van Batenburg, Gultyaev & Pleij 1995], алгорит-
мы, использующие явные ограничения [constraint satisfaction algorithms]
и алгоритмы, основанные на методе Монте-Карло [Abrahams et al. 1990;
Gultyaev 1991]. Многие из этих алгоритмов пытаются предсказывать не
только канонические древовидные структуры, но и псевдоузлы. Послед-
няя проблема, однако, все еще далека от решения; ни один из суще-
ствующих алгоритмов не гарантирует нахождения оптимальной струк-
туры с учетом возможных псевдоузлов. Важным исключением являет-
ся алгоритм Сагу & Stormo [1995], основанный на поиске сходства в
графах. Brown & Wilson [1995] предложили подход к моделированию
псевдоузлов, использующий совместное использование различных ВКСГ
для псевдоузлов и для остальной части вторичной структуры. Точность
алгоритмических предсказаний вторичной структуры систематически с
результатами ручного сравнительного анализа [Fiekds & Gutell 1996;
Konings & Gutell 1995]. Использование деревьев для представления и
сравнения структур РНК обсуждается в [Margalit et al. 1989; Shapiro &
Zhang 1990]. Есть интересная литература относительно «мира структур
РНК», использующая различные теоретические подходы и компьютерн-
пе моделирование, чтобы выяснить связь вторичной структуры и функ-
ционированием РНК [Schuster et al. 1994; Schuster 1995].
Методы моделирования структуры семейств РНК и множественного
выравнивания на основе ВКСГ были предложены независимо в работах
Eddy & Durbin [1994] и в работах группы ученых из Университета Ка-
400
Глава 10
лифорнии в Санта Круз — Сакакибарой, Хаусслером и их соавторами
[Sakakibara et al. 1994]. Сходные алгоритмы были развиты Лефевром
[Lefebvr, 1995, 1996]. Corpet & Michot [1994] описали алгоритм вырав-
нивания вторичных структур РНК, использующий технику, близкую к
ВКСГ, но без использования вероятностей.
Добавление переводчика
1. После выхода книги на английском языке вышло много работ
работы по предсказанию вторичной структуры РНК на основе метода
динамического программирования (не обязательно с помощью ВКСГ).
Вот некоторые из них:
Hofacker, I.L., Fontana, W., Stadler, P.F., Bonhoeffer,S., Tacker, M.
and Shuster, P. (1994) Fast folding and comparison of RNA secondary
structures. Monatsh. Chemie, 125, 167-188.
Hofacker, I.L., Stadler, P.F. and Stocsits, R.R. (2004) Conserved RNA
secondary structures in viral genomes: a survey. Bioinformatics, 20, 1495—
1499.
Lyngso, R.B., Zuker, M. and Pedersen, C.N. (1999) Fast evaluation of
internal loops in RNA secondary structure prediction. Bioinformatics, 15,
440-445.
Mathews, D.H., Sabina, J., Zuker, M. and Turner, D.H. (1999)
Expanded Sequence Dependence of Thermodynamic Parameters Improves
Prediction of RNA Secondary Structure. J. Mol. Biol., 288, 911-940.
Wuchty,S., Fontana.,W., Hofacker, I.L. and Schuster,P. (1999) Complete
Suboptimal Folding of RNA and the Stability of Secondary Structures.
Biopolymers, 49, 145-165.
Zuker, M. (1989) On finding all suboptimal foldings of an RNA
molecule. Science, 244, 48-52.
Zuker, M. (2003) Mfold web server for nucleic acid folding and
hybridization prediction. Nucleic Acids Res. 31, 3406-3415.
Zuker, M., Mathews, D.H. and Turner, D.H. (1999) Algorithms and
Thermodynamics for RNA Secondary Structure Prediction: A Practical
Guide. In: RNA Biochemistry and Biotechnology, J. Barciszewski &
B.F.C. Clark, eds., NATO ASI Series, Kluwer Academic Publishers.
http://www.bioinfo.rpi.edu/ zukerm/seqanal/FEBS98-html.html
2. С алгоритмической точки зрения представляют интерес работы:
Eppstein, D., Galil, Z., Giancarlo, R. and Italiano, G.F. (1992) Sparse
Dynamic Programming II: Convex and Concave Cost Functions. Journal of
ACM, 39, 546-567.
10.4. Дополнительное чтение 401
Larimore, L.L., Schieber В. (1991) On-line Dynamic Programming
with Applications to the Prediction of RNA Secondary Structure. J. Al-
gorithms, 12 (3), 490-515.
3. Предсказание псевдоузлов рассмотрено в
Rivas Е. & Eddy S. (2000). The language of RNA: a formal grammar
that includes pseudoknots. Bioinformatics, 2000, 16 (4), 334-340.
4. И, наконец, точные ссылки на упоминавшиеся в тексте работы
по алгебраическим аспектам метода динамического программирования:
Finkelstein, A.V. and Roytberg, М.А. (1993) Computation of biopoly-
mers: a general approach to different problems. Biosystems. 30, 11-19.
Aho, A.V., Hopcroft, J.E. and Ulman, J.D. (1974) The Design and
Analysis of Computer Algorithms. Addison-Wesley, Reading, MA (есть
русский перевод).
Глава И
Сведения из теории вероятностей
Чтобы наша книга стала самодостаточной, мы включили в нее по-
следнюю часть, в которой последовательно изложены использованные
ранее идеи и методы теории вероятностей. Различные разделы этой гла-
вы достаточно независимы, читатель может углубиться в ту или иную
тему по своему желанию. Некоторые фрагменты требуют большего вла-
дения математической техникой, чем основной материал книги.
11.1. Вероятностные распределения
В этом разделе мы определим различные распределения случайных
величин, которые использовались в этой книге. Пусть значения слу-
чайной величины принадлежат конечному множеству X. В этом случае
распределение вероятностей есть просто набор вероятностей рх, присво-
енных каждому значению х из множества X. Например, распределение
вероятностей для результатов бросания «честной» игральной кости будет
рх = 1/6 для всех шести исходов х = 1,2,..., 6.
Для непрерывной случайной величины х, например, веса «случай-
ного» объекта, вероятность принять какое-то конкретное значение, как
правило, равна 0 (вероятность того, что случайно подобранный камень
весит ровно 1 кг равна 0). Однако, вероятность того, что х принимает
значение из некоторого интервала хо х х\ принимает как пра-
вило положительное значение. Если устремить длину интервала к 0,
можно написать: Р(х — 6х/2 х х + <5т/2) = здесь функ-
ция /(т) называется плотностью вероятности или просто плотно-
стью. Вероятность попадания случайной величины в определенный
интервал может быть получена интегрированием Р(т0 х zi) =
= fxo f(x)dx- Плотность удовлетворяет условиям: (1) /(.т) 0 для всех
х и (2) f+°° f(x)dx = 1. При этом вполне возможно, что плотность
/(т) > 1. Например, возможна как определенная плотность: /(т) = 10,
если 0 х Г, в противном случае /(т) = 0.
11.1. Вероятностные распределения
403
Биномиальное распределение
Распределение, которое мы рассмотрим первым, является возмож-
но простейшим и наиболее знакомым читателю: это биномиальное рас-
пределение. Оно определено на всех возможных результатах серии из
N экспериментов, каждый из которых имеет бинарный результат, ’О’
или ’Г. Если р — это вероятность получить ’Г (одна и та же для всех
экспериментов, она часто называется вероятностью успеха. — Прим, пе-
рев.), а 1 — р — это вероятность получить ’О’, то вероятность, что ровно
к из N попыток дадут ’Г равна
Р(к ‘Г при N испытаниях) =
fc/i „xN-к
к г
(11.1)
где обозначает количество способов, которыми можно выбрать
к объектов из N (число сочетаний из N по к); это число равно
7V!/((7V — к)\к\). Факториал п! для натуральных чисел определяется как
n! = п(п — 1)... 1; по определению, 0! = 1.
Среднее т и дисперсия а2 произвольного распределения Р опреде-
ляется как т = ^кР(к) и а2 = ^2(к — т)2Р(к). Квадратный корень
из дисперсии, о называется среднеквадратичным отклонением. Для би-
номиального распределения имеем:
m = Z2A:( )pk(i-p)N к
к—1 ' '
ст2 = 12 ~ то)2 ( А? ) к-
к=1 '
Можно показать (см. упражнение 11.1), что m=Np и a2—Np(l—p).
Упражнение.
11.1 Определите среднее и дисперсию биномиального распределения.
Подсказка: Чтобы найти т, продифференцируйте бином Ньютона
(р + q)N — PkqN~k п° р и положите q = 1 — р. Чтобы найти
дисперсию, продифференцируйте по р дважды.
404
Глава 11
Гауссовское (нормальное) распределение
Рассмотрим, что произойдёт, если N —> ос. И среднее и дисперсия
растут линейно с ростом N. Однако, мы можем изменить масштаб, чтобы
среднее и дисперсия оставались постоянными. Для этого определим но-
вую переменную как = (к — т)/а = (к —Np)/y/Np(l -р). Суще-
ствует классический результат [Keeping 1995], что в пределе при коли-
честве экспериментов N, стремящемся к бесконечности, биноминальное
распределение становится гауссовским (см. рисунок 11.1), и плотность
предельного распределения равна
ехр(—-г/2/2). (И-2)
V 2тг
Этот факт можно рассматривать как частный случай центральной пре-
дельной теоремы, которая утверждает, что распределение суммы N неза-
висимых случайных величин нормализованных к постоянным среднему
и дисперсии, стремится к гауссовскому распределению при N —> ос. Ес-
ли одна переменная принимает значения «0» или «1» с вероятностями
1 — р и р соответственно, то функция распределения суммы N незави-
симых копий таких величин есть Р(к) = P(Xi + ... + Хк к), что
является в точности биноминальным, рассмотренным выше.
Мультиномиальное распределение
Обобщение биноминального распределения на случай, когда экспе-
рименты имеют К независимых исходов с вероятностями 0i, i = 1,..., К
называется мультиномиальным распределением. Вероятность получить
гц осуществлений исхода г задаётся формулой
к
Р(п|0) = М-1(п)П^'- (11-3)
г=1
Здесь вероятность зависит от распределения вероятностей ... ,0К}
В рамках классической статистики вероятность исхода п = {ти,... ,п/<}
обозначается Ро(п). Нормировочная константа зависит только от обще-
го числа всех наблюдённых исходов Для фиксированной сум-
!Она зависит не только от суммы, но, как видно из (11.4), и от количества наблюдений
каждого сорта. — Прим, перев.
11.1. Вероятностные распределения
405
Рис. 11.1. При больших 2V биномиальное распределение стремится к Гауссову.
Рисунок соответствует N = 40 и р = 1/4 (см. (11.1))
мы пк нормировочная константа равна
„ = „к! =
(И.4)
При К = 2 мультиномиальное распределение сводится к биномиальному
распределению.
Пример: бросание игральной кости
Бросание игральной кости N раз описывается мультиномиаль-
ным распределением. Вероятности любого из 6 исходов обозначаются
01,...,
Для правильной кости, когда #1 = ... = = 1/6 и вероятность
бросить её дюжину раз и получить каждый исход дважды равна
12! (Л
2!6 W
= 3.4 х 1(Г3.
406
Глава 11
Распределение Дирихле
В Байесовской статистики нам были нужны распределения вероят-
ностей параметров, чтобы использовать их как априорные распределе-
ния. Традиционный выбор для плотностей этих вероятностей — распре-
деление Дирихле:
/V к
D(0\a) = - !)• (11-5)
?=1 г=1
Здесь а = ац,...,а/< (с^ > 0, г = 1,...,JC) — константы, задающие
распределение Дирихле, и все 0; удовлетворяют условию 0 0i 1
и их сумма равна 1. Последнее условие соответствует сомножителю с
к
дельта-функцией <5(^2 0г — 1) в (11.5). Алгебраическое выражение отно-
г=1
сительно 0 + i — то же самое, что и для мультиномиального распределе-
ния. Однако, для мультиномиального распределения 0i были параметра-
ми и мы проводили нормализацию относительно количеств исходов пг.
Здесь же 0 — это значения (многомерной) случайной величины и мы
проводим нормализацию относительно значений. Условие нормировки —
f D(0\c*)d0 = 1.В мультиномиальном распределении значения случайной
величины входят в показатель экспонент, в то время как в распределе-
нии Дирихле — в их основание. Эти два распределения называются
сопряжёнными [Casella & Berger 1990], и их близкие формальные свой-
ства приводят к гармоничному взаимодействию во многих задачах.
Нормировочный множитель для распределения Дирихле, может
быть выражен в терминах гамма-функции [Беггер 1985]:
Z(a) = [ ~1)М= (11.6)
J Li ti г(^^)
Гамма-функция является обобщением факториала для действительных
чисел. Для целых чисел Г(п) = (п - 1)!. Для положительных действи-
тельных чисел х
Г(т + 1) = х-Г(т).
Можно показать, что среднее значение г-й компоненты распреде-
ления Дирихле равно нормализованному значению г-го параметра, т. е.
среднее для 0г равно К примеру, три распределения по-
казаны на рисунке 11.2. Все они имеют одинаковое среднее значение
11.1. Вероятностные распределения
407
(1/8, 1/4, 5/8), при этом все значения параметров на правом верхнем
рисунке в 10 раз больше, чем на левом верхнем. Заметим, что большие
значения приводят к более плотным распределениям. Заметим также,
что если некоторые < 1, распределения имеют пик плотности в нуле
для соответствующего 0;» см. левый нижний рисунок.
Рис. 11.2. Пример трехмерного распределения Дирихле при 10000 испытаний,
когда точка 0 выбиралась в соответствии с вероятностью D(0\a). Значения а
были равны (1,2,5) для верхнего левого рисунка, (10,20,50) для верхнего правого
рисунка, (0.1, 0.2, 0.5) для левого нижнего рисунка. Вероятности 0 показаны на
к
срезе трехмерного пространства (01,02,0з), соответствующем условию 0г = 1
г=1
(см. рисунок справа внизу). Точка (01,02,#з) на этом рисунке соответствует
точке ((02 — 0i)/x/3,03) на каждом из остальных («двумерных») треугольников
408
Глава 11
Для двух переменных (К = 2) распределение Дирихле вырождается
в более широко известное бета-распределение, а нормировочная норми-
ровочный множитель выражается через бета-функцию.
Пример: фабрика игральных костей
Вернемся снова к (возможно, «нечестным») игральным костям, ко-
торые мы рассматривали в примерах из Глав 1 и 3; каждая кость за-
дается набором в = из 6 вероятностей. Значения случайной
величины с распределения Дирихле, параметризованного вектором а =
= («1,... ,а6) моделируют фабрику игральных костей, которая произво-
дит различные кости с различным О [MacKay & Peto 1995].
Предположим, что на фабрике игральных костей А все 6 значений
ai равны 10, а на фабрике В — равны 2. В среднем обе фабрики про-
изводят правильные кости; среднее значение вектора вероятностей О в
обоих случаях равно (1/6,..., 1/6). Но если мы найдём неправильную
кость с 0() = 0.5, 01 = ... = ^5 = 0.1, гораздо более вероятно, что она бы-
ла произведена на фабрике В. Это видно из значений соответствующих
плотностей (в одном из случаев значение D(0\a) оказалось больше 1, по-
скольку D(0\a) — это плотность распределения непрерывной величины,
а не вероятность:
WK) = ^^(O.l)^10-1)^)10-1 = 0.119,
WI«B) = (O.l)5*2-1’^)2-1 = 199.6.
Фабрика с большими параметрами а производит кости, которые «бо-
лее плотное распределены вокруг правильной кости»; при этом сумма
обратно пропорциональна дисперсии распределения Дирихле. Фа-
брика, производящая почти совершенно правильные кости, будет иметь
очень большие, но равные аг. Фабрика, которая производит различные
ненадёжные, но всё же правильные в среднем кости, будет иметь низкие,
но равные между собой аг.
Гамма-распределение
Плотность гамма-распределение (пишут также «Г-распределение»,
«Г» — это заглавная греческая буква «гамма») д(х,а,(3) определяется
11.1. Вероятностные распределения
409
формулой:
^-(Зх^.а-1 яа.
д(х, а, 0) =---——------, х > 0.
Г(а)
Параметры си и /3 — положительны. Среднее Г-распределения равно а//3,
а дисперсия а/(З2. Свойства Г-распределения, в основном, определяются
параметром а; роль параметра /3 — масштабирующая.
Гамма-распределение является сопряженным к пуассоновскому
/(и) = е~ррп/п\, которое даёт вероятность наблюдения п событий на
протяжении некоторого интервала времени, если задана вероятность р
осуществления одного события в этот интервал времени. Поскольку чис-
ло событий за единицу времени — это частота, Г-распределение удобно
при моделирования (т. е. выборе параметров распределения) вероятно-
стей частот. Аналогично, рассмотренное выше распределение Дирихле
(сопряжённое к мультиномиальному распределению — распределению
количеств) используется при выборе параметров распределения вероят-
ностей количеств. Гамма-распределение используется для моделирова-
ния скорости эволюции в различных местах последовательности ДНК
(см. стр. 290).
Рис. 11.3. Плотности гамма-распределения с/(х-,о!,/3) при значениях параметров
п = /3=1;п = /3 = 6исе = 2,^=1
410
Глава 11
Распределение максимального значения
Предположим, что у нас есть N выборок с плотностью распреде-
ления д(х). Вероятность того, что наибольшее среди них меньше х
равна G(x)n, где G(z) = f*^g(u)du. Плотность распределения веро-
ятностей можно получить, продифференцировав по х, что приводит к
Ng(x)G(x)N~}. Предел этих распределений при больших N называют
распределением предельных значений для д(х) или EVD-распределением
(EVD — от Extreme Value Distribution.) Оно имеет многообразные прак-
тическое приложения: от моделирования прочности цепи (которая опре-
деляется самой слабой связью) до оценки уровня значимости максималь-
ного веса из множества выравниваний (смотри главу 2).
Давайте вычислим EVD в случае, когда д(х) — экспоненциальная
плотность д(х) = ае~ах распределения. Интегрирование даёт G(x) =
= 1 — е~ах. Выбирая у так, чтобы е-а2/ = 1/N и вводя обозначение
z = х — у, находим
Ng^G^-1 = Nae~ax(l - e~QX)N~l = ae~QZ(l - e^/N^-1
ae~az exp(e-a2) при N —> oo,
где мы использовали хорошо известный предел (1 — X/N)n е~х
при 7V —> оо. Кумулятивная вероятность (вероятность того, что мак-
симальное значение из N независимых показательно распределенных
случайных величин меньше либо равное х) стремится к ехр(—e~Q2);
последнее распределение называется распределением Гамбеля [Gumbel
1958]. EVD-распределения обычно дают хорошую аппроксимацию рас-
пределения максимального значения при умеренных значениях N. Для
экспоненциальной плотности распределения (см. рис. 11.4) показано, что
максимум выборки размера 10 даёт хорошую аппроксимацию EVD.
Удивительно, что распределение Гамбеля является EVD-распределе-
нием для многих важных распределений, в частности — для нормального
распределения. В общем случае, функция распределения максимума из
N значений имеет вид ехр(—f(a^x + byv), где и — константы,
зависящие от N и /(т), является или экспонентой е~х или |т|л при
некоторой положительной константе А (смотри в [Waterman 1995] более
строгое доказательство этой теоремы.)
11.2. Энтропия
Некоторая терминология, используемая в этой книге, заимствова-
на из теории информации (смотри, например, [Cover & Thomas, 1991]).
Теория информации сильно связана с вероятностным моделированием.
11.2. Энтропия
411
Рис. 11.4. Приближения для плотности EVD-распределения, полученные мето-
дом Монте-Карло. Каждое значение из выборки получалось как максимум из
N значений показательно распределенной случайной величины (с плотностью
е~х0 х < оо). Графики (от левого верхнего к правому нижнему) соответству-
ют значениям N = 1, 2,10,100
Энтропия — это мера средней неопределённости наблюдённых ис-
ходов. Если задана случайная величина X с вероятностями Р(хг) из
дискретного множества К событий xi,...,xk энтропия Шеннона опре-
деляется выражением:
Я(Х) = -^Р(х01оёР(х0 (11.8)
В этом определении при P(xi) = 0 считается, что P(xi) log P(xi) равно
нулю. Обычно (в других областях математики) считают, что log — нату-
ральный логарифм (иногда пишется In.) Однако при анализе информации
проще использовать основание логарифма 2 (обозначаемое log2), в слу-
чае чего единицей энтропии является ’бит’ (от “Binary unIT”. — Прим,
перев.). Логарифмы при различных основаниях а, b отличаются лишь
множителем loga(b), поэтому не имеет существенного значения, какие
412
Глава 11
логарифмы использовать. Часто мы говорим об энтропии вероятностного
распределения Р, Н(Р) вместо энтропии случайной величины X, Н(Х).
Энтропия максимальна, когда все P(zj) равны между собой и макси-
мально неопределён исход случайного выбора. Максимальное значение
при этом равно — log = logJC. Если исход случайного выбора
из распределения определён однозначно, т. е. при одном к выполнено
P(xfc) = 1, а другие P(zi) = 0, энтропия равна нулю. Энтропия так-
же возникает при рассмотрении математическое ожидания выигрыша
для последовательности испытаний, сгенерированных случайной веро-
ятностной моделью, при условии, что выигрыш при некотором исходе
равен логарифму его вероятности. Предположим, например, что веро-
ятность остатка а в некоторой позиции последовательности равна ра-
Тогда величина log(pa) является случайной величиной и ее математи-
ческое ожидание равно 52apalogpa, то есть отрицательной энтропии.
Энтропия также возникает при вычислении вероятностей случайных по-
следовательностей, в которых все позиции независимы (см. упр. 11.2).
Если вам сообщён исход эксперимента, энтропия уменьшается от Н
до 0. потому что вы получили новую информацию. Поэтому энтропию
часто приравнивают к информации. Может показаться странным, что
чем более что-то является неопределённым (чем выше энтропия), тем
оно имеет большую информацию. Это не запутывает, если рассматри-
вать информацию как разновидность энтропии. В более общем смысле,
информационное содержание сообщения или просто информация —
это мера уменьшение неопределённости после получения этого «сооб-
щения», следовательно, разница между энтропией до и энтропией после
«сообщения»:
^(-^0 — Идо Hn0CJie.
Неопределённость не всегда снижается
(11-9)
до нуля; может иметься шум
в коммуникационном канале, например, мы можем оставить некоторую
неопределённость исхода, в случае чего НПОсле положительна, а инфор-
мация меньше чем исходная энтропия.
В теории информации часто предполагается, что вероятностные рас-
пределения точно известны. Во многих приложениях, тем не менее, ре-
альные распределения не известны, и, поэтому, энтропия вычисляется
скорее через частоты событий, чем через реальные распределения; смот-
ри примеры ниже.
Пример: энтропия случайной ДНК
Если любой символ (A,C,G и Т) последовательности ДНК появля-
ется с одинаковой вероятностью (ра = 1/4), то энтропия на символ ДНК
равна -£о Ра log2Pa = 2 бита.
11.2. Энтропия
413
Мы можем считать энтропией количество бинарных вопросов
да/нет, необходимых для узнавания исхода. Например, для случайной
ДНК нам необходимо 2 вопроса: «Пурин или пиримидин?» и последу-
ющим «А или С?» , если ответ «пурин» и «G или Т?», в противном
случае.
Пример: информационное содержание консервативной позиции
Информационное содержание может быть использовано для измере-
ния степени консервативности сайта при выравнивании последователь-
ностей ДНК или белковых последовательностей. Скажем , мы предпола-
гаем, что последовательность ДНК случайна (ра = 0.25; Ндо = 2 бита),
но наблюдаем, что конкретная позиция в наборе родственных последо-
вательностей всегда есть А или G с вероятностями рд = 0.7 и pg = 0.3.
Поэтому Нпосле = ~0.7 • log2 0.7 - 0.3 • log20.3 = 1.12 бит. Чем более
консервативна позиция, тем выше ее информационное содержание.
Заметим, однако, что информационное содержание может быть от-
рицательным, если наблюдённое распределение имеет большую энтро-
пию (более «неопределена»), чем ожидаемая. Потому для нахождения
необычных позиций лучше измерять различие между распределениями
посредством относительной энтропии, описанной ниже.
Упражнение.
11.2 Рассмотрим модель, в которой рДа) — вероятность того, что амино-
кислота а встретится в г позиции последовательности длины I. Ами-
нокислоты считаем независимыми. Какова вероятность Р(я) отдель-
ной последовательности xi,..., xi? Покажите, что среднее логариф-
ма вероятности равно отрицательной энтропии F(X) logF(z), где
сумма берётся по всем возможным последовательностям х длины I.
Относительная энтропия и взаимная информация
Мы возвращаемся к определению различных видов энтропии. Для
двух распределений Р и Q относительная энтропия (также известная
как расстояние Кульбака-Лейблера) определяется
Я(Р||б?) = £Р(а:г)108^4- ЩЮ)
. Q\xi)
414
Глава 11
Информационное содержание и относительная энтропия равны, если
Q — однородное «фоновое распределение» (Q(xi) = —), которое пред-
ставляет исходное состояние для Ндо. Эти два термина иногда взаи-
мозаменяемы. Относительная энтропия имеет свойство, что она всегда
больше либо равна нулю. Несложно показать, что H(P\\Q) 0 с равен-
ством если и только если P(xi) = Q(xi) при всех i (смотри рис. 11.5).
Часто полезно считать относительную энтропию расстоянием между ве-
роятностными распределениями Р и Q. Однако, оно не симметрично
и не удовлетворяет формальным требованиям математических свойств
расстояния.
Рис. 11.5. Иллюстрация доказательства неотрицательности относительной эн-
тропии, причем равенство 0 достигается только при совпадении распределе-
ний Р и Q, см. (11.10). Из рисунка видно, что log(rr) х — 1, причем
равенство выполняется только при х=1. Отсюда следует, что — H(P\\Q) =
= ^2iP(Xi)io&((Q(Xi')/P(Xi')') P(xi)(Q(xi)/P(xi) - 1) = 0, ПрИЧеМ pa-
венство имеет место только, если Q(xi) = P(xi) для всех i
Относительная энтропия часто возникает как математическое ожи-
дание веса в моделях, где вес исхода определяется как логарифмическое
правдоподобие, т. е. как Р(исход|Л/)/Р(исход|Л), где М — модель, R —
нулевая модель. Например, если ра — вероятность остатка а в некото-
рой позиции последовательности согласно модели М, a qa — его вероят-
ность согласно модели R, то вес остатка а полагается равным log(pa/ga),
11.2. Энтропия
415
а среднее значение веса равно ^2ара log(pa/ga), что совпадает с относи-
тельной энтропией.
Другой важной «энтропийной мерой» является взаимная информа-
ция. Две случайные величины X и Y независимы, если Р(Х, У) =
= Р(Х)Р(У). Интересно узнать, насколько они независимы, и это мо-
жет быть измерено относительной энтропией «расстояния» между веро-
ятностными распределениями Р(Х, У) и Р(Х)Р(У):
= (11.11)
P(Xi)P(Vi)
где {xj, {yi} — это множества возможных значения для X и У. Величи-
на М(Х-,У) называется взаимной информацией X и У. Она может быть
интерпретирована как (среднее) количество информации, которое мы
приобретаем относительно исхода X если нам известен исхода (другого
события) У и наоборот. Взаимная информация максимальна, когда X, У
полностью коррелированы. Если, к примеру, все пары, кроме AT,TA,GC
или CG имеют вероятность 0 для двух позиций i и j, двух выровненных
последовательностей ДНК, ковариация максимальна. В этом случае мы
всегда имеем P(xi,yi) = P(xi) = P(yi) или P(xi,yi) = 0 и поэтому
М = — P(xi) log Р(тг). Это энтропия X (или У), таким образом, она
максимальна для однородного распределения и максимум равен log К
(предполагаем, что X и У имеют одинаковое число возможных исходов).
Поэтому максимальная взаимная информация для последовательностей
ДНК поэтому равна log24 = 2 бита.
На рисунке 10.6 показана взаимная информация (вычисленная через
частоты) между каждой парой столбцов в выравнивании РНК.
Пример: акцепторные сайты
Относительная энтропия полезна для нахождения редких паттернов
в биологических последовательностях. Для того, чтобы проиллюстриро-
вать это, мы извлекли 757 акцепторных сайтов из базы данных генов
человека. Акцепторный сайт — это область на З’-конце интрона, где ин-
трон вырезается из последовательности при созревании матричной РНК.
Последние два основания интрона почти всегда AG, в нашем множестве
данных все интроны такие. В каждом случае мы извлекали 30 основа-
ний до места сплайсинга и 20 оснований после. Мы брали только сайты
акцепторов таких интронов, которые целиком лежат между двумя кодо-
416
Глава 11
Пример последовательностей
CTTCTCAAATAACTGTGCCTCTCCCTCCAGATTCTCAACCTAACAACTGA
CTGCTCACCGACGAACGACATTTTCCACAGGAGCCGACCTGCCTACAGAC
GGTTCCCTCTTGGCTTCCATGTCCTGACAGGTGGATGAAGACTACATCCA
ACTAACTCTCCTCCTCGTGTGTCTCCCCAGCCCGTGTCCCAGCCCACCCA
TTGATAACATGACATTTTCCTTTTCTACAGAATGAAACAGTAGAAGTCAT
TCTACCGTCCCTTTCCCACACACTCTGCAGAAGGTGGTGTTGTCTTCTGC
CTTTTTTCTCTCCTATGTGCATCCCCCCAGGAGCTGGCTGAATATGAATA
GCTAATAGCTTGCTTATTTATTTAACATAGGGCTTCCGTTACAAGATGAG
AATTTAGTTTTATTCCCATGTGACCTGCAGGTAAATGAAGAAGGCAGTGA
ACTCTGCTCACTGTCACTTTGCTCCCACAGCGTCCGCTCTGCAATGGCAG
ACCTCCTAACGTTGTTGCGTTTCTTTGCAGAACTTTGCTGCCCAGATGGC
GTAAACCCCTCATTTTCTGTTCCGATGCAGGGCCCCATGGGACCTCGAGG
AGAAGTGACATTTTTCCTATATGTTGACAGGGTGGTGACTTCACACGCCA
CTGGTGTGAGGACCTGCCTCTCTTTTCAAGGGTGAACCTGGTATTGCTGG
ACCTTGGGCACTGTGTTCCTTTGTTTCTAGCACTGGCAGATCCCCCTGAG
TTTTGTTATGCAATTATTGTTTTCTTACAGGGCCCTCTACTAAAGAAGGA
GCATCACCTGTCAGCTCCCTGTGTCCACAGGCTCTGCAGCGGCTCAGGGA
Рис. 11.6. Графики относительной энтропии для каждого столбца множествен-
ного выравнивания относительно априорного распределения частот нулеотидов
и взаимной информации для каждой пары соседних столбцов множественного
выравнивания. Максимум относительной энтропии и минимум взаимной инфор-
мации приходятся на конмервативный динуклеотид AG
нами, то есть такие, где нет сплайсинга внутри кодона. На рис. 11.6 вы
видите небольшую часть нашей выборки акцепторных сайтов.
В каждой позиции i последовательности определены частоты 4-х ну-
клеотидов и вычислена относительная энтропия log2[pi(a)/ga],
11.2. Энтропия
417
где qa фоновое распределение четырёх нуклеотидов в последователь-
ностях. На рисунке 11.6 показаны графики относительной энтропии в
зависимости от позиции. На консенсусе AG относительная энтропия
очень велика (равна - log2(<M) и -log2(gc) соответственно). Имеется
интересная структура в относительной энтропии до места сплайсинга с
минимумом как раз из двух пар до AG. Существует слабый периоди-
ческий сигнал (едва видимый) относительной энтропии в кодирующем
районе, который обязан различным комбинациям оснований в 3-х транс-
лируемых позициях. Смотри обсуждение информации в местах сплай-
синга [Brunak, Engelbrecht & Knudsen 1991] и [Hebsgaard et al. 1996],
а также ярких способов отображения энтропийных мер [Schneider &
Stephens 1990].
Чтобы определить, являются ли соседние позиции независимыми,
была вычислена взаимная информация между колонками. Для двух со-
седних колонок (скажем, i и i + 1) была определена частота пар рДа,Ь),
для чего было подсчитано сколько раз встречается символ а в позиции
i и символ и в позиции г + 1. На основе этих частот была вычисле-
на взаимная информация b) l°g2[pi(a, Ь)/рг(а)р^+1(Ь)] и также
построена на рисунке 11.6.
Заметим, что взаимная информация равна 0 на консенсусах AG:
Знание того,что первая позиция А не несёт никакой информации о сле-
дующей позиции, потому что это всегда есть G. взаимная информа-
ция относительно сайтов акцепторов значительно меньше максимума —
2 бит, но не нулевая, и показано, что существуют корреляции между со-
седними позициями. Это верно для большинства ДНК. Явный периоди-
ческий паттерн наблюдается для кодирующих районов, показывающий,
что нуклеотиды зависимы в трёх читаемых позициях.
Упражнения
11.3 Докажите вышесказанное утверждение об эквивалентности инфор-
мационного содержания и относительной энтропии, когда q — одно-
родное распределение.
11.4 Покажите, что 7И(Х;У) = 7И(У;Х).
11.5 Покажите, что Л/(X; У) = Я(Х) + Я(У) - Я(У, X), где Я(У,Х) -
энтропия совместного распределения Р(У, X).
418
Глава 11
11.3. Статистическая оценка параметров
Вероятностные модели — главная цель этой книги. Модель может
быть любой — от простого распределения до сложной стохастической
грамматики с большим числом заданных неявно вероятностных рас-
пределений. Когда тип модели выбран, параметры модели приходится
выводить из данных. Пусть, например, мы моделируем количество исхо-
дов бросания кости мультиномиальным распределением. Предположим,
число наблюдений, дающих результат г равно пг (г = 1, .. .,6). Мы не
знаем, является ли эта кость правильной, поэтому нам надо оценить па-
раметры мультиномиального распределения, то есть вероятности 0; по-
лучить i при бросании кости. В этом разделе мы рассмотрим различные
стратегии, которые можно использовать для подобных выводов. Необ-
ходимые предварительные сведения содержатся в работах [Ripley 1996]
и [MacKey 1992].
Максимальное правдоподобие
Предположим, что мы хотим вывести параметры 0 = {0*} для моде-
ли М из множества данных D. Наиболее очевидная стратегия — макси-
мизировать P(D\,M) по всем возможным 0. Это называется критерием
максимального правдоподобия. Формально запишем
6ML = argmax P(D\0,M). (11-12)
О
Вообще, когда мы рассматриваем Р(х\у) как функцию от т, мы назы-
ваем её вероятностью; если мы рассматриваем ее как функцию от у,
мы называем её правдоподобием. Заметим, что правдоподобие не явля-
ется вероятностным распределением или плотностью, а является просто
некоторой функцией переменной у.
Максимальное правдоподобие обладает рядом замечательных свойств.
Например, оно является состоятельным, в том смысле, что если ис-
пользовать значения параметра 0О для генерации множества данных,
а затем по этим данным снова оценить 0 по формуле (11.12), то по-
лучится значение (как предел большого числа данных), равное 0q.
Чтобы увидеть это, предположим, что существует К наблюдённых ис-
ходов модели М (например, 4п возможных распределений
нуклеотидов в позиции в выравнивании п последовательностей). Да-
лее, для всех i частота пг/^2пг появления исхода и* будет стре-
миться к F(tJi|0,М) при увеличении количества данных (см. упраж-
11.3. Статистическая оценка параметров
419
нение 11.6). Следовательно логарифмическое правдоподобие для пара-
метра 0, задаваемое формулой ^n7) log P(cj7|0, М), что схо-
дится к М) logP(c^|0, М).Из того что относительная эн-
тропия неотрицательна следует, что P(u7|0o, М) log Р(и7|0о, М)
P(cjz|0O, М) logP(an|0, Л/) при всех 0. Поэтому правдоподобие до-
стигает максимального значения при 0О.
Недостаток метода максимального правдоподобия состоит в том, что
он может давать плохие результаты, если данных недостаточно. В этом
случае разумно подключить априорные сведения. Рассмотрим пример с
игральными костями и предположим, что мы хотим оценить мультино-
миальные параметры, исходя из, скажем, 3-х различных бросаний кости.
Ниже в разделе 11.5 показано, что оценка максимального правдоподо-
бия будет равна 0 по меньшей мере для 3-х параметров. Очевидно, что
это плохая оценка для большинства костей и необходимо использовать
априорную информацию, например, состоящую в том, что все параметры
близки к 1/6.
Упражнение
11.6 Слабый закон больших чисел утверждает, что среднее выборки раз-
мера N отличается от действительного среднего на величину боль-
шую или равную d с вероятностью a2 3/(TVd2), где а2 — дисперсия
распределения. Покажите, что из этого следует, что п7/стре-
мится к P(cjj) при —> оо, где п7 — количество2 наблюдений
события и7.
Апостериорное распределение вероятностей
Способ ввести априорные знания — использование теоремы Байеса.
Предположим, что мы знаем распределение вероятностей для парамет-
ров 0?
Пусть D — это выборка известных нам данных и P(D\M) — веро-
ятность получить эту выборку в модели М. В последнем случае мы не
предполагаем заданным значение параметра 0, а считаем его неизвест-
ным, но распределенным по известному нам закону распределения. Для
простоты будем считать, что для параметра 0 возможно лишь конечное
2В тексте использовано слово frequency — частота, что неверно. — Прим. ред.
3Например, знаем с какой вероятностью у нас игральная кость кривая для каждой
степени кривизны. — Прим. ред.
420
Глава И
число значений. Тогда относительно модели М можно записать теорему
Байеса
V ’ 7 P(D\M)
(11.13)
Априорное распределение Р(0\М) надо выбрать некоторым разумным
способом, в этом и заключается искусство байесовских оценок. Свобода
выбора априорного распределения делает байесовскую статистику ино-
гда сомнительной, но мы полагаем, что это очень удобный инструмент
для ввода априорных (биологических) знаний в статистическую оценку.
P(0\D,M) называется апостериорной вероятностью параметров,
при фиксированных данных (наблюдениях) и модели. При оценке па-
раметров апостериорные вероятности можно использовано разными спо-
собами. Мы может сделать выборку в соответствии с их распределением
(смотри ниже раздел 11.4) и таким образом определить области наиболее
вероятных значений параметров модели. В разделе 8.4 мы показали, как
это может быть сделано для вероятностных моделей филогении. Если
мы хотим получить конкретный набор значений параметров, можно по-
ступить по аналогии с методом максимального правдоподобия и исполь-
зовать максимальную апостериорную вероятностную (МАР — Maximum
a Posteriory Probability) оценку,
0м АР = argmaxP(D|6»,Af)P(6»|M).
е
(П-14)
Заметим, что в формуле (11.14) мы игнорируем априорные данные
P(D\M\ поскольку они не зависят от параметров 0 и поэтому точка
максимума 0МЛР от него не зависит. Другая возможность — взять оцен-
ку апостериорного среднего (РМЕ — Posterior Mean Estimator), которая
берёт среднее по всем множествам параметров, взвешенное апостериор-
но:
вРМЕ = у Op^D M)d0 4 (11.15)
Интеграл берётся по всем возможным вероятностным векторам, т. е.
всем тем, сумма которых 1. В дальнейшем мы найдём РМЕ для муль-
тиномиального распределения с некоторого априорного распределения
параметра Р(0\М).
Обе оценки МАР и РМЕ считаются немного вызывающими подозре-
ния, поскольку нелинейное преобразование параметров обычно меняет
4 В оригинале написана формула 0РМЕ = f eP(O\ri)dO, что по-видимому является
опечаткой. — Прим, перев.
11.3. Статистическая оценка параметров
421
результат. Говоря в терминах статистики, оценки МАР и РМЕ не явля-
ются эквивариантными [Ripley 1996]. Чтобы увидеть, что происходит,
нам нужно рассмотреть влияние замены переменных на плотности рас-
пределений.
Замена переменных
Пусть задана плотность /(т). Сделаем замену переменных х =
= ф(у)5. Тогда мы можем определить плотность распределения д(у) в
пространстве параметров у как д(у) = /(ф(у))\ф'[у)\. Иными словами,
пусть X — случайная величина, имеющая плотность /(х), и Y — слу-
чайная величина, значения у которой получаются из значений величи-
ны X с помощью функции, обратной к функции ф: у = </>-1(х). (То-
гда д(у) — плотность распределения случайной величины Y. — Прим,
перев.). Производная ф'(у) появляется потому, что интервал 6х при
этом преобразовании соответствует интервалу 8уф'(у), площадь, заме-
таемая частотой f равна площади, заметаемой частотой ф, умножен-
ной на производную; взятие абсолютного значения производной обес-
печивает то, плотность распределения положительна. Это определение
даёт корректную нормированную плотность распределения, поскольку
/ g(y)dy — f /(Ф(у))1Ф'(у)<1у = f f(x)dx = 1, если f является плотно-
стью. Таким образом, правило преобразования записывается в виде
д(у) = Л<№))1Ф'(у)1-
Функция /(ф(у)), очевидно, имеет тот же максимум, что и f(x). Однако
при умножении на |<//(?/)|, максимум может сдвигаться (смотри упраж-
нение 11.7). Апостериорное распределение P(0\D,M) является плотно-
стью распределения, поэтому пик МАР может также сдвигаться при
преобразовании. Похожие аргументы показывают, что РМЕ может так-
же сдвигаться при преобразовании координат.
Напротив, правдоподобие P(D\0, М) не преобразуется как плот-
ность оно является просто функцией 0 и изменение координат остав-
ляет пик неизмененным, точнее пик остаётся тем же что и пик КФ(у))
[Edwards 1992].
Упражнение
11.7 Пусть f(x) = 2(1 — х) — плотность распределения на [0,1]. Пока-
жите, как она преобразуется в плотность распределения от у при
5Функция ф(у) должна быть монотонной. — Прим. ред.
422
Глава 11
х = у2. Покажите, что пик и РМЕ плотности распределения сдви-
гаются при этом преобразовании.
11.4. Выборки и их построение с помощью генератора
случайных чисел
Пусть дано (для простоты — конечное — Прим, перев.) множество
X = {xj и на нем задано распределение вероятностей P(xi). Сделать
выборку размера N из этого множества означает, говоря неформально,
случайно выбрать элементы Xi с вероятностями P(z?:). [Обычно предпо-
лагается, что есть процедура получения одного «случайного значения»
из рассматриваемого множества; для получения выборки размера N эта
процедура применяется N раз, причем все вызовы процедуры незави-
симы друг от друга. Выборка считается хорошей («представительной»),
если она удовлетворяет некоторым критериям (например, частоты встре-
чаемости исходов х^ должны (при достаточно больших N ) быть близки
к заданным вероятностям P(xt). Аналогично могут быть рассмотрены
выборки значений случайных величин, имеющих бесконечное множе-
ство возможных значений и задаваемых своими плотностями (см. выше
раздел 11.1). Подробнее о выборках и их использовании написано в учеб-
никах по статистике. — Прим, перев.]
В программировании, выборки как правило, получают, используя
встроенный компьютерный генератор псевдо-случайных чисел. Для по-
лучения его значений используется функция, называемая rand[a,6], или
как-то похоже, которая выдает числа случайное число из интервала [а,Ь\
в соответствии с однородным распределением вероятностей. Мы ниже
будем использовать функцию rand[0,1]. Используя ее, мы можем полу-
чать выборки значений других случайных величин, например, выбирать
элементы Xi из данного множества в соответствии с заданными веро-
ятностями P(xi) [т. е. мы хотим промоделировать случайную величину,
принимающую значения xi,...,xn с указанными выше вероятностями.
Далее описано, как получить очередное значение искомой случайной ве-
личины. — Прим, перев.]. Положим у = rand[0,1], а затем выберем в
качестве значения нашей случайной величины такое х^, что P(zi) + . . .+
+ Р(т7) < у P(z7+i) + . . .+ P(zn). Ясно, что вероятность лежит в этом
диапазоне, таким образом находятся с правильной вероятностью.
На самом деле получить «по-настоящему» случайные числа с по-
мощью компьютера нелегко. Стандартная функция псевдо-случайных
чисел обычно очень проста, и не достаточна хороша для большинства
приложений. Например, стандартная функция rand[] на многих UNIX-
11.4. Выборки и их построение
423
компьютерах выдает целые числа в интервале от 0 до 215 — I,6 и мы
ожидаем получить случайные биты (0 или 1) с помощью этой функции
взяв возвращаемое значение по модулю 2. Однако это даёт последова-
тельность из строго чередующихся 0 и 1; такую последовательность,
несомненно, считать случайной в целом нельзя. Однако для большин-
ства систем программирования имеются другие (и лучшие) генераторы
случайных чисел (смотри, например, обсуждение в [Press et al. 1992]).
Построение выборки преобразованием равномерного
распределения
Концепция выборки применима к случайным величинам, принима-
ющим как дискретное, так и непрерывное множество значений. В по-
следнем случае случайная величина, обычно, описывается своей плотно-
стью распределения. Пусть задана плотность распределения /. Постро-
ить выборку для плотности f — значит брать элементы из интервала,
на котором определена f так, что вероятность взять точку в произ-
вольной малой окрестности размера 6R вокруг точки х равна f(x)5R.
Выборка для данной плотности может быть построена с использованием
псевдослучайных чисел, взятых из однородного распределения на [0,1],
и применением замены переменных, которая подходящим образом меня-
ет плотность.
Метод основан на следующем соображении. Пусть задана плотность
распределения /(т), и замена переменных х — где ip(y) — мо-
нотонная функция. Из раздела 11.3 мы знаем, эта замена приводит к
новой случайной величине, имеющей плотность д(у) = f (<р(у))<р'(у), см.
(11.16). Если распределение /(ж) - однородное распределение на [0, 1],
/'(</?(?/)) = 1, откуда д(у) = Поэтому преобразование р(у), нужное
для моделирования плотности д(у), может быть найдено интегрировани-
ем: у
<р(у) = f g(u)du,
b
где b — подходящая нижняя граница интегрирования. Таким образом,
чтобы получить случайное число из распределения с плотностью д(у),
можно поступить так: (1) используя хороший генератор псевдослучай-
ных чисел, получить число т; (2) получить искомое число у преобразо-
ванием у = р — 1(т).
6Современные компьютеры работают с 32 разрядными числами, и поэтому генератор
выдает числа от 0 до 231 — 1. — Прим. ред.
424
Глава 11
Предположим, например, что мы хотим построить выборку из нор-
мального (Гауссова) распределения. Для этого мы определим кумулятив-
ное отображение Гаусса формулой р(у) = е~и2/2jx/brdu. Значения
искомой выборки можно теперь получать из поставляемых генератором
псевдо-случайных чисел х, однородно распределенных в [0, 1] с помо-
щью преобразования у = (£_1(т). Для определения обратного кумуля-
тивного отображения Гаусса, в принципе, можно использовать двоичный
поиск в таблице значений исходной кумулятивной функции. Однако это
достаточно тяжеловесный способ, существуют и более удобные методы
(см., например, упражнение 11.10).
Описанный выше метод преобразований можно применять и к функ-
циям К переменных. В этом случае формулу (11.16) нужно заменить на
д(У1, ,Ук') = Л<ЫУ1, • • ,Ук), • • • ,Фк(у\, • • • ,ук))\-1(Ф)\, (11-17)
где — якобиан, (г, j)-ft элемент которого есть dp)i/dyj [Feller,1971].
Упражнения.
11.8 Покажите, что функция, задаваемая уравнениями
Г д(у) = ахХух~х/(ах + т/А)2, у 0;
1 д(у) = 0, в противном случае,
является плотностью. Покажите, что выборку для этой плотности
можно получить из случайной величины, равномерно распределен-
/ \ 1/а
ной на [0, 1] с помощью преобразования у = а ( х \
11.9 Пусть функция двух переменных р : (х,у) (u,w) определена
неявными уравнениями х = им, у — (1 — u)w. Покажите, что
якобиан тождественно равен w.
11.10 (Требуется знание математического анализа!) Каждое значение и
выборки получено следующим образом. Берем два независимых и
равномерно распределенных в [0, 1] случайных числа распределен-
ных и полагаем и = cos(2?nr) log( 1/1/2). Докажите, что полученная
выборка распределена нормально. Описанный метод принадлежит
Боксу и Мюллеру, см. [Press et al., 1992].
11.4. Выборки и их построение
425
Выборка из распределения Дирихле. Сведение к двум
Г-распределениям
Рассмотрим проблему построения выборки из распределения Ди-
рихле; на этом примере мы проиллюстрирует некоторые важные прин-
ципы. Предположим, во-первых, что мы можем умеем строить выборку
из гамма-распределения д(х,а, 1):
д(х, о, 1) = е~ххп~1/Г(о),
где 0 < х < ос, раздел 11.1. Пусть число х\ и х^ — выборочные значе-
нии из двух гамма-распределений с плотностями д(х, oj, 1) и д^х^Л)
соответственно. Определим для них пару чисел и, и, таких что u + v = 1
уравнениями:
и = xi/(ti 4- .т); v — t2/(ti + х).
Очевидно, множество пар (jrl, т2), приводящих к данной паре (u,v), удо-
влетворяющей условию u + v = 1, может быть задано параметрическими
уравнениями:
х\ = uw\ X2 = (l — u)w, (11.17а)
где w — произвольное число. Поэтому плотность вероятности распреде-
ления пар (и, и), может быть получена интегрированием по w плотности
совместного распределения пар (a,w), заданных заменой переменных
(11.17а). Плотность последнего распределения может быть найдена со-
гласно (11.17) и результату упражнения 11.9. Таким образом, для сов-
местного распределения D(u, v) пар (u,v) получаем:
D(u. v) =
l)e Uv(uw)ai 1(t;w)Q;2 1wdw
г(«1)гь)
+ !) 7 w „1+а2_1 =
Г(«1)Г(а2) J
(11.18)
о
ai_i a2-iez . .ч r(ai -I- a-2)
= Z?(a, q2)
Здесь D(u, v|«i, q2) — распределение Дирихле с параметрами ctl,o!2.
Другими словами, чтобы построить элемент выборки из распределения
426
Глава 11
Дирихле с двумя переменными (бета-распределения), мы поступаем сле-
дующим образом: (1) строим выборочные значения — по одному
из двух Г-распределений, показатели которых равны показателям в ком-
понентах нужного распределения Дирихле; (2) затем вычисляем значе-
ния (u,v), по формуле (11.17). Этот элегантный метод обобщается на рас-
пределения Дирихле с любым числом переменных (упражнение 11.11).
Следовательно, мы можем построить выборку из распределения Ди-
рихле, зная как построить выборку из гамма-распределения. Это будет
нашей следующей задачей.
Выборка из распределения Дирихле. Метод отказов
Пусть мы хотим построить выборочное значение для Г-распределе-
ния с плотностью д(х,а, 1). Рассмотрим функцию /(т), заданную фор-
мулой
4е адх+ахх 1
Г(Ъ)(пл -I- хх)2
(11.19)
где А = \/2а - 1. Можно показать (см. упражнение 11.12), что
д(х,а, 1) f(x). Здесь и далее будем считать, что гапсЦО, 1] правиль-
но моделирует равномерное на [0, 1] распределение вероятностей. Тогда
для любого t € [0,1] выполнено F(rand[0,1] < £) = t и, в частности,
F(rand[0,1] < д(х, ее, 1)//(т)) = д(х, ее, 1)//(т). Последняя формула ве-
дет к следующей трех-шаговой процедуре построения выборочного зна-
чения для плотности^(т, ct, 1): (1) строим выборочное значение х для
плотности /(ж), см. упражнение 11.8; (2) строим значение с = rand[0,1];
(3) если с < д(х,а, 1)//(т)), то принимаем х в качестве искомого выбо-
рочного значения для д(х,а, 1); в противном случае — процедура отка-
зывается выдавать выборочное значение. Действительно, для плотности
F(z) построенных выборочных значений имеем:
Р{х) = /(z)F(rand[0,1] < д(х, а, 1)//(т)) = д(х, q, 1).
Таким образом, нам осталось объяснить метод построения выбороч-
ных значений для вспомогательной плотности /(ж). Этот метод следу-
ет из упражнения 11.8: нужно взять и = rand[0,1], а затем положить
х = а(и/(1 - w))1/2 . Подробнее об изложенных методах построения
выборок для распределения Дирихле и Г-распределения — см. Law &
Kelton [1991]; рисунок 11.2, иллюстрирующий распределение Дирихле,
был получен с их помощью.
11.4. Выборки и их построение
427
Описанная процедура — пример построения выборки с помощью ме-
тода отказов; распределёние д получалось «подрезкой» распределения /,
которое всегда больше, чем д. В свою очередь, выборочные значения для
f могут быть получены аналитически из равномерно-распределенных
случайных чисел. Метод работает эффективно только, если /(т) явля-
ется хорошей аппроксимацией для д(х, q, 1); в противном случае часто-
та отказов будет слишком велика. Функция f хорошо аппроксимирует
д(х,а, 1) для тех значений х, для которых обе функции велики, т. е. на
участках, откуда особенно часто будут браться значения. Выбор значе-
ния Л определяется именно этими соображениями. Например, при а — 5
и А = \/2а - 1 = 3, только 14% точек было выброшено (рисунок 11.7,
график слева), тогда как при А = 1 (рисунок 11.7, график справа), вы-
брошено 65% точек.
Рис. 11.7. Построение выборки методом отказов. Нашей целью является построе-
ние выборки для Г-распределения с плотностью д(х,а, 1) (на рисунках эта плот-
ность показана сплошной линией). Знаками показана плотность распределе-
ния f(x), см. (11.19); ее значения всюду превосходят значения Г-распределения
с тем же параметром а. Выборочное значение для f(x) принимается в качестве
выборочного значения для д(х,а, 1) с вероятностью д(х, а, 1)//(х)). На рисун-
ке слева значения параметров равны а = 5, А = 3; на рисунке справа — а = 5,
А = 1
Упражнения
11.11 Покажите, что формула (11.18) может быть обобщена на случай К
Г-распределений, т. е. что выборочное значение для распределения
Дирихле D(0i,... ,0K|(cti,... ,«/<) может быть получено с помо-
щью К выборочных значений — по одному для каждой плотно-
428
Глава 11
сти tg(z, 1), i = Подсказка: Покажите, что якобиан
отображения, заданного формулами хг = UiW (i = 1, .. .,/С — 1);
хк = (1 - ^Ui)w равен wK~1.
11.12 Докажите, что для всех х g(x,&i, 1) f(x) для всех х при а > 1
и А^К \/2а — 1; функция определяется уравнением (11.19). Что
происходит при А > у/2а - 1.
Алгоритм Метрополиса
Часто требуется построить выборку в условиях, когда аналитиче-
ские методы лежащие в основе метода замены переменных и метода от-
казов, не пригодны. Тогда возможно использование цепи Маркова, опре-
делённой на пространстве элементарных исходов X [Neal, 1996]. Мы
предполагаем здесь, что X — конечное, хотя идеи распространяются и
на непрерывные случайные величины и их плотности распределения.
Цепь Маркова для каждых двух точек т, у определяет вероятность
т(?/|т) перехода из точки х в точку у. Если мы умеем делать выбор-
ку для распределения т(?/|т), то есть при заданном т, можем выбрать
точку у с вероятностью т(?/|т), то мы можем сгенерировать последова-
тельность {yt}, в которой каждое yi строится как выборочное значение
из распределения т(7/г|?/г-1).
Предположим теперь, что мы можем найти такой набор переходных
вероятностей г, который удовлетворяет условию
Р(.т)т(у|.г) = Р(у)т(х\у). (11.20)
Это условие называется условием детального равновесия. Оказывается,
что из условия детального равновесия следует, что
lim С(у, = х) = Р(х) (11.21)
7V N—>оо
для всех точек х, при этом C(yi = х) — это количество появлений исхо-
да х в последовательности {у^ длины N. Это означает, что множество
значений порожденной таким образом последовательности — хорошая
выборка для распределения, заданного вероятностями Р(х) — беря до-
статочно длинные последовательности, мы можем приближать частоты
появления символов к вероятностям Р(х) настолько близко, насколько
хотим. Тут требуется уточнить: очевидно, что цепь должна позволять
достигать любой точки у из любой другой точки х\ другими словами,
11.4. Выборки и их построение
429
должна быть последовательность переходов, которая может привести из
.г в у для любых х и у.
Итак, если есть процесс переходов, который удовлетворяет (11.20),
то последовательности, сгенерированные им будут корректно строить
выборку для распределения Р. Но как найти такой процесс? Это можно
сделать с помощью алгоритма Метрополиса. Параметром алгоритма яв-
ляется произвольная симметрическая матрица переходных вероятностей
F(y\x), т.н. матрица предложений. Симметрия матрицы предложений
необходима для того, чтобы итоговая матрица переходов т вместе с дан-
ным распределением вероятностей Р удовлетворяли условию детального
равновесия (11.20). Порождение новой точки у из заданной точки х, как
и в методе отказов, происходит в несколько этапов:
Предложение новой точки. Выбирается случайная точка у в соот-
ветствии с распределением вероятностей F(y\x).
Принятие новой точки (или отказ). Предложенное у принимает-
ся с вероятностью min{l, Р(у) / Р(х)}. Иными словами, точка у с боль-
шей апостериорной вероятностью, чем у текущего х всегда принимается,
а точка у с меньшей вероятностью принимается случайно с вероятно-
стью Р(у)/Р(х). В случае отказа алгоритм возвращается к (1).
Чтобы увидеть, что это удовлетворяет (11.20), заметим, что при
X / у,
Р(х)т(у1хР(х) = F(y\x)mm(1.,P(y)/P(x)) =
= F(y\x) тт(Р(х), Р(у)) =
= F(x\y) тт(Р(у), Р(х)) =
= Р(у)г(х\у).
Симметрия функции F(y\x) = F(x\y) использована при переходе от
второй строки к третьей.
Выборки Гиббса
Когда у нас есть вероятностная модель с несколькими переменны-
ми, можно попробовать построить выборку, меняя значения переменных
по очереди, т. е. так, чтобы два соседних элемента выборки отличались
лишь в одной позиции. Эта идея используется при построение выборок
методом Гиббса (Gibbs sampling; такие выборки иногда называют Гибб-
совыми выборками или выборками Гиббса). При этом методе цикличе-
ски просматриваются все позиции г = 1,..., 7V; для очередного i новый
элемент у = (zi,..., Уг, Zi+i, • • •, порождается из предыдущего
430
Глава 11
элемента х = (zi,... ,Tj_i,Zi,Zi+i,... ,zyy) с помощью условного рас-
пределения P(Xi |Т1, . . . , Xj-i, Тг + 1, . . . , Х^)7.
Для того, чтобы показать, что выборка Гиббса, согласована с задан-
ным многомерным распределением P(#i, ... ,Xi~i,Xi,Xi+i,... ,тдг), т. е.
что с увеличением длины выборки частоты точек стремятся к их веро-
ятностям, достаточно доказать выполнение условия детального равнове-
сия (11.20). Последнее означает, что
Р(Т1,... ,ТП)Р(^|^1, • •. . ..,хп) =
= Р(Т1, . . . , Xi-i'Xi,Xi+i, . . . ,Тп)Р(т7 |Т1, . . . ,Тг-1,Тг+1, . . . ,ТП).
Мы можем переписать это как
Р(з?1, . . . ,ТП)Р(Т1, . . . . ,Tn)/Р(х\, . . . ^Xi—i , . . . ,3?n)
= P(xi, . . . . ,Zn)P(Zl, . . . ,Tn)/P(xi, . . . . ,ТЛ),
после чего равенство становится очевидным. Таким образом, если про-
цесс не застопорится в некотором множестве пространства точек, то
есть, если имеет место эргодичность, выборка Гиббса неизбежно схо-
дится к Р.
Ситуации, при которой метод Гиббса «застревает» в некотором под-
множестве области возможных значений, возникает, например, когда эта
область (носитель плотности распределения) разбивается на части, кото-
рые не перекрываются ни по какому координатному направлению. В дву-
мерном случае, например, — если половина плотности сосредоточена в
квадрате [0,1] х [0,1], а вторая половина — в квадрате [2,3] х [2,3].
Заметим, что если между частями будет даже небольшое перекрытие,
например, если половина плотности однородна в [0,1] х [0,1] а вторая
половина — однородна в [0.99,1.99] х [0.99,1.99], то переходы между
этими квадратами будут, хотя и очень редко.
Упражнение
11.13 Чему равно среднее количество элементов выборки Гиббса, лежа-
щих в квадрате [0,1] х [0,1], до первого выхода из этого квадрата
(см. последний пример).
73десь Р(тг|т1,..., тг_1, Тг+1,..., х/у) обозначает условную вероятность
РгоЬ(Р,{(Т1, . . . ... ,тдг)})/РгоЬ(Р, {(zi, . . . ,T2-l,7/i,.Ti+1, ... ,.тдг)|е/?}),
где P(xi,... ,хг-1,хг,хг+1,... ,тдг) — заданное многомерное распределение. — Прим,
перев.
11.5. Оценивание вероятности по количеству исходов 431
11.5. Оценивание вероятности по количеству исходов
Вернемся к примеру с бросанием игральной кости. Нам нужно бы-
ло оценить параметры мультиномиального распределения исходя из дан-
ных: сколько раз выпала каждая грань. Такая же (в абстрактном смыс-
ле) ситуация часто встречается при анализе последовательностей, но
количество появлений пг данного исхода i имеет другой смысл. Напри-
мер, это может быть количество раз, когда аминокислота i появляется в
столбце множественного выравнивания.
Предположим, что доступные нам наблюдения выражаются через
количество появлений пг каждого из исходов i (г = и мы
хотим оценить вероятности для соответствующего мультиномиально-
го распределения. Если у нас имеется изобилие данных, естественно в
качестве оценок использовать наблюдённые частоты: = ni/N, где N =
= Hini- Это является оценкой максимального правдоподобия, т. е. 0^L.
Доказать это можно так.
Нам нужно показать, что для любого набора параметров 0 0^L
выполнено: P(n\0-^L) > Р(п\0), где п = {nJ — вектор количеств исхо-
дов (вектор наблюдений). Это эквивалентно тому , чтобы показать, что
\og[P(n\0™ L) / Р(п\0)] > 0, мы здесь считаем, что Р(п\0) > 0. Используя
равенство (11.3) и определение получаем:
P(n\0ML) _ Пг (С2-)"' _
°s р(п\в) og ПЛП!
i
= >0.
i
Последнее неравенство выводится того факта, что относительная
энтропия, см. (11.10), всегда положительна, если два распределения раз-
личны. Это завершает доказательство.
Если у нас мало данных, не очень понятно, что является наилучшей
оценкой. Если, например, мы имеем всего 2 примера, и в обоих — один
и тот же остаток, оценка максимального правдоподобия будет давать
нулевую вероятность для всех других остатков. В этом случае мы хотим
все же приписать ненулевые вероятности и другим остаткам, т. е. не
полагаться полностью на такое малое число наблюдений. Так как больше
108 s~~
432
Глава 11
наблюдений у нас нет, мы должны использовать априорные знания. Это
может быть сделано посредством Байесовской статистики, а сейчас мы
выведем оценку апостериорного среднего 0РМЕ (см. раздел 11.3) для
параметров 0 для мультиномиального распределения.
В качестве априорного распределения возьмем JC-мерное распре-
деление Дирихле (11.5) с параметрами а — (»i,...,«к) и вычислим
соответствующее апостериорное распределение для мультиномиального
распределения по формуле (11.13), здесь, как и ранее п — /С-мерный век-
тор, К — количество возможных исходов:
P(n\0)V(0\a)
рW п) =----------•
Р(п)
Для простоты обозначений, мы, в отличие от (11.13), не указываем мо-
дель явно, но, как и прежде, неявно считаем все вероятности зависящи-
ми от модели. Подставляя вместо Р(п\0) плотность мультиномиального
распределения и вместо D(0|q) — плотность Дирихле из (11.5), получим:
- wiWi И +"'" =
На последнем шаге мы использовали, что выражение
пропорционально плотности распределения Дирихле с вектором пара-
метров п + а (здесь обозначает векторное сложение). К счастью,
чтобы закончить вывод, нам не нужно возиться с Г-функциями в мно-
жителе, который не зависит 0. Мы знаем, что и Р(п\0), и Т>(0\а) —
правильно нормированные плотности распределения. Это означает, что
упоминавшийся множитель равен 1 и, следовательно,
Р(0\п) = V(0\n + a). (11.22)
Мы видим, что апостериорное распределение так же является рас-
пределением Дирихле, как и априорное, но, разумеется с другими па-
раметрами. Наблюдение, что вышеупомянутый множитель равен 1, даёт
следствие, которое будет полезно в дальнейшем:
Р(П) = 7/П]М(\- (1L23)
Z(a)M (n)
11.5. Оценивание вероятности по количеству исходов
433
Чтобы получить оценку апостериорного среднего нам осталось выпол-
нить интегрирование. Из определения (11.15) получаем:
вРМЕ = у е^(е\п + a)d0 = Z-'tn + a) 0; Ц 0™k+ak~ldO. (11.24)
Далее, мы можем включить в степень 0?г+°\ Теперь мы видим, что
интеграл в точности имеет вид как в формуле (11.6). Поэтому мы можем
записать
дРМЕ _ + Q + ^г) _
Z(n + Q:) (11.25)
_ rij + aj
~ N + A'
где А = аг и Si является вектором, г-я компонента которого единица,
а все остальные компоненты — нули. В преобразованиях мы исполь-
зовали свойство (11.7) Г-функции, т. е. Г (я + 1) = тГ(т); это позволило
сократить все члены, кроме (пг + а;) в числителе и N + A в знаменателе.
Этот результат имеет аналогию с оценкой наибольшего правдопо-
добия 0мL. Если мы рассматриваем аг как дополнительные (виртуаль-
ные) наблюдения, добавленные к истинным, то формула (11.25) — это
в точности оценка наибольшего правдоподобия. При этом ai выглядят
как «псевдоколичества», добавленные к реальным количествам исходов
(эта величина называется псевдокаунтами). Это делает использование
распределения Дирихле очень интуитивно ясным. Мы можем в этом
случае забыть всё относящееся к Байесовской статистике и рассуждать
в терминах псевдокаунтов. Очевидно, как использовать эти псевдокаун-
ты: если априорно известно, что некоторый остаток, скажем с номером г,
встречается очень часто, нам следует присвоить ему большое значение
псевдокаунта, и если остаток редкий в большинстве случаев, ему сле-
дует присвоить низкое значение.
Важно заметить свойство саморегуляции при использовании псев-
докаунтов. Если имеется много наблюдений, то есть пг значительно
больше чем аг, то наша оценка примерно равна оценке наибольшего
правдоподобия. С другой стороны, если имеется очень мало наблюдений,
доминировать будут псевдокаунты и оценка, будет близка к нормирован-
ным значениям ai, т. е. = ai/A. Таким образом, обычно, нам следует
выбирать ai так, чтобы они равны общему нормированному распределе-
нию количеств остатков.
434
Глава 11
Смеси Дирихле
Нелегко выразит все априорные сведения о белках в простом рас-
пределении Дирихле; чтобы достичь этого естественно использовать рас-
пределения, несколько отличные от распределения Дирихле. Мы можем,
например, иметь отдельное распределение Дирихле, хорошо подобран-
ное для отображения аминокислот, обычно находящихся на поверхно-
сти белка, другое — для тех, которые обычно находятся внутри глобу-
лы и т. д. В терминах статистики это может быть выражено как смесь
распределений. Предположим, мы имеем т распределений Дирихле, ха-
рактеризуемых векторами параметров а\ i — 1,..., т. Смесь априорных
распределений выражает идею, что некоторый вектор параметров 0 опи-
сывается каждой из компонент Т>(0\ак) смеси с вероятностью qk- Более
формально:
= ^qkV(e\ak), (11.26)
к
где qk называются коэффициентами смеси Дирихле. Коэффициенты сме-
си Дирихле положительны и их сумма равна 1, поэтому смесь является
вероятностным распределением. (Смеси могут быть сформированы из
распределений любых типов.) В предыдущем разделе эта вероятность
обозначалась Р(0), т. е. теперь мы явно указываем на зависимость от
параметров аь в то время как ранее эта зависимость была неявной.
Это, в частности, позволит нам в дальнейшем использовать вероятности
P(ak\n). Мы можем рассматривать коэффициенты qk как априорные ве-
роятности qk = Р(ак) каждой из компонент смеси Дирихле. Если задана
смесь Дирихле, т. е. если фиксированы параметры {аЛ} и коэффициенты
смеси Дирихле, это позволит нам, используя результаты предыдущего
раздела, напрямую вычислить апостериорные вероятности. Из определе-
ния условных вероятностей, мы имеем
Р(0|п) = ^2 Р(0\ак, п)Р(ак\п) =
к
= ^Р(ак\п)1)(е\п + ак).
к
Здесь мы использовали выражение (11.22).для плотности апостериорно-
го распределения. Чтобы вычислить значение P(&k\n), заметим, что по
теореме Байеса, используя формулу qk = Р(&к) мы имеем
дкР(п\ак
^2i<liP(n\c
11.5. Оценивание вероятности по количеству исходов 435
Вероятность Р(п\ак) задаётся формулой (11.23) (напомним, что
Р(п) в предыдущем разделе неявно зависели от значений параметров
Дирихле), откуда мы получаем:
Р(„‘|„) = ^<n+a^z(a-,.
^llqlZ(n + al')/Z(al)
Последнее интегрирование для получения 0РМЕ может быть выпол-
нено, используя формулы (11.24) и (11.25) из предыдущего подраздела,
и даёт
е^МЕ = £ (1L28)
к
Оценка, использующая смесь Дирихле подобна оценке, использующей
распределение Дирихле: оценки, основанные на каждой из компонент
смеси Дирихле усредняются. Новой является формула (11.27) для весов,
с которыми производится усреднение. Эту формулу довольно трудно по-
нять интуитивно. Говоря неформально, чем больше вес получит та или
иная компонента смеси, тем более она будет представлена в выборке
Выбор априорного распределения
Более подробно идеи, представленные в предыдущем разделе, из-
ложены в работах Brown et al. [1993] и Sjolander et al. [1996]. Эти
авторы используют смеси Дирихле для моделирования распределения
остатков в столбцах выравниваний. Они получили априорное распреде-
ление для этой задачи исходя из анализа большого количества таких
столбцов, каждый из которых был представлен вектором количеств эле-
ментов п1,..., пм.
Метод, описанный в указанных статьях, состоит в следующем. Рас-
смотрим m-компонентную смесь Дирихле, заданную векторами парамет-
ров а = («1,..., ctm) и коэффициентов q = (gi,..., qrn)\ эта смесь задает
распределение параметров 0 для мультиномиального распределения. Ве-
роятность получить вектор п1 в соответствии с выбранной смесью равна
(11.29)
436
Глава 11
Если вектора количеств элементов считать независимыми, полное прав-
доподобие смеси будет равно
Р(данные|смесь) = Р(п1|а1,... ,a™;qi,..., qni). (11.30)
i=l
Теперь, чтобы определить параметры смеси можно максимизировать ве-
роятность (11.30) методом градиентного спуска или каким либо другим
методом непрерывной оптимизации.
В заключение этого раздела зададим себе часто возникающий во-
прос: «Зачем использовать оценку максимального правдоподобия, когда
есть замечательные байесовские методы?» Дело в том, что байесовским
методам нужны априорные распределения. Для того, чтобы найти апри-
орные распределения, вы снова можете использовать байесовский под-
ход — и тогда понадобятся априорные распределения следующего уровня
(априорные распределения для априорные распределения). Эту последо-
вательность априорные распределения можно продолжить и дальше. Но
когда-то надо будет остановиться и просто «изобрести» априорные пара-
метры или оценить методом максимального правдоподобия или другим
небайесовским методом.
11.6. Алгоритм ЕМ
Алгоритм максимизации ожидаемого ЕМ (Expectation Maximization)
— это общий метод для получения оценок максимального правдоподобия
в условиях «неполных данных» [Dempster, Laird & Rubin 977]. Алгоритм
Баума-Велча (Baum-Welch) для выбора параметров скрытой марковской
модели (НММ) является частным случаем ЕМ алгоритма. Для НММ
отсутствующие данные — это неизвестные состояния модели, поскольку
мы знаем только наблюдения и на знаем последовательности состояний,
породившей их.
Пусть некоторая статистическая модель определяется набором пара-
метров 0. Обозначим наблюденные данные через х, и пусть вероятность
появления данных х определяется некоторыми отсутствующими данны-
ми у. [А также выбранной моделью, которую мы в этом разделе считаем
фиксированной, и набором параметров этой модели 0 — Прим, перев.}.
Для НММ, которая в этом разделе будет предметом нашего интере-
са, набор параметров 0 — это вектор набор переходных вероятностей а
и набор эмиссионных вероятностей е; а у — это траектория через мо-
дель, которая породила наблюдаемую последовательность х. Наша цель
11.6. Алгоритм ЕМ
437
— найти набор параметров, который максимизирует log-правдоподобие
log Р(а:|0) = log5?P(a:,jt/|6>).
У
Отметим, что в случае НММ наблюдаемые данные х могут состоять
как из одной, так и из нескольких последовательностей. Для просто-
ты изложения мы здесь подробно обсуждаем только случай одной по-
следовательности. Переход к общему случаю несложен, например, для
последней формулы и всех следующих формул требуется лишь дополни-
тельное суммирование по последовательностям.
Предположим теперь, что мы имеем достаточно хороший набор па-
раметров, 0*, и мы хотим получить новый и лучший набор 0t+i. Ис-
пользуя равенство Р(х,у\0) = Р(у\х,0)Р(х\0), мы можем представить
log-правдоподобие для произвольного набора параметров 0 в виде
logР(х\0) = logР(х,у|0) - logР(у\х,0).
Умножение на Р(у\х,0*) и суммирование по у даёт
log Р(х\0) = ^2 Р(у\х, 0‘) log Р(х, у\0) - ^2 Р(у\х, 0*) log Р(у\х, 0).
У У
Первую сумму в правой части последней формулы мы далее будем обо-
значать через Q(0|0*), т. е.
Q((№) = ^р(у\о1)\0ёр(х,у\о). (П.31)
У
Мы хотим найти такой 0, чтобы logP(z|0), был больше, чем \о%Р(х\01),
следовательно их разность должна быть положительной. Используя два
последних равенства, эту разность можно представить как
logP(^)-logP(x|^) =
= Q(0|0‘) - + £ Р(у\х, 0l) log
Последний элемент в этой формуле — это относительная энтропия
Р(у\х,01) относительно Р(у\х,0), см. (11.10). Поскольку относительная
энтропия всегда неотрицательна, то
logP(z|0) - log Р(:г|0*) Q^) - <ЖН, (11.32)
438
Глава 11
причем равенство возможно только, если 0t = в или если для всех
некоторого в ± Gt распределения P(y\x,0t) и 0) совпадают. Идея
ЕМ алгоритма состоит в том, чтобы положить
6»t+1 = агётах<2(6>|6»{). (11.33)
е
Ввиду (11.32) это гарантирует, что правдоподобие для всегда боль-
ше, чем правдоподобие для . Конечно, если максимум уже достигнут,
то мы получим 0<+1 = 0f, и правдоподобие не изменится.
Функция Q в (11.31) — это среднее выражения log Р(т, y\i) по рас-
пределению значений у, полученному для текущего множества парамет-
ров О1. Она часто может быть выражена аналитически как функция от 0,
в которой константами являются математические ожидания в старой
модели. Ниже мы конкретизируем это утверждение для случая НММ.
В заключение приведем традиционную формулировку ЕМ-алгоритма.
Алгоритм: ожидание максимизации
Е-шаг: Вычисление функции Q , см. (11.31)
М-шаг: Максимизация Q(0|0*) относительно 0.
Мы видели выше, что правдоподобие возрастает с каждой итера-
цией, поэтому асимптотически при t —> ос процедура всегда достигает
локального (а может быть и глобального) максимума. Для многих моде-
лей, в частности, для НММ, каждый из этих шагов может быть проведён
аналитически. Если второй шаг не может быть выполнен точно, можно
использовать для максимизации Q какой-либо численный метод. На са-
мом деле, нам необязательно максимизировать её; достаточно сделать
<2(0<+1|0*) большим, чем Q(0*|0*). Алгоритмы, которые увеличивают Q,
но не обязательно максимизируют её, называются обобщёнными ЕМ
алгоритмами или GEM алгоритмами (GEM — Generalized ЕМ) алгорит-
мами [Dempster, Lairf & Rubin 1977]. Другие обобщения идеи ЕМ можно
найти в работах Meng & Rubin [1992] и Neal & Hinton [1993].
Алгоритма Баума-Уэлча с точки зрения ЕМ
Опишем в общих чертах проведение ЕМ шагов для случая НММ.
Как мы увидим, это и есть алгоритм Баума-Уэлча, описанный в части 3.
В случае НММ мы хотим максимизировать правдоподобие
10gF(xp) = ^logP^).
11.6. Алгоритм ЕМ
439
Отсутствующими данными здесь являются траектории состояний тг.
Формула (11.31) для Q превращается в
<Э(0|0‘) = J2P(7r|a:,6»t)logP(a:,7r|6»). (11.34)
У
Для каждой траектории тг выражение Р(х,тг\в) — это произведение па-
раметров модели, см. (3.6). Пусть ниже Aki(тг) обозначает, сколько раз в
произведение Р(х,тг\в) входит переходная вероятность а Еь(Ь, тг) —
сколько раз входит эмиссионная вероятность в£(Ь)(Ам(7г) и Ek(b, я) за-
висят и от наблюденной последовательности .т, но эту зависимость мы
не указываем явно). Таким образом, мы можем переписать (3.6) как
м мм
РМе) = ППМ<к(м) ПП«н'м
к=1 b к=01=1
Здесь первое произведение берётся по всем символам b выходного
алфавита НММ. Логарифмируя последнюю формулу, можно записать
(11.34) как
У
м мм
52 52 Ек(ь' 1оёе*(ь) + 52 52 iogafei
_к=1 b к=0 1=1
(11.35)
Мы видим, что средние Aki и Ek(b)t определённые в (3.20) и (3.21)
для алгоритма Баума-Уэлча могут быть записаны как математические
ожидания для АдДтг) и Ek(b, тг) относительно распределения Р(тг\х,в):
Ек(Ь) = ^Р(тг\х,01)Ек(Ь,7г)
7Г
И
Ак1(Ь) = ^Р(1г\х,0*)Ак1(Ь,к).
7Г
Меняя в (11.35) порядок суммирования и выполняя первым сумми-
рование по тг, приходим к формуле:
м мм
Q(0\^ = ЕЕ Ек (b) loget (6) + 52 52 A-kl logafc(.
fe=l Ь к=0 1=1
440
Глава 11
В заключении нам осталось показать, что (3.18) максимизирует
(11.36). Давайте сначала посмотрим на сумму для переходных вероят-
ностей (второе слагаемое в (11.36). Пусть к — это значе-
ние переходной вероятности предлагаемое в (11.36). Разность между
второй суммой в (11.36) для и этой же суммой для произвольного
другого значения равна
ММ о м / \ М о
rv(z \ / ivV
к=0 1=1 к=0 \ I' / 1=1
Последнее выражение — это относительная энтропия (11.10), и по-
этому оно больше 0, кроме случая, когда наборы и {ад:/} совпадают
(когда оно равно 0). Это и означает, что максимум в рассматриваемой
сумме достигается при наборе Сумма в (11.36), относящаяся к
эмиссионным вероятностям, рассматривается точно так же.
Е-шаг ЕМ алгоритма в случае НММ состоит в вычислении мате-
матических ожиданий Aki и Ek(b). Это выполняется forward-backward
процедурой, описанной в главе 3. Это полностью определяет функцию Q,
и ее максимум выражается непосредственно через эти числа. Поэтому
М-шаг ЕМ алгоритма (в полном соответствии с алгоритмом Баума-
Уэлча) стоит в подстановке найденных значений Aki и Ek(ty в формулу
(3.18) для получения новых значений для вероятностей аы и ek(b).
Список литературы
Abrahams, J. Р., van den Berg, M., van Batenburg, E. and Pleij, C. 1990.
Prediction of RNA secondary structure, including pseudoknotting, by
computer simulation. Nucleic Acids Research 18:3035-3044.
Allison, L. and Wallace, C. S. 1993. The posterior probability distribution of
alignments and its application to parameter estimation of evolutionary
trees and to optimisation ofmuliple alignments. Technical Report TR
93/188, Monash University Computer Science.
Allison, L., Wallace, C. S. and Yee, C. N. 1992a. Finite-state models in
the alignment of macromolecules. Journal of Molecular Evolution
35:77-89.
Allison, L., Wallace, C. S. and Yee, C. N. 1992b. Minimum message
length encoding, evolutionary trees and multiple alignment. In Hawaii
International Conference on System Sciences, volume 1, 663-674.
Altschul, S. F. 1989. Gap costs for multiple sequence alignment. Journal
of Theoretical Biology 138:297-309.
Altschul, S. F. 1991. Amino acid substitution matrices from an information
theoretic perspective. Journal of Molecular Biology 219:555-565.
Altschul, S. F. and Erickson, B. W. 1986. Optimal sequence alignment
using affine gap costs. Bulletin of Mathematical Biology 48:603-616.
Altschul, S. F. and Gish, W. 1996. Local alignment statistics. Methods in
Enzymology 266:460-480.
Altschul, S. F. and Lipman, D. J. 1989. Trees, stars, and multiple biological
sequence alignment. SIAM Journal of Applied Mathematics 49:197-
209.
Altschul, S. F., Can-oil, R. J. and Lipman, D. J. 1989. Weights for data
related by a tree. Journal of Molecular Biology 207:647-653.
442
Список ЛИТЕРАТУРЫ
Altschul, S. F., Gish, W., Miller, W., Myers, E. W. and Lipman, D. J.
1990. Basic local alignment search tool. Journal of Molecular Biology
215:403-410.
Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z.,
Miller, W. and Lipman, D. J. 1997. Gapped BLAST and PSI-BLAST:
a new generation of protein database search programs. Nucleic Acids
Research 25:3389-3402.
Asai, K., Hayamizu, S. and Handa, K. 1993. Prediction of protein secondary
structure by the hidden Markov model. Computer Applications in the
Biosciences 9:141-146.
Asmussen, S. 1987. Applied Probability and Queues. Wiley.
Atteson, K. 1997. The performance of the neighbor-joining method ofphy-
logeny reconstruction. In Mirkin, B., McMorris, F., Roberts, F. and
Rzhetsky, A., eds., Mathematical Hierarchies and Biology. American
Mathematical Society. 133-148.
Bahl, L. R., Brown, P. R, de Souza, P. V. and Mercer, R. L. 1986. Maxi-
mum mutual information estimation of hidden Markov model parame-
ters for speech recognition. In Proceedings ofICASSP ’86, 49-52.
Bailey, T. L. and Elkan, C. 1994. Fitting a mixture model by expectation
maximization to discover motifs in biopolymers. In Altman, R., Brut-
lag, D., Karp, P., Lathrop, R. and Searls, D., eds., Proceedings of the
Second International Conference on Intelligent Systems for Molecular
Biology, 28-36. AAAI Press.
Bailey, T. L. and Elkan, C. 1995. The value of prior knowledge in dis-
covering motifs with MEME. In Rawlings, C., Clark, D., Altman,
R., Hunter, L., Lengauer, T. and Wodak, S., eds., Proceedings of the
Third International Conference on Intelligent Systems for Molecular
Biology, 21-29. AAAI Press.
Bairoch, A. and Apweiler, R. 1997. The SWISS-PROT protein sequence
data bank and its supplement TrEMBL. Nucleic Acids Research 25:31—
36.
Bairoch, A., Bucher, P. and Hofmann, K. 1997. The PROSITE database,
its status in 1997. Nucleic Acids Research 25:217-221.
Список ЛИТЕРАТУРЫ
443
Baldi, Р. and Brunak, S. 1998. Bioinformatics — The Machine Learning
Approach. MIT Press.
Baldi, P. and Chauvin, Y. 1994. Smooth on-line learning algorithms for
hidden Markov models. Neural Computation 6:307-318.
Baldi, P. and Chauvin, Y. 1995. Protein modeling with hybrid hidden
Markov model/neural network architectures. In Rawlings, C., Clark,
D., Altman, R., Hunter, L., Lengauer, T. and Wodak, S., eds., Pro-
ceedings of the Third International Conference on Intelligent Systems
for Molecular Biology, 39-17. AAAI Press.
Baldi, P., Brunak, S., Chauvin, Y. and Krogh, A. 1996. Naturally occurring
nucleosome positioning signals in human exons. Journal of Molecular
Biology 263:503-510.
Baldi, P., Chauvin, Y, Hunkapiller, T. and McClure, M. A. 1994. Hidden
Markov models of biological primary sequence information. Proceed-
ings of the National Academy of Sciences of the USA 91:1059-1063.
Bandelt, H.-J. and Dress, A. W. M. 1992. Split decomposition: a new and
useful approach to phylogenetic analysis of distance data. Molecular
Phylogenetics and Evolution 1:242-252.
Barton, G. J. 1993. An efficient algorithm to locate all locally optimal
alignments between two sequences allowing for gaps. Computer Ap-
plications in the Biosciences 9:729-734.
Barton, G. J. and Sternberg, M. J. E. 1987. A strategy for the rapid
multiple alignment of protein sequences. Journal of Molecular Biology
198:327-337.
Baserga, S. J. and Steitz, J. A. 1993. The diverse world of small ribonucle-
oproteins. In Gesteland, R. F. and Atkins, J. R, eds., The RNA World.
Cold Spring Harbor Press, pp. 359-381.
Bashford, D., Chothia, C. and Lesk, A. M. 1987. Determinants of a protein
fold: unique features of the globin amino acid sequence. Journal of
Molecular Biology 196:199-216.
Baum, L. E. 1972. An equality and associated maximization technique in
statistical estimation for probabilistic functions of Markov processes.
Inequalities 3:1-8.
444
Список ЛИТЕРАТУРЫ
Bengio, Y., De Mori, R., Flammia, G. and Kompe, R. 1992. Global op-
timization of a neural network-hidden Markov model hybrid. IEEE
Transactions on Neural Networks 3:252-259.
Berger, J. 0. 1985. Statistical Decision Theory and Bayesian Analysis.
Springer-Verlag.
Berger, M. P. and Munson, P. J. 1991. A novel randomized iterative strat-
egy for aligning multiple protein sequences. Computer Applications in
the Biosciences 7:479-484.
Binder, K. and Heerman, D. W. 1988. Monte Carlo Simulation in Statisti-
cal Mechanics. Springer-Verlag.
Bird, A. 1987. CpG islands as gene markers in the vertebrate nucleus.
Trends in Genetics 3:342-347.
Birney, E. and Durbin, R. 1997. Dynamite: a flexible code generating lan-
guage for dynamic programming methods used in sequence compari-
son. In Gaasterland, T., Karp, P., Karplus, K., Ouzounis, C., Sander,
C. and Valencia, A., eds., Proceedings of the Fifth International Con-
ference on Intelligent Systems for Molecular Biology, 56-64. AAAI
Press.
Bishop, M. J. and Thompson, E. A. 1986. Maximum likelihood alignment
of DNA sequences. Journal of Molecular Biology 190:159-165.
Borodovsky, M. and Mclninch, J. 1993. GENMARK: parallel gene recog-
nition for both DNA strands. Computers and Chemistry 17:123-133.
Borodovsky, M. Y., Sprizhitsky, Y. A., Golovanov, E. I. and Alexandrov, A.
A. 1986a. Statistical patterns in the primary structure of the functional
regions of the Escherichia coli genome. I. Frequency characteristics.
Molecularnaya Biologia 20:826-833. (English translation).
Borodovsky, M. Y, Sprizhitsky, Y. A., Golovanov, E. I. and Alexandrov, A.
A. 1986b. Statistical patterns in the primary structure of the func-
tional regions of the Escherichia Coli genome. II. Nonuniform Markov
models. Molecularnaya Biologia 20:833-840. (English translation).
Borodovsky, M. Y, Sprizhitsky, Y. A., Golovanov, E. I. and Alexandrov, A.
A. 1986c. Statistical patterns in the primary structure of the functional
regions of the Escherichia Coli genome. III. Computer recognition
Список ЛИТЕРАТУРЫ
445
of coding regions. Molecularnaya Biologia 20:1144-1150. (English
translation).
Bowie, J. U., Luthy, R. and Eisenberg, D. 1991. A method to identify
protein sequences that fold into a known three-dimensional structure.
Science 253:164-170.
Box, G. E. P. and Tiao, G. C. 1992. Bayesian Inference in Statistical
Analysis. Wiley-Interscience.
Branden, C. and Tooze, J. 1991. Introduction to Protein Structure. Gar-
land.
Brendel, V, Beckmann, J. S. and Trifonov, E. N. 1986. Linguistics ofnu-
cleotide sequences: morphology and comparison of vocabularies. Jour-
nal of Biomolecular Structure and Dynamics 4:11-20.
Brooks, D. R. and McLennan, D. A. 1991. Phytogeny, Ecology and Be-
haviour. University of Chicago Press.
Brown, M. and Wilson, C. 1995. RNA pseudoknot modeling using intersec-
tions of stochastic context-free grammars with applications to database
search. Unpublished manuscript available from
http://www.cse.ucsc.edu/research/compbio/pseudoknot.html.
Brown, M., Hughey, R., Krogh, A., Mian, I. S., Sjdlander, K. and Haussler,
D. 1993. Using Dirichlet mixture priors to derive hidden Markov mod-
els for protein families. In Hunter, L., Searis, D. B. and Shavlik, J.,
eds., Proceedings of the First International Conference on Intelligent
Systems for Molecular Biology, 47-55. AAAI Press.
Brunak, S., Engelbrecht, J. and Knudsen, S. 1991. Prediction of human
mRNA donor and acceptor sites from the DNA sequence. Journal of
Molecular Biology 220:49-65.
Bucher, P. and Hofmann, K. 1996. A sequence similarity search algorithm
based on a probabilistic interpretation of an alignment scoring system.
In States, D. J., Agarwal, P., Gaasterland, T., Hunter, L. and Smith,
R. R, eds., Proceedings of the Fourth International Conference on
Intelligent Systems for Molecular Biology, 44-51. AAAI Press.
Bucher, P., Karplus, K., Moeri, N. and Hofmann, K. 1996. A flexible
motif search technique based on generalized profiles. Computers and
Chemistry 20:3-24.
446
Список ЛИТЕРАТУРЫ
Buneman, Р. 1971. The recovery of trees from measures of dissimilarity. In
Hodson, F. R., Kendall, D. G. and Tautu, P., eds., Mathematics in the
Archaeological and Historical Sciences. Edinburgh University Press,
pp. 387-395.
Burge, C. and Karlin, S. 1997. Prediction of complete gene structures in
human genomic DNA. Journal of Molecular Biology 268:78-94.
Camin, J. H. and Sokal, R. R. 1965. A method for deducing branching
sequences in phylogeny. Evolution 19:311-327.
Cardon, L. R. and Stormo, G. D. 1992. Expectation maximization algo-
rithm for identifying protein-binding sites with variable lengths from
unaligned DNA fragments. Journal of Molecular Biology 223:159-
170.
Carrillo, H. and Lipman, D. 1988. The multiple sequence alignment prob-
lem in biology. SIAM Journal of Applied Mathematics 48:1073-1082.
Cary, R. B. and Stormo, G. D. 1995. Graph-theoretic approach to RNA
modeling using comparative data. In Rawlings, C., Clark, D., Altman,
R., Hunter, L., Lengauer, T. and Wodak, S., eds., Proceedings of the
Third International Conference on Intelligent Systems for Molecular
Biology, 75-80. AAAI Press.
Casella, G. and Berger, R. L. 1990. Statistical Inference. Duxbury Press.
Cavender, J. A. 1978. Taxonomy with confidence. Mathematical Bio-
sciences 40:271-280.
Cech, T. R. and Bass, B. L. 1986. Biological catalysis by RNA. Annual
Review of Biochemistry 55:599-629.
Chan, S. C., Wong, А. К. C. and Chiu, D. K. Y. 1992. A survey of multi-
ple sequence comparison methods. Bulletin of Mathematical Biology
54:563-598.
Chang, W. I. and Lawler, E. L. 1990. Approximate string matching in
sublinear expected time. In Proceedings of the 31st Annual IEEE
Symposium on Foundations Computer Science, 116-124. IEEE.
Chao, К. M., Hardison, R. C. and Miller, W. 1994. Recent developments in
linear-space alignment methods: a survey. Journal of Computational
Biology 1:271-291.
Список ЛИТЕРАТУРЫ
447
Chao, К. М., Pearson, W. R. and Miller, W. 1992. Aligning two sequences
within a specified diagonal band. Computer Applications in the Bio-
sciences 8:481-487.
Chiu, D. K. Y. and Kolodziejczak, T. 1991. Inferring consensus structure
from nucleic acid sequences. Computer Applications in the Biosciences
7:347-352.
Chomsky, N. 1956. Three models for the description of language. IRE
Transactions Information Theory 2:113-124.
Chomsky, N. 1959. On certain formal properties of grammars. Information
and Control 2:137-167.
Chothia, C. and Lesk, A. M. 1986. The relation between the divergence of
sequence and structure in proteins. EMBO Journal 5:823-826.
Churchill, G. A. 1989. Stochastic models for heterogeneous DNA se-
quences. Bulletin of Mathematical Biology 51:79-94.
Churchill, G. A. 1992. Hidden markov chains and the analysis ofgenome
structure. Computers and Chemistry 16:107-115.
Claverie, J.-M. 1994. Some useful statistical properties of position-weight
matrices. Computers and Chemistry 18:287-294.
Collado-Vides, J. 1989. A transformational-grammar approach to the study
of the regulation of gene expression. Journal of Theoretical Biology
136:403-425.
Collado-Vides, J. 1991. A syntactic representation of units of genetic in-
formation — a syntax of units of genetic information. Journal of
Theoretical Biology 148:401-429.
Corpet, F. and Michot, B. 1994. RNAlign program: alignment ofRNA
sequences using both primary and secondary structures. Computer
Applications in the Biosciences 10:389-399.
Cover, T. M. and Thomas, J. A. 1991. Elements of Information Theory.
John Wiley & Sons, Inc.
Cox, D. R. 1962. Further results on tests of separate families of hypotheses.
Journal of the Royal Statistical Society, В 24:406-424.
448
Список ЛИТЕРАТУРЫ
Сох, D. R. and Miller, Н. D. 1965. The Theory of Stochastic Processes.
Chapman & Hall.
Dandekar, T. and Hentze, M. W. 1995. Finding the hairpin in the haystack:
searching for RNA motifs. Trends in Genetics 11:45-50.
Dayhoff, M. O., Eck, R. V. and Park, С. M. 1972. In Dayhoff, M. O.,
ed., Atlas of Protein Sequence and Structure, volume 5. National
Biomedical Research Foundation, Washington D.C. pp. 89-99.
Dayhoff, M. O., Schwartz, R. M. and Orcutt, В. C. 1978. A model of
evolutionary change in proteins. In Dayhoff, M. O., ed., Atlas of
Protein Sequence and Structure, volume 5, supplement 3. National
Biomedical Research Foundation, Washington D.C. pp. 345-352.
Dembo, A. and Karlin, S. 1991. Strong limit theorems of empirical func-
tionals for large exceedances of partial sums of i.i.d. variables. Annals
of Probability 19:1737-1755.
Dempster, A. P., Laird, N. M. and Rubin, D. B. 1977. Maximum likelihood
from incomplete data via the EM algorithm. Journal of the Royal
Statistical Society В 39:1-38.
Dong, S. and Searls, D. B. 1994. Gene structure prediction by linguistic
methods. Genomics 23:540-551.
Doolittle, R.R., Feng, D.-R, Tsang, S., Cho, G. and Little, E. 1996. De-
termining divergence times of the major kingdoms of living organisms
with a protein clock. Science 271:470-477.
Eck, R. V. and Dayhoff, M. O. 1966. Atlas of Protein Sequence and
Structure. National Biomedical Research Foundation.
Eddy, S. R. 1995. Multiple alignment using hidden Markov models. In
Rawlings, C., Clark, D., Altman, R., Hunter, L., Lengauer, T. and
Wodak, S., eds., Proceedings of the Third International Conference
on Intelligent Systems for Molecular Biology, 114-120. AAAI Press.
Eddy, S. R. 1996. Hidden Markov models. Current Opinion in Structural
Biology 6:361-365.
Eddy, S. R. and Din-bin, R. 1994. RNA sequence analysis using covariance
models. Nucleic Acids Research 22:2079-2088.
Список ЛИТЕРАТУРЫ
449
Eddy, S. R., Mitchison, G. and Durbin, R. 1995. Maximum discrimination
hidden Markov models of sequence consensus. Journal of Computa-
tional Biology 2:9-23.
Edwards, A. W. F. 1970. Estimation of the branch points of a branching
diffusion process. Journal of the Royal Statistical Society, В 32:155-
174.
Edwards, A. W. F. 1992. Likelihood. Johns Hopkins University Press.
Edwards, A. W. F. 1996. The origin and early development of the method
of minimum evolution for the reconstruction of phylogenetic trees.
Systematic Biology 45:179-191.
Edwards, A. W. F. and Cavalli-Sforza, L. 1963. The reconstruction of
evolution. Annals of Human Genetics 27:105.
Edwards, A. W. F. and Cavalli-Sforza, L. 1964. Reconstruction of evolu-
tionary trees. In Heywood, V. H. and McNeill, J., eds., Phenetic and
Phylogenetic Classification. Systematics Association Publication No.
6. pp. 67-76.
Efron, B. and Tibshirani, R. J. 1993. An Introduction to the Bootstrap.
Chapman and Hall.
Efron, B., Halloran, E. and Holmes, S. 1996. Bootstrap confidence levels for
phylogenetic trees. Proceedings of the National Academy of Sciences
of the USA 93:13429-13434.
Feller, W. 1971. An Introduction to Probability Theory and its Applica-
tions, Vol II. John Wiley and Sons.
Felsenstein, J. 1973. Maximum-likelihood estimation of evolutionary trees
from continuous characters. American Journal of Human Genetics
25:471-492.
Felsenstein, J. 1978a. Cases in which parsimony or compatibility methods
will be positively misleading. Systematic Zoology 27:401-410.
Felsenstein, J. 1978b. The number of evolutionary trees. Systematic Zool-
ogy 27.27-33.
Felsenstein, J. 198 la. Evolutionary trees from DNA sequences: a maxi-
mum likelihood approach. Journal of Molecular Evolution 17:368-376.
450
Список ЛИТЕРАТУРЫ
Felsenstein, J. 198 lb. A likelihood approach to character weighting and
what it tells us about parsimony and compatibility. Biological Journal
of the Linnean Society 16:183-196.
Felsenstein, J. 1985. Confidence limits on phytogenies: an approach using
the bootstrap. Evolution 39:783-791.
Felsenstein, J. 1996. Inferring phylogenies from protein sequences by par-
simony, distance, and likelihood methods. Methods in Enzymology
266:418-427.
Felsenstein, J. and Churchill, G. A. 1996. A hidden Markov model approach
to variation among sites in rate of evolution. Molecular Biology and
Evolution 13:93-104.
Feng, D.-F. and Doolittle, R. F. 1987. Progressive sequence alignment
as a prerequisite to correct phylogenetic trees. Journal of Molecular
Evolution 25:351-360.
Feng, D.-F. and Doolittle, R. F. 1996. Progressive alignment of amino acid
sequences and construction of phylogenetic trees from them. Methods
in Enzymology 266:368-382.
Fichant, G. A. and Burks, C. 1991. Identifying potential tRNA genes in
genomic DNA sequences. Journal of Molecular Biology 220:659-671.
Fields, D. S. and Gutell, R. R. 1996. An analysis of large rRNA sequences
folded by a thermodynamic method. Folding and Design 1:419-430.
Fitch, W. M. 1971. Toward defining the course of evolution: minimum
change for a specifed tree topology. Systematic Zoology 20:406-416.
Fitch, W. M. and Margoliash, E. 1967a. Construction of phylogenetic trees.
Science 155:279-284.
Fitch, W. M. and Margoliash, E. 1967b. A method for estimating the
number of invariant amino acid coding positions in a gene using cy-
tochrome c as a model case. Biochemical Genetics 1:65-71.
Frasconi, P. and Bengio, Y. 1994. An EM approach to grammatical infer-
ence: input/output HMMs. In Proceedings of the 12th IAPR Interna-
tional Conference on Pattern Recognition, volume 2, 289-294. IEEE
Comput. Soc. Press.
Список ЛИТЕРАТУРЫ
451
Freier, S. М., Kierzek, R., Jaeger, J. A., Sugimoto, N., Caruthers, M. H.,
Neilson, T. and Turner, D. H. 1986. Improved free-energy parameters
for predictions of RNA duplex stability. Proceedings of the National
Academy of Sciences of the USA 83:9373-9377.
Fujiwara, Y., Asogawa, M. and Konagaya, A. 1994. Stochastic motif ex-
traction using hidden Markov model. In Altaian, R., Brutlag, D.,
Karp, P., Lathrop, R. and Searls, D., eds., Proceedings of the Sec-
ond International Conference on Intelligent Systems for Molecular
Biology, 121-129. AAAI Press.
Gautheret, D., Major, F. and Cedergren, R. 1990. Pattern search-
ing/alignment with RNA primary and secondary structures: an effec-
tive descriptor for tRNA. Computer Applications in the Biosciences
6:325-331.
Gerstein, M. and Levitt, M. 1996. Using iterative dynamic programming to
obtain accurate pairwise and multiple alignments of protein structures.
In States, D. J., Agarwal, P., Gaasterland, T., Hunter, L. and Smith,
R. R, eds., Proceedings of the Fourth International Conference on
Intelligent Systems for Molecular Biology, 59-67. AAAI Press.
Gerstein, M., Sonnhammer, E. L. L. and Chothia, C. 1994. Volume changes
in protein evolution. Journal of Molecular Biology 236:1067-1078.
Gersting, J. L. 1993. Mathematical Structures for Computer Science. W.
H. Freeman.
Gesteland, R. F. and Atkins, J. F, eds. 1993. The RNA World. Cold Spring
Harbor Laboratory Press.
Gilbert, W. 1986. The RNA world. Nature 319:618.
Gold, L., Polisky, B., Uhlenbeck, O. and Yarus, M. 1995. Diversity of
oligonucleotide functions. Annual Review of Biochemistry 64:763-
797.
Goldman, N. 1993. Statistical tests of models ofDNA substitution. Journal
of Molecular Evolution 36:182-198.
Goldman, N. and Yang, Z. 1994. A codon-based model of nucleotide sub-
stitution for protein-coding DNA sequences. Molecular Biology and
Evolution 11:725-735.
452
Список ЛИТЕРАТУРЫ
Gonnet, G. Н., Cohen, М. A. and Benner, S. A. 1992. Exhaustive matching
of the entire protein sequence database. Science 256:1443-1445.
Gotoh, O. 1982. An improved algorithm for matching biological sequences.
Journal of Molecular Biology 162:705-708.
Gotoh, O. 1993. Optimal alignment between groups of sequences and its
application to multiple sequence alignment. Computer Applications in
the Biosciences 9:361-370.
Gotoh, O. 1996. Significant improvement in accuracy of multiple protein
alignments by iterative refinement as assessed by reference to struc-
tural alignments. Journal of Molecular Biology 264:823-838.
Grate, L. 1995. Automatic RNA secondary structure determination with
stochastic context-free grammars. In Rawlings, C., Clark, D., Altaian,
R., Hunter, L., Lengauer, T. and Wodak, S., eds., Proceedings of the
Third International Conference on Intelligent Systems for Molecular
Biology, 136-144. AAAI Press.
Gribskov, M. and Veretnik, S. 1996. Identification of sequence patterns
with profile analysis. Methods in Enzymology 266:198-212.
Gribskov, M., Liithy, R. and Eisenberg, D. 1990. Profile analysis. Methods
in Enzymology 183:146-159.
Gribskov, M., McLachlan, A. D. and Eisenberg, D. 1987. Profile analysis:
detection of distantly related proteins. Proceedings of the National
Academy of Sciences of the USA 84:4355-4358.
Gultyaev, A. P. 1991. The computer simulation of RNA folding involving
pseudoknot formation. Nucleic Acids Research 19:2489-2494.
Gumbel, E. J. 1958. Statistics of Extremes. Columbia University Press.
Gupta, S. K., Kececioglu, J. D. and Schaffer, A. A. 1995. Improving the
practical space and time efficiency of the shortest-paths approach to
sum-of-pairs multiple sequence alignment. Journal of Computational
Biology 2:459-472.
Gutell, R. R. 1993. Collection of small subunit (16S and 16S-like) ribosomal
RNA structures. Nucleic Acids Research 21:3051-3054.
Gutell, R. R., Power, A., Hertz, G. Z., Putz, E. J. and Stormo, G. D.
Список ЛИТЕРАТУРЫ
453
1992. Identifying constraints on the higher-order structure of RNA:
continued development and application of comparative sequence analy-
sis methods. Nucleic Acids Research 20:5785-5795.
Hannenhalli, S., Chappey, C., Koonin, E. V. and Pevsner, P. A. 1995.
Genome sequence comparison and scenarios for gene rearrangements:
a test case. Genome 30:299-311.
Harpaz, Y. and Chothia, C. 1994. Many of the immunoglobulin superfamily
domains in cell adhesion molecules and surface receptors belong to a
new structural set which is close to that containing variable domains.
Journal of Molecular Biology 238:528-539.
Harrison, M. A. 1978. Introduction to Formal Language Theory. Addison-
Wesley.
Hasegawa, M., Kishino, H. and Yano, T. 1985. Dating the human-ape split-
ting by a molecular clock of mitochondrial DNA. Journal of Molecular
Evolution 22:160-174.
Haussler, D., Krogh, A., Mian, I. S. and Sjolander, K. 1993. Protein
modeling using hidden Markov models: analysis of globins. In Mudge,
T. N., Milutinovic, V. and Hunter, L., eds., Proceedings of the Twenty-
Sixth Annual Hawaii International Conference on System Sciences,
volume 1, 792-802. IEEE Computer Society Press.
Hebsgaard, S. M., Koming, P. G., Tolstrup, N., Engelbrecht, J., Rouze, P.
and Brunak, S. 1996. Splice site prediction in Arabidopsis thaliana pre-
mRNA by combining local and global sequence information. Nucleic
Acids Research 24:3439-3452.
Hein, J. 1989a. A new method that simultaneously aligns and reconstructs
ancestral sequences for any number of homologous sequences, when
the phylogeny is given. Molecular Biology and Evolution 6:649-668.
Hein, J. 1989b. A tree reconstruction method that is economical in the
number of pairwise comparisons used. Molecular Biology and Evolu-
tion 6:669-684.
Hein, J. 1993. A heuristic method to reconstruct the history of sequences
subject to recombination. Journal of Molecular Evolution 36:396-405.
Henderson, J., Salzberg, S. and Fasman, К. H. 1997. Finding genes in
454
Список ЛИТЕРАТУРЫ
DNA with a hidden Markov model. Journal of Computational Biology
4:127-141.
Hendy, M. D. and Penny, D. 1989. A framework for the quantitative study
of evolutionary trees. Systematic Zoology 38:297-309.
Henikoff, J. G. and Henikoff, S. 1996. Using substitution probabilities to
improve position-specific scoring matrices. Computer Applications in
the Biosciences 12:135-143.
Henikoff, S. and Henikoff, J. G. 1991. Automated assembly of protein
blocks for database searching. Nucleic Acids Research 19:6565-6572.
Henikoff, S. and Henikoff, J. G. 1992. Amino acid substitution matrices
from protein blocks. Proceedings of the National Academy of Sciences
of the USA 89:10915-10919.
Henikoff, S. and Henikoff, J. G. 1994. Position-based sequence weights.
Journal of Molecular Biology 243:574-578.
Hertz, G. Z., Hartzell III, G. W. and Stormo, G. D. 1990. Identification
of consensus patterns in unaligned DNA sequences known to be func-
tionally related. Computer Applications in the Biosciences 6:81-92.
Higgins, D. G. and Sharp, P. M. 1989. Fast and sensitive multiple se-
quence alignments on a microcomputer. Computer Applications in the
Biosciences 5:151-153.
Higgins, D. G., Bleasby, A. J. and Fuchs, R. 1992. CLUSTAL V: improved
software for multiple sequence alignment. Computer Applications in
the Biosciences 8:189-191.
Hillis, D. M. and Bull, J. J. 1993. An empirical test of bootstrapping as a
method for assessing confidence in phylogenetic analysis. Systematic
Biology 42:182-192.
Hillis, D. M., Bull, J. J., White, M. E., Badgett, M. R. and Molineux, I. J.
1992. Experimental phylogenetics: generation of a known phytogeny.
Science 255:589-592.
Hirosawa, M., Hoshida, M., Ishikawa, M. and Toya, T. 1993. MASCOT:
multiple alignment system for protein sequences based on three-way
dynamic programming. Computer Applications in the Biosciences
9:161-167.
Список ЛИТЕРАТУРЫ
455
Hirschberg, D. S. 1975. A linear space algorithm for computing maximal
common subsequences. Communications of the ACM 18:341-343.
Hogeweg, P. and Hesper, B. 1984. The alignment of sets of sequences and
the construction ofphyletic trees: an integrated method. Journal of
Molecular Evolution 20:175-186.
Holm, L. and Sander, C. 1993. Protein structure comparison by alignment
of distance matrices. Journal of Molecular Biology 233:123-138.
Hopcroft, J. E. and Ullman, J. D. 1979. Introduction to Automata Theory,
Languages, and Computation. Addison-Wesley.
Huang, X. and Zhang, J. 1996. Methods for comparing a DNA sequence
with a protein sequence. Computer Applications in the Biosciences
12:497-506.
Hudson, R. R. 1990. Gene genealogies and the coalescent process. In
Futuyma, D. and Antonovics, J., eds., Gene Genealogies and the Co-
alescent Process. Oxford University Press, pp. 1-14.
Huelsenbeck, J. P. and Rannala, B. 1997. Phylogenetic methods come of
age: testing hypotheses in an evolutionary context. Science 276:227-
232.
Hughey, R. and Krogh, A. 1996. Hidden Markov models for sequence
analysis: extension and analysis of the basic method. Computer Ap-
plications in the Biosciences 12:95-107.
Jacob, F. 1977. Evolution and tinkering. Science 196:1161-1166.
Jefferys, W. H. and Berger, J. O. 1992. Ockham’s razor and Bayesian
analysis. American Scientist 80:64—72.
Juang, В. H. and Rabiner, L. R. 1991. Hidden Markov models for speech
recognition. Technometrics 33:251-272.
Jukes, T. H. and Cantor, C. 1969. Evolution of protein molecules. In
Mammalian Protein Metabolism. Academic Press, pp. 21-132.
Karlin, S. and Altschul, S. F. 1990. Methods for assessing the statistical
significance of molecular sequence features by using general scoring
schemes. Proceedings of the National Academy of Sciences of the
USA 87:2264-2268.
456
Список ЛИТЕРАТУРЫ
Karlin, S. and Altschul, S. F. 1993. Applications and statistics for multiple
high-scoring segments in molecular sequences. Proceedings of the
National Academy of Sciences of the USA 90:5873-5877.
Karplus, K. 1995. Evaluating regularizers for estimating distributions
ofamino acids. In Rawlings, C., Clark, D., Altman, R., Hunter, L.,
Lengauer, T. and Wodak, S., eds., Proceedings of the Third Inter-
national Conference on Intelligent Systems for Molecular Biology,
188-196. AAAI Press.
Keeping, E. S. 1995. Introduction to Statistical Inference. Dover Publica-
tions.
Kirn, J. and Pramanik, S. 1994. An efficient method for multiple sequence
alignment. In Altman, R., Bmtlag, D., Karp, P., Lathrop, R. and
Searls, D., eds., Proceedings of the Second International Conference
on Intelligent Systems for Molecular Biology, 212-218. AAAI Press.
Kim, J., Pramanik, S. and Chung, M. J. 1994. Multiple sequence alignment
using simulated annealing. Computer Applications in the Biosciences
10:419-426.
Kimura, M. 1980. A simple method for estimating evolutionary rates of
base substitutions through comparative studies of necleotide sequences.
Journal of Molecular Evolution 16:111-120.
Kimura, M. 1983. The Neutral Theory of Molecular Evolution. Cambridge
University Press.
Kingman, J. F. C. 1982a. The coalescent. Stochastic Processes and their
Applications 13:235-248.
Kingman, J. F. C. 1982b. On the genealogy of large populations. Journal
of Applied Probability 19A:27-43.
Kirkpatrick, S., Gelatt, Jr., C. D. and Vecchi, M. P. 1983. Optimization by
simulated annealing. Science 220:671-680.
Kishino, H., Miyata, T. and Hasegawa, M. 1990. Maximum likelihood
inference of protein phylogeny and the origin of chloroplasts. Journal
of Molecular Evolution 31:151-160.
Konings, D. A. M. and Gutell, R. R. 1995. A comparison of thermodynamic
Список ЛИТЕРАТУРЫ
457
foldings with comparatively derived structures of 16S and 16S-like
rRNAs. RNA 1:559-574.
Konings, D. A. M. and Hogeweg, P. 1989. Pattern analysis of RNA sec-
ondary structure: similarity and consensus of minimal-energy folding.
Journal of Molecular Biology 207:597-614.
Krogh, A. 1994. Hidden Markov models for labeled sequences. In Proceed-
ings of the 12th I APR International Conference on Pattern Recogni-
tion, 140-144. IEEE Computer Society Press.
Krogh, A. 1997a. Gene finding: putting the parts together. In Bishop,
M., ed., Guide to Human Genome Computing. Academic Press, 2nd
edition. To appear.
Krogh, A. 1997b. Two methods for improving performance of a HMM
and their application for gene finding. In Gaasterland, T., Karp, P.,
Karplus, K., Ouzounis, C., Sander, C. and Valencia, A., eds., Proceed-
ings of the Fifth International Conference on Intelligent Systems for
Molecular Biology, 179-186. AAAI Press.
Krogh, A. 1998. An introduction to hidden Markov models for biological
sequences. In Salzberg, S., Searls, D. and Kasif, S., eds., Compu-
tational Biology: Pattern Analysis and Machine Learning Methods.
Elsevier. Chapter 4. In press.
Krogh, A. and Mitchison, G. 1995. Maximum entropy weighting of aligned
sequences of proteins or DNA. In Rawlings, C., Clark, D., Altman, R.,
Hunter, L., Lengauer, T. and Wodak, S., eds., Proceedings of the
Third International Conference on Intelligent Systems for Molecular
Biology, 215-221. AAAI Press.
Krogh, A., Mian, I. S. and Haussler, D. 1994. A hidden Markov model that
finds genes in E. coli DNA. Nucleic Acids Research 22:4768-4778.
Krogh, A., Brown, M., Mian, I. S., Sjolander, K. and Haussler, D. 1994.
Hidden Markov models in computational biology: applications to pro-
tein modeling. Journal of Molecular Biology 235:1501-1531.
Kuhner, M. K., Yamato, J. and Felsenstein, J. 1995. Estimating ef-
fective population size and mutation rate from sequence data using
Metropolis-Hastings sampling. Genetics 140:1421-1430.
Kulp, D., Haussler, D., Reese, M. G. and Eeckman, F. H. 1996. A gen-
458
Список ЛИТЕРАТУРЫ
eralized hidden Markov model for the recognition of human genes in
DNA. In States, D. J., Agarwal, P., Gaasterland, T., Hunter, L. and
Smith, R. F., eds., Proceedings of the Fourth International Confer-
ence on Intelligent Systems for Molecular Biology, 134-142. AAAI
Press.
Langley, С. H. and Fitch, W. M. 1974. An examination of the constancy
of the rate of molecular evolution. Journal of Molecular Evolution
3:161-177.
Lari, K. and Young, S. J. 1990. The estimation of stochastic context-free
grammars using the inside-outside algorithm. Computer Speech and
Language 4:35-56.
Lari, K. and Young, S. J. 1991. Applications of stochastic context-free
grammars using the inside-outside algorithm. Computer Speech and
Language Ь2Ъ7-2Ь7.
Larsen, N. and Zwieb, C. 1993. The signal recognition particle database
(SRPDB). Nucleic Acids Research 21:3019-3020.
Law, A. M. and Kelton, W. D. 1991. Simulation Modelling and Analysis.
McGraw-Hill.
Lawrence, С. E. and Reilly, A. A. 1990. An expectation maximization
(EM) algorithm for the identification and characterization of common
sites in unaligned biopolymer sequences. Proteins 7:41-51.
Lawrence, С. E., Altschul, S. F, Boguski, M. S., Liu, J. S., Neuwald, A. F.
and Wootton, J. C. 1993. Detecting subtle sequence signals: a Gibbs
sampling strategy for multiple alignment. Science 262:208-214.
Lefebvre, F. 1995. An optimized parsing algorithm well suited to RNA
folding. In Rawlings, C., Clark, D., Altman, R., Hunter, L., Lengauer,
T. and Wodak, S., eds., Proceedings of the Third International Confer-
ence on Intelligent Systems for Molecular Biology, 222-230. AAAI
Press.
Lefebvre, F. 1996. A grammar-based unification of several alignment and
folding algorithms. In States, D. J., Agarwal, P., Gaasterland, T.,
Hunter, L. and Smith, R. F., eds., Proceedings of the Fourth Inter-
national Conference on Intelligent Systems for Molecular Biology,
143-154. AAAI Press.
Список ЛИТЕРАТУРЫ
459
Lindenmayer, А. 1968. Mathematical models for cellular interactions in
development I. filaments with one-sided inputs. Journal of Theoretical
Biology 18:280-299.
Lipman, D. J., Altschul, S. F. and Kececioglu, J. D. 1989. A tool for
multiple sequence alignment. Proceedings of the National Academy
of Sciences of the USA 86:4412-4415.
Lisacek, F, Diaz, Y. and Michel, F. 1994. Automatic identification of group
I intron cores in genomic DNA sequences. Journal of Molecular
Biology 235:1206-1217.
Lowe, T. M. and Eddy, S. R. 1997. tRNAscan-SE: a program for improved
detection of transfer RNA genes in genomic sequence. Nucleic Acids
Research 25:955-964.
Lukashin, A. V., Engelbrecht, J. and Brunak, S. 1992. Multiple alignment
using simulated annealing: branch point definition in human mRNA
splicing. Nucleic Acids Research 20:2511-2516.
Luthy, R., McLachlan, A. D. and Eisenberg, D. 1991. Secondary structure-
based profiles: use of structure-conserving scoring tables in search-
ing protein sequence databases for structural similarities. Proteins
10:229-239.
Luthy, R., Xenarios, I. and Bucher, P. 1994. Improving the sensitivity of
the sequence profile method. Protein Science 3:139-146.
MacKay, D. J. C. 1992. Bayesian interpolation. Neural Computation 4:415—
447.
MacKay, D. J. C. and Peto, L. 1995. A hierarchical Dirichlet language
model. Natural Language Engineering 1:1-19.
Margalit, H., Shapiro, B. A., Oppenheim, A. B. and Maizel, J. V. 1989.
Detection of common motifs in RNA secondary structures. Nucleic
Acids Research 17:4829-4845.
Mathews, J. and Walker, R. L. 1970. Mathematical Methods of Physics.
W. A. Benjamin.
Mau, B., Newton, M. A. and Larget, B. 1996. Bayesian phylogenetic
inference via Markov chain Monte Carlo methods. Technical Report
961, Statistics Department, University of Wisconsin-Madison.
460
Список ЛИТЕРАТУРЫ
Maxwell, Е. S. and Fournier, М. J. 1995. The small nucleolar RNAs.
Annual Review of Biochemistry 64:897-934.
McCaskill, J. S. 1990. The equilibrium partition function and base
pair binding probabilities for RNA secondary structure. Biopolymers
29:1105-1119.
McClure, M. A., Vasi, T. K. and Fitch, W. M. 1994. Comparative analysis
of multiple protein-sequence alignment methods. Journal of Molecular
Evolution 11:571-592.
McKeown, M. 1992. Alternative mRNA splicing. Annual Review of Cell
Biology 8:133-155.
Melefors, O. and Hentze, M. W. 1993. Translational regulation by
mRNA/protein interactions in eukaryotic cells: ferritin and beyond.
BioEssays 15:85-90.
Meng, X.-L. and Rubin, D. B. 1992. Recent extensions to the EM algo-
rithm. Bayesian Statistics 4:307-320.
Mevissen, H. T. and Vingron, M. 1996. Quantifying the local reliability of
a sequence alignment. Protein Engineering 9:127-132.
Miller, W. and Myers, E. W. 1988. Sequence comparison with concave
weighting functions. Bulletin of Mathematical Biology 50:97-120.
Mitchison, G. 1998. Probabilistic modelling ofphylogeny and alignment.
Molecular Biology and Evolution submitted.
Mitchison, G. and Durbin, R. 1995. Tree-based maximal likelihood sub-
stitution matrices and hidden Markov models. Journal of Molecular
Evolution 41:1139-1151.
Miyazawa, S. 1994. A reliable sequence alignment method based on prob-
abilities of residue correspondence. Protein Engineering 8:999-1009.
Mott, R. 1992. Maximum likelihood estimation of the statistical distribu-
tion of Smith-Waterman local sequence similarity scores. Bulletin of
Mathematical Biology 54:59-75.
Myers, E. W. 1994. A sublinear algorithm for approximate keyword search-
ing. Algorithmica 12:345-374.
Список ЛИТЕРАТУРЫ
461
Myers, Е. W. and Miller, W. 1988. Optimal alignments in linear space.
Computer Applications in the Biosciences 4:11-17.
Myers, G. 1995. Approximately matching context-free languages. Infor-
mation Processing Letters 54:85-92.
Neal, R. M. 1996. Bayesian Learning in Neural Networks. Springer
(Lecture Notes in Statistics).
Neal, R. M. and Hinton, G. E. 1993. A new view of the EM algorithm that
justifies incremental and other variants. Preprint, Dept, of Computer
Science, Univ, of Toronto, available from
ftp://archive.cis.ohio-state.edU/pub/neuroprose/neal.em.ps.Z.
Needleman, S. B. and Wunsch, C. D. 1970. A general method applicable to
the search for similarities in the amino acid sequence of two proteins.
Journal of Molecular Biology 48:443-453.
Noller, H. F., Hoffarth, V. and Zimniak, L. 1992. Unusual resistance ofpep-
tidyl transferase to protein extraction procedures. Science 256:1416-
1419.
Normandin, Y. and Morgera, S. D. 1991. An improved MMIE training al-
gorithm for speaker-independent, small vocabulary, continuous speech
recognition. In Proceedings of ICASSP ’91, 537-540.
Nussinov, R., Pieczenik, G., Griggs, J. R. and Kleitman, D. J. 1978. Al-
gorithms for loop matchings. SIAM Journal of Applied Mathematics
35:68-82.
Pavesi, A., Conterlo, P., Bolchi, A., Dieci, G. and Ottonello, S. 1994. Iden-
tification of new eukaryotic tRNA genes in genomic DNA databases by
a multistep weight matrix analysis of transcriptional control regions.
Nucleic Acids Research 22:1247-1256.
Pearson, W. R. 1995. Comparison of methods for searching protein se-
quence databases. Protein Science 4:1145-1160.
Pearson, W. R. 1996. Effective protein sequence comparison. Methods in
Enzymology 266:227-258.
Pearson, W. R. and Lipman, D. J. 1988. Improved tools for biological se-
quence comparison. Proceedings of the National Academy of Sciences
of the USA 4:2444-2448.
462
Список ЛИТЕРАТУРЫ
Pearson, W. R. and Miller, W. 1992. Dynamic programming algorithms
for biological sequence comparison. Methods in Enzymology 210:575-
601.
Pedersen, A. G., Baldi, P., Brunak, S. and Chauvin, Y. 1996. Character-
ization of prokaryotic and eukaryotic promoters using hidden Markov
models. In States, D. J., Agarwal, P., Gaasterland, T., Hunter, L. and
Smith, R. R, eds., Proceedings of the Fourth International Conference
on Intelligent Systems for Molecular Biology, 182-191. AAAI Press.
Peltz, S. W. and Jacobson, A. 1992. mRNA stability: in trans-it. Current
Opinion in Cell Biology 4:979-983.
Pesole, G., Attimonelli, M. and Saccone, C. 1994. Linguistic approaches
to the analysis of sequence information. Trends in Biotechnology
12:401-408.
Pietrokovski, S., Hirshon, J. and Trifonov, E. N. 1990. Linguistic mea-
sure of taxonomic and functional relatedness of nucleotide sequences.
Journal of Biomolecular Structure and Dynamics 7:1251-1268.
Preparata, F. P. and Shamos, M. I. 1985. Computational Geometry.
Springer-Verlag.
Press, W. H., Teukolsky, S. A., Vetterling, W. T. and Flannery, В. P. 1992.
Numerical Recipes in C. Cambridge University Press.
Rabiner, L. R. 1989. A tutorial on hidden Markov models and selected
applications in speech recognition. Proceedings of the IEEE 1Т.2Ы-
286.
Rabiner, L. R. and Juang, В. H. 1986. An introduction to hidden Markov
models. IEEE ASSP Magazine 3:4-16.
Rabiner, L. R. and Juang, В. H. 1993. Fundamentals of Speech Recogni-
tion. Prentice-Hall.
Rannala, B. and Yang, Z. 1996. Probability distribution of molecular evo-
lutionary trees: a new method of phylogenetic inference. Journal of
Molecular Evolution 43:304-311.
Reese, M. G., Eeckman, F. H., Kulp, D. and Haussler, D. 1997. Im-
proved splice site detection in Genie. Journal of Computational Biol-
ogy 4:311-323.
Список ЛИТЕРАТУРЫ
463
Renals, S., Morgan, N., Bourlard, H., Cohen, M. and Franco, H. 1994.
Connectionist probability estimators in hmm speech recognition. IEEE
Transactions on Speech and Audio Processing 2:161-174.
Riis, S. K. and Krogh, A. 1997. Hidden neural networks: a framework for
HMM/NN hybrids. In Proceedings ofICASSP ’97, 3233-3236. IEEE.
Ripley, B. D. 1996. Pattern Recognition and Neural Networks. Cambridge
University Press.
Rosenblueth, D. A., Thieffry, D., Huerta, A. M., Salgado, H. and Collado-
Vides, J. 1996. Syntactic recognition of regulatory regions in Es-
cherichia coli. Computer Applications in the Biosciences 12:415-422.
Russell, R. B. and Barton, G. J. 1992. Multiple protein sequence alignment
from tertiary structure comparison: assignment of global and residue
confidence levels. Proteins 14:309-323.
Saitou, N. 1996. Reconstruction of gene trees from sequence data. Methods
in Enzymology 266:427-448.
Saitou, N. and Nei, M. 1987. The neighbor-joining method: a new method
for reconstructing phylogenetic trees. Molecular Biology and Evolu-
tion 4:406-425.
Sakakibara, Y., Brown, M., Hughey, R., Mian, I. S., Sjolander, K., Under-
wood, R. C. and Haussler, D. 1994. Stochastic context-free grammars
for tRNA modeling. Nucleic Acids Research 22:5112-5120.
Sankoff, D. 1975. Minimal mutation trees of sequences. SIAM Journal of
Applied Mathematics 28:35-42.
Sankoff, D. and Cedergren, R. J. 1983. Simultaneous comparison of three
or more sequences related by a tree. In Sankoff, D. and Kruskal, J.
B., eds., Time Warps, String Edits, and Macromolecules: the Theory
and Practice of Sequence Comparison. Addison-Wesley. Chapter 9,
pp. 253-264.
Sankoff, D. and Kruskal, J. B. 1983. Time Warps, String Edits, and
Macromolecules: The Theory and Practice of Sequence Comparison.
Addison-Wesley.
Sankoff, D., Morel, C. and Cedergren, R. J. 1973. Evolution of 5S RNA
464
Список ЛИТЕРАТУРЫ
and the nonrandomness of base replacement. Nature New Biology
245:232-234.
Schneider, T. D. and Stephens, R. M. 1990. Sequence logos: a new way to
display consensus sequences. Nucleic Acids Research 18:6097-6100.
Schuster, R 1995. How to search for RNA structures. Theoretical concepts
in evolutionary biotechnology. Journal of Biotechnology 41:239-257.
Schuster, R, Fontana, W., Stadler, R F. and Hofacker, I. L. 1994. From
sequences to shapes and back: a case study in RNA secondary struc-
tures. Proceedings of the Royal Society: Biological Sciences, Series
В 255:279-284.
Schwartz, R. and Chow, Y.-L. 1990. The N-best algorithm: an efficient
and exact procedure for finding the n most likely hypotheses. In
Proceedings of ICASSP’90, 81-84.
Searls, D. B. 1992. The linguistics of DNA. American Scientist 80:579-591.
Searls, D. B. and Murphy, K. R 1995. Automata-theoretic models of mu-
tation and alignment. In Rawlings, C., Clark, D., Altman, R., Hunter,
L., Lengauer, T. and Wodak, S., eds., Proceedings of the Third In-
ternational Conference on Intelligent Systems for Molecular Biology,
341-349. AAAI Press.
Shapiro, B. A. and Wu, J. C. 1996. An annealing mutation operator in
the genetic algorithms for RNA folding. Computer Applications in the
Biosciences 12:171-180.
Shapiro, B. A. and Zhang, K. 1990. Comparing multiple RNA secondary
structures using tree comparisons. Computer Applications in the Bio-
sciences 6:309-318.
Shimamura, M., Yasue, H., Ohshima, K., Abe, H., Kato, H., Kishiro, T,
Goto, M., Munechika, I. and Okada, N. 1997. Molecular evidence
from retroposons that whales form a clade within even-toed ungulates.
Nature 388:666-670.
Shpaer, E. G., Robinson, M., Yee, D., Candlin, J. D., Mines, R. and
Hunkapiller, T. 1996. Sensitivity and selectivity in protein similarity
searches: a comparison of Smith-Waterman in hardware to BLAST
and PASTA. Genomics 38:179-191.
Список ЛИТЕРАТУРЫ
465
Sibbald, Р. R. and Argos, Р. 1990. Weighting aligned protein or nucleic acid
sequences to correct for unequal representation. Journal of Molecular
Biology 216:813-818.
Sjolander, K., Karplus, K., Brown, M., Hughey, R., Krogh, A., Mian, I. S.
and Haussler, D. 1996. Dirichlet mixtures: a method for improved de-
tection of weak but significant protein sequence homology. Computer
Applications in the Biosciences 12:327-345.
Smith, T. F. and Waterman, M. S. 1981. Identification of common molecu-
lar subsequences. Journal of Molecular Biology 147:195-197.
Sokal, R. R. and Michener, C. D. 1958. A statistical method for evaluat-
ing systematic relationships. University of Kansas Scientific Bulletin
28:1409-1438.
Sonnhammer, E. L. L., Eddy, S. R. and Durbin, R. 1997. Pfam: a compre-
hensive database of protein domain families based on seed alignments.
Proteins 28:405-420.
Staden, R. 1988. Methods to define and locate patterns of motifs in se-
quences. Computer Applications in the Biosciences 4:53-60.
Steinberg, S., Misch, A. and Sprinzl, M. 1993. Compilation oftRNA
sequences and sequences of tRNA genes. Nucleic Acids Research
21:3011-3015.
Stolcke, A. and Omohundro, S. M. 1993. Hidden Markov model induction
by Bayesian model merging. In Hanson, S. J., Cowan, J. D. and Giles,
C. L., eds., Advances in Neural Information Processing Systems 5,
volume 5, 11-18. Morgan Kaufmann Publishers, Inc.
Stormo, G. D. 1990. Consensus patterns in DNA. Methods in Enzymology
183:211-221.
Stormo, G. D. and Hartzell III, G. W. 1989. Identifying protein-binding
sites from unaligned DNA fragments. Proceedings of the National
Academy of Sciences of the USA 86:1183-1187.
Stormo, G. D. and Haussler, D. 1996. Optimally parsing a sequence into
different classes based on multiple types of evidence. In States, D. J.,
Agarwal, P., Proceedings of the Fourth International Conference on
Intelligent Systems for Molecular Biology, AAAI Press.
466
Список ЛИТЕРАТУРЫ
Studier, J. A. and Keppler, К. J. 1988. A note on the neighbour-joining
algorithm of Saitou and Nei. Molecular Biology and Evolution 5:729-
731.
Swofford, D. L. and Olsen, G. J. 1996. Phylogeny reconstruction. In
Hillis, D. M. and Moritz, C., eds., Molecular Systematics. Sinauer
Associates, pp. 407-511.
Tatusov, R. L., Altschul, S. F. and Koonin, E. V. 1994. Detection of con-
served segments in proteins: iterative scanning of sequence databases
with alignment blocks. Proceedings of the National Academy of Sci-
ences of the USA 91:12091-12095.
Taylor, W. R. 1987. Multiple sequence alignment by a pairwise algorithm.
Computer Applications in the Biosciences 3:81-87.
Thompson, E. A. 1975. Human Evolutionary Trees. Cambridge University
Press.
Thompson, J. D., Higgins, D. G. and Gibson, T. J. 1994a. CLUSTAL W:
improving the sensitivity of progressive multiple sequence alignment
through sequence weighting, position specific gap penalties and weight
matrix choice. Nucleic Acids Research 22:4673-4680.
Thompson, J. D., Higgins, D. G. and Gibson, T. J. 1994b. Improved
sensitivity of profile searches through the use of sequence weights and
gap excision. Computer Applications in the Biosciences 10:19-29.
Thorne, J. L., Kishino, H. and Felsenstein, J. 1992. Inching toward real-
ity: an improved likelihood model of sequence evolution. Methods in
Enzymology 34:3-16.
Tolstrup, N., Rouze, P. and Brunak, S. 1997. A branch point consen-
sus from Arabidopsis found by non-circular analysis allows for better
prediction of acceptor sites. Nucleic Acids Research 25:3159-3164.
Tuerk, C., MacDougal, S. and Gold, L. 1992. RNA pesudoknots that inhibit
human immunodeficiency vims type 1 reverse transcriptase. Proceed-
ings of the National Academy of Sciences of the USA 89:6988-6992.
Turner, D. H., Sugimoto, N., Jaeger, J. A., Longfellow, С. E., Freier,
S. M. and Kierzek, R. 1987. Improved parameters for prediction of
RNA structure. Cold Spring Harbor Symposia Quantitative Biology
52:123-133.
Список ЛИТЕРАТУРЫ
467
van Batenburg, F. H. D., Gultyaev, A. P. and Pleij, C. W. A. 1995. An
APL-programmed genetic algorithm for the prediction of RNA sec-
ondary structure. Journal of Theoretical Biology 174:269-280.
Vingron, M. 1996. Near-optimal sequence alignment. Current Opinion in
Structural Biology 6:346-352.
Vingron, M. and Waterman, M. S. 1994. Sequence alignment and penalty
choice: review of concepts, case studies and implications. Journal of
Molecular Biology 235:1-12.
Waterman, M. S. 1995. Introduction to Computational Biology. Chapman
& Hall.
Waterman, M. S. and Eggert, M. 1987. A new algorithm for best subse-
quence alignments with application to tRNA-rRNA comparisons. Jour-
nal of Molecular Biology 197:723-725.
Waterman, M. S. and Perlwitz, M. D. 1984. Line geometries for sequence
comparisons. Bulletin of Mathematical Biology 46:567-577.
Watson, J. D., Hopkins, N. H., Roberts, J. W., Steitz, J. A. and Weiner,
A. M. 1987. Molecular Biology of the Gene. Benjamin/Cummings.
Wilmanns, M. and Eisenberg, D. 1993. Three-dimensional profiles from
residue-pair preferences: identification of sequences with beta/alpha-
barrel fold. Proceedings of the National Academy of Sciences of the
USA 90:1379-1383.
Withered, G. W, Gott, J. M. and Uhlenbeck, 0. C. 1991. Specific interac-
tion between RNA phage coat proteins and RNA. Progress in Nucleic
Acid Research and Molecular Biology 40:185-220.
Woese, C. R. and Pace, N. R. 1993. Probing RNA structure, function, and
history by comparative analysis. In Gesteland, R. F. and Atkins, J.
R, eds., The RNA World. Cold Spring Harbor Laboratory Press, pp.
91-117.
Wray, G. A., Levinto, J. S. and Shapiro, L. H. 1996. Molecular evidence
for deep precambrian divergences among metazoan phyla. Science
274:568-573.
Wu, S. and Manber, U. 1992. Fast text searching allowing errors. Com-
munications of theACM 35:83-90.
468
Список ЛИТЕРАТУРЫ
Yada, Т. and Hirosawa, М. 1996. Detection of short protein coding regions
within the Cyanobacterium genome: application of the hidden Markov
model. DNA Research 3:355-361.
Yada, T., Sazuka, T. and Hirosawa, M. 1997. Analysis of sequence patterns
surrounding the translation initiation sites on Cyanobacterium genome
using the hidden Markov model. DNA Research 4:1-7.
Yang, Z. 1993. Maximum-likelihood estimation of phylogeny from DNA
sequences when substitution rates differ over sites. Molecular Biology
and Evolution 10:1396-1401.
Yang, Z. 1994. Maximum likelihood phylogenetic estimation from DNA se-
quences with variable rates over sites: approximate methods. Journal
of Molecular Evolution 39:306-314.
Zuckerkandl, E. and Pauling, L. 1962. Molecular disease, evolution and
genetic heterogeneity. In Marsha, M. and Pullman, B., eds., Horizons
in Biochemistry. Academic Press, pp. 189-225.
Zuker, M. 1989a. Computer prediction of RNA structure. Methods in
Enzymology 180:262-288.
Zuker, M. 1989b. On finding all suboptimal foldings of an RNA molecule.
Science 244:48-52.
Zuker, M. 1991. Suboptimal sequence alignment in molecular biology:
alignment with error analysis. Journal of Molecular Biology 221:403-
420.
Zuker, M. and Stiegler, P. 1981. Optimal computer folding of large RNA
sequences using thermodynamics and auxiliary information. Nucleic
Acids Research 9:133-148.
Предметный указатель
BLAST 58, 321
CLUSTALW 204
CML см. Условная функция макси-
мального правдоподобия
CpG островки 78, 82-85, 88-91, 95,
96, 102
EVD-распределение см. Распреде-
ление экстремальных значений
FASTA 59
FMR-1 ген человека 318
FSA см. Конечные автоматы
НММ см. также Скрытые марков-
ские модели
— для дерева 291-295
ktup, в FASTA 59
МАР см. Максимальный апостери-
орный
MMI см. Максимизация взаимной
информации
NP-полные задачи 332
РМЕ см. Оценка апостериорного
среднего
PSSM см. Позиционная матрица
весов
RNP-1 321
SCFG см. Вероятностные
контекстно-свободные грамма-
тики
Z-скор 160
Автомат с линейно ограниченной
памятью 317, 332
— с магазинной памятью 317, 327-
330
Автоматы 315
— конечные см. Конечные автома-
ты
— с линейно ограниченной памя-
тью 317, 332
— с магазинной памятью 317, 327-
330
Аддитивная длина 232, 257
— восстановленная по методу бли-
жайшего соседа 234, 258
Акцепторные сайты 415
Алгоритм CYK 343-345
---- для ковариантных моделей
387-394
- UPGMA 228-232
— Баума-Уэлча 99-102, 212, 438
— Витерби 88-91
----для парных НММ 123-127
----для профильных НММ 157
470
Предметный указатель
— Санкоффа-Седергрена 245
---- вероятностная интерпретация
309
— Смита-Уотермана 42-45, см.
также «Локальное выравнива-
ние
— Уотермана-Эггерта 45, 135
— Цукера 365-369
— множественного выравнивания
по методу Бертона-Стернберга
206
— просмотра назад 92
----для парных НММ 138
Алгоритм ЕМ см. Максимизация
ожидаемого
Алгоритм Маерса-Миллера 61
Алгоритм Метрополиса 278, 428
— предполагаемое распределение
для деревьев 279
Алгоритм Нидлмана-Вунша 38-41
Алгоритм Нуссинов 359-363
Алгоритм Фельзенштейна вычис-
ления правдоподобия 270
Алгоритм просмотра вперед 91, 109
— для парных НММ 130
— для профильных НММ 158
Апостериорная вероятность 22
---- выравниваний 131
Апостериорное дешифрование 93
Апостериорные вероятности состо-
яний 92
Априорная вероятность Дирихле
см. Априорное распределение
Дирихле
----выбор априорного распределе-
ния 435
---- определение 23
---- равномерное априорное рас-
пределение вероятностей 24
Априорное распределение Дирихле
99, 166, 194, 430, 432
— выбор априорного распределе-
ния 435
— смеси Дирихле 166, 433
Аффинные делеции 34, 127, 151,
367
— алгоритм Хейна 246-256
— динамическое программирова-
ние с 52-55
— оценка параметров 73
Байесовская статистика 26, 419
Байесовское сравнение моделей 22,
62
Белок оболочки фага R17, сайт
связывания РНК 352
Бета распределение 406
Библиотека PFAM 187
— регулярных выражений
PROSITE 187, 321-322
Бинарное дерево 222
Биномиальное распределение 402
----отрицательное биномиальное
107
Бит 35, 84, 411
«Близкие» слова, в пакете BLAST
58
ВКСГ версия 363-365
Вероятности переходов 79
Вероятностная регулярная грамма-
тика 334
— эквивалентная скрытым цепям
Маркова 336
Вероятностные контекстно-зави-
симые грамматики 336
Предметный указатель
471
Вероятностные контекстно-сво-
бодные грамматики 337-345
— алгоритм CYK 343-345
— внешний алгоритм 341
— внутренний алгоритм 338-340
— для алгоритма Нуссинов 285-
288
— максимизация ожидания 341—
343
— нормальные формы 338, 345
Вероятностные модели 19
Вероятностные неограниченные
грамматики 336
Веса коров и кошек 179
— последовательностей взвешива-
ние с помощью многогранников
Вороного 181
---- корневые веса по гаусовским
параметрам 178
----наибольшая дискриминации
182
----наибольшая энтропия 183
----получаемые по дереву 177
— последовательности см. Веса по-
следовательностей
Веса последовательностей 176-185,
194
Весовая матрица см. Матрицы за-
мен
Взаимная информация 355, 413
Взвешивание с помощью много-
гранников Вороного 181
Внеклеточные белки 23
Внешний алгоритм 341, 383-384
Внешняя группа 235
Внутренний алгоритм 338-340,
381-383
Внутриклеточные белки 23
Вставки, в выравниваниях 30
Вторичная структура белка 120
Выборка 422-430
— Дирихле 424
— алгоритм Метрополиса 428
— выборки Гиббса 429
— выравнивания 132-135
— метода отказа 426
— методом отказа 426
— преобразованием равномерного
распределения 422
Выборки Гиббса 217, 429
Выравнивание для трансформаци-
онной грамматики 314
— множественное см. Множе-
ственное выравнивание
— парное см. Парное выравнива-
ние
— последовательности 16
— с линейной памятью 59-62
— с повторами 45-48
Вычислительная сложность см.
Вычислительная сложность ал-
горитма
Вычислительная сложность алго-
ритма 41-42
— «не решаемые эффективно» за-
дачи 332
Гамма-распределение 408
Гауссовское распределение 178,
403
Генератор псевдо-случайных чисел
422
Геометрическое распределение 35,
107
Глобальное выравнивание 38-41
Глобин 29, 146, 160, 189
472
Предметный указатель
Гомологичные белки 189
Гомология 16
Грамматики см. Трансформацион-
ные грамматики
Граф последовательностей 252
Делеции, в выравниваниях 30
Деревья см. Филогения
Детальное равновесие 428
Дешифрование 88
Джукс-Кантор модель 263
— расстояние 228, 308
Динамическое программирование
35-56, 88
--- многомерное 196
---обратный проход 40
Дискриминационная оценка 104
Длина ребра 222
Естественный отбор 15, 30, 181, 193
Замены, в выраниваниях 30
Игральные кости см. Казино
Иерархия Хомского 315
Иммуноглобулин 189
Информационное содержание 411
Искусственный отжиг 213, 220,
333
---применение для НММ 216
Истории популяций 284
Казино 22, 26, 87, 89, 93, 96, 101,
406
Кимура модель 264
— расстояние 308
Ковариантные модели алгоритм
«изнутри-наружу» 383-384
----алгоритм «снаружи-внутрь»
381-383
----алгоритм CYK 387-394
---- выравнивание структур 393-
394
---- двухпроходный алгоритм оп-
тимизации параметров 384-387
---- использование для сравни-
тельного анализа последова-
тельностей 394-397
----пакет программ COVE 397
----поиск в базах данных 387-
393
----построение 377-380
----разработка 376-377
Ковариантные модели 369-398
Конечное состояние 81, 122
Конечные автоматы 53, 121, 317—
321
----детерминированный 321
----машины Мили 55, 319
----машины Мура 55, 319
----недетерминированный 321
----сопоставление с парными
НММ 140-143
Контекстно-зависимые граммати-
ки вероятностные см. Вероят-
ностные контекстно-зависимые
грамматики
Контекстно-зависимые грамматики
315, 330-333
Контекстно-свободная граммати-
ка вероятностная см. Вероят-
ностные контекстно-свободные
грамматики
Контекстно-свободная грамматика
315, 323-330
Предметный указатель
Логарифм отношения правдоподо-
бия 33, 84
Логарифмическая трансформация
89, 117, 127
Логистическая функция 64
Локальное выравнивание 42-45
— для парных НММ 127
— для профильных НММ 162
Магазин 327
Максимальная бережливость 237-
245, 301-304
---взвешенная 237
Максимальная апостериорная
оценка параметров 24, 419
— построение модели 173, 218
Максимизация взаимной информа-
ции 104
Максимизация ожидаемого 120,
436-440
Масштабирование вероятностей
118
Матрица весов см. Позиционная
матрица весов
Матрицы замен 16, 31-33, 262-267
---BLOSUM 72-73, 195
---РАМ 71-72, 195
---РАМ матрицы 265
--- определение 33
---оценка параметров 69-75
--- смеси 167
--- энтропия 170
Матрицы BLOSUM 243, 285-289,
см. также Бутстрап матриц за-
мен
— метод ветвей и границ 240
— параметрический бутстрап 296
Машина Мили 55, 319
473
- Мур 55, 319
— Тьюринга 317, 333
Метод ближайшего соседа 232-
235, 307
Методы прогрессивного выравни-
вания 199
Множественное выравнивание 146,
188-220
----«направляющее дерево» 200
-- РНК 188, 189
---- алгоритм по методу Бертона-
Стернберга 206
---- вес 191
----искусственный отжиг 220
---- методами итеративного уточ-
нения 206
---- методы итеративного уточне-
ния 206
---- методы прогрессивного вы-
равнивания 199
----многомерное динамическое
программирование 196
----основанное на профилях 203
----программа CLUSTAL 204
----программа MSA 198
----прогрессивное выравнивание
Фенга-Дулиттла 202
----профильных НММ см. Про-
фильные НММ
----сумма пар: СП-веса 194, 195
----точность 220
----трехмерных структур 220
Моделирование продолжительно-
сти 105
Модель случайной последователь-
ности 20, 31, 125
«Молекулярные ископаемые» 348
Молекулярные часы 231
474
Предметный указатель
Молчащее состояние 81, 108
Мультиномиальное распределение
403
«Направляющее дерево» 200
Начальное состояние 81, 122
Нейронная сеть 120
Неограниченные (фразовой струк-
турой) грамматики 315
Неограниченные грамматики 315
— вероятностные см. Вероятност-
ные неограниченные граммати-
ки
Неоднородная цепь Маркова 115
Нетерминальные символы, для
трансформационных грамматик
314
Неукорененные деревья 222
Нормальная форма Хомского 338
Нуклеосомная структура 120
Нулевое состояние см. Молчащее
состояния
Обозначение О(/) 41-42
Обратимость 273, 306
Обратный проход 40
— ход 238
Обучающее множество 20
Обучение Витерби 101
Ортологи 222
Относительная энтропия 45, 413
Отношения правдоподобия 33, 84
Отрицательное биномиальное рас-
пределение 107
Оценка см. Оценка параметров
— апостериорного среднего 26, 420
---- вероятности по количеству
исходов 430
— наибольшего правдоподобия 20,
27, 194, 417
----в филогении 262, 277-289,
304-309
---- вероятности по количеству
исходов 430
----матрицы замен 71
— параметров 417-420
---- апостериорное среднее 26,
420
----байесовская 24, 419
---- вероятности по количеству
исходов 165-173, 430-435
----деревья разбора 326-327
----дискриминационная 104
----для профильных НММ 155—
156, 165-173
----для скрытых марковских мо-
делей 97-105
----для скрытых марковских мо-
делей, когда пути известны 97
----для скрытых марковских мо-
делей, когда пути не известны
99
----для скрытых марковских мо-
делей, обучение Витерби 101
---- максимальная взаимная ин-
формация 104
----максимальное правдоподобие
20, 27, 417
----максимальный апостериор-
ный 24, 419
---- условная функция макси-
мального правдоподобия 104
Ошибка из-за потери значимости
117
Паралоги 222
Предметный указатель
475
Парное выравнивание 121-145
----вычисление веса 30-35
----динамическое программиро-
вание 35-56
----значимость весов 62-69
----количество возможных вы-
равниваний 37
----линейная память 59-62
---- применении теории скрытых
Марковских моделей 121-145
----эвристические алгоритмы 56-
59
Парные НММ 121-145
— апостериорная вероятность и
точность 135-140
— определение и алгоритм вырав-
нивания Витерби 122-130
— полная вероятность для 130-132
— сопоставление с конечными ав-
томатами 140-143
— субоптимальное выравнивание и
выборка 132-135
Перекрывающееся выравнивание
48-49
Плотность вероятности 402
Повторяющиеся триплеты 318
Позиционная матрица весов 148,
185
Поиск генов 111-115, 120
Полная вероятность 22
Поправка на длину последователь-
ности при парном выравнивании
68
Порождающие грамматики см.
Трансформационные граммати-
ки
Построение модели 173
---ковариантных моделей 377-
380
---максимальный апостериор-
ный 173, 218
--- хирургия 218
Правдоподобие дерево 270
— определение 22, 417
Правила подстановки 313
Правило Кирхгофа 177
— «Лапласа 156
Программа MSA 198
- RNAMOT 354
- SSEARCH 68
- TRNASCAN-SE 398
Прогрессивное выравнивание
Фенга-Дулиттла 202
Проект генома человека 15
Профили 147, 152, 185
— история 185
— структурный 185
Профиль обхода 280
Профильное выравнивание 203
Профильные НММ 146-187
— хирургия’ модели 218
— алгоритм Баума-Уэлча 212
— алгоритм Витерби 157
— алгоритм просмотра вперед 158
— библиотека PFAM 187
— для множественных выравнива-
ний 207-220
— для не-глобального выравнива-
ния 162-165
— для поиска 156
— добавление шума при оценке
215
— искусственный отжиг 216
— как избежать локальных макси-
мумов 213
476
Предметный указатель
— начальная модель 211
— оценка из невыровненных по-
следовательностей 207
— оценка параметров см. Оценка
параметров
— построение моделей 173, 218
— построенный по множественно-
му выравниванию 152-157
— разрывы 150
— связь с без-вероятностными
профилями 152
— связь с парным выравниванием
152
Процесс Юла 284
Псевдокаунты 26, 156, 194, 433
— правило Лапласа 156
Псевдоузлы 351, 400
Путь 87
— наиболее вероятный 88
Путь (последовательность) состоя-
ний см. Путь
РАМ матрицы см. Матрицы замен
РНК 347-400
— Стекинг-взаимодействие пар
оснований 349, 365
— вторичная структура 323, 348-
352
— гипотеза «мир РНК» 348
— каталитические 348
— ковариантные модели см. Кова-
риантные модели
— множественное выравнивание
188, 189
— моделирование семейства 369-
398
— предсказание вторичной струк-
туры 356-369
----алгоритм ВКСГ 363-365
----алгоритмы минимизации
энергии 365-369
---- оценки достоверности спари-
вания оснований 368-369
----субоптимальное сворачивание
368
----термодинамические парамет-
ры 365
— псевдоузлы 351, 400
— функции 348
— эволюция 352-354
Разбор, для трансформационных
грамматик 314
Разрывы афинные см. Аффинные
делеции
— в выравниваниях 30, 131
— в филогенетических моделях
291-295
— линейный 34
— штрафы за разрывы 34-35, 73
Распознавание речи 77
Распределение Гамбеля см. Распре-
деление экстремальных значе-
ний
— Дирихле 26, 406-408
----выборка 424
— экстремальных значений 65-68,
408-409
Распределения Эрланга 108
— вероятностей 402-409
----Бета распределение 406
----биноминальное распределе-
ние 402
----гамма-распределение 408
---- геометрическое распределе-
ние 35, 107
Предметный указатель
477
----мультиномиальное распреде-
ление 403
----отрицательное биномиальное
распределение 107
----распределение Гаусса 178, 403
----распределение Дирихле 26,
406-408
----распределение Эрланга 108
----распределение экстремальных
значений, 38—40 408-409
----распределения фазового типа
108
---- экспоненциальное распреде-
ление 409
— фазового типа 108
Расстояние Кульбака—Лейблера
413
«Расширение совпадения», в
BLAST 58
Регулярные грамматики 315-323
— вероятностные см. Вероятност-
ные регулярные грамматики
— ограничения 323
Редакционное расстояние 37
Сверхобучение 22, 24
Синдром хрупкости хромосомы X
318
Скрытые марковские модели 15, 77,
84-120
— апостериорные вероятностные
состояния 92
— выбор топологии 105
— генерация случайных данных 87
— гибридные модели нейронных
сетей 120
— избегание локальных максиму-
мов 213
— история 77, 120
— логарифмическая трансформа-
ция 117, 127
— масштабирование вероятностей
118
— моделирование продолжитель-
ности 105
— отличие от цепи Маркова 86, 87
— оцененные вероятности n-го по-
рядка 117
— оценка параметров, см. так-
же скрытые Марковские модели
97-105
— профильный НММ см. Скрытые
марковские модели
— размеченные последовательно-
сти 102
— реализация 89, 92, 117-120
— структура модели 105-109
— численная устойчивость 117
— что скрыто 87
— эквивалентный вероятностным
регулярным грамматикам 336
Слабый закон больших чисел 419
Случайные числа 422
Смеси Дирихле 166, 433
Совместная вероятность 22
Состояние 79
Сравнительный анализ последова-
тельностей 347, 354-356
Срастание 284
Статистика Карлина-Альтшуля
65-68
Статистическая оценка параметров
417-420, см. также Оценка па-
раметров
Статистический интеграл 215, 368
478
Предметный указатель
Субоптимальное выравнивание
132-135
Сумма пар: СП-веса 194
---- проблема 195
Сходство, аминокислоты 29
— последовательностей 16
Теорема Байеса 22
Теория вероятностей 402-440
— информации 194, 409
Терминальные символы, для транс-
формационных грамматик 314
Точность выравнивания 131-140
Трансмембранные белки 23
Транспортный РНК 397
Трансформации, для трансформа-
ционных грамматик 314
Трансформационные грамматики
312-346
— вероятностные 334-337
— контекстно-зависимые см.
Контекстно-зависимые грамма-
тики
— контекстно-свободные см.
Контекстно-свободные грамма-
тики
— неограниченные см. Неограни-
ченные грамматики
— определение 313
— регулярные см. Регулярные
грамматики
— фразова структура 315
Узнающей сигнал частицы РНК
349
Укорененные деревья 222, 235
Ультраметричные расстояния 231
Уравнение Гиббса-Больцмана 368
Условная вероятность 22
— функция максимального правдо-
подобия 104
Филогенетический алгоритм Хейна
246-256
— вероятностная интерпретация
309
Филогения parsimony 237-245,
301-304
— без-вероятностные методы 221-
260
— бинарные деревья 222-227
— бутстрап 285-289
— вероятностные методы 261-311
— восстановление 277-285
— выборка 262, 278, 304
— и выравнивание 245-256, 291-
295
— количество деревьев 224-227
— максимальное правдоподобие
262, 277-289, 304-309
— методы расстояний 227-237,
304-309
— обратимость 273, 306
— правдоподобие 267-277
— размеченная история 283
— сравнительные модели 295-309
— эволюционные модели 262-267,
289-295
Хирургия 218
Цепь Маркова 79-84, 111-117
---- высокий порядок 111
----моделирование конца 81
----модель ДНК 79
---- неоднородный 115
----отличие от скрытой Марков-
ской модели 86, 87
Предметный указатель
479
---применение для распознава-
ния 82
---распределения длины 82
Цинковый палец 322
Частота замен 33
Численная устойчивость 117
Эволюционные модели 262-267,
289-295
— промежутки времени 222
Эволюция 16, 30
— in vitro 348
- РНК 352-354
Эквивариантность 420
Экспоненциальное распределение
409
Эмиссионные вероятности 86
Энтропия 194, 409-417
— Шеннона 194, 409
— для оценки множественных вы-
равниваний 193
— матриц замен 170
— относительная энктропия 45,
413
Эффективные вероятности перехо-
дов 109
Языки палиндромов 323
— повторов 323, 330
Интересующие Вас книги нашего издательства можно заказать почтой или
электронной почтой:
subscribe@rcd.ru
Внимание: дешевле и быстрее всего книги можно приобрести через наш
Интернет-магазин:
http://shop.rcd.ru
Книги также можно приобрести:
1. Москва, ФТИАН, Нахимовский проспект, д. 36/1, к. 307,
тел.: (495) 129-53-49 (почтовый адрес: Нахимовский проспект, д. 34)
2. Москва, ИМАШ, ул. Бардина, д. 4, корп. 3, к. 414, тел. 135-54-37
3. МГУ им. Ломоносова (ГЗ, 1 этаж)
4. Магазины:
Москва: «Дом научно-технической книги» (Ленинский пр., 40)
«Московский дом книги» (ул. Новый Арбат, 8)
«Библиоглобус» (м. «Лубянка», ул. Мясницкая, 6)
Книжный магазин «ФИЗМАТКНИГА» (г. Долгопрудный,
Новый корпус МФТИ, 1 этаж, тел. 409-93-28)
С.-Пб.: «С.-Пб. дом книги» (Невский пр., 28)
Р. Дурбин, Ш.Эдди, А.Крог, Г.Митчисон
Анализ биологических последовательностей
Дизайнер М. А. Баженова
Технический редактор А. В. Широбоков
Корректор Г. Г. Тетерина
Подписано в печать 02.10.2006. Формат 60 х 84У16.
Печать офсетная. Усл.печ.л. 27,9. Уч. изд. л. 26,92. Тираж 700.
Гарнитура Антиква. Бумага офсетная №1. Заказ №00166
Научно-издательский центр «Регулярная и хаотическая динамика»
426034, г. Ижевск, ул. Университетская, 1.
http://rcd.ru E-mail: mail@rcd.ru Тел./факс: (+73412) 500-295
Отпечатано ГУП УР «Ижевский полиграфический комбинат»
426039, г. Ижевск, Воткинское шоссе, 180