Текст
                    КОМПЬЮТЕРНЫЙ
АНАЛИЗ
zеllеmuчесиuw
тecт06
\ 1
 /
,SV40
,\'


АКАДЕМИЯ НАУК СССР Инcrитут молекулярной rенетики u компьютЕрныи АНАлиз е1lеmuчеспuх теистов Orветcrвенный редактор доктор Физикоматематических наук М.Д.Франк Каменецкий I Москва "Наука" 1990 
УДК 519.6.575 Авторы: А.А.Александров, Н.Н.Александров, М.IO.Бородовский, IO.А.Калюбет, А.3.Кистер, А.А.Миронов, П.А.Певзнер, В.А.illепелев Компьютерный анализ rенетических текстов; А..Александров, Н.Н.Александров, М.IO.Бородовский и др. М.. Наука, 1990.267c. ISBN 5020046914 Книrа является одной из первых в мировой литературе моноrрафий, посвященных компьютерной rенетике  новой дисциплине, сформировав шейся в последние 10 лет на стыке молекулярной биолоrии и математи ки. Материал книrи основан на современных достижениях компьютерноrо анализа первичных структур биополимеров и включает основные резуль таты ведущих советских и зарубежных специалистов. В моноrрафии боль шое внимание уделено проблемам поиска rомолоrичных фраrментов; CTa тистическому анализу последовательностей; локализации функциональных сиrналов и кодирующих областей; построению физических карт; предска занию вторичной структуры РНК; пакетам проrрамм анализа структуры биополимеров и банкам данных в молекулярной биолоrии. Для студентов, аспирантов, специалистов в области молекулярной и математической биолоrии, rенетики, rенной инженерии. Табл. 47, Ил. 86. Библиоrр. 351 назв. The book supposed to Ье aong the first monographies over the world devoted to the computer genet1cs. This field of science has Ьееп developed оп the basis of both molecular biology and mathematic ideas during last ten years. The mein staff of the book reflects contemporary achivements of computer analysis of the nucleotide sequences, 1.е. а number of ,esults obtained Ьу Soviet scientists as well as their foreign collegues. The major attention was given to the following questions: sequence alignments, statistical aspects of the nucleotide sequences, recognition of functional signals and coding regions, reconstruction of restriction maps, RNA folding forecast problems, introduction to the programm packages and databases in molecular biology. For students, postgraduates, and specialists in the field of molecular and matjematical biology, genetics and genetic engineering. Рецензенты: А.А.Боrданов, А.В,Лукашин 1903010000 С67 K 042(02)90 47590, I полуrодие ISBN 5020046914  Коллектив аВТОРОв,1990 
ПРЕДИСЛОВИЕ Коrдато,в самом начале 60x rодов,В только что орrанизованном Радио биолоrическом отделе Института атомной энерrии ИМ. И.В. Курчатова (ныне этот отдел преобразован в Институт молекулярной rенетики АН СССР) прохо дило обсуждение общей стратеrии предстоящих работ. Начальник отдела, Виктор Юлианович rаврилов, выдвинул идею бросить все силы отдела на раз работку методов секвенирования белков и нуклеиновых кислот. Тоrда мой отец, Давид Альбертович ФранкКаменецкий, бывший тоrда научным консуль тантом отдела, сказал: "Хорошо, допустим вы научились быстро секвенирс вать ДНК, допустим вы прочли все ДНКовые тексты. Как вы их будете xpa нить и использовать? Ведь это будут rpoMaдHble фолианты!" Теперь, тридцать лет спустя, мы вплотную подошли к этой проблеме. Об щая длина всех расшифрованных ДНКовых текстов более 40 млн нуклеотидов. и объем новой информации растет лавинообразно. Начал осуществляться про ект 'Теном человека", в который включились все развитые в научном OTHO шении страны. Текст человеческоrо reHoMa, содержащий более трех миллиар дов букв, будет почти полностью (а может быть и весь) прочитан к концу текущеrо тысячелетия. Как хранить и "переваривать" всю эту rиrантскую информацию? Совершенно ясно, что здесь невозможно обойтись без самых современных компьютеров. Только они позволяют хранить и быстро про сматривать тексты такой длины. Но кроме компьютера необходимо специальное матобеспечение, которое позволяло бы анализировать ДНК'овые тексты, находить их "смысл'; Создание TaKoro матобеспечения  оrромная и сложнейшая задача, над KOTO рой во всем мире трудится быстро увеличивающаяся армия проrраммистов, математиков, биофизиков, биолоrов. В предлаrаемой вниманию научной общественности книrе подводится итоr работы в этом направлеНИИ,проделанной к концу 80x rодов. По замыслу ее соэдателей прежде Bcero она должна стать руководством для тех, кто уже широко пользуется rенетическими текстами, Т.е. для практически работаю щих молекулярных rенетиков. Она также должна стать плацдармом для даль нейшеrо развития методов анализа последовательностей ДНК. Наука в данной области развивается стремительно. Уже сейчас, коrда Пишутся эти строки, появились новые ПОДХОДЫ, которые не моrли быть вклIC чены в книrу. Это прежде Bcero ПОДХОДЫ,основанные на моделях нейронных сетей. Но освещение этих новых нарождающихся направлений  дело будущеrо. М.Д. ФранкКаменецкий 
ВВЕДЕНИЕ Разработка v.етодсв клонироваНi1Я и определения последовательнос ти оснований (секвенирования) нуклеиновых кислот положило начало новому этarIУ рuзвития молекулярной БИl1лоrии. ЗНClНl!е первичной структуры участков reHoMa, ВЫПОЛНЯЮЩИХ определенные функции, дало возможность эффективно применить для их исследования целый арсенал новых методов rенной ИНЖGнер.В1. Эти методы (направленный MYTare нез, рекомбинация in vi tro и др.) позволяют l.юдифицировать участки нуклеотидных последовательностей и исследовать их функции на !\lоле кулярном уровне. С их помощью комбинируются участки rенетическоrо материала и создаются reHoMbl с совершенно новыми функциями. С дpy rой стороны, эпоха MaccoBoro секвенирования нуклеотидных последо вательностей поновому ставит две кардинальные проблемы биолоrии: проблему структурафункция и проблему молекулярной эволюции. Секвенирование нуклеиновых кислот Е настоящее врея стало py тиннь методом молекулярной биолоrии. Несомненно, в ближайшем бу дущем появятся еще более совершенные автоатические секвенаторы, чтс приведет к резкому увели'инию числа Р'_'.СШИФРОВilННЫХ последова тельностей. В настоящее время расшифровано около 100 тыс. фраrмен тов различных ['еномов, а также ряд ЦiOЛЫХ ['еномов небольwоrо разме ра (в сумме около 35 млн нуклеотидов). Однако, с биолоrической точки зрения, это совсем HeMHoro. Все расшифрованные последова тельности составляют при:лерно 10 ЮН!!' па 1000 страiiИЦ или CYMMap ную длину ['енома пяти бактериЙ, а reHor человека, например, COCTa вит несколько тысяч таких КНИl". Блаrодаря знанию rенетическоrо кода мы имеем возможность опре делять участки нуклеотидных последовательностей, кодирующих потен циальные белки. Этот источник и сеrодня. спустя 10 лет после pac шифровки первоrо целоrо т-енома (бактериофаr ФХ174). дает на!л oc новную информацию о функциональном строении нуклеотидной !jследо вательности. В то же время, несмотря на то, что известны сотни последовательностей различных функциональных сиrналов нуклеиновых кислот, наши представления о принципах их орrанизации весьма orpa ничены. Это обусловлено трудностями экспериментальноrо исследова ния реrуляторных участков и сложностью их строения. До начала эпохи MaccoBoro секвенирования мноrим исследователям казалось, что функциональные участки будут закодированы однознач ными последовательностями, скорее Bcero изменяющими локальные фи 4 
зические свойства молекулы нуклеиновой кислотCI. В Fействительноси оказалось, что это не так. Лишь участки дейс':вия некоторых фер:'\ен тов имеют одинаковое строение, и их леrко найти на расшифрованной последовательности  таковы некоторые сайты действия рстриктаз I: типа. Участки, которые узнают на ДНК белкиреrуляторы работы ['e нов, не столь однозначны. Их поиск  уже более сложная задач&. Сайты начала и окончания работы РНКполимераз, участки начала трансляции РНК, участки сплайсинrа имеют весьма сложное сроение. ОНИ состоят из нескольких характерных блоков, находящихся н,=, варь.. ирующих рсстояниях. часто включают элементы ВТОРИЧhОЙ структуры, ЧТО сильно затрудняет их поиск на последовательностях. Выявление и анализ закодированных в последовательностях Функци анальных сиrналов требует применения современных методов ИНG,JO;:'Мэ. тики  качественных баз данных с современными средствами уr,равле ния, новейших методов распознавания образов, статистических иссле дований, применения специальных алr'сри'I'МОВ для преодоления sозни кающих вычислительных трудностей. В настоящее время исследование функциональных свойств расшифро ванных последовательностей нуклеиновых кислот  это новый раздел молекулярной биолоrии, I'раничащий с информатикой, с одной стороны, и молекулярной биофизикой  с друrой. Можно с уверенностью ска зать, что в настоящее время анализ последовательности биополимера позволяет извлечь лишь очень небольшую долю закодированной в ней информации. В конечном счете точное выявление функциональных oco бенностей в последовательностях нуклеиновых кислот будет возможно только после детальноrо исследования соответствующих реющий, ccy ществляемых нуклеиновобелковь:ми комплексами. Таким образом, проrресс в предсказании функциональной структуры расшифрованных участков ['енома непосредственно зависит от УРОВШi наших молекулярнобиолоrических представлений. На современнш: эа пе развития молекулярной биолоrии и проrрамм анализа возможны лишь вероятностные предсказзни" функциональной структуры на ОСНGК.НИИ знания последовательности. Однако, так как секьенировапис ст:шu- вится наиболее простым методом анализа структуры rенетическоrо Ma териала, возрастает также и ценность теоретическоrо предсказания ero функциональной структуры. Возможности теоретических методов анализа структур биополимеров тслько начинают открываться. Специальные компьютерные проr'рЮ,IМЫ позволяют повысить эффе)(тив ность проведения rенноинженерных разработок путем анализа карт рестрикции ДНК и анализа кодируемых белковых продуктов, оптимиза ции синтеза фраrментов ДНК различными методами. выбора оптимальных Зондов для выделения индивидуальных ['енов и Т.д. Неожиданно полез ной оказалась методика сравнения вновь расшифрованных последова тельностей со всеми последовательностями банка. При этом были OTK 5 
рыты такие родственные отношения между совершенно различными ['eHa ми, которых никто не подозревал. Например, обнаружение высокой степени rомолоrии между ростовым фактором из тромбоцитов крови че ловека и oHKoreHoM вируса шерстистой обезьяны открыло новое нап равление в исследованиях рака, которое сейчас бурно развивается. Подробное изложение вопросов, связанных с проблемой поиска rомоло rий, читатель найДет в rл. 1 (Миронов А.А.). Рост объема баз данных первичных структур биополимеров HeMeд ленно вовлек в сферу изучения rенетических текстов традиционные для rенетиков методы теории вероятностей и математической статис тики. Статистический анализ rенетических последовательностей выя вил большое количество аномальных характеристик (например, обоrа щенность ['еномов различными повторами, блоками), которые еще пред стоит объяснить на функциональном уровне. Это наблюдение показало, что необходимы специальные усилия для Toro, чтобы корректно опи сать rенетические тексты с помощью математических моделей, в част ности с помощью аппарата теории марковских цепей. Такие модели необходимы для оценки статистической значимости rомолоrий, вычис ления компактных информационных характеристик текстов (энтропии, избыточности и т.д.), предсказания частот встречаемости нуклеотид ных "слов". В свою очередь, изучение наиболее (или наименее) расп ространенных слов, выявление участков reHoMa различающихся по час тоте использования некоторых "стандартных" комбинаций нуклеотидов, позволяет выдвиrать новые rипотезы о функциональной роли фраrмен тов rенетическоrо текста и их эволюционной истории. Перечисленным вопросам посвящена rл. 2 (Бородовский М.Ю. и Певзнер П.Л.). Одной из наиболее популярных тем компьютерной rенетики является идентификация в природных нуклеотидных последовательностях таких участков, которые кодируют белки. Здесь также приносят реальную пользу математические модели функциональных областей ['енома, пост роенные с помощью методов статистики. Большая или меньшая надеж ность предсказания зависит от степени полноты априорной информации (наличия или отсутствия обучающей выборки). Подробно об этом можно прочесть в 3й rлаве (Бородовский М.Ю. ). Определенноrо проrресса можно ожидать в ближайшие ['оды в разви тии методов поиска и анализа локальных функциональных сиrналов в нуклеотидных последовательностях. Вероятно, применение статисти ческих методов, методов распознавания образов, возможно, совершен но новых подходов (например, вычислительных систем типа нейронных сетей, обладающих свойствами ассоциативной памяти), позволит в ближайшие ['оды заметно повысить надежность теоретических предска заний функциональных свойств последовательностей биополимеров. За последние ['оды появилось значительное количество структурных данных относительно строения нуклеиновых кислот, белков и их комп 6 
лексов. Появление новых rипотез о структурных особенностях взаимо действия ферментов с нуклеиновыми кислотами может послужить базой для разработки эффективных проrрамм идентификации функциональных сиrналов. В 4й rлаве книrи (Александров Н.Н. и Каламбет Ю.А.) чи татель найдет изложение вопросов, связанных с теоретическими MeTO дами распознавания функциональных сиrналов. Возникновение структурной rипотезы о функционировании нуклеино вобелковоrо комплекса является точкой контакта двух пока в значи тельной степени разобщенных направлений компьютерноrо анализа био полимеров  анализа нуклеотидных последовательностей и CTPYKTypHO ['о анализа и предсказания вторичных и третичных структур белков. Вероятно, в ближайшие ['оды эти направления сблизятся и, возможно, будут объединены в едином проrраммном комплексе. В начале 80x ['одов стало очевидно, что современному reHHoMY инженеру компьютер необходим не менее (а иноrда и более) чем физи ку, химику или экономисту. Возникла необходимость в создании aBTO матизированноrо рабочеI'О места rCJIНOI'O инженера. При этом выяви лось, что ряд задач, возникающих у сенных инженеров, связан r; aHa лизом ОсрОМНОсО количества вариантов. Такие :Jадачи не подлаются решению при помощи "лобовых" подходов, для их анализа необходимо примененис методов современной дискретной математики. Одна из та ких :Jадач  фИ:Jическое (рестрикционное) картирование молекул ДНК  рассматривается в rл. 5 (ПеН:Jнер П.А.). ФИ:Jическос картирование один из самых распространенных методов анализа дик. В связи с преДПОЛaI'аемым секвенированием сенома человека объем работ по фи зическому картированию в ближайшие {'оды будет значительно УJJели чен. В настоящее время фИ:Jическое картирование один из ра:Jделов компьютерной 1'8нетикИ, сде удалось "заставить" работать серьезные результаты из разных областей матсматики (теория I'рафов, потоки н сетях, эрrодическая теория). Друrой задаче, связанной с анализом ОсрОМНОсО числа вариантов. предсказанию вторичной структуры РНК посвящена rл.6 (Кистер А.З.). Здесь рассматриваются как комбинаторные методы решения этой задачи, так и хорошо зарекомендовавший себя в последнее время так называемый кинетический подход. Для оперативной работы с последовательностями создаются специ альные банки данных. Орrанизация информации в банках данных, MeTO ды распространения информации и работы с ней описаны в rл.7 HaCTO ящей книrи (illепелев В.А. ). В банке в доступном для пользователя виде хранится каждая pac шифрованная последовательность и ее паспорт, в котором указаны различные сведения о ней. Это сведения об орrанизме, из KOToporo выделена последовательность, о документе, ['де она описана, о pac Положении на ней реrуляторных участков и белках, которые она коди 7 
рует tl Т.д. 3 настоящее время созданы три большие базы данных пос ледовательностей нуклеиновых кислот: "Genbank" (ЛосАламос, СillА более 30 млн. нуклеотидов), база данных нуклеотидных последова ельностей Европейской молекулярнобиоло rической лаборатории (ЕМ.БL, rейдельберr, Фрr  более 30 млн. нуклеотидов) и 'Тенэксп ресс" (СССР. ВИНИТJН1Мr АН СССР  более 11 млн. нуклеотидов). Из вестны также несколько белковых баз данных, наиболее представи тельной из которой является NBRFPIR (США). Эти базы данных расп ространяютс-" на различных носителях  маr'нитных лентах и дисках, на оптических дисках. Производство баз данных и их интенсивное заполнение началось в середине 8Cx ['одов и развивается очень интенсивно. Объем баз дaH Нt.IX удваивается каждые три ['ода. Однако в поrоне за полнотой coc 'авители Ез.з ;L:ЮШЫХ l:РСJЯВЛЯЮТ недостаточное Енимаю!е к качеству и содержанию ВВОДИМОЙ в базы данных информации. Принципы построения саз ;r:aHHblx rенетических текстсв являются предметом rорячих дискус сий. CHC, что В ЭВМ нужно вводить как можно больше информации, но 6иолоrическую информацию трудно формализовть. Этим определяется тенденция к дифференциации баз данных. Например, в СССР кроме баз данных первичных структур нуклеиновых кислот и белков намечаются к БЬСУСКУ базы данных векторов для rенной инженерии. функциональных сиrналов нуклеиновых кислот, ферментов. метаболических путей, ['e нетических карт. В то же время исследователю для решения биолоrических задач нужна одновременно самая разнообразная информация о rенетике, био синтезе и функционировании различных продуктов, а также 6и6лиоrра фические сведения. Это приводит к необходимости создания интеrри рованных систем молекулярнобиолоrической информации, включающих все элементарные базы данных и связи между ними. Такие системы создаются в качестве опытных разработок и пока не распространяются на коммерческой основе. Таким образом, в банках данных в настоящее время накоплено и находится в доступном для пользователя виде or ромное количество информации о последовательностях биополимеров. Активному внедрению методов компьютерноrо анализа в молекуляр ную биолоrию существенно способствовал проrресс в вычислительной технике и математическом обеспечении последних двух десятилетий. Как раз к началу периода MaccoBoro секвенирования (к концу 70x содов) уже были ясны основные концепции формирования баз данных, которые как раз в это время начали широко применяться в области точных наук tl деловой сфере. Z:ля работы с базой данных ЭВМ должна быть снабжена специальным комплексом r.porpaмM СУБД (системой управления базой данных). пос ледняя позволяет проводить разнообразные действия с документами азы данных: осуществлять поиск нужных документов по мноrим пара 8 
метраМ, выделять информационные подбазы по определенным признакам, каталоrизировать данные и т.Д. В 80x содах в мире создано Hec колько крупных систем для работы с несколькими базами данных структур биополимеров. Эти комплексы создавались на мощных ЭВМ и, несомненно, имеют большие возможности. Однако на крупных компь ютерных системах выполняется сравнительно небольшое число работ разведочноrо характера. Это во MHoroM связано с психолоrией исследователейбиолоrов. Если физики давно привыкли работать в вычислительных центрах и знают, что без компьютеров им не обойтись, то некоторые биолоrи предпочитают считать нуклеотИДЫ вручную, не обращаясь в вычисли тельный центр. Биолоrам крупнCJ повезло, что как раз к моменту возникновения необходимости обрабатывать последовательности с помощью ЭВМ на свет появились первые персональные компьютеры. Они стали важным инструментом в молекулярнобиоло!'ических лабораториях прежде BeeI'o потому, что на них очень удобно иметь локальные библиотеки после доватсльностей и друrих данных. Ресурса персональных ЭВА вполне хватает для ВЫlюлнения саМЬ 1 Х пеобходимых о!!сраний над последова, тельностями, ::эти ЭВМ стоят прямо в лабораториях и для них не нужно ни ДОПОЛНИТСЛЫ!Оl'О ПСРСCJнала, ни Д,ОlllJлнителыIЫХ Помещений. Дру жественное общение" ПСРСОJlальной :JBM с llOЛЬ:1)Вател()м частCJ ПрИRО дит к тому. что непрофсссионалн приобщаются к ПрОl'ршмированию l блаrодаря хорош,му ЗШlНию (;ВCJей прсдмеТI!:JЙ области СJ:J)ЩЮТ uеннш: проrРС\ММJlые продукты. ТС\ким CJбра:10М, подавляющее БОЛЫllИНСТВО расшифрованных lЮСJ.С'},с вательностей юшлизируется в нС\стоящее время на персонаЛЫiЫХ компьютерах. Конечно, не все проrраммы. необходимые для работы o лекулярных 6ИОЛОI'ОН эффективны на персональных компьютерах. ПР1),' раммы, требующие БОЛhlllИХ вычислений. рапионально ИСПОJ1Ь:1свать на мощных ЭВМ. К ним ОТНОСЯТ.ся ПрС)l'раммы псиска !'омолоrИЧНhIХ :;оследо  вательностей во всем банке, выравниr.ание последовательностей, ПОС> троеНИ8 вторичных структур РНК, проrрамrш, СВЯ:Jанные с эю;рr(;ти в ческими и термодинамическими расчетами и Т.д. Наиболее распространенными сейчас являются персональные компь ютеры фирмы IBM. Это связано с rосподствующим положением этой фир мы на компьютерном рынке, вследствие чеrо IBMPC совместимые компьютеры быстро совершенствуются блаrодаря изrотовлению для них различными фирмами ДОПОЛНИТ8у'ЬНЫХ устройств и матобеспечения. В СССР также начато массовое производство IBMPC совместимых коипь ютеров. В настоящее время в мире появляется все большее количество KOM плексов проrрамм анализа структур биополимеров для персональных и более MOHЫX компьютеров (их стоимость лежит в пределах от 500 до 9 
20 тыс. долларов). в СССР и социалистических странах в COOTBeTCT вии с научнотехническими проrрами 'Тенинформ" и 'ТенинформСЭВ" также разработано математическое обеспечение дЛЯ ЭВМ различных ти пов. До 1991r. будут разработаны мощные комплексы проrр иссле дования структур биополимеров дЛЯ IBMPC совместимых компьютеров. КвалифицироваНtlое использование этих средств анализа позволяет существенно повысить эффективность научных исследований в области молекулярной биолоrии, биотехнолоrии и некоторых разделов медици ны. В то же время, несмотря на широкое распространение компьютер ных методов в молекулярной биолоrии, ощущается существенный Heдoc таток литературы, освещающей широкому пользователю ОСНОВные науч ные принципы, на которых построены прикладные проrры анализа структур биополимеров. В настоящей книrе читатель познакомится с идеями и представле ниями, на которых основаны современные методы анализа первичных структур биополимеров (в основном нуклеиновых кислот). А.А.Александров 
rЛАВА 1. поиск rомолоrий .1. 1. ФОРМУЛИРОВКА ЗАДАЧ ПОИСКА rомолоrий Одна из наиболее часто возникающих проблем при анализе биолоrичес ких текстов  поиск rомолоrий. И это понятно, поскольку схожесть TeKC тов позволяет делать выводы об их эволюционной и/или функциональной близости. Здесь можно привести пример обнаруженной rомолоrии между оп ределенными типами oHKoreHoB и клеточными rенами (Naharro et al., 1984), что привело к возникновению HOBoro направления исследований. fомолоrии между последовательностями часто используют для peKOHCTpYK ции эволюционных деревьев. Такие важные аспекты анализа биолоrических текстов, как поиск повторов, палиндромов, симметричных участков, сай тов рестрикции, также связаны с проблемой поиска rомолоrий. Анализ co молоrий необходим также при подrотовке и проведении целоrо ряда экспе риментальных работ, в частности при синтезе олиrонуклеотидных зондов для поиска клонов в клонотеке, стыковке фраrментов нуклеотидных после довательностей при секвенировании протяженных участков ДНК или целых reHoMoB и др. Проблему поиска rомолоrий можно ставить поразноМУ, и это приводит К разным методам ее решения и к разным результатю. Можно выделить следующие основные задачи поиска rомолоrий. Задача 1. Найти в двух текстах наибольшие полностью совпадающие фраrменты. Это так называемая задача о поиске максимальноrо общеrо слова, и здесь в качестве критерия rомолоrии выступает длина совпадаю щеrо фраrмента.  Задача 2. Найти максимальые фраrменты, совпадающие не полностью, а, быть может, с некоторыми заменами. Для этой задачи критериями COMO лоrии являются длина совпадающих фраrментов и число (или процент) COB падающих букв (нуклеотидов или аминокислот). Для решения задач 1 и 2 разработаны весьма эффективные алrоритмы и сделаны оценки статистичес кой значимости найденных rомолоrий.  Задача 3. Найти максимальные фраrменты, не полностью совпадающие, а имеющие замены и вставки. Эта задача называется задачей о выравнива нии и отличается от задачи 2 возможностью введения в сравниваемые пос ледовательности вставок. В качестве критерия rомолоrии здесь, как пра вило, выступает число совпадающих букв за вычетом штрафов за замены и вставки. Для решения этоrо типа задач обычно применяют методы динами ческоrо проrрирования. Описанные задачи допускают так называемую локальную формулировку, при которой в анализируемых текстах требуется найти не одну пару фраr ментов, обеспечивающую максимум соответствующеrо критерия rомолоrии, а 11 
нсе возможные пары такие, для которых этот критерий выше заданноrо ПО poroBoro значения. Например, найти все совпадающие Фра,'менты длиной не менее k букв. Тапичной локальной задачей о поиске rсtl.ОЛСI"'Ий я-ьляется Задача поиска поr:fiCРОВ. IIорой в ;;итерзтуре встречаются сообщения О то'!., что между теми И,'IИ иными r:оследова'?блы!Остqми обнаружена rОМОЛОf'ИЯ 9G, 70 или де,же 4CJ%. В epBOM случае значимость rомолоrии не зызывает сомнений И. ЮJ.t< прави [;О. она видна "на !'лаз". Во второ',! случае сходство не счевидно, и зна чение процента совпадений зависит от ТOI'О, какая задача решалась и Ka ковы были паРill!.етры, наПРVili!ер чему раБGН штраф за делецию. В третьем же случае возникает сомнение, а есть JШ '<десь вообще rомолоrия? Поэто tl.Y, С одной стороны, важно зн"ть, какая именно задача о rомолоrии pe шается и при каких парам,=,трах, а с ДРУf'ОЙ  необходимы статистические rщенки ::"Е'lЧЮI.ОС 1Ъ I'r'I,j',..,:ТИЙ. CC .'oДH':": ::!C> J.(: :',шляет соБС)! СJlCJЖНУЮ 1,13  тематическую задаЧ:i, некоторые аспекты КОТСРCJй рассмотрены в rлаве, посвященной статистическим методю анализа rенетических текстов. Для решения задач о поиске rомолоrий разработаны эффективные алrо ритмы и соответствующие проrрюl.МЫ. Однако, пожалуй, наибольшей попу лярностью среди биолоrов пользуются !IpOrpaMMH, прямо не решающие ни одну из перечисленных задач. Это . проrраммы псстроения так называемых точечных матриц rомолоrии. Они очень на!'лядны и не требуют от l!сследо вате ля точноrо знания, Kay.oro ТЮЩ rомолоI"'?!Я ero интересует. ИЗВестен целый ряд нуклеотидных последовательностей. достаточно сильно отличающv.хся дру, от дита, i3 то время как их функциональная близос п, не вызывает сомнений. Речь идет о транспортных и рибосомных РНК. Зrес:, прихvдится rОВО[JИТЬ u ;,омолоrии совсем ино!'о свойства  ['o модоrи',! пс. в rО\JИЧНЫМ структурам. ilри текстуальном сравнении этих пос леДJвтельностей под близостью следуе понимать сущеСТ8UВdние схожих наБО')ОБ инвертированных повторов, способных образовь!l3SТЬ двунитевые учаСТ1{И (Спирин, 1986). .iIруrим примером подобной rомолоТ'ии является БЛИЗСС7Ь (предсказанных ) пространственных структур а,'iьфа и бета интер феронов при очень слабом сходстве кодирующих их областей. На rомолоrи ях подобноrо рода мы здесь подробно останавливаться не 6y;:er,I, посколь 'f'y для их выявления нет достаточно развитых алrоритrов. Сушествуют чисто экспериментальные методы поиска rомолоrий нуклео тидных последователы:остей.Наиболее распространенными являются подхо ды, основанные на rибридизации молекул нуклеиновых кислот и дальнейшем анализе дуплексов тем или иным методом. Пр;': анализе Щ:ОТЯЖ'3нных 'OMO лоrий rij::if,меняют также сопостав;;ечие реСТРИКЕИ'JННDlХ (ФИЗ7чеСКi1Х) карт' соответствующих фраrментов ДНК. И в ТОМ, и в друrом случае нет He06xo димости определять пос"едовате.r.ьность оснований в сравниваемых молеку лах. Рассмотрение соответствующих методик не является предметом HaCTO яшей книrи. 12 
в настоящей rлаве рассмотрены основные вопросы, связанные с поискс rомолоrий. В параrрафе 2 Qписанн простейшие алrоритмы поиска rо!.юло"z  методы построения точечных матриц rомолоrии и методы поиска наиболь шеrо общеrо слова. Па;жrраФ 3 посвящен методам диню,ическо;""'о проrра,\ мирования для задач выраРпивания. R параrрафе 4 рассмотрена прс6лer.а поиска по банкам rенеТИЧЕ:"'{i!Х текстов. В параrр<з.фе 5 подведены OC,:OB ные итоrи и персчислены некоторые нереШ('Нl!ые проблемы, связанные с по иском rомолоrиr.. 1. 2. ПРОСТЕйШИЕ МЕТОДЫ ПОИСКА I'ОМОЛGП!й Точечные QО О!' ., Построение так называемых точечных MaT рид rОi'f1С.'Iоrv.Й (С:,!.., j}Ji;,1C;p. Git)r:::, t!.:'InJ(,lre..1g7()) ЯЕ.":ЯtТ(Я одч:r, :,:; наиболее r;опулярных !.,етодоз поиска f'ОМОЛurий, Суть метода сводится к следующему. Пус,'Ь тре6уе7СЯ срютить П'Jследовательности S, и S2 ДЛИНой N. и N 2 соответственно. Для анализа этих последовательностей строится прямоуrольник размеРС1/J N I .N 2 (;:;ис. 1. 1). по верхней стороне прямоуf'ОЛЬ ника выписывается (или псдразумертся) 'lервая последовательность, по Рис. 1.1. Построение точечной матрии ы rомолоrии. Линии соответствуют rомолоrиям Рис. 1.2.Зависимость вероятности IЮЯВ ления точки на точечной матрице iОМCJЛО!']Ш от отношения(miпчисло совпадений);' (длина окна) при разных размерах окна 1 n.ля HYK леотидных (а) и аминокислотных (б) после довательностей а б р 1,0 106 1012 10IS 10  24 10ЗI) l,0 Р 10'. 110  12 1'30 10lв l' 60 1'70 1024 l' 11ОФ k/ I 10ЗI) 1,0 0,0 0,0 i 0,5 I .....,......... ТТСААС,АТСААССТСАССС Tg    O l ' Q О О О Q 00 О О О 00 О О 00 О 00 О Q u u u '"' '" и '"' '"' « '"' " '"' '" u '" '"'  [ О О оС < 00 00 о < 00 о 00 о U о 00 000  . о о 00 о 00 о 000 о 0,5 .' l' 10 . l' 15 " 20 l' 30 1'50 1'70 .. i' 100 k/ I 1,0 левой стороне  вторая последовательность. Затем в каждой клетке пря' Моуrольника, соответствующей совпадающим буквам, ставится точка. Пр!! анализе полученной картины выделяют rруппы точек, расположенных на ли нии, параллельной диаrонали (выделены на рисунке). Эти rруппы точек z Определяют rомолоrичные фраrментr на последовательностях. Однако полу ченная картина обладает слишком большой избыточностью информации и пс Этому трудно читаетс:я. Было бы лучше, если бь; на этой картине отсутст' 13 
вовали одиночные точки, а при сравнении более длинных последователь ностей  комбинации точек, которые можно считать случайными. Таким об разом, возникает задача фильтрации. Обычно она решается так: точка в точечной матрице rомолоrии ставится при условии, что она соответствует буквам, принадлежащим фраrментам последовательностей длиной w и имею щим не менее k совпадений (естественно w>k). Иньи словами, на матрице отмечаются локальные rомолоrии без делеций и вставок при критерии "не менее k совпадений на фраrменте длиной w". С помощью теории вероятнос тей при заданных w и k можно оценить вероятность появления точки на матрице rомолоrии. Действительно, анализ окна длиной w сводится к схеме Бернулли, ['де успех  совпадение пары букв. Тоrда вероятность P(w,k) появления точки равна w P(w,k) :Е C;pi(1p)Wi, i =k W ['де C  биномиальный коэффициент; Р  вероятность совпадения букв в последовательностях. На рис.1.2,а приведены rрафики зависимости Bepo ятности появления точки на точечной матрице rомолоrии от отношения k/w при разных w для случая нуклеотидных последовательностей (po,25). На рис.1.2,б приведены аналоrичные rрафики для аминокислотных последова тельностей. Более полный анализ методов фильтрации при построении точечных матриц rомолоrии дан в rл."Статистические методы анализа re нетических текстов". Отметим, что при разных w и k, отвечающих одина ковым вероятностям. точечные матрицы rомолоrии MorYT оказаться сущест c;61 .. '.. '\... -,:- ".., 121 121 20.1 "... 201 " '-" 441 121 281 281 ", 361 ............ "', '-',..., '\" 217 313 4.09 441 121 217 313 40' а б Рис. .3. Пример точечной матрицы rомолоrии фраrмента последователь ности Deo оперона E.coli с самим собой при параметрах фильтрации k12, 116 (1) и k31, 163 (б) венно разными. Исходная точечная матрица rомолоrии отвечает случаю wkl, а при более общих значениях w и k задача построения точечной матрицы сводится к локальной задаче 2  найти на двух последователь ностях фраrменты длиной не менее w и имеющие не более wk замен и к rрафическому отображению ее решения. На рис.1.3,а,б приведены примеры точечных матриц rомолоrии при различных значениях параметров фильтра 14 
ции k и w. Расчеты проведены с помощью пакета nporpaMM DNASUN на ЭВМ 1ВМ РС/ХТ. При анализе аминокислотных последовательностей целесообразно ис пользовать несколько иной фильтр, а именно точка ставится, если в OK не длиной w суммарный уровень сходства аминокислот не менее заданноrо. Дэ.йХофф (Dayhoff, 1972) провела детальный анализ частот аминокислотных замен в rомолоrичных семействах белков. В табл. 1.1 приведены получен ные веса аминокислотных замен. При подсчете cYМMapHoro уровня сходства в окне суммируют числа, соответствующие аминокислотам в сравниваемых Таблица 1.1 Относительные частоты аминокислотных замен G р D Е А N Q s т к н v м с L F V W G 29 Р 12 14 D 11 1 О 23 Е 11 11 19 20 А 13 14 12 12 14 N 1\ 10 14 12 12 17 Q 10 11 14 \4 11 12 21 S 12 11 12 1\ \3 13 11 \3 Т \ О 10 10 10 12 12 11 13 18 К 7 8 10 1 О 9 \2 11 10 9 24 R 4 4 7 7 5 10 13 7 6 22 75 Н 6 6 9 8 8 13 12 9 9 \1 20 59 V 7 8 7 8 \ О 8 9 9 11 8 5 6 22 \ 6 6 6 7 8 7 8 8 \ О 7 5 7 21 25 М 5 6 6 6 8 7 8 8 9 8 1 О 6 16 16 26 С 6 4 5 5 7 6 5 11 9 4 2 3 11 9 12 166 L 4 4 5 6 6 5 6 6 7 6 4 6 15 18 21 5 40 F 2 2 2 3 4. 3 3 4 5 3 4 7 7 11 11 2 12 70 У 1 1 1 1 2 2 2 3 2 3 3 7 3 6 6 1 6 66 137 W 1 1 1 \ 1 2 2 2 2 2 3 15 2 4 4 \ 3 41 46 414 Таблица 1.2 Различие физических свойств аминокислотных остатков G р D Е А N Q s т R Н V м с L F W G О Р 42 О D 94 \08 О Е 98 93 45 А 60 27 126 107 О N 80 9\ 23 42 111 О Q 87 76 61 29 91 46 О S 56 74 65 80 99 46 68 О Т 59 38 85 65 58 65 42 58 О К 127 103 1 О 1 56 106 94 53 121 78 О R 125 1 03 96 54 112 86 43 11 О 71 6 О Н 98 77 81 40 86 68 24 89 47 32 29 V 109 68 152 121 64 133 96 124 69 97 96 84 О 1 135 95 168 134 94 149 109 142 89 102 97 94 29 М 127 87 160 126 84 142 1 О 1 \35 81 95 91 87 21 1 О О С 159 169 154 170 195 139 154 112 149 202 180 174 192 198 196 О L 138 98 172 138 96 153 113 145 92 107 102 99 32 5 15 198 О F 153 114 177 140 113 158 116 155 .03 102 97 100 50 21 28 205 22 О У 147 110 160 122 112 143 99 144 92 85 77 83 55 39 36 194 36 22 О W 184 147 181 152 148 174 13 О 177 128 11 О 1 О 1 115 88 6 I 67 215 61 40 37 15 
последовательностях. Уровень сходства можно также рассчитать с исполь зованием коэффициентов отличия физических свойств аминокислот, таких, KK rидрофобность, заряд, объем боковой rруппы. Соответствующие пара метры приведены в табл. 1.2 (Grantham,1974). При этом следует иметь в виду, что числа в табл. 1.2 характеризуют отУ.ичия свойств аминокислот, в то время Ka a@JU' 1.1 отражает их сходство. Поэтому при использо вании табл. 1.2 в качестве критерия постановки точки следует использо вать условие, что суммарный вес меньше заданной величины. !lс; тейшие  методы поиска общеr.9  сло в Опшпем теперь методы реше ния задач 1 и 2, к которым сводится задача построения точечной матрицы rомолоrии. Простейший алrоритм заключается Е следующем (рис.1.4.). Последовательность S, со сдвиrом накладывается на последовательность S2' По общей части этих последовательностей пробеrает окно длиной W. В каждом ПОЛСЖGНI!И окна ПОДСЧИ"I'ывается чиrло совпаr;ающих бую,. Если это число преВilшает пороrовое значение k, значит найдена пара rомоло rичных участков. После ПрОСМОТрd всех возможных наложений S, на S2 и всех возможных положений окна задача 2 считается решенной. Число опе раций, которые выполняются при работе этоrо алrоритма, оценивается BЫ ражением: число возможных наложений последовательностей' число возмож ных положений окна' длина oKHaN,'N2'w, и для большинства реальных за дач составляет величину порядка 1С 7 . Иными словами, этот простой алrо ритм достаточно трудоемок. с' '--'1 ТТСАА СТАТСААССТ САССС.., I ++++++I GAATCTAGATGTATTCA.. . с' \"">2 Рис. 1.4. Простейший алrоритм поис ка общеrо слова. Рамка соответствует беrущему окну 81 82 rrGAA GTATCAAGGT GAGGG.. . I++++++I+  I+ + +  + +  + +1 GAATCTAGATGTArrCA,. . Рис. 1.5. Улучшенный алrоритм поис ка общеrо слова Верхняя рамка  предыдущее положе иие окна; нижняя  новое положение окна Трудоемкость этоrо алrоритма можно сократить примерно в w раз. Для этоrо достаточно сделать простое наблюдение (рис. 1.5). При сдвиrе правой rраницы окна на одну позицию вправо число совпавших букв k' Е окне увеличится на 1, если в окно попадет совпавшая пара и не изменит ся в противном случае. При СДВИl'е же левой rраницы окна на одну П02И цию вправо число k' уменьшится на 1, исли из окна вышла совпадающая пара букв и не изменится в противном случае. Таким образом. нет необ ходимости в каждом положении окна подсчитывать число совпадающих букв, а достаточно лишь следить за ero изменением. Теперь алrоритм выrлядит так: просматриваются все наложения последовательности S, на 32; при каждом наложении подсчитываем число совпадений в крайнем левом положе нии окна, затем сдвиrаем окно вправо и следим за изменением числа k' совпадений. В тех случаях, коrда k' превысит пороrовое значение счита 16 
ется, что найдена rомолоrия. Этот алrоритм называют методом скользяqей рамки. Ero трудоемкость равна N,'N 2 . Метод lrpHOrO разожения. Описанные алrоритмы применимы для pe ШеНИЯ задач 1 и 2, однако для задачи 1 (поиск строrих rомолоrий без замен и делеций) можно предложить алrоритм, требующий Bcero N,+N 2 +a' операций, rде а  число букв в алфавите (для нуклеотидных последова тельностей a4, для аминокист.отных последовательностей т20), а 1  некоторое число, смысл KOToporo будет пояснен ниже. Работа этоrо алrо ритма также весьма проста (Kar1in et a1., 1983). По последовательнос тям Sj и S2 составляем таблицы Т, и Т 2 положений всех подслов (фраr ментов) длиной 1 (например, таблицы положений всех rексануклеотидов) так, что каждой строке этой таблицы отвечает одно подслово. Например, последовательности ТАТОСА соответствует одна строка, а последователь ности CTAGCG  друrая и Т.д.. Число строк В каждой такой таблице равно а'. .На рис.1.6 приведен прюер построения такой таблицы. При достаточ но большом 1 мноrие строки будут пустыми. Для нахождения rомолоrий между последовательностями в таблицах находим непустые строки  именно они и определяют rомолоrию. Остается только проследить за тем, что He Рис. 1.6. Разложение последова тельности по lrpaм (12) Сверху показана последователь ность; слева  lrpbl; rоризон тальные линии  найденные lrpaMMbl; справа изображена таблица lrрю MHoro разложения 1ТСААСТАТСААССТСАССС АА 4 l' 'т 8 АС 5 12 17 АС ТА 7 ТТ I Те 2 15 1С 9 СА Э J6 С1 6 14 се 13 18 19 СС СА ,. ет се се которые rомолоrии длиной 1 MorYT быть фраrментами более протяженной rомолоrии. Напрюер, АТАТОС и CATATG являются фраrментами семичленника CATATGC. Идеи этоrо подхода весьма плодотворны, они будут встречаться и в дальнейшем, поэтому целесообразно дать ему название, например, ал rоритм lrpHoro разложения, поскольку построение таблиц Т, и Т 2 яв ляется разложением текста по lrpaMMaM (фраrментам длиной 1). Хотя алrоритм lrpHoro разложения применим лишь для решения ло кальной задачи 1, с ero помощью можно существенно ускорить решение за дачи 2 и, как мы увидим ниже, задачи о выравнивании. Можно заметить, что если два фраrмента длиной 1 имеют k совпадающих букв, то эти фраr eHTЫ имеют идеально совпадающие подфрarменты длиной не менее 1'[1/(1k+1)]. Поэтому, прежде чем решать задачу 2 с параметрами 1 и . целесообразно решить задачу 1 с параметром l' и затем вокру, най _енных rомолоrий проверять выполнение условий задачи 2. Этот прием ioзволяет принципиально снизить трудоемкость решения задачи 2, если 1Qлько l' достаточно велико. 17 
Рестриктазное картирование нуклеотидных последовательностей являет ся специальным случаем решения задачи 1. Здесь применение идей lrpaм MHoro раэложения также позволяет значительно ускорить процесс картиро вания и сделать ero практически не зависящим от числа рестрикционных сайтов, подлежащих картированию. Суть заключается в следующем. Все сайты рестрикции приписываются к тетрануклеотидам по первым четырем узнаваемым нуклеотидам. Например, сайт EcoR 1 GAATTC приписывается к четверке GAAT, а сайт Xho 2 ()GATC() приписывается к двум четверкам  AGAT и GGAT. В результате получается таблица (рис.1.7). Обратим вни, мание на то, что в одной строке разложения таблицы сайтов рестрикции может оказаться больше одноrо сайта, и наоборот  одна рестриктаза MO жет попасть в несколько строк таблицы. После этоrо просматривается последовательность. В каждой поэиции определяется тетрануклеотид, свя занный с ней. Далее по этому тетрануклеотиду в таблице находятся peCT риктазы, которые MorYT узнать эту последовательность, и их сайты узна вания сравниваются с нуклеотидной последовательностью в этой точке. Это сравнение необходимо для рестриктаз, узнающих более 4 нуклеотидов. Характерным показателем эффективности работы мноrих пакетов прикладных проrр является время, необходимое для картирования плазмиды pBR322 по 100 сайтам рестрикции. Большинство проrрамм выполняют эту работу за время 15 мин, применение же алrоритма lrpaмMHoro разложения позволя ет проделать эту работу за несколько секунд. АААА АААТ AGAT Xho 2 СААТ EcoR 1 ССАТ BamH 1 Xho 2 Рис. 1.7. lrpHoe разложение таблицы сай тов рестрикции Рис. 1.8. Построение позиционноrо дерева Применение метода lrpHoro разложения для аминокислотных после довательностей сопряжено с большими затратами оперативной памяти, пос кольку даже для запоминания трехбуквенных комбинаций требуется 2038000 строк таблицы разложений. Для Toro чтобы обойти эту TPYД ность, прибеrают к редукции алфавита, Т.е. объединяют близкие по свой ствам аминокислоты в rруппы, и в качестве букв в последовательности используют символы, обозначающие rруппы. Правда, применение подобноrо рода редукции требует затем проверки rомолоrий, найденных методом 1 rpaммнoro разложения, поскольку при преобразовании алфавита часть информации о последовательности теряется. 18 
Позиционные деревья , Описанный только что метод lrpHoro разло жения обладает одним существеннь недостатком  ран, 1 разложения дол жен задаваться заранее, и при этом возможны ошибки двух типов  слиш КОМ высокий ран, приводит к потере существенных rомолоrий, а слишком низкий  к большому информационному шуму. Мартинец (Martinez, 1983) использовал ориrинальный способ разложения по уникальным подсловам. опишем этот способ на примере. Пусть у нас есть последовательность S{TCAGAGT*}, rде *  признак конца последовательности. Тоrда строим дерево по сле дующему алrоритму (рис.1.8). Из корня выпускаем ветви по числу типов букв, которые встречаются в последовательности, и на концах ветвей пи шем соответствующие буквы и их позиции, Т.е. делаем lrpaмMHoe разло жение при 11. Если таких позиций оказалось несколько, то значит най денная буква не уникальна, в противном случае (как буква С в нашем примере) найденная буква является уникальным подсловом. Из неуникаль ных вершин выпускаем ветви по числу типов букв, которые следуют за co ответствующей буквой. Так, за буквой А Всеrда следует буква G, поэтому из клетки А выходит одна ветвь, а из клетки G, за которой MorYT следо вать либо А, либо Т, выходит две ветви. В вершинах BToporo уровня пи шем списки позиций, с которых начинаются соответствующие двухбуквенные слова. Если список состоит из одноrо элемента, значит это двухбуквен ное слово уникально, в противном случае продолжаем ветвление. В конце процесса получаем так называемое позиционное дерево. Каждый путь по нему до висячей BepHЫ описывает уникальные подслова минимальной дли ны. Показано, что число операций, необходимое для построения TaKoro дерева имеет порядок N'ln(N), ['де N  длина последовательности. При помощи позиционноrо дерева можно анализировать повторы  любой путь от корня, не доходящий до висячей вершины отвечает повтору. Чтобы найти общие слова двух последовательностей, их объединяют в oд ну. Далее для объединенной последовательности строится позиционное дe рево, затем на нем ищутся пути, соответствующие двум последовательнос тям  они отвечают rомолоrиям. Метод Мартинеца более трудоемок и требует большей памяти, чем прос тейший метод lrpaмMHoro разложения, однако при ero помощи получать серьезные результаты о частоте встречаемости различных подслов, Haxo дить очень короткие уникальные подпоследовательности и Т.П.. Аналоrич ные идеи разложения последовательности на уникальные подслова, но с использованием методов быстрой сортировки, высказывались также в рабо те Корна и др. (Korn et a1., 1977). 19 
1.3. ВЫРАВНИВАНИЕ БиолоrИЧЕСКИХ ТЕКСТОВ ОСIю вные.. IIО}i !1ТИЯ , Задача выравнv.Р"НИfi яр,тУ,ется. пожалуй, наиболеt общей 3Н.l!ачей поиска rсмолоr!'й. поr:коп.vv при ВЫI'3.внивании мы имееl, ВОЗМОЖНОС'l'Ь учесть довольн() сt'ци"; виды ра?.'lИЧИЙ 'eKCTOB ЗЮ,IFНЬ. встаi3Ю!. делеЦИ'1. ЕдинствеНЕCJе, чеrс не.пь:зя учесть при решеН;,1 задач ( выраВН;I"ЕЙН:П, так это 6ЛОЧЕНХ псрестаНОIiОК, хотя пр;: лока;;ьнои подход можно обнаружить и их. Чтобы конкрети,шровать r:редмет дальнейшеrо об. суждения, введем несколько основных по!!ятий. Выравниван;<ем двух TeK' тов будем называть р'3.сстаНОЕКУ встарок На последовательностях. H рис. 1.9, а пр:веден пример к:равнив;:шия. Очевидно, что это вырзвниваНИе тrСАДС1ДТСДАС1САСССТАТGДД lТСАД{;' lA1AA.(..C T{AG(.(.fA1GAA ._,   I.?oo<)<:ooo 00000 0000  00 , 00 с 00 о 000 O ,. i    I  ос о " о о < о с> Q СО   : ;! >oo: 0:0 .о{ с Q 00 .. ОО О Q  . .000 о 00.0 о о о о о о 00 а    А.С: Т  А Те А "'GG l' A   т G . АА Т ;!, о: 00 1 ТСА,н Т А T CA"GCTC"GGGT A.TC"A о о о о о о о ОСО о о 00 б .......ot .... ... "". ....  AC Т А. тесс" 11.CCCA  GC CAA", дс а R  1 тс.' AG'J.1 i  iCA > :AGG =т: САСС GTAT: СА" :*..'t-" '*"': "..*: ...."': . : : де. т А 1 :СС c...: 1 AC:  :CAGG   < САА.. Т AtA: б (TCAATДTCAACCTCACCCTATCД, ........ AGATCGCA1AGCCACGGTA Рис. 1.9. i1римеры выравниваниЙ (а,б,Р) , и с. 1.10. Путь на ТОЧf:ЧНО; !НТРИЦ8 rоиолоrии (а \ и сос'" веТСТВУ!Gщее выравнивание (б сделано не наИЛУЧQИМ образом, поскольку любой здравомыслящий исследu ватель в начале нижнеrо текста сделал бы на одну вставку меньше, посл ААС в верхнем тексте не делал бы вставки и Т. Д., т. е. сделал бы BЫp8,, нивание, как на рис.1.9,б. Почему ж(; выравниьание ри::;.1.9,б лучше, t;e выравнивание рис. 1.9, а? Вопервых. II'JTO!.IY, ЧТО F ;-:,(;м больu:е совпадаj) щих букв, BOBTOpЫX, В нем меньше вставок (ИЛИ делеий, тау- как BCTaB ка в одну последовательность эквивалентна делеции в друl'Оn r:оледова тельности), втретьиУ.:, в He!vI меньше 3::J.М8H. Чтобы r;ри опре1i:( ЛЕ:НИИ опт," мальноrо выравнивания учесть все три требования (побольше совпадений поменьше делеций и зю,\ен). вводят так называемую функцию сход:-тва F: Fkm.vmkd.Vdkc.vc ' (1.1 rде k m , k i1 , kc  ко;;ичество совпадений, делеций нии; V m , V d , V c  не!\Оторые весовые УОЭффlциенты. ется оптmлальным. если ФУНКЦИЯ сходства для Herc любоrо друrоrо выравнивания. Часто оптимальных несколько, например ВЫРRы!Ивание рис. 1. 9. в ничем рис.l.9,б. и замен в выравнива Выравнивание счv.ТR не меньше, чем л; выравниваний бывае" не хуже вырав!!ивани)- 2[: 
Для выбора коэффициентов V m , V d , V c используют различные соображе ния. В частности, известно, ч'Т'о мутационный процесс чаше ПРИВОДИТ к транЗИllИЯМ (заменам AC, TC), чем к заменю друrоrо типа, поэтому при исследовании проблем эволюции заменам типа транзиции придают меньший вес. С друrой стороны, при формировании дуплексов ССпары да!ст болЫJИЙ выиrрыш в энерrиv., :lOэтому при анализе вероятностей об;>аЗСВilr!ИЯ ";уп лексов совпадениям GG и CC придают больший вес. При выраВНИБании аминокислотных последовательностей замеНЮ,1 придают вес в соответствии с близостью ИХ СЕОЙСТВ или частотой аминокислотных замен в мутащючном процессе. Для этоrо можно испольэовать табл. 1.1 и 1.2. Сложнее Дl:Oло обстоит с "ценой делеции" V d . Для Toro чтобы оценить вероятнос'i'Ь деле ЦИИ, необходимо предварительно эти делеции обнаружить, Т.е. провести выравнивание, а для этоrо, в свою oepeдь, Hao задаться коэффициентом V d . 06ЫЧНIJ полаrают vo"(25)'vm' Если 'J/v,,>2, т" в оптш,:ашно' EыpaB нивании никоrда не будет замен, поскольку в этом случае выrоднее деле тировать несовпадаюшие буквы из обеих послеJювательностей и получить штраф 2v d , чем получить штраф V c за несовпадение. Можно представить себе и использовать более обший вид функции cxoд ства. Для этоrо заметим, что любое выравнивание можно разбить на чере дующие с я блоки  совпадающих, несовпадающих и делетированных эле!4ен тов. Например. на рис.1.9,в мы имеем 11 таких блоков: с lй по 4ю по зицию  блок делеций в первой последовательности, 59.я ПОЗИЦИЯ  блок совпадений и т. д. . После TaKoro разбиения можно ьпредели';Ъ функцию сходства как сумму функций сходства по блокам: F2:f (k )+2:f (k )+2:f d lk d ) . m m с с (1.2) ['де k m , k c ' kd  длины блоков совпадений, несовпадений, делеций, а f m , f c ' fd  функции сходства для этих блоков соответственно. Функция сходства (1.2) может использоваться, например, при выравнивании коди рующих областей, поскольку делеции/вставки, не кратные размеру кодона, приводят к сбою рюки считывания, и за них необходио назначать значи тельно большие штрафы, чем за делеции/вставки, кратные трем. Пи aHa лизе блочных пере строек обычно назначают штраф за делецию, слабо з",ви сящий от размера делеции и '1'.11. Из сказанноrо видно, что выбор конкретной функции сходства подчинен достаточной степени субъективизма. Но, к счастью, сильно rомоло,ичные последовательности выравниваются примерно одинаково при различных Ba риантах функции сходства, чеrо нельзя сказать о последовательностях со слабой rомолоrией. Поэтому утверждения о rомолоrии 90% rоворят о дейс ТВительно высокой rомолоrии, в то время как "rorолоrия 40%" ничеrо не rоворит без четкоrо указания параметров, которые использовались при выравнивании. Дальнейшее описание алrоритмов будем вести для простей шеrо вида функции сходства (1.1). 21 
Иноrда в качестве критерия качества выравнивания используют рас сто яние (Se11ers, 1974). в случае последовательностей под расстоянием по нимают обычно минимальное число элементарных преобразований, превраща ющих одну последовательность в друrую. Такими элементарньи преобразо ваниями MorYT быть делеция, вставка, замена или в более сложных слу чаях транспозиция элементов. Однако для решения задач выравнивания (а особенно для решения локальных задач выравнивания) более удобно ис пользовать сходство, хотя принципиальной разницы между этими критерия ми нет. Метод динамическоrо проrраммирования. Чтобы описать алrоритм пост роения оптимальноrо выравнивания, попробуем представить себе rеометри ческий образ выравнивания. Для этоrо вспомним точечную матрицу rомоло rии (рис.1.10). Любую линию на зтой матрице, идущую либо вверх, либо вправо, либо вправо  вверх параллельно диаrонали условимся называть путем по точечной матрице rомолоrий. Нетрудно доrадаться, что любой путь по матрице из левоrо нижнеrо в правый верхний уrол отвечает HeKO торому выравниванию, причем движение вверх или вправо отвечает делеции в одной из последовательностей, а при движении параллельно диаrонали прохождение через пустые клетки соответствуют заменам, прохождение че рез точки  совпадениям. Например, пути рис.1.10,а соответствует BЫ равнивание 1.10,б. Задача оптимальноrо выравнивания, таким образом, сводится к поиску наилучшеrо пути по матрице rомолоrии. При поиске этоrо пути будем одновременно строить матрицу наилучших значений функ ции сходства: F(i,j)  есть значение функции сходства, отвечающее оп тимальному пути из левоrо нижнеrо уrла матрицы rомолоrий в точку (i,j). Если известны значения функции сходства в точках (il,j), (i,j 1) и (il,jl) и оптимальные пути в эти точки, то можно найти значение функции сходства для наилучшеrо пути, ведущеrо из точки (1,1) в точку (i,j), и определить этот путь. Оптимальное значение функции определяется по формуле F(i,j)max{ F(il,j)Vd' F(i,jl)vd' F(il,jl)+vi)' 0.3) ['де viJvm' если iбуква первой последовательности совпадает с j бук вой второй последовательности, и ViJVC в противном случае. Наилучший путь к точке (i,j) определяется членом в формуле (1.3), на котором достиrается максимум, это наилучший путь к соответствующей точке ((il,j), (i,jl) или (il,jl)) плюс переход: в первом случае по ['o ризонтали, во втором по вертикали, а в третьем по диаrонали (рис.1.11). Например, если максимум достиrается на втором члене форму лы (1.3), то оптимальный путь в точку (i,j) будет состоять из опти мальноrо пути в точку (i,jl) (а он нам известен!) плюс переход впра 22 
во. На практике обычно фиксируют только эти переходы, а весь оптималь ный путь восстанавливают по ним в конце работы алrоритма. Совокупность найденных переходов будем в дальнейшем называть картой обратных пере ходов. Для окончательноrо построения алrоритма осталось только опреде лить начальное значение функции сходства в точке (1,1) и разобраться с начальНОЙ (нижней) строкой и начальнь (левь) столбцом матрицы F (ри с . 1 . 12 ,а). Для этоrо добавляют слева столбец с номером О, а снизу строку с номером О. Значения на этих линиях определяются ценой делеции рис. 1.11. Переходы при построении оптимальноrо выравнивания рис. 1.12. Пример матрицы сходства (а), карты путей (б) и оптимальноrо выравнивания (в), построенных методом динамическоrо проrрирования (vml, vdl, vcl) с А А Т G А А G Т А Т С -< IZ:I' -8 -< 11 : . 7 ..." 1': I -1 с...> ': 7 I ..... . : I . -< 7: 7 -6 "" 6: . 4 ..... 5: s s ..." .. : 4 -4 "" 3 : -. I ..." Z: -. -. ..... 1 :. -1 2 I I 2 а -. -7 7 I -. I . 7 . 2 3 3 4 -а -5 -1 4 a a 2 . , -. . I 1 I I 4 -а I I I I z з I I 1 I 1 -. I I . . I I 1 -. o 4 з -. 3 z . 1 1 t e 2 2 1 i 1 a a z , a I I -! I I -2 -з -4 2 з -4 -о . 4 6 . 7 I . 7 -В -. '" B . 18 -!] 12 б I -2 2 . -1 3 3 -1 a 3 -3 a -з 4 .. -Б -3 -4 6 . 7 CAATGAAGTATC в *** *** ** TGAGTAATCGAA /V 1J  V d с А А Т G А А G Т А Т С <1: <1:  U 6' ...... <1: <1: ......  <1: t:J ...... Q .0 ,Iii о .0 .о ..0 ..0 .0 .' ,6, ф 6 крайних букв в последовательностях. На рис.1.12,а изображен пример матрицы F, а на рис.1.12,б  соответствующая карта путей при значениях параметров Vmvcvdl, выделенный путь отвечает оптимальному выравни ванию. На рис.1.12,в приведено выравнивание, соответствующее оптималь ному пути. Оптимальное значение функции сходства для этоrо выравнива ния F(N"N 2 )o. Индуктивные методы поиска оптимальных путей, подобные только что описанному, называются методами динамическоrо проrраммирования. Алrо ритм динамическоrо проrраммирования для решения задач выравнивания впервые был предложен Нидльманом и Вуншем (Needleman, Wunsch, 1970) и ero можно применять для решения широкоrо Kpyra задач. Алrоритм Нидльмана  Вунша построен таким образом, что он ищет оп Тимальный путь из левоrо нижнеrо уrла в правый верхний. При этом BЫC тавляются штрафы за краевые вставки, например в выравнивании рис.1.12,в за порвые три и последние три нуклеотида функция сходства 23 
штрафуется на 6'v d , хотя очевидно, что имеет место просто сдвиr одной последовательности относительно друrой. Поэтому метод Нидльмана  Бун ша применим только для тех случаев, коrда совпадают "начала отсчетов" сравниваемых последовательностей. Как нетрудно убедиться, трудоемкость этоrо алrоритма равна N,'N 2 , однако, если наложить оrраничение на максимальное число ошибок k, то можно сократить число операций, необходимых для поиска оптимальноrо пути до величины порядка N'k (Landau et al.,1986). Действительно, в этом случае нет необходимости вычислять функцию сходства во всех точ ках матрицы, а достаточно их вычислить лишь в окрестности диаrонали шириной 2'k. Можно модифицировать задачу выравнивания таким образом, чтобы не штрафовать за сдвиr последовательностей дру!"' относительно друrа. На матрице rомслоrий эта задача будет формулироваться так. Среди всех пу тей, начинающихся и кончающихся на rранице матрицы rомолоrий. найти наилучший. Алrоритм, решающий такую задачу, очень похож на метод Нидльмана  Бунта. Отличие заключается в том, что при построении MaT рицы F под оптимальным значением функции сходства понимается функция сходства для наилучшеrо пути, ведущеrо из точки (i,j) на нижнюю или левую rранипу матрицы rомолоrии. Для Toro чтобы числа F(i,j) имели соответствующий смысл, достаточно вместо введения нулевых строки и столбца определить нижнюю строку и левый столбец: F(l,j) и F(i,l) при равниваются V m или V c В зависимости от совпадения или несовпадения co ответствующих букв в выравниваемых словах. Чтобы теперь найти опти мальный путь, необходимо после построения матрицы F найти наибольшее значение функции сходства на правой и верхней rранице матрицы выравни вания и восстановить оптиwальный путь из найденной точки. Первая постановка задачи выравнивания "из уrла в уrол" характерна для анализа сходства заведомо близких текстов, например rомолоrичных белков или сиrналов, для у-оторых начала и концы функционально значимы. Вторая постановка задачи "от rраницы до rраницы" встречается при ceK венировании для стыковки прочитанных фраrментов, а также при выравни вании последовательностей, коrда функциональнозначимые точки на них неизвестны, но предполаrается отсутствие несовпадающих участков на краях. Есть еще одна постановка задачи rлобальноrо выравнивания  cpe ди всех путей найти наилучший. Здесь не ставится никаких оrраНl!чений на положения концов путей. Такая постановка задачи типична при иссле довании функциональных сиrналов, сайтов рекомбинации, подборе зондов и пр. Задачу о поиске оптимальноrо пути без оrраничений на положение ero концов также можно решать методом динамическоrо проrраммирования. Для этоrо прежде Bcero необходимо определить смысл чисел F(i,j). В этом случае под F(i,j) будем понимать значение функции сходства для наилуч шеrо из путей, приводящих в точку (i,j) (он может начинаться, ['де 24 
уrодНо левее и ниже этой точки). Если мы разобьем какойлибо путь на два участка, то цена целоrо пути будет равна сумме цен ero частей. По этому понятно, что к любому пути невыrодно добавлять участки с отрица тельноЙ ценой. Отсюда следует, что на всем оптимальном пути величина F(i,j) должна быть положительной и может обращаться в О только внача ле, поскольку в противном случае оптимальный путь будет иметь участки с отрицательной или нулевой ценой, которые выrодно отбросить. Be эти рассуждения допускают наличие на оптимальном пути BHYTpeHHero участка с отрицательной функцией сходства, например блок делеций в одной из последовательностей, который соединяет два хорошо совпадающих участка, поскольку отбрасывать можно только начало или конец пути, но не cepe дину. Таким образом, можно модифицировать формулу (1.3) для вычисления F(i, j): F(i,j)max{ F(il,j)vd' F( i, jl)vd' F(il,jl)+vjJ' О }. (1.4) Так же как и для предыдущих задач, будем параллельно с матрицей F строить карту обратных переходов. Точка (i.,j.), отвечающая наибольше му значению F.max{F(i,j)}, определит нам конец ОП1Амальноrо пути, и начиная с этой точки можно пройти по карте обратных пере ходов до Toro места, ['де F обратится в О  это соответствует началу оптимальноrо пути. Все описанные выше варианты метода динамическоrо проrраммирования применимы для функции сходства вида (1.1). При использовании более об щеrо вида функции сходства (1.2) применяется вариант Ватермана и Смита (Waterman et a1., 1976) метода динамическоrо проrрирования. Ero трудоемкость составляет величину порядка min(NtON22,Nj20N2)' что явля ется платой за более общий вид функции сходства. Описанные алrоритмы позволяют находить единственный оптимальный путь. Однако иноrда бывает интересно посмотреть альтернативные вариан ты с той же ценой или с ценой, чуть меньшей. Эту задачу также позволя ет решать метод динамическоrо проrрирования (Waterman, 1983). Локальное выравнивание. Описанные алrоритмы решают rлобальную зада чу выравнивания, Т.е. ищут наилучший в том или ином смысле путь. Воз можна также локальная постановка задачи выравнивания: найти все пути На матрице rомолоrий, для которых функция сходства превышает заданную величину и удовлетворяют следующим требованиям: вопервых, найденные пути должны быть оптимальными при фиксированных начале и конце; BO вторых, эти пути должны быть в некотором смысле максимальньwи  любое наращивание локальнооптимальноrо пути может привести лишь к уменьше нию функции сходства; втретьих, эти пути должны быть непрерывньwи  25 
функция сходства фраrмента пути от начала до любой ero точки должна быть положительной. Это требование означает запрет на чисто формальное объединение ничем не связанных путей. Кроме Toro, разумно наложить запрет на пересечение путей: если два пути пересекаются или имеют об щие точки, то из них выбирается тот, для KOToporo функция сходства Ha ибольшая. Эти требования, кроме требования максимальности. не встреча лись в локальной задаче поиска общеrо слова, поскольку в задаче об об щем слове пути MorYT идти только параллельно диаrонали. Задачи о локальном выравнивании возникают при поиске разноrо рода повторов, возможных сайтов рекомбинации, анализе и поиске разноrо рода функциональных сайтов и т.п. Отметим, что если существует хорошее (с функцией сходства больше пороrовоrо значения) rлобальное выравнивание, то оно (точнее ее существенная часть) будет найдено при решении ло кальной задачи выравнивания. Таким образом, задача поиска локальной rомолоrии в некотором смысле является самой общей задачей выравнива ния. Для поиска локальноrо выравнивания можно применять тот же метод ди намическоrо проrраммирования, что и для задачи поиска оптимальноrо пу ти. Пусть В результате применения этоrо метода мы построили матрицу F и карту обратных пере ходов (рис.1.13,а,б). Возьмем теперь любой путь на карте переходов и построим вдоль Hero rрафик изменения функции сходства (рис.1.14). Он будет состоять из целоrо ряда подъемов и спа дов  подъемы соответствуют совпадениям букв в сравниваемых последова тельностях, спады  дефектам rомолоrии  заменам и делециям. Выделим участок пути до наибольшеrо значения функции F. Он отвечает всем Tpe бованиям локальной rомолоrии. если только наибольшее значение функции сходства превосходит пороrовую величину. Действительно, этот участок оптимален по самому построению, он максимален, поскольку любое ero Ha ращивание приводит лишь к уменьшению функции сходства и, наконец, он непрерывен, так как функция сходства на нем всюду положительна. Есть ли на этом пути друrие участки, отвечающие требованиям локальной rOMo лоrии? Есть. Для Toro чтобы в этом убедиться, отбросим только что най денный участок и построим функцию сходства для оставшейся части пути, помня, что она не может быть отрицательной (на рис.1.14 она обозначена пунктирной линией). После TaKoro преобразования функция сходства MO жет неоднократно обратиться в О. к каждому фраrменту с не нулевой функ цией сходства можно применить предыдущие рассуждения, Т.е. найти наи большее значение функции сходства, выделить участок от начала фраrмен та до максимума функции сходства в качестве локальной rомолоrии, пе ресчитать функцию сходства, начиная от найденноrо максимума. Описанную процедуру нужно повторять до тех пор. пока максимальное значение функ ции сходства на оставшемся участке превосходит пороrовое значение. Об работав таким образом все пvти, построенные методом динамическоrо проrрирования, можно найти все локальные rомолоrии. Описанный метод 26 
является модификацией, предложенной И.И.Ветровым (частное сообщение) алrоритма rоада и Канехисы (Goad, Kanehisa, 1982). Описанные методы динамическоrо проrраммирования достаточно эффек тивны, требуют не больше порядка N t oN 2 операций для решения задачи BЫ равнивания, однако им присущ серьезный недостаток  они требуют для своей работы большой емкости памяти для запоминания карты обратных пе реходов (помнить всю матрицу F не обязательно, поскольку на каждом ша re используется только предыдущая строка этой матрицы). Так, для BЫ равнивания двух последовательностей по 103 букв требуется память по рядка одноrо меrабайта. Оперативная память TaKoro размера редко BCTpe чается в персональных компьютерах, и для реализации методов динамичес Koro проrрирования приходится использовать внешнюю память на Mar нитных дисках, что приводит к заметному увеличению времени работы nporpbl. Т,"А1;1' АТСАА GGTC.AC«;fi T'roC ТСАС:С.АА . о о о О T'AAC1A1t;';'l;, 1 САС"7 С,С 1 САС СА;'  о о : о 00 ,/'oo / .o ,/' о. о  / ... о, u О О О . '0 . о о  о о о ... о о 5J ,/'0 о rff о о % 11 t 1 2 6 а I , J .. 2 t t 3 1 1, t t t 1 04 t J " 4 2 а I Z 3 6 <4! 1 1 t 5 э; 1 1 I .. "2: I :} 11 1 1 1 . . 1 . . . J . . . 1 " .. 2 3; 6 Э 2 2: 1 I t 6.6 3 " t 1 1 141&:11182 364!' ZIJ 1 t 1; Э 1 1 I 4 t 2 2 а I 1 .. Z 1 . 1 1 II , 11 , ,11 , 1 , . . , . . . 1 1 . 1 1 . , . 1 . . I I .. е , 1 . J J . 1  1 u ... о о о . 00 :):/0 о о о 11  ,  I  J . 1 11 о 00 u u 1 . 11 1 1 . . , . о о о о о  ,/' .r о ,/' 00 о . 1 11  1 u . . 1 1 .1 . . . . J 1 о 00 а Рис. 1.130 Матрица сходства (а) и карта путей (б) в задаче поиска оптимальноrо пути (vml, vd2,vc2) Жирной линией показан оптимальный пf.ть; тонкие линии соответствуют перспективным путям; точечные линии  'щетина" бесперспективные пути б РИс. 1.14. Изменение функции сходства вдоль пути F 8 6 4 2 o I,I,GTA1CAAGG !ACT"CAA.CC I ITCAGGCil !ТСАССССТ I tylAtt с т !;. с с Чтобы обойти эту трудность, достаточно взrлянуть на карту обратных переходов для эадачи локальной rомолоrии или для задачи поиска опти мальноrо пути (рис.1.13,б) и убедиться в том, что эта карта в основном 27 
пуста  на ней встречаются лишь отдельные "веточки". Может быть, в этом случае не'!' необходимости запоминать всю карту, а лишь только "Be точки", отвечающие rомолоrиям? Это можно сделать так. При работе алrо ритма динамическоrо проrраммирования карта обратных переходов и матри ца F строятся строка за строкой. Получив очередную строку карты пере ходов, ее можно упаковать, выбросив пустые элементы и запомнив, ,де и сколько таких элементов было выброшено. Этот прием позволяет упаковать карту достаточно плотно (в 510 раз). В принципе карту обратных пере ходов можно уплотнить еще примерно в 2 раза, для чеrо обратим внимание на то, что все веточки 06расли "щетиной", отвечающей переходам, не имеющим продолжения. Было бы разумно перед упаковкой и запоминание карты эту "щетину" "сбрить", что делается достаточно просто. Макси мальный размер делеции и диаrональноrо перехода по несовпадающим пози циям леrко опеделить 1dF(i.j)/Vd' 1mF(i,j)/vc' Поэтому достаточно просмотреть ld клеток матрицы rомолоrии по rоризонтали и 1т клеток по диаrонали, и если ни из сдной из них невозможно продолжение, значит эта линия  "щетина" и ее надо "сбрить", приравняв к О функцию CXOДCT ва во всех клетках, ей принадлежащих. Этот прием применим при условии, что приоритетным при выборе максимума в формуле (1.4) является переход по диаrонали. Возможен также друrой подход к про6леме запоминания карты обратных переходов  не запоминать ее всю. Для этоrо вспомним метод lrpaMMHoro разложения. Пусть штрафы за делецию и за замену равны vdvc2, а пре мия за совпадение равна vml. Тоrда ясно, что при этих условиях любая rомолоrия начинается не менее чем с трех совпадающих букв. В этом слу чае можно предложить подход: методом lrpaмMHoro разложения находим все совпадающие тройки (назовем их затравками)  с них может начинать ся rомолоrия. Начиная с совпадающей тройки пускаем алrоритм динамичес Koro проrрирования. При этО/,! просматривается только часть матриць: rОМQЛОI'ИИ. В процесс е построения функции сходства и карты обратных пе реходов запоминаются только ненулевые церспективные клетки, связанные с выбранной lrрой. Функция сходства F и карта обратных переходов строятся до тех пор, пока не получится пустая строка, Т.е. строка, не содержащая ни одной ненулсвой перспективной клетки, связанной с зат равкой. После этоrо находим наибольшее значение функции сходства и с помощью карты обратных переходов восстанавливаем выравнивания. Полу ченные выравнивания запоминаем, а карту обратных переходов теперь мож но забыть и использовать освободившуюся пюять для построения друrоrо выравнивания. Применение этоrо подхода озволяет находить локальные rомолоrии при оrраниченном ресурсе пюяти. Следует, однако, иметь в виду, что описанный алrоритм не rарантирует выполнения всех условий локальной rомолоrии, а именно может нарушиться условие непересечения путей. Чтобы этоrо не произошло, следует проверить, не является ли затравка фраrментом уже найденной локальной rомолоrии. При наличии Ta 28 
кой проверки ОI1ИСсШНЫЙ Rлrорv.тм ОКЗЫR з.ется Becы.a эффективным, пос кольку ero использование не требует работы со всей матрицей, а прос матриваются только "веточки", определяющие локальную rомолоrию. Иными СЛОВЮАИ, экономия памяти позволила сэкономит;, вреия счета, причем тем большt3, чем менее "ветвисты" карты обра'rных переходоь, а это, в свою очередь, связано с параметрами rомолоrии  чем выше отношение Vd/V m , тем меньше ветвлений на к,{рте, а стало быть, меньше время счета. К co жалению, c;',porylO оценку трудоемкости ЭТОI'О аш'оритма сделать не yдaeT ся. При uписании точечных матриц rомолоrии rоворилось о проблемс филь трации. В качестве альтернативы описанному методу фильтрации можно ис пользовать следующий фильтр: точка ставится в том случае, если она принадлежит локальной rом,)лоrии (St,aden, 1982). В атом случае точечная матрица rО!Аолоrии выступат Б качестве спссоба визуализации результа тов ПОИlка rомолоrи. 1.4. ПОИСК rомолоrий ПО БАНКУ rЕНЕТИЧЕСКИХ ТЕКСТОВ Применение метода 1 rрам ЩIQI'Q. ...Rазложе!ш в--, Одной из наиболее инте ресных и в то же время наиболее трудных задач, связанных с поиском ['o молоrий, является задача поиска rомолоrий по банку rенетических TeKC тов. Трудность рещения подобноrо рода задач связана с анализом колос сальных объемов информации. Так, объем банка нуклеотидных последова тельностей в настоящее время превосходит 107 букв и это число стреми тельно растет. Применение описанных выше квадратичных по числу опера ций методов требует для решения таких задач порядка 1011 операций и больших объемов памяти и доступно лишь самым мощным суперкомпьютера,! (Gotoh,Tagashira, 1986). С друrой стороны, можно попытаться найти альтернативные методы с тем, чтобы решение таких задач стало возможным на персональных компьютерах средней мощности. Один из таких путей связан с идеями lrpaMMHoro разложения. Алrо ритм поиска rомолоrий по банку последовательностей, основанный на ис пользовании lrpHorc разложения, мало отличается от уже описанноrов П.2  тестируемая последовательность раскладывается по lrpaM и за тем проверяется встречаются ли те или иные lrpaMMbl в банке последова тельностей. Однако такое применение этоrо метода требует известной oc торожности. Дело в том, что неудачное задание paHra lrрю может при вести либо к очень большому уровню шума, либо к пропуску существенной rомолоrии. И если при поиске rомолоrий между двумя последовательностя ми yмepeHHoro размера Taкoro рода ошибка не страшна, поскольку можно очень быстро повторить расчет с друrими параметрами (потери времени составят секунды), то при анализе банка последовательностей за такие ошибки приходится платить часами счета. Кроме Toro, выбор слишком BЫ 29 
cOKoro paнra lrp требует большой памяти для размещения разложения. Обычно при применении методов 1 rpHoro разложения используют ран, 113 для нуклеотидных последовательностей и 14 для аминокислотных последовательностей. Метод lrpHoro разложения для задачи поиска по банку последова тельностей имеет существенный недостаток  он ищет только строrие ['o молоrии без каких бы то ни было дефектов. Однако есть возможность Hec колько смяrчить зту cTporocTb. Для этоrо надо изменить определение ['o молоrии или, иными словами, начать решать друrую задачу. Теперь под rомолоrией будем понимать существование Р совпадающих lrp, paCCTO яние между которыми не превышает k букв, ['де m,l,k  параметры rомоло rии. Например, две последовательности рис.1.15 rомолоrичны в смысле параметров m3, 14, k4, поскольку они имеют три пары rомолоrичных четверок, разнесенных не более чем на 4 буквы. Такой подход позволяет TCДCCTCДTTCДTCДДCCC ***** **** ***** CTДCCTCДCДTTCДДCCC Рис. 1.15. Фрarменты, rомоло rичные в смысле разнесенных 1 ['p применять методы lrpHoro разложения для поиска rомолоrий с оrрани ченными вставками и заменами  лишь бы сохранились m rомолоrичных 1 rp. На практике можно применять различные наборы параметров, при зтом будут решаться, вообще rоворя, разные задачи и возможно получе ние разных результатов. При реализации этоrо алrоритма (Кондрашов, Ройтберr, частное сообщение) для каждой цепочки rомолоrичных lrpaмM приписывается вес, который вычисляется как сумма весов lrp минус штрафы за спейсеры, пропорциональные их размерам. При выборе парамет ров следует иметь в виду, что увеличение параметров m и k приводит К увеличению времени счета, кроме Toro, увеличение параметра k повышает уровень шума. Применение методов lrpHoro разложения для поиска ['o молоrий позволяет находить достаточно короткие rомолоrии с относитель но небольшим количеством дефектов. При поиске же протяженных rомолоrий с большим количеством дефектов такой подход не применим. Вилбур и Липман (Wi1bur, Lipman, 1983) предложили следующий метод поиска rомолоrий по банку последовательностей. Представим себе точеч ную матрицу rомолоrий, построенную для тестируемой последовательности и банка последовательностей (рис.1.16) при параметрах фильтрации: дли на окна 1, число ошибок О. ДЛЯ построения такой матрицы применим метод lrpHoro разложения. Как известно, rомолоrии без делеций и вставок отвечают на зтой матрице диаrоналям, достаточно заполненных точками. Чтобы оценить значимость той или иной диаrонали, достаточно подсчитать на ней количество точек. Если это число использовать в качестве крите рия rомолоrии, то будут потеряны rомолоrии, содержащие делеции и зu 
вставки. Поэтому в качестве значимости диаrонали можно использовать суммарное количество точек на нескольких смежных диаrоналях (на рисун ке им отвечают числа, записанные под матрицей rомолоrии). Однако не все точки на смежных диаrоналях соответствуют выравниванию. Чтобы учесть это обстоятельство, при суммировании учитываются только те точ ки на матрице rомолоrии, которые MorYT быть объединены в выравнивание. В результате получаем набор чисел, показанный над матрицей rомолоrии. Трудоемкость этоrо алrоритма можно оценить величиной p"N,'N 2 , ['де р  вероятность совпадения букв; N 1  длина тестируемой последовательнос ти; N 2  размер банка последовательностей. Рис. 1.16. Иллюстрация Me тода Вилбура  Липмана По верхней rранице отмечены веса диarоналей 34642.1 /// . , . // /./>. /'.//. / . / ",,1;>;</ . " ,,",./ //.",.,." . з Алrоритмы Кондрашова  Ройтберrа и Вилбура  Липмана идейно близки между собой, но решают, вообще rоворя, разные задачи. Первый ориенти рован на поиск коротких локальных rомолоrий (длиной не менее p'(l+k 1», а второй  на поиск протяженных rомолоrичных участков. Так, например, появление короткой строrой rомолоrии (например, совпадения 15 нуклеотидов) будет обнаружено методом Кондрашова Ройтберrа, но будет пропущено при применении алrоритма Вилбура  Липмана, в то время Как для rруппы из 20 совпадаюших пентануклеотидов будет противополож ная ситуация. Ст  тистический метод поиска Q олоrий. При решении мноrих математи ческих задач используют необходимые условия. Например, при поиске Maк симума или минимума функции ищут точки, ['де производная этой функции обращается в ноль  эти точки имеют шанс быть максимальными или мини мальными точками функции. Использование необходимых условий не приво дит прямо К решению задачи, но значительно суживает кру, поиска. Было бы хорошо, если бы удалось сформулировать такие необходимые условия rомолоrии биолоrических текстов, которые леrко проверяются и при этом служат хорошим фильтром, отбрасывающим заведомо неrомолоrичные пары. Эти условия должны позволять взrлянуть на последовательность "в цe лом". Примером TaKoro рода необходимых условий является близость бук BeHHoro (нуклеотидноrо или аминокислотноrо) состава последовательнос тей. Буквенный состав последовательности является характеристикой пос ледовательности как целоrо, леrко вычисляется, и если буквенные COCTa вы сильно различаются, то последовательности заведомо неrомолоrичны. Но, к сожалению, такое простое условие является плохим фильтром  31 
слишком MHOrO неrомолоrичных последовательностей имеют близкие OYKBeH ные составы. Это связано прежде Bcero с тем, что буквенный состав ни как не учитывает порядок следования букв. Использование дибуквенноrо состава существенно более сильный фильтр, поскольку в нем в какойто мере учтен порядок букв. Если же еще использовать разнесенные диrрам мы, то порядок следования букв будет учтен еще полнее. Таким образом. чтобы сравнить две последовательности, необходимо подсчитать количест ва двухбуквенных сочетаний вида ХУ, xy, xy и Т.д. для каждой пос ледовательности и затем сравнить полученные наборы чисел если они будут близки, то последовательности MorYT быть (но не обязательно бу дут) rомолоrичньи, в противном случае они заведомо не rомолоrичны. Максимальная степень k разнесенности двоек является параметром алrо ритма: чем больше k, тем более жестким фильтром является соответствую щее неоБХОДЮJое условие r'омолсrии, но тем бльше времени требуется для ero проверки. Отличие диrраммноrо состава может служить мерой расстояния между последовательностями, однако в таком виде она неудобна. Действительно. если при сравнении двух последовательностей длиной 100 при k3 это расстояние оказалось paBHЬ 85, а при сравнении двух друrих последо вательностей длиной 800 при k5  370. то, что из этоrо следует? Какое расстояние следует считать случаЙНill, а какое указанием на возможность rомолоrии? Для решения этих проблем разумно нормировать диrраммные составы следующим образом. Рассмотрим последовательность S длиной N. Характеристической функцией e(i.X) буквы Х будем называть величину, которая равна 1 во всех позициях последовательности, rде встречается буква Х,и равна О в остальных позициях: 1, S(i )X eи,x) О. S(i),iX Через эту функцию удобно записать буквенный, диrраммный, 1 rpaмM ный состав последовательности a(X)1:eO,X), s а(Х, у, d)1:e( i,X) 'е( i+d, у), s а( Х, у, . . . , Z, d1, . . . , d 1 )  1: е ( i, Х) . е ( i +d1, у) . . . . . е ( i +d 1, Z) . s Обозначим вероятность появления буквы Х через р(Х) и зададим HOp мированный диrраммный состав формулой 32 
b(X,Y,d)(l/ (Nd))[e(i,X)p(X)]'[e(i+d,Y)p(Y)]. (1.5) s Тоrда расстояние между последовательностями определим как r(SI,S2) (1/k)[bl(X,Y,d)b2(X,Y,d)]2 d<k Х,У  ПО всему алфавиту (1.6) Формула (1.6) обладает тем преимуществом, что определяемое ею pacc тояние универсально: ero математическое ожидание не зависит от длины последовательности. На рис.1.17 приведена плотность распределения Be 2 Рис. 1.17. Плотность расп ределения вероятностей для статистическоrо расстояния между двумя случайными пос ледовательностями 1 r 123 m=l,82S Q) роятностей расстояния между двумя случайными последовательностями. Ma тематическое ожидание расстояния между двумя случайньи нуклеотидными последовательностями (p(X)O,25) равно т1,825. Посмотрим теперь на свойства расстояния (1.6). Пусть две последова тельности длиной N отличаются друr от друrа заменой или делецией. Tor да в них различаются 2(k+1) и k(k+4)/2 диrр, и расстояние между ни ми будет соответственно равно rc2(k+1)/N; rdk(k+4)1N. (1.7) rлядя на формулы (1.7), можно сказать, что расстояние r характери зует плотность числа дефектов rомолоrии. Отметим еще важное свойство расстояния r. Пусть две последовательности длиной N 1 и N 2 имеют совпа дающий участок длиной N. Тоrда математическое ожидание расстояния меж ду ними равно M[r(SI,S2)]m'[1 (h l 'h 2 )], rде m  математическое ожидание расстояния между случайньи последова тельностями, hlNIN1' h2NIN2' Последнее свойство расстояния r означа ет, в частности, что при сдвиrе последовательностей дру, относительно дрyrа расстояние будет увеличиваться, но не значительно, и поэтому оно позволяет улавливать rомолоrии на сдвинутых друr относительно друrа 2 Заказ N" 4327 33 
последовательностях. Наконец, расстояние r мало чувствительно к блоч ныМ перестановкам в последовательностях. Алrоритм поиска rомолоrий по банку последовательностей выrлядит так. Тестируемая последовательность разбивается на протяженные фраr ментЫ, длина которых L примерно равна ожидаемому размеру rомолоrии. При этом, чтобы учесть возможность несовпадения начал отсчета последо вательностей, это разбиение делается дважды  со сдвиrом на L/2 или трижды  со сдвиrом на L/3 (обычно используется L200). Банк последо вательностей также разбивается на фраrменты длиной L. На каждом из фраrментов тестируемой последовательности и банка определяется норми рованный диrрный состав по формуле (1.5) (для банка такую работу можно сделать заранее), и для каждой пары фраrментов вычисляется pac стояние r по формуле (1.6). Если расстояние r меньше пороrовоrо значе ния ro (обычно roo,3m), то эта пара фраrментов имеет MHoro шансов на rомолоrию. Трудоемкость этоrо алrоритма оценивается величиной a 2 'k"N,"N 2 /L 2 , ['де а  размер алфавита. Из этой формулы видно, что чем длиннее искомая rомолоrия, тем эффективнее работает алrоритм. На поиск rомолоrии последовательности длиной 103 нуклеотидов по банку нуклео тидных последовательностей требуется Bcero порядка 107 операций, что вполне доступно персональному компьютеру средней мощности. Из формулы для трудоемкости следует, что если для нуклеотидных последовательнос тей (w4) он достаточно эффективен, то для аминокислотных последова тельностей (w20) ero применимость сомнительна. Однако в этом случае можно прибеrнуть к редукции алфавита, как это делалось при применении метода lrpaмMHoro разложения, и значительно сократить время работы. Описанный алrоритм, как, впрочем, и друrие алrоритмы поиска rомоло rий по банку, является только фильтром, отсеивающим заведомо неrомоло rичные пары, и если пара последовательностей успешно прошла через He ro, необходимо применить один из описанных выше методов поиска rомоло rии между двумя последовательностями, чтобы убедиться в реальности найденной rомолоrии и построить выравнивание. Эффективность статисти ческоrо фильтра достаточно высока  до 95% пар последовательностей, прошедших через Hero, действительно имеют rомолоrию (Миронов, Алексан дров, 1988). 1.5.ЗАКЛIOЧЕНИЕ Понятие rомолоrии является очень широким и включает в себя строrую rомолоrию, rомолоrию с заменами, rомолоrию с делециями и вставками и т.п.. Кроме Toro, различают rлобальную и локальную постановки задач поиска rомолоrии. Для решения задач поиска строrой rомолоrии наиболее эффективными являются методы, связанные с lrpHblM разложением и с построением позиционных деревьев; решение задач выравнивания обеспечи 34 
вают методы динамическоrо проrраммирования. Наиболее популярным блаrо даря своей наrлядности является метод построения точечных матриц [,OMO лоrии, хотя он является скорее способом визуализации результатов рабо ты различных алrоритмов, чем самостоятельным методом. В настоящей rлаве была описана только часть из Bcero мноrообразия методов поиска rомолоrий, но даже эта малая часть приводит к eCTeCT венному вопросу: какому же методу следует отдать предпочтение, какая задача поиска rомолоrии является самой общей? Такой универсальной за дачи нет, а стало быть нет и универсальноrо метода поиска rомолоrии. Поэтому чтобы анализ последовательности был достаточно rлубоким, необ ходимо применить несколько алrоритмов, решающих разные задачи поиска rомолоrии и при различных наборах параметров. Например, при поиске по банку последовательностей целесообразно применить метод Кондрашова  Ройтберrа для поиска коротких rомолоrий и статистический метод для по иска протяженных rомолоrий. Затем для найденных пар можно применить метод поиска локальных rомолоrий при разных наборах параметров. Кроме Toro, имеет смысл построить rлобальное выравнивание с родственньи последовательностями и Т.д. Только такая комплексная обработка позво лит найти почти все эволюционные и функциональные связи анализируемой последовательности и не даст пропустить интересные закономерности. Есть ли нерешенные до сих пор проблемы, связанные с поиском rомоло rий? Безусловно. Это прежде Bcero вопрос о статистической значимости выравнивания. Пока в большинстве случаев он решается с помощью модели рования на случайных последовательностях (см. rл. "Статистические Me тоды анализа rенетических текстов"). Кроме Toro, во мноrих случаях, повидимому, возможно ускорить работу алrоритмов поиска rомолоrий. Эта проблема остается актуальной, несмотря на непрерывный рост мощности современных компьютеров, поскольку объем молекулярноrенетической ин формации растет не менее быстро. 2* 
rлава 2. СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА rЕНЕТИЧЕСКИХ ТЕКСТОВ 2.1.ВОЗМОЖНОСТИ СТАТИСТИЧЕСКИХ МЕТОДОВ В ИССЛЕДОВАНИЯХ rЕНЕТИЧЕСКИХ ТЕКСТОВ. ОСНОВНЫЕ ЗАдАЧИ Представьте себе, чо Вам в руки попала книrа на неизвестном язы ке. Можно ли понять правила этоrо языка и извлечь из книrи какуюни будь информацию? С похожей задачей столкнулись биолоrи и математики в конце 70x rодов сразу после появления методов определения после довательностей нуклеотидов в ДНК. Первые попытки ее решения были связаны с подробным статистическим анализом прочитанных rенетических текстов, например определением частот встречаемости различных слов и сравнением этих характеристик у различных орrанизмов. Поэтому первые работы по статистическому анализу нуклеотидных последовательностей напоминали порой демоrрафические справочники  приводилась подробная статистическая информация. но вопросы о том, по каким законам запи сан rенетический текст, как выявить в нем функционально значимые об ласти, чо в нем иrрает роль знаков препинания и Т.д., нисколько не прояснялись. Можно ли С помощью статистическоrо анализа ДНК извле кать из прочитанных rенетических последовательностей нужную "смысло вую" информацию и выявить законы формирования и "работы" rенетичес Koro текста? Положительный ответ на этот вопрос был дан в начале 80x ['одов после появления алrоритмов поиска функциональных областей в первичных структурах ДНК. Здесь мы кратко опишем основные содержательные задачи статисти ческоrо анализа ДНК, рассматривающиеся в этой rлаве. Выбор моделей rенетических TeKCTO.! Не зная еще полностью яэык rенетических текстов, мы вынуждены уrадывать некоторые особенности в расположении нуклеотидов и пытаться понять, моrли ли эти особенности возникнуть случайно или же они специфически связаны с биолоrическими свойствами. Известно множество вопросов подобноrо рода, в частности: является ли случайным понижение частоты встречаемости динуклеотидов CG во фраrментах эукариотической ДНК (Bird, 1980) или как объяснить повышение частоты встречаемости олиrонуклеотидов вида YRY(N)kYRY Б большинстве известных нуклеотиднЫХ последовательностей (Arques,Mi che1,1987) и др. Для решения этих проблем необходимо прежде Bcero предложить MO дель порождения rенетическоrо текста и проверить ее адекватность на реальных примерах. Различные модели rенетических текстов рассматри з6 
ваютсЯ в п.2.2. Изложенные там общие принципы используются и пр формировании моделей функциональных зон и функциональных сиrналов. применяющихся для разметки rенетических текстов (см. rл.3,4). ПОСТ Q9 ение "словарей" rенетических . текстов. Попытка найти pa зумную аналоrию между rенетическим и человеческим языком приводит к вопросу: что в rенетическом тексте следует считать аналоrами дт:я букв, слов и предложений? Задумаемся прежде Bcero о том, что превра щает комбинацию букв в слово языка? Очевидно  наличие функшюналь  Horo, смысловоrо значения. "Сцепление" отдельных букв в словах приводит к вполне определен ным последствиям с точки зрения статистики. Например, если про анализировать частоты встречаемости всех троек подряд идущих букв в какомнибудь тексте на анrлийском языке, то обнаружится, что трой ка ТНЕ (определенный артикль) встречается подозрительно чсто. Даже человеку, не сведущему в анrлийском языке придется предположить. что слово ТНЕ в этом тексте несет некоторую смысловую наrрузку. Подобный подход к rенетическим текстам активно используется R линrвистике ДНК, при этом набор неожиданно часто (или редко) BCTpe чающихся слов был назван словарем rенетическоrо текста. Для построе ния словарей rенетических текстов необходимо уметь отвечать на воп рос, какие отклонения частот встречаемости слов от ожидаемых значе ний следует считать значимыми. Например, если слово TGATG 133 раза встретилось в ['еноме фаrа лямбда  MHoro это или, наоборот, мало? При ответе на этот вопрос необходимо:  построение адекватных математических моделей порождения rенетичес ких текстов;  предсказание частот встречаемости слов в  оценка статистических параметров моделей текстов. В п.2.3 рассматриваются рассматриваются вопросы, возникающие при реализации статистическоrо подхода к построению словарей rенетичес ких текстов. Заметим, что в последнее время были обнаружены такие закономер ности в распределении частот встречаемости кодонов в ['еномах ряда орrанизмов (Borodovsky, GuseinZade,1989), которые дают дополнитель ные aprYMeHTbl для предположения, что, в рамках аналоrии между rенетическими и линrвистическими текстами, роль буквы в кодирующих областях reHoMa может иrрать тройка нуклеотидов  кодон, а роль сло ва может принадлежать достаточно протяженной части нуклеОТИДНGЙ по следовательности ['ена  экзону (Gruskin, Smith,1987). Выявление зонной  HOMO , Представьте себе, что вам 3 руки попал сборник рассказов разных авторов на неизвестном языке, Только напечатанных подряд, без всяких знаков пунктуации и пробелов. MHO ли восстановить (хотя бы приблизительно) начало и конец каждс рамках выбранной модели; порождения rенетических 37 
['о рассказа (т.е. выявить "швы" между рассказами различных aBTO ров)? Повидимому, единственная надежда на решение этоrо вопроса  статистический анализ "стиля" различных писателей (например. частот встречаемости какихнибудь слов), ведь при переходе rраницы между рассказами стиль должен меняться. Соrласно современным представлениям, reHoMbI некоторых орrанизмов составлены из различных частей. Например, в середине 70x rодов была выдвинута rипотеза о модульном строении reHoMoB бактериофаrов, cor ласно которой ['еномы бактериофаrов состоят из некоторых частей  MO дулей, при этом модуль понимается как "дифференцированный cerMeHT, детерминирующий определенные функции". При выявлении в ['еномах швов между зонами, имеющими различные статистические свойства, используются различия частотных словарей слева и справа от потенци альных швов (см. п.2.4). Меры близости rенетических текстов и анализ статистической зна чимости rомолоrий. Одна из основных задач компьютерноrо анализа ДНК  выявление сходства (rомолоrии) различных rенетических текстов. Ha личие TaKoro сходства может служить признаком эволюционной близости ['еномов или функциональноrо сходства рассматриваемых участков. При интерпретации результатов сравнения rенетических текстов возникает вопрос, можно ли найденное сходство считать значимым или оно возник ло случайно? С развитием банков данных и пакетов проrр по молеку лярной биолоrии этот вопрос стал звучать все чаще, особенно в ситуа циях, коrда "биолоrические" aprYMeHTbl в пользу сходства рассматрива емых фраrментов отсутствовали. Статистический анализ не дает исчер пывающеrо ответа на этот вопрос. При ero помощи, однако, можно oцe нить уровень сходства, вероятность случайноrо возникновения которосо ничтожна мала. Друrой практический вопрос, который следует решать с учетом CTa тистической значимости rомолоrий  выбор размеров зонда и условий rибридизации при скрининrе библиотек ['енов. Для локализации ['енов при скрининrе стараются использовать зонд, комплементарный нужному участку ['енома,  в этом случае проходит rибридизация: зондrен. Oд нако выбранный зонд может случайно оказаться комплементарен (или почти комплементарен) и друrим участкам reHoMa  в этом случае rиб ридизация будет идти не только с локализуемым ['еном и процесс скри нинrа значительно осложнится (Певзнер,Миронов,1987б). Если вы хотите облеrчить эксперименальную работу и исключить неспецифическую rибри дизацию, скажем, в 99% случаев, вам нужно знать статистические xa рактеристики rомолоrии между зондом и reHoMoM. Для оценки уровня значимости rомолоrий нужно сформировать MaTe матическую модель порождения случайных текстов, а затем теоретически или с помощью метода МонтеКарло оценить статистические характерис 38 
тики распределения значений уровня сходства между случайными 'I'eKcTa ми заданной длины. Таким образом, вопрос выбора адекватной модели порождения rенети ческоrо текста тесно связан с вопросом о статистической значимости rомолоrий. Анализ различных моделей порождения текстов может помочь установить связь между статистической и биолоrической значимостью rомолоrий (см. п.2.5). СТ Т.:I):.т ические ..MeT.O.1! Ы в теории молекулярной эволюции. Расшифро ванные первичные структуры ДНК явились очень удобным объектом для сравнительноrо изучения с позиций теории эволюции, вооруженной MeTO дами статистики и дискретной математики. Подробное изложение этих вопросов можно найти в книrе Ратнера и др. (Ратнер и др.,1985). Мы же в п.2.6 остановимся на таких характеристиках ДНК, как энтропия и избыточность" которые оказываются полезными при сравнении способов орrанизации rенетической информации различных таксономических rрупп. 2.2. СТАТИСТИЧЕСКИЕ МОДЕЛИ rЕНЕТИЧЕСКИХ ТЕКСТОВ Зачем нужны модели? Один из распространенных способов применения статистических моделей rенетических текстов связан с изучением "Hec лучайных" особенностей в первичной структуре ДНК. Суть применяемоrо метода состоит в следующем. Анализируемый текст интерпретируется как элемент не которой совокупности текстов. В силу объективных причин эта совокупность в целом может оказаться недоступной для исследова теля, и тоrда она создается искусственно  rенерируется с помощью статистической модели. На полученном множестве текстов MorYT уже быть рассчитаны вероятностные распределения значений тех признаКОR, которые интересуют биолоrа. Если при этом окажется, что наблюдавшие ся на исходном объекте величины при знаков характерны для "хвостов" распределения и имеют малую вероятность, например Р < 0,001, то эти данные MorYT считаться неслучайными в математическом смысле. Такие результаты, полученные с помощью моделей, дают формальное основание для дальнейшеrо изучения биолоrических и физических причин найденных закономерностей. Для анализа нуклеотидных последовательностей используются статис тические модели разных типов. Они различаются по степени общности, по способу реализации и по применяемому методу моделирования. Под степенью общности имеется в виду то, насколько широким или узким яв. ляется класс ситуаций, для KOToporo используется модель. Мы можем рассматривать модель нуклеотидной последовательности вообще, модель первичной структуры днк орrанизмов определенноrо такс она. модель оп ределенной функциональной зоны или даже функциональноrо сиrнала. По способам реализации модели можно разделить на аналитические v. 39 
численные, подразумевая под этим способ вычисления статистических характеристик. В зависимости от применяемых методов можно выделить класс Moдe лей, использующий аппарат марковских цепей (с аналитической или чис ленной реализацией), и класс моделей, в которых применяются более общие методики, объединенные под названием методов МонтеКарло и pe ализуемые, как правило, численно. Простейшие марковские модели. Сложность разработки модели. повидимому, возрастает с уменьшением степени ее общности. Так, HYK леотидную последовательность общеrо типа можно представить с помощью reHepaTopa символов A,T,G,C, порождающеrо каждый символ текста неза висимо и с равной вероятностью. Достоинство такой модели в том, что из нее леrко получить приближенные формулы для вероятности встречае мости в тексте заданноrо числа любых нуклеотидных слов и COOTBeTCT венно получить моменты распределений  среднее, дисперсию и Т.д. Несмотря на то, что простейшая модель слишком rруба для применения к реальньп нуклеотидным последовательностям, она быстро дает удобные количественные оценки порядка величин. Первь уточнением равновероятной модели будет поправка на частоту встречаемости, характерную для одной из нитей дик данноrо орrанизма (или целоrо такс она). Например, мононуклеотиды T,C,A,G в последова тельностях дик эубактерии E.co1i из TpeTbero выпуска базы данных ЕМВL (135 тыс. нуклеотидов), встречаются с частотами f T  0,243, fc  0,243, f A  0,252, f G  0,262. Использование этих величин в модели снезависимым порождением каждоrо HOBoro символа дает текст более близкий к реальному. Забеrая вперед, назовем зту модель Map ковской цепью нулевоrо порядка. Второе уточнение связано с тем, что в реальных первичных CTPYKTY рах дик мы видим явные предпочтения в "выборе" нуклеотидами своих соседей (см. далее), которые принцип независимоrо порождения не учи тывают. Этот дефект модели можно устранить, если ввести новое поня тие  условную вероятность встречаемости нуклеотИДОВ. Например, Be роятность появления нуклеотида А, при условии, что ero соседом с 5' стороны является нуклеотид Т будет обозначаться Р(А!Т). Если извест ны 16 условных вероятностей P(bla), а,Ь  T,C,A,G, то их можно ис пользовать для rенерирования модельной последовательности. PaCCMOT ренная модель имеет название марковской цепи первоrо порядка, а Be личины P(bla) называются также переходньи вероятностями марковской цепи. Значения P(bla) можно определить, если известны частоты MOHO и динуклеотидов в выборке текстов  f(a) и f(ab), a,b,T,C,A,G  по формуле P(bla)f(ab)/f(a). (2.1 ) 40 
Заметим, что мы традиционно выбираем направление 5'3', хотя можно изучать и цепи с физическим направлением 3'5'. Модели с меньшим числом параметров удобнее использовать, но в ря д€ ситуаций имеет смысл обращаться и к марковским моделям более BЫ соких порядков. Например, известно, что тип TpeTbero нуклеотида KO дона связан с типом двух первых нуклеотидов нестроrой зависимостью, которая специфична для орrанизма и типа reHa. В общем случае определение переходных вероятностей для модели по рядка n требует знания частот встречаемости слов, состоящих из п+1 символа. Тоrда, соrласно принципу максимальноrо правдоподобия, значение переходной вероятности P(bla.a 2 ... a n )  f(a,...anb) f( а. . . . а.) а.,Ь  Т,С,А,С. Вопрос о выборе порядка марковской модели для описания rенетичес Koro текста рассматривался неоднократно. Было установлено (Garden,1980), что для расшифрованных reHoMoB вирусов MS2, SV40 и ФХ174 можно использовать модели нулевоrо, BToporo и TpeTbero порядка соответственно и получать достаточно точные статистические xapaKTe рис тики этих reHOMOB. В работе Блэйсделла (B1aisde1l,1985) было по казано, что большинство из исследовавшихся тю эукариотических пос ледовательностей может быть представлено марковскими цепями не ниже 2ro порядка, а друrие  не ниже 3ro. Исследование нуклеотидных последовательностей E.co1i привело Филлипса и соавт. (Phi11ips et a1., 1987а,Ь) к выводу, что частоты встречаемости TeTpa, пента, и rексануклеотидов достаточно хорошо педсказываются марковскими цепя ми 3ro порядка, хотя в некоторых случаях наблюдаемая частота BCTpe чаемости вдвое отличалась от ожидаемой. Встречаемость ди и тринуклеотидов . Рассмотрим иерархию MapKOB ских моделей последовательностей ДИК. При этом нам потребуются pe зультаты статистическоrо (lrpHoro) анализа известных нуклеотид ных последовательностей. Эти данные имеют, помимо Toro, и достаточно интересную биолоrическую интерпретацию. Метод lrpaмMHoro анализа, предложенный illенноном (1963) для изу чения линrвистических текстов, сам по себе является эффективным средством исследования нуклеотидных последовательностей (ryceB и др., 1980). Существует тесная связь lrpaмMHoro анализа последова тельностей дик и моделирования дик с помощью марковских цепей. Суть этой связи характерна для понятий анализа и синтеза. Закономерности, обнаруженные путем lrpHoro анализа, можно вложить в модель в ви де переходных вероятностей. Результаты, к которым приводит такая модель, MorYT либо совпасть с данньи, полученными на реальном объекте (последовательности), либо стать основой для выявления новых закономерностей, которые в свою очередь MorYT быть исполь 41 
зованы для построения модели следующеrо уровня. Иллюстрация этоrо положения последует далее. Прежде Bcero необходимо сказать о моделях первоrо порядка и о pe зультатах анализа встречаемости динуклеотидов, которые непосредст венно связаны с параметризацией этих моделей. В работах Нуссинов (Nussinov, 1984 а,Ь) был выполнен анализ 400 последовательностей ДНК, взятых из разных орrанизмов, что в сумме составило более чем 500 тыс. нуклеотидов. Были подтверждены предва рительные данные (Nussinov, 1980 а,Ь) о том, что в ДНК различных таксономических rрупп существуют устойчивые асимметрии в частотах встречаемости динуклеотидов. Так, например, в большинстве из 88 про кариотических последовательностей частоты встречаемости динуклеоти дов таковы, что имеет место соотношение f(GC»f(AT»f(TA), а в боль шинстве из 256 эукариотических последовательностей f(GG»f(GC»f(GT»f(TA»f(CG). Можно cTporo показать, что закономерности встречаемости динуклео тидов не соответствуют модели нулевоrо порядка. Обозначим через N(ab) число динуклеотидов типа аЬ, встретившихся в rруппе последова тельностей с суммарной длиной N нуклеотидов. Соrласно модели нулево ro порядка, ожидаемое число динуклеотидов типа аЬ равно N"f(a)'f(b), rде f(a) и f(b) частоты мононуклеотидов. Это число обозначим <N(ab». Полаrая среднеквадратическое отклонение величины N(ab) paB ным <N(ab»'/2, вычисляем значения d(ab)(N(ab)<N(ab»)/<N(ab)1/2. п cr cr  м   " м к  ы  ы u  (1,29) (1,2Ь) (1,18) 11,щ (1,15) 11,15) (1,14) 11,07) (1,04) 11,00) (0,99) (0,85) (0,84) (0,82) (0,Ь5) 10,42) . " м    cr cr п к м   ы  ы u (1,22) 11,20) (1,13) 11,17) 11,04) 11,02) (1,01) 11,01) 11,01) 10,97) (0,961 10,92) 10,91) (0,90) (0,86) (0,79) 6 cr  " м п cr   м  к  ы ы u  11,22) 11,19) 11,161 11,14) 11,14) 11,12) (1,09) 11,07) (0,99) 10,99) (0,94) (0,89) (0,88) (0,85) (0,79) (0,58) в   cr cr u  " м ы  п м к  ы  (1,51) 11,Щ (1,14) 11,09) 11,061 11,04) 11,02) 11.00) 11,00) 10,961 10,94) 10,93) 10,93) 10,92) (0,79) (0,Ь2) r П  cr к  м м " cr ы    ы u  11,30) (1,20) 11,11) 11,11) 11,09) 11,08) 11,07) 11,07) 11,03) 11,02) (0,98) 10,98) (0,91) 10,82) (0,Ь4) (О,Ы) А cr cr п "   м м    к ы ы u  11,18) 11,18) 11,15) 11,15) 11,12) (1,11) (1,10) 11,08) 11,03) (0,95) 10,94) 10,92) 10,84) (0,84) (0,78) (0,64) . Рис. 2.1. Приведенные частоты динуклеотидов в эукариотических op низмах и их вирусах а  позвоночные; б  беспозвоночные; в  ДНК виусы; r  митохон дрии позвоночных; Д  РНК вирусы (без ретровирусов,; е  ретровирусы Значения частот расположены в порядке их убывания Если бы модель нулевоrо порядка была адекватным описанием НУКЛео тидных последовательностей, то величина t  [d(ab)J2 имела бы pac' пределение хиквадрат с девятью степенями свободы. При рассмотрении 42 
первичной структуры дик E.co1i величина t принимает значение 2986. Соrласно таблицам распределения хиквадрат (Крамер,1975), такой pe зультат позволяет oTBeprHYTb rипотезу об адекватности модели нуле Boro порядка с уровнем значимости 104. Подобное утверждение справедливо и для нуклеотИдных последо вательностей друrих орrанизмов (Nussinov, 1984а). Обозначим через, величину отношения фактической частоты динуклеотидов к частоте ожи даемой по модели нулевоrо порядка. На рис.2.1. в каждой строке, OT ражающей определенную эукариотическую таксономическую rруппу, поря док следования динуклеотидов определяется по убыванию паРillлетра r. Таким образом, на левом конце строк расположены предпочтительные, на правом  дискриминирующиеся динуклеотиды. Видно, что во всех случаях хромосомная дик позвоночных и ДНК их митохондрий, ДНК непозвоночных, нуклеотидные последовательности ДНК вирусов, ретровирусов и друrих РНКсодержащих вирусов имеют свои специфические частоты встречаемости динуклеотидов, которые не соrла суются с моделями нулевоrо порядка. Кроме Toro, можно заметить, что распределение динуклеотидов в дик эукариот в целом отлично от расп ределения динуклеотидов в ДНК прокариот (рис.2.2). Например, в эука риотах динуклеотИДЫ RR и УУ встречаются с повышенной частотой по OT ношению к YR и RY. Нуссинов (Nussinov,1981a,b) предположила, что об наруженные закономерности распределения динуклеотидов связаны с фи зикохимическими особенностями строения двойной спирали дак. В част ности, дискриминация YR и RY динуклеотидов в эукариотах связана с большими стереохимическими трудностями упаковки YR и RY участков в нуклеосомах по сравнению с RR и УУ. м ос n rn  п  R  cr   ы   ц (I,2Ы (1,20) 11,14) 11,13) 11,11) (1,02) (1,00) (0,97) 10,961 (0,94) 10,94) (0,94) (0,91) (0,89) (0,83) (0,17) ..' м ос rn n  п  R   cr ы    ц (1,29) (1,19) 11,17) (1,13) (1,12) 10,99) 10,99) (0,97) (0,961 10,96) 10,94) (0,94) (0,92) (0,90) (0,82) (0,75) б М ос rn   n R   п   cr ы ц  '(1,271 (1,18) (1,14) 11,111 (1,07) (1,06) (0,99) (0,99) (0,97) 10,96) (0,95) (0,94) (0,92) (0,85) (0,82) (0,79) . Рис. 2.2. Приведенные частоты динуклеотидов в прокариотах а  бактерии; б  E.co1i; в  фаrи (кроме MS2) Означает ли это, что марковские модели первоrо порядка, опреде ленные по статистике динуклеотидов (и, стало быть, теперь учитываю щие важные закономерности, обусловленные стереохимией двойной спира ли ДНК), должны являться адекватной моделью природных нуклеотидНЫХ последовательностей. В этой связи уместно вспомнить работу Фитча (Fitch 1983), посвя щенную определению ожидаемой частоты встречаемости комбинаций нукле отидов, которые MorYT быть ответственны за образование шпилечных 43 
вторичных структур РНК, содержащих "ножку" из спаренных по правилу Уотсона  Крика одноцепочечных участков и "петлю". Ранее (Mul1er, Fitch,1982) была обнаружена повышенная частота втречаемости подобных структур в межцистронных промежутках фаrов и вирусов по сравнению с частотами, определенньwи по модели нулевоrо порядка. Теперь же, задаваясь размерами ножки и петли, Фитч вычислил ожидаемые частоты встречаемости шпилек для вируса SV40 по моделям первоrо порядка (табл.2.1) и показал, что вероятность наблюдаемоrо распределения шпилек на шесть порядков выше, чем было установлено ранее. Тем caмbw обнаруженный ранее феномен "неслучайных" шпилек оказался вполне рядовым явлением. Таблица 2.1 Наблюдаемые и ожидаемые чатоты встречаемости шпилечных структур Показ8.тель Длина ножки 2 I 3 I 4 I 5 Частота По модели нулевоrо порядка ожидаемая 13853 3581 925 239 61,8 16,0 наблюдаемая 13285 3477 987 245 82 28 Хиквадрат 23,0 3,0 4,2 0,2 6,6 9,0 Частота По модели перворо порядка ожидаемая 13305 3651 1002 275 7,55 20,7 7,75 18337 наблюдаемая 13285 3477 987 245 82 28 14 18118 =E!g?g? 6 > 7 Е 5,54 14 12,8 18682 18118 58,6 Пзволяют ли однородные марковские цепи объяснить явление селек ции кодонов (Nussinov, 1981b;A1magor, 1983)? Ведь известны и друrие точки зрения. Стратеrия использования кодонов связывается с формированием опре деленной конфиrурации вторичной структуры мРНК, сказывающей влияние на скорость синтеза белка на рибосомах (Hasegava et a1.,1979). Пра вила селекции кодонов можно интерпретировать с точки зрения дискри минации "предтерминирующих" кодонов, Т.е. кодонов, которые при заме не (мутации) одноrо нуклеотида превращаются в терминирующие (Modiano et a1.,1981). Ясно, что уменьшение числа предтерминирующих кодонов повышает мутационную устойчивость reHoMa. Достаточно убедительно выrлядит и "энерrетическая" rипотеза (Gro sjean,Fiers,1982), отражающая тот факт, что наиболее часто BCTpe чающимися являются кодоны со средним значением энерrии кодонанти кодоновоrо взаимодействия, а кодоны, сильно или слабо взаимодейству ющие со своими антикодонами, дискриминируются. По мнению авторов, такая стратеrия использования кодонов позволяет клетке создать наи лучшие условия для элонrации белковых пепей. 44 
Существует и друrая популярная точка зрения, которая также имеет в виду оптимальные условия биосинтеза белка и обращает внимание на тот факт, что наиболее активно используемые из синонимических KOДO нов в прокариотах и эукариотах соответствуют наиболее распространен НЫМ из изоакцепторных тРНК (IkemurQ 1981,1982; Bennetzen,Bendjamin, 1982). Такой подход делает ПОНЯТНЫМ и наблюдаемое повышение частот использования таких кодонов в reHax дик E.co1i и S.cerivislae, обла дающих наиболее сильной экспрессией по сравнению с менее сильно экс прессируемыми rенами. Таким образом, альтернативная точка зрения на природу селекции кодонов основывается на существовании корреляции характеристик ce лекции кодонов с показателями эффективности механизма трансляции. Новые apryeHTbl в пользу этоrо представления вытекают из статис тическоrо анализа первичных структур днк reHoMa эубактерии E.coli (Бородовский и др. ,1986 а,Ь) и приводятся ниже. Марковские модели фунциональных об л астей reHOM , Рассмотрим по отдельности кодирующие и не кодирующие области ['енома E.coli. Практи чески для этой цели из выборки фраrментов ДНК Е. co1 i длиной 135 тыс. нуклеотидов были выделены две подвыборки длиной 80,0 и 42,5 тыс. нуклеотидов, состоящие из белоккодирующих и некодирующих областей соответственно. Прежде Bcero было отмечено что разные функциональные области раз личаются частотами встречаемости мононуклеотидов (табл.2.2). Таблица 2.2 Частоты встречаемости нуклеотидов (f) и среднеквадратичные ошибки определения этих величин (S) дЛЯ различных выборок Выборка f T fc f. f G S E.co1 i в целом 0,243 0,243 0.252 0,262 0,0012 Области кодирующие 0,231 0,251 0,246 0,272 0.0015 некодирующие 0,259 0,231 0,261 0,248 0,0020   Затем рассматривается вопрос, являются ли характеристики дИНукле отидных корреляций устойчивыми по всей длине ['енома E.coli, или же они различаются в кодирующих и не кодирующих областях. Для этоrо по статистике динуклеотидов в общей выборке и двух функциональных под выборках определяются переходные вероятности для трех марковских MO делей первоrо порядка (табл.2.3). 45 
Таблица 2.3 Значения переходных вероятностей P I ОБOl/1" выбор.. н... ОА' Р УIOIIIII. (ОА8РУ""". выА оБЛiСТ. обл,ет_ lIу.,е (5) (8) OTI" (А) ВТОРО. _У".ОТ'А Т I с I А I G I т I с I А I G I т I с I А I G т 0,261 0,235 0,185 0,309 0,309 0,220 0,208 0,266 0,234 0,247 0,173 0,346 С 0,235 0,222 0,251 0,296 0,234 0,234 0,273 0,264 0,231 0,215 0,235 0,319 А 0,242 0,222 0,325 0,214 0,253 0,207 0,318 0,222 0,232 0,231> 0,329 0,207 6 0,229 0,294 0,244 0,233 0,238 0,270 0,246 0,246 0,224 0,305 0,243 0,228 Заметим, что в каждом из этих трех случаев переходные вероятности удовлетворяют системе уравнений :Е P(bla)fa  f b , а,Ь  T,C,A,G, (2.2) rде f a , fb  частоты мононуклеотидов в соответствующей выборке (табл. 2. 2). Ясно, что величины Р(Ь!а), рассчитанные для общей выборки после довательностей E.co1i (табл.2.3А), должны занимать некоторое проме жуточное положение по отношению к соответствующим величинам P(bla) для кодирующих и некодируюших областей (табл.2.3Б,2.3В), что, как нетрудно убедиться, имеет место. Решить вопрос о возможности статис тически значимоrо совпадения параметров корреляции соседних нуклео тидов для кодирующих И не кодирующих областей можно при помощи вычис ления статистических критериев. Определим величины t HK и t KH (индекс к соответствует коди рующим областям, а индекс н  некодирующим) соrласно формулам t HK :Е [NJab)  N H (a).P K (bla)]/[NJa).P.(bla)]1/2, t KH :Е [N.(ab)  N K (a).P H (b!a)]/[N.(a).PJbla)]1/2. Если характер корреляции соседних нуклеотидов в кодирующих и He кодир,щих областях одинаков, то величины t HK и t' H должны иметь раСПре целение хиквадрат с двенадцатью степенями свободы (Bi1'ings1ey,1961). Фактические значения t HK и t KH равны 1556 и 1568 соотв('тственно. Это позволяет oTBeprHYTb rипотезу о совпадении характеристик корреляции с уровнем значимости 104 и сделать BЫ вод, что В одном и том же орrанизме различные функциональные области первичной структуры дик должны описываться разными статистическими моделями. Далее стало ясно, что полученная марковская модель кодирующей об 46 
ласти не учитывает еще некоторые важные закономерности. Дело в том, что частоты встречаемости MOHO и динуклеотидов в кодирущих облас тях зависят от позиции, отсчитываемой относительно инициирующеrо KO дона. Остановимся на этом подроБRее. Множество всех возможных позиций сrруппируем по "рамкам". Позиции 1+3к, KO, 1'..' Т.е. первые позиции кодонов, составляют первую paM ку. Позиции 2+3к, KO, 1'... образуют вторую рамку, а позиции 3+3к, KO,l,...  третью. Динуклеотиды будем относить к первой рамке, если их первые нуклеотиды расположены в первой рамке и Т.д. Тоrда частота встречаемости нуклеотида а в iй рамке fi a  это отношение числа нуклеотидов типа а к общему числу нуклеотидов N/3 из данной рамки. Значения fi a , il,2,3 представлены в табл.2.4. Возможная случайная ошибка в определении этих частот oцe нивается величиной 0,008. В табл.2.4 подчеркнуты те значения частот fi a . которые наиболее отклоняются от среднеrо значения частоты fa в кодирующих областях. Таблица 2.4 Позиционные частоты нуклеотидов Рамка Т С А G 1 0,140 0,240 0,249 0,371 2 0,289 0,255 0,311 0,175 3 0,263 0,288 0,180 0,270 Е 0,231 0,251 0,246 0,272 Отмеченные отклонения MorYT быть связаны с различными факторами. Так, уменьшение содержания Т в первой рамке и А в третьей обусловле но запретом на кодоны ТАА, ТСА и ТАС. Увеличение содержания G в пер вой рамке и С в третьей подтверждает указанное ранее (Shepherd, 1981) предпочтительное использование кодонов типа RNY (Rпурин, Упиримидин), которое связывается с особенностями архаическоrо reHe тическоrо кода. За относительное увеличение содержания Т во второй рамке ответственны периодические серии синонимических кодонов, коди рующих неполярные аминокислотные остатки, входящие в состав аль фаспиралей белковых молекул (Zhurkin,1981). Наконец, увеличение co держания А и уменьшение содержания G во второй рамке обусловлено тем, что 14 кодонов, имеющих А во второй позиции, соответствуют ? аминокислотам, в то время как 15 кодонов, содержащих во второй пози ции С, кодируют только 5 различных аминокислот. 47 
Неравномерное распределение частот встречаемости нуклеотидов по позициям противоречит модели белоккодирующей нуклеотидной последо вательности в виде однородной марковской цепи, поскольку такая MO дель предсказывает одинаковые частоты появления нуклеотидов одноrо и Toro же типа в любой позиции (см.табл.2.1). Отсюда вытекает, что первоначальная модель может быть уточнена с помощью позиционно зави симых статистик. Позиционные модели кодирующих областей. Обозначим число динук леотидов типа аЬ, которые встретились в iй рамке через N,(ab). Рассмотрим простейшую позиционную (неоднородную) модель нуклеотидно ['о текста кодирующей области, в которой соседние нуклеотиды незави симы, но вероятности их появления различны в разных позициях относи тельнО инициирующеrо кодона. Соrласно этой модели, ожидаемое число динуклеотидов типа аЬ, которое должно встретится в рамке с номером i, будет равно N'f1a'fi'\/3 для il,2 и N'f\'f\/3 для i3. rипотезу об адекватности простейшей позиционной модели можно проверить с помощью вычисления величин d,(ab) [N,(ab)<Ni(ab»]/[<N,(ab»1/2], для il,2,3 соответственно. Если эта модель справедлива, то величины t j   [d j (ab)]2, а,Ь  T,C,A,G должны иметь распределение хиквадрат с девятью степенями свободы. Реальные значения t, для il,2,3 равны 1504, 3719 и 246 COOTBeTCT венно. Отсюда следует, что предполаrаемая модель с уровнем значимос ти 104 неточна и что опятьтаки соседние нуклеотиды с вероят ностью 0,9999 не MorYT считаться независимыми. Возникает естественный вопрос, зависят ли от позиции параметры корреляции соседних нуклеотидов? Проведем исследование "от противно ro", Т.е. проверим противоположную rипотезу о совпадении парамеТрОЕ корреляции. Зададим величины t'j и t j , по формуле t ji :Е [Ni(ab)  N,(a)'P j (b\a)]/[N,(a)'P j (bla)]'/2, ['де и j являются индексами рамок. Если характер зависимости co седних нуклеотидов в рамках i и j одинаков, то величины t 1j и t j , должны иметь распределение ХИКВадрат с двенадцатью степенями свободы. Поскольку tI220265, t21946, t2з7319, t3212230, t3111544, t,з9118, то с уровнем значимости 104 можно утверждать, что зависимость между соседними нуклеотидами в разных позици ях проявляется поразному. Для Toro чтобы учесть в новой модели зависимость от позиции пара метров корреляции соседних нуклеотидов, определим три матрицы пере ходных вероятностей Pi(bla), по формулам Pj(b!a)  Ni(ab)!Nj(a), a,bT,C,A,G, il,2,3. 48 
Реальные численные значения приводятся в табл.2.5 для ответственно. 1,2,3 co Таблица 2.5 Позиционные переходные вероятности П.р.... aylA@D тв. ;:1 ;:2 ;:3 Второ. "УХ..ОТ". TICIAI61TICIAI61TICIAI6 0,380 0,264 0,207 0,143 0,246 0,253 0,100 0,401 0,148 0,228 0,231> 0,392 0,329 0,1&7 0,271 0,233 0,240 0,276 0,173 0,311 0,146 0,201 0,257 0,399 0,329 0,198 0,378 0,0'12 0,212 0,260 0,325 0,206 0,128 0,239 0,2Ь1 0,31>7 0,199 0,264 0,331 0,207 0,417 0,411 0,051 0,120 0,137 0,296 0,241 0,326 Еще раз обратившись к использованию критерия хиквадрат, можно показать, что во всех трех рамках параметры корреляции значимо отли чают я от параметров корреляции соседних нуклеотидов в не кодирующих областях (на уровне значимости 104). Этот факт довольно интере сен, так как свидетельствует о том, что структура кодирующей облас ти, адаптированная эволюцией к выполнению функции передачи rенети- ческОЙ информации. во всех звеньях (позициях) испытывает специфичес кое селективное давление на подбор соседних нуклеотИДоВ, и это дaB ление проявляется с большей силой, чем наблюдавшиеся нами ранее TeH денции предпочтения определенных соседей в некодирующих областях. Отметим также, что между позиционными переходными вероятностями и позиционными мононуклеотидными частотами существуют связи, аналоrич ные уравнениям (2.2), :Е fia.PI(b!a)  fl+\ ' i 1,2 , :Е f\ 'рз(ы))  f\. Таким образом, определена неоднородная марковскую цепь первоrо порядка с периодически повторяющимися переходными матрицами pl(bla) (и позиционнозависимьwи финальными вероятностями f1a' значения которых совпадают со значениями позиционных частот встреча емости нуклеотидов). Следует подчеркнуть, что в классе неоднородных марковских Moдe лей, так же как в классе однородных, можно рассматривать марковские цепи различных порядков. Например, простейшая неоднородная цепь Map ков а нулевоrо порядка в данном случае будет задаваться тремя набора ми вероятностей появления нуклеотидов каждоrо типа (в трех позициях кодона ) . в работе Бородовскоrо и др. (1986Ь) было показано, что распределе ние частот встречаемости кодонов может быть удовлетворительно предс 49 
казано на основе неоднородной модели первоrо порядка для кодирующей области. В то же время попытка использовать для этой цели однородную модель, описывающую reHoM в целом (Almagor,1983), не привела к успе ху. Этот результат является дополнительным aprYMeHToM в пользу Toro, что динуклеотидные корреляции в кодирующих областях являются вторич HbW признаком по отношению к явлению селекции кодонов, причины KOTO poro обусловлены особенностями механизма трансляции. В ряде ситуаций представляют интерес неоднородные марковские MO дели и более BblcoKoro порядка. Например, неоднородные модели BToporo порядка используются в алrоритме распознавания кодирующих областей (rл.3). Контекстная зависимость встречаемости TpeTbero нуклеотида кодона от нуклеотидов 5'соседнеrо кодона, специфичная у reHoB с разной степенью экспрессии (Shpaer, 1986; Бородовский и др.,1988), означает, что для моделирования первичных структур reHoB с высокой v. низкой экспрессией требуются неоднородные модели TpeTbero порядка. В заключение подчеркнем, что, разумеется, при увеличении порядка марковской цепи и введении таких усовершенствований, как позиционные переходные вероятности, точность моделей будет повышаться. Однако оrраниченность объема экспериментальноrо материала делает практичес ки бессмысленными попытки применения моделей наивысших порядков, Т.е. в каждом конкретном случае необходимо выбрать приемлемый, с точки зрения поставленной задачи, порядок и тип модели. В следующем разделе мы остановимся на таких, активно в настоящее время вопросах, как использование марковских нетических текстов для предсказания частот встречаемости мирования "словарей". обсуждаемых моделей re слов и фор 2.3.СЛОВАРИ rЕНЕТИЧЕСКИХ ТЕКСТОВ Как построить словарь rенетическоrо текста. Нуклеотидные после довательности морфолоrически являются непрерывными текстами без вся ких знаков препинания, поэтому выделение в них "слов" (строк симво лов, имеющих некоторый "биолоrический" смысл) непростая задача. Выделению значимых слов в rенетических текстах посвящена книrа Три фонова и Брендела (Trifonov,Brendel1986), при этом отмечено, что из вестные в настоящее время несколько сотен таких слов представляют лишь малую долю словаря, используемоrо Природой. Концепция "словаря" rенетическоrо текста была введена в работе Брендела и др. (Brende1 et a1., 1986), при этом под словами понимались короткие последова тельности (lrpaммbl) с неожиданно высокой (или низкой) частотой встречаемости в тексте. При предсказании частоты встречаемости слова в тексте используется частота встречаемости подслов. Например, ожи даемую частоту встречаемости пбуквенноrо слова BI,...B" можно BЫ 50 
числить через наблюдаемые частоты встречаемости (n2) и (n1)  под слов по формуле (марковская модель (n2)ro порядка) Е( BI' . . . 'Вп) ( f( в" . . . 'Вп 1)' f( В2' . . . 'Вп) )/r( В2' . . . 'Вп 1) (2.3) Здесь через f(W) обозначена наблюдаемая частота встречаемости комбинации символов W. ДЛЯ оценки степени отклонения от ожидаемых значений можно исполь зовать величину std(W)( f(W)E(W) )/(E(W)) '/2 и называть W "словом", если std(W) превышает некоторое пороrовое значение, например 3,0. В работе Брендела и др. (Brende1 et a1.,1986) были построены rис Torpaммbl распределения значений std(W) для всех lrpaмм при 13,6 на выборке reHoB E.co1i. Сравнение зтих rистоrрамм с rистоrраммами, построенными для случайных последовательностей, выявило значительные отличия, особенно для 3 и 4rpaмм. При этом слова дЛЯ KO торых std(W»3, составляют лишь небольшую долю от Bcero чис ла слов  именно эти слова и образуют словарь rенетическоrо TeKC та. В ряде работ (Brende1 et al 1986; Beckmann et al, 1986; и др.) показано, что изучение словарей позволяет найти потенциальные pery ляторные сайты в последовательностях ДНК, а также выявить функцио нальное и эволюционное сходство последовательностей. Так, например, словарь фаrа Т7 сильно отличается от словарей E.co1i и фаrа лямбда. Это может объясняться тем, что Т7 имеет собст венные ферменты, ответственные за репликацию и транскрипцию: разли чие словарей может отражать особенности rенетических текстов, свя занные с работой именно этих ферментов. Следует сказать, что к построению и особенно к трактовке словарей rенетических текстов следует подходить осторожно. Дело в том, что остается неясным вопрос, при каких отклонениях от ожидаемых значений частот встречаемости слов можно делать выводы об их биолоrической значимости. Для оценки значимости отклонений встречаемости слов от средних значений необходимо знать дисперсию распределения встречаемости сло ва в тексте. В большинстве работ по линrвистике дик вопрос об уровне значимости либо вообще обходят, либо считают, что среднеквадратичное отклонение равно Е'/2, rде Е  ожидаемое число встреч слова в TeK сте. Вопрос о частоте встречаемости слова в тексте(даже в случае прос тейшей модели независимоrо порождения букв) математически является довольно сложным и требует привлечения аппарата производящих функции и теории функций комплексноrо переменноrо. Этот вопрос был BceCTO ронне исследован в работах rоулдена и Джексона, rуибаса и Одлько (Gou1den,Jackson,1979; Guibas,Od1yzko,1981). Там же подчеркнуто, что вероятностные характеристики частот встречаемости слова в тексте за ы 
А Т А Т a(i) А т А Т 1 А Т А Т О А Т А Т I 1 А Т А Т I CJ KAТATl +0. х+ 1.х2+0. х З KATAT(1/4)1+1/16 р и с.2.3. Процедура вычисления автокорреляционноrо мноrочлена К в точке 1/4 кtзqpфициенты мноrочлена Kwko+kIX'+...+knlxпt слова W, состоящеrо из n букв определяются по правилу: k  1 [ 1, если первые ni букв и последние ni букв лова W совпадают О, в противном случае висят не то;:ъко от веРСЯТr:О(;':'(;й входящих в слов() букв, но и ОТ структуры самопересечений слова, которая задается автокорреляционным мноrочленом (рис.2.3). Казалось бы все слова одной длины равноценны с точки зрения числа их встреч в длинном тексте. Однако это не так: встреча слова АА 57С раз в последовательности дик фаrа ФХ174 (5375 букв) вполне HOp мальное явление, а вот встреча АТ в такой последовательности 570, и даже 540(!), раз  подозрительно частое событие. Таким образом, сло ва неравноценны и вероятность встретить слово в тексте k раз зависит не только от числа букв в слове, но и от вида слова. Этот неожидан ный вывод, являющийся причиной целоrо ряда математических парадоксов (Gardner, 1974) до сих пор иrнорируется во мноrих работах по статис тике дик. Ниже приводятся аналитические формулы для подсчета дисперсии числа встреч слова при различных моделях порождения rенетических Текстов. Самопересечения слов и П QСQ 9ениловаре П енетичес  текст , Для оценки значимости ОТКЛОНений от средних статистических xapaKTe рис тик в rенетических текстах необходимо получить выражение для дис персии числа встреч слова в тексте. При этом предполаrается, что фиксирована некоторая вероятностная модель по рождения rенетическоrо текста. Следует сказать,ЧТО в ряде работ (deWachter,1981: Dayhoff, 1984; Breen et a1.,1985) получены довольно сложные аналити ческие формулы для вероятности k появлений фиксированноrо слова W в случайном тексте, однако переход от этих формул к выражению для дис персии не представляется возможным. Рассмотрим сначала, как и в pa боте Бородовскоrо и др.(1987), простейщую модель порождения текста путем случайноrо независимоrо равновероятноrо появления букв A,T,G,C, а затем обобщим полученные результаты на случай более слож ных И адекватных моделей rенетическоrо текста (следует отметить, что 52 
выявление аномально часто и редко встречающихся слов может произво диться и С помощью метода "случайноrо перемешивания", oCHoBaHHoro на перетасовке букв исходноrо текста (Kar1in et a1.,1983)). Рассматривается текст фиксированной длины п, в котором вероят насти появления букв на произвольном месте i равны i i i i Р p p p  0,25. Зафиксируем некотсрое слов() W, например АТА. и А Т G С 1 2 j Р ассмотрим распределение {р (п),р (п),...}, ['де Р p (п)  вероят W W j W насть встретить слово W в тексте длиной n ровно раз. Для вычисле ния дисперсии числа появлений слова W в тексте длины n мы использо вали представление числа появлений слова W в виде суммы случайных величин (Pevzner et a1.,1989a). Пусть Х  случайная величина, характеризующая число появлениИ слова W в тексте фиксированной длины n (для удобства вычислений yac сматривается кольцевая молекула длины п). Рассмотрим случайные ве,;;и чины (рис. 2. 4): x I [ 1, если на iM месте в тексте стоит слово W О, в противном случае Р и с.2.4.Для слова WATA и кольцевой молекулы длины 12, представленной на рисунке: Х " х 9 ' xl,l, при этом r(3,7)4, r(l,ll)2 т А А 12 л ' т Т 11 А 2 А 10 G 3 9 G А 4 Вт А 5 7 6 n Очевидно, что X  x i . Математическое ожидание и дисперсия случайной il величины Х . леrко вычисляются M(x i )  p{xil}'l + p{XjO}'O  l/s' , D(xi)M(xi2)M(xi)'M(xi)  p{xi21}'11/s2k  (l/sk)'(ll/s') (здесь k  длина слова W, а s  число букв в алфавите, в данном слу чае s4). Очевидно, что n МXM L: х . n/sk. il Вывод формулы дЛЯ DX достаточно сложен (Pevzner et a1.,1989a). и мы не будем приводить ero полностью. Конечная формула имеет вид 53 
DXn/sk(2Kw(1/s)1(2k1)/sk), (2.4) rде Kw(x)  авто корреляционный мноrочлен слова W. Таким образом, при оценке значимости отклонений от средних значе ний к обычно используемому выражению для дисперсии n/Sk следует добавлять член n/sk(2Kw(1/s)2(2k1)/sk), который зависит от ВИда слова W. Так, например, для двухбуквенных слов n n DAT + (223/16) (n/16)' 03/16), 16 16 n n DAA + (2.523/16) (n/16)' (21/16) 16 16 (KДTl, KAAl,25). Аналоrично для трехбуквенных слов, в качестве дисперсии вместо значения n/64 следует брать DAТG( n/64)' (59/64), D AТA (n/64)' (67/64), D ш (n/64)" (107/64). Из приведенных примеров видно, что при больших значениях aBTOKOp реляционноrо мноrочлена величина дисперсии распределения числа встреч слова в тексте может значительно отличаться от величины ero математическоrо ожидания. Таким образом, использование при оценке значимости отклонений встречаемости слов величины МХ I / 2 (Brende1 et a1.,1986; Весkmапп et al.,1986) может приводить к смещенным резуль татам. Для произвольных вероятностей появления букв {p(A),p(T),p(G),p(C)}, таких, что p(A)+p(T)+p(G)+p(C)l формула (2.4) переписывается в виде DX(n/Pw)"(2Kw(p)1(2k1)/pw) . (2.5) Здесь k Pw П p(w;), Kw(p) il kl 1+ Е 11 1 k," П p(w j ), il (2.6) rде w j  iя буква слова W, k,  lй коэффициент автокорреляционно ro мноrочлена. Оказывается, что для марковских цепей дисперсия частоты встречае мости слова также описывается формулой, аналоrичной (2.5). На OCHO вании формулы (2.5) для маРКОБСКИХ цепей были сформированы словари некоторых rенетических текстов (Pevzner et a1.,1989a). Показано, что 54 
учет самопересечений слов меняет величину стандартноrо отклонения 7- S некоторЫХ случаях заставляет отказаться от утверждения о значимОСТИ некоторых слов (или, наоборот, принять такое утвеРЖLе ние). Таким образом, учет самопересечений слов дает более точную оценку значимосТИ отклонений частот встречаемости слов от средних значений. Разнсенные lrpaMMbl и пр сказания час тот g тречаемост и 9ЛОВ. При анализе rенетических текстов функционально значимыми МОсуТ OKa заться не только непрерывные. но и разнесенные слова (мы будем назы Бать их разнесенньи lrраммами). В качестве примеров можно привестv. сайт узнавания рестриктазы Bg1I: GCCGGC (5 нуклеотидов между разнесенными последовательностями GCC и GGC MorYT бwть произвольны ми) или классические блоки Прибноу и rильберта: TTGACA...TATAAT (в этом случае расстояние между блоками может варьироваться). Возни кает вопрос о предсказании частот встречаемости разнесенных lrpaMM. При предсказании частот встречаемости разнесенных lrpaMM можно применять формулы, аналоrичные формуле (2.3), например для предска. зания частоты встречаемости слова AGC использовать частоты BCT речаемости разнесенных подслов: E(AGC) = [f(AG).f(GC)J/f(G). (2.7) в работе Певзнера и др. (Pevzner et a1.,1989a) было показано, что предсказания частот встречаемости для разнесенных 1 rpaMM оказывают.. ся значительно более надежными, чем для непрерывных lrpaMM; таким образом словари для для разнесенных lrpaMM оказываются более KOM пактными, чем для непрерывных. Представляет интерес вопрос о размере "дырок" lrpaMMbl, при KOTO ром возможны надежные предсказания частот встречаемости(ведь и неп рерывную lrpaмMY можно рассматривать как разнесенную с "дыркой" HY левоrо размера). Ответ на Hero представлен в табл. 2.6., rде привс дятся оценки качества предсказаний на серии lrpaMM *...*...* i i (i=O,15) с дырками размера i. Анализ табл. 2.6 позволяет выявить интересную закономерность: Ka чество предсказания частот встречаемости разнесенных lrрюм сущест Венно зависит от размера "дырки": при i=2(mod3),T.e при расстоянии Между соседнимИ буквами lrpaMMbl, кратном 3 (lrpaMMbl вида ***. *** и т.д.) получаются значительные отклонения от на6лю даемых частот(строки, соответствующие таким i, выделены звездочкой Б Табл.2.6), в то время как при расстоянии, не кратном 3, качество предсказания оказывается очень высоким. Следует заметить, что эта тенденция отчетливо проявляется даже 55 
Таблица 2.6 Оценка качества предсказания частот встречаемости разнесенных l-rpaмм вида *...*...* ( iраЗМер "дырки") I i LAМВDA Т7 АП2 ЕВУ LAМВDA I Т7 I АП2 I ЕВУ I 4Т 1 1,5 1,5 1,0 2,0 11 7 1 16 2* 1,1 2,1 2,0 4,1 2 17 14 36 3 1,0 1,1 0,8 2,4 О 1 1 23 4 0,8 1,0 0,7 2,3 О 1 1 17 5* 1,3 1,9 1,8 4,2 4 14 14 45 6 0,8 1,1 0,6 1,4 О О О 6 7 0,8 1,1 0,8 1,2 О О О 3 8* 1,3 1,1 1,8 3,3 3 1 7 36 9 0,8 1,1 0,7 1,6 О 4 1 9 10 0,8 0,9 0,7 1,5 О 1 1 4 11* 1,3 1,3 1,6 3,4 3 5 8 36 12 0,8 1,0 0,7 1,2 О 2 О 3 13 0,8 1,0 0,7 1,2 О 1 О 8 14* 1,5 1,1 1,5 3,8 3 3 3 38 15 0,7 1,0 0,6 1,5 О О О 6 16 0,9 0,8 0,7 1,2 О О О 2 17* 1,2 1,3 1,5 2,9 3 4 6 36 Примечание. В левой половине таблицы представлены средние значения Istd(W)1 по Всем разнесенным 3rpaммaм W. В правой половине таблицы представлено число "плохих" предсказаний, Т.е. число разнесенных 3rpaмм W ,для которых std(W»3.0. Строки, соответствующие i2(mоdЗ),выделены звездочкой. при больших размерах "дырок". Можно предположить, что аномально BЫ сокие расхождения, наблюдающиеся с периодом 3, связаны с зависимос тями, накладываемыми rенетическим кодом, при этом "дальнодействие" Таких зависимостей довольно велико (Бородовский и др.,1986б). Для предсказания частот встречаемости слов было предложено (Pevzner et a1.,1989a) использовать статистические характеристики раэнесенных lrpaмм. Так, например, для трехбуквенных слов формулы E(AGC)(f(AC)'f(AG))/f(A) и f(AGC)(f(AC)'f(GC))/f(C) (2.8) имеют ничуть не меньше "прав на существование", чем обычная формула E(AGC)(f(AG)'f(GC))/f(G). Более Toro, ранее было отмечено, что для разнесенных lrpaмм предсказание частот встречаемости оказывается более надежным. Показано также (Pevzner et a1.,1989a), что разнесен ные lrpaммbl  более стационарные слова (см. п.2.4), чем COOTBeT ствующие непрерывные 1 rpaммbl. Учитывая эти соображения, можно предположить, что включение в формулы предсказания статистических характеристик разнесенных 1 rpaмм приведет к лучшим результатам, чем обычно используемая формула (2.3). Для трехбуквенных слов можно предложить формулу 56 
E(ACC)[( f(AG)2'f(GC)2'f(AC)2 )/( f(A)'f(G)'f(C) )J1/3, (2.9) в которой все 2rpaммbl (как непрерывные, так и разнесенные), входя щие в слово АСС, представлены равноправно. Для четырехбуквенных слов формула, учитывающая статистические характеристики разнесенных lrpaмм будет иметь вид ( (f(AGC)3'f(AG T)3'f(A CT)3'f(GCT)3) ) 1/6 E(ACCT)   . (f(AG)' f(GC)' f( СТ)' f(AC)' f( GT)' f(AT) (2.10) Аналоrичные формулы можно привести для lrpaмм любой длины. В работе Певзнера и д.(Реvzпеr et a1.,1989a) было показано, что формулы (2.9) и (2.10) дают лучшие предсказания, чем формула (2.3). в качестве критерия качества предсказания можно использовать коли чество 1 rpaмм со стандар'rными отклонениями от ожидаемых значений, большими HeKOTOpOI'O фиксированноrо числа (т.е. количество "плохих" предсказанnй). Например, для фаrа лямбда предсказание трехбуквенных слов по формуле (2.3) дает 26 "плохих" предсказаний (Brende1 et al.,1986), а предсказание по формуле (2.9)  только 22. 2.4.АНАЛИ3 ЗОННОй СТРУКТУРЫ rEHOMOB Неравномерное распределение слов в rенетических текстах. При предскаэании частоты встречаемости слова в тексте используется cpeд няя частота встречаемости подслов. Например, (Brende1 et a1.,1986) предсказание ожидаемой частоты встреч E(AGC) слова AGC опирается на формулу (однородная марковская модель lro порядка) E(AGC)f(AG)'f(GC)/f(G), (2.11 ) использующую наблюдаемые частоты встреч подслов AG,GC и G слова AGC. При этом не учитывается, что подслова AG, GC и G MorYT быть HepaBHO мерно распределены по rенетическому тексту и подстановка их средних частот в формулу (2.11) может привести к систематической'ошибке. Ta ким образом, однородные марковские модели (даже больших порядков) далеко не всеrда являются адекватной моделью rенетическоrо текста, и ИНОI'да без учета неоднородности нельзя получить надежноrо предсказа кия числа встреч слова в тексте. Еще в 1977 r. (Машко и др. ,1977) расхождение теоретических и экспериментальных данных о частоте встречаемости рестрикционных сай 57 
тов пытались объяснить неоднородностью исследовавшихся reHoMoB. Для описания неоднородных rенетических текстов, Т.е. текстов с различны' ми статистическими характеристиками разных частей, можно предложит общую модель неоднородной марковской цепи (Бородовский и др.,1986б). При введении неоднородной марковской цепи rенетический текст разби вается на зоны, при этом каждая зона характеризуется своими переход ными вероятностями, которые определяются статистическими характерис тиками только этой зоны. Таким образом, при переходе к неоднородной модели вместо рассмотрения одной (общей для Bcero текста) матриць: переходных вероятностей (PiJ) приходится рассматривать t матриu переходных вероятностей, ['де t  число частей, на которые разбивает ся rенетический текст. Такой подход позволяет показать, что для ряда слов большие отклонения от ожидаемых частот встречаемости объясняют ся не "6иолоrическим" смыслом, анеоднородностью rенетическоrо TeKC та (друrой подход к неоднородности rенетических текстов может быть развит на основе анализа информационных профилей (C1averie, Bougue1eret, 1986). Так, например, для фаrа лямбда. если не учитывать неоднородность, слова ААА и ТТТ оказываются значимьи (стандартные отклонения 4,75 и 4,78), в то время как при расчетах на неоднородной марковской модели с длиной блока 360 стандартные отклонения для этих слов оказываются меньше 3 (в дальнейшем будет показано, что ААА v. ТТТ  нестационарные слова в ДНК фаrа лямбда). Повидимому, в сло варь (Brende1 et a1.,1986) значимых слов следует вводить лишь те слова с большими отклонениями от ожидаемых значений, число появлений которых не может быть предсказано и неоднородной моделью rенетичес Koro текста. Стаци  арные И R естацио ? рные сл о ва в rе т ических TeKC TX, Для анализа неоднородных rенетических текстов введем понятие стационар ных и не стационарных слов. Зафиксируем слово W и размер окна L. Обозначим через fw(i), il,NL+1  число появлений слова W в окне размера L, начинающемся в позиции i (таким образом, fw(i) число появлений слова W в позициях i,...,i+Ll). Пусть gw(k)  количество позиций i, для которых fw(i)k. Фун кция gw(k) характеризует равномерность распределения слова W в re нетическом тексте: если W относительно равномерно распределено по тексту, то gw(k) имеет четко выраженный "пик", в противном случае gw(k) скорее похоже на "плато". В работе Певзнера и др. (Pevzner et a1.,1989b) анализировались функции gw(k) для различных слов W. ДЛЯ всех рассматривавшихся текстов оказалось, что вид функции gw(k) существенно зависит от слова W: функции gw(k) дЛЯ W, состоящеrо как из слабых, так и из сильных нуклеотидов, имели, как правило, явно выраженный пик, а функции gw(k) дЛЯ W, являющеrося po1yW или po1ySTpaKToM, имели, как правило, вид плато ("слабыми" нуклеотидами (Weak) мы называем А,Т, а "сильными" (Strong)  G,C, po1yW(po1yS) 58 
Itk) ..0J 8AC(k) 2000 1800 1200 600 8U(k) 400 ... ('\ 1\ I I : \.., \/1 I I I ,j " 1\....., /\ I \ 1, , \ / \ , \ I \ I \ I \ \/ '..."\ , \ \ " \ \ ,.." ,.......... 26 "'О 66 70 86 100 11б 130 1% 180 176 k р и с.2.5. rрафики ФУНКЦИЙ gAA(k) (пунктирная кривая) и gAc(k) (непрерывная кривая), характеризующие раВНОRНОСТЬ распределения слов АА и АС в дик фаrа лямбда. Фнкция gAc(k) имеет четко выраженный 'пик" (АСстационарное слово) в отличие от функции gAA(k) (АА  HeCTa ционарное слово) тракт  последовательность из слабых (сильных) нуклеотидов). На рис.2.5 в качестве примера приводятся функции gAA(k) и gAc(k)). Можно ввести среднее значение и среднеквадратичное отклонение для распределения fw(i): NL+1 M1/(NL+1) Е fw( i) , il (2.12) NL+1 б (1/(NL+1) Е (fw(i )E)2) 1/2. il (2.13) в большинстве работ по линrвистике дик среднеквадратичное откло нение для числа встреч слова в окне оценивается как МI/2 (ранее 59 
было показано, что если пренебречь самопересечениями слов, то этот вывод остается верен для марковских моделей порождения rенетическоrс текста). Таким образом, увеличение б по сравнению с MI/2 свиде тельствует о неравномерности распределения слова в тексте. В качест ве меры нестационарности слова W можно ввести отношение kб/ЕI/2: для слова, относительно равномерно распределенноrо по тексту, k He велико (такие слова, Т.е. слова с kkrp , rде k rp  пороrовое откло нение, мы будем называть стационарными), в противном случае слово наэывается нестационарным ( k>k rp ). В табл.2.7 представлены значения коэффициента неоднородности k для двухбуквенных слов в исследовавшихся нами rенетических текстах (длина окна равна 1000). Если задать некоторый уровень значимости (например, krp2), то окажется, что во всех случаях не стационарные слова  po1yW и P01ySTpaKTbl (единственное исключение  слово TG р reHoMe вируса ЭпштейнаБарр,для KOToporo k2,3). Таблица 2.7 Значения коэффициента неоднородности k для двухбуквенных слов i LAМВDA I Т7 т2 EBV ! RPLRPo I E.COLI I АА 3 , 1 * 1 , 4 * 3 , 0 * 2 , 8 * 1 , 4 * 1 , 6 * АТ 2,3* 1,1 2,3* 2,9* 0,7 1,3 AG 1,2 0,9 1,2 1,7 1,1 1,5 АС 1,1 1,0 2,0 2,0 1,1 1,1 ТА 2,9* 1,2* 2,4* 2,8* 0,8 1,3 тт 2,9* 1,3* 2,9* 2,8* 2,0* 2,5* TG 1,4 1,0 1,7 2,3 1,0 1,3 ТС 1,0 0,9 2,0 1,7 1,1 1,3 GA 1.3 1,0 1,6 1,9 0,9 1,3 GT 1,8 1,1 1,9 1,9 1,1 1,3 GG 2,7* 1,2* 2,7* 2,6* 1,2* 1,6* GC 2.6* 1,6* 2,6* 1,9 1,1 1,5* СА 1,3 1,2 1,9 1,7 0,7 1,5 СТ 1,0 1,0 1,3 1,6 1,2 1,3 CG 2,8* 1,1 3,5* 2,5* 1,4* 1,4 СС 1,9* 1,2* 2,0* 3,5* 1,2* 1,5*  1 , 87 1 , 17 2 , О2 2 , 4 1 , 23 l , !:J!:J ср в табл.2.7 звездочками отмечены значения k>k rp ' при этом все отмеченные 2rpbl являются polyS или ро1уWтрактами (значения k rp выбраны произвольно, длина окна равна 1000). На рис.2.6 приведены rрафики коэффициентов неоднородности динук леотидов (динуклеотиды расположены в порядке убывания коэффициента неоднородности), а на рис.2.7  тринуклеотидов. po1yW и P01ySTpaK там (выделены кружочками) соответствуют большие значения коэффициен тов неоднородности при этом видно, что reHoM фarа Т7 и выборка E.co1i  однородные rенетические тексты (единственный нестационарный 60 
':11 EBV AD2CG I \ \ ,o ",\ LAМEDA E,COLI I '1'"7 2.5 'f i i i i i i i i i r" """""" """" """ \ i i i i i i   \, \, \. '()..........э-.......э-... , \ \ !SI"  .\ " \ , I , I : \ \ R.. 2,0 'о. 1.5 "\\1, " " 'Q, " '''o".. iSI .', ''O-..-o""'".., ..", ''0-."'-0" '."'...."'""'", ", '- 1,0 ...... 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 р и с.2.6. rрафики коэффициентов неоднородности для динуклеотидов в различных rенетических текстах 3начения коэффициента неоднородности для динуклеОТИДОЕ k(i),il,16 упорядочены по убыванию и представлены на rрафике для фarа лямбда, аденовируса, вируса ЭпштейнаБарр, фarа Т7, выборки reHoB E.Co1i. Значения k, соответствующие динуклеотидам АА,АТ,ТА,ТТ, GG,GC,CG,CC (po1yS и P01YW"TpaKTbl), представлены кружочками. Во всех случаях кружочки сосредоточены в левой части rрафиков (большие значения коэффициента неоднородности), Т.е. po1yS" и po1yT тракты  нестационарные слова в рассматриваемых rенетических текстах 61 
k )(EBY .AD2CG oLAMBDA р и с.2.7. rрафики коэффициентов неоднородности для тринуклеОТИДОЕ в различных rенетических текстах Значения коэффициента неоднородности для тринуклеОТИДОЕ k(i),il,64 упорядочены по убыванию и представлены на rрафике для фаrа лямбда, аденовируса и вируса ЭпштейнаБарр. Значения k,cooTBeT ствующие тринуклеотидам ААА, ААТ, АТА, АТТ, ТАА, ТАТ, ТТА, ТТТ, GGG, GGC, GCG, GCC, CGG, CGC, CCG, ССС (po1yS-и ро1уWтракты),выделены маркерами. Видно, что во всех случаях маркеры сосредоточены в левой части rрафиков (большие значения коэффициента неоднородности),т.е. po1yS и po1yTTpaKTbl  нестационарные слова в рассматриваемых reHe тических текстах динуклеотид в этих текстах  ТТ в выборке E.co1i) в то время как re ном фаrа лямбда, аденовируса и вируса ЭпштейнаБарр состоят из бло ков различной статистической при роды (однородность фаrа Т7 по HYK леотидному составу была обнаружена довольно давно при помощи физико химических методов (Дэвидсон, Сцибальский, 1975). Недавно Блейк и Ерли (B1ake,Ear1ey,1986) провели компьютерный анализ нуклеотидных последовательностей из E.co1i и обнаружили высокую однородность по динуклеотидному составу). Учет информации о нестационарных po1yW и POlySTpaKTax позволяет подойти к вопросу о зонной структуре дНК и предложить метод разбиения дик на зоны (следует отметить, что aHOMa лии в распределении po1yW и P01ySTpaKToB в эукариотических дНК изучались в работах Блейсдела (B1aisde11,1983a,b)). Зонная структура reHoMa фаrа лямбда. Еще в 70x rодах (Дo ув,1975) была предложена rипотеза о модульной структуре reHoMoB бак териофаrов (в дальнейшем она была значительно развита Кемпбеллом и Ботштейном(СamрЬе11, 1977; Campbe11,Botstein,1983)), при этом модуль понимается как "дифференцированный cerMeHT, детерминирующий опреде 62 
ленные функции". Можно считать, что модуль  это последовательность reHoB, способная к осуществлению определенной функции и обладающая способностью к соединению с друrими модулями при псстроении структур более высокой иерархии  плазмид, фаrов и т.д. Позднее Крылов 0"985) распространил понятие модуля и на субrенный уровень (см. TaK же Dhi110n ct a1.,1982). Анализ reHOMa фаrа лямбда свидетельствует, что reHbl, обладающие определенными функциями, расположены в нем не случайно, а сrруппиро ваны в блоки  rруппирование сенов может иметь эволюционный смысл, предотвращая разделение в ходе рекомбинации функционально связанных ['енов и специфических реrуляторных сайтов. Один из основных выводов модульной rипотезы: наличие в природных популяциях фаrов, возникших как следствие почти свободноrо обмена отдельными модулями. Прсверка этоrо вывода для лямбдоидных фаrов проводилась в серии работ (Kpы лов, ЦыcaHKOB,9?6; Крылов и др.,19?7; Kry1ov,981). Сускинд и Бот:.u тейн (Susskind,Botstein,1978) предположили, что неrомолоrичные смеж ные модули должны быть оrраничены по краям последовательностями HYK леотидов, допускающими рекомбинацию, ведущую к обмену модулями. В работе Певзнера и др. (Pevzner et a1.,1989b) была предпринята попытка компьютерноrо анализа зонной структуры сенома фаrа лямбда и интерпретации ее в рамках модульной rипотезы. При этом предполаrа лось, что модули, имеющие разное происхождение, должны быть !!ораз ному устроены статистически. Конечно, эти статистические различия MorYT оказаться довольно тонкими и не выявляться на уровне примитив Horo сравнения A,T,G,C составов  ведь все модули ОДНОсО сенома ис.. пытывали уже в составе этоrо ['енома продолжительное эволюционное давление, которое моrло привести к сrлаживанию исходных различий. Поэтому при статистическом анализе использовалось различие частот встречаемости стационарных lrpaмM, которые были введены в предыду щем разделе. Ранее было показано, что rенетические тексты не всесда можно адекватно описать моделью однородной марковской цепи  возникает He обходимость выявления блочной структуры ДИК, Т.е. разбиения Ю!К на некоторые блоки, удовлетворяющие условию: при переходе rраницы между блоками статистические характеристики rенетическоrо текста меняются. При определении блочной структуры ДИК (Pevzner et a1,1989b) исполь зовались стационарные и не стационарные слова в rенетических текстах. Дело в том, что при определении rраниц между предполаrаемыми блоками необходимо определять разность lrpaMMHoro состава между окном слева от точки rраницы и справа от нее. Таким образом, позиция i paCCMaT ривается как потенциальная rраница блоков, если разность 1 ['раммных составов в окне слева (il,id) и справа от нее (i+1,i+d) велика. Для определения разности lrpaмMHblx составов, например при 12. МОжно положить 63 
r  1/16  d 2 , il i (2.14) так и не стационарные 2rp iro вида в учитываться все lrpbl, как стационарные, 1 r 1 r ( здесь d h h, rде h (h )  количество i i i i i левом(правом) окне). Поскольку распределение при этом в сумме будут нестационарных lrp в тексте крайне неравномерно, учет их в фор муле (2.14) приведет к высокому уровню "шума" и появлению случайных rраниц блоков. Более адекватным является подход, коrда суммирование в (2.14) идет не по всем, а лишь по стационарным l rpaм, распре деление которых в тексте испытывает случайные mлvктуации в значи тельно меньшей степени, чем распределение нестационарных lrp. Таким образом, формула (2.14) переписывается в виде r 2 1/ISI I: d , iES i (2.15) rде S множество стационарных lrp (выше было показано, что Б качестве S для 2rp можно рассматривать 8 динуклеотидов AG,AC,TG,TC,GA,GT,CA,CT в качестве 3rp  48 тринуклеотидов и Т.д. ). По критерию (2.15) была построена функция r (r вычислялось для каждой позиции ДИК) фаrа лямбда(рис.2.8), при этом положение пиков на rрафике соответствует предполаrаемым rраницам между модулями. Co поставим эти rрафики и современные представления о модульной CTPYK туре дик фаrа лямбда. На рис.2.8 функция r для фаrа лямбда сопостав лена с ero rенетической картой (Sanger et a1.,1982). Можно выделить семь пиков функции r (длина окна равна 1000, конкретные значения r при изменении длины окна MorYT меНЯТЬСЯ,однако общая форма и положе ние пиков сохраняются), при этом положение пиков 37 соответствует следующим элементам функциональной орrанизации фаrа лямбда. 1. Пик 3  отделяет правый конец области структурных reHoB от лево ro конца Ьобласти (правая транскрипция). Функции ['енов Ьобласти неизвестны. 2. Пик 4  точка окончания основных правоrо и левоrо оперонов (в работе (Sanger et a1.,1982) точка 22 500 обозначена как точка изменения направления транскрипции  в области пика 4 сталкиваются правая транскрипция с промотора р. и левая транскрипция с промотора PL)' 3. Пик 5  отделяет Ьобласть (левая транскрипция) от модуля reHoB сайтспецифической рекомбинации, oTBeTcTBeHHoro за ин теrрацию и исключение фarа. 64 
r 1 1 I  40' 20 8 I FIFiz IU 1121 : II\ 10 11 12 III V IGITI Н 1 I 1 1 II 30 10 о 1 234 567 IIIIII1 I Nu1\ А 1 W I в I с 1 Nu I : D 1 1 Е I I I t I I 31111 !I IIII I STRUCTURAL GENES REGION , I 701 I i , 60i 1 I i 501 , , , i 401 1 1 1 301 I i I 201 1 1 1 101 I 1 12 13 14 15 16 17 18 1 1xxlIIII\xx н IMILIIK 111 J I 1 11 111 I ' II  'I II 3 Т 4 Т r 1 т 2 т 20 2 xxxx I 111206 I , '1' Ь I I III I 20б-а ---тor (10Ш) 22 23 24 xxxxI1 13141 IIEa47 1 : 1 11 1 II В4 STRUCTURAL GENES REGION***** * Ь  RЕ G IОN wright * 1eft transcription* transcription * р и с.2.8. Функция r для дик фаrа лямбда,сопоставленная с rенетичес кой картой и современными представлениями о модульной структуре фаrа лямбда Положение пиков r обозначено крестиками хххх, а предполаrаемые rраницы модулей  звездочками ****. 3 Заказ JIO' 4321 65 
6 r 5 т 7 40 30 20 I I , , 101 1 I I I I 24 25 26 27 28 29 30 31 32 33 34 35 36 1IIIxxIxII:IIxxII I I Еа59 I lintl I 111 I I еl  IYI....lsll I INI I I 'I I II111 I I х! 1111sl1 I I I I 1: ! Т 11 I ol1 IIlbI   ! Еа!Т is Еа Еа  1 ra1 85 22 1 кrт +I bREGION  1eft  transcription ****** **  SPECIFIC RECOMBI NATION'S GENES ** ** GENES WITH UNКNOWN FUNCTIONS GENERAL RECOMBI NATION'S GENES + ki1,cIII,ra1 r , , I 401 I I I 301 20 10 36 37 38 39 4 41 42 43 44 45 46 47 48 1IIIIIIIIIIII Ilrexllclllll о I Р 11111 : I 11221:QIII ISIRIRzl 11 А 11111111 I 1: 141 I I 11 I 111 I I I : I   I ,С III I Iбl I 11 I 11 I I rex r r 290 2 64 В о е cII n 68 * REPLICATION GENES + ninREGION * LATE GENES IММUNЕ REGION 66 
4. Пик 6  конец области сайтспецифической рекомбинации. Начало области с неизвестными функциями. 5. Пик 7  отделяют reHbl общей рекомбинации (ехо,с,У) и ral (функции неизвестны) от области иммунитета ком смысле. Остались нерассмотренными два пика 1 и 2. Пик 2 попадает внутрь rеиа J. reH J фarа лямбда контролирует два признака: реакцию фаrа на специфические ин активирующие антитела и специфичность адсорбции. В работах Крылова, UblraHKoBa и Диллона (Крылов, UblraHKoB, 1976; Dhi110n et a1.,1982) получены результаты, позволяющие предположить, что спо собность белка J к связыванию инактивирущеrо антитела и специфич иость адсорбции  два разделимых признака. Именно эти результаты, а также работа Шоу и др. (Shaw et a1.,1977) привели к расширению MO дульной rипотезы до субrенноrо уровня (Крылов,1985). Таким образом, пик в области reHa J может отражать наличие TaKoro субrенноrо MOДY ля. Анализ пиков функции r позволяет в ряде случаев попытаться уточ нить современные представления о модульной структуре фаrа лямбда. Так, например, в настоящее время неизвестно точное положение rраницы модуля структурных reHoB: до или после reHa 10т. Положение пика 3 (справа от 10т) позволяет высказать предположение о том, что модуль структурных reHoB включает 10т. Положение пика 5 (левая rраница reHa int) позволяет предположить,что линкерная последовательность между Ьобластью и rенами сайтспецифической рекомбинации, локализована ближе к левой rранице reHa int. Следует отметить, что при анализе функции r мы не имели теорети ческоrо обоснования для уровня пороrа, при котором пик можно pac сматривать как значимый. Для "cTpororo" выбора пороrа необходимо oцe нивать параметры распределения "статистическоrо расстояния" между rенетическими текстами (Миронов и Александров,1988). Эта задача воз никает при анализе алrоритмов "быстроrо" поиска rомолоrий и является довольно сложной  в настоящее время предприняты лишь первые попытки ее решения (Певзнер,1988б). ki1,cIII, в широ 2.5.СТАТИСТИЧЕСКАЯ ЗНАЧИМОСТЬ rомолоrИй Для анализа статистической значимости rомолоrий необходимо решить следующие вопросы:  выбрать модель порождения rенетическоrо текста;  определить понятие сходства (rомолоrии) rенетических текстов;  оценить статистические параметры распределения уровня rомолоrии в рамках выбранной модели. 3* 67 
Модели порожде  ия текстов и значимост ь rомолоrий ! В первых pa ботах по анализу статистической значимости rомолоrий использовалась простейШая модель: буквы в последовательностях Х и У порождаются He зависимО с вероятностями РА' Рт' P G , Ре для Х и qA' qT' qG' qe для У. Липман и др. (Lipman et a1.,1984) впервые обратили внимание на He адекватность TaKoro подхода в связи с некоторыми особенностями (асимметрия в распределении динуклеотидов (Nussinov,1980a), Асбло ченность (Nussinov, 1980Ь), АТбоrатые области (Moreau et a1.,1982)) нуклеотидНЫХ последовательностей, не укладывающимися в рамки модели независимоrо появления букв. Липман и др. (Lipman et a1.,1984), выбрав 100 последовательностей из банка нуклеотидных последовательностей GENBANK, построили rистоr рамму распределения уровня rомолоrии (различные подходы к определе нию уровня rомолоrии рассматриваются в следующем уазделе) и сравнили ее с rистоrраммами распределения уровня rомолоrии, построенными для трех различных моделей:  случайное перемешивание с сохранением нуклеотидноrо состава;  случайное перемешивание с сохранением динуклеотидноrо состава (Fi tch,1983);  случайное перемешивание с сохранением локальноrо нуклеотидноrо состава. Было показано, что вид rистоrрамм может значительно меняться в зави симости от типа рассматриваемой модели. Таким образом выводы о зна чимости rомолоrий MorYT существенно зависеть от модели порождения текста. В случаях, коrда уровень сходства последовательностей оказы вается значимым в одной модели и не значимым в друrой, становится яс но, какие статистические свойства нуклеотидных последовательностей (например, динуклеотидная ассиметрия) привели к возникновению "лож ной" rомолоrии. Различные подходы к понятию сходства  rенетических текстов. В этом разделе задачи поиска rомолоrий рассматриваются, в отличие от rл. "Поиск rомолоrий" как задачи поиска подпоследовательностей спе циальноrо вида ( такой подход удобнее при анализе статистической значимости rомолоrий). ф и к с и р о в а н н о е в ы р а в н и в а н и е. Если paCCMaT риваются две последовательности одной и той же длины n X(XI""'Xn) И Y(Yl ,...,у..),то уровень u фиксированноrо BыpaB нивания между ними определяется, как количество индексов i, для которых XIYi' Вероятность события XiYi равна (через PB(qB) обозна чена вероятность появления буквы В в последовательности Х(У)) р  PAqA+PTqT+PG+Peqe' Статистические характеристики уровня сходства u как случайной неличины в модели фиксированноrо выравнивания леrко подсчитываются: 68 
k k nk P{uk}  С 'Р '(lp) n mр'п sp'(1p)'n (здесь m и s  математическое ожидание и дисперсия для величины u в модели фиксированноrо выравнивания). м а к с и м а л ь н ы е о б щ и е п о Д n о с л е Д о в а  т е л ь н о с т и и п о Д с л о в а. Фиксированное выравнивание, как правило, не рассматривается в качестве меры сходства, поскольку оно не допускает "сдвиrов" между сравниваемыми последовательностями. АТСОАтаА а I 11 ACGTGAGA ATCGATGA б I//\II ACGT9 AGA ATCGATGA в /# ACGTGAGA ATCGATGA r //7# ACGTGAGA Р и с.2.9.Различные подходы к понятию сходства а  фиксированное выравнивание; б  максимальная общая подпоследо вательность; в  максимальное общее подслово; r  максимальное об щее подслово с одним дефектом При анализе rенетических текстов иноrда ищут максимальные общие под последовательности и подслова. Последовательности XATCGATGA и YACGTGAGA имеют при фиксированном выравнивании уровень rомолоrии 2. в то время как длина максимальной общей под последовательности для них равна 6 ,а длина максимальноrо общеrо подслова  3 (рис.2.9). Общая под последовательность для последовательностей ХХ"""Хп И YYI'''''Yk  это набор индексов (i"j,),...,(i"j, )'...'(im'jm)' удовлетворяющий условиям i , < < i, <.... < i m ' j,< <j, <....<jm и XIYj для любоrо tl,m. Общее подслово это набор индексов (i+l,j+1), ...,(i+t,j+t),...,(i+m,j+m), удовлетворяющий условию XI+,Yj+' при tl,m. Число m называется дли ной общей подпоследовательности(подслова). Таким образом, общее подслово  это общая подпоследовательность с дополнительным условием: буквы в ней расположены подряд. Если "осла бить" определение максимальных общих подслов и рассмотреть макси мальные общие слова с одним допустимым дефектом в каждой из последо вательностей Х и У на рис.2.9, то получится, что длина TaKoro макси мальноrо общеrо подслова равна 5 (на рис.2.9,д подчеркнутая буква А в Х образует "дефект"). 69 
Если разрешить два удаления, то мы придем к тому же результату, что и при рассмотрении максимальных общих подслов (рис.2.9б, буквы. образующие "дефекты" выделены подчеркиванием). Таким образом, понятия максимальноrо общеrо подслова с k дефекта ми и максимальной общей подпоследовательности при достаточно больших k совпадают. Вероятностные распределения для длины максимальных об щих подпоследовательностей и подслов рассматриваются ниже (см. "Teo ретические оценки для длины максимальной общей подпоследовательностv. и максимальноrо общеrо подслова. " ) . о п т и м а л ь н о е в ы р а в н и в а н и е. Выравнивание пос ледовательностей ХХ"""Хп И Yy"...,y.  это последовательность пар индексов (i " j,),...(i t ,jt),...(i m .jm),удовлетворяющая условию i,< <it <....<i m , j,< <j, <....<jm (в отличие от определения общей подпоследовательности, для выравни вания не требуется выполнения условияи x i Yj для любоrо tl,m). Пары (i,j), для которых, ХiУj,называются совпадениями, а пары, для которых Xi1Yj, заменами. Элементы последовательности Х(У), не вошедшие ни в одну пару, называются удалениями в Х (в У). Удаления в у иноrда называют также вставками. Такое определение выравнивания эквивалентно введенному в rлаве "Поиск rомолоrий". Под весом выравнивания, как и в rл. "Поиск rомолоrий", понимается число vmkmvckcVdkd' ['де V m  премия за совпадение (match); V c  штраф за замену (change); v d  штраф за удаление (de1etion); km,k c ' kd  количество совпадений, замен и вставок соответственно. Под оптимальным выравниванием понимается выравнивание с макси мальнь весом, а под уровнем сходства последовательностей Х и У (В модели с штрафами)  вес оптимальноrо выравнивания Х и У . Если принять штрафы за замены и делеции равными нулю (VC,VdO). то мы придем к простейшему варианту задачи о выравни вании, коrда поиск оптимальноrо выравнивания эквивалентен поиску максимальной общей подпоследовательности. При поиске оптимальных BЫ равниваний случайных последовательностей с этими параметрами обычно оказывается, что 607. приходится на совпадения, 207.  на замены и 207. на делеции. Если мы будем увеличивать V d от О до ф , то большие штрафы за делеции приведут к тому, что число замен в оптимальном BЫ равнивании возрастет, а число делеций уменьшиться. При Vd и nk мы приходим к модели фиксированноrо выравнивания. Нас интересует вопрос о том, какой уровень оптимальноrо выравнивания между последо вательностями следует считать значимь, Т.е. при каком уровне опти мальноrо выравнивания можно делать выводы об зволюционной или функ циональной близости рассматриваемых фрarментов. 70 
в rл. "Поиск rомолоrий" описаны алrоритмы поиска выравниваний максимальноrо веса. Получить аналитические формулы для статистичес ких характеристик оптимальноrо выравнивания довольно сложно в связи с большим числом потенциальных выравниваний. Этот вопрос рассматри вается ниже (см. "Статистическая значимость оптимальноrо выравнива ния"). Т о ч е ч н ы е м а т р и Ц ы. Сходство между двумя нуклеотид ными последовательностями можно визуализовать на точечной матрице (dot matrix) (рис.1.1 rл. "Поиск rомолоrий"). При построении точеч ной матрицы фиксируется размер окна W и рассматриваются пары окон, одно из которых начинается в позиции i последовательности Х, а дpy roe  в позиции j последовательности У. Если последовательности Х и У, попавшие в выбранные окна похожи (например, уровень сходства меж ду ними превышает O,75W в модели фиксированноrо выравнивания), то на пересечении iй строки и jro столбца точечной матрицы ставится точ ка. В результате rомолоrичным участком в Х и У будут соответствовать некоторые (идущие параллельно диаrонали) линии из точек в точечной матрице. Вопросы выбора параметров при построении точечных матриц и связанные с ними вопросы статистической значимости rомолоrий обсуж даются ниже (см. 'Томолоrии и точечные матрицы."). Теоретические оценки для длины максимальной Q9 ей подпоследова тельности и максимальноrо общеrо подсло , Изучение статистических характеристик для длины максимальной общей подпоследовательности Ha чалось в работе Хватала и Санкоффа (Chvata1,Sankoff,1975), ['де были Ln 1im (через Ln п>оо n обозначено математическое ожидание длины максимальной общей подпос ледовательности последовательностей ХХ1""'ХП И УУ""'Уп)' Леrко показать, что функция L супераддитивна, Т.е. Lk+m > Lk+Lm' Отсюда следует, что получены нижние и верхние оценки для величины Ln 1 im п>оо n Ln S. sup n n Нижние оценки для S были получены с помощью построения простых алrоритмов нахождения общих (не обязательно максимальных) подпосле Й Хваталу Са нко ффу и Декену (Chvata1,Sankoff, 1975, доательносте . , Deken, 1979) удалось оценить вероятностное поведение этих алrоритмов и в качестве нижней оценки использовать длину получающихся последо Ц енок Д ЛЯ S рассматриваются вательностей. При построении верхних о Й Х и У содержащих общую оценки для числа пар последовательносте , ( ) пр ово д ится У среднение по Bce последовательность Z длины m m<П, и возможным последовательностям Z. С помощью зтой техники показано, что для 4буквенноrо алфавита 71 
0,5454 < S < 0,7181 . В даЛъ.не,фnе,м СтиJl....(.Stее1е, 1982) показал, что дисперсия распределения длины максимальной общей подпоследовательности невелика и оценивает ся как О(п). Вопрос о более точных оценках для описания параметров распределения длины максимальной общей подпоследовательности OCTaeT ся открытым, однако уже приведенные результаты MorYT быть использо ваны для оценки статистической значимости длины максимальных общих подпоследовательностей. Если длина максимальной общей подпоследовательности оценивается как О(п), то длина максимальноrо общеrо подслова имеет порядок O(logn). Арратиа и Ватерман (Waterman,1984; Arratia,Waterman, 1985; Waterman,1986) показали (тот же результат в несколько друrой форме был получен Kar1in et a1.,1983), что математическое ожидание М(п,m) длины максимальноrо общеrо подслова двух слов длины n и m оценивает ся как M(n,m)log((lp)nm) + aI  1/2 +r\(n,m) + 0(1) , а дисперсия D(n,m) как D(n,m) п2/(62) + 1/12 + r 2 (n,m) + 0(1). Здесь лоrарифм берется по основанию l/р (р  вероятность совпадения двух произвольно взятых нуклеЬтидов в рассматриваемых последователь ностях), aO,577...  константа ЭйлераМашерони, ln(l/p), а величины r\ и r 2 относительно невелики. Для случая максимальных общих подслов с k дефектами эти оценки имеют вид M(n,m)log(nm) + k1oglog(nm) + (k+1)10g(1p)  10g(k!) + k + aI  1/2 +r l (n,m) + 0(1), D(n,m) п2/(62) + 1/12 + r 2 (n,m) + 0(1). Интересно отметить, что изучение статистических характеристик уровня локальной rомолоrии (см. rл. "Поиск rомолоrий"), проведенное с помощью метода МонтеКарло, также дало лоrарифмическую оценку (Smith et a1.,1985). Статистическая значимость оптимальноrо выравнивания. В работах Хватала, Санхоффа и Райха с соавт. ( Chvata1,Sankoff,1975; Reich et al.,1984) для п8 с помощью перебора на ЭВМ были получены rисто rpbl распределения уровня rомолоrии. Оказалось, что математическое ожидание m уровня оптимальноrо выравнивания лежит в пределах 50601, (при нулевых штрафах за замены и удаления), а дисперсия s относи тельно мала (т.е. распределение имеет вид пика). 72 
Известны попытки анализа статистических характеристик уровня ro молоrии методом статистическоrо моделирования. Райх и др. (Reich et a1.,1984) предлаrают следующие эмпирические формулы, полученные пос ле аппроксимации результатов моделирования уровня rпмолоrии с по мощью метода МонтеКарло (Vd'VCO): manl,olb scno'3d (2.16) (2.17) rде aO,605. bl,04, cO,61, dO,23 для 12<п<1000. Эти формулы мосут быть использованы для rрубой оценки статистической значимости [,OMO лоrий. Например, если нас интересуют rомолоrии 20членных зондов, то в соответствии с формулами (2.16) и (2.17) (m11.86, sl,27) ypo вень rомолоrии до 15,67 можно считать фоновым (при стандартном OTK лонении большем 3). Формулы (2.16) и (2.17) находятся в хорошем соответствии с rипо тезой (Chvata1,Sankoff,1975), соrласно которой s0(nl/3), и приво Ln дившимися ранее оценками для 1 im . п>", n Если ввести щтраф за делеции vd>O, то математическое ожидание т уровня оптимальноr'о выравнивания снизится. Райх и др. (Reich et a1.,1984), учитывая, что при изменении V d от О до '" мы переходи от поиска максимальной общей последовательности к фиксированному BЫ равниванию, предложили формулы, позволяющие рассчитать статисти стическую значимость rомолоrий для моделей с штрафами за делеции. rомолоrии и . точеные маТ QИЫ Часть точек при построении точеч ной матрицы может появиться вследствие случайных причин. Ясно,что такой "фон" является помехой для биолоrа, анализирующеrо точечную матрицу. Если задаться некоторым уровнем значимости (например, 0,99), то можно поставить вопрос: как выбрать параметры построения точечной матрицы (т.е. при каком уровне rомолоr'ии в окне следует ставить точку), для Toro чтобы вероятность появления ,. случайной" точки не превышала 1O,99? Иными словами, биолоrу нужно выбирать Ta кие параметры построения точечных матриц, которые исключают (при He котором уровне значИII.ОСТИ) "случайные" точки. Если мы сравниваем две последовательности длины 1000, то вероят ность р проставления точки в произвольном месте должна быть дoc таточно низкой: 106 или менее  в противном случае вся точечная матрица будет испещрена случайными точками. Какой должна быть р, для Toro чтобы с вероятностью 0,99 в точечной матрице для двух слу чайных последовательностей отсутствовали точки? К сожалению, для pe шения этоrо вопроса нельзя привлечь модель испытаний Бернулли: дело в том, что хотя проставления точек в точечной матрице  редкие собы тия, однако они сильно коррелированы. Например, вероятность простав 73 
ления точки может быть очень маленькой  106 и ниже, тем не менее условная вероятность v может становиться очень высокой, если вблизv. от рассматриваемой позиции уже имелась точка. Поэтому оценка статис тических характеристик для заполненности точечных матриц представля ет довольно сложную проблему. При выборе параметров точечных матриц важную роль иrрает вероятность v появления точки для анализируемоrо окна при условии, что в смежных окнах точки отсутствуют. По значению v можно оценить вероятность Q Toro, что диаrональ в точечной матрице размера n окажется свободной от штрихов: Q '" (1V)n '" еУП Если положить QO,95, то следует выбирать vO,05/n . Формулы для v (Reich,Meiske,1987) позволяют выбрать параметры при построении TO чечных матриц. Так, например, если мы хотим оценить уровень фиксиро BaHHoro выравнивания U' РИТ в окне размера W, при котором следует ставить точку (QO,95), то можно использовать rрубую оценку U, рит '" pW+[2p(1p).W.1n(n)]1/2. Если оценивать вероятность Р rибридизации зонда длины W в rеномной библиотеке длины п, полаrая, что зонд rибридизуется при наличии не менее Ь совпадений, то можно воспользоваться формулой {(p/s)s [(lp)/(ls)]IS}w's.(lp) Р (2ns(1s)W )1/2(Sp) ['де sb/W. Методы, предложенные Райхом и Майске (Reich,Meiske,1987), позво ляIOТ оценить статистическую значимость заполненноститочечной матри цы. Эмпирические формулы для выбора параметров, при которых снимает ся "случайный шум" при построении точечных матриц получены также в работе Канехиса (Kanehisa,1984). Там же приводится анализ статисти ческой значимости так называемых локальных rомолоrий (Goad, Kanehi sa,1982) . 2.6. ДИК: ИНФОРМАЦИ И ЭНТРОПИЯ Определение понятий. Понятие информаци (от латинскоrо informatio  разъяснение, изложение) в своем первоначальном смысле означало  сведения, передаваемые людьми YCTHЬ или письменным спо собом. Затем (с середины ХХ в.) оно стало обще научным понятием, включающим сведения, которьи обмениваются не только люди между co 74 
бой, но люди и автоматы (ЭВМ), автоматы и автоматы; включающим сиr наЛЫ в животном и растительном мире, в том числе признаки, передава емые от клетки к клетке, от орrанизма к орrанизму. Теория передачи сообщений, развитая illенноном, рассматривает поня тия информации и энтропии в узком смысле  применительно к анализу символьных последовательностей. Текстовая запись первичной структуры дик, как уже rоворилось, BЫ зывает невольную ассоциацию с языковым, линrвистическим сообщением. В этой связи возникает вопрос, MorYT ли названные понятия теории пе редачи сообщений, подобно ее методу lrpHoro анализа, оказаться полезными для изучения rенетических текстов. Повидимому, ясно, что шенноновские информация и энтропия не эквивалентны по смыслу поняти ям rенетической информации и физической энтропии. Введем формальные определения. Рассмотрим эксперимент с n возможными исходами, имеющи ми вероятности осуществления P i  1, 2,...,п. Информация, которую приносит сообщение о том, что реализовался определенный исход i, по лarается равной I  10g2Pi' (2.18) в частностИ, сообщение о выпадении орла или решки несет единичную информацию. Энтропия характеризует неопределенность в исходе эксперимента в целом. По определению S  <1>   Е P j 1og 2 P;, (2.19) Т.е. величина S тем больше, чем меньше априорная возможность пред сказания исхода эксперимента. S максимальна, если нет исходов более вероятных, чем друrие и, таким образом, все имеют одинаковую вероят ность 1!п. Тоrда Smax  10g2 n ' Случай символьных последовательностей. Представим себе алфавит из М знаков и последовательность из них длины N. Прежде Bcero, каж дый из символов можно интерпретировать как результат очередноrо экс перимента по выбору символа. Определив вероятности выпадения симво лов в эксперименте (Pj)' можно вычислить величины I' и S', приходя щиеся на одну позицию текста по формулам (2.18).(2.19). С друrой стороны, можно rоворить о последовательности в целом как об исходе эксперимента по rенерации текста из N символов. Это позво ляет ввести величины 1 N и SN' характеризующие информацию и энт ропию, "сложноrо" эксперимента, включающеrо N "простых". Ясно, что в случае независимости "простых" экспериментов I N  Е l' j , так каКРNПРi' Если текст состоит из зависимых символов и представляется MapKOB 75 
ской цепью, то информация на один символ (и энтропия) уменьшаются. Например, для цепи первоrо порядка с известными переходньи вероят ностями P ij , i,jl,n энтропия на символ 51   Epi.E Pij'10g2Pij' (2.20) Подобные формулы цепей более высоких Кроме энтропии, существуют для моделей текстов в виде марковских порядков. удобно ввести показатель избыточности текста R 1  5 (2.21) 5тах Чем ближе величина S к максимальной, r.оответствующей полностью случайному тексту, тем R ближе к нулю, и наоборот, чем более Koppe лированы символы и "предсказуем" текст, чем леrче восстанавливать в нем пропуски, тем меньше S и тем ближе R к 1. В текстах на COBpeMeH ных языках  русском, анrлийском, немецком  величина R составляет около 0,7. троп  и избыточность нуклеот в ых послвательностей. Фак тически, энтропия последовательности дп является компактной xapaK теристикой, отражающей степень сходства последовательности нуклеоти дов с последовательностью моделируемой серией равновероятных исхо дов. При вычислении энтропии некоторой последовательности значения частот употребления символов рассчитываются по этой же последова тельности. Это приводит к некоторым примечательным выводам. lля бесконечной последовательности, состоящей из одинаковых сим волов, например ТТ...Т..., имеем PTl, PiO, iA,C,G. ЗнаЧпТ 5.0 и, кроме Toro, INO, Т.е. эта последовательность имеет HY левую шенноновскую информацию. Используя результаты, полученные для дик E.co1i в предыдущем раз деле, мы обнаруживаем, что кодирующие и не кодирующие последователь ности дик имеют разную энтропию (см.табл. 2.8) Таблица 2.8 Значения удельной энтропии и избыточности дик E.co1i, рассчитанные по разным моделям Тип дик SO S' 5 Р ' RO R' RPI Области кодирующие 1,9975 не кодирующие 1,9978 1,9769 1,9878 1,778" 1,3'103 1,1'103 1,2'102 6,1'103 1, 1 . 1 o 1 76 
Здесь верхние индексы О и 1 обозначают величины, вычисленные по однородным марковским цепям нулевоrо и первоrо порядка, а индекс р1, соответственно  по позипионной марковской модели первоrо поряд ка (см. Бородовский И др.,1986а). Приведенные данные показывают, что кодирующие области характери зуются большей избыточностью, и, следовательно, большей коррелиро ванностью расположенных рядом нуклеотидов по сравнению с некодирую щими областти. Интересно. что увеличение избыточности как xapaKTe рис тики "ансамбля" текстов означает, что встречаемость текстов с оп ределеннwи правилами чередования символов будет преобладать над друrими. Шенноном было доказано утверждение, что если энтропия TeKC та на символ равна S, то среди фраrментов длины N, выбранных из дaH Horo текста, с вероятностью, близкой к единице, встретятся не все 2N10gM возможных вариантов. а только 2 NS различных последователь ностей. Применительно к кодирующим областям, rде SРlкодирl,7787, это означает, что если, например, рассматривать фраrменты длиной 100 нуклеотидов, то разнообразие фраrментов, реально встречающихся в KO дирующих областях E.co1i в 4,6'106 раз меньще по сравнению с 4100 возможными последовательносттlИ. Таким образом, в среднем только oд на из 4,6.106 случайных нуклеотидных последовательностей имеет такую же статистическую структуру, как и реальная кодирующая об ласть. ЭНТ QQ ПИЯ и волюционные св  зи rенетичес  текстов. Величины энтропии и избыточности различаются не только для различных функцио нальных областей днк, но и дЛЯ ДНК разных орrанизмов. Например, в табл. 2.9 приведены значения S и R (определенные по марковским Moдe лям BToporo порядка) для ['еномов вирусов и плазмиды PBR322 (ryceB и др. ,1980). Видно, что увеличение избыточности и одновременно уменьшение энт ропии происходит В ряду от MS2 к SV40. У reHOMa MS2, избыточность KOToporo минимальна, ['ены практически не перекрываются дру, с дpy rOM. reHoMbl вирусов G4, ФХ174, SV40 имеют зоны перекрытия функцио нальных единиц иноrда весьма обширные. TaKoro рода наложения увели чивают число оrраничений, которым должна удовлетворять нуклеотидная последовательность, и повышают ее избыточность. Таблица 2.9 Значения функций энтропии и избыточности Функция MS2 PBR322 I G4 ФХ174 FD SV40 S R 1,985 0,007 1,974 0,013 1,937 0,031 1,932 0,033 1,928 0.036 1,880 0,055 77 
Полезньи хаnтеристиками rенетических текстов являются вели чины: DI  Smax 5, D 2  S  51, Значение D 1 можно интерпретировать как меру отклонения рассматри ваемой последовательности от случайной, описываемой равновероятной моделью. В свою очередь, величина D 2 может служить мерой отклоне ния от модели, предусматривющей независимое по рождение символов, но, возможно, с неравными вероятностями (Gatlin,1975). Заметим, что име ет место соотношение R'10g 2 M  D I +D 2 . Например, было установлено (Lipman,Maizel,1982), что кодирующие области внехромосомной ДИК эукариот имеют (при фиксированной величи не R) большее значение D1 и меньшее D2, чем кодирующие области днк прокариот, бактериофаrов. вирусов и хромосом эукариот. Это rоворит о том, что внехромосомные reHbl менее сбалансированы по нуклеотидному составу, и соседние нуклеотиды в них менее ависимы, чем в ['енах друrих типов ДИК. Друrой результат, отмеченный теми же авторами, заключается в том, что эукариотические кодирующие последовательнос ти, не содержащие интронов имеют (также при фиксированном значении R) большую величину D1 и меньшую величину D2, чем кодирующие после довательности эукариот, включающие интроны. Это в известной мере яв ляется неожиданным, так как свидетельствует о том, что винтронах наблюдаются корреляции соседних нуклеотидов, причем более сильные, чем в экзонах. Интересно, что на больших выборках кодирующих последовательностей ДИК, величина D 2 в ряду митохондрии, прокариоты, эукариоты  при нимает значения 0,019, 0,042 и 0,087 соответственно, что свидетель ствует об увеличении корреляции между соседними нуклеотидами молекул ДИК в данном таксономическом ряду. Показано (Lipman,Wi1bur,1983), что этот эффект связан в первую очередь с увеличением коррелирован ности типов соседних нуклеотидов на rраницах кодонов. В связи С тем, что в кодирующих областях ДИК возможно несколько биолоrически обоснованных кодировок структуры молекул, возникает ec тественный вопрос  как это отразится на значениях информационных характеристик. ПРfДСТавим кодирующую область ДИК в виде последовательности KOДO нов, 1.е. в виде последовательности в алфавите из 64 символов. Вели чина энтропии на один символ здесь будет определяться по формуле (2.19), в которой M64, а величины Р! будут равны частотам BCTpe чаемости кодонов il, 2'....'64. Аналоrично (при M20) подсчитывает ся и энтропия аминокислотных последовательностей. Как уже rовори лось, энтропия есть величина математическоrо ожидания информации об исходе эксперимента (см.2.19), поэтому энтропия на символ (удельная энтропия) характеризует среднее посимвольное информационное содержа 78 
ние (в смысле illеннона). Ясно, что величина удельной информации для последовательности кодонов, будет превышать величину удельной инфор мации для той же последовательности, записанной в алфавите аминокис .лот, ПОСКОЛЬКУ первая из них может рассматриваться как результат BЫ бора из большеrо числа возможных вариантов (в силу большей мощности алфавита). Значения удельной энтропии кодоновых и аминокислотных последовательностей реальных орrанизмов приводятся в табл.2.10 (Konopka,1984) . Таблица 2.10 Значения удельной энтропии матричных РНК и белков fруппа орrанизмов Энтропия мРНК Энтропия белка РНКвирусы ДИКвирусы Бактерии Позвоночные Человек 5,810 5,757 5,631 5,600 5,522 4,133 4,194 4,133 4,090 4,155  Здесь видна интересная особенность: удельная энтропия кодоновых последовательностей уменьшается по мере перехода к более высоким ступеням эволюционной лестницы, хоя удельная энтропия аминокислот ных структур, кодируемых этими последовательностями кодонов, OCTaeT ся примерно постоянной. Таким образом, информационное содержание на символ в кодоновых последовательностях в ходе эволюции уменьшается (при одновременном увеличении длины ['енома) и увеличивается избыточ ность R, характеризующая помехоустойчивость rенетическоrо текста. Такое развитие событий на уровне мРНК представляется вполне eCTeCT венным. С друrой стороны, постоянство удельной энтропии первичных структур белковых молtКуЛ (не претерпевших, в среднем, увеличения в размерах по сравнению с низшими формами) rоворит об их статистичес кой однородности в таксономическом ряду и достаточном "функциональ ном" совершенстве уже на начальной стадии эвслюции. Указанная интер претация, повидmому, находится в соответствии и с представлениями теории "нейтральности" (Кимура,1985). Используя марковские модели BToporo, TpeTbero и Т.д. порядков можно определить и соответствующие величины удельных энтропий  5 2 ,S3 И Т.д. Эти характеристики отражают корреляции в три, TeTpa и Т.д. нуклеотидах. Как можно использовать эти данные? PaCCMOT рим последовательность приращений D l Smax  S, D 2 S S', D3 51  52 И Т.д. Значение Dk пропорционально доле инфор мации, которая содержится в lrpaмw.ax порядка k относительно 79 
lrpaмм большеrо порядка. Анализ значений Dt' D2' и Т.д. позво ляет обосновать выбор марковской модели данноrо rенетическоrо TeKC та, которая затем может быть использована, например, в компьютерных процедурах распознавания (см. rл. 3,4). 2. 7. ЗAКЛIOЧЕНИЕ Исследование rенетических текстов методами теории вероятностей и математической статистики уже сеrодня привело к установлению большо ['о количества закономерностей. Некоторые из них закономерности встречаемости ди и тринуклеотидов  послужили ОСНОВОй для уrлубле ния представлении о физикохимическом строении ДИК, деталях механиз ма переноса rенетической информации и Т.д. Друrие обнаруженные зако номерности, отраженные в значениях энтропии и избыточност текстов ДНК, интересны с точки зрения исследования Путей молекулярной эволIO ции. Статистические особенности, свойственные Нуклеотидным последо вательностям функциональных областей и отраженные в теоретических (феноменолоrических) моделях, позволяют создавать компьютерные cpeд ства (nporpaмMbl) типа искусственноrо интеллекта для быстрой разметки rенетических текстов на функциональные единицы. Чрезвычайно Интерес ным является вопрос поиска новых возможных молекулярноrенетических систем реrуляции. Можно надеяться, что изучение значимых слов и coc тавление словарей окажется полезным для этой области исследований. Конечно, изложенные в данной rлаве методы и результаты  этс самые первые шаrи в изучении статистических закономерностей в rенетических текстах. Перспективы развития TaKoro направления весьма обширны. Это связано и со стремительным увеличением числа изучаемых объектов, и с привлечением и созданием новых методов aHa лиза. rлавная задача исследователя здесь, Повидимому, состоит R rOM, чтобы, критически переосмыслив имеющийся опыт, определить COBO купность надежно установленных фактов, усовершенствовать критерии корректности постановок задач и интерпретации результатов. 
rлава 3. РАСПОЗНАВАНИЕ КОДИРУЮЩИХ ОБЛАСТЕЙ В НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЯХ З. 1. ВВЕДЕНИЕ Транслируемые области прокариотическо r тическоrо типа. Понятие транслируемой (белоккодирующей) области дик возникло в результате уточнения и уrлубления представлений о единице наследствен ной информации  ['ене. Сеrодня считается, что понятия ['ена и трансли руемой области тождественны, если речь идет о прокариотах (Льюин, 1987). В случае эукариот (и архебактерий) часть ['енов имеет прерывис тую структуру и включает в себя как транслируемые, так и нетранслиру емые области. Мы не будем пояснять детали механизма белковоrо синтеза в про и эукариотах. Заметим лишь следующее. В прокариотах нуклеотидная последовательность транслируемой об ласти начинается с инициирующеrо кодона (ATG, реже GTG и очень редко друrих триплетов) и заканчивается одним из терминирующих кодонов: TGA, ТАА иЛИ TAG. Инициирующему кодону предшествует так называемый инициир УЮЩИй сиrнал, обеспечивающий правильное прикрепление матричной РНК к рибосоме. Эта сиrнальная последовательность длиной 68 нуклеОТl!ДОВ состоит преимущественно из А и G и узнается частично комплементарной ей последовательностью 16SpPHK ЗОS субъединицы. Инициирующий и терми НИРУЮЩИй кодоны лежат в одной "рамке считывания", Т.е. число нуклеоти дов в разделяющем их фраrменте кратно трем. Каждый из последовательно считываемых за инициирующим кодоном триплетов нуклеотидов (вплоть до терминирующеrо) определяет, соrласно таблице rенетическоrо кода, оче редной амИНОКИСЛОТНЫй остаток синтезируемой полипептидной цепи. В зукариотах (и архебактериях) большая часть областей ДНК, коди рующих одну полипептидную цепь, имеет прерывистую структуру. За первым кодирующим фраrментом, который всеrда начинается с ATG, следует HeKO ДИРУЮЩИй участок  интрон. Далее кодирующие и не кодирующие участки че редуются и последний кодирующий фраrмент заканчивается терминирующим кодоном. При зтом выполняются следующие условия: 1) на rранице кодиру ющеrо и некодирующеrо участка имеется каноническая, хотя и довольно Короткая последовательность, а именно  интрон начинается с динуклео тида GT и заканчивается динуклеотидом AG: 2) если вырезать кодирующие фрarменты и состыковать их, то полученный нуклеотидный текст будет иметь вид непрерывной кодирующей области (подобно описанной выше в случае прокариот). Транслируемые области наиболее плотно размещены в вирусах и фа 81 
['ах. Например, в 60 ['енах фаrа лямбда достаточно часто наблюдаетс}: сопряжение терминирующеrо кодона предыдущеrо ['ена с инициирующим KOДO ном последующеrо ['ена TGATG. В ['еноме фаrа ФХ174 были впервые обна ружены перекрывающиеся кодирующие области. Здесь в разных рамках счи тывания'одноrо и Toro же нуклеотидноrо текста содержится информация о двух различных полипептидах, которые были идентифицированы in vivo. Хотя подобные случаи наблюдались в митохондриях и У млеко питающих , Е целом про цент кодирующих областей в составе ['енома при. переходе от низших форм к высшим резко уменьшается. Постановка и подходы к решению задачи. ' Поскольку методы ceKBe нирования позволяют получать большое число нуклеотидных последователь ностей природных ДИК за короткое время, возникает проблема быстроrо выяснения ФУНКЦИй расшифрованных первичных структур. Обычный экспери ментальный путь включает в себя картирование информационной РНК, про моторов, сайтов сплайсинrа и друrих реrуляторных участков. В итоrе возникает полная и точная картина структурнофункциональной орrаниза ции данноrо участка ДИК. Компьютерные методы не столь точны, но быст рее приводят к результатам. Коrда rоворят о задаче компьютерноrо распознавания или идентифи кации кодирующих областей на известной последовательности ДИК, имеют в виду следующее. По ИСХОДНОй нуклеотидной последовательности необходимо определить, содержит ли этот фраrмент ДИК (по ПРЯМОй или комплементар НОй нити) белоккодирующие участки, и указать их точные rраницы. Кроме Toro, необходимо дать оценку надежности предсказания. Методы, алrорит мы и nporpaммbl, предложенные для решения ЭТОй задачи, пока еще не дoc тиrли исчерпывающеrо уровня надежности, и полученные с их помощью Ba рианты предсказания разметки нуклеотидноrо текста на кодирующие и He кодирующие области требуют дополнительноrо анализа (Stormo,1987). Известные методы идентификации можно условно разделить на два класса: распознавание "по сиrналу" и распознавание " по содержа нию" (Staden, 1985). В методах распознавания по сиrналу используются специфические закономерности в растановке нуклеотидов, окружающих ини ЦИИРУЮЩИй кодон, И экзонинтронные rраницы. Эти методы описаны в rл.4 в числе друrих методов распознавания сравнительно коротких сиrналов, или сайТОВ. Методы распознавания по содержанию, которым посвящена Hac тоящая rлава, основаны на том, что внутри кодирующих областей на всем их протяжении наблюдаются особенности в порядке чередования нуклеоти дов, обусловленные целым рядом Функциональных оrраничений. Одно из. очевидных оrраничений заключается в том, что 1;Iуклеотидный текст кодирующей области должен допускать представление в виде после довательности триплетов (кодонов), не содержащих терминирующих троек ТАА, TAG, TGA. В этой последовательности частоты встречаемости синонn мических кодонов должны соответствовать аминокислотному составу белковой молекулы. 82 
Посмотрим, как это оrраничение влияет на распределение нуклеоти ДОВ в кодирующей области. Данные о среднем аминокислотном составе бел ков из 314 семейств ( Dayhoff,1972) свидетельствуют о том, что частоты встречаемости аминокислот достаточно сильно варьируют, например алани на в среднем содержится в 6,6 раза больше, чем триптофана. Можно сфор миРовать модельную кодирующую нуклеотидную последовательность таким образом, чтобы выполнялись оrраничения на средний амИНОКИСЛОТНЫй coc тав. При этом синонимические кодоны будем использовать с равной Bepo ятностью (внутри своей rpYnnbl). В табл.3.1 указано, какое количество (из 1000 остатков) приходится на долю кажДОй из 20 аминокислот во всех трех возможных рамках считывания. Заметим, что значения для первой рамки соответствуют цифрам ДайХОф. В табл.3.2 также для трех возможных рамок представлены частоты кодонов. Наконец, в табл.3.3 приводятся частоты встречаемости нуклеотидов в трех позициях кодонов, вычисленные ДЛЯ модельной последовательности. Таблица 3.1 Встречаемость аминокислотных остатков Номер А С D Е F G Н К L рамки 1 86 29 55 60 36 84 20 45 66 74 2 54 21 13 23 22 48 22 47 51 96 3 47 37 30 37 26 37 30 33 34 62 М N Р Q R S Т V W у 1 17 43 52 39 49 70 61 66 13 34 2 26 30 59 37 110 89 73 54 20 20 3 9 28 48 37 133 83 44 44 21 30  Во всех случаях (табл.3.13.3) можно увидеть значительные разли ЧИЯ между частотами, относящимися к разным рамкам. Таким образом, яс но, что триплетность и конкретный вид rенетическоrо кода, а также дис пропорции в аминокислотном составе приводят к вполне ощутимым особен ностям в статистических характеристиках белоккодирующих нуклеотидных последовательностей. Эти особенности в природных ДИК существенно уси JlИВаются вследствие известноrо явления "селекции кодонов", которое заключается в том, что синонимические кодоны используются в ['еноме в неодинаковых пропорциях, специфических для каждоrо орrанизма (Grantham et a1., 1980а). В случае прокариот поставленную задачу в значительной степени уп рощает поиск достаточно длинных "открытых рамок считывания" (ОРС), Т.е. последовательностей триплетов, которые начинаются инициирующим Кодоном и заканчиваются сиrналом терминации. Действительно, например, 83 
вероятность возникновения ОРС длиной 100 нуклеотидов в случайной пос ледовательности с равновероятным включением четырех нуклеотидов  Me нее 1%. Однако известны кодирующие области существенно меньшей длины. И наоборот, не любая длинная открытая рамка является кодирующей. Дo вольно часто встречаются и ситуации, коrда кпдирующая область является частью открытой рамки, Т.е. первый кодон АТС (СТС) не является иниции рующим. Поэтому остаНОВillСЯ на утверждении, что наличие ОРС является необходимь, но недостаточным условием для идентификации кодиру ющей области в прокариотах. Для повышения надежности предсказания Таблица 3.2 Встречаемость кодонов в трех рамках Кодонl Номер I Кодон Номер I Кодон Номер 'Кодон Номер ра'v!КИ рамки ра'vlКИ рамки I I 11213\  , 1 I 2 3 1 I 2 j 3 I 2 I 3 ТТТ 18 11 15 ТСТ 12 11 13 ТАТ 17 10 16 ТСТ 15 11 17 ", Т'Т''' 18 12 12 ТСС 12 12 13 ТАС 17 11 16 ТСС 15 11 22 "" ТТА 1" 17 9 ТСА 12 17 15 ТАА О 15 28 ТСА О 16 t'""(I ..::. C:v ТТС 12 22 11 ТСС 12 22 8 ТАС О 20 10 TGG 13 20 21 .. СТТ 12 11 15 ССТ 13 11 13 САТ 10 11 16 ест 8 11 17 СТС 12 12 12 ССС 13 12 13 САС 10 12 16 ССС 8 12 22 СТА 12 17 9 ССА 13 17 15 САА 20 17 28 ССА 8 12 22 СТС 12 22 11 ССС 13 22 8 САС 20 22 lП CGG 8 22 2: ... АТТ 15 14 14 АСТ 15 14 12 АТТ 22 15 15 АСТ 12 15 16 АТС 15 15 11 АСС 15 15 12 АСС 22 16 15 АСС 12 16 2G АТА 15 21 8 АСА 15 21 14 ААА 33 22 26 AGA 8 22 27 АТС 17 27 10 АСС 15 27 8 AAG 33 29 9 АСС 8 29 2[ . СТТ 17 10 15 ССТ 22 10 12 САТ 28 7 16 ССТ 21 9 1   ( СТС 17 11 12 ССС 22 11 13 САС 28 7 15 сес 21 10 22 "" СТА 17 15 9 ССА 22 15 15 САА 30 10 28 ССА 21 14 29 СТС 17 19 11 ССС 22 19 8 САС 3О 13 10 ССС 21 18 21 нужно привлечь результаты поисков сиrнальных поседователъностей но предполаrаемых 5' rраницах или данные о статистических закономерностях внутри ОРС, Т.е. по существу надо использовать метод поиска по сиrна лу или метод поиска по содержанию, или их комбинацию, ориентируясь на ОРС как на нулевое приближение для разметки последовательности ДНК. Б случае эукариот роль ОРС еще меньше. Здесь методы поиска по сиrналу и по содержанию применяются в комбинации  отыскиваются возможные эк зонинтронные rраницы и проводится статистический анализ возможных транслируемых экзснов. Далее, в разделе 3.2 мы остановимся на методах универсальноrо типа, приrодных для поиска кодирующих областей любых орrанизмов. Они основаны на том ПРАдположении, что некоторые общие черты первичной структуры кодирующих областей можно описать простой моделью. Эти MeTO 84 
ды хронолоrически появились раньше друrих (Shu1man et a1., 1981; Shererd,1981) и продолжают развиваться (Fichant, Gautier, 1987). Зна чительное достоинство этих подходов в том, что их использование не требует предварительноrо изучения так называемой обучающей выборки из последовательностей дик рассматриваемой таксономической rруппы. В разделе 3.3 будут рассмотрены методы, связанные с особенностя ми триплетной структуры кодирующих областей в разных орrанизмах и использованием феноменолоrических моделей. Таблица 3.3 Встречаемость нуклеотидов в трех рамках Номер рамки Т С А G 1 18,35 19,32 27,19 35.14 2 23,82 24,59 31,73 19,85 3 25,48 25,48 23,77 25,27 Ср.значение 22,55 23,13 27,56 26,75  Наконец, в разделе 3.4 rоворится о методах распознавания, в Y.OTO рык используются модели кодирующих и некодирующих участков в виде марковских цепей специальноrо вида. 3.2. РАСПОЗНАВАНИЕ КОДИРУЮЩИХ ОБЛАСТЕй НА ОСНОВЕ УНИВЕРСАЛЬНЫХ МОДЕЛЕй Использование статистик моно,  ди и тринуклеотидов. В перъых работах по распознаванию кодирующих областей (Shu1man et a1.,1981; Shepherd, 1981) преследовалась оrраниченная цель  предложить компь ютерную процедуру для определения раки считывания rенетическоrо кода в известной кодирующей области. Вопрос этот скорее теоретический, так Как практически определение рамки считывания может вызывать некоторые затруднения только в случае эукариотическоrо ['енома. Но интересно, что уже здесь в значительной степени был очерчен кру, понятий и подходов, которые получили развитие в дальнейших исследованиях. В упомянутой выше работе illульмана было предложено три способа оп ределения ИСТИННОй кодирующей рамки. В первом из них использовалось предположение, что наблюдаемые в ЭТОй рамке частоты кодонов наиболее УКЛоняются от равновероятноrо распределения по сравнению с двумя дpy rими рамками. В качестве меры уклонения использовалась величина 64 D Е (f m)2/mj' i=l . I наблюдаемая и ожидаемая часота iro кодона Здесь f, . и m. I 85 
соответственно. Второй способ был связан с предположением, что распре деления частот динуклеотидов в различных рамках различаются своими свойствами. А именно считалось, что распределение динуклеотидов, pac положенных в третьей рамке, Т.е. объединяющих нуклеотид в третьей по зиции предыдущеrо кодона и нуклеотид в первой позиции последующеrо KO дона, более близко к равно вероятному, чем распределение нуклеОТИДОЕ двух друrих рамках. Наконец, третий способ предусматривал определение частот встречаемости rуанина в Tpt:X позициях кодона, имея в виду, что в первой рамке он должен встречаться чаще, чем в двух друrих (см. табл. 3. 3). Из вышесказанноrо ясно, что кажДЫй из этих способов опирался на простые представления о структуре кодирующих последовательностей, BЫ текающие из свойств таблицы rенетическоrо кода, и не требовал специ альноrо предварительноrо статистическоrо анализа известных кодируюшv.х областей. RNУзакономерности. В работе illефферда (Shepherd,1981) для оп ределения рамки считывания в кодирующей области были впервые использо ваны результаты анализа статистических характеристик белоккодирующv.х YR УУ 200 [ 'tJO а ШО 1 , 8 J б 12 9 Рис. 3.1. Частоты встречаемости комбинаций YR(N)kYY в первичной структуре ДНК а  дЛЯ ФХ174; б  для кластера ['енов рибосомных белков E.co1i; в для rистоновых reHOB MopcKoro ежа последовательностей дик. Материалом для предварительноrо анализа пос лужили расшифрованные в 1978r. ['еномы вирусов ФХ174, G4, fd, SV4C, MS2, дик плазмиды pBR322, ['ены рибосомальных белков Е. со 1 i и rистоно вые ['ены MopcKoro ежа. На постановку задачи существенно повлиял KOH такт автора с М.Эйrеном, КОТОРЫй активно разрабатывал проблему возник новения rенетическоrо кода (Eigen,1978). Поэтому цель работы была Tec но связана с проверкой rипотезы Эйrена о происхождении cOBpeMeHHorc rенетическоrо кода от архаическоrо кодовоrо правила, в соответствии с которым первичная структура кодирующеrо участка дик должна была COCTO ять из периодически повторяющихся триплетов RNY RNY RNY...RNY... (Rпурин,УПИРИМИДИН). 86 
использовалась весьма простая техника статистическоrо анализа. последовательность днк записывалась в алфавите R,Y. Затем определялись численносТИ "разнесенных" на k ПОЗИЦИй динуклеотидов YR YY. Напри мер. если величина промежутка составляла К нуклеотидов, то такой TeT рануклеотид записывается как YR(N)YY. Из результатов, представленных на рис.3.1, видно, что встречаемость пар УУ увеличивается периодическz через 0,3,6 и Т.д. оснований после пары YR. Выраженность этой законо мерности убывает в ряду: вирусы, прокариоты, эукариоты. В С Е 6 з[а 1--------i1--------I   L I А   I F Н  t, " !' {"-- !\_Ш\!, ! :IJ---L.j- 1 1......- -...... ...... ... I .. ................ .. W I О 2000 '1000 З  t б ио LIZ fl    Lf1 Lf I  t ' i . f I ......: .. I ;...... О Т\ в :t 2000 НЗ  '1000 ff2B ............., HZA Hf ., Н" Н :r ,: се  О Рис. 3.2. Предсказание кодирующих рамок в первичных для разных орrанизмов а  вирусы; б  прокариоты; в  эукариоты : : .: \ f T--". i....i Т" -- ...-- \ .:- - ... 2000 '1000 структурах днк Основанный на этом наблюдении метод предсказания заключается в следующем. Берется фраrмент последовательности дик определекной длины (например, 62 нуклеотида) и записывается в коде  R,Y. Затем фраrvент анализируется в трех возможных рамках считывания: в перво рамке  от позиции 1 до позиции 60, во второй рамке  от 2 до 61, в третьей рамУ.е  от 3 до 62. В каждом случае подсчитывается число замен (мутаций) R в У и У и R, необходимых для Toro, чтобы представить R,YTeKcT в виде серии триплетов RNY. Записывается номер рамки, которому COOTBeTCT Вует минимальное число замен. Для анализа ДЛИННОй последовательности 87 
ее разбивают на непересекающиеся фраrменты и поочередно анализируIO их, отмечая номер рамки как функцию на rрафике в центре каждоrо фраr мента (рис.3.2). Ясно, что метод симметричен относительно инвертирования последо вательности. Таким образом, если отсутсвует априорная hнформация, те остается неопределенность, по какой из нитей дик считывается rенети ческая информация в найденной рамке. Работа illефферда интересна в нескольких отношениях. Вопервых, она, как и работа illульмана, использует достаточно простую модель коди рующей области, но выбору модели предшествует статистический анализ известнЫХ кодирующих областей, совокупность которых можно было бы pac сматривать как обучающую выборку. Заметим, однако, что мы считаем He. целесообразным использовать здесь понятие обучающей выборки, так как полученная модель имеет универсальный характер и не зависит от TaKeo номической rруппы ПРИРОДНОй ДИК, ВЗЯТОй для исследования. BOBTOpЫX, весьма важНОй является попытка rлубокоrо эволюционноrо и биолоrическо ro обоснования модели. Работа illефферда, конечно, не была лишена недостатков. На наш взr ляд, более соответствовало бы постановке задачи исследование встречае мости тетрануклеотидов YR(N).YR и доказательство, что имеется Перио дическое увеличение их численности при kl,4,7 (ср. рис.3.1). Не было cTporo показано, что отклонения частот встречаемости тетрануклеотидоз YR(N).YY от ожидаемых величин являются статистически значимыми. Kpo ме Toro, КОНТРОЛЬНЫй пример, демонстрирующий визуализацию белоккоди рующих областей ряда днк (см. рис.3.2), сам по себе не дает информации о надежности предсказания. Наконец, Стаден обнаружил (Staden, 1985), что метод illефферда хорошо работает на модельной кодирующей последова тельности, построенной только с оrраничением на средний аминокислотный состав белка (см.п.3.1). Это означает, что метод illефферда слабо чувст вителен к отсутствию селекции кодонов и отбирает кодирующую рамку, в которой проявляется ТИПИЧНЫй амИНОКИСЛОТНЫй состав, кодируемый преиму щественно кодонами типа RNY. Следовательно, вопрос о первоисточнике эффективности метода illефферда будь то структура архаическоrо или cOBpeMeHHoro rенетическоrо кода  остается открытым. Метод Фиккетта. Следующим шarом в развитии методов распознавания универсальноrо типа явилась работа Фиккетта (Fickett,1982), в которой был предложен способ вычисления количественноrо критерия для ответа на вопрос, являтся ли обнаруженная в нуклеотидном тексте ОРС ИСТИННОй KO дирующей областью. Здесь впервые были исследованы как выборки кодирую щих, так и выборки некодирующих областей ДИК различных орrанизмов. Первая из них содержала 230 тыс. Нуклеотидов, а вторая. 159 тыс. HYK леотидов. Основная идея близка к методу линейноrо дискриминантноrс анализа и заключается в поиске таких, достаточно простых, признакоз рассматриваемых объектов (последовательностей ДИК), разбитых на два 88 
класса, по KOTOpЬ можно было бы построить линейную разделяющую функ цию. приrодную для любых таксономических rрупп. Было показано, что в кодирующих областях присутствуют автокорреляционные закономерности Е распределении нуклеотидов. Например (см. рис.3.3), в кодирующих об ласТЯХ число нvклеотидов, разделяющих два тимина, с rораздо большей   16 "" ,.. 10 ""  ."" Lf  .,  О  '"  а 6 12 б ! О 6 12 18 2у 177 183 189 195 Рис. 3.3. rрафик автокорреляций встречаемости тимина а  для 321 кодирующих; б  249 некодирующих фраrментов лее 200 нуклеотидов из БД "GenВank" ., 16 ::s  10    't длиной бо вероятностью будет равно 2+3n, n=l,2,....., чем 3n или 1+3n. То же ca мое выполняется и для друrих типов нуклеотидов. Можно показать, что это наблюдение непосредственно указывает на то, что в кодирующих областях частоты нуклеотидов в разных позициях кодона неодинаковы. Пусть вероятности появления, например тимина, в разных позициях кодона равны Р.'Р2'РЗ' Тоrда ожидаемая частота BCTpe чаемости двт{ тиминов, разнесенных на (2+3n) оснований, будет равна р.2+Р 2 2+Рз 2 . В случаях, коrда расстояние между тиминами 3n и 1+3n, ожидаемые частоты встречаемости Р.Р2+ Р 2 Р з+ Р з Р t И РtРЗ+Р2Р.+РЗР2 СООТветственно, причем эти две величины равны дру, друrу. Отражение этоrо факта нетрудно заметить на рис.3.4, rде периодические выбросы разделены пар близких точек. Далее можно показать, что Рt2+Р22+Рз2 > РtР2+Р2Рз+РзРt И знак равенства имеет место только при Р.=Р2=РЗ' Таким образом, исследование частот разнесенных динуклеотидов позволяет установить позиционные частотные неравномерности, и рис. 3.3 свидетельствует о том, что в кодирующих областях позиционные частоты нуклеотидов различны в трех позициях кодона и что в некодирующих областях позиционные частотные различия отсутствуют. Поставив перед собой цель выбрать наиболее простые признаки, Фик кетт остановился на следующих восьми признаках  четырех позиционных naраметрах Тр' С р ' Ар и G p и четырех частотах мононуклеотидов 89 
Tf' C f , Af и G f . Вычисление позиционных параметров, например Тр' производится следующим образом. Пусть Т 1  число тиминов В позициях тиминов В позициях 2,5,8,....,3n1; Тз 3,6,9,....,3п рассматриваемой ОРС. Тоrда mах (Т 1 ,Т 2 ,Т з ) Т  р min (Т " Т 2 ,Т з ) + 1 Достоинство TaKoro определения позиционных параметров в том, чтс все позиции кодона здесь равноправны и величина Тр характеризуе лишь факт различия позиционных частот. Кроме Toro, было показано, чтс величины позиционных параметров оказались независящими от особенносте правил селекции кодонов, свойственных различным орrанизмам. Частотные параметры Tf' C f , Af и G f являются частотами встречае мости мононуклеотидов. Ясно, что, например, Т  Т,+Т 2 +Т з , За крите рий при идентификации кодирующей области было принято значение функцv.v. 1'4'7..... ,3n2; Т 2 числс  число тиминов В позициях Fo,33Tp+o,18Cp+o,26Ap+o,31Gp+o,14Tf+o,12Cf+o,llAf+o,l5G f . На реальных нуклеотидных последовательностях функция F принимает значения от 0,32 до l,37.Правило принятия решения в зависимости от Be личины функции F задается в табл. 3.4. Для проверки предложенноrо метода было проведено следующее испы тание. Каждая из обучающих выборок (кодирующая и некодирующая) была разбита случайным образом на две равных выборки и образованы две парь:, Одну из них использовали как обучающую для определения функции F, дpy rую  для контроля. В результате 67. кодирующих фраrментов были ошибоч но отнесены к некодирующим, 37. не кодирующих  к кодирующим и в 18% случаев определенноrо ответа не было дано. Необходимо заметить, что все зти операции выполнялись с последовательностями длиной не менее 200 нуклеотидов. ДЛЯ ОРС меньшей длины, например от 100 до 200, коли чество ошибок возрастало до 137., а число случаев без определенноrо OT вета до 297.. В 1982r. появилась первая из цикла работ Стаде на, посвященных распознаванию кодирующих областей (Staden, McLach1an, 1982). Стаден разработал несколько методов, два из которых можно отнести к числу универсальных: 1) метод, в котором используется статистика частот KO донов для модельной последовательности с усредненным аминокислотным составом (см. табл.3.2); 2) метод, который идентифицирует присут ствие характерных различий в позиционных частотах нуклеотидов (см. Staden, 1985). Следует сказать, что несовпадение позиционных частот мононуклео тидов в разных рамках анализируемой последовательности служит призна ком кодирующей области и в двух друrих методах универсальноrо типа (Bibb et a1.,1984; A1magor,1985). 90 
Таблица 3.4 Правила предсказания кодирующих свойств ПО функции Фиккетта Значение Вероятность кодирования Предсказания ОТ 0,32 o 0,43 0,00 Не коирует " 0,43 0,53 0,04 0,53 " 0,64 0,07 0,64 " 0,74 0,29 0,74 " 0,84 0,40 Не ясно 0,84 " 0,95 0,77 " 0,95 " 1,05 0,92 Кодирует 1,05 " 1,16 0,98 " 1,16 " 1,26 1,00 1,26 " 1,37 1,00 Использование информаЦИ НЫХСQ ЙСТВ кодонов. Ориrинальный под ХОД к рассматриваемой задаче (Tramontano, Macchiato,1986) связан с ин формационными характеристиками кодонов. Эти величины определяется по формуле 3 n. 't" ( 't"J f i...J i...J Pi'gJi)/n J ' jl il ['де nJ  число "осмысленных" мутаций для основания находящеrося в jй позиции данноrо кодона (т.е без учета мутаций приводящих к Tep минирующим кодонам); Р;  относительная частота мутаций, вычислен ная исходя из анализа rомолоrичных ['енов родственных орrанизмов; gjt  величина, отражающая различие в rидрофобностях аминокислоты, которую кодирует данный кодон, и аминокислоты, в которую транслируется мутиро вавший кодон. Значения f были определены для всех смысловых кодонов (см.табл.3.5). При анализе нуклеотидной последовательности для COCTaB ляющих ее кодонов вычислялась средняя величина <f>. Исследование выбо рок кодирующих и не кодирующих областей позволило найти распределения значений <f> на объектах каждоrо класса и аппроксимировать зти змпири ческие распределения кривыми rayccoBcKoro типа с параметрами (тl2,25, s,o,15) и (m22,5, s2O,25) соответственно. Теперь при исследовании HOBoro объекта  открытой рамки с неиз вестными свойствами  вероятность ее принадлежности к числу коди кодирующих областей определяется по формуле Р (1/s,).exp[«f>ml)2/s,2l (1/sl).exp[«f>m,)2/s,2J+(1/s2).exp[«f>m2)2/s22J Область возможных значений р рекомендуется разбить на три диапа Зона. Первый  О < Р < РП  mlS'/3  соответствует предсказанию о 91 
ТОМ, что последовательность обладает КОДИРУЮЩИМИ свойствами, второй . РП < Р < Р К  m2S2/3  оставляет вопрос открытым и третий  Р ) P k  дает предсказание, что последовательность не является кодирующей. Исследование надежности предсказаний на контрольной выборке показало, что в 13% случаев коДирующие последовательности были приняты за не кодирующие и в 21% случаев  наоборот, некодирующие последодователь HOCT были приняты за кодирующие, причем по 15% тех и друrих Таблица 3.5 Информационные значения для смысловых кодонов 2й нуклеотид lй I нуклео ,,"ид А С G Т I 3й нуклео тид А 2,9 1,3 1,5 3,9 А 3,4 1,2 1,0 4,3 С 2,3 1,3 1,7 3,0 G 2,8 1,2 1,1 4,4 Т  С 3,5 4,2 1,4 1,9 А 3,4 3,5 1,6 1,5 С 2,0 4,2 1,6 2,2 G 3,0 3,5 1,6 1,5 Т  G 1,4 1,0 1,4 2,4 А 1,2 1,0 0,8 2,4 С 1,4 1,0 1,5 1,8 G 1,2 1,0 0,8 2,4 Т  Т 3,0 2,9 А 4,1 3,2 4,1 2,5 С 4,1 5,6 1,7 G 4,1 3,2 3,5 2,5 Т функциональных зон были неопознаны. Эти цифры явно уступают аналоrичн ым показателям для метода Фиккетта. Повидимому, существует лишь orpa ниченное число ситуаций, коrда можно предвидеть ИСК8.JКение статистичес н кой структуры кодирующей области (перекрывание нескольких открытых pa мок на одной нити или на комплементарных нитях) и использовать преиму щества метода Трамонтано  Мачиато, связанноrо в большей степени не с анализом статистических характеристик собственно нуклеотидной последо вательности, а со свойствами rипотетическоrо белка. 3.3.РАСПОЗНАВАНИЕ кодирующих ОБЛАСТЕй ПО ОСОБЕННОСТЯМ ТРИПЛЕТНОй СТРУКТУРЫ. ОБУЧАЮЩИЕ ВЫБОРКИ Использование статистики синонимических кодонов. ные статистики кодирующих областей, Т.е. частоты lrp, специфичны для таксономических rpynn и Д8.JКe ОлиrонуклеОТИk встречаеМОСТЕ для отдельных 92 
орrаmiЗМОВ внутри I'рУПП (Nussinov, 1980; Ikemura,1981,1982). Поэтому возможности универсальных методов распознавания по содержанию оказыва IOтся неодинаковыми для первичных структур дик разных орrанизмов и, бо лее Toro, заранее непредсказуемыми. Естественно, возникает вопрос о том, нельзя ли "настроить" механизм распознавания так, чтобы были уч тены статистические особенности данноrо reHoMa (или rpYnnbl ['еномов). Эту цель можно достичь, например, путем использования так называемой феноменолоrической модели кодирующей области, параметры которой опре деляюТСЯ из результатов анализа известных кодирующих областей данноrо reHOMa. В ряде работ (Staden, McLachlan, 1982; Gribskov et a1.,1984; Hinds, B1ake,1985) в качестве параметров модели берутся частоты BCTpe чаемости кодонов. Метод Стадена и Маклачлан, названный впоследствии "методом селекции кодонов", состоит в следующем. Предположим, что мы рассматриваем фраrмент первичной структуры дик HeKoToporo орrанизма (обозначаемый далее через Z), состоящий из З(п+1) нуклеотидов. Текст фраrмента Z может быть записан как цепочка триплетов a,B,c,alblc l .......а.+\в.+,с.+,. (3.1 ) Представим себе, что нам известны частоты встречаемости кодонов. характерные для кодирующих областей этоrо орrанизма f(abc), a,b,cT,C,A,G. Кроме Toro, будем считать, что в полном ['еноме выделены три условные сквозные РЮАКИ считывания триплетов и что доля кодирующих областей, располаrающихся в первой рамке  Q., во второй  Ql И В третьей  Qз. Попробуем определить величину вероятности, с которой нам BCTpe тится последовательность (3.1), если извлекать случайным образом фраr менты длины п+1 из длинной кодирующей нуклеотидной последовательности. Величина этой вероятности будет принимать три разных значения в зави симости от расположения рамки считывания, Т.е. первую позицию кодона занимает либо нуклеотид а" либо нуклеотид Ь" либо нуклеотид с\. Вероятности каждоrо из зтих случаев определяются следующими BЫ ражениями: рамка 1 PI Q,.f(a,b,c,).......f(a.b.c.), рамка 2 Pl Q,.f(b,c,a,).......f(b.c.a.+,), рамка 3 рз Qз.f(с,а,Ь,).......f(с.а..,Ь..,). (3.2) Напомним, что нас интересует противоположная по смыслу величина р  вероятность Toro, что фраrмент Z является кодирующим. Случаи, Kor да нуклеотид а, занимает первое, второе или третье поУ.ожение в KOДO Не, MorYT вносить существенно различный вклад в величину Р. Поэтому 93 
z 3 Рис. 3.4. Пр именение "метода селекции кодонов" к аtр(unс)оперону Е. co1i Отмечены reИbl: а  atp1; б  atpB; в  atpE; r  atpF; д  atpH: е  atpA; ж atpG; з  atpD; и  atpC; 1,2,3  номера рамок рассмотрим эти случаи по отдельности и определим их вероятности исходя из известных значений Рl' Pl' Рз' используя формулу Байеса: Р 1 Р > Р з Р/(РI+Рl+РЗ)' Р/( Рl +р> +рз), Рз/( РI +р> +Рз). (3.3) Теперь, как уже ясно, Р  Р 1 +Р l +Р з . Заметим, что при прак тической реализации алrоритма удобно использовать лоrарифмы частот. Полученные значения Р1,Рl,Р з ставятся в соответствие центрально? позиции окна. Таким образом, при сканировании последовательности воз никают три функции, которые MorYT быть изображены rрафичесю: ( рис. 3. 4) . Следует заметить, что полученные значения вероятности являются Е определенном смысле условными, так как в данном методе байесовски формализм проведен недостаточно cTporo, например не рассматривается возможность попадания фраrмента Z в некодирующие области. Кроме Toro. сама феноменолоrическая модель кодирующей области как последователь. ности из независимо чередующихся кодонов не является полностью COOT ветствующей реальности. Поэтому полученные величины вероятности кодирования Р. в трех рамках не являются вполне адекватными. Этот факт отражается в наблюда емых на рис.3.4 выбросах за 501.ный уровень в некодирующих участках J' провалах в кодирующих областях, количество которых превышает ожидае мое. Тем не менее практическое значение метода было несомненно боль 94 
mим. Достаточно сказать о работе Сэнrера и соавт. (Sanger et a1., 1982), которые при анализе расшифрованноrо ими reHOMa фаrа лямбда aK тивно использовали метод селекции кодонов для картирования кодирующих учстков и оценки вероятности Toro, что наблюдаемые ОРС являются pe альными кодирующими областями. К методу Стадена  Маклачлан близок метод rрибскова и соавт. (Gribskov et al.,1984). Основное отличие состоит в том, что для опре деления вероятности принадлежности рассматриваемоrо фраrмента дик к кодирующей области берутся частоты использования синонимических KOДO нов (нормированные на единицу в каждой rруппе), определенные заранее для данноrо ['енома. Этот выбор в какойто степени уменьшает чувствительность метода по сравнению с методом Стадена  Маклачлан, так как учитывается только одна из двух составляющих абсолютной частоты встречаемости кодонов, а вторая составляющая  частота встречаемости аминокислот  оказывается отброшенной. С дрyrой стороны, возникают два преимущества. Вопервых, увеличиваются' возможности распознавания ['енов, кодирующих белки с npоизвольным аминокислотным составом. BOBTOPЫX, получаемый результат несет одновременно некоторую информацию об использовании наиболее или наименее распространенных в данном ['еноме синонимических кодонов, что позволяет предполаrать определенный уровень экспрессии reHa (см.rл.2). Методы, связанные со статистикой нуклеотидов в третьей позиц и.и кодона. В нуклеотидных последовательностях кодирующих областей особая роль принадлежит нуклеотидам, занимающим третью позицию кодона. Они испытывают наименьшее селективное давление со стороны эволюционноrо отбора на уровне белковых структур. В то же время они сильно коррели рованы с первыми двумя нуклеотидами кодона (селекция кодонов), что связано с давлением отбора на уровне трансляции (см.rл.2). Обнаружена также корреляция третьеrо нуклеотида кодона с нуклеотидами 3'coceд Hero кодона. Как уже rоворилось, в качестве методов распознавания универсаль Horo типа были предложены подходы, предусматривающие вычисление функ ЦИйиндикаторов кодирующих областей исходя из частот встречаемости MO нонуклеотидов в трех рамках, рассчитанных внутри окна наблюдения W (Shulman et al.,1981; Staden, 1984а; Bibb et a1., 1984; A1magor,1985). ДВа из этих методов (Bibb и A1magor) предусматривают выявление кодиру ющей области и рамки считывания по различиям в позиционных частотах мононуклеотидов. В частности, Алмаrор предполаrал, что частоты нуклео ТИДов в третьей позиции более чем в двух друrих уклоняются от paBHOBe Роятноrо распределения. Бибб с соавт. показал, что GC содержание (час тоты G и С нуклеотидов) в третьей позиции кодона сильнее, чем в двух дРyrих позициях, скоррелировано с GC содержанием кодирующей области в целом. Работоспособность этих методов была подтверждена примерами (для РеНОВ E.co1i, митохондрий дрожжей). 95 
Более детально закономерности в распределении частот нуклеОТИДОЕ в третьем положении кодона были исследованы позднее на выборках reHoE E.co1i (Бородовский и др.,1988). Здесь было показано, что частоты HYK леотидов в этой позиции статистически значимо изменяются в зависимости от типа нуклеотида, расположенноrо с 3' стороны от кодона. Кроме Toro, характер изменений неодинаков в сильно и слабо экспрессируемых ['енах. Данные о контекстно зависимых частотах нуклеотидов в третьем положении кодона, полученные на обучающей выборке, MorYT быть использованы для локализации кодирующих областей. Идеолоrия метода так же, как и в п.3.3, связана с байесовским под ходом. Задача состоит в том, чтобы определить вероятности принадлеж ности фраrмента заданноrо вида  (а 1 ,а 2 , ... аз">з), aj Т, С, А, G  кодирующей или не кодирующей областям. Допустим, что нам известны частоты нуклеотидов в третьем положе нии кодонов .. fk(a), aT,C,A,G  и частоты нуклеотидов в некодирующе:1 области  f"(a), aT,C,A,G (которые не зависят от позиции). Тоrда, если рассматриваемый фраrмент Z является кодирующим, то вероятность Toro, что он считывается в lй, 2й или в 3й рамке, равна Рl fk(аJ'fk(а6)'",'fk(аз"), Р2  f k ( а 4 ) . f k ( а 7 ) . . . . . f k ( аз" > 1 ) , рз fk(аs)'fk(ав)'...'fk(аЗ",2)' (3.4) С друrой стороны, вероятность встретить фраrмент Z внекодирующей области равна р" f" (a s )' f" (ав)'. . . . f" (а З ">2)' (3.5) Теперь нетрудно определить искомую вероятность Toro, что фраrмент Z принадлежит кодирующей области и что при этом первый нуклеотид фраr мента находится в определенной (iЙ, il,2,3) позиции кодона Р!  Рj/(QtРt+ Q 2Р2+ Q з р з +Q"p"). (3.6) Здесь Q"  доля При отсутствии Q"1/6. Только что изложенный подход обобщается на те случаи, коrда в Ka честве позиционных частот fk(a)  частот нуклеотидов в третьем поло жении кодона  используются так называемые контекстные (условные) час тоты. Поясним это понятие. Контекстной частотой TpeTbero нуклеотида при задании одноrо нуклеотида с 3' стороны f(clb) является частота встречаемости нуклеотида с при условии, что вторым нуклеотидом кодона является Ь. Контекстная частота f(clab) определяется при условии, что некодирующих областей в рассматриваемом reHoMe. априорной информации обычно полarается Qi1/2, 96 
пrклеотиды а и Ь занимают первую и вторую позиции кодона COOTBeTCTBeH ПО. Наконец, f(clab*d) есть частота встречаемости с при условии, что первые две позиции кодона занимают нуклеотиды а и Ь, и в первой пози дии 5'соседнеrо кодона находится нуклеотид типа d (звездочка COOTBeT с;вует позиции" в которой находится нуклеотид с). Все введенные KOH текстные частоты MorYT быть определены исходя из позиционных частот MOHO, ди, три И тетрануклеотидов (N(a), N(ab), N(abc), N(abcd)) на обучающей выборке кодирующих областей, а именно: f k I (с) f К2 (с) f kЗ (с) Определенные здесь ственно подставлены переобозначить как частоты f i k ( а) , в формулу (3.4) fkO(a). Значения f(clb)  N(bc)!N(c), f(c!ab)  N(abc)!N(ab), f(clab*d)  N(abcd)/E N(abnd). n il,2,3 MorYT быть непосред вместо fk(a), которые лоrично Pi' i  1,2,3 для скользящеrо (3.7) f -----+--  L.......:...... 3  Л(' II 11 11111111'lt....V Jf1..fVV\ м..  1"'\ '   . 'v" v L....,.  "' I ",fY v,,J,-J I ( I ."л",jL# II ,.. )\ I ; 200 .00 500 800 . fCLfXX(I9J) областей для 2 ! 2 J"""'" Рис. 3.5. rрафики Функцийиндикаторов кодирующих рамок считывания последовательности ECLEXX 1,2,3,1,2,3  номера рамок, V(4,15) шести вдоль последовательности фрarмента являются функциямииндикаторами KO дирующих областей. Кроме Toro, инвертирование рассматриваемой последо вательности позволяет применить тот же алrоритм для обнаружения коди рующих областей на комплементарной нити дик. Таким образом, исследова кие нуклеотидной последовательности может происходить сразу в шести возможных рамках считывания rенетическоrо кода. На рис.3.5 представлены rрафики величин P(KIZ),il,2,3, получен НЫХ для последовательности ECLEXX (обозначение, принятое в базе данных EМВL) в том случае, коrда размер контекста равен 3, а ширина окна  15 КОдонам. Известно, что фрarмент (102,707) последовательности ECLEXX является умеренно экспрессируемым reHoM белка 1exA. Числа, стоящие по rоризонтали, указывают количество нуклеотидов от начала последовательности. Масштаб вертикальной оси соответствует ИНтервалу (0,1). Здесь и на последующих рисунках на уровне 0,5 сплош 4 3ахаэ N' 4327 97 
ными линиями отмечены цепочки триплетов, не содержащие терминирующих кодонов. Они начинаются от длинных или коротких вертикальных штрихов, которые означают триплеты ATG или GTG соответственно, и заканчиваются смещенными вниз длинными штрихами, которые указывают положения терми- нирующих триплетов. Таблица 3.6 Значения эмпирической вероятности кодирования для известных reHoB E.co1i reH Число I Значение I Название I Число I Значение кодонов индикатора кодонов индикатора Высокоэкспессируемые reHbl a1a S 874 0,86 rp1 К 141 0,922 асе Е 629 0,909 rp1 L 120 0,881 асе F 474 0,928 rpo В 1341 0,915 atp А 512 0,909 rpo С 1406 0,948 atp Е 78 0,955 rps А 555 0,939 atp D 459 0,916 rps В 240 0,939 dna К 637 0,924 rps С 79 0,922 gln S 550 0,921 rps D 132 0,832 у1 У S 302 0,928 rps G 80 0,912 рр 377 0,914 rps J 102 0,910 оmр А 345 0,949 rps L 123 0,887 оmр F 361 0,907 rps Т 86 0,820 rec А 352 0,919 rps U 70 0,921 rp1 А 233 0,908 tsf 282 0,942 rp1 J 164 0,873 291 Низкоэкспессируемые ['ены 1021 ara С 0,69 1ac Z 0,837 aro F 355 0,827 1ex А 201 0,777 asn D 366 0,813 ma1 F 513 0,847 asn А 329 0,866 me1 В 468 0,612 dащ 277 0,691 met L 808 0,903 deo R 250 0,695 раЬ В 452 0,750 dna G 579 0,589 pfk В 307 0,647 dxi 332 0,831 pur F 503 0,861 fo1 158 0,828 pyr В 310 0,814 fиrn А 547 0,825 rnh 154 0,739 ga1 R 342 0,689 thr А 819 0,725 yyr В 356 0,679 trp S 333 0,909 ас 1 359 0,768 tsr 535 0,823  Изложенный подход не дает пока ответа на два естественных вопро са: вопервых, следует ли стремиться использовать контекстные вероят ности максимально возможноrо порядка, или же за счет "эффекта Hacы щения" увеличение контекста выше определенноrо предела практически теряет смысл; BOBTOpЫX, существует ли более компактная, чем rрафик функции, характеристика, которая позволила бы судить о том, является ли данная открытая рамка белоккодирующей или нет. Сравнительное исследование распределений значений величин Pki(KIZ), iO,l,2,3 для выборок кодирующих и некодирующих областей 98 
показало следующее. Плотности dk'i (Р I К) и d k i (Р I н) этих распределе нИЙ (в случае in) в значительной степени перекрывались, что свиде тельствовало о нецелесообразности использования величин P.o(K!Z) в качестве индикатора в алrоритме распознавания. В случае il указанные плотности концентрировались вблизи 1 и О соответственно. При i2 зти функции еще более стяrивались к краям области определения. В случае i=3 поведение функций плотности не значительно улучшалось (приближаясь к идеалу  двум дельтафункциям в единице и в нуле) по сравнению со случаем i=2. Таким образом, в последовательности функций плотностей наблюдался эффект насыщения и следовало предполаrать, что алrоритмы распознавания, использующие контекстные частоты с параметрами i=2 и i=3, будут давать практически одинаковые результаты (что и имело место в действительности). Таблица 3.7 Эмпирические вероятности кодирования для неидентифицированных ОРС Последовательность От N До N Вероятность ЕСАСЕЕ ЕСАТРХ ECFRDB ECFRDB ECLAМEA ЕСОМРА ЕСРНОЕ ECPR6K ECRRNBZ 186 177 42 448 1682 172 1572 1486 275 893 566 434 804 2074 666 1970 1938 1141 0,690 0,493 0,870 0,929 0,785 0,636 0,469 0,368 0,525 Для решения BToporo вопроса можно использовать функции плотности dkl(PIK), i>O. Определим эмпирическую вероятность кодирования для фрarмента Z следующим образом: Vi(KIZ) d k i ( Р ! К) dki(PIK)+dki(PIH) Для отдельно взятой ОРС длины L, разбитой на непересекающиеся фраrменты Zj,jl,....N, можно определить величину Vi(L) 4* N 1: Vi(KIZ) jl J 99 
Величина Vj(L) характеризует вероятность наличия свойств У открытой рамки. Значения Vз(L) для известных областей представлены в табл.3.6. При этом использовались Z длиной 45 нуклеотидов. j Видно, что во всех случаях значения вероятности кодирования пре восходят величину 0,5, которая принимается в качестве ПОрОI'ОВОЙ при рассмотрении неидентифицированных ОРС. Нуклеотидные последовательности ЕСАСЕЕ, ЕСАТРХ, ECFRDB, ЕСОМРА ЕСРАР1, ЕСРНОЕ, ECPR6K, ЕСRPЛВZ (обозначения приводятся соrласно опи санию базы данных EМEL) имеют открытые рамки с неизвестной функцией, Для этих ОРС были определены значения Vз(L), которые приводятся ь табл.3.7. Величины, превосходящие 0,5, позволяют предсказывать белоккодиру щие свойства для соответствующих ОРС. Диапазон O,4O,5 является поло сой неопределенности. Если же Vз(L) < 0,4, то делается вывод, что данная ОРС не обладает кодирующими свойствами. КОДИРУЮЩИ У КОДИРУЮЩИХ фраrменть: 3.4.ИСПОЛЬ30ВАНИЕ ПРЕДСТАВЛЕНИй КОДИРYIOIIЩХ ОБЛАСТЕй МАРКОВСКИМИ ЦЕПЯМИ Модели двух классов объектов. В rл. 2 при обсуждении общей за дачи статистическоrо моделирования нуклеотидных последовательностей было отмечено, что rенетический текст не стационарен и что не существу ет единой модели, одинаково хорошо описывающей первичную структуру re нома на всем ero протяжении. В связи с этим для описания кодирующих п не кодирующих областей дик были предложены марковские модели разноrо типа. Представления, изложенные в rл.2, MorYT быть использованы в Me тоде распознавания кодирующих областей. На первом этапе производится lrрный анализ выборок известных кодирующих и некодирующих областей (обучающих выборок). В результате этоrо анализа определяются переход ные вероятности неоднородной и однородной цепей Маркова, которые слу жат моделями кодирующих и некодирующих областей соответственно. Далее эадача заключается в том, чтобы разметить предъявленный rенетический текст на чередующиеся зоны, одни из которых статистически наиболее близки к модели кодирующей области, а друrие модели не кодирующей об ласти. Наиболее простой способ реализации этой процедуры связан, как и п.3.3, с использованием движущеrося окна и последовательноrо принятия решений о принадлежности фраrментов первичной структуры дик (в просве те окна) к классу кодирующих или некодирующих. Недостатком TaKoro спо соба, как и друrих методов распознавания по содержанию, являются зат руднения при анализе фраrментов, содержащих внутри себя rраничную по зицию, Т.е. частично принадлежащих к тому и друrому классу OДHOBpeMeH 1011 
но, что в итоrе приводит к недостаточно точному определению положения l"раниц. Марковский алrоритм распознавания. Вернемся к нашему основному объекту  фраrменту последовательности дик  Z, состоящему из n нукле отидов, Т.е. Z  а"а 2 ,....а п ' alT,C,A,G. Напомним, что выбрано n, кратное трем. Речь попрежнему будет идти о вероятностях P(KIZ) И p(NIZ) Toro, что участок Z принадлежит кодирующей и некодирующей об ласти соответственно. Нам удобно повторить уже рассматривавшиеся этапы вывода байесовскоrо алrоритма, которые при использовании марковских моделей приобретают большую степень общности. Как мы уже знаем, Беличину P(K!Z) можно представить как сумму трех величин  P(K,!Z), P(K 2 !Z), Р(Кз!Z), которые есть вероятности Toro, что фраrмент Z принадлежит кодирующей области и в то же время нуклеотид "'i занимае, iю позицию HeKOToporo RCiдона. 3ычисление вероятностей P(NIZ) и P(K,IZ), il,2,3 можно выполнить, зная параметры математических моделей кодирующих и не кодирующих областей. Модель некодирующей области задается однородной марковской цепью nepBoro порядка. Вектор начальноrо распределения вероятностей (соrлас но табл.2.2,rл.2) имеет четыре компоненты: P(T)O,231, P(C)O,259, P(A)O,261, P(G)O,248. Матрица переходных вероятностей для этой цe nи приведена в табл.2.3 rл.2. В качестве модели кодирующей области MorYT быть использованы неоднородные марковские цепи трех разных по рядков  rO,l,2. Чем больше r, тем ближе статистические характеристи ки модели к реальной последовательности. Однако за это приходится пла тить введением дополнительных параметров. Поэтому в зависимости от си туации может быть выбрана любая модель. Ниже мы приводим результаты для всех трех. Для пояснения существа алrоритма тип модели не имеет значения. Возьмем (для определенности) неоднороднт.о марковскую цепь первоrо по рядка. Такая цепь задается тремя векторами начальных вероятностей pi(a), aT,C,A,G и тремя матрицами переходных вероятностей размера 4х4 P'(bla), а,Ь  T,C,A,G, il,2,3. Численные значения составляю щих векторов и элементов матриц приведены в таБЛ.2.2 и 2.3 rЛ.2. Первым шarом алrоритма является вычисление четырех вспомоrатель ных величинстатистик для фраrмента Z. Одна из них  P(ZIH)  опреде ляет вероятность случайноrо обнаружения фраrмента, идентичноrо Z в He кодирующей области, и вычисляется по формуле P(ZIH)  P(a,).P(a2Ia,).....P(anlan,). (3.8) ТРИ друrих величины обозначим через P(Zlk1), P(Zlk2) и P(zlk3). P(Zlk1) есть вероятность случайноrо обнаружения фраrмента в кодирующей области и в таком положении, что нуклеотид а, оказывается в первой Позиции HeKoToporo кодона. P(Zlk2) и P(zlk3) определяют вероятности 101 
обнаружения фраrмента Z в кодирующей области и в положении, коrда HYK леотид а. занимает вторую или третью позиции HeKoToporo кодона COOT ветственно. Имеем Р( Z ! k1)  р. (а, ) . р' ( а 2 ! а, ) . р2 (аз I aJ . . . . . р2 ( a n I a n , ) , P(Z!k2)  Р2(а.).р'(а2Iа.).Рз(азlа2).....Рз(апlап,), (3.9) Р( Z I k3)  рз (а, ) .р з (а 2 \ а. ) 'Р' (аз I а 2 )'. . . . Р' (a n I an. ). Теперь можно вычислить представляющие rлавный интерес значения вероятностей P(H!Z) и P(kiIZ), il,2,3, дающие предсказания о том, Ha ходимся ли мы В кодирующей или некодирующей области. Причем достаточно а 0,5  I б 0,5 1111111"'111 1I.....,hll 8 0,5 ,L, 111 1 1111  I 11 I1 111 I II I 111 ,L 200 .00 600 800 1000 1200 Рис. 3.6. rрафики Функцийиндикаторов кодирщих областей для после довательности ECRECA в трех рамках считывания (aB) Применение метода марковских цепей с параметрами V(l,16) будет определить величины P(k1!Z), так как с большой степенью точности можно принять, что p(HIZ)l P(k1\Z)  P(k2IZ)  P(k3\Z). Исходя из формулы Байеса получим P(Zlk,)'P(k,) }.; Р(Z\ki)'Р(ki)+Р(ZIЮР(Н) P(k,\Z)  (3.10) 102 
Здесь р(н) и P(k i ), i=l,2,3 являются так называемыми априорными вероятностями событий Н и К; . Эти величины дают оценку вероятности принадлежности Фраrмента к некодирующей или кодирующей области еще до Toro, как становится известна конкретная первичная структура фраrмента Z. Естественно принять, что Р(Н)= 1/2, P(k i )=1/6, i=l,2,3. Аналоrами этих величин в п.3.3 являются величины Qi' i=l,2,3 и QH' Подобным же образом определяются величины P(kjIZ), i=l,2,3 и p(HIZ) в тех случаях, коrда моделью кодирующей области является Heoд нородная марковская цепь нулевоrо или BToporo порядка. В частности, а 0,5 '1 L..L........., ,L..L...........  J " r I 1 II I J I 111 I 1I1 I 'U 200 МО БОО 800 J И с. 3.7. rрафики Функцийиндикаторов кодирующих областей для овательности ECLEXX в трех рамках считывания (aB) Применение метода марковских цепей с параметрами V=(l,16) 8 после ля r=O в Формулах (3.9) появляется про изведение позиционных вероят зостей встречаемости нуклеотидов (см. табл.2.1 rл.2). Для случая r=2 aнныe берутся из табл.2.3 rЛ.2. Таким образом,Формальная сторона метода сводится к вычислению по рмулам (3.83.10) значений P(k j IZ), i=l,2,3 для множества Фраrмен OB. которое rенерируется окном, скользящим по рассматриваемой после овательности ДНК. 103 
Обсуждение возможностей  MeToдa  Изложенный выше метод был реали зован на микроЭВМ "Искра226" таким образом, что допускалось использо вание любой из трех марковских моделей кодирующей области. Параметр w  ширину окна сканирования последовательности можно было принять равным 16, 2 или 48 кодонам. Окно последовательно сдвиrалось на два кодона и в каждом положении вычислялись вероятности P(k l 12) il,2,3 для фрarмента, попадавшеrо в просвет окна. Эти значения ставились в соответствие центру полученноrо фрarмента. Далее для сокращенноrо обозначения варианта расчета будем использовать запись V(r,w), указы вающую порядок кодирующей области r и значение параметра w. а O,J 1.-', I !Ц. L..L... , I 1 \,' L б o,J 1 Ч" 11 , 11 ,,] 8 O,J ,, u....., ,L 200 _00 800 1000 1200 Рис. 3.8. rрафики Функцийиндикаторов кодирующих областей для после довательности ЕСАНАС в трех рамках считывания (aB) Применение метода марковских цепей с параметрами V(l,16) Для иллюстрации возможностей алrоритма были взяты последователь ности ECRECA, ECLEXX и ЕСАНАС (обозначения из описания банка EМEL). длиной 1390, 943 и 1246 нуклеотидов соответственно. Последовательность ECRECA на участке (238, 1296) содержит reH recA реrуляторноrо белка SOSсистемы E.co1i, обладающий способностью к интенсивной экспрессии. Фраrмент (102, 707) последовательности ECLEXX 104 
является умеренно экспрессируемым reHoM белка 1exA, который репресси рует синтез белков SOSсистемы. Последовательность ЕСАНАС содержит низкоэкспрессируемый reH araC (270, 1145), который кодирует бе локрепрессор арабинозноrо оперона. Для пояснения выбора объектов для анализа напомним, что законо мерносТи неслучайноrо использования синонимических кодонов в бактери альнЫХ reHax MorYT быть связаны со степенью их экспрессии в клетке. С друrой стороны, выбор кодонов отражается и на статистических xapaKTe рис тиках нуклеотидных последовательностей кодирующих областей. Поэтому представляет интерес сопоставление результатов применения алrоритма для кодирующих последовательностей со значительными различиями в пра вилах выбора синонимических кодонов. На рис.3.6 представлены rрафики величин P(kiIZ), il,2,3, полу ченных для последовательности ECRECA при Y(1,32). Рис. 3.6, а,б,в со. ответствуют первой, второй и третьей рамкам считывания. Числа, стоя щие по rоризонтали, дают отсчет количества нуклеотидов от начала пос ледовательности. Вертикальный масштаб соответствует интервалу (0,1). Таблица 3.8 Значения р и s, полученные для reHoB araC, 1exA, recA a,raC 1exA recA 1 Пара 1 метр 16 32 I 48 I 16 I 32 I 48 I 16 i 32 I 48 0,52 0,64 0,70 0,76 0,94 0,95 0,79 0,93 0,96 0,31 0,33 0,33 0,22 0,08 0,13 0,20 0,15 0,15 0,51 0,53 0,51 0,86 0,96 0,97 0,95 0,99 0,99 0,36 0,40 0,42 0,21 0,13 0,12 0,09 0,07 0,09 0,61 0,69 0,76 0,90 0,94 0,90 0,98 0,96 0,97 0,34 0,33 0,30 0,22 0,22 0,28 0,14 0,18 0,16 Число кодонов В окне Порядок марковской модели о р s р s 2 р s На уровне 0,5, так же как и в п.3.3, сплошньи линиями отмечены цепоч ки триплетов, не содержащие терминирующих кодонов. На рис.3.7 и 3.8 даны rрафики величин P(ki!Z), il,2,3, полу ченных в случае Y(1,16) дЛЯ последовательностей ECLEXX и ECARAC. HeT рудно видеть, что кодирующие области реrистрируются на рис. 3.6,а, З.7,в и 3.8,в, причем поведение Функцийиндикаторов имеет неодинаковый характер. Качество предсказания кодирующей области как единоrо целоrо ухудшается от ECRECA к ЕСАНАС. В случае ECRECA значения индикатора в кодирующей области почти везде не менее 0,75. Функция дЛЯ ECLEXX на рис.3,7,в имеет один провал ниже уровня 0,5. Подсказка в виде инфор мации об открытой рамке в значительной степени спасает положение на РИс. 3.8,в, так как индикатор имеет MHoroKpaTHble провалы до уровня 0.з и даже до 0,1. 105 
Из рис. 3.63.8 ВИДНО, что если бы в расшифровке ДНК возникло ошибка типа делеции или вставки HeKoToporo числа нуклеотидов, H KpaTHoro трем, то она проявилась бы в перескоке индикатора области и одной рамки в друrую. Формально качество предсказания кодирующей области в целом можн, отразить при помощи средних значений  <р> , величин P(K!Z), взятых rt' 0,5 U, ,L" L..L...----, I 200 '100 БОа 800 1000 1200  и с. 3.9. rрафик Функциииндикатора кодирующих областей для посл довательности ЕСАНАС в третьей рамке считывания Использование алrоритма с параметрами V(2,48) в данном случае для reHa recA <p>O,95, slO,09, для reHa 1exi <p>O,86, sO,21 и для reHa araC <p>O,51, sO,36. Те же величины рассчитанные по друrим вариантам алrоритма, приводятся в табл. 3.8 <р> в числителе, а s в знаменателе. 0,5 L..........Т,ш II , 200 '100 БОО 800 1000 1200' Рис. 3.10. rрафик функциииндикатора кодирующеи оОласти для последо вательности ECRRNBZ Последовательность содержит "открытую рамку", используется алrОРИТI. с параметрами V(2,32) Соrласно этой таблице, наибольшая степень разрешения для reHc araC достиrается в случа V(2,48). На рис.3.9 приводится rрафик COOT 106 
ветствующей функции индикатора. Из табл.3.8 также видно, что если для reHoB 1exA и recA использовать алrоритм с w16, то степень разрешения увеличивается с увеличением r. Причем для recA уже V(l,16) дает pe .зультат, который не удается существенно улучшить при больших w и всех друrих r. Аналоrичный результат имеет место в случае 1exA, если Y(2,16). 1,0 0,0 0,$ , I I I I I .. 1,0 0,$ Рис. 3.11. Плотности распределения значений байесовской вероятности кодирования а  для кодирующих; б  для не кодирующих областей Вариация величины <р> для разных ['енов (для модели одноrо и Toro же порядка) rоворит о неоднородности статистических закономерностей в первичной структуре ['енов E.co1i. Представляется достаточно очевидным, что природа этой неоднородности связана с различными стратеrиями ис пользования кодонов в сильно, умеренно и слабо экспрессируемых ['енах. Полученные результаты демонстрируют вполне отчетливую тендецию измене ния величин <р> и s с ослаблением экспрессии reHa и свидетельствуют о том, что при фиксированных параметрах алrоритма степень разрешения KO дирующей области будет тем Bbwe, чем сильнее экспрессия. Трудности, подобно рассматривавшимся ранее случаям, возника ют в исследовании низкоэкспрессируемых reHoB. Здесь, как показы вает пример araC, относительное улучшение результатов достиrается, Таблица 3.9 Значения показателя надежности предсказания r w О 1 2 48 0,82 0,84 0,91 72 0,87 0,89 0,92 96 0,90 0,91 0,96 107 
 " , I  I L,., z L, . .700 It700 (500 2000 2500 tf .700 1000 1.500 2000 2500 " I I I I а 6 iJ .500 1000 1500 2000 2500 Рис. 3.12. Применение метода марковских цепей для последоватеЛЬНОСТ1' ЕСАТРХ в случае V(2,32) Отмечены ['ены а  atp1; б  atpB; в  atpE; r  atpF; д  atpH если использовать максимальный порядок модели и максимальную u:ирин' окна. Заметим, что принципиально этот вопрос может быть peu:eH путе Rастройки параметров алrоритма на статистические особенности KOHKpeT' ной rруппы reHoB (Fichant, Gautier, 1987). 108 
с, ,'"""о , z 500 1500 2000 Z500  " , L......., ) о' 500 1000 1500 ZOOO Z500 " о iJ I а , .500 !DOO 1500 ZOОО Z.500 Рис. 3.13. Применение метода марковских цепей для последовательности ЕСАТРХ в случае V(O,32) в связи с изложенным выше рассмотрим также еще не полностью Функ ЦИонально идентифицированную последовательность ECRNBZ, содержащую ри босомальный оперон. В этой последовательности зафиксирована открытая рамка считывания на интервале (275,1141), но ее кодирующие свойства ЭКспериментально не установлены. На рис.3.10 приводится rрафик функ ЦИИиндикатора во второй рамке считывания данной последовательности 109 
дляV(2,32). Значения <р>, s для интервала (275,1141) равны 0,73 ; 0,34 соответственно. Это дает основание предполаrать, что фраrмен (275,1141) кодирует еще не обнаруженный белок Е. co1 i с невысокой CTe. пенью экспрессии. Интересно, что в этом случае значение функции Фv.К кетта F равно 0,98, а вероятность кодирования по методу контекстных частот (см. табл.3.7)  0,525, Т.е. также предсказываются кодируIO щие свойства. О 500 1000 1500 2000 6 0/5 о 500 1000 Рис. 3.14.Пименение методов 4ro (а) и 5ro (б) порядка для эука риотических дик . а  транскрибируемая последовательность reHa леrrемоrлобина COi: длиной 1254 нуклеотида; б  транскрибируемая последовательность ['ена бетаrлобиновоrо reHa человека длиной 1615 нуклеотидов; Е ;  экзоны Для "метода марковских цепей", так же как и в п.3.3, MorYT быть определены при фиксированных r и w плотности распределения значений статистики p(KIZ) на выборках кодирующих и не кодирующих областей  d(PIK) и d(PIH). Из рис. 3.11, rде представлены эти функции для случая r2, w32. видно, что они сосредоточены на концах области определения и в OCHOB ном НЕ перекрываются. Введ"м показатель надежности предсказания К  1  (e1+e2)/N. Здесь е1 число ошибок первоrо рода классификации кодируIO ющих фраrментов как некодирующих; е2  число ошибок BToporo рода  классификации некодирующих фраrментов как кодирующих; N  общее число рассмотренных фраrментов. Величина К зависит от порядка модели, ширины окна и выбранноrо пороrовоrо значения Р. функциииндикатора, которое имеет следующий смысл: если p(kIZ) > Р. ' то фраrмент О'l'Носится к кодирующим, если P(KjZ) (Р.' то  к неКQДИРУЮЩИМ. Значение Р. 110 
можно выбрать оптимальным в смысле максимума К, исходя из известно:,::; вИда плотностей распределений d(pIK) и d(PIH). Величины К в зависимос ти от r и w приводятся В табл 3.9. Для сопоставления данноrо метода с методом Стадена (селекции KO донов) и методом контекстных частот, изложенным в п.3.3, обратимся к последовательности ЕСАТРХ. На рис.3.12 и 3.13 приводятся rрафики функ ций индикаторов дЛЯ Y(O,32) и Y(2,32). В случае Y(2,32) четыре xo рошо известных reHa идентифицируются вполне удовлетворительно и лучше, чем в варианте Y(O,32). Однако интересно, что кодирующая область (177,566) дает в случае Y(O,32) более сильный сиrнал, чем в варианте Y(2,32). Это свидетельствует об использовании здесь необычноrо для E.coli набора и чередования кодонов, так как к этим факторам алrоритм с моделью BToporo порядка более чувствителен, чем алrоритм с Moдeь нулевоrо порядка. Заметим, что вероятность кодирования по методу KOH текстных частот (п.3.3) для этой области, определенная при r3 и w15. равна 0,493. Таким образом, ОРС (177,566) в последовательности ЕСАТРХ представляет как бы нечто среднее между кодирующими и не кодирующими областями и, по нашему мнению, является наrлядньw aprYMeHToM в пользу Toro, что статистические характеристики кодирующих и не кодирующих об ластей еще недостаточно исследованы. Иначе rоворя, мы полаrаем, что рассмотренный метод распознавания еще недостаточно использует информа ЦИЮ, содержащуюся в нуклеотидной последовательности для характеристики ее функциональных свойств. Одним из естественных шаrов в этом направлении было бы увеличенzе порядка марковской модели. Такая работа была предпринята Клаверье д Буrельре (C1averie, Bougue1eret, 1986). Они использовали в методе pac познавания экзонов в первичной структуре дик эукариот результаты lrpaмMHoro анализа обучающих выборок кодирующих и не кодирующих облас тей при 15 и 16. Введенный ими индекс дискриминации d=Pexon/(Pexon+Pintron) полностью аналоrичен байесовской вероятности в формуле (3.10), если полаrать, что в качестве фраrмента Z рассматрива ется олиrонуклеотид из 5 или 6 оснований (а цепь Маркова имеет порядок 4 или 5 соответственно). Таким образом, rрафик значений индекса дис криминации, вычисляемых вдоль последовательности ДНК, является индика тором кодирующих и некодирующих областей и, как видно из рис.3.14, дa ет весьма обнадеживающие результаты для эукариотических ['еномов. 3. 5. ЗАКЛЮЧЕНИЕ Рассмотренные методы и результаты, полученные с их помощью, [,OBO Рят о том, что компьютер в состоянии прочесть закодированные в статис Тических характеристиках признаки функциональных областей и перевести их на понятный язык либо в виде индикаторов, осуществляющих визуали 111 
зацию кодирующей области непосредсвенно на тексте ДИК, либо в вид,: прямых предсказаний функциональных свойств, выполняемых с вполне опре деленной степенью надежности. Мноrочисленность методов TaKoro рода отражает мноrообразие CTa тистических особенностей кодирующих областей, иноrда тесно связанных между собой, как, например, позиционные частоты MOHO, ди и тринукле. отидов. Мы видели, что существует два типа методов: 1) универсальные  для последовательностей ДИК любых орrанизмов; 2) настраиваемые Hct специфические особенности первичной структуры ДИК определенноrо opra низма (такс она) на основе обучающей выборки. Первые менее точны, но бстрее дают результаты, вторые требуют для получения большей точности дополнительных затрат на создание и анализ обучающей выборки. Следует сказать, что KoppeKTHoro сравнительноrо анализа известны;. методов распознавания кодирующих областей еще не производилось, что связано, с одной стороны, с множественностью критериев (надежность предсказания, скорость получения результатов, потребность в ресурсах ЭВМ), а с друrой  с неоднородностью предметной области (эффективность разных методов неодинакова на таксономически разных ДНК). Исследова ния, которые ведутся по методам распознавания кодирующих областей эу кариот, должны суммировать приобретенный опыт, определить строrие кри терии для оценки получаемых результатов и внести ясность в иерархию методов и моделей. 
rлава 4. РАСПОЗНАВАНИЕ ФУНКЦИОНАЛЬНЫХ сиrНАЛОВ 4. 1. сиrНАЛЫ В НУКЛЕИНОВЫХ кислотАХ Наверное самые интересные события компьютерной rенетики касаются распознавания функциональных сиrналов по последовательности нуклео тИдов в ДИК. ЭТИ работы были начаты практически одновременно с ПОЯF лением первых rенетических текстов, но, кажется, им еще далеко до завершения. Чем rлубже вникают исследователи в суть проблемы, тем сложнее представляется ее решение. До сих пор нет даже cTpororo об щепринятоrо определения терминов функциональный сиrнал и сайт. Впро чем, примерно можно определить сайт как конкретный участок последо вательности минимальной длины, достаточный для выполнения определен ной функции. Функциональный сиrнал  более общее понятие, COOTBeTCT вующее классу последовательностей, выполняющих одинаковую функцию. Прежде чем про следить за интриrующим развитием идей и методов в работах по распознаванию, мы сначала познакомимся с примерами функ циональных сиrналов на нуклеотидных последовательностях. Наш микро обзор не охватит даже десятой доли интенсивно исследуемых в настоя щее время сиrналов, однако в нем найдут свое отражение важные для распознавания свойства сайтов и принципы их работы. Сиrналы, узнаваемые рестриктазами . Эти самые простые для pac познавания сиrналы чрезвычайно важны для выполнения rенноинженерных работ. Из Bcero математическоrо обеспечения, предназначенноrо для анализа нуклеотидных последовательностей, чаще Bcero используется nporpa рестриктазноrо картирования, определяющая положение peCT риктазных сайтов на последовательности ДИК. Рестриктазы узнают некое сочетание из 48 нуклеотидов и разрезают молекулу ДИК, как правило, в KaKOMTO месте этоrо слова или неподалеку от Hero. В настоящее время известны сайты узнавания более 650 разных peCT риктаз (Kess1er, Ho1tke, 1986). Несмотря на сравнительную леrкость локализации их по первичной структуре, на примере этих сайтов прос леживаются основные трудности общей проблемы распознавания. Вопервых, сайт узнавания и место разрезания MorYT находиться на значительном расстоянии: так, рестриктаза TaqII разрезает молекулу на 11 нуклеотидов правее узнаваемоrо сайта, некоторые рестриктазы расщепляют ДИК в еще более неожиданном месте: на 1001000 нуклеоти дов правее cBoero сайта (считается, что последовательность ДИК запи сана в направлении 5'3' и правее означает ближе к 3' концу). Зна 113 
чит, нам нужно определять положение узнаваемоrо сайта относительно экспериментально найденных точек расщепления. BOBTOpЫX, сайт может содержать вырожденные нуклеотиды. Например, сайт рестриктазы HindII выrлядит так: GTYRAC, rде У  это Т или С, а R  А или G. Поэтому наша задача значительно усложняется  ведь ря дом с местом разрезания может не быть одинаковых слов! В одном слу чае рестриктаза будет связываться с последовательностью GTTGAC , а в друrом, например,  с GTCAAC. Втретьих, узнаваемая последовательность зависит от условий, в которых идет рестрикция. Рестриктаза EcoR1 в обычных условиях бакте риальной клетки расщепляет последовательность GAATTC. Однако при низкой ионной силе и высоком значении рН специфичность воздействия этой же рестриктазы, обозначаемой уже EcoR1', снижается: расщепле нию теперь подверrаются сайты ААТТ (Po1isky et a1., 1975). Рестрик' таза BamН1 (канонический сайт GGATCC) при повышенном содержании rли церина воздействует также на сайты GGAACC, GGCTCC, GGGTCC и GAATCC (George, Chirikjian, 1982). Таким образом, при распознавании сайтов важно знать условия, в которых протекает реакция взаимодействия фер мента с молекулой дик. Вчетвертых, эффективность расщепления зависит от последователь ности, окружающей сайт (Саrитов и др., 1987). Впятых, нужно учитывать взаимодействие сайтов: близко располо женные участки узнавания MorYT экранироваться от посадки своей peCT риктазы друrими ферментами, подверrаться иным влияниям соседних сай тов (Terry et a1., 1985). Вот основные задачи, которые приходится решать при выведении Ka нонической последовательности любоrо функциональноrо сайта. Несмотря на то, что для большинства сайтов мноrие из этих проблем представля ются чрезвычайно трудными, в некоторых случаях удается добиться неп лохих результатов. Подтверждением тому служит распознавание рестрик тазных сайтов. Промоторы . Промоторы  это сиrналы начала синтеза РНК, узнавае мые ферментом РНКполимеразой, и определяющие место и эффективность транскрипции. Вид промотора меняется в зависимости от орrанизма, сохраняя при этом некоторые общие черты. Больше Bcero известно про моторов РНКполимеразы Escherichia co1i: последняя выборка их после довательностей содержит более 250 наименований (Har1ey, Reyno1ds, 1987). Сделаны выборки промоторов некоторых эукариот (Nussinov, 1986а), дрожжей (Dobson, et a1., 1982) и ряда друrих орrанизмов. В каждом случае выделены характерные особенности этих реrуляторных участков. Изза их большой биолоrической значимости промоторы предс тавляют собой наиболее хорошо изученный тип сиrналов. Устоявшимися признаками промоторов E.co1i являются блоки нуклео тидов, расположенные в районах 35 и 10, считая от точки начала 114 
синтеза РНК. Типичными последовательностями этих блоков, называемых блОКами rильберта и Прибноу соответственно, являются TTGACA и ТАТААТ. Считается, что расстояние между ними изменяется от 15 до 21 нУклеотида, а блок Прибноу может отстоять от начала транскрипции на 48 оснований. РНКполимераза Е. co1i состоит из пяти субъединиц, одна из KOTO рых (сиrма) отвечает за специфичность связывания, а остальные, повидимому, выполняют структурную и неспецифически ДИКсвязывающую функции. Без сиrмасубъединицы РНКполимераза связывается со случай ными фраrментами ДИК и начинает транскрипцию в произвольном месте. Для продолжения транскрипции сиrмасубъеДИRица не нужна и в норме она отделяется от РНКполимеразы после синтеза нескольких первых нуклеотидов. Есть основания полаrать, что в E.co1i существует Hec колько сиrмасубъединиц, каждая из которых узнает свою последова тельносТЬ и иrнорирует промоторы чужих сиrмасубъединиц. Впервые это было показано на транскрипции ['енов тепловоrо шока (Grossman et a1., 1984), затем на ['енах нитроrолодания (Hunt, Magasanik, 1985) и HeKO торых друrих reHax. Биолоrический смысл этоrо понятен: клетке для выживания в тяжелых условиях необходима экспрессия оrраниченноrо Ha бора ['енов, синтез которых вовсе необязателен в норме; и всю мощь синтезирующей машины она переключает на производство этих ['енов oд ной лишь только заменой сиrмасубъединицы. В друrих орrанизмах дело обстоит еще сложнее. Так, B.subti1is на разных стадиях cBoero развития использует по крайней мере шесть сиr масубъединиц (Doi, Wang, 1986). В эукариотах работают три РНКполи меразы, одна из которых транскрибирует рРНК, друrая тРНК, а третья  все остальные ['ены. Кроме TaKoro разнообразия полимераз и их CTPYK турных субъединиц, в транскрипции MorYT принимать участие разнооб разные репрессоры и активаторы, низкомолекулярные факторы (типа цАМф и ppGpp) и, повидимому, еще чтото, чеrо мы пока не знаем. На эф фективность инициации большое влияние оказывает к тому же форма ДНК, в частности степень ее сверхспирализации. Однако, несмотря на такое обилие Факторов, участвующих в TpaHCK риnции, есть достаточно оснований считать, что мы можем научиться Искать промоторы на молекуле ДИК, исходя только лишь из последова тельности нуклеотидов в ней. Ведь промоторы, узнаваемые ферментом одноrо типа, имеют сходную первичную структуру, проблема заключается в формализации этоrо CXOДTBa. Сайты связывания репреССОРОЕ  активаторов . То, что реrуляторы транскрипции должны присоединяться к выделенным местам на молекуле дик стало понятно сразу после их открытия. Мноrие промоторы реrули руются своими репрессорами, которые присоединяются к участку ДИК, называемом оператором. Хорошо изученными примерами являются реrуля Торные области reHOB 1ac (Gi1bert et a1., 1976), trp (Bennett, 115 
Yanofsky, 1978) у E.co1i и системы reHOB фаrа лямбда (Ptashne, 1978). Репрессор, связываясь с оператором, может закрывать част; промотора и стерически предотвращать инициацию транскрипции. У ЭУКd риот реrуляторные элементы MorYT быть отделены несколькими сотнями нуклеотидов от промоторной области и MorYT активировать (Khoury, Gruss, 183) или подавлять (Brand et al., 1985) транскрипцию незаR?' симо от их ориентации и расположения относительно точки начала син" теза РНК. Недавно у Е. co1 i тоже были обнаружены дополнительные per'y-- ляторные последовательности, расположенные на значительном расстся нии от промотора как до точки инициации транскрипции в ara (Hahn et al., 1984) и deo (Va1entinHansen et a1., 1986), так и после нее 3 ga1 (Irani et a1., 1983) и 1ac (Eismann et a1., 1987) оперонах. Терминаторы . Место, rде заканчивается синтез РНК называется терминатором. Для прокариотических терминаторов характерно налич;р шпильки, образованной G--C боrатьw,и инвертированными повторами и сл дующий за ней полиU последовательность. Наrлядно представить себе механизм терминации можно, например, так: РНКполимераза прохоци? инвертируемые повторы, только что синтезированный освободившийся o полимеразы участок РНК собирается в стабильную шпильку и при этом оставшийся кусок РНК как бы выдерrивается изпод фермента. Наличие полиU облеrчает высвобождение РНК из транскрипционной машины блаrо-- даря слабому комплементарному взаимодействию. Известен также механизм терминации с участием белковоrо рофактс' ра. Здесь нет уже ярко выраженных при знаков вторичной структуры, а методы распознавания розависmых терминаторов развиты слабее и ме-- нее эффективны. Выборка прокариотических терминаторов на 1986 ['. состояла из 49 независимых, 52 предположительно независимых и 20 розависимых тер-- минаторов (Brende1 et a1.,1986). Сайты сплайсинrа . Сплайсинr  это основной этап в созреваН!Е эукариотической мРНК, в результате KOToporo вырезаются не кодирующие куски молекулы РНК, называемые интронами, а оставшиеся кодирующие фраrменты, (экзоны) объединяются в одну непрерывную молекулу мPHK Поражает необыкновенная точность сплайсинrа: вырезание происходит  CTporo определенном месте, не допустима ошибка даже на один нуклео тид. Принято считать, что в сплайсинrе участвуют некоторые белки н малые ядерные РНК; однако показано, что сплзйсинr может осуществ-- ляться и без участия внешних areHToB (автосплайсинr) (Kruger et a1. , 1982) . Сайты инициации трансляции . RВSсайты (ribosome binding sites\ ответственны за прикрепление рибосом к молекулам мРНК в процессt инициации трансляции. От эффективности связывания рибосом во МНОСОМ завиоит экспрессия синтезируемоrо белка. Поэтому изучению этих сай 116 
ТОВ было посвящено немало работ, а выборки rЬsсайтов содержат около 200 последовательностей (Stormo et a1., 1982а). В прокариотах участки мРНК, с которьи осуществляется связывание рибосом, содержат, как правило, последовательность, частично компле ментарную 3'KOHцeBOMY участку рибосоной 16S РНК и называемую пос ледовательностью illайна  Далыарно (Shine, Da1garno, 1974). Наиболее консервативным фрarментом этоrо участка является кластер пуринов AGGAGG. После связывания с молекулой РНК рибосома должна найти инициирую щий кодон. Обычно он располаrается в 310 нуклеотидах от последова тельНОСТИ illайна  Далыарно и в подавляющем большинстве является AUG, rораздо реже GUG и еще реже UUG триплетом. Повидимому, большую роль в инициации трансляции иrрает вторичная структура мРНК. Похоже, что функциональные области (последователь ность illайна  Далыарно и инициирующий кодон) предпочтительно Haxo дятся в свободном, не структурированном состоянии (Ganoza, et a1., 198?). Друrие сиrналы . Список всех известых функциональных сиrналов составляет на сеrоднешний день более 200 наименований (Nussinov, 1986Ь). В этой же работе был проведен их статистический анализ, KOp ректость KOToporo вызывает сомнение и прежде Bcero изза разнород ности выборки. Впрочем, можно считать, что все эти последовательнос ти выполняют функцию связывания с белкаи и что такой анализ позво хит выявить некоторые закономерности, отличающие подобные сайты от дрyrих участков дик. Важными сиrналами являются места начала репликации (оriсайты), сайты интеrрации транспозонов, фаrов и вирусов, места атаки топоизо мераз, "rорячие" точки мутаrенеза, а также мноrочисленные сайты свя эывания с разными белками. В принципе, 'мноrие методы, применяемые для распознавания сиrналов на Нуклеотидных последовательностях, MorYT быть использованы и для распознавания сиrнальных последовательностей в белках. Примерами сиrналов в белках являются места процессинrа, антиrенные детерминан ты, секреторные пептиды. 4.2. СТРАТЕrия РАСПОЗНАВАНИЯ П о с т а н о в к а з а Д а ч и. Приведенные вьме и мноrие дpy rие функциональные сиrналы имеют между собой общее свойство: во всех сиrналах определяющую роль иrрает нуклеиновобелковое взаимодейст ВИе, узнавание дик или РНК отдельными белками и более сложными "фер ментативными машинами". Нуклеиновобелковое узнавание может изучать ся с разной степенью детальности. В последнее ,время появляются дaH iIыe о молекулярных структурах нуклеиновобел:,овых комплексов, и пер 117 
спективность моделироваRuЯ функционирования дик на молекулярноl.1 уровне не вызывает сомнения. Однако для большинства функциональнх сиrналов такое моделирование невозможНО: слишком сложно YCTpoeH ферментативные машины, к тому же во мноrих случаях неизвестны Не только последовательности белков, взаимодействующих с дик, но и саму' белки не идентифицированы. Поэтому выявлять общие черты послеДова тельностей, несущих функциональный сиrнал, приходится на УРОВНе представления о нуклеиновой кислоте как о тексте, состоящем из БУКЕ нуклеотидов (rенетическом тексте). В результате изучения функцио нальных сиrналов складывается такое впечатление, что обычно дЛЯ BЫ явления наиболее характерных для функциональноrо сиrнала черт оказы вается достаточно рассматривать нуклеиновую кислоту как последова тельность букв нуклеотидноrо алфавита. Основной целью изучения функциональных сиrналов является построе ние HeKoToporo решающеrо правила, выделяющеrо сиrналы на новой пос ледовательности. Для этоrо необходимо придумать алrоритм, на вХОде KOToporo будет нуклеотидная последовательность, а на выходе ее свойства, и реализовать ero в nporpaмMe дЛЯ ЭВМ. Проrрамма может BЫ давать, к примеру, число 1, если предъявлен функциональный сиrнал, и О, если предъявлена несиrнальная последовательность. Такая постанов ка задачи типична для проrрамм распознавания образов. Настоящая rла ва посвящена в основном описанию некоторых общих подходов к проекти рованию nporpaмM, распознающих функциональные сиrналы. Накопленный опыт исследования функциональных сиrналов позволяе rоворить о сложившейся методолоrии построения их поисковоrо образа, проиллюстрированной на рис.4.1. (Термин "поисковый образ" введен здесь для обозначения совокупности модели функциональноrо сиrнала и KOHKpeTHoro значения параметров модели, речь о которых пойдет ниже.) Начинается этот процесс со сбора информации о функциональных сиrна лах  составления выборки. СОСТАВЛЕНИЕ ВЫБОРКИ (НАЧАЛЬНОЕ ВЫРАВНИВАНИЕ) I v > ВЫБОР МОДЕЛИ I v > I ВЫЧИСЛЕНИЕ ПАРАМЕТРОВ МОДЕЛИ МНОЖЕСТВЕННОЕ ВЫРАВНИВАНИЕ I v СРАВНЕНИЕ С друrими МОДЕЛЯМИ Рис. 4.1. Стратеrия распознавания. Поясн ения в теКсте 118 
с о с т а в л е н и е в ы 6 о Р к и. Обычно последовательность 6иополимера, несущая функциональный сиrнал, исследуется рядом экспе риментальных методов, каждый из которых дает свою специфическую ин фОрмацию. Для Toro чтобы понять, что же отличает последовательности, несущие функциональный сиrнал, от всех остальных, необходимо собрать g систематизировать большое количество экспериментальных данных. Ис следование функциональных сиrналов в качестве одноrо из своих этапов содержит составление сборников, содержащих последовательности и дpy ryIO информацию, существенную для исследователя. Такой сборник мы бу деМ называть выборкой или компиляцией. М о Д е л и Ф у н к Ц и о н а л ь н ы х с и r н а л о в. BTO рой этап  построение модели,  пожалуй, наиболее важный в процесс е исследования функциональноrо сиrнала. Построение начинается уже в ходе накопления экспериментальной информации. Как мы видели ранее, каждый функциональный сиrнал характеризуется некоторым набором признаков, например типом нуклеотидов в определен иых позициях на последовательности, инвертированными повторами, спо собными образовать шпильки в РНК, нуклеотидным составом участков дик и др. Набор таких признаков, характерный для определенноrо функцио нальноrо сиrнала, и алrоритм их поиска мы будем называть поисковой моделью (или просто моделью) функциональноrо сиrнала. Поисковая MO дель базируется на физической модели процесса. При разработке поис ковой модели необходимо учитывать схему процесса, в котором принима ет участие функциональный сиrнал, предположения о важных участках взаимодействия нуклеиновых кислот и белков, о структуре дик или РНК Б функционально активном комплексе и Т.д. Некоторые примеры моделей были приведены в разделе 4.1. В ы ч и с л е н и е пар а м е т р о в м о Д е л и. Формули РОБка поисковой модели включает определение набора характерных для сиrнала признаков и выбор алrоритма вычисления параметров модели. Можно представить себе ситуацию таким образом, что параметры модели используются для оценки конкретных констант взаимодействия в постро еиной схеме процесса. В простейшем случае параметры служат для выяс нения Toro, лежит ли константа в диапазоне значений, позволяющих СI<aзать, что "сиrнал есть", или же в диапазоне, означающем "сиrнала Нет". Для вычисления параметров модели применяются алrоритмы, типичные для nporpaмм распознавания образов. Это статистические алrоритмы, Описанные в rл. 2 и 3 и в разделе 4.3, алrоритмы дискриминантноrо анализа, представленные в 4.4, получающие широкую популярность алrо ритмы распознавания образов с использованием нейронных сетей (HoPfield, 1982). Процедуру выбора оптимальных параметров модели МОЖНО рассматривать как процесс обучения проrраммы распознавания об Разов. 119 
Обычно на выходе проrры распознавания бывает не два ВОЗМОЖНL:: с состояния  сиrнал/несиrнал, а число, называемое дискриминирующи числом. На обучающей выборке сайтов это число принимает значения в одном диапазоне величин, на выборке несайтов  в друrом. Часто эти диапазоны перекрываются, и тоrда надежно отличить сайты от несайтов не удается. Такое поведение проrр, возможно, соответствует физи ческой реальности: количество сайтов с промежуточными между сайтюи и несайтами константами взаимодействия может оказаться велико (см., например, Berg, Уоп Hippel, 1987). М н о ж е с т в е н н о е в ы р а в н и в а н и е. Третий этас  множественное выравнивание  выявляет позиции, связанные с ПрИзна ками Функциональноrо сиrнала. Напомним, что в rл. 1 выравнивание называлась некоторая расстановка вставок и делеций на последователь ностях. В случае мноrих последовательностей, несущих функциональнс:?; сиrнал, выравнивание проводится с целью выстроить друr под друrо важные для функционирования последовательности участки, иrрающие одинаковую роль в узнавании нуклеиновой кислоты белком. Если бы мы знали детальную молекулярную картину взаимодействия в функциональном комплексе, то не возникало бы сомнений в том, какие участки послеДG вательностей, несущих один и тот же функциональный сиrнал, взаимо действуют с определенным участком белка или участвуют в друrих спе цифических взаимодействиях, и выравнивание моrло бы быть проведено однозначно. На практике имеющиеся экспериментальные сведения о сай тах оrраничены, и иноrда приходится выявлять аналоrичные участки в функциональных сиrналах уже на основании самой последовательности. Выравнивание при этом оказывается предположительным и зависит от MO дели и конкретных значений ее параметров. Изменение параметров може, привести к изменению выравнивания, что и отражено стрелкой на рис. 4.1. Задача выбора оптимальных параметров выбранной модели с очеВИL ностью относится к задачам оптимизации, и указанная стрелка отражает то, что зачастую ищется не rлобальный, а локальный оптимум и исполь зуются при этом итеративные алrоритмы. Про в е р к а м о Д е л и. После вычисления оптимальных пара метров модели должна быть проведена оценка ее предсказательной силы. Эта оценка включает в себя вычисление вероятностей ошибок разноrс рода, а также сравнение вероятностей ошибок для альтернативных Moдe лей. Вычисления вероятностей ошибок MorYT быть проведены теоретичес ки, а может быть устроен экзамен моделей по распознаванию последова тельностей, не участвовавших в обучении. 
4.3. ВЫБОРКИ ФУНКIUЮНАЛЬНЫХ сиrНАЛОВ Информация к размышлениюнкциональных сиrналах . Часто, [,OBO ря о выборке последовательностей, подразумевают собрание только пос ледовательностей, однако следует иметь в виду, что сопутствующая ин фОрмация тоже чрезвычайно важна, хотя иноrда и не фиrурирует явно. В компиляции промоторов E.co1i (Har1ey, Reynolds, 1987) помимо самих последовательностей присутствует информация о системе транскрипции (in vivo/in vitro), о месте инициации транскрипции, о методах, KOTO рыми это место было установлено, об эффективности действия, о рефе ративных источниках. Вся совокупность систематизированных данных выборка  и составляет информацию для cOBMecTHoro размьления чело века и компьютера о функциональном сиrнале. Ниже перечислены основные соображения, которые принимаются в pac чет при построении выборки. 1. Достоверность данных, зависящая от набора методов, примененных при выявлении сайта и степени подтвержденности информации, получен ной разными методами. Для адекватной интерпретации данных необходимо знание методов, применявшихся для ее исследования. 2. Размеры участка нуклеотидной последовательности, содержащеrо функциональный сиrнал. Они выбираются исходя из экспериментальных сведений о сиrнале и ero биолоrической природе с учетом требований nporpaмM распознавания. 3. Условия протекания процесса, в котором принимает участие сайт. Эти условия должны быть по возможности одинаковы. Они включают в ce бя орrанизм или набор орrанизмов, в которых выявлен изучаемый сиr нал, стадию развития, ткань, ферментативную систему и Т.д. Лучше не смешивать в одной выборке последовательности из разных орrанизмов. Пожалуй, единственный надежный критерий для выбора тех орrанизмов, в которых функциональные сиrналы взаимозаменяемы,  возможность давать Полноценное потомство при скрещивании. В этом случае объединение последовательностей в одной выборке может рассматриваться как обос нованное Природой. Во всех остальных случаях исследователю нужно постараться обосновать решение об объединении последовательностей самому. 4. Особую ценность имеет информация о численном соотношении функ ЦИональных активностей сайтов. 5. Статистика набранных функциональных сиrналов должна быть дoc Таточна для Toro, чтобы определить, какие же именно признаки превра щают последовательность в функциональный сиrнал, а значит объем BЫ борки должен быть по возможности велик. 6. При исследовании сиrнала статистическими методами выборка не 121 
должна содержать близкородственных последовательностей, Т.е. должн::; быть представительной. Если, к примеру, в выборке будут широко Пред ставлены мноrочисленные мутанты некоторой последовательности, то pe зультирующий образ функциональноrо сиrнала может оказаться близок Не к сайту, типичному для ['енома в целом, а к тому сайту, который че друrих встречался в компиляции. Некоторые методы, например дискртlИ нантный анализ, допускают работу и с непредставительными выборками. 7. При исследовании позиционнозависимой статистики послеДова тельности в выборке должны быть правильно выровнены друr относитель но друrа. Основанием для выравнивания в первую очередь является ЭКС периментальная информация о с иrнале , такая как место инициации TpaH скрипции или трансляции, участок ДИК, защищаемый связанным с H1. белком от действия нуклеаз, два места разрезания РНК при вырезании из нее интрона (одно соответствует 5' концу Интрона, а друrое 3' концу) и т.д. В некоторых случаях выравнивание практически однознач но следует из экспериментальных данных, в друrих случаях ero прv.хо дится искать с помощью проrрамм. Сайты и несайты . Существуют разные методы построения моделед функциональных сиrналов, для одних из них требуется выборка тольке сайтов, для друrих дополнительно нужны несайты. К примеру, один ИЗ путей исследования последовательностей, несущих функциональный сиr нал  это сайтспецифический мутаrенез в сочетании с тестом на функ циональную активность. Лоrика рассуждений при рассмотрении результа тов такова: мы поменяли нуклеотид в определенном положении, произве ли делецию или вставку, и последовательность потеряла (или сохрани ла) свою функциональную активность. Фактически при этом исследова тель накапливает информацию не только о том, какие последовательнос ти несут функциональный сиrнал, но и о том, какие последовательности функциональноrо сиrнала не несут, и на этой основе делает свои BЫBO дЫ. Следует отметить, что хотя на этапе построения модели выборка несайтов нужна не всеrда, для качественной проверки она бывает нужна практически всеrда. Построить удовлетворительную для этой цели B борку несanтов иноrда оказывается MHoro труднее, чем создать выборку сайтов. Подробнее на создании таких выборок мы остановимся в разделе "Проверка проrрамм распознавания". Автоматизированное составление выборок . В настоящее время в свя зи С появлением баз данных нуклеотидных последовательностей расширя ется возможность автоматизированноrо составления выборок функцио нальных сиrналов. Нет сомнения в том, что подобная практика буде7 использоваться со временем все шире и Шире. Однако неосторожное ис пользование таблиц особенностей баз данных GENBANK (США), EМEL (ФРr) , 'Тенэкспресс" (СССР) (см. rл. 7) может приводить к весьма неприятным ошибкам. В качестве предостережения приведем пример, ВЗЯ 122 
тыЙ из написанноrо Ф.Бучером и Э.Трифоновым "Письма к Редактору" (Бucher, Trifonov, 1987). РеЧЬ в этом письме идет о компиляции эукариотических последова телЪностей, окружающих сайты инициации транскрипции, созданной р.нуссинов (Nussinov, 1986а) при помощи проrры, читающей таблицы с8Йтов и особенностей базы данных GENBANK. Из 29 последовательнос тей, идентификаторы которых попали на одну из иллюстраций к статье, авторы сочли 14 неприrодными для статистическоrо анализа, который npoводила Нуссинов, отмечая следующее: 1) в выборке MHoro дубликатов или близкородственных последовательностей; 2) выборка включает в ce 6я большое количество последовательностей кДНК, выровненных относи тельНО случайноrо 5'конца клона кДНК, а не относительно настоящеrо Б'конца мРНК. Включение кднк в компиляцию вообще выrлЯдит проблема тичным, поскольку большинство reHoB содержит интрон на расстоянии менее 200 нуклеотидов от начала МРНК. Более Toro, одна из упомянутых 14 последовательностей оказалось комплементарна мРНК и была BыpOBHe на относительно сайта полиаденилирования. Даже если выборка составлена правильно, исследователь не застра хован от ошибок, имеющихся в базе данных. О наличии таких ошибок свидетельствует анализ белоккодирующих участков базы данных ЕМВL (Фрr) , rде встречаются одиночные делеции, вставки, приводящие к из менению кодирующей рамки и Т.д. (Stulich, Rohde, 1989). Для выявле ния и устранения ошибок может применяться сопоставление записей, co ответствующих одной последовательности, внезависимо заполняющихся базах данных. 4.4. ПРОСТЕйШИЕ МЕТОДЫ РАСПОЗНАВАНИЯ сиrНАЛОВ Что такое консенсуспоследовательность? Составив выборки после довательностей, несущих функциональный синал, исследователь перехо дит к построению модели функциональноrо сиrнала. Правильное выравни вание во мноrих случаях известно из эксперимента, поэтому мы начнем с рассмотрения такой ситуации, коrда проблема выравнивания уже реше на. Исторически первым методом описания общих черт мноrих последова Тельностей стали консенсуспоследовательности. Термин "KOHceH суспоследовательность" отражает интуитивное представление исследо вате ля о последовательности, характерной для определенноrо функцио вальноrо участка. Обычно под консенсуспоследовательностью понимает ся последовательность, на которую больше Bcero похож функциональный уЧасток ДИК. Однако это определение настолько расплывчато и субъек Тивно, что разные исследователи, rлядя на один и тот же набор дaH ИЫх, MorYT написать разные консенсуспоследовательности. Берr и Фон Xипnель (Berg, von Hippe1, 1987) дают следующее определение KOHceH 123 
суспоследовательности: "...последовательность, которая в каждой по зиции содержит нуклеотид, наиболее часто встречаемый в этой позиции в наборе секвенированных природных последовательностей". Такое опре деление не лишено недостатков. Вопервых, исследователь пишет на данном месте не просто наиболее часто встречаемый нуклеотид, он пи шет нуклеотид только в том случае, если ero присутствие в данной по зиции кажется исследователю неслучайным. В противном случае он CTa вит прочерк, означающий, что на данном месте может встретиться любой нуклеотид. BOBTOPЫX, в консенсуспоследовательностях допускается появление в одной позиции набора нуклеотидов, например пурина (А или G) или пиримидина (Т или С), нуклеотида, образующеrо сильно связан ную пару нуклеотидов (С или G) или "слабую" пару (А или Т) и Т.д. С учетом высказанных замечаний определение консенсуспоследова тельности можно переформулировать следующим образом: консенсуспос ледовательность  это такая последовательность, которая в каждой по зиции содержит набор нуклеотидов, причем частота появления нуклеоти дов из набора в данной позиции в секвенированных природных последо вательностях значимо превосходит ожидаемую. При этом следует иметь в виду, что иноrда под консенсуспоследовательностью понимают то, что лучше называть строrим консенсусом, а именно последовательность, KO торая в каждой позиции содержит набор нуклеотидов, хотя бы один раз встречающихся в данной позиции. Последовательность, сформированную так, как предлаrают Берr и Фон Хиппель, мы назовем наиболее вероят ной. Если следовать сформулированному нами определению KOHceH суспоследовательности, то объяснить тот факт, что разные исследова тели пишут разные консенсусы, можно тем, что они пользуются разными критериями статистической значимости наблюдаемых частот встречаемос ти нуклеотидов в определенной позиции. Использование матрицы частот встречаемости для поиска функцио нальных сиrналов . Написав консенсус, мы теряем значительную часть информации о значимости присутствия на определенном месте Toro или иноrо нуклеотида. Сохранить ее можно, записав информацию о частотах встречаемости нуклеотидов в матрицу позиционных частот встречаемости F 1b , ['де Ь принимает четыре значения, соответствующие четырем HYK леотидам (A,T,G,C), а 1 соответствует положению на последовательнос ти и изменяется от 1 дО L, ['де L полная длина участка последова тельности. Напимер, в ячейке f3G такой матрицы записано отношение числа нуклеотидов G в положении 3 к числу последовательностей. При мер такой матрицы будет приведен ниже. Принципы использования матрицы позиционных частот встречаемости нуклеотидов мы продемонстрируем на примере работы rолованова и co авт. (Golovanov et a1., 1982; rолованов, 1987). Здесь матрица частот встречаемости используется для получения числа, характеризующеrо конкретную последовательность как возможный функциональный сиrнал по 124 
следУЮщему правилу: нуклеотиду b(l) в каждой позиции последователь gоСТИ соответствует один сомножитель, конкретное значение этоrо COM gожителя равно частоте встречаемости нуклеотида в матрице частот встречаемости S 1. П F1b(l) 1::1 (4.1) rде число S ЭТО функция от нуклеотидной последовательности, назван ная авторами "СТАТСАйт". Записанную таким образом функцию можно пре образовать из мультипликативной в аддитивную L SL  1 n ( S )   1 n ( F 1 Ь ( 1 ) ) . l' 1 (4.2) Значения лоrарифмов ча:тот встречаемости можно записать в отдель ную матрицу штрафов/премий (матрица весов, score matrix) W 1b ' в которой записывается цена штрафа или премии, назначаемой (аддитивно) в зависимости от Toro, какой нуклеотид встретился на данном месте. В некоторых случаях вместо матрицы позиционных частот встречае мости мононуклеотидов используется аналоrичная матрица для динуклео тидов. В ячейке Fld динуклеотидной матрицы записана частота BCTpe чаемости динуклеотида d (d АА, АТ, АС, АС, ТА, ...), начинающеrося в позиции 1. Функция S вычисляется аналоrично формуле (4.1) L S ПF1d(I)' 1 = 1 (4.3) rде d(l)b(l)b(l+l)  соответствующий динуклеотид. Итеративное выравнивание . Функция "':::ТАтr:Айт" была применена для распознавания участков инициации трансляции системы E.coli (RВS). Предположительно, для узнавания RВS существенны два района последо вательности мРНК: участок в районе инициирующеrо кодона (IC), и участок illайна  Дальrарно на расстоянии шестидевяти нуклеотидов от инициирующеrо кодона (SD). Размеры каждоrо участка (блока) выбира JIИсь таким образом, чтобы он включал все позиции, в которых час'IОТЫ встречаемости нуклеотидов значимо (по критерию ХИквадрат) отлича JIИсь от ожидаемых (1/4). Кроме Toro, авторы решили учесть участок, обедненный G (GD), в положении +11..+14 относительно точки инициации трансляции (рис.4.2). Начальное приближение матрицы частот встречаемости нуклеотидов в каждом из блоков выбиралось исходя из первоначальноrо выравнивания. Затем вычислялось новое уточненное положение 50 блока в каждой пос едовательности, по этим положениям строилось новое выравнивание и СОставлялась новая матрица частот встречаемости MOHO или динуклео ТИДов. Итерационный процесс проводился до тех пор, пока выравнивание Не переставало меняться. 125 
Для расстояний между lC и 50 блоками составлялась своя маТРИца частот встречаемости расстояний S(L), которая мультипликативно учи тывалась при выборе правильноrо положения блоков на последователь ности. Наилучшим считалось такое положение блоков на последователь ности, при котором достиrался максимум функции S  S(IC)'S(SD)'S(L), (4.4) rде S(IC) вычислена по формуле (4.1) для участка IC, S(5O) для участка 50. Тем самым алrоритм находил оптимальное выравнивание каждой из последовательностей для сформировавшеrося поисковоrс образа Функциональноrо сиrнала. 15...б 5...+7 +11...+14 А 5D IC GD 5 '  > КОДИРУЮЩАЯ ОБЛАСТЬ МРНК AUG/GUG Б 5D н AUG/GUG I ERR=92% В 5D  AUG/GUG I ЕRR=б2% r 5D Н AUG/GUG I (*) ERR=77% Д 5D  AUG/GUG I (*) ЕRR=б4% Е 5D NJ1 IC ERR=44% Ж 5D  IC  ERR=37% (*)  динуклеотидная матрица частот Рис. 4.2. Построение и сравнение моделей сиrналов инициации TpaHC ляции системы E.co1i (Go1ovanov et al., 1982; rолованов, 1987) А  статистически неслучайные области на выборке из 124 последо вательностей: 50  область сиrнала illайна  Дальrарно, IC  область BOKpyr инициирующеrо кодона, GD -- область в кодирующей части МРНК, обедненная нуклеотидами G; Б  Ж  схемы шести моделей, использован ных при анализе, в моделях Б,В,Е,Ж рассчитывалась матрица частот MO нонуклеотидов; в моделях r и Д  динуклеотидов. В моделях БД в pa йоне инициирующеrо кодона рассматривались только три нуклеотида (AUG/GUG) , в Е и Ж  строилась матрица частот всей области 5...+7. Прямая линия обозначает фиксированное расстояние между блоками, ВОЛ нистая  вариабельное. Справа указаны частоты ошибок при распознава- нии контрольной выборки последовательностей, эти частоты использова лись для оценки качества моделей 126 
Сравнение моделей RBS . Схематические изображения исследованных моделей RBS приведены на рис.4.2. Разница между моделями состоит в тоМ, что в некоторых из них блоки считаются находящимися на фиксиро ванном расстоянии, в друrих  на переменном, в некоторых случаях вместо частот мононуклеотидов используется матрица частот встречае мости динуклеотидов. При вычислении частот, соответствующих каждой из моделей, исполь зовались 62 последовательности RВS, случайно выбранные из исходных 124 последовательностей (Stormo et a1., 1982а). Для сравнения Moдe лей использовались два набора данных: 62 последовательности RBS, не использованные при вычислении параметров модели, и последовательнос ти мРНК, из которых были вырезаны участки, содержащие известные сай ты инициации трансляции. Найденные в таких мРНК иницирующие кодоны (не зависимо от рамки считывания) с прилеrающими к ним участками пос ледовательностей мы в дальнейшем, следуя терминолоrии работы Стормо (Stormo et a1., 1982Ь), будем называть "HeRBS". Для сравнения моделей был выбран критерий, основанный на качестве распознавания выборок, содержащих экспериментально установленные сиrналы и инициирующие кодоны типа "HeRBS". Для распознавания сиr налов выбиралось некоторое пороrовое значение функции, превышение KOToporo при анализе последовательности интерпретировалось как нали чие в данном месте функциональноrо сиrнала. При этом возможны ошибки Область illайна  Далыарно 11 F.u 1 F 1C I F 1A I F'G 15 0,375 0,139 0,352 0,134 14 0,177 0,157 0,432 0,235 13 0,073 0,132 0,682 0,113 12 0,040 0,018 0,138 0,804 11 0,026 0,001 0,032 0,941 10 0,079 0,058 0,704 0,159 9 0,176 0,085 0,235 0,503 8 0,246 0,102 0,385 0,267 7 0,264 0,223 0,370 0,143 6 0,339 0,132 0,489 0,039 Область, обедненная G 11 F,u I F 1C I F 1A I F'G +11 0,445 0,236 0,236 0,083 +12 0,356 0,132 0,405 0,107 +13 0,140 0,204 0,477 0,180 +14 0,292 0,212 0,421 0,075 Область инициирующеrо кодона 1 I F,u I F 1C I F 1A I F1G 5 0,314 0,170 0,346 0,170 4 0,282 0,162 0,459 0,097 3 0,154 0,194 0,555 0,097 2 0,338 0,218 0,338 0,105 1 0,338 0,178 0,378 0,105 +1 0,001 0,001 0,965 0,033 +2 0,997 0,001 0,001 0,001 +3 0,001 0,001 0,001 0,997 +4 0,164 0,091 0,389 0,356 +5 0,140 0,405 0,308 0,148 +6 0,389 0,140 0,381 0,091 +7 0,091 0,244 0,485 0,180 Расстояние между областью illайна Далыарно и инициирующим кодоно м L= 4 I 5 I 6 7 8 0,11 0,17 0,29 0,23 0,19 рис. 4.3. Параметры матриц для расчета функции "СТАТСАйт" при pac Познавании на последовательности сиrналов инициации трансляции сис темы E.co1i (Go1ovanov et a1., 1982: rолованов, 1987). Нулевые эле Менты матриц частот встречаемости заменены малой величиной 0,001 127 
двух типов: 1) ложная локализация функциональноrо сиrнала; 2) пр пуск экспериментально установленноrо функциональноrо сиrнала. Пороrовое значение функции выбиралось так, чтобы частота ОШИ6rк обоих типов (суммарная) была минимальной. Число ошибок нормироваЛоrь на число анализируемых RВS, а количественное соотношение HeRBS v. RBS соответствовало их отношению для известных последоватеЛЬНостей МРНК E.co1i (Stormo et a1., 1982Ь). Из шести анализируемых моделей на,рис.4.2 наилучшей была признана последняя. Значения парамеТРОЕ функции, соответствующие этой модели, приведены на рис.4.3. На рис.4.4 приведены rистоrраммы распределения значений функций, полученных для моделей Б и Ж. Видно, что распределения для модели Ж перекрываются существенно меньше, чем для модели Б. Возможны следую щие причины перекрывания распредеений: 1) несовершенство модели, наличие какихлибо факторов, не учтенных в модели, например вторич ная структура мРНК, препятствующая связыванию рибосомы, или KOHKY рентное связывание какоrонибудь белкареrулятора; 2) наличие в B борке несайтов неидентифицированных сайтов инициации трансляции, KO торое может быть вызвано их относительной слабостью, синтезом KOpOT ких или нестабильных пептидов и друrими причинами. Способы вычисления матрицы весов . Большая часть алrоритмов поис ка сиrналов на нуклеотидных последовательностях использует аДДИТИЕ ный вариант вычисления дискриминирующеrо числа. Для этоrо составля ется таблица, описывающая, какую величину нужно добавить к дискрим;: нирующему числу, если встретился какойлибо признак на нуклеотидноУ. последовательности. Обычно в качестве признаков выступают наличие определенноrо нуклеотида в данной позиции, реже  наличие динуклес' тида (Brende1, Trifonov, 1984), расстояние между консервативными t r Ь 5 r Ь 5 u 11 w :т НЕ r Ь 5 :s  с::;  tA R Е! Рис. 4.4. rистоrраммы распределений значения функции "СТАТСАйт" для моделей Б и Ж с рис.4.2 (Go1ovanov et a1., 1982; rолованов. 198?) По оси абсцисс отложено окруrленное значение функции "СТАТСАйт" з лоrарифмическом масштабе; по оси ординат вверх  в скольких последо вательностях из выборки 128 последовательностей RBS компиляции CTOP мо (Stormo et a1., 1982а) встретилось данное значение функции; пс оси ординат вниз  в скольких последовательностях из выборки HeRВ? встретилось данное значение функции 128 
блОКами нуклеотидов, можно вводить и друrие признаки, например нали чие инвертированноrо повтора  последовательности, способной образо вать шпильку на РНК (Brendel et a1., 1986) или А+Т содержание опре деленных участков дик. В случае отдельных нуклеотидовпризнаков матрица штрафов/премий в ряде работ формировалась на основании матрицы частот встречаемости вУКлеотидов (Go1ovanov et a1., 1982; Harr et a1., 1983; Mu11igan et al., 1984; Staden, 1984Ь; Grob, Stuber, 1988). Выдвиrались различные способы вычисленения вклада конкретных нуклеотидов в дискриминирую щее число, однако все методы отличались нюансами масштабирования и давали в целом сходные результаты. Наибольший резонанс получила pa бота Маллиrана и соавт. (Mu11igan et a1., 1984), в которой была по казана корреляция между rомолоrическим индексом (homo1ogy score) и функциональной активностью прnмоторов in vitro. Вклад каждой позиции в rомолоrический индекс считался пропорциональнь разнице между час татой встречаемости данноrо и наиболее часто встречаемоrо нуклеотида и нормировался на ожидаемое по статистике среднеквадратичное откло нение. Стаден (Staden, 1984Ь) использовал друrую формулу (элемент матрицы весов у Hero пропорционален лоrарифму частоты встречаемости нуклеотида, что эквивалентно случаю STATSITE), однако, по свидетель ству МакКлура (McClure, 1985), корреляция активности промоторов со значением распознающей функции, подсчитаннь по методу Стадена, име ет тот же порядок, что и полученная в работе Маллиrана. Таким обра зам, на основании сравнения с экспериментом ни один из способов за полнения матриц не получил неоспоримоrо преимущества. Функциональные сиrналы и статистическая механика . В 1987 ['. Берr и Фон Хиппель (Berg, von Hippe1, 1987, 1988), исследовали вопрос о том, какой формулой нужно пользоваться при вычислении злементов MaT риды штрафов/премий по матрице частот встречаемости нуклеотидов. AB торы рассмотрели процесс ДИКбелковоrо связывания с точки зрения статистической механики и показали, что при ряде предположений вклад нуклеотида в ДИСКРИМИНИРJщее число можно оценить теоретически. Были сделаны следующие предположения. 1. Селекция индивидуальных белоксвязывающих последовательностей Происходит таким образом, что энерrия связывания находится в HeKOTO ром "полезном" для системы диапазоне значений. В зависимости от фун КЦИональной роли рассматриваемоrо ДНКбелковоrо взаимодействия этот диапазон может заметно варьировать от сайта к сайту. 2. Число последовательностей в указанном диапазоне энерrий связы вания, которые в принципе MorYT быть использованы, велико. Если ce екция происходит только на основе энерrии связывания, мутационный "нейтральный дрейф" последовательности в рамках этоrо селекционноrо оrраничения обеспечивает то, что все последовательности равновероят IШ. s эоказ N' 4327 129 
З. Каждое возможное основание Ь в позиции 1 вносит вклад E'b kT в свободную энерrию связывания с этим сайтом. Вклады отдельных пар оснований предполаrаются независимыми и потому аддитивными. Номер наиболее сильно связывающеrо нуклеотида (пары) обозначим заrлавной буквой В; он задает нулевой энерrетический уровень E'BO. Таким образом. Е1ЬЭТО положительные числа, характеРизующv.е уменьшение свободной энерrии связывания (в еДиницах kT) в том слу чае, коrда наиболее сильно связывающий нуклеотид в положении 1 ЗffiАе няется на нуклеотид Ь. Авторы назвали эту величину "локальной энер rией различения". В этих предположениях наиболее сильно связывающая пара оказывает ся наиболее часто встречающейся, и вообще по частоте встречи можнс приблизительно определить энерrию различения. Формула для оценки энерrий различения, выведенная Берrом и Фон Хиппелем, выrлядит СЛf дующим образом: n +1 Elb 1n() , n'b +1 (4.5) ['де n 1B  это число встреч наиболее часто встречавшейся пары в по зиции 1; n 1b  число встречаемости пары Ь. Энерrия различения пос ледовательности в целом вычисляется как сумма энерrий различения OT дельных нуклеотидов. Формула (4.5) задает способ вычисления (аддитивноrо) штрафа в Be совой матрице на основании матрицы позиционных частот встречаемости. Формулы заполнения весовой матрицы, предложенные Харром (Harr et a1., 1983), Маллиrаном (Mu11igan et a1., 1984) иСтаденом (Staden, 1984Ь), MorYT быть получены из Формулы (4.5) путем пренебрежения Ma лыми членами и добавлением постоянных. Описанный выше подход ведет к предположению, что последователь ность, составленная из наиболее вероятных нуклеотидов, окажется наи более сильным функциональным сиrналом. Несколько последовательнос тей, близких к наиболее вероятной для промотора, были синтезированы и испытаны на транскрипционную активность. Оказалось, что статисти чески "хороший" промотор обладает достаточно высокой функциональной активностью как in vivo, так и in vitro (McC1ure, 1985). Среди при родных последовательностей промоторов E.co1i не известно такой, у которой одновременно имеются канонические 10 и 35 боксы, что сви' детельствует о том, что клетка не максимизирует промоторную актив ность. Возможно, что оптимизация функциональных сиrналов идет по пу ти, предположенном Берrом и Фон Хиппелем,  по пути МИНИМизации вли яния мутаций на функциональную активность. 130 
[спользование информации об эффективности функциональноrо сиrнала введение количественной меры эффективности функциональноrо сиrнала DPедставляет собой достаточно большую проблему. Для мноrих функцио BНЫX сиrналов используется несколько экспериментальных процедур  тестов на функциональную активность, каждой процедуре соответствует сВОЯ числовая величина  эффективность функциональноrо сиrнала, xa рактеризующая конкретную последовательность, предъявленную тестсис теме. Если выстраивать сайты в порядке возрастания их эффективности В одном тесте, то далеко не всеrда порядок расположения сайтов будет сохранятьсЯ при изменении теста или экспериментальных условий. OДHa ко наличие таких данных побуждает исследователей какимлибо образом учесть их при составлении проrры распознавания функциональных сиrналов. Описанные выше статистические методы не предполаrали знания эф фективности функциональноrо сиrнала, а в том случае, коrда эффектив ность была известна, она не моrла быть адекватно учтена алrоритмом построения матрицы весов. Оптимальное решение задачи определения матрицы штрафов/премий при наличии достаточноrо количества данных об эффективности функциональноrо сиrнала было продемонстрировано в pa боте Стормо и др. (Stormo et a1., 1986). Предположение, выполнение КQTOpOro необходимо для построения матрицы при помощи метода множес твенной реrрессии, состоит в том, что измеренная величина эффектив ности HeKoToporo функциональноrо сиrнала является арифметической суммой эффектов, связанных с отдельными признаками. Выполнение указанноrо предположения требует очень тщательноrо BЫ бора шкалы эффективностей  ведь мы можем использовать как саму экс периментально измеренную величину (например, константу связывания), так и функцию от нее (например, лоrарифм). Далеко не очевидно, что экспериментально измеренная величина или ее функция отражают адди ТИВНУЮ связь эффектов отдельных при знаков. Клетка  слишком сложный орrанизм и в нем присутствует MHoro механизмов реrуляции, изменяющих наблюдаемый эффект. Даже в случае измерений, проведенных in vitro, и выборе разумной функции, нет уверенности в аддитивности эффектов npизнаков. Быть может, правильнее использовать данные об эффектив ности Функциональноrо сиrнала для ранжирования сиrналов в порядке возрастания эффективности и требовать от алrоритмов распознавания не Максимально точноrо количественноrо предсказания эффективности, а npавильноrо порядка следования сиrналов в одном ряду (или в несколь КИХ рядах, если исследования были проведены в разных работах). Если принять предположение об аддитивном вкладе при знаков в эф фективность, то можно написать m уравнений (m  число сайтов с изме ренной эффективностью) с n неизвестньи, от которых зависит эффек ТИВность сайта. Если число неизвестных меньше числа уравнений, то ДЛЯ каждоrо параметра может быть вычислено значение, наилучшим обра 5* 131 
зом (по критерию наименьших квадратов) приближающее измеренное З5 чение эффективности. Таким образом, выявляются наиболее информаТИR ные позиции сайта и оценивается вклад каждоrо из признаков в распоэ навание. Естественно, что Прffiеняться такой подход может только к хорошо исследованным функциональным сиrналам, для которых измерены эффективности более чем 3N+1 сайтов, ['де N  число позиций MOHOHYK леотидов, от которых зависит эффективность сайта. Каждой позиции MO нонуклеотида соответствует четыре возможных значения, однако вклад R эффективность одноrо из них (например, Т) приравнивается нулю и чи, ло неизвестных связанных с одной позицией сайта оказывается равно З, а одно неизвестное слаrаемое соответствует эффективности последовс-, тельности, состоящей из одних Т. Может оказаться, что эффективность функциональноrо сиrнала зависит не только от мононуклеотидов. В 06. суждаемой схеме можно учесть практически любые признаки, однако , ростом количества признаков растет и число переменных. Если в качес тве признаков взять присутствие динуклеотида, то тоrда на одну пози цию придется уже не 3, а 15 неизвестных, что потребует еще большеrо числа сайтов с измеренными эффективностями. Количество информации в функциональном сиrнале . Подсчет количес тва информации, соответствующеrо определенной позиции функционально ['о сиrнала, служит хорошей иллюстрацией к процессу статистическоrо исследования сиrнала и выявлению значимых позиций. Количественная мера информации, присутствующей в функциональном сиrнале, основанная на статистическом рассмотрении сиrналов, БЫЛа предложена Шнайдером и др. (Schneider et al., 1986). Количество ИН формации в одной позиции сиrнала для случая одинаковых априорных частот встречаемости нуклеотидов, равных 1/4, выrлядит следующим 06 разом: Rsequence ( 1 ) 2 + I: FbJ 10g2FbJ' Ь (4.6) 2 20 10 o 10 Рис. 4.5. Информаци онное содержание сайта связывания с рибосомой (Schneider et a1., 1986) По оси абсцисс OT ложен номер позициv нуклеотида в сайте (позиция о COOTBeTCT вует первому НУКлеоти ду инициирующеrо KOДO на); по оси ординат  информационное coдep жание этой позиции в битах r :s LD ,  ,-"0 . ПОЛОЖЕНИЕ НА ПОСЛЕДОВАТЕЛЬНОСТИ, П,Н. (1) 132 
['де Fbl' как и Bbe, частота встречаемости нуклеотида Ь в позиции 1. Позиция сайта, в которой всеrда обнаруживается один и тот же HYK леоТИД, соrласно этой формуле, содержит 2 бит иНформации, позиция с равноЙ встречаемостью всех четырех нуклеотидов  О бит. Позицион нозависимое количество информации, вычисленное для сайтов связыва ния рибосомы, приведено на рис.4.5. Самый большой пик на этом рисун ке соответствует инициирующему кодону, меньшеrо размера пик вблизи 10  области Шайна  Далыарно. Про суммировав информацию по всем позициям сайта, можнс оценить общее количество информации, которое содержит Функциональный сиrнал, и ожидаемую частоту встречаемости сиrнала в случайной последователь gости. Как это ни удивительно, наблюдаемые частоты встречаемости функциональных сиrналов в reHoMe для большинства сиrналов оказывают ся близки к ожидаемым теоретически для случайной последовательноси (Schneider et a1., 1986). 4.5. МЕТОДЫ ДИСКРИМИНАнтноrо АНАЛИЗА и РАСПОЗНАВАНИЯ ОБРАЗОВ Объекты и их признаки . Некоторые хорошо разработанные методы дис, криминантноrо анализа и распознавания образов были применены для ис следования rенетических сиrналов. Дискриминантный анализ призван разделять на заданные rруппы объекты с известными признаками. Приз накам можно приписать некоторые значения, зависящие от объекта. Так, если признаком является цвет, то он может быть зеленым, желтым и Т.Д.; если при распознавании объекта учитывать ero размеры, то зна чения этоrо признака будут укладываться в определенный диапазон дей ствительных положительных чисел. Таким образом, мы можем каждый объ ект представить в виде вектора, Т.е. набора величин (признаков), принимающих некоторые значения. Важным частнь случаем является разделение объектов на две rруп nы. Например, если в качестве объектов рассматривать фраrменты HYK леотидной последовательности, то в первую rруппу MorYT входить фраr менты, выполняющие определенную функцию (сайты), а во ВТорую  заве Домо не являющиеся сайтами (несайты). Именно эту задачу разделения двух rрупп объектов мы и будем рассматривать в дальнейшем. Дискриминантный анализ имеет наrлядную rеометрическую интерпрета цию. Построим пространство с координатными осями, по которым откла дЫваются значения соответствующих им признаков. Это пространство 06 ладает размерностью, равной количеству признаков. Каждая точка этоrо ПРостранства соответствует некоторому объекту и, наоборот, любому Объекту можно поставить в соответствие точку с координатами, равньи Значениям при знаков данноrо объекта. Разделить два класса объектов Означает провести между ними некоторую поверхность. 133 
На рис. 4.6 изображено двумерное пространство при знаков, в KOTO ром удалось разделить прямой два множества объектов. Коrда мы имее!" дело с rораздо большим набором при знаков , соответственно увеличива ется размерность пространства и множества разделяются не прямой ли нией, а rиперплоскостью. На рис. 4.7, а) приведена одна из ситуаций, коrда не удается разделить множества одной rиперплоскостью. Впрочем, относительное положение объектов может стать совершенно иным, еслv. изменить набор используемых признаков, Т.е. пе.рейти в друrое прост ранство. Выбор пространства, в котором множества разделяются наилуч шим образом, тоже входит в кру, задач дискриминантноrо анализа. Для изложения дискриминантноrо анализа как метода распознавания функциональных сиrналов далее будем обозначать: множество объектов первой rруппы (сайты)  Х; множество объектов второй rруппы (несайты)  У; jй элемент первоrо множества x J ; значение iro признака у объекта х ]  X J j ; аналоrично для BToporo множества  yJ, yJ j ; число при знаков  n; число значений iro признака  k j ; число объектов первой rруппы в обучающей выборке (сайты)  11; число объектов второй rруппы в обучающей выборке (несайты)  12; общее число объектов  111+12' Важно помнить, что объекты представляют собой векторные величины. Как превратить последовательность в вектор . Чтобы воспользовать ся методами дискриминантноrо анализа при работе с нуклеотидными пос ледовательностями, мы должны преобразовать каждую последовательность в точку (вектор в пространстве при знаков). Ранее мы видели, что признаками MorYT быть нуклеотиды на определенных позициях, расстоя ние между блоками нуклеотидов, энерrия вторичной структуры, AT coc тав и Т.д. Каждый признак может принимать значение из HeKoToporo спектра: позиция (нуклеотид) на последовательности ДИК, например, обладает дискретнь спектром значений  А, С, G, Т; энерrия вторич f о о Z о Х о о о о о о у Рис. 4.6. Два множества объектов (Х и У) разделены прямой в двумерном простран стве признаков. С увеличением количества признаков плос кость превращается в пространство с размерностью, равной числу признаков, а прямая в разделяющую rиперплоскость 134 
НОЙ структуры имеет непрерывный спектр вещественных чисел; расстоя ние между блоками нуклеотидов измеряется целыми числами. Значения признаков можно всеrда сделать конечными и дискретньи, разбив весь спектр возможных значений на интервалы. Если каждому признаку из интересующеrо нас набора поставить в co ответствие ось координат, по которой откладывать ero значение, то мы получим пространство при знаков, а каждой последовательности будет соответствовать точка и вектор, образованный ее координатами. Рассмотрим в качестве примера сиrнал, в котором должны присутст вовать или динуклеотид АА или динуклеотид AG; все остальные динукле отиды в последовательности не являются сайтами. Очевидно, что в Ka честве признаков здесь следует выбрать две соседние позиции в после довательности. Мы можем утверждать, что встретили наш сиrнал, если на iй позиции последовательности будет стоять нуклеотид А, а на (i+1)й А или G. Пространство при знаков представляется здесь плос костью, образованной двумя координатньи осями (рис. 4.7,а). Положе ние сайтов изменится, если по друrому упорядочить нуклеотиды. Так, например, можно добиться разделения, если ввести порядок нуклеотидов CTGA (рис.4.7,б) влиять на возможность разделения. Чтобы избежать этой неоднозначности, обычно предпочитают описывать объект бинарным набором признаков. Бинарный признак  это признак, который может принимать только два значения: О и 1. Любой набор из n дискретных признаков, принимающих k j значений (il,...,n), можно просто заме нить эквивалентным набором из N бинарных признаков, N)Ckj' В нашем примере бинарные признаки будут rоворить о наличии (Xjl) или отсутствии (XjO) KOHKpeTHoro нуклеотида в данной позиции. Первые четыре признака отвечают за первую позицию сайта, вторые четыре за вторую и Т.д. Первый признак каждой четверки т + + А + + \ а G о + + G + + 6 с + + + + Т + + + + А 0++ + С + + + + А С G Т С Т G А Рис. 4.7. Изображение сайтов АА и AG на плоскости признаков По rоризонтальной оси отложено значение первой позиции динукле тида; П0 вертикальной  второй; а  отделить прямой множество сайто от несайтов невозможно; Q  друrой порядок нуклеотидов сделал разде' лени е возможным 135 
соответствует нуклеотиду А, второй  С, третий  G и четвертый  Т. Сайт АА теперь заменяется вектором x(1000 1000), а AG (100С 0010). Что значит разделить множества? Будем rоворить. что множества Х и У разделимы, если найдется такой разделяющий вектор f и действи тельное число R. что для любоrо х и для любоrо у выполняются соотно шения: (x'f»R, (y'f)<R. Обозначим скалярное произведение (xJ'f) через V J X и будем называть число V весовой функцией объекта. В нашем прmере разделяющим вектором f(1000 1010). В самом деле, для сайтов для всех остальных динуклеотидов v Y <2. В любое число от 1 до 2. Разделяющий вектор напраRлен перпендикулярно разделяющей rv.пер лоскости и определяет ее ориентацию в пространстве признаков, а ['pa ничное число R задает ее положение. Любая точка z разделяющей rипер плоскости удовлетворяет уравнению будет, xlAA и качестве например. вектор x2AG vX2, а R можно взять z'fR. Рассмотренные ранее статистические методы тоже позволяли получат}, координаты разделяющеrо вектора  мы называли их элементами статис тической матрицы. Разделение, правда. было обычно нестроrим: HeKOTO рые объекты классифицировались ошибочно. Это, конечно, может счи таться недостатком, но следует обратить внимание на опасность, подс тереrающую нас при стремлении избавиться от ошибок при обучении. Дe ло в том, что при составлении обучающей выборки может случайно прои зойти ошибка и тоrда наше блаrое намерение безошибочно разделить вср объекты, может привести к искаженной модели сайта. А при сложных Me тодиках работы с нуклеиновыми кислотами, требующих учета множеств косвенных факторов и проведения мноrостадийных реакций, наивно pacc читывать на получение большоrо количества информации, достоверной не все 100%. Поэтому полезно познакомиться с методами дискриминантноrс анализа, разделяющими обучающую выборку оптимальным (в HeKOTopor!: смысле) образом, но допускающими небольшое количество ошибок. Оптимизация разделения . Наrлядным и привлекательным методом оп. тимизации разделения объектов воспользовался Иида для распознавани? 5' сиrналов сплайсинrа (Iida, 1987). Метод не требует полноrо разде ления множеств Х и У, допуская небольшое перекрытие распределени7. V X и v Y . Чтобы найти разделяющий вектор f, запишем несложные статистические соотношения. Среднее значение V внутри каждоrо множества и по всей обучающе:: выборке вычисляется обычным способом: 136 
< V X >  1X 1 I: V X 1x il 1 1y <vy>  I: v у 1 у i 1 j 1 (lx<VX>+ly<V Y ». 1 <V> Разброс значений v по всей обучающей выборке характеризуется диспер сией 1 D  1x I: (V X < V X >)2 + 1 il 1y I: (VjY<VY»2). il отличие средних значений весовой функции элементов разных rрупп ("межrрупповая" дисперсия) можно опи:::ать величиной 1 DB  (lx( <VX><V> )2+1y( <vY><v»2). в качестве критерия оптимальности разделения Иида взял отношение DB/D. Разделяющий вектор f вычисляется из условия достижения MaK симума отношения межrрупповой дисперсии к дисперсии весовой функции по всему множеству. Действительно, возрастание D B свидетельствует об увеличении расстояния между центрами множеств, а значит и об улучшении разделения. Дисперсия D в знаменателе служит объединяющим фактором, не позволяющим элементам обучающей выборки "разбежаться" по всему пространству. Мы не будем останавливаться на технике вычис ления разделяющеrо вектора по такому критерию, а рассмотрим основные результаты зтоrо подхода. Обучающая выборка была составлена из 155 5' сиrнальных последова тельностей сплайсинrа ['енов млеко питающих (lx155) и 1596 фраrмен тов ['ена бетаrлобина, не являющихся 5' сайтами сплайсинrа (ly1596). В качестве при знаков были выбраны девять нуклеотидов: три на 3' конце экзона и шесть на 5' конце интрона. Таким образом, количество признаков п9, а число значений каждоrо признака одинако во и равно 4. Размерность бинарноrо пространства при знаков и COOT ветственно число неизвестных координат разделяющеrо вектора N36. После оптимизации разделения были построены rистоrры распреде ления весовой функции для каждой rруппы последовательностей (рис. 4.8). Выбрав в качестве пороrовоrо значения число R, минимизирущее ЧИСЛО ошибок, довольно просто удалось подсчитать вероятность ошибоч ной классификации на обучающей выборке. Оказалось, что если для пос ледовательности величина v>R, то с вероятностью 98,27. ее можно счи 137 
тать 5' сайтом сплайсинrа; а если v<R, то с такой же степенью уве. ренности ее следует отнести к несайтам. Ошибочно классифицироваНные участки дик стали предметом всевозможных rипотез и спекуляций. К co жалению, ничеrо не сообщается о проверке результатов на выборке не участвующих в обучении последовательностей, что ставит под сомнеНИе притяrательное значение числа 98,21.  процента случаев правильно классификации. I I 1.,,1 у 5 0 5 10 15 . I  20 10 0 10 2й ЭЙ 40 50 W Рис. 4.8. Нормированное распределение весовой функции w для 5' сайтов сплайсинrа (вверху) и для выборки несайтов (внизу). Отмечены cpeДHe значения функции и rраничное число R Персептрон . Для построения разделяющеrо вектора f в ряде рабст был использован известный метод обучения распознаванию образов персептроН. Персептрон редко приводил к хорошим результатам, и erc популярность во MHoroM основана на естественности и простоте. Пс своей сути метод похож на процесс обучения человека: проrре пока зывают по очереди объекты, принадлежащие двум разным классам; есЛi: она правильно классифицирует предъявленный объект, ей показывают следующий; если же проrра ошибается, ее поправляют, изменяя раз деляющий вектор. Так происходит до тех пор, пока проrрамма не Hay чится правильно распознавать все объекты. Пусть f,  значение разделяющеrо вектора до предъявления объ екта V,+!, Следующее значение f'+1 вычисляем по правилу 138 
f t +V t + l' если (V t + I ' f t ) < R и V t + I ЕХ; ft+' ftVt+" если (V t + I ' ft»R и Vt+IEY; ft в любом друrом случае. Тем самым мы увеличиваем характерные для сайтов и уменьшаем ти пичные для несайтов координаты разделяющеrо вектора. Одну и ту же обучающую выборку можно проrонять через алrоритм MHoro раз, до YCTa новления подходящих количественных соотношений между координатами вектора f. Обычно полаrают RO и начальное значение разделяющеrо вектора fDO' Известно, что если разделяющий вектор существует (т.е. множества разделимы), то алrоритм персептрон позволяет найти ero за конечное число шаrов (Вапник, 1971). Для анализа нуклеотидных последовательностей впервые использовали персептрон Стормо с соавт. (Stormo et a1., 1982,Ь). Они пытались Ha учиться распознавать места инициации трансляции на обучающей выборке из 124 сайтов и примерно 78 тыс. несайтов. Признаками служили 101 позиция последовательности РНК: от 60 до +40 рибонуклеотида, считая от начала трансляции. Большое количество бинарных признаков (N404) позволило довольно быстро отыскать разделяющий вектор. Персептрон безошибочно разделяет обучающую выборку и проверять ero надо только на объектах, не принимавших участия в обучении. В работе Стормо и др. для контроля взяли 10 последовательностей mPНК, со средней длиною около 1000 оснований. На контрольной выборке были неправильно классифицированы три сайта и пять несайтов. Авторы пробовали уменьшить оrромный набор признаков, что не улуч шило качества обучения, а снижение числа рассматриваемых нуклеотидов до 51 делало разделение обучающей выборки невозможным. Кажется COM нительным влияние столь удаленных оснований на инициацию трансляции, и причину неудач следует объяснить неадекватным выбором признаков. В частности, следует учитывать вторичную структуру РНК и вариабель ность расстояния между блоками существенных рибонуклеотидов. Модификация персептрона, учитывающая некоторые особенности pac познавания сайтов, была применена к промоторам E.co1i (Александров, Миронов, 1987). Как мы уже отмечали, близлежащие сайты MorYT оказы Вать заметное влияние дру, на друrа, а значит и эффективность (сила) сайта может значительно варьировать в зависимости от окружающих ero последовательностей. Поэтому у нас нет rарантии, что промотор, с KO Toporo идет транскрипция в KaKOMTO одном окружении, будет работать в друrом окружении, например рядом с rораздо более сильным промото ром. Эти соображения заставляют нас отказаться от rраничноrо числа R, которое служило критерием принадлежности исследуемой последова тельности к множеству сайтов. Единственный постулат, который можно достаточно уверенно положить 139 
в основу обучения, заключается в том, что промотор, С KOTOpOrO иде транскрипция, является оптимальным среди всех возможных близлежащих промотороподобных последовательносте. Тем самым мы допускаем, что J зкспериментально определенных промоторов вес v может быть меньше, чем унефункционирующих фраrментов последовательности, расположенных недалеко от друrоrо промотора. Расстояние, на котором взаимодеЙСТВJ промоторов существенно, можно оценить размером покрываемой РНКполи меразой последовательности ДНК, Т.е. 100 нуклеотидов. Вот почему пришлось отказаться от типичной для теории распознава ния образов постановки задачи  разделения фиксированноrо множест?с векторов и поставить целью обучения совпадение участка последова. тельности, дающеrо наибольшее значение весовой функции v с экспери ментально найденчЫN. промотором. Абсолютное значение v теперь не иr рает РАающей роли в распознавании, rлавное, чтобы величина v у p альноrо промотора была больше, чем вес любой друrой последователь ности на исследуемом фраrменте дик. Еще одно изменение стандартноrо алrоритма связано с невозмож ностью точной идентификации нуклеотидов, образующих промотор. Экспе риментально можно точно определить, с KaKoro места начинается синтез РНК, но какие именно нуклеотиды образуют 10 и 35 блоки остается еизвестнь. Эти блоки MorYT находиться на разном удалениии от точки инициации транскрипции, расстояние между ними также варьирует в 3Ha чительных пределах. Поэтому одной зкспериментально определенной точ ке начала транскрипции MorYT соответствовать несколько положений признаков промотора. Задача выбора оптимальноrо положения признаков ОТНОСдТСЯ к общей проблеме множественноrо выравнивания (раздел 4.6), ОКОН'lательноrо решения которой еще не найдено. С учетом сделанных замечаний алrоритм персептрон работает следую щим образом. 1. Если при предъявлении последовательности проrра выбирает правильное, Т.е. непротиворечащее экспериментальным данным положение структуры, разделяющий вектор не изменяется. 2. Если же проrра ошибется, выбрав слишком удаленное от старта транскрипции положение блоков, вектор f изменяется и становится paB ным ft+lft Yt+1 +х:.! ['де у  вектор, соответствующий выбранному положению структуры, а х'  оптимальный из всех правильных векторов. Тем самым проrра не только наказывается за ошибки, но и стимулируется к распознаванию правильных положений. В качестве признаков промотора были взяты 10 и 35 области дли ной соответственно 15 и 10 нукле, отидов а также +1 область, COCTaB ленная из трех динуклеотидов и расстояния между ними  Bcero получи лось 177 бинарных признаков. С таким набором признаков удалось pe шить поставленную задачу на обучающей выборке из 80 последователь ностей, содержащих промотор. 140 
Для контроля был проведен поиск промоторов на последовательности фarа fd, который дал довольно плохие результаты: из 35 лучших CTPYK тур только четыре соответствовали реальнdМ промоторам. Неудача, воз можно, объясняется общши недостатками, присими алrоритму персепт рон и неоптимальным выбором признаков. Чтобы избавиться от этих не-- достатков, попытаемся использовать друrой алrоритм распознавания об.. разов и друrой способ формирnвания оптимльноrо набора признаков. ОбоgщеННЫJLpортрет . Итак, применение довольно простоrо алrоритма персептрон не дало удовлетворительных результатов; популярньи CTa тистическими методами нельзя получить однозначный ответ на вопрос о существовании разделяющеrо вектора. Больше возможностей дает алrо ритм обобщенный портрет, детально разработанный Вапником и др. (1984). Для решения наших задач этот алrоритм потребовал лишь He больших изменений. Положим rраничное число R pRBHblM единице, что нисколько не изме нит задачу распознавания и нужно 'Только для нормировки условий раз деления, которые теперь запv.шутся так: ( f'x)l, (f'y)<k, ['де k<l. (4.7) Ясно, что может существовать несколько векторов f, удовлетворяю щих условию (4.7). rеометрическая интерпретация этой неоднозначности сводится к наличию нескольких разделяющих плоскостей. Как видно из рис. 4.9, от положения плоскостей зависит расстояние r между множес твами. ОбобщеннWoЛ портретом называют минимальный по модулю из всех возможных разделяющих векторов f, который обеспечивает максимум pac стояния r. При решении задачи распознавания сайтов для каждоrо элемента Х ! Е Х, будем строить свое множество Y 1 , в которое входят все BeKTO ры последовательностей обучающей выборки, за исключением некоторой окрестности остальных (кроме x i ) сайтов, что обусловлено возможным Взаимным влиянием функциональных участков молекулы дик. Тем caмь мы Формируем множество z из BKTOpOB х ! И всех элементов COOTBeTCTBY ющеrо множества Y 1 . Множество Z значительно расширяется, если мы обладаем информацией о качественном соотношении зффективностей сай Тов. Описанный алrоритм был использован для построения разделяющеrо вектора на множестве промоторов E.co1i. Обучающая выборка состояла из 80 последовательностей длиной  60 нуклеотидов с известной точкой СТарта транскрипции. Модель промотора первоначально включала в себя ДВа блока по шесть нуклеотидов (блоки Прибноу и rильберта), разде ленных 1521 основаниями. Начало транскрипции моrло отстоять от Прибноу блока на четыревосемь нуклеотидов, Т.е. одной точке старта 141 
транскрипции соответствует (84+1)'(2115+1)35 разных положени7. промоторной модели. Выбор правильноrо положения осуществлялся при помощи статистической матрицы узнавания Муллиrана (Mu11igan et a1., 1984). Множество У 1 формировалось только из iй последовательности и включало в себя все друrие положения промоторной структуры на пос ледовательности. В результате работы проrраммы разделение оказалось невозможнь&.. Это означает, что часто используемая классическая структура промото ра (два блока по шесть нуклеотидов и вариабельное расстояние между ними) принципиально недостаточна для распознавания. Чтобы решить задачу распознавания, необходимо было ввести новые признаки, например увеличить 10 и 35 области. Размер этих блоков был увеличен соответственно до одиннадцати и десяти нуклеотидов. Нетрудно подсчитать, что с учетом семи возможных значений расстояни между блоками число бинарных признаков стало равным N4'11+4'10+791. В таком пространстве была найдена разделяющая rиперплоскость. Из только что сказанноrо видно, что признаки были выбраны ДOCTa точно произвольно; можно было бы образовать друrое похожее простран ство признаков, например еще больше расширить 10 и 35 области и н'йти друrой обобщенный портрет промотора. Было бы интересно YCTaHO вить минимальныЙ набор признаков, позволяющих построить разделяюий вектор и посмотреть, как меняется качество обучения при изменении прострr.Аства признаков. Для оценки качества обучения можно пользоваться как теоретическо? оцзнкой, так и проверкой разделяющеrо вектора на контрольной выбор ке. В целях экономии машинноrо времени удобнее вычислять качество разделения при помощи теоретической формулы. По зтой формуле разде ляющий вектор считается более надежным, если он получен при помощи меньшеrо количества признаков, большей обучающей выборки и обеспечи вает большее расстояние между разделяемыми множествами. Определить оптимальное (с наилучшим качеством разделения) или ми f о о о Рис. 4.9. Разделение множеств несколькими способа ми: разделяющие векторы и соответствующие им rиперплос кости MorYT заметно отличать ся Метод "обобщенный порт рет" строит вектор f o ' максимизирующий расстояние r между множествами, персептрон выдает первый попавшийся разделяющий вектор f (, САНТЫ о о о E;;T r 142 
нимальное (с минимальной размерностью, позволяющей разделить множес тва) пространство признаков прость пере бором не представляется воз можным изза orpoMHoro количества комбинаций. Пришлось отказаться от поиска rлобальноrо оптимума и использовать пошаrовую процедуру, при водящую к локальному оптимуму. Выбрасывая из первоначальноrо набора по одному наименее информативному признаку, можно получить минималь ное пространство, дальнейшее уменьшение KOToporo сделает невозможнь распознавание на обучающей выборке. После проведенной таким образом минимизации количества признаков, используемых при распознавании промоторов E.coli, выяснилось, что для разделения обучающей выборки достаточно учитывать Bcero 12 пози ций в расширенных блоках Прибноу и rильберта. Таким образом, коли чество признаков по сравнению с каноническим набором (оба блока по шесть нуклеотидов), который не позволил получить разделяющеrо BeKTO ра, не увеличилось. Позиции, учитываемые минимальнь набором призна ков, конечно, отличаются от позиций канонических блоков Прибноу И rильберта, хотя и включают в себя некоторые наиболее важные из них. Однако не стоит стремиться к сильному сокращенИIC признаков, так как, разделяя стопроцентно обучающие множества, минимальный набор плохо работает на контрольной выборке. Очевидньи недостатками обла дает и слишком большой набор признаков  в Hero включаются незначи мые признаки, делающие распознавание в значительной степени случай ным. Существует некоторое оптимальное пространство признаков, KOTO рое можно найти, осуществляя пошаrовую процедуру минимизации до тех пор, пока теоретическая оценка качества обучения не достиrнет макси мума. Проверка алrоритма осуществлялась разбиением всей выборки промо торов на две rруппы: обучающую и контрольную, в каждой по 40 после довательностей. После Toro, как разделяющий вектор был построен на первой rруппе, с ero помощью искали промоторы на второй rруппе пос ледовательностей. Промотор считался найденнь правильно, если блок Прибноу ТАТААТ находился на расстоянии четырехвосьми оснований от nepBoro транскрибируемоrо нуклеотида. В оптимальном пространстве признаков алrоритм обобщенный портрет ошибся 4 раза, показав Hec колько лучший результат, чем статистическая матрица Муллиrана (Mulligan et a1., 1984), причем возможности алrоритма обобщенный портрет для анализа нуклеотидных последовательностей еще не исчерпа НЫ. 4.6. МНОЖЕСТВЕННОЕ ВЫРАВНИВАНИЕ Рассматривая выше обучающие выборки, мы считали,ЧТО последова тельности уже выровнены и похожие участки расположены дру, под дpy 143 
['ом; нам оставалось только подсчитать количество нуклеотидов в каж. дой позиции сайта. Оказывается, однако, что выровнять несолько пос. ледовательностей очень сложная и неоднозначно решаемая проблема, Если мы будем отталкиваться от разных вариантов выавниваний, то. возможно, будем получать отличающиеся решающие правила. Эксперимен' тальными методами, как правило, не удается выявить более предпочту. тельный вариант выравнивания. Перебор же всех возможных вариантv потребует очень MHoro времени. Так, если предположить, что блоки 1[ и 35 в промоторах E.co1i MorYT быть разделены 1521 нуклеотидами, d расстояние от точки транскрипции до блока 10 изменяется в пределаz четырехвосьми нуклеотидов, то число возможных положений этой CTPYK туры на последовательности с известной точкой начала траНСКРИПЦИ;l будет равно 35, а число разных вариантов выравниваний для выборки И 200 про моторов достиrнет 35200. При этом для каждоrо варианта нуж но построить матрицу и определить качество распознавания  критери/ оптимальности выравнивания. Ясно, что нужно придумать какойто более быстрый способ нахождения оптимальноrо выравнивания. Как стало ясно из первой rлавы, задачу выравнивания двух последс вательностей можно считать в основном решенной. Этоrо нельзя пок,: сказать о задаче выравнивания большеrо числа последовательностей. Предложено немало алrоритмов ДJ:я решения проблемы множественноrо вь: равнивания, но ни один из них нельзя признать достаточно эффектив ным. Существуют в основном три подхода: первый представляет собс;' обобщение алrоритма Нидльмана  Вунша (Need1eman, Wunsch, 1970) H случай трех и более последовательностей; основная идея друrоrо MeTC да заключается в поиске общих участков в выравниваемых последова тельностях с их дальнейшим упорядочиванием; в третьем случае множес твенное выравнивание сводится к построению консенсуса, с которыт: производится попарное выравнивание всех последовательностей. Все ЭТJ' подходы практически используются в разных случаях. Оптимальнь можно считать выравнивание, полученное при помощи алrоритма Нидльмана Вунша, но он требует колоссальноrо объема памяти и очень MHoro Ma шинноrо времени. Алrоритмы BToporo типа не дают rарантии оптималь ности выравнивания, но достаточно быстры и являются сейчас самыму популярными при работе с большим числом последовательностей. И, Ha конец, методы построения консенсусов представляются наиболее общю: решением проблемы. Именно в этих алrоритмах отчетливо видна связ; между одновременным выравниванием нескольких последовательностей ;: распознаванием функциональных сайтов. Динамическое проrраммирование . Алrоритм Нидльмана  Вунша вырав нивания двух последовательностей "от rраницы до rраницы" был приме нен Мурата (Murata et a1., 1985) для выравнивания трех белковых пос ледовательностей. Такое обобщение совсем не изменило сути алrоритма. Практическая реализация этоrо алrоритма требует большоrо объема па 144 
мяти, пропорциональноrо N З , ['де N  среднее rеометрическое m,П и р. Время счета тоже пропорционально N З . Сравнение трех белков с N=100 требует 1МБ памяти и 80 с счета на компьютере YAX11/780. Изза orpoMHblx требований к памяти и быстродействИIC компьютеров практически невозможно использовать этот алrоритм для четырех и 60льшеrо числа последовательностей. Поэтому были предложены эвристи ческие алrоритмы, значительно экономящие машинное время и память, но не rарантирующие построение оптимальноrо в матричном смысле выравни вания. Джонсон и Дулиттл (Johnson, Doo1itt1e, 1986) предложили сканиро вать последовательности окном ширины w и динамически выравнивать между собой лишь небольшие фраrменты в окнах. Объем требуеr.:ой памяти теперь не зависит от длины последовательностей и определяется пара метром w. Время счета линейно зависит от длины и экспоненциально от числа последовательностей. Алrоритм был проверен на трех, четырех, и пяти белковых последовательностях длиной  200 аминокислот и занял соответственно 55 с, 18 и 263 мин счета на компьютере YAX11/780. Коrда последовательности очень похожи, преимущества этоrо метода не вызывают сомнений. Однако, если они различаются довольно сильно и для выравнивания необходимо делать протяженные вставки, трудно ожи дать удовлетворительных результатов. Быстрое выравнивание . В одной из своих работ, посвященных проб леме множественноrо выравнивания, признанный специалист в области компьютерной rенетики М.С.Уотерман (Waterman, 1986) отметил, что для практическоrо использования при выравнивании более трех последова тельностей rодится только лишь метод Собела Мартинеца (Sobe1, Martinez, 1986). В зтой же статье он приводит еще один практический алrоритм. Но сначала познакомимся с идеями Собела и Мартинеца. Алrоритм основан на предварительном поиске общих cerMeHToB с пос ледующим их упорядочиванием так, чтобы максимизировать некоторую функцию или вес выравнивания. Под cerMeHToM будем понимать подпосле Довательность из нуклеотидов. Назовем общим cerMeHToM или реrионом cerMeHT, встречающийся во всех выравниваемых последовательностях. Пусть, например, cerMeHT ACCTG встретился в позиции 12 первой после довательности и в позициях 45 и 100 второй последовательности. В этом случае мы имеем дело с двумя общими сеrментами, порожденными ACCTG. Один соответствует паре позиций (12,45), а друrой  (12,100). Если к тому же ACCTG присутствует в позициях 20 и 50 третьей после довательности, мы получим уже четыре общих cerMeHTa, соответствующих тройкам позиций (12,45,20), (12,45,50), (12,100,20) и (12,100,50). Очевидно, что число общих cerMeHToB растет с увеличением CYMMap Ной длины последовательностей. Соответственно возрастает и вычисли тельная сложность алrоритма. Этот комбинаторный взрыв можно предотв ратить, если увеличить минимальную длину общеrо cerMeHTa, Т.е. ис 145 
кать только крупные реrионы. Поиск реrионов осуществляется описаннщ: в первой rлаве методом (Martinez, 1983). Далее, будем считать, что реrион Х предшествует реrиону У, ee% все позиции Х меньше соответствующих позиций У по крайней мере На длину реrиона Х. Выравнивание мы теперь заменяем набором упорядочен ных реrионов и нашей целью становится отыскание оптимальноrо набера реrионов X 1 'X 2 '..., TaKoro, что X t <X 2 <... Критерием оптимальности (весом выравнивания) может служить, например, сумма длин реrионов. определяющих выравнивание: чем она больше, тем лучше даННое выравнивание. Собел и Мартинец предложили использоватьочень простую рекурсив ную процедуру поиска TaKoro набора реrионов. Пусть v(X)  вес опти мальноrо выравнивания последовательностей от первоrо нуклеотида до реrиона Х. Следующим шаrом нам надо определить, какой из дальнейших реrионов выrоднее включить в это выравнивание. Предлаrается включить такой реrион У, на котором достиrается максимум весовой функции v(y) v(Y)  шах { 1(У)  d(X, У) + v(X) }, rде l(У)  длина реrиона У, а d(X,Y)  штраф за пропуски между реrи онами Х и У. Штраф вводится так, чтобы он зависел от суммарной по всем последовательностям длины вставок'между реrионами Х и У. К недостаткам алrоритма относятся два жестких требования: точное совпадение cerMeHToB, образующих реrион и обязательное их наличие Ее всех выравниваемых последовательностях. Впрочем, HecTporoe совпаде ние длинноrо слова можно представить в виде точных совпадений фраr ментов меньшей длины, а второе требование авторы предлаrают ослабить введением еще одноrо параметра алrоритма  числом последовательное тей, включающих в себя общий cerMeHT. Например, при выравнивании пя ти последовательностей достаточно встретить cerMeHT в четырех из них, чтобы он считался общим. Этот подход значительно развил Уотерман (Waterman, 1986), eCTeCT BeHHЬ образом устранив указанные недостатки. Пусть набор из R пос ледовательностей длины N изначально выровнен относительно какойнv., будь биолоrически определенной позиции. Это может быть, к примеру. точка инициации транскрипции для промоторов или место соединения ЭК зона с интроном для сайтов сплайсинrа. Такое выравнивание является. конечно, приблизительным. Цель алrоритма  выровнить последовательн;::::' так, чтобы похожие участки были бы расположены дру, под друrом. В качестве параметра, определяющеrо возможное относительное смещеН;!8 участков, вводится ширина окна w. Рассмотрим фраrменты последова тельности длиной w, начинающиеся с (j+1)й буквы: 146 
а,. )+1 а.. )+2 a l ,J+w' а 2 .)+ 1 а 2 , )+2 а 2 . j+W' a R . )+, a R , )+2 a R . )+w' Найдем в этих фраrментах слова, совпадающие или близкие к слову s. Если найденое слово отличается от S в t позициях, будем называть ero t соседом. Пусть qs"  число строк, в которых наиболее близкое К v слово является t соседом. При этом обычно оrраничиваются значе ииями tO,l,2. Каждому из t соседов приписывается вес 1,. Вычислим вес слова S в данном окне по формуле V)+I, )+W(S) :Е l,qs". Наилучшим словом будет слово s', удовлетворяющее условию V)+I, )+w(s') mах V)+" )+W(S). Теперь упорядочим слова: SI<S2' если слово S, встречается всеrда левее S2 и не пересекается с ним. При этом не обязательно их присутствие во всех последовательностях. В этих терминах поста новка задачи проста: нужно найти слова SI' удовлетворяющие условИIC mах{:Е v(s): SI<S2<'" }. Но, как часто бывает, простота формулировки вовсе не подразумева ет простоту решения и достичь поставленной цели за разумное время не представляется возможным. Тем не менее можно придумать алrоритмы, позволяющие подойти довольно близко к максимуму. Для этоrо предлаrается простая рекурсия. Положим v 1  максимум суммы от первой буквы последовательности до iй. Тоrда vlmax{v)+v)+,. i: iw+1s;js;ik), rде V)+I. I вес наилучшеrо KOHceHcycHoro слова в окне от j+1 до i, а k длина слова. Предложенный алrоритм требует времени пропорционально Nw 2 R и был проверен на 34 последовательностях, кодирующих 5S РНК (100 иуклеотидов). Единственным оrраничением алrоритма является ширина окна w, определяющая максимальное расстояние между rомолоrичными участками. Использование консенсуса . Интересными представляются алrоритмы, основанные на построении прапоследовательности, или консенсуса. Эти два термина означают одно и то же, хотя и употребляются в разных Контекстах: прапоследовательность имеет эволюционный оттенок, а консенсус  функциональный. Именно в этих алrоритмах нашло свое OT 147 
ражение тесное переплетение двух задач компьютерной rенетики  рас.. познавания сайтов и множественноr n выравнивания. Первым такой пuдход разработал Санкофф (Sankoff, 1975) и применил ero для выравнивания 5Sрибсс()мальных РНК. Кроме первичной структурь: молекул в качестве исходной информации использовалось филоrенетичес кое дерево орrанизмов, из которых были выделены 5SPRR. Однако знС\ ние этоrо дерева а priori не является обязательным, так как оно MC жет быть восстанавлено по последовательностям введением метрики пр попарном выравнивании. Рассмотрим в качестве примера дерево для дe вяти последовательностей на рис. 4.10,а. Каждая из висячих вершин 19 соответствует реальной последовательности, а каждой внутренне? вершине ставится в соответствие некая прапоследовательность. Внача ле все прапоследовательности полаrаются равными любой из близлежа щих ре:эльных ПОСЛ8ловаТ<>,ЛЕностеJ1". Пля ПО;;У'!ени новых пра:тосле:IO:В", тельностей использовалась следующая итеративная процедура: методами динамическоrо проrраммирования, например алrоритмом Мурата. выравни ваются три последовательности, одна из которых является преДДiествую щей версией прапоследовательности. а две друrие соеденены с ней ребрами дерева. По результатам этоrо выравнивания строится новая прапоследовательность. Итеративная процедура осуществляется от ви сячих вершин к корню дерева. Общий ход итеративной процедуры предс тавлен на рис. 4.11.ar. Коrда все прапоследовательности будут скорректированы, процесс повторяется в обратном порядке: вычисления проводятся в направлении 'a. Как только полный итеративный цикл пройдет в двух направлениях без изменения прапоследовательностей, алrоритм останавливается. Во всех проведенных испытаниях сходимость наступала до пятоrо цикла. Авторы отмечают, что алrоритм не rаранти рует достижения rлобальноrо оптимума выравнивания. Похожие алrоритмы, использующие итеративные процедуры для вывода R 1  .. 13 - , , , , \ 15' [ 12\ , I ', , ,/ 7 в 5 8 9 ь 11 I ,... 10 /. I (;41 \ Y   ' I ) 6  I ":Jj 1 :0")( 12 )'I 'о, :,/).) /'.to' "- 13 15 Рис. 4.10. Множественное выравнивание с помощью филоrенетическоrо дерева Ar  этапы реализации алrоритма 148 
консенсусной последовательности, были независимо предложены YOTepMa ном с соавт. (Waterman et a1., 1984) и Бэйнсом (Bains, 1986). YOTep маи применил интересную rеометрическую интерпретацию проблемы BЫpaв нивания, введя метрику в пространстве последовательностей. Чтобы EЫ числить расстояние D(a,b) между двя последовательностти aala2...an и bblb2...bn, применяется стандартная рекурсивная про цедура динамическоrо проrрирования: DiJ min{DiI,j+d(ai,o),Dil.jl+d(ai,bj)' Di.JI+d(o,bj)} с начальными условиями: DOjD(O,bl...bj); DiOD(al...al'O); DooO, rде о соответствует вставке; Ooo...; а d(ai,b j )  расстояние между буквами последовательности. Особенностью применяемоrо алrоритма является введение понятия yc редненной последовательности, каждой позиции которой соответствует не конкретная буква, а вектор (PO,PI,P2"')' ['де Pi>O и L: Pil (для нуклеотидных последовательностей is4, для белков is20). Из любых выровненных последовательностей можно вывести усредненную, если интерпретировать Р; как частоту встречи iй буквы алфавита в данной позиции, а ро  вставки V. Расстояние между двумя буквами усредненных последовательностей ai(poPIP2"') и bj(qoqlq2"') равно d(ai,b) (L: V k IPkqk I ()I/(, k rде V k  вес, а fl  параметр. Кроме метрики в пространстве вводится вательностей: c(l)l a+(ll)b, ['де операция сложения последо Ci(l)l ai+(1l)bi' Нужно 32 I Рис. 4.11. reo метрическое BыpaB нивание последова Тельностей аЗ а 1 149 
помнить, что a i , b j ,c j векторы. Параметр характеризуе усредненной последовательности а: чем принимало участие в формировании а, Te! относительную значимость больше последовательностей больше 1. Теперь представим выравниваемые последовательности в виде точек (рис. 4.11). Усредненная последовательность (консенсус) будет совпа дать с центром тяжести первоначальных точек. Последовательность KOH сенсуса определяется итерационным алrоритмом, каждый шаr KOToporo заключается в вычислении последовательностей, лежащих на середине отрезков, соединяющих первоначальные точки a l , а 2 и а 3 : bl(al+a2)/2; b2(al+a2)/2; b3(a2+a3)/2. Далее в качестве первоначальных точек рассматриваеl' b l ,b 2 ,b 3 и снова вычисляем координаты середин сторон треуrольника. Продолжаем процесс до тех пор, пока сумма расстояний между вновь образованными точками не станет меньше наперед заданноrо числа е. Сходимость алrоритма очень медленная и время работы растет экспоненциально с ростом числа последовательностей. Метрика последовательностей не является евклидовой, и позтому нельзя применить известные эффективные способы поиска центра тяжести точек. Быть может, при детальном изучении Уотермановской или подобных метрик удастся предложить более совершенный метод rеометрирческоrо выравнивания последовательностей. Эвристический алrоритм Бзйнса (Bains, 1986) проиллюстрирован на 1) Исходные последовательности: 1. TGCTTTCGTCA 2. GCTTCGTA (начальный консенсус) 3. GCTTCGGTCA 2) Попарное выравнивание: консенсус GCTTCGTA 1. TGCTTTCGTCA GCTTCGTA 2. GCTTCGTA GCTTCGTA 3. GCTTCGGTCA 3) Введение вставок во все последовательности: консенсус GCTТCGTA 1. TGCTTTCGTCA GCTTCGTA 2. GCTTCGTA GCTTCGTA 3. GCTTCGGTCA 4) Компиляция полученных последовательностей: консенсус 1. 2. 3. GCTTCGTA TGCTTTCGTCA GCTTCGTA GCTTCGGTCA 5) Новый консенсус: GCTTCGGTCA Рис. 4.12. Иллюстрация алrоритма Бзйнса 150 
рис. 4.12. В первом приближении консенсусом объявляется любая из последовательностей. Производится попарное выравнивание каждой пос ледовательности с консенсусом. Все вставки в консенсусе фиксируются и таким образом вводятся во все остальные последовательности. После этоrо из компиляции выровненных таким образоми последовательностей выводится новый консенсус и цикл повторяется. Если консенсус не из менился после прохождения цикла, алrоритм заканчивается. Брзйнс OT мечает, что алrоритм может зациклиться; но в проrрамме есть против этоrо защита, предусматривающая наличие не одноrо, а нескольких KO нечных консенсусов. Более серьезные трудности возникают, если алrо ритм просто не сходится. Тем не менее алrоритмом можно пользоваться для одновременоrо выравнивания нескольких десятков похожих последо вательностей длиной до 1000 нуклеотидов. 4.7. ПРОВЕРКА проrрАММ РАСПОЗНАВАНИЯ Разберем проблемы, связанные с тестированием проrрамм распознава ния. Если для решения одной задачи имеется несколько различных алrо ритмов, возникает желание выбрать из них наилучший. По нащему MHe нию, не существует универсальноrо критерия качества, и сравнение различных алrоритмов необходимо проводить с учетом той задачи, для решения которой мы собираемся их применять. При зтом следует иметь в виду, что при обучении разных алrоритмов часто используются разные выборки и один алrоритм может давать лучшие результаты, чем друrой, просто потому, что ero лучше "учили". rраничное значение распознаю щей функции, отделяющее сайты от несайтов, при сравнении алrоритмов должно формироваться по одинаковым принципам; в противном случае pe зультат сравнения будет плохо интерпретируем. При проверке, так же как и при обучении проrрамм, необходимо yдe лять самое пристальное внимание формированию выборок сайтов и несай тов. Для обучения проrрамм и получения чисел, характеризующих качес тво распознавания, необходимо выбирать правильно е соотношение сайтов и несайтов. Что означает ошибка 377., полученная в работе rолованова? Действительно ли взяв 100 белоккодирующих последовательностей и применив к ним проrрамму распознавания RBS, мы у 37 из них получим неправильное место инициации трансляции? Взrлянем на проблему подробнее. В качестве HeRВS Стормо и rоло ванов выбирали все АТС кодоны, тоrда как нас MorYT интересовать только те, которые находятся в правильной рамке считывания. Если мы уберем К8азиRВS, находящиеся в друrих рамках считывания, ошибка при той же rранице RBS : HeRВS может уменьшиться в 3 раза. (Заметю, что мы тем caмь изменили алrоритм раСПОЗНf ния.) Мы можем по дpy rим соображениям (например, приблизительная молекулярная масса беF 151 
ка) отсеять еще часть потенциальных инициирующих кодонов, и вероя1' ность ошибки распознавания еще уменьшится. То же и для промоторов: вероятность ошибки в локализации промотора во фраrменте размеро 1000 нуклеотидов rораздо выше, чем в 100нуклеотидном фраrменте. По. этому не следует абсолютизировать те характеристики алrоритма pac познавания, которые приводят авторы алrоритма: все эти характеристи ки нужно определять для своей конкретной задачи. Последовательностинесайты желатльно брать иэ Toro класса после довательностей, с которым будут сравниваться сайты. К примеру, Прl построении модели промотора может быть разумно компоновать множество непромоторов на основе участков, окружающих промотор, относительно которых есть основания полаrать, что промоторов сравнимой зффектив ности в них больше нет. При этом каждому промотору будет COOTBeTCT вовать свой набор непромоторов. Наибольшие проблемы вызывает проверка алrоритмов распознавания в тех случаях, коrда выборка мала. При этом иноrда используют так Ha зываемую процедуру "джзкнайф": обучение проводят по всем последова тельностям, кроме одной, и затем классифицируют зту одну последова тельность, определяя, попадает она в класс сайтов или несайтов. Так поступают со всеми последовательностями, и число ошибок классифика ции служит критерием качества распознавания. Более предпочтительным, однако, кажется друrой подход, при котором выборка сайтов (и несай тов, если она нужна для обучения) разбивается на две, и одна из час тей используется при обучении, а друrая  при проверке. В качестве выборки несайтов нельзя использовать случайную после довательность, сrенерированную на ЭВМ. reHepaTop случайной последо вательности вполне закоомерно производит время от времени последо вательности, сколь yroЛRo похожие на любую наперед заданную последо вательность, в том числе и на сайт. Поэтому нет оснований считать, что все сrенерированные последовательности не имеют никакоrо отноше ния к сайтам. Тем не менее случайные последовательности MorYT быть использованы при проверке проrр распознавания образов. Они MorYT дать информацию,о том, как часто сиrнал, который мы научились узна вать, встречается в случайной последовательности и в некоторых слу чаях (например, если модель строилась по сайтам и создать выборку несайтов не представляется возможным) выбрать некоторое начальное значение функционала, отделяющее сайты от несайтов. rраничное значе ние, к примеру, можно выбрать таким, чтобы частота встречаемости функциональноrо сиrнала в случайной последовательности была равна частоте встречаемости этоrо сиrнала в природных последовательностях. ИнФормация, получаемая при помощи поиска сайтов на случайных после довательностях, в большинстве случаев носит иллюстративный характер. 
4. 8. ЗАКЛIOЧЕНИЕ rлавное, чеrо бы мы хотели достичь в четвертой rлаве,  это соз дать у читателя отчетливое представление о неразрывной связи трех проблем распознавания: выбора модели сиrнала, вычисления парамеТРОЕ модели и множественноrо выравнивания. В большинстве работ эти задачи рассматривались как не зависимые , и решение каждой из них в отдель ности (при условии, что две друrие уже решены) сейчас не вызывает больших трудностей. Но до сих пор не ясно, какая из проблем должна решаться первой. Решить задачу распознавания функциональных сайтов означает найти общие для выборки сайтов особенности, при этом может отсутствовать информация о точной привязке сайта к последовательности. Казалось, первое, что нужно сделать  это выровнять выборку с тем, чтобы похо жие участки оказались дру, под друrом. Но что есть сходство? На при мере терминаторов мы видели, что при выравнивании важно принимать ЕО внимание не только конкретные нуклеотиды, но и вторичную структуру молекулы. Значит, сначала нужно определить набор признаков, из KOToporo можно составить модель любоrо функциональноrо сайта. Но даже если нам и удастся определить характерные признаки для выборки сайтов, выровнять ее все равно нельзя: мы ничеrо не знаем о вкладе признаков в выполнение функции, Т.е. о весе признаков. Определить вес признака (параметры модели) можно лишь только по выровненной выборке. Кру, замкнулся. Как объединить решения этих задач для распознавания сайтов, покэ не ясно. В последнее время начинается развитие систем, позволяющих леrко конструировать модели функциональных сиrналов (Staden, 1988) на основании нескольких известных и заложенных в проrрамму типов признаков. Однако возможно, что придется отказаться от простоrо coe динения разработанных алrоритмов и придумать чтонибудь совершенно новое. 
rлава S. ФИЗИЧЕСКОЕ (РЕСТРИКЦИОННОЕ) КАРТИРОВАНИЕ МОЛЕКУЛ ДНК 5.1.КАК ПОСТРОИТЬ ФИЗИЧЕСКУЮ КАРту? Зачм нужы Физические aPTыl В 1970 ['. rамильтон Смит обнаружил, что специальный фермент  рестриктаза HindII разрезает молекулы дНК при встрече последовательностей из шести нуклеотидов GTGCAC или GTTAAC. Вскоре после этоrо была построена(Dаппа et a1.,1973) первая физическая карта (рис.5.1)  изображение молекулы дик с указание мест разреза рестриктазами(сайтов). С тех пор физические карты стали Р и с.5.1. Физическая карта ['енома SV40, построенная в 1973 r. К.Дэйна, К.Сэком и Д.Натансом Стрелками показаны места разрезов ['енома ферментом, выделенным из H.inf1uenzae одним из основных инструментов исследования в молекулярной rенетике. После построения физической карты SV40 Д.Натанс сумел точно указать место инициации репликации, затем физическая карта была использована для картирования белоккодирующих областей SV40. Клонирование до сих пор остается основной областью применения физических карт. После по явления методов чтения последовательностей дик сфера использования физическоrо картирования значительно расширилась: построение физи ческой карты обычно предшествует проведению работ по секвенированию. Следует также отметить, что физические карты активно применяются для выявления эволюционнной близости ['еномов (Temp1eton,1983; Waterman et a1.,1984; He1mBychowski,Wi1son,1986) и определения специфичности рестриктаз(Мазанов,Киселев, 1986). Различным аспектам применения фи зических карт посвящена книrа "Statistica1 ana1ysis of DNA sequences data",1983. illирокое использование физических карт требует развития биохими 154 
ческих и математических методов, позволяющих строить карты с доволь НО большим числом сайтов (на такой "подробной" физической карте мож но точнее локализовать ['ены). Однако, несмотря на то, что задача фи зическоrо картирования была включена еще в первый проект по компь ютерной rенетике MOLGEN (Stefic,1978), ее до сих пор нельзя считать окончательно решенной. Дело в том, что при большом числе сайтов пос троение физической карты требует пере бора и анализа orpoMHoro коли чества rипотез о порядке расположения рестрикционных фраrментов  решение этой задачи возможно только при использовании современных методоВ дискретной оптимизации. Конечно, зная нуклеотную последовательность, леrко построить физическую карту по кдой рестриктазе  для этоrо нужно просто най ти все вхождения сайта узнавания этой рестриктазы в последователь ность дик. Однако, если последовательность дик неизвестна (или из вестна не полностью), то физическое картирование превращается в дo вольно трудоемкую процедуру, требующую как проведения биохимических экспериментов, так и применения специальных математических методов построения физических карт по косвенным биохимическим данным. При этом размеры фраrментов определяются с помощью биохимических MeTO дов, а вот восстановление порядка расположения фраrментов требует привлечения методов дискретной оптимизации и ЭВМ. Как получают Физические карты? Стандартная биохимическая проце дура  электрофорез  позволяет (с некоторой точностью) определить длины рестрикционныХ фраrментов, однако для построения физической карты требуется также знать порядок расположения этих фраrментов. Так, например, для фаrа SM Pseudomonas aeruginosa, имеющеrо Bcero 3 сайта узнавания рестриктазы НiпdIII,возможны 24 различных варианта расположения фраrментов, некоторые из них представлены на рис.5.2. В начале 70x ['одов возникла идея восстановления порядка расположения фраrментов на физической карте, основанная на использовании данных о совместной рестрикции по двум рестриктазам. На рис.5.3 схематически изображена электрофореrрамма, полученная после обработки линейной дик фаrа SM Pseudomonas aeruginosa рестрик тазами HindIII ( 4 фраrмента),ВamНI (3 фрarмента) и совместной обра ботки рестриктазами HindIII и BamНI (6 фраrментов, при совместной обработке молекула дик расщепляется как по сайтам НindI I I, та;" и по сайтам BamНI). В табл. 5.1 представлены размеры фраrментов,получен ных при обработке рестриктазами HindIII,BamНI и НiпdIII+ВamНI(разме ры определены на основании анализа злектрофореrраммы). Можно pac смотреть 4!24 rипотез о порядке расположения фраrментов рестриктазы HindIII и 3!6 rипотез о порядке расположения фраrментов рестриктазы BamНI: таким образом, возможны 144 варианта взаимноrо расположения сайтов HindIII и BamНI. Однако информация о совместной рестрикции HindIII+BamНI позволяет отбросить подавляющую часть зтих вариантов и 155 
1 2 3 4 11 1 2 4 3 11 1 3 2 4 11 1 3 4 2 " Hind!! 1 Bв.mНI HlnIII Ба.mп     Р и с.5.2. Различные варианты расположения фраrментов pec триктазы HindIII Р и с.5.3. Схематическое изо бражение электрофореrры, полученной после расщепления дик фаrа SM Pseudomonas aeruginosa рестриктазами HindIII (lя дорожка), BamНI (2я дорожка) и HindIII+BamНI (3я дорожка). На 4й дорожке представлены пробеrи маркеров однозначно восстановить физическую карту. Действительно, rипотезы о порядке расположения сайтов одиночных рестрикций должны соrласовываться с информацией о длинах фраrмеНТОЕ совместной рестрикции. Например, приняв rипотезу о порядке располо 156 
Таблица 5.1 Размеры фраrментов фаrа SM Pseudomonas aeruginosa при расщеплении рестриктазами Рестриктаза Молекулярная масса фраrментов,МДа HindIII 13,7 7,7 4,8 0,3 BamНI 12,5 10,9 3,1 HindIII+BamНI 10,9 7,7 4,8 2,7 0,3 0,1 2 3 4  Нind]]]  3 BamНI  нi nd] 1 1 +BaтНI 4 5 6 1 ' 2 1 2 3 1 4 3 8 2 2 3 нi nd 1 ] 1 BaтНI нi nd 1 I ] +BaтНI 1 4 56 3 2 Р и с.5.4. rипотезы о расположении фраrментов рестриктаз HindIII и BamНI, представленные в верхней части рисунка, не соrласуются с экспериментальными данными о размерах фраrментов совместной рестрикции HindIII и ВЧI. В нижней части рисунка представлена фи зическая карта фаrа SM Pseudomonas aeruginosa жения фраrментов (1 2 3 4) рестриктазы HindIII и (1 2 3) рестриктазы BamНI, мы получим, что длины фраrментов совместной рестрикции равны (12,5, 1,2, 7,7, 2,2, 2,6, 0,3) (рис.5.4), что противоречит данным о длине фраrментов совместной рестрикции,представленным в табл.5.1, это означает, что исходную rипотезу о расположении сайтов рестрикцдй HindIII и BamHI следует отбросить. Перебрав таким образом все rипо тезы о порядке следования сайтов HindIII и BamНI, можно убедиться в том, что единственным расположением фраrментов HindIII и BamHI, coc ласующимся с информацией о длинах фраrментов совместной рестрикции, является (1 4 3 2) для HindIII и (2 3 1) для BamHI. Таким образом, мы получаем физическую карту (рис.5.4) фаrа SM Pseudomonas aeruginosa по рестриктазам HindIII и ВamНI(Кульба и др.,1986). 157 
Проблемы, возникающие при построении физических Ka Казалось бы, описанный метод леrко может быть использован для построения фи зических карт, однако ero реализация наталкивается на нескольке серьезных проблем (развитые проrраммы физическоrо картированя име ются только в двух современных пакетах проrрамм по молекулярной ['e нетике DNASIS и DNASTAR(Hoy1e, 1987)). О п р е Д е л е н и е раз м е р о в р е с т р и к Ц и о н  н ы х фра r м е н т о в с Д о с т а т о ч н о в ы с о к о й т о ч н о с т ь ю. Размеры фраrментов, полученные в результате об работки электрофореrрамм, всеrда определяются с некоторой ошибкой. Требования к точности вызваны тем, что при небольшой поrрешности определения размеров фрarментов число вариантов, перебираемых при построении физической карты, резко сокращается. Биохимические про цедуры и методы интерполяции (зкстраполяции), использующиеся для вычисления размеров фраrментов, описаны в разделе 5.2. Там же об суждаются некоторые проблемы, возникающие при интерпретации электрофореrрамм  знакомство с ними может быть полезно биолоrам экспериментаторам. П о с т р о е н и е пар н ы х Ф и з и ч е с к и х к а р т. Прямой перебор rипотез уже при числе фраrментов около 10 натал кивается на серьезные вычислительные трудности и не может быть pe ализован даже на современных ЭВМ. Следует отметить также, что пе ребор rипотез о порядке расположения фраrментов для кольцевых MO лекул оказывается значительно сложнее,чем для линейных в связи с тем, что в этом случае необходимо анализировать не только порядок фраrментов, но и сдвиr фраrментов одной рестриктазы относительно фраrментов друrой. В разделе 5.3 описываются методы направленноrо перебора rипотез, позволяющие резко снизить вычислительную слож ность алrоритма для случая построения парной физической карты (т.е. карты, строящейя по информации 9 двух одиночных и одной совместной рестрикции). Методы построения карт с помощью ЭВМ развиваются с середины 70x ['одов. Стефик(Stеfiс,1978; Стефик и др.,1985) предложил метод rенерации всех перестановок фраrментов cOBMecTHoro расщепления, а Пирсон(Реаrsоп,1982)  rенерации перестановок фраrментов одиночных расщеплений (соrласно общепринять обозначениям, мы будем исполь зовать термин SDфраrменты для фраrментов одиночной рестрикции и DDфраrменты для фраrментов совместной рестрикции Sing1e Digestion и Double Digеstiоп).Число итераций в обоих методах oцe нивается зкспоненциальной функцией от числа фраrментов, поэтому, как отмечено Полнером и др. (Po1ner et a1.,1984), реализация MeTO дов со столь высокой вычислительной сложностью весьма проблематич на уже при небольших n и m (здесь n и m  число фраrментов в lй и 2й обработке рестриктазами). 158 
в ряде работ(Ро1пеr et a1.,1984; Durand,Bregegere, 1984; Dix,Kieronska,1988) удалось снизить трудоемкость перебора блаrода ря усовершенствованиям алrоритма Пирсона (эти методы применимы в основном для случая линейных молекул). Ноланом и др. (Nolan et al.,1984) предложен принципиально новый алrоритм перебора вариан тов, применимый как для линейных, так и для кольцевых молекул (в работах Туффери и др. (Tuffery et a1.,1988), Беллона(Ве11оп,1988) и Кравчака(Кrаwсzаk,1988) метод Нолана и др. был значительно YCOBep шенствован). Совсем недавно(Gо1dstеiп, Waterman,1987) для построе ПИЯ физических карт был предложен метод, использующий интерпрета цию задачи физическоrо картированя в терминах статистической Me ханики. Решение вопроса о том, какой из известных алrоритмов физи ческоrо картирования является предпочтительным, затруднено, так как в настоящее время не представляется возможным теоретически оценить их вычислительную сложность (попытки анализа сложности, предпринятые в работе Полнера и др. (Polner et a1.,1984), привели к большому разрыву между верхней и нижней оценкой). П о с т р о е н и е м н о ж е с т в е н н ы х Ф и з и ч е с  к и х к а р т. Уже в первых работах по физическому картированию было отмечено, что использование только информации о результатах двух одиночных и одной совместной рестрикции, как правило, не дает возможности однозначно восстановить физическую карту: при числе сайтов около 10 (по каждой рестриктазе) получаются десятки (а иноrда сотни) карт, лежащих в пределах ошибок биохимическоrо эксперимента (Певзнер, Миронов, 1987а). Причины этоrо кроются, с одной стороны, в недостаточно высокой точности определения размеров фраrментов, с друrой  в orpoMHoM количестве вариантов взаимноrо расположения сайтов рестрикции. Для снятия HeOДHO значности приходится переходить от двух к нескольким рестриктазам (известны случаи, коrда использование даже 5 одиночных и 10 совместных рестрикций не давало возможности однозначно идентифицировать физическую карту). Таким образом, при переходе к нескольким рестриктазам вместо классической задачи пос троения парной физической карты (по двум SD и одной DD рестрик ции) возникает задача построения множественной физической карты (по нескольким SD и DDрестрикциям), для решения которой предло жен метод потенциалов (Певзнер,Миронов,1987а). В разделе 5.4 опи сывается метод потенциалов и обсуждаются трудности, возникающие при построения множественных физических карт. у т о ч н е н и е Ф и з и ч е с к и х к а р т. При реализации алrоритмов физическоrо картирования на первый план выдвиrаются следующие две задачи: оптимальная орrанизация перебора rипотез о взаимном расположе нии сайтов (рассматривается в разделах 5.3 и 5.4); 159 
эффективная проверка и отбраковка rипотез о взаимном расположе нии сайтов. В рассматриваемом ранее примере мы отверrли rипотезу о порядке расположения сайтов рестриктаз HindIII и BamНI, поскольку получаю щийся при принятии этой rипотезы набор размеров фраrментов COBMec тной рестрикции S,(12,5, 7,7, 2,6, 2,2, 1,2, 0,3) совершенно не похож на экспериментально полученный набор S2(10,9, 7,7, 4,8, 2,7, 0,3, 0,1). Однако, как правило, вопрос о принят ии (или отбра сывании) той или иной rипотезы (или, иначе, о сходстве наборов размеров фраrментов) далеко не всеrда решается столь однозначно: вопервых, экспериментально полученные размеры фраrментов COBMeCT ной рестрикции определены с ошибками, а BOBTOpЫX, может оказать ся, что рестрикционные сайты HindIII и BamНI можно "немножко под виrать" и наборы S, и S2 станут похожи? В разделе 5.5 paCCMa ривается задача о проверке и отбраковке rипотез (друrое ее назва ние  уточнение физических карт, так как про верка rипотез сводит СЯ,как правило, к уточнению положения сайтов рестрикции относи тельно некоторой точки на карте  начала отсчета). Еще в 1978 ['. (Schroeder,B1attner,1978) был предложен метод Ha именьших квадратов для уточнения физических карт, при этом COOT ветствие rипотезы о расположении сайтов экспериментальным данным оценивалось в евклидовой норме(см. раздел 5.5). Такой подход поз воляет предложить быстродействующий алrоритм уточнения физических карт, однако использование евклидовой нормы для оценки rипотез не отбраковывает мноrие несостоятельные варианты. Выбор равномерной нормы в бсльшей степени соответствует реальной задаче картирова ния, так как незначительные отклонения от данных электрофореrрамм вполне допустимы (они постоянно встречаются при картировании), а вот значительные отклонения хотя бы на одном фраrменте недопустимы и должны приводить К отбраковке rипотезы о порядке расположения сайтов. Рассмотрение задачи уточнения физических карт в равномерной норме (Певзнер,1987,1988а) приводит к двум известным задачам диск ретной математики: нахождению циркуляций в потоковой сети с ДBYC торонними оrраничениями (ФОРД,Фалкерсон,1966) и поиску оптимально ro контура в rрафе (Karp,1978). Использование алrоритмов Форда Фалкерсона и Карпа дает возможность получить быстродействующий (что особенно важно, учитывая orpoMHoe число перебираемых rипотез) полиномиальный алrоритм уточнения физических карт. Помимо зффек тивноrо метода проверки и отбраковки rипотез, такой подход позво ляет локализовать для каждой rипотезы узкие места, Т.е. выявить фрarменты, дающие максимальное отклонение от экспериментальных данных(положение таких фраrментов может быть определено с привле чением дополнительных биохимических экспериментов); 160 
О п т и м а л ь н о е п л а н и р о в а н и е о и о х и м и  ческих экспериментов по картирсва н и ю. Построение физических карт на ЭВМ освобождает эксперимента торов от рутинной и трудоемкой работы и дает возможность получать подробные физические карты (порядка 10 сайтов по каждой рестрикта эе), построение которых без помощи ЭВМ невозможно. Однако построе ние физических карт с 1020 сайтами по каждой рестриктазе (при использовании только информации об одиночных и совместных рестрик циях) сталкивается с серьезньи вычислительньИ трудностями даже на современных ЭВМ. В разделе 5.6 обсуждаются возможности дополни тельных биохимических экспериментов, которые позволяют иноrда обойти математические проблемы построения физических карт за счет получения (довольно трудоемкоrо) биохимическими методами информа ции о порядке расположения рестрикционных фраrментов (при использовании таких методов требования к точности опрееления ДЛН фрarментов снижаются). Привлечение информации о дополнительных биохимических экспериментах дает возможность строить очень подроб ные физические карты (2050 сайтов по каждой рестриктазе). Работа с ЭВМ в режиме диалоrа позволяет свести к минимуму и эксперимен тальную работу по картированию  при этом минимизируется количест во электрофорезов и указывается минимальный набор дополнительных биохимических экспериментов, необходимых для построения физической карты. 5.2.0ПРЕДЕЛЕНИЕ РАЗМЕРОВ РЕСТРИКЦИОННЬ ФРAfМЕНТОВ Использование маркеров для определения размеров фраrментов. Рестрикционные фраrменты можно разделить с помощью электрофореза. На схеме электрофореrраммы (рис.5.3) ,полученной при разделении НiпdIIIфраrментов дик фаrа SM Pseudomonas aeruginosa, видны четыре полосы, каждая полоса соответствует одному рестрикционному фраrмен ту. Длина пробеrа фраrмента в rеле зависит от ero размеров (молеку лярноrо веса): чем больше фраrмент,тем меньшее расстояние в rеле он проходит. Зная зависимость D(R), можно по длине пробеrа восстановить длины рестрикционных фраrментов (через R обозначен размер фраrмента, через D  длина пробеrа в rеле). Однако получение аналитических фор мул для зависимости D(R) (Slater et a1.,1987) затруднено. В реальных биохимических экспериментах по картированию аналитические формулы обычно не используются, вместо них для определения зависимости D(R) проводится электрофорез с фраrментами, размер которых заранее извес тен (такие фраrменты называются маркерами). В правой дорожке на рис.5.3 представлены пять полос, соответствующих маркерам. Эти поло сы можно использовать для определения размеров фраrментов фаrа SM :(6 Заказ N' 4327 16: 
Pseudomonas aeruginosa. На рис.5.5 по размерам маркирующих фраrмен тов и их длинам пробеrов построена интерполяционная кривая, которая позволяет оценить размеры фраrментов фаrа SM Pseudomonas aeruginosa. Методы аппроксимации для опреде л ения размеров фраrментов. Для аппроксимации длин рестрикционных фрarментов по длинам маркеров было предложено несколько подходов. Саузерн(Sоuthеrп, 1979) предложил для расчета размеров фраrмен тов соотношение: D(R) c/(RRo)+Do, ['де Ro,Do'c  некоторые константы. R ..,.. 18,18 '.а8 4," .... с.. D 5 10 15 20 25 Р И с.5.5. Интерполяционная кривая, построенная по длинам пробеrов пяти маркеров, представленным на рис.5.3 (для наrлядности по оси абсцисс отложен 1n(R), а не R).Ha интерполяционной кривой отмечены три точки, соответствующие фраrментам рестриктазы BamНI Для вычисления параметров Ro,Do'C необходимы, по крайней мере, три маркера (эти маркеры целесообразно выбирать так, чтобы анали зируемый фраrмент лежал между ними). Соотношение Саузерна можно ис пользовать в двух формах: локальной и rлобальной (Schaffer,Sederoff,1981). В первом случае при определении размера фраrмента используется информация только о маркерах,близких по раз меру к анализируемому фраrменту, а во втором  обо всем множестве маркеров(при этом используется метод наименьших квадратов). Следует отметить, что хотя использование соотношения Саузерна в rлобальной 162 
форме более полно использует информацию о маркерах, тем не менее в локальной форме оно дает более высокую точность в определении длин фраrментов (E1der,Southern,1983). Это вызвано тем, что параметры Ro' Do'C остаются постоянными только в узких интервалах длин пробеrов. Друrой подход к определению размеров фраrментов связан с кусочно линейной интерполяцией зависимости лоrарифма R от D, а также с аппроксимацией этой зависимости кривой 2ro порядка (Dugg1eby et a1.,1981) или третьеrо порядка(Russе1s et a1.,1984): 1п(R)азD3+а2D2+аIDI+ао, Сравнительный анализ методов аппроксимации ортоrональными по линомами; кубической сплайнфункцией; кусочнолинейной функцией; с помощью соотношения Саузерна в локальной форме) показал, что лучшие результаты дает аппроксимация кубической сплайнфункцией (Gough,Gough, 1984). Пехов и др. (1985) предложили специальный метод, позволяющий экстраполировать размеры фраrментов, не укладывающихся в шкалу маркеров. Какие трудности возникают П Q И определении .р азмеров  фраrмент ов? В настоящее время имеется большое число проrрамм (Gray et a1.,1984; Kieser, 1984; Maina et a1.,1984; и др.) вычисления размеров фраrмен тов, ориентированных на персональные компьютеры и использующих раз личные методы аппроксимации. Однако следует отметить, что при аппрок симации возникают следующие проблемы. 1. Экстраполяция дает большие ошибки в определении размеров фраr ментов. При необходимости определения размеров больших фраrментов (свыше 10 тыс. нуклеотидов) необходимо тщательно подходить к выбору маркеров  дело в том, что при использовании в качестве маркеров фраrментов фаrа лямбда в области свыше 10 тыс. нуклеотиДОВ оказыва ется, как праВИЛ9, один маркер, что явно недостаточно для надежноrо определения размеров больших фраrментов. При определении размеров больщих фраrментов имеет смысл ставить несколько маркирующих дорожек (34) по различным рестриктазам: в этом случае число маркеров в об ласти больших размеров оказывается уже приемлемым. 2. Удачный подбор маркеров. Не должно быть больших "дырок" между маркерами  в идеале в связи с нелинейностью для каждоrо интервала длин разумно подбирать свои маркеры. 3. Точность определения положения линий на электрофореrрамме. Ли нии на электрофореrрамме имеют определенную толщину и на rлаз трудно определить положение центров линий. В связи с этим при определении центров линий используются аналоrовые и цифровые денситометры (E1der,Southern,1987; Gray et a1.,1984). 4. Совмещение линий, соответствующих Фраrментам,близким по длине. Выявление совмещения линий на rлаз (по интенсивности свечения) может б* 163 
вести к потере или появлению лишних фраrментов. Использование цифро вых денситометров и специальноrо математическоrо обеспечения позво ляет анализировать пики интенсивности на электрофореrраммах (E1der,Southern,1987). 5. "Убеrание" коротких фраrментов из rеля. Короткие фраrменты дa ют также размытые и слабоокрашенные линии на электрофореrрамме. 6. Зависимость длины пробеrа от нуклеотидноrо состава и конформа ции фраrмента. Элдер и Саузерн(Е1dеr,Sоuthеrп, 1983) показали,ЧТО при различиях в нуклеотидном составе фраrментов ошибки в определении длин фраrментов MorYT значительно возрастать. 5.3.МЕТОД ВЕТВЕй И rРАНИU дЛЯ ПОСТРОЕНИЯ ПАРНой ФИЗИЧЕСКой КАРТЫ Как орrанизовать QQQp иантов при К gQ1ИQ ЕНИИ? Необходи мость разработки математических методов построения физических карт была осознана уже в начале 70x rодов, коrда биолоrи, пытавшиеся строить физические карты без привлечения ЭВМ, столкнулись со значи тельными вычислительными трудностями уже при построении парных физи ческих карт с 58 сайтами по каждой рестриктазе. В 1977 ['. Паркер и др.(Раrkеr et a1.,1977) отмечали, что серьезные проблемы возникают не только при построении физической карты, но и при доказательстве Toro, что найденная карта  единственно возможная. Ранние попытки (Stefic,1978; Pearson,1982) решения задачи физическоrо картирования нельзя при знать удачньи,ПОСКОЛЬКУ они использовали прямые перебор ные методы, быстро выходившие на оrраничения по времени расчета. Зе хетнер и др.(Zеhеtпе et a1.,1987) провели анализ метода Пирсона (Pearson,1982): даже при расчете небольшой парной карты с 5 сайтами по каждой рестриктазе и нереалистично низким уровнем ошибок, время счета составило 42 мин на УАХ 11/780. Повидимому, первым "работаю щим" методом построения физических карт был метод Фитча и др.(Fitсh et a1.,1983), использующий технику, известную в дискретной математи ке как метод ветвей и rраниц. Основная ИДея метода ветвей и rраниц заключается в орrанизации перебора предварительных "заrотовок" для построения карт с одновременной оценкой потенциальных возможностей этих заrотовок и отбрасыванием тех вариантов, оценка которых оказа лась слишком низкой. Эффективность метода ветвей и rраниц определя ется способом орrанизации перебора (ветвления) и выбором оценочной функции. В рЯДе работ(иноrда в неявном виде) были сделаны попытки добиться повышения эффективности построения карт за счет разных под ходов к орrанизации ветвления и выбору оценочной функции  здесь рассматривается подход, изложенный в работах Певзнера и Мироно ва(1986, 1987а) . 164 
Физические карты, вилки и вложения. Исходной информацией для построения парной физической карты служат размеры SDфраrментов оди ночных расщеплений рестриктазами А и В, размеры DDфраrментов COB MecTHoro расщепления рестриктазами А+В и ошибки их измерения: A( а l , . . . ,а п ) БА( ба"...' ба п ); B(bl,...,bm) БВ( БЬ,....,БЬ m ); AВ( аЬ 1 , . . . ,ab k ), БАВ( баы 1 ...,, баЬ k ) ( k равно п+m для линейной молекулы и п+m1 для кольцевой, однако часто k оказывается меньше в связи с "убеrанием" коротких фраrментов из rеля). В табл. 5.2 приведены исходные данные, которые будут далее использоваться в качестве примеров(в этом параrрафе мы не обсуждаем возможности использования информации о дополнительных биохимических экспериментах,которые будут рассмотрены в разделе 5.6). Таблица 5.2 Размеры фрarментов SD и DDрасщеплений. Общая длина молекулы  104(в условных единицах). ИНформация о рестриктазе С используется в разделе 5.4 при построении множественных карт I Номера фраrментов Тип обработки 1 2 3 4 5 6 7 А 44 42 18 В 42 38 16 8 С 58 46 АВ 36 30 12 8 8 6 4 вс 40 38 8 8 8 2 СА 42 34 14 10 4  Следуя работе Нолана и др. (No1an et a1.,1984), будем называть rруппу DDфраrментов расщепления рестриктазами АВ iвилкой расщепле ния А, если сумма длин этих фраrментов равна длине iro SD фраrмен та расщепления А (с учетом ошибок измерения). Например, S(36+8) и S(30+8+6)  lвилки расщепления А, S(30+12) и S(30+8+4)  2вилки расщепления А, S(8+8)  3вилка расщепления В (рис.5.6). iвилку расщепления А можно интерпретировать как набор фраrментов, на KOTO рые может разбиться iй фраrмент А при действии рестриктазы В. Назовем вложением набора фраrментов АВ в набор А такое разбиение n множества фраrментов AВ U S на подмножества Si' что каждое Sj il 1 является iвилкой расщепления А (вложения можно рассматривать как предварительные заrотовки для построения физической карты). Напри Мер, разбиения б * Заказ t,'O 4327 165 
он  ЗО-t6-t6 36-t6 ЗО-t6+4 30+12 12+4 6-t6 36-t8 42 I 16  р и с.5.6. Примеры вилок (36+8), (30+8+4), (12+6); (36+8), (30+12), (8+6+4) являются вложениями АВ в А. Очевидно, что каждая физическая карта по рождает вложения АВ в А и в В(рис.5.7). Обратное, вообще rоворя, неверно. Например, вложениям (36+8), (30+8+4), (12+6) (36+8), (30+6), (12+4),(8) АВ в А; АВ в В не отвечает ни одна физическая карта, в этом случае мы будем rOBo рить, что вложения АВ в А и АВ в Внесовместимы. Решение задачи о построении парной физической карты разобьем на три этапа: 1) поиск вилок расщеплений А и В; 2) поиск вложений АВ в А и в В; 3) удаление несовместимых пар вложений и восстановление парных физических карт по совместимым парам вложений. А Р и с.5.7. Соответствие между физическими картами и вло жениями. Карта на рисунке по f ождает вложения: 36+8), (30+8+4М 12+6) АВ в А; 36+6),(30+8),(12+4),(8) АВ в В 44 А Поиск вилок. Задача поиска вилок сводится к классической задаче о сумме размеров (rэри,Джонсон,1982) : в множестве чисел {а} найти все подмножества Х, дЛЯ которых Аб < L а < А+б, аЕХ ['де А и б  фиксированные числа. Эта задача может быть решена с ис пользованием метода динамическоrо проrрмирования  таким образом, 166 
поиск вилок не является проблемой (для задач физическоrо картирова ния реальной размерности). Однако при высоком уровне поrрешностей в определении размеров фраrментов возможна ситуация, коrда число вилок оказывается очень большим, что затрудняет этап поиска вложений АВ в А и в В. ДЛЯ уменьшения трудоемкости этоrо этапа Нолан и др. (No1an et al.,1984) предложили методы, позволяющие резко сократить множест во вилок, использующихся при поиске вложений. Поиск вложений(.). Поиск вложений  самый трудный этап при по строении парных карт. Удобно сформулировать эту задачу на языке теории rрафов как задачу поиска "представительных" наборов ви лок (т.е. наборов, в которые входят все DDфраrменты). Для поиска вложений АВ в А строится rиперrраф Н на множестве Bep шин АВ U А (определения, относящиеся к теории rрафов, см. Зы КОВ,1987). Каждой iвилке S рестрикции А, состоящей из 1 DD фраr ментов, соответствует ребро S U {i} в rиперrрафе Н, состоящее из 1+1 вершины. Задача поиска вложений эквивалентна задаче нахождения точ Horo покрытия rиперrрафа Н ребрами(rэри, Джонсон, 1982). Отсутствие эффективных алrоритмов для решения этой задачи заставляет применять пере борные методы дискретной оптимизации, например метод ветвей и rраниц (Fitch et a1.,1983; Певзнер,Миронов,1987а). Следует отметить, что мноrие эвристические правила отбора вилок, введенные Ноланом и др. (No1an et a1.,1984), вытекают из процедур поиска точноrо покрытия rиперrрафа ребрами. Описание метода ветвей и rраниц (РомаНОВСКИЙ,1977) применитель но к конкретной задаче предполаrает описание стратеrии ветвления и процедуры отсечения. Например, в работе Певзнера и Миронова(1987а) для орrанизации перебора строится дихотомичное дерево ветвления Т (рис.5.8). Корневой вершине дерева Т отвечает разбиение АВ. На каждой итерации вершина дерева Т порождает две новые вершины; одна из них отвечает варианту, в котором подмножества (элементы разбие ния) объединяются, друrая  варианту, в котором объединение запре щено. Размножение вершин дерева Т продолжается До тех пор, пока чис ло rрупп в разбиении вершины не станет равным n  числу фраrментов SDрасщепления. Теперь задача поиска вложений сведена к задаче по иска висячих вершин дерева Т, соответствующих вложениям. Для опреде ления процедуры отсечения определим на вершинах х дерева Т функцию оценки вариантов f(x): I  О, если х или какойлибо потомок х является вложением f(x)   1, в противном случае. Задача поиска вложений эквивалентна задаче поиска минимума f(x) на вершинах дерева Т. Примитивный подход К минимизации f(x) связан с анализом всех вершин дерева Т и требует перебора колоссальноrо числа б** 167 
Ч,Ii,Н,811,:III,JО [Б-J6}, [8-З6) I (О,З6), ч, Ii,8,11, 30 [6 -Jбj.[Ч -зо), {iZ-Jа (8,Jб}.lIUOJ,Ч,б,8 6-Jб],[Ч-Jо}.[Ч-б},[ЧD] 1 р и с.5.8. Дихотомичное дерево ветвления(фраrмент). Каждой вершине соответствует прямоуrольник, в первой строке KOToporo представлена информация о разбиении,во второй  о запрещении объединения фраrмен тов, в третьей  значение функции оценки вариантов. В круrлых скоб ках  информация об объединении фраrментов, в квадратных  о запре щении объединения (например, запись r6,36] означает, что фраrменты 6 и 36 объединяются, а запись [636]  что объединение фраrментов зап рещено). В двойных прямоуrольниках показаны вершины, соответствующие вложениям вариантов. Поэтому для отсечения заведомо тупиковых вариантов ис пользуется минорирующая функция g(x): g(x)sf(x), которую можно BЫ числить, не прибеrая к полному перебору. В качестве такой функции выберем функцию g(x)   1, если вразбиении в какую вилку есть подмножество, не входящее ни О, в противном случае. При просмотре дерева Т вершины, в которых g(x)l, отбрасываются вместе со всеми потомками. При реализации метода ветвей и rраниц возможно совместное использование функции g(x) и различных процедур отсечений (Fitch et a1.,1983; No1an et al.,1984). Следует отметить, что, несмотря на обилие предложенных подходов, поиск вложений явля 168 
ется caмh трудным этапом при построении парных физических карт. П роверка совместимости вложений и интеральны е После построения вложений АВ в А и в В производится проверка совместимости пар влсжений("склейка" вложений), при этом может быть использован метод интервальных rрафов (Wаtеrmап,Griggs,1986) или специальные процедуры (No1an et al.,1984). Для рестрикционной карты, представленной на рис.5.4,б, можнс ввести матрицу инциденций(перекрытий): I(A,B) 011 1 О О 1 О 1 О О 1 rДе А и В  сокращенные обозначения для рестриктаз HindIII и BBI и 1., (А, В) I I I о, 1, если kй фраrмент рестриктазы А перекрыва ется с lM фраrментом рестриктазы В в противном случае. Таким же образом вводятся матрицы I(A,A+B) 1 О О 1 О О О 1 О О О О О О 1 О О 1 О О О О 1 О О 1 1 О О О 1 О О О О О О О О 1 1 1 I(B,A+B) rДе I I I,,(A,A+B) I I I l,если kй фраrмент одиночной рестрикции А содержит lй фрarмент совместной рестрикции А+В О,в противном случае (матрица I.,(B,A+B) определяется аналоrично). Заметим, что для любоrо i, iя строка матрицы I(A,A+B) определяет i вилку А, а iя строка I(B,A+B)  iвилку В(например, (10,9 + 2,7)  lвилка А, а (7,7 + 4,8)  lвилка В). Таким образом, матрице I(A,A+B) соответствует некоторое вложение АВ в А, а матрице I(B,A+B)  вложение АВ в В. Матрицы инциденций используются при проверке совместимости вложе ний. Для построения пар ной физической карты после этапа поиска вложений можно перебирать всевозможные пары вложений и для каждо 169 
2 3 4 н 1 2 в 3 р и с.5.9. rраф G(H,B) физической карты,приведенной на рис.5.4: каж дому рестрикционному фраrменту соответствует вершина, а каждой паре перекрывающихся фраrментов  ребро rрафа G(H,B). ЦИфры возле ребер, соединяющих вершину i в верхней доле и вершину j в нижней доли,соот ветствуют номерам фраrментов совместной рестрикции, образующихся при перекрывании фраrментов i и j пары строить матрицы I k1 (A,A+B) и Ik,(B,A+B). Ватерман и rриrс (Waterman,Griggs,1986) показали, что матрица I(A,B) может быть полу чена как произведение булевых матриц I(A,A+B) и IT(B,A+B) (здесь IT(B,A+B)  транспонированная матрица для I(B,A+B)). По матрице I(A,B) можно построить двудольный rраф G с долями А и В (рис.5.9). Если физическая карта рестрикций А и В известна, то построить по ней rраф G(A,B) очень просто. При анализе совместимости вложений приходится решать обратную задачу: по rрафу G(A,B) восстановить фи зическую карту. Ватерман и rриrс(Wаtеrmап,Griggs, 1986) приводят Teo рему: двудольный rраф G(A,B) является rрафом рестрикционной карты тоrда и только тоrда, коrда он является интервальным двудольным rрафом без изолированных вершин, и сводят задачу проверки совместимости вложений к известной задаче распознавания интервальноrо rрафа и нахождения ero интервальноrо представления(Вооth,Lеukеr, 1976; Миркин,Родин, 1977). Нужно отметить, что поиск совместимых вложений не является лимитирующим этапом при построении парных карт и подход Ватермана  rриrса следует paCCMaT ривать лишь как один из мноrих возможных. При проверке совместимости вместо по рождения всех перестановок внутри вилки (1! вариантов, rде 1 число злементов вилки) Перебира ются только пары крайних элементов вилок (1(11) вариант) , так как порядок средних элементов не восстанавливается. Проверка совмести мости значительно упрощается, если известно расположение фраrментов одноrо SDрасщепления. Эти данные MorYT быть получены из решения за дачи о парной карте для друrих пар рестриктаз, скажем А и С. Следует отметить, что проверку совместимости вложений можно вести уже на этапе поиска вложений  такой подход позволяет избавиться от анализа неперспективных вложений. 170 
О числе решений задачи физическоrо картирования. Информации о размерах фраrментов двух SD и одной DDрестрикции,как правило, He достаточно для однозначной идентификации физической карты (при pe альных уровнях ошибок в определении размеров фраrментов), так как число вложений и допустимых парных физических карт резко возрастает при увеличении числа DDфраrментов. rольдстейн и Ватерман (Go1dstein,Waterman, 1987), используя субаддитивную эрrодическую Teo рему Кинrмана, показали, что число решений задачи физическоrо карти рования растет как экспонента от длины картируемой молекулы. Таким образом, для однозначной идентификации физических карт необходим еще один этап  сцепление парных карт и построение множественной физи ческОЙ карты. 5. 4. МЕТОД ПОТЕНЦИАЛОВ ДЛЯ ПОСТРОЕНИЯ МНОЖЕСТВЕННОй ФИЗИЧЕСКОй КАРТЫ Схема эксперимента. Представьте себе, что при построении парной физической карты получено 100 различных вариантов расположения сай тов рестриктаз А и В. Как отбросить 99 из них и выбрать единственно правильное? При множественном картировании на помощь приходит инфор мация о парных картах АС и ВС  учет, этой информации отсекает вари анты, которые не соrласуются с информацией о расположении сайтов А и В, полученной на основе анализа карт АС и ВС. Таким образом, при построении карты по рестриктазам А,В,С возникает задача: среди MHO ж:ества парных карт АВ,ВС и СА выбрать три "соrласованных" и "скле ить" их на одной множественной карте. В зтом разделе описываются Me тоды проверки "соrласованности" и алrоритмы "склейки" парных физи ческих карт. Пусть в результате эксперимента получены данные о длинах фраr ментов 1 одиночных рестрикций и некоторые данные о длинах фраrментов совместных рестрикций. Сопоставим зтому эксперименту схему с 1 Bep шинами: каждому одиночному расщеплению соответствует вершина схемы, каждому совместному расщеплению  ребро схемы, соединяющее COOTBeTC твующие вершины. На рис.5.10 схема G 1 отвечает варианту, paCCMOT ренному в работе Нолана и др.( No1an et a1.,1984), схема G 2  Ba рианту из работы Полнера и др. (Po1ner et a1.,1984), а схемы G з и G 4  экспериментам с пятью рестриктазами. Как уже отмечалось, для однозначной идентификации физической карты необходимо достаточно большое число совместных расщеплений или, иными словами, достаточ ная насьщенность схемы эксперимента ребрами. Опыт решения задачи построения множественных карт показывает, что важную роль иrрает также вид схемы эксперимента; так, например, двусвязная схема G 4 предпочтительнее одно связной схемы G з , хотя они имеют одинаковое число ребер и эксперименты по схемам G з и G 4 одинаково трудоемки. 171 
v G 1 9С) G . G з р и с.5.10.Примеры схем экспериментов J А = ( '1'1, '1Z, Ifl, + 1) 6 = (';Z,J8,8, 15, + 1) 5(А,б] =88, /J(A,B)=/ й В=('/Z,Зб,/б,б,+1) С=(:;б,'18,+/J 5(6,,)=88 И/ В,С)= I tf А А = ('1'1,'1Z,/б, +7) В = ('1Z, З8,'6, 8,+7) 5(А,б)=98, /J(A,BI= 1 в = ('12, JH, 8,/6, +1) с=(Jб, '18, +1) 5(В,!;)='lО, /J(B, С) = / С=(:;П, '18,+/) А= ('1'1, '11,18,+1; S{C,AI = 70, и(С,Д)=1 G . B=I'IZ,16,J8,8,+I) С=(:iб, '18, +1) S{B,C)=JO, и(В,[;)=l р и с.5.11.Парные физические карты, полученные по методу ветвей и rраниц,  ДЛЯ разбиений А и В (а),ДЛЯ разбиений В и С(б), ДЛЯ разби ений С и А(в) 172 
Это замечание может быть полезным при рациональном планировании экспериментов по картированию. Потенциалы и вращения верши н. в схеме  эксперимент а(.). PaCCMOT рим эксперимент по схеме "треуrольник" с тремя рестриктазами А, В, С (табл. 5.2) и кольцевой молекулой дик. Метод потенциалов пред полаrает построение на предварительном этапе всех допустимых парных физических карт (т.е. парных карт, лежащих в пределах ошибки экспе римента). Предполаrается, что после построения парных физических карт (любым из известных методов) на каждом ребре схемы G построено некоторое множество парных физических карт (рис.5.11), и возникает задача их сцепления на одной. множественной карте. Каждую расстановку из n фраrментов на кольцевой молекуле можно записать 2п способами в зависимости от Toro, какой фраrмент выбрать первым (п вариантов) и какое выбрать направление обхода (два вариан та). Каждую такую расстановку будем записывать как набор из п+1 чис ла: первые n  размеры фраrментов, последнее число +1 или 1 в зави симости от направления обхода (+1  по часовой стрелке, 1  против часовой стрелки). Напрюлер, расстановку фраrментов рестрикции А на рис.5.7 можно записать различными способами: (44, 42,18, +1), (18, 44, 42, +1), (42, 44, 18, 1) и Т.д. Канонической будем называть лексикоrрафически максимальную из всех возможных записей (для карты на рис. 5.7 канонической записью для А будет (44,42,18,+1) ,а для В (42,38,8,16,+1)). Точка начала первоrо фраrмента в канонической записи определяет начальную точку каждоrо SDрасщепления(на рис.5.7 начальной точкой рестрикции А является rраница фраrментов 44 и 18, а рестрикции В  rраница фраrментов 42 и 16). Расстояние между началь ными точками (при движении по часовой стрелке) определяет СДВИi s(A,B) между двля SDрасшеплениями А и В, ориентации канонических записей рестрикций А и В определяют соrласованность v(A,B):v(A,B)l, если канонические записи А и В одинаково ориенти рованы; в противном случае v(A,B)l (на рис.5.? s(A,B)98,v(A,B)+1). Заметим, что величина s(A,B) задается с HeKO торым допуском, определяемым поrрешностями определения размеров SD и DDфраrментов. Зафиксируем на молекуле некоторую точку "О"  нача ло отсчета (можно считать, что точка "О" является единственным учас тком расщепления для rипотетической рестриктазы R). Числа p(A)s(R,A) и c(A)v(R,A) будем называть потенциалом и вращением рестрикции А. Можно показать, что s(A,B)(p(B)p(A))'c(A) [mod DL], v(A,B)c(A).c(B), (5.1 ) (5.2) ['де DL  длина молекулы (равенство в (5.1) записано с учетом ошибок, правая часть (5.1) рассматривается по модулю DL). Оператор, действу 173 
А А, =( 44 . 42 , 18 . +1) 70.1 в =( 42 . 38 . 16.8, +1) в в =( 42.38,8.16, +1) с а =(56,48,+1) G G р и с.5.12.Преобразование rрафа G в мультиrраф (ind(A)l,ind(B)2, ind(C)l) ЮЩИЙ на вершинах схеМЫ эксперимента и определенный равенствами (5.1) и (5.2), называется коциклическим. Задача исследования аналоrичных операторов часто возникает в теории rрафов (Lefschez, 1975). Построение множественной карты сводится к поиску представитель ных подrраФов(О). Задачу построения множественной физической карты можно переформулировать как задачу поиска таких потенциалов р и вращений с на вершинах схемы эксперимента, которые по рождают сдвиrи и соrласованности (по формулам (5.1) и (5.2)), совпадающие с дaHHЫ ми, полученными на этапе поиска парных физических карт. Таким обра зом, при построении множественной физической карты нужно выбрать He которые расстановки фраrментов рестрикций А,В и С и, используя фор мулы (5.1) и (5.2), попытаться "склеить" их на одной карте. При этом следует анализировать не все варианты расположения фраrментов: в частности, при расстановке сайтов рестрикции А можно рассматривать не все варианты, представленные в парных картах АВ , а только те, которые cMorYT в дальнейшем участвовать в некоторой "склейке". Для отбрасывания вариантов, которые не cMorYT участвовать в построении множественной физической карты, используется понятие индекса верши ны. Назовем индексом ind(A) расщепления А число канонических paCCTa новок SDфраrментов расщепления А, совместимых со всеми типами пар ных расщеплений, в которых участвует А. В примере на рис.5.11 единс твенной допустимой расстановкой фраrментов расщепления А будет A,(44, 42, 18,+1)); следовательно, вершина А имеет индекс 1, Bep шина В индекс 2, так как допустимьwи являются расстановки B,(42,38, 16, 8, +1), B2(42, 38, 8, 16, +1), вершина С имеет 174 
индекс 1  расстановка C,(56,48, t1). Расстановка фраrментов pec rрикции В (42,16,38,8,+1), присутствовавшая в парных картах Ее OT брасывается, так как она не присутствует в парных картах АВ. ДЛЯ построения множественной физической карты строится lдольный мультиrраф G, получающийся из G размножением каждой вершины А на ind(A) вариантов. Размножим каждую вершину А схемы эксперимента на величину индекса ind(A) и в каждой из полученных вершин укажем одну расстановку SDфраrментов расщепления А (рис.5.12). Вершины мультиr рафа G соединяются дуrой, если соответствующие SDрасстановки COB местимы, т.е.образуют карту. Сдвиrи и соrласованности на этих дуrах определяются сдвиrами и соrласованностями соответствующих парных карт. rраф с определенными на вершинах потенциалами р и вращениями с будем называть рсrрафом.Подrраф Н называется представительнь подr рафом lдольноrо rрафа G, если он содержит ровно одну вершину в каж дой доле G и ero по рожденный подrраф совпадает с G. Можно показать, что существует взаимнооднозначное соответствие между кольцевыми фи зическимим картами и представительными рсподrрафами G, у которых коциклические операторы на вершинах порождают сдвиrи и соrласован ности на дуrах (аналоrичное утверждение верно для линейных карт). Следующие утверждения сводят проблему идентификации множественной карты к поиску представительных подrрафов: 1) представительный рсподrраф G порождает кольцевую физическую карту тоrда и только тоrда. коrда коциклический оператор на ero Bep шинах определяет сдвиrи и соrласованности на ero ребрах; 2) подrраф rрафа G порождает линейную физическую карту тоrда и только тоrда. коrда он является представительнь. Для поиска представительных подrрафов можно использовать декомпо зицию G, связанную с перебором вариантов, начиная с рестриктаз, име ющих небольшое число различных положений фраrментов (им COOTBeTCTBY ют доли G с небольшим числом вершин). Пример построения множественной карты. Для rрафа G (рис.5.12) возможны наборы расстановок SDфрarментов: H,(A" В" С,), H2(A" В2' С,). ДЛЯ подrрафа Н, потенциалы и вращения p(A.)O, p(B,)98, p(C,)O, c(A,)c(B,)c(C,)l порождают сдвиrи и соrласо ванности: s(A,B)p(B)p(A)98, s(B,C)p(C)p(B)40, s(C,A)p(A)p(C)70, v(A,B)v(B,C)v(C,A)l. Так как эти значения совпадают с значениями на рис.5.12, то pac становки А.,В"С, порождают физическую карту (рис.5.13). Убедимся, 175 
что подrраф Н 2 не порождает физической карты. Действительно, если бы такая карта была, то она приводила бы к равенствам: c(A,)'c(B2)v(A"B2)l, c(B2)'c(C,)v(B2,C,)l, c(C,)'c(A,)v(C"A,)l, откуда следует, что или c(A,)c(B2)c(C,)+l, или c(A,)c(B2)c(C,)1. В первом случае (второй случай рассматривается аналоrично) разност:' потенциалов должны удовлетворять условиям (5.1): р(А" B2)p(B2)p(A,)s(A"B2)98, р(В 2 , C,)p(C1)p(B2)s(B2,C,)88, p(C t , A,)p(A,)p(C,)s(C"A,)70. Из условия: сумма разностей потенциалов на замкнутом контуре равна О, получаем 0p(A1' В 2 )+р(В 2 , С,)+р(С" A,)25648[mod 104J. А А Р и с.5.13. Множественная физическая карта рестрикций А, В и С Полученное противоречие показывает, что нельзя восстановить по тенциалы на rрафе Н2' и поэтому набор расстановок Н 2 не порождает фи зическую карту. Поэтапное построениеических карт. Важно отметить, что в настояшее время до проведения биолоrическоrо эксперимента, как пра вило, бывает неизвестно, какие рестриктазы предпочтительно использо вать для картирования, сколько нужно провести одиночных и совместных расшеплений, какие дополнительные биохимические методы следует прив 176 
лечЬ. Метод потенциалов предоставляет возможности для рациональноrо планирования эксперимента, а также для поэтапноrо построения физи ческИХ карт (Певзнер, Миронсв, 1987а). Так, типична ситуация, коrда построено несколько допустимых карт, однако для однозначной иденти фикации реальной карты экспериментальноrо материала еще недоqтаточ но. В этом случае на основании анализа построенных карт можно YKa зать, какими ОПЫТffiЛИ следует дополнить эксперимент, для Toro чтобы установить реальную физическую карту. Данные дополнительных экспери ментов MorYT быть введены в ЭВМ дЛЯ завершения расчетов. Возможности поэтапноrо построения физических карт особенно важны при расчете карт с большим числом сайтов, так как в этом случае перед началом расчета трудно оценить, позволят ли экспериментальные данные одноз начно идентифицировать физическую карту. 5.5.ФИЗИЧЕСКОЕ КАРТИРОВАНИЕ И 'TOДЫ ДИСКРЕТНОй МАТЕМАТИКИ. УТОЧНЕНИЕ ФИЗИЧЕСКИХ КАРТ Физическое к?ртирование К9.и скретной оптизации Несмотря на то, что мы подробно обсудили алrоритмы построения физи ческих карт, математическая постановка задачи физическоrо картирова ния еще не приводилась. Эта парадоксальная ситуация связана с тем, что физическое картирование  сложная комбинаторная проблема, форму лировка которой не укладывается в схемы классических задач дискрет ной оптимизации (в большинстве работ по физическому картированию aB торы избеrают четкой математической постановки этой задачи). Видимо, отсутствие четких постановок привело к тому, что основные усилия в области физическоrо картирования направлены па совершенствование пе реборнЫХ схем (типа метода ветвей и rраниц) и различных эвристичес ких процедур, в то время как мощный аппарат дискретной оптимизации при этом практически не используется. Несмотря на обилие алrоритмов, предложенных для физическоrо картирования, первые теоретические оценки сложности этой задачи (в рамках теории сложности KYKaKap па(rэри,Джонсон,1982)) появились лишь в 1987 r.(Go1dstein, Waterman, 1987). Мы приведем одну из возможных постановок задачи физическоrо картирования (Goldstein,Waterman, 1987), надеясь, что она привлечет специалистовматематиков и позволит уяснить место физическоrо карти рования в рамках задач современной дискретной оптимизации. Постанов ка является упрощенной  она применима только для линейных молекул ДИК, двух рестриктаз А и В и отсутствия ошибок в измерении длин фраrментов(более общая постановка приводится Певзнером(1987)). Исходной информацией для физическоrо картирования являются упоря доченные множества положительных чисел: 177 
A{ai: il,n}, B{bi: il, m}, AВ{ab,: il,k} (упорядоченность означает, что alaj при i<j ,аналоrичные усло вия выполняются для множеств В и АВ). Пусть р и q  перестановки элементов множеств А и В (пару (p,q) будем называть конфиrурацией). Перестановки р и q задают множество: s t R{r: r :Е ap(l) или r :Е bq(i) , rде 05sn, 0t5m}. il il Упорядочим элементы R R{r,: il,k и ri<r j при i<j} и обозначим через AВ(p,q) множество разрезов, получающихся при pac смотрении конфиrурации (p,q) AВ(p,q){ab,(p,q): ab,(p,q)rjrj1 для HeKoToporo 1j5k} (M предполаrаем, что множество AВ(p,q) упорядочено, Т.е. ab i (p,q)5ab j (p,q) при i<j). Задача физическоrо картирования co стоит в отыскании конфиrурации (p,q), такой, что AВAВ(p,q). rолдстейн и Ватерман (Goldstein,Waterman,1987) показали, что даже в такой упрощенной постановке физическое картирование является NРполной задачей (rэри, Джонсон, 1982). Таким образом, возможность построения эффективных(в смысле теории сложности КукаКарпа) алrо ритмов для физическоrо картирования вызывает большие сомнения( из вестна rипотеза о том, что для NРполных задач не существует полино миальноrо по сложности алrоритма решения) и основные усилия здесь следует сосредоточить на совершенствовании переборных схем. Как уже отмечалось, при построении физических карт основными являются следующие две задачи: 1) оптимальная орrанизация перебора rипотез о взаимном расположении саЙТО"8; 2) эl фективная проверка и отбраковка rипотез о взаимном расположе нии СLйтов(уточнение физических карт). О,jcуждавшиеся ранее проблемы отсутствия эффективнЫХ алrоритмов и ОТНОСЯТС5I к задаче J, в то время как для задачи 2 в настоящее Bpe мя известны эффективные алrоритмы решения. опирающиеся, на rлубокие теоретикоrрафовые результаты. В этом параrрафе обсуждается связь проблемы физическоrо картирования с двумя задачами дискретной ОIIТИ мизации  поиском максимальноrо потока в сети и оптимальноrо контура в rрафе, для решения которых известны эффективные комбинаторные ал 178 
rоритмы (недавно Эллисон и йи подход к уточнению физических illостака). rипотезы о расположении сайт о в рестрик и и и диаrры. При pe шении задачи уточнения физических карт считается, что зафиксирована rипотеза о порядке расположения сайтов рестрикций и следовании фраr ментов на молекуле дик. Каждой такой rипотезе соответствует диаrрам ма D (на рис.5.14 представлена диаrра для линейной молекулы ДИК), на которой указаны порядок следования сайтов и соответствующие длины SD и DDфраrментов (при этом координаты сайтов не указываются). Фи зическая карта М (рис.5.14) дает информацИIC о порядке следования сайтов и о координатах  расстояниях каждоrо сайта от начальной точ ки. Всякая физическая карта М порождает некоторую диаrрамму D M , в качестве длины фраrментов на этой диаrре используются расстояния между между соответствующими сайтами. Однако обратное утверждение неверно: не по всякой диаrрамме можно построить физическую карту, например, по диаrрамме D нельзя построить физической карты, так как уже для первых двух фраrментов рестрикции В: 8+1524. Поэтому воз никает вопрос о построении физической карты, наилучшим образом приб лижающей диаrрамму  это и есть задача уточнения физических карт. В качестве меры расхождения между диаrраммой и физической картой рассматривается равномерная норма, Т.е. если длины фраrментов диаr pы представлены вектором D(d"...,dt)' а длины фраrментов фи зической карты  вектором M(m"...,mt)' то под отклонением физи ческой карты М от диаrраммы D понимается (A11ison,Yee,1988) предложили новый карт, опирающийся на теорию отделения mах I d j m, I il,t (в векторах D и М представлены в не котором порядке длины фраrментов SD и DDрестрикций). Задача уточнения физической карты состоит в отыскании по диаrрамме D физической карты М', дающей решение сле дующей минимаксной задачи: mах jd m 'I min il, t i j М mах I d m.I, il, t 1 1 rде минимум берется по всевозможнь физическим картам М. Физическая карта М' называется оптимальным представлением диаrры D (на рис.5.14 карта М  оптимальное представление диаrраммы D). Выбор равномерной нормы в большей степени соответствует реальной задаче картирования, чем, скажем, выбор евклидовой нормы 12: ( :Е (dimi)2)'/2. il,t Дело в том, что использование евклидов ой нормы не отбраковывает Ba 179 
рианты со значительным отклонением от экспериментальных значений на OДHOMДBYX фраrментах. Эти варианты не должны рассматриваться, так как значительные отклонения хотя бы на одном фраrменте недопустимы при построении физических карт. В приведенной модели задачи уточне ния физических карт ошибки в определении размеров фраrментов счита ются равными. Различные уровни ошибок в определении размеров фраr ментов леrко учесть внесением в эту модель дополнительных весовых коэффициентов. А 20 1 24 l '  :В r : :;8 fI [) А 0 I ь АВ r <:4 ;'<"1 44 150  t -Tr  1 I .. I I в м А ;j 19 ?3 НЦ i АВ ' Н 16 i " 1 17 'T- , 6 ! .  [) >1 i:.'0 11 1) " 20 ?4 Q b  15   18 о) 24 I'J  /<'2 с; с' :,vvv в с'" V 8 '20 8 15 3 24 :- G Р и с.5.14.Диаrраммы и физические карты D  диаrрамма(цифры показывают размеры фраrментов); М  физическая карта ( ЦИФ2 показывают расстояния от сайтов рестрикции до начала молекулы ДИК; DM  диаrрамма, построенная по физической карте М; G  rраф для задачи о минимальном в среднем цикле, построенный по диаrрамме D Р и с.5.15.Построение рестрикционноrо rрафа по диаrрюме PeCTP K HHыe rрафы. Всякой диаrрawе можно поставить R COOT ветствие рестрикционный rраф G с пропускньи способностями дуr (не путать с ранее вводившимися интервальными rрафами) . Построение rpa фа G проведем в три этапа (на рис.5.15 показан процесс построения рестрикционноrо rрафа, соответствующеrо диаrрЮf.ме на рис.5.14). 1. Построm трехдольный ориентированный rраф G' (рис.5.15) с дo лями: А  множество SDфраrментов рестрикции А; В  множество SDфраrментов рестрикции В; АВ  множество DDфраrментов. 180 
ИЗ вершины v верхней доли А проведем дуrу (v,w) в вершину W средней доли АВ, если SDфрarмент v содержит DDфраrмент W. Аналоrично в вершину v нижней доли В проведем дуrу (w,v) из вершины W средней дo ли АВ, если SDфраrмент v содержит DDфраrмент w. 2. rраф G' преобразуем в rраф G" (рис.5.15), заменив каждую Bep шину дуrой, пропускная способность которой равна длине соответствую щеrо фраrмента. 3. Для завершения формирования рестрикционноrо rрафа G добавим к rрафу G" (рис.5.15) две вершины  источник s и сток t  и соединим источник s с началами всех дуr, соответствующих SDфраrментам А, а все концы дуr, соответствующих SDфраrментам В, соединим со стоком t. После этоrо добавим в rраф последнюю дуrу (t,S)(ЭТИ преобразова ния делаются для сведения задачи уточнения физических карт к класси ческой задаче о циркуляции). Описанный процесс позволяет строить рестрикционные rрафы по диаr раммам как линейных, так и кольцевых молекул и обобщить понятие pec трикционноrо rрафа для случая трех рестриктаз, учета информации о недорестрикциях и Т.д. (на рис.5.16 приведен пример построения peCT рикционноrо rрафа кольцевой молекулы для трех рестриктаз). Циркvляции в рестрикционных rрэ  эх(.). Каждому DDфраrменту физичес кой карты, соrласующейся с нашей rипотезой о порядке следования сайтов рестрикции, соответствует некоторая дуrа в rрафе G. Можно по казать, что через эту дуrу в rрафе G проходит ровно один ориентиро ванный цикл. Взвешенная cwa таких циклов (в качестве веса цик"а используется длина соответствующеrо фраrмента) дает циркуляцию в G. TaЦM образом, каждой физической карте, соrласующей6я с принятой rи поте зой о порядке следования сайтов, можно поставить в соответствие циркуляцию в G. Обратно, если дана циркуляция в G, то она однозначно определяется значениями на дуrах, соответствующих DDфраrментам (это следует из Toro, что всякий ориентированный цикл в G проходит через ' р и с.5.16. Построение рестрикционноrЬ rрафа по диаrрамме кольцевой молекулы для трех рестриктаз 181 
некоторую DDдуrу и через каждую такую DDдуrу проходит ровно один цикл). По значениям на DDдуrах, в свою очередь, однозначно строится соответствующая физическая карта (координата iro сайта рестрикции на ней равна Е f i' ['де f J  поток по j й DD дуrе rрафа G). jl,i Таким образом, установлено взаИМООдНозначное соответствие между физическими картами и циркуляциями в G (заметьте, что при таком под ходе поток по дуrе (t,S) определяет общую длину молекулы ДИК). Так как физическим картам соответствуют циркуляции, для отыскания опти мальноrо представления диаrры физической картой необходимо найти циркуляцию в сети G (rрафы с пр опускными способностями ду, в дис кретной оптимизации принято называть сетями), наилучшим образом при ближающую пропускные способности дуr,т.е. циркуляцию, минимизирующуr mах Id(v,w)f(v,w)I, (v,w) rде d(v,w)  пропускная способность дуrи (v,w), а f(v,w)  поток по дуrе (v,w) (максимум в формуле берется по дуrам, на которых опреде лена пропускная способность). Для решения этой задачи введем нижние и верхние пр опускные спо собности на дуrах по правилу d(v,w)d(v,w)t d+(v,w)d(v,w)+t (для ду, (v,w), на которых ранее пропускная способность не определя лась, положим d(v,w)O, d+(v,w) )). в этом случае существование физической карты, отклонение которой от диаrраммы не превышает t , эквивалентно существованию циркуляции в сети с нижними и верхними пропускными способностями d и d+. Уточнение Физических карт и теорема rофмана(.>. Для циркуляций в сети с двухсторонними оrраничениями пропускной способности верна следующая Теорема rофмана(ФОРД,Фалкерсон, 1966): циркуляция в rрафе G с двусторонними оrраничениями пропускной способности существует тоrда и только тоrда, коrда для любоrо подмножества Х вершин rрафа выпол няется d+(X,X)  d(X,X) (здесь d+(X,X)  суммарная верхняя пропускная способность прямых дуr разреза (Х,Х), а d(X,X)  суммарная нижняя пропускная спо собность обратных дуr разреза (Х,Х) ). Определим дефицит сети как DF mах (d(X,X)d+(X,X)). Если Х оrраничениями пропускной способности в сети с двухсторонними не 182 
существует циркуляции, то по теореме rофмана DF>O. Как уже отмеча лось, в реальной ситуации. как правило, не существует физической карты, в точности соответствующей диаrрае, поэтому при tO (в этом случае функции d и d+ совпадают и равны d) найдется множество Х, такое, что d(X,X) > d(X,X) и дефицит сети DF>O. Значение DF может быть определено с помощью ал rоритма вычисления максимальноrо потока в не которой сети специально ro вида (Форд, Фалкерсон, 1966). Множество Х, на котором достиrается дефицит сети, позволяет локализовать фраrменты, на которых принятая rипотеза дает "максимальные" противоречия (на рис.5.15 для rрафа G выделено множество Х из 6 вершин, дающее максимальный дефицит: сумма пропускных способностей по ero обратным дуrам равна 20+18, а по пря мым  15+19. Следовательно, DF38344). При возрастании t d(X,X) уменьшается, а d+(X,X) увеличивается для любоrо множества Х. Ta ким образом. дефицит сети DF(t)  убывающая функция. Можно показать, кроме Toro, что DF(t)  кусочнолинейная выпуклая вверх функция, число звеньев которой оценивается как O(r), ['де r число сайтов рестрикции. Как уже отмечалось, DF(O»O дЛЯ реальных диаrрамм. Обоз начим через t o точку, в которой DF(t) обращается в О, при таком t o ' по теореме rофмана, впервые появляется возможность построить циркуляцию в сети с двухсторонними оrраничениями, и, следовательно, t o дает минимальное отклонение исходной диаrры от физической карты, а соответствующая циркуляция порождает физическую карту, яв ляющуюся оптимальнЫМ представлением диаrрц. В результате задача уточнения физической карты свелась к нахож дению и построению циркуляции в соответствующей сети. Заметим, что функция DF(t), вообще rоворя, неизвестна, однако ее значение в любой точке можно вычислить путем решения задачи о Максимальном потоке в сети. Задача нахождения точки пересечения таких функций с прямой (нас интересует пере сечение rрафика функции DF(t) с прямой DFO) рассматривалась в работе Певзнера(1979), и для ее решения был пред ложен алrоритм, число этапов KOToporo не превышает числа звеньев KY сочнолинейной функции. Таким образом, решение задачи уточнения физических карт свелось к серии итераций, на каждой из которых находится максимальный поток в сети. Так как для решения последней задачи известны эффективные полиномиальные алrоритмы (АдельсонВельский и др. ,1975), предложен ный метод позволяет решать задаЧУ уточнения физических карт практи чески при любом числе фраrментов. 183 
У точнени  физ \Вески х K1!,!2.'!:...J1. зар:j'l'iа оБQIJ1'l1маJ[ ЬНО М KOHT yperp ф е(.) . Рассмотренный подход устанавливает связь между ПОТОКОВЬПАИ алrоритмами и физическими картами при числе рестриктаз k$3, но уже при k4 не удается ПОСТРQ!ТЬ потоковую сеть, сводящую задачу уточне ния физичеСJ\ИХ карт к построению циркуляциЙ. В этом случае предлаrв ется более УНИЕер'альный [щz:ход: сведение задачи построения ф;.!зичес ких карт к задаче 06 оптимальном контуре в rрафе(РомаНОВСКИй,19??). Для ориентированноrо rрафа G(V,E) с весами на дусах l(e) будем 060З начать через НС) длину цикла С с учетом ориентаций дуr,а через d(C)  число дуr в С . Например. для цикла, составленноrо из жирных ДУТ' на рис.5.14: 1(C)20+181915=4,d(C)4. Обозначим 1",; n =m i n 1 ( С) , 1 т. d =m i n 1 ( С ) / d ( С ) (минимум берется по множеству всех простых циклов rрафа). Задача определения 1m'n известна как задача поиска минимальноrо цикла в rрафе, она относится к классу NP. Задача определения lт," И::1вестна как зэдача определения оптимальноrо КОН1'ура в rрафе, и для нее р отличие от заДdЧИ о поиске минимальноrо цикла известны ::эффек' тивные алrоритмu (Kurp,1978; Карзанов,1985). ока::1ыl3ется.. '-!то задача уточнения физической карты (при произ вольном числе рестриктаз) сводится к ПОИСJ\У с:птимальноrо KOHTYp<-i в ['рафе специаЛJ,НО['О вида. На рис. 5.14 приведен взвешенный ориентиро' ванный т'раф, построенный по дивrрамме  каждому сайту рестрикции на диаr'рЮАме (а также началу и концу линейной молекулы) соотвествует вершина в G, две вершины соединяются дуrой веса 1, если расстояние между соответствующими сайтами на диаrрамме известно и равно 1. Всякая физическая карта М, построенная по ДИ8rрамме D , описы вается функцией р на множестве вершин rрафа G ( р( \')  расстояние от сайта, соответствующеrо вершине v, до начальной точки). Физическая карта М порождаст диаrрамму D M , которой соответствует rраф G(V,E) с весами дуr l.(v,w)p(w)p(v). Таким образом, отклонение физической карты М от диаrраммы D дa ется Форму:лой: mах I p(w)p(v)l(v,w)i (v, w)EE и задача уточнения физической карты состоит в поиске неотрицательной функции р на У, на которой достиrается минимум 184 
р mах I p(w)p(v)l(v,w)l. (v,w)EE (5.3) min Эту задачу можно сформулировать, как задачу линейноrо проrрамМИрОRа ния. Если добавить в rраф G I Е I новых ДУf" вводя для каждой дуrи (v,w) веса l(v,W) антипараллельную дуrу (W,V) веса l(v.w), то зада чу (5.3) можно преобразовать к виду: min mах (p(w)p(v)l(v,w») р (v,w)EE' (через Е' обозначено новое множество дуr мощности 2IEI). Эта задача эквивалентна следующей задаче линейноrо проrРЮАмирования: t:>o, VVEV: p(v)?O, V(v,w)EE': p(v)p(w)t ,::l(v,w), t > min. Вводя двойственные переменные g(v,W) и переходя к двойстьенной з;}ла че, получим V(v,w)EE': VVEV: g(v,W)?O , L: g(v,W) (v, w)EE' L: (w,v)(E' g(W,v)O , L: . g(v,w)l , (v, w)EE' L: g(v,w)-l(v,w) > mах . (v, w)EE' Последняя задача: постановка задачи об оптимальном контуре(или о ми нимальном в среднем цикле в rрафе) в форме задачи линейноrо проrрам мирования(Романовский, 1977) V(v,w)EE': g(v,W)?O, VVEV: L: g(v,w) (v, w)EE' L: (w,v)EE' g(W,v)O , L: g(v,w)l , (v,w)EE' L: g(v,w)'l(v,w) > min (v, W)EE' Использование алrоритма Карзанова(Карзанов,1985) этоrо функционала дает возможность одновременно с для минимизации построением опти 18 
мальноrо контура получить ,:,акже решение задачи об уточнении физичес кой карты. 5.6.ДОПОЛНИТЕЛЬНЫЕ БИОХИМИЧЕСКИЕ МЕТОДЫ И СТРАТЕrия КАРТИРОВАНИЯ lliЩТ И1)Qв ан Б олыllхx r е НОМ ОLИ ПОС Т .RоеН ИJl0.ill2.Q бных Физичес ки х карт неоБ Х ОДИМ О1Ш.ив лека т...до по л ните л ьны е мет о ды . Мы paCCM OTp  ли методы физическоrо картирования, основанные на анализе результа. тов одиночных и совместных рестрикций. При этом подходе эксперимен, тальная работа сводится к минимуму, однако построение карты по TaKO косвенной информации вызывает большие математические трудности, KO торые не всеrда удается преодолеть (при значительном числе сайтов рестрикции и ошибках в определении размеров фраrментов). Дополни тельные биохимические эксперименты по картированию позволяют за сче,:, дополнительной экспериментальной работы снять некоторые математичес кие проблемы. Даже в тех случаях, коrда математические проблемы yдa ется преодолеть, при картировании больших ['еномов, как правило, воз никает несколько физических карт, соrласующихся с экспериментальной информацией  снять эту неоднозначность удается только при использо вании дополнительных биохимических экспериментов. В предыдущих разделах уже затраrивался вопрос об оптимальном пла нировании экспериментов по картированию при минимизации числа элект рофорезов, необходимых для однозначной идентификации физической Kap ты. Однако при картировании больших ['еномов вычислительные трудности столь велики, что даже анализ данных о мноrих рестрикциях не дает возможности построить физическую карту. В этих случаях необходимс выбрать стратеrию картирования: набор и последовательность дополни тельных биохимических методов, приводящих к построению физической карты при минимальной экспериментальной работе. ВОЗМОЖН QСТIJ дополнител ьных биохимическ ихметодов . картирования. В этом разделе кратко описаны некоторые дополнительные методы, ис пользующиеся при картировании. 1. Разрезание отдельных фраrментов рестрикции А рестриктазой В. Обычно при этом используется двумерный rельэлектрофорез: SD фраr менты рестрикции А сначала разделяются в первом направлении, затем разрезаются рестриктазой В и получившиеся DDфраrменты разделяются во втором направлении. Этот метод позволяет резко сократить вычисли тельные сложности при поиске вилок и вложений  лимитирующих этапах при построении парных карт. 2. rибридизация по Саузерну. rибридизация по Саузерну позволяет получить информацию о перекрывании фраrментов различных рестрикций и "обойти" этапы поиска вилок и вложений, перейдя сразу к построению рестрикционной карты по интервальному rраФу (разд. 5.3). Помимо это 186 
['о для получения информации о перекрывании фрarментов MorYT быть ис пользованы помеченные пробы (например, высокоповторяющиеся рассеян ные последовательности дик при физическом картировании эукариот). 3. Линеаризация кольцевых ДИК. Для линеаризации кольцевой дик нужно найти рестриктазу с уникальным сanтом. В случае больших коль цевых дик (например, космид) поиск такой рестриктазы представляет проблему, однако ее можно пытаться решить с помощью специфическоrо разрезания по соsпоследовательности (Rackwitz et a1.,1985). 4. Недорестрикция дНК. Недорестрикция дик достиrается подбором времени инкубации и количества фермента, при этом для выбора уровня недорестрикции MorYT применяться различные методы, в частности раз резание дик в присутствии бромистоrо этидия, блокирующеrо реакцию после разрезания nepBoro сайта . Использование недорестрикции позво ляет получить информацию о смежных фраrментах на молекуле дик и COK ратить число допустимых парных карт. 5. Концевая метка. Использование KOHцeBb Me TOK(Smith,Birnstail, 1976) позволяет определить расстояния от сайтов рестрикции до помеченноrо конца молекулы и значительно облеrчает оп ределение положения нескольких сайтов рестрикции, близких к помечен ному концу. Однако при значительной общей длине молекулы днк этим методом не удается определить положения сanтов в середине молекулы, так как соответствующие им фраrменты выходят за предел шкалы MapKe ров, что приводит к невозможности их разделения. При использовании концевых меток с двух концов линейной молекулы возникают трудности при совмещении координат сайтов с правоrо и левоrо конца. Зехетнером и др.(Zеhеtпеr et a1.,1987) разработан специальный метод "rребенки" для проведения Taкoro совмещения. Разработка математическоrо обеспечения для поддержки дополни тельных биохимических экспериментов. Расширение работ по физичес кому картированию и секвенированию больших ['еномов требует разработ ки специальных проrр, позволяющих минимизировать эксперименталь ную работу при построении физических карт. В имеющемся в настоящее время математическом обеспечении возможности учета информации о дo полнительных биохимических экспериментах очень оrраничены (Po1ner et a1.,1984; Zehetner et a1.,1987). В настоящее время актуальной явля ется разработка алrоритмов и проrр физическоrо картирования, под держивающих все рассмотренные дополнительные биохимические методы (Zehetner et al.,1987), а также дополнение проrр физическоrо Kap тирования проrрами манипулирования физическими картами и cpaBHe ния физических карт (Abremsky,Ward,1986; Neumaier, 1986; Zehetner, Lehrach, 1986) . 
5. 7. ЗАКЛЮЧЕНИЕ Физическое картирование  один из самых популярных методов aHa' лиза дик. Сложный комбинаторный характер этой задачи и вычислитель ные трудности при прямом переборе вариантов требуют привлечения Me тодов дискретной математики для построения физических карт. В HaCTO ящее время физическое картирование один из немноrих разделов компьютерной rенетики, ['де удалось "заставить" работать серьезные результаты из разных областей математики(теории rрафов, потоков в сетях, эрrодической теории и др.). Проrры построения физических карт  одна из необходимых и наиболее трудоемких составляющих COBpe менных пакетов проrр по молекулярной rенетике. Узким местом при разработке методов физическоrо картирования остается этап построения парных карт (задачи построения множественных карт и уточнения кар: можно считать решенными)  повидимому, дальнейший проrресс в этой области будет связан с использованием аппарата дискретной оптимиза ции. В связи с планирующимися масштабными работами по физическому картированию в рамках секвенирования reHoMa человека особую актуаль ность приобретают задачи оптимальноrо планирования экспериментов, привлечения информации о дополнительных биохимических экспериментах и разработка ПрИНЦИПиальНО новых методов картирования. В последние ['оды был проведен ряд работ по крупномасштабному физическому картированию (Coulson et a1.,1986; Olson et al.,1986; Kohara et a1.,1987; Lander,Waterman, 1988; Sulston et a1.,1988) и тесно связанному с ним меrабазному секвенированию днк ( nысов и др. , 1988; Drmanac et a1.,1989; Pevzner,1989). 
raBa 6. МЕТОДЫ ПРЕДСКАЗАНИЯ ВТОРИЧНЫХ СТРУКТУР РНК 6.1. ПРОБЛЕМА ОПРЕДЕЛЕНИЯ ВТОРИЧНЫХ СТРУКТУР РНК Молекула РНК представляет собой однонитевую полимерную цепочку. Об наружено, однако, что в процессе синтеза молекулы комплементарные участки в цепи находят и связываются друr с друrом. В результате обра зуются двунитевые спиральные фраrменты.Совокупность таких спиральных участков и однонитевых отрезков составляет вторичную структуру РНК. в настоящее время накоплено MHoro информации о биолоrической роли вторичной структуры. Так, для транспортных РНК структура типа "клевер ный лист" необходима для узнавания ее соответствующими ферментами и рибосомами. Вторичная структура рибосомных РНК обусловливает caмoc60p ку и функционирование рибосом. Имеется очень MHoro указаний на роль вторичной структуры мРНК в трансляции. Ниже будет показано, что поло жение инициирующеrо триплета в структуре может оказать решающее влия' ние на частоту инициации трансляции. Анализ вторичной структуры мРНК позволяет объяснить также реrуляцию транскрипции с омощью аттенюации, процесс сплайсинrа интронов, явления транскрипционных пауз и термина ций. Таким образом, знание вторичной структуры РНК является не06ходи мым для понимания процессов,происходящих в клетке. В связи с этим воз никла проблема предсказания вторичной структуры молекулы РНК. Эта задача, как она понимается в настоящее время, заключается в оп ределении существующей в структуре совокупности спиральных участков. Для решения этой задачи необходимо рассмотреть все возможные спираль ные участки, проанализировать возможность их cOBMeCTHoro существования и выбрать наилучшую структуру. Как считает М.Эйrен (1973), природа ca ма поступает подобным образом с нуклеотидной последовательностью, пе ребирая различные варианты, разыrрывает партию в иrре, которую он наз вал" иrра в тРНК или как делать клеверные листья". Наша задача попытаться понять правила иrры или правила отбора структур. В первое время для выбора наилучшей структуры использовался критерий комплементарности  преимуществом обладала структура с наи большим числом комплементарных пар оснований. Затем правила отбора усовершенствовались, и на следующем этапе исследования вторичной структуры РНК в качестве критерия стали использовать свободную энер rию. Стратеrия поиска и отбора вторичных структур может быть различна. В этой rлаве рассматриваются основные алrоритмы предсказания BTO ричных структур РНК. Можно выделить четыре основных подхода: 1) комби 189 
наторный, в котором про считывают различные варианты взаимноrо располо жения спиралей; 2) индуктивный, в котором используются методы динами ческоrо проrраммирования; 3) кинетический, в котором пытаются модели ровать процесс формирования вторичной структуры РНК; 4) филоrенетичес кий и ферментативный, при помощи KOToporo из различных эксперименталь ных данных и сопоставления результатов анализа rомолоrичных РНК опре деляют спиральные участки во вторичной структуре. 6.2. тополоrИЧЕСКИЕ УСЛОВИЯ и ТЕРМОдИНАМИКА ОБРАЗОВАНИЯ ВТОРИЧНЬ СТРУКТУР РНК Условия совместимости спиралей. Возможные элементы вторичной CTPYK туры РНК представлены на рис.6.1. Двутяжевый спиральный участок, или для краткости спираль, состоит из нескольких комплементарных пар, в которых нуклеотиды образуют классические Уотсон  Криковские AU и GC связи, а также GU связь. Наличие GU связи было экспериментально YCTa новлено, правда, при этом нужно учитывать, что связь между этими HYK леотидами непрочная и пара GU может находится только внутри спирали, стабилизируемая стэкинr взаимодействиями соседей. Одноцепочечные учас тки характеризуются тремя типами петель и свободньи 3'и 5' концами цепи. Рис. 6.1. Возможные элементы вторичной структуры РНК 1  петляшпилька; II  спиральный участок; III  внутренняя петля; 1V  боковая петля IУ З' Рассмотрим теперь условия COBMecTHoro существования спиральных фраrментов во вторичной структуре. Условия тополоrической совместимости спиралей представленны на рис. 6.2,а. В этом случае спирали MorYT oд новременно полностью присутствовать в структуре. Нет очевидных тополо rических препятствий и для образования спиралей, изображенных на рис.6.2,б, однако практически во всех теоретических исследованиях не допускается образования такой узловой структуры. Это связано прежде Bcero с ее явной энерrетической невыrодностью. Действительно, для об разования TaKoro узла необходимо соблюдение очень жестких требований к пространственному расположению нуклеотидов, что крайне невыrодно CKa жется на энтропийном вкладе в свободную энерrию. 190 
Аналиэ вторичной структуры показал, что возможно и друrое взаимное расположение спиралей (Studnicka et a1., 1978; Миронов, Кистер, 1989). При этом, как нетрудно убедиться из рис.6.3, обе спирали MorYT OДНOB ременно существовать, но только одна из них или обе будут не полными. Как видно иэ рисунка, часть оснований одной спирали комплементарна oc нованиям друrой спирали, поэтому с равной вероятностью в структуре MO rYT присутствовать пары или одной, или дрyrой спирали. Этот переход изоэнерrетический, поскольку замена на эквивалентную пару не влияет ни на энерrию спиральноrо участка, ни на энерrию неспиральноrо фраrмента. Рис. 6.2. Два типа возможных pac положений тополоrически полностью совместимых спиралей а расположение спиралей в структуре; б  узловая структура Рис. 6.3. Расположение тополоrи чески совместимых спиралей 1 и I1, б при котором, однаКО, они не MorYT полностью одновременно находится в структуре а  в потенциальных спиралях 1 и 11 (отмечены стрелками) часть HYК леотидов комплементарны нуклеотидам дрyrой спирали; б  одновременное существование двух спиралей 1 и I1, раэделенных "блуждающей" боковой петлей ...... )(J а 6'  GCUCcc......GCCUGCUGCUUGCCCC...GC  З'   ........... 5'  CCUGGc......c,c,u\ Э'  CG... cc UCG'u_ ,/ . 6'  GCUCCCAAC....(:-..u, G Э'  CGACj: GUUCG, { '!-i: u' ... )1 5'  c.cиc.ccAAc....c....и\ З'  CGAC c..GUuCG, ,С IА J. , и'" с C'C; .. Понятно, что такие переходы возможны только если сохраняется часть спирали, Т.е. остается неизменной структура петель. При сосуществова нии двух подобных спиралей между ними образуется флуктуирующая, сколь зящая петля. При замене пары из одной спирали на пару из друrой спира ли петля перемещается, и спирали как бы перетекают друr в друrа (рис. 6. 3, б). Возможность сосуществования в структуре подобных спиралей и посто янных переходов между ними является очень важнъ обстоятельством и заставляет поновому рассматривать вторичную структуру РНК. Повидимо му, нельэя теперь представлять ее как статический набор спиралей со cTporo фиксированными параметрами. Наличие вторичной структуры РНК предполarает постоянный динамический процесс с непрерывно изменяющими ся спиральными участками. Возможно, эта одна из причин трудностей при кристаллизации этой, как бы дышащей, молекулы. 191 
Силы, С'I'абили .иQYlO ЩИе.  вто р'!:!IQ..Т'l'YQY РНК , ДЛЯ определения стэ бильности спиралей нуклеиновых кислот биолоrи вначале использовали. можно сказать, визуальный, статистический метод  оценивали на rла содержание GC и AU пар в спирале. Это казалось вполне подходило дл качественных выводов, однако в 1963 r. Чемберлен с соавт. (Chamber1ir. et a1., 1963) четко показали на синтетических полимерах влияние после довательности оснований на стабильность. Энтальпия спирали, имеющей, например, две GC пары, будет очень сильно разнится в зависимости от Toro, являются ли эти пары ближайшими соседями или между ними располо жена AU пара. Чтобы объяснить этот результат, надо учесть так наЗыва емые вертикальные или стэкинrвзаимодействия. Одна из первых попыток оценить взаимодействия между основаниями Б двухспиральной структуре была предпринята в работе Де Во и Тиноко В 1962 r. (De Уое, Tinoco, 1962). Результат этой работы казался в ту пор:.' HeMHoro неожиданным.Наибольший вклад в стабильность спирали давали не водородные связи, соединяющие комплементарные основания, блаrодаря KO торым и образуется двойная спираль, а вандерваальсовы силы, действу ющие в стопке между основаниями. Впоследствии во мноrих работах более точно оценивались стэкинrвзаимодействия (Pul1man, 1968), но общий BЫ вод о преимущественном значении этих сил оставался неизменным. Из всех работ следовал еще один существенный вывод о том, что для оценки CTa бильности спирали достаточно учесть взаимодействия только между бли жайшими Основаниями  так называемая модель ближайших соседей. Этс заключение сделало реальным возможность экспериментально оценить Tep модинамические параметры, характеризующие стабильность спирали. Термодинамика образования спиралей исследовалась с помощью оптичес ких и калориметрических методов (см.,например,Кантор, illиммел, 1984). К сожалению, определение энтальпии и энтропии чувствительно к тому, Ka ким способом проводились измерения. Различия MorYT достиrать 50 ккат';моль. Однако различия в величинах свободной энерrии, определенной разными способами, значительно меньше, возможно, блаrодаря тому, что расхождения энтальпии и энтропии компенсируют друr друrа. Так, напри мер, из результатов, представленных в работе (Borer et a1., 1974), видно, что для олиrонуклеотида A 7 U 7 величины свободной энерrии образо вания спирали, полученные разными методами в интервале от 25 до 50 , отличаются не более чем на 1 ккал/моль. Определение термодинамических параметров . Определение термодинами ческих параметров обычно проводится из данных по плавлению олиrонукле ОТИДОВ. Анализ кривых плавления коротких двуспиральных фраrментов поз воляет получить термодинамические характеристики в зависимости от пос ледовательности оснований. При помощи дисперсии оптическоrо вращения (используются также друrие спектроскопические методы, а также протон ный маrнитный резонанс) можно получить кривые зависимости поrлощения при изменении температуры. Сравнивая кривые поrлощения OДHO и двуспи 192 
ральнЫХ олиrонуклеотидов, можно определить f  долю ний.Из этой величины можно получить Кс  константу зования двуспиральноrо фраrмента (Borer et al.,1974) спаренных OCHOBa равновесия обра Кс 2f (102C rде С  общая концентрация олиrонуклеотидных нитей. Это уравнение описывает ситуацию, коrда в растворе находятся одина ковые молекулы РНК с комплементарными участками в цепи. Изменение стандартной свободной энерrии при образовании спиральноrо участка в этом случае равно БGО  RTm1nC, rде Тт  температура, при которой f1/2. Из уравнения Вантrоффа можно определить энтальпию этоrо процесса: БНО R d(ln С ) d О/Т т ) Таким образом, из данных по плавлению РНК, построив кривые зависи мости 1/Т т и 1nC, можно получить полный набор термодинамических пара метров  свободную энерrию, энтальпию и энтропию образования спирали. Инициация образования спиралей. Обязательн условием при образова нии первой инициирующей пары спирали является образование петли. Раз личные типы петель представлены на рис.6.1. Термодинамика образования петель была подробно исследована в работе (Uh1enbeck et al., 197З;Grа11а, Crothers, 1973). Стандартную энтальпию процесса образования петли  НО можно вывести из уравнения Вантrоффа: Н О  4RTm2 ии/ Т ) , rде f п  доля петель в системе; Тт  температура, Стандартная свободная энерrия равна О при Тт и, стандартная энтропия образования петли равна при которой fno,5. следовательно, 5°  SOH/Tm' Свободная энерrия образования петли  это фактически свободная энер rия инициации спирали. На этапе инициации цепь сворачивается сама на себя, сближая комплементарные основания таким образом, чтобы между ними моrла возникнуть водородная связь. Это приводит К образованию 193 
петли. Фиксирование оснований, скрепляющих шпильку,приводит к YMeHЬ шению энтропии и тем самым к увеличению свободной энерrии пели. Свободную энерrию инициации  Gи можно представить в виде G"RT.1n рп ' rде рп  вероятность образования петли из n неспаренных оснований. Инициация спирали не зависит ни от величины спирали и последова тельности нуклеотидов в ней (что в общем очевидно), ни от Toro, KaKoro типа пара AU или GC является инициирующей. Величина рп зависит от числа оснований в петле, с уменьшением n образование петли становится более вероятным. При больших n менее вероятна встреча комплементарных оснований. В оптимальном случае в петлешпильке находятся 7 8 OCHOBa ний, при дальнейшем уменьшении петли становятся значительньи стери ческие препятствия. Анализ на пространственных моделях показал, что в полирибонуклеотидах невозможно образование петли с двумя основаниями, однако в боковой петле может находится даже одно основание. Термодинамические параметры для расчета свободой энерrии вторично  структуры. Среди первых исследований, в которых оцениваются термодина мические параМетры, отметим работу 1971 r.(Tinoco et a1.,1971),a среди последних  работу 1986 r.(Freier et al.,1986). Причина столь долrоrо и кропотливоrо анализа термодинамических параметров заключается в сле дующем: для Toro чтобы иметь полный набор параметров, описывающих все возможные вторичные структуры, в руках исследователей должны быть об разцы этих вторичных структур. Отметим, что даже в рамках модели бли жaйillих соседей число таких вариантов весьма значительно, поскольку оно включает не только все возможные сочеания пар оснований в спирали, учет различных петель, но и анализ допустимых в структуре РНК дефектов  внутренних и выпуклых петель. В работе (Sa1ser, 1977) были рассмотрены мноrие варианты образова ния вторичной структуры. Полученные величины свободной энерrии до пос леднеrо времени были основными параметрами, на которых основывались расчеты по предсказаниям вторичных структур РНК. Однако недостаточное число экспериментальных данных не позволило получить полностью соrла сованные дрyr с друrом величины и их использование в ряде случаев Mor ло привести к неудовлетворительным результатам. Так, например, при ис пользовании этих параметров не всеrда удавалось получить структуру ти па "клеверный лист" для тРНК. Не удавалось также соrласовать рассчиты ваемую вторичную структуру 5S рРНК с хорошо установленными эксперимен тальными данными. Поэтому Нинио с соавт. (Papanico1au et a1.,1984) предпринял попытку подоrнать параметры Сэлсера для расчета этих молекул. Подrонка была сделана с помощью метода "проб и ошибок". Сравнение параметров, полу ченных таким не совсем корректным образом, с величинами, выведенными 194 
:з экспериментальных данных, подтвердило вывод о том, что параметры :элсера не описывают большое число структурных особенностей вторичной :труктуры. Необходимо было дополнительно ввести ряд эмпирически pacc итанных параметров. Только в последние rоды в связи с успехами в синтезе олиrонуклео идов появилась возможность детально рассмотреть все структурные зозможности молекулы РНК. В работе (Freier et a1.,1986) на основании 1Нализа термодинамических данных для 45 олиrонуклеотидов были pac читаны, как пишут сами авторы, "улучшенные" параметры, описывающие Jрактически все возможности вторичной структуры. Они пришли на CMe y так называемым параметрам Сэлсера. Для специалистов весьма убеди ельно выrлядит сравнение этих параметров, которые провели сами ис :ледователи. Для 142 нуклеотидных последовательностей тРНК были пред :казаны С помощью метода, предложенноrо в работе (Zuker, Stieg1er, 981), вторичные структуры. При использовании улучшенных параметров в 121. случаев были рассчитаны структуры типа "клеверный лист", в то зремя как с параметрами Сэлсера только в 621. случаев были предсказаны Jодобные структуры. Таблица 6.1 Изменение свободной энерrии при образовании различных типов петель Число Внутренняя Боковая Пет ля нуклеотидов петля петля шпилька в петле 1  +3,3  2 +0,8 +5,2  3 +1,3 +6,0 +7,4 4 +1,7 +6,7 +5,9 5 +2,1 +7,4 +4,4 6 +2,5 +8,2 +4,3 7 +2,6 +9,1 +4,1 8 +2,8 +10,0 +4,1 9 +3,1 +10,5 +4,2 10 +3,6 +11,0 +4,3 12 +4,4 +11,8 +4,9 Jезультаты эспериментальных исследований, в которых оценивалась ;вооодная энерrия при образовании различных типов петель, приведены в абл. 6.1. Из результатов экспериментальных исследований следует, что свобод ая энерrия формирования петли не зависит от последовательности нукле JТИДОВ в петле, а определяется числом, образующих петлю нуклеотидов. В табл. 6.2 приведены параметры, с помощью которых можно рассчитать :вободную энерrию спирали. Термодинамические параметры вычислены при эмпературе 37. Образование спирали энерrетически выrодный процесс, 1. естественно, все величины отрицательные. Расчет про изводится сле ующим образом. Предположим, что в процессе формирования спирали к 195 
крайней паре, нуклеотидов (А  на 5' конце цепи, U  на З' конце в таб лице обозначается ) (см. второй ряд) добавляется пара  (см. 12й столбец), тоrда свободная энерrия спирали изменяется на величину 1,7 ккал/моль. Очевидно, что наиболее стабильной оказывается спираль, coc тоящая из GC пар, но расчет стэкинr взаимодействий показал, что наи больший вклад в свободную энерrию (3,4 ккал/моль) будет в том случае, коrда эти пары расположены в спирали асимметрично, а именно следующим образом: :======= . Друrая взаимная ориентация этих оснований дает значительно меньший вклад в свободную энерrию. Таблица 6.2 Изменение свободной энерrии при добавлении комплементарной пары в спирали 5' А А А А U U U U G G G G С С С С 3' А U G С А U G С А U G С А U G С А:А О 0,1 О О 0,8 О О О О О О 1,9 О О 1,1 О I A:U 0.8 0.9 1 1 0,9 0,8 0,7 0,8 0,8 0,5 1 1,7 0,7 0,7 2,1 0,7[ A:G О 1.1 О О 1 О О О О О О 1,9 О О 1,б О I А:С О 0,7 О О 0,7 О О О О О О 1 О О 1,1 О ! U:A 1 1,1 1,1 0,8 0,9 0,5 0,5 О,б 1,1 0,7 1,2 1,8 0,7 0,5 2,3 I О,б l U:U О 0,5 О О 0,8 О О О О О О 1,2 О О 0,7 О i U:G О 0,7 О О 0,5 О 0,5 О О О,б О 1,5 О О 1,3 О U:C О 0,5 О О 0,7 О О О О О О 0,8 О О 0,5 О I I G:A О 1,1 О О 1 О О О О О О 1,9 О О 1,3 О l G:U О 0,5 О О 0,7 О 0,5 О О 0,5 О 1,5 О О 1,9 ol G:G О 1,2 О О 1 О О О О О О 1,9 О О 1,4 О G:C 1,1 2,3 1,3 1,3 2,1 0,7 1,9 0,8 1,б 1,3 1,4 2,9 1,1 0,5 3,4 О,б С:А О 0,8 О О 1 О О О О О О 2 О О 1,3 О C:U О О,б О О 0,8 О О О О О О 1,5 О О 0,8 О C:G 1,9 1,8 1,9 2 1,7 1,2 1,5 1,5 1,9 1,5 1,9 2 1 0,8 2,9 1,1 С:С О О,б О О 0,7 О О О О О О 1,1 О О О,б О к приведенным параметрам необходимо добавить также величины CBO бодной энерrии, которые учитывают вклад свободных "хвостов" полимер ной цепи. В работе (Freier et a1.,1984) было тщательно проанализиро вано влияние неспаренных свободных концевых нуклеотидов. Оказалось, что свободная энерrия в очень значительной степени зависит от после довательности крайних нуклеотидов. Наличие практически всех термоди 196 
намических параметров различных элементов вторичной структуры ляет вычислить свободную энерrию. После Toro, как были рассмотрены структурные условия, а термодинамические параметры образования и распада спиральных ков, можно при с тупить К анализу методов образования вторичной туры РНК. позво также участ CTPYK 6.3. OCHOBНЬ Алrоритмы для IIPЕДСКАЗАНИЯ ВТОРИЧНЬ СТРУКТУР Комбинаторные M TOДЫ. Первые, кто сыrрали в "иrру тРНК" были Дж. Фреско, Б.Олбертс и П.Доти ( Fresco et a1., 1960). В 1960 r. они опубликовали работу, в которой исследовали проблему определения BTO ричной структуры по первичной псследовательности. Они сформулировали ее как задачу нахождения конфиrурации с максимальным для данной после довательности числом спаренных оснований. Выводы в этой работе носили качественный характер, так как способ нахождения подобной структуры не был найден авторами. Через пять лет, коrда в работе Холли была расшифрована нуклеотидная последовательность молекулы тРНК, принцип максимальноrо числа нуклео тидных пар был опробован на реальной последовательности. Оказалось, что природа в качестве вторичной структуры тРНК выбрала конфиrурацию "клеверноrо листа". Впоследствии мноrочисленные расчеты различных pac шифрованных тРНК показали, что эта структура является общей для всех молекул. В 1974r. удалось с помощью peHTreHocTpYKTypHoro анализа подт вердить справедливость выбора этой структуры для тРНК. Тем caмь было показано, что критерий комплементарности обладает предсказательной си лой. Однако простой подсчет максимальноrо числа спаренных оснований для выбора вторичной структуры не всеrда приводил к правильным результатам даже в случае некоторых тРНК. Для более длинных молекул, например 5S рибосомальной РНК, число возможных пар резко возрастало, что очень затрудняло выбор оптимальной структуры. При этом было сомнительно, что полученные структуры с максимальным числом нуклеотидных пар отвечают действительности, поскольку они не соответствовали биолоrическим свой ствам этой молекулы (Lewis, Doty, 1970). Очевидно, что простой подсчет Уотсон  Криковских пар является формальным критерием и не может OTpa жать реальной картины, про исходящей при формировании вторичной CTPYK туры. Поэтому на следующем этапе исследования вторичной структуры РНК в качестве критерия стали использовать свободную энерrию. Оценка свободной энерrии вторичной структуры заставила подробно проанализировать все возможные структурные элементы (рис.6.1). Ранее, при подсчете комплементарных нуклеотидов фактически анализировались только двуспиральные участки. Однако при опенке свободной энерrии в Ka 197 
чес тв е дестабилизирующих слаrаемых должны входить также величины CBO бодной энерrии одно цепочечных фраrментов: петли, внутренние и боковые петли. В работе Тиноко с соавт. (Tinoco et a1.,1971) впервые были исполь зованы термодинамические параметры для подсчета свободной энерrиv. структуры. Для спиральноrо участка были приведены две величины: БGАё  изменение свободной энерrии спирали  при добавлении Aи пары равно 1,2 ккал/моль и БGGС  соответственно при добавлении GC пары равно 2,4 ккал/моль. Изменение свободной энерrии при инициации спирали или при образовании петли имеет вид БG=2,3RТ[Вl,5 10g(m+1)], ['де В параметр,отражающий тип петли, в которой находится m оснований. Общая формула для свободной энерrии структуры при 25 БG=l,2 NAU2,4 NGc+C, rде С=5,9+2,О 10g(m+1) для петли и для внутренней петли или С=4,l+2,О 10g(m+1) для боковой петли; NAU и NGC  число Aи и GC пар в структуре соотвественно. Предполаrается, что число нуклеотидов в петле m должно быть больше 3, так как хотя петля с тремя основаниями по стерическим соображениям уже может существовать, но энерrетическv. она невыrодна. Исследовался небольшой фраrмент из 55 оснований рибосомальной РНК R17. По существу осуществлялся перебор всех комплементарных пар на этой последовательности, из которых формировались всевозможные спира ли. В этой работе впервые подробно анализировались дефекты спиральных участков различные типы петель  и обсуждались их стерические и энерrетические характеристики. Для выбора наилучшеrо варианта исполь зовался термодинамический критерий, который отражает существо процес сов, происходящих при формировании вторичной структуры. Дальнейшим развитием этоrо подхода можно считать работу ( Pipas, McMahon, 1975), в которой анализировались последовательности 62 тРНК. Алrоритм расчета состоял из трех этапов: 1) определения всех возможных потенциальных спиралей; 2) анализа совместимости спиралей и формирова ния из них всевозможных вторичных структур; 3) подсчета свободной энерrии и выбор энерrетически наиболее выrодных структур. Длина анали зируемой последовательности составляла около 8 оснований, а число структур, которые надо было перебрать, достиrало в ряде случаев 13 000 вариантов. Расчет свободной энерrии осуществлялся аналоrично методике, разработанной в работе (Tinoco et a1., 1971), однако величины парамет ров были частично модифицированы с учетом результатов термодинамичес КИХ исследований, проведенных в работах (Uh1enbeck et a1.,1973;Gral1a, 198 
Crothers, 1973; Borer et a1., 1974). Результаты расчетов выявили Heco вершенство термодинамических параметров, поскольку из 62 рассмотренных ТРНК только в 32 случаях наиболее энерrетически выrодньи оказались структуры типа "клеверный лист". В работе (Studnicka et a1.,1978) rромоздкость переборноrо метода была HeMHoro облеrчена. Авторам удалось снизить время пере бора до Be личины, пропорциональной N', rде N  число нуклеотидов в последова тельности. Алrоритм был успешно опробован для предсказания вторичной структуры 5S РНК. К переборным методам можно отнести и работу (Миронов и др.,1984), в которой поиск всех вторичных структур основан на обходе дерева возмож ных структур (рис.6.4). Предположим, что на последовательности можно сформировать пять спиралей (рис.6.4,а). Совместимость спиралей друr с 4 2 2 4 1 2 3 4 5 1   + + + 2   + +  3 + +  + + 4 + + + +  5 +  +   а  ..................... ................ ............. 1 1 5 3 3 5 б в 02345  З 4 5 1 З!IJ5 З!IJ5  А з 4 3 5 I 3  y r Рис. 6.4. Поиск всех возможных вторичных структур а  взаимное расположение потенциальных спиралей на последователь ности РНК; б  матрица совместимости; в  дерево возможных структур и ero обход; r  максимальные структуры друrом отражена в матрице (рис.6.4,б). Элемент матрицы m ij равен 1, если iй нуклеотид комплементарен jMY и равен О в противном случае. Дерево структур строится следующим образом. На первом этапе построения дерева считаются допустимыми все спирали (рис.6.4,в). Из матрицы COB местимости видно, что спираль 1 несовместима со спиралью II. Поэтому возможны структуры, либо содержащие спираль 1 и не содержащие спираль 11 (переход вправо), либо не содержащие спираль I (переход влево). Pac смотрим для примера правую ветвь дерева, Т.е. примем на втором этапе спираль 1 и все совместимые с ней (I,III,IV,V). Здесь спираль IV He совместима со спиралью У, Т.е. возможны варианты (I,III,IV) и (I,III, У). Эти совокупности спиралей представляют собой структуры В и С с максимально возможным числом спиралей (рис.6.4,r). Аналоrично просмат 199 
риваются остальные ветви дерева. Затем подсчитывают свободную энерrию всех полученных структур. Разнообразие вторичных структур для одной молекулы достаточно вели ко. Число возможных структур, например рибосомной 5S РНК, может дости ['ать 3000, но большинство из них имеет пренебрежимо малую веРОЯТНОСТl. существования. Поэтому целесообразно определить не все возможные,  только наиболее вероятные структуры, так как именно среди них должны Lодержаться биолоrически активные. В соответствии с этим в работе был получен ансамбль вторичных структур, в котором представлены все воз-- можные структуры с вероятностями Pi' отвечающими распределению Боль цмана: РiZеХР(БGi/RТ). ['де б(;i  своGодная знерrия iй структуры, а Z  нормировочный MHO житель. Однако издоженные комбинаторные методы, в которых осуществляется пере бор всех возможных структур, оказались недостаточно эффективны и не получили широкоrо распространения. Развитие методов анализа нуклео тидных последовательностей привело к тому, что увеличились длины pac шифрованных последовательностей и соответственно резко возросло ЧИСJ альтернативных структур. Пропорционально этому увеличилось и время, требуемое для расчетов. Однако неразумность использования переборноrо подхода связана скорее Bcero не с этим обстоятельством. Дело в том, что при анализе всех вариантов вторичных структур нет возможности, так сказать, руководить этим процессом, например на KaKOMTO этапе забра ковывать явно невыrодную структуру и не доводить процесс ее формирова ния до конца. Поскольку очевидно, что невыrодным будет подавляющее число структур, то отсюда понятно, насколько неэффективен метод пере бора. Поиски выхода из зтоrо затруднения привели к идее использования метода динамическоrо проrРlмирования, которая оказалось исключительнс плодотворна. Индуктивные методы. Индуктивный, или рекурсивный, подход наиболее широко распространен для предсказания вторичных структур РНК. Как пра вило, для зтой цели используют метод динамическоrо проrраммирования. Впервые зтот алrоритм для рпределения вторичной структуры РНК по HYK леотидной последовательности был использован В.r.Туманяном с соавт. (Туманян и др.,1966). Продемонстрируем возможности метода на примере небольшой нуклеотид ной последовательности (рис. 6.5). Запишем все возможные комплементар ные пары в виде треуrольной таблицы. Элемент таблицы a jJ , стоящий на пересечении iro столбца и jй строки, равен 1, если iй нуклеотид комплементарен jMY, и равен О, если соответствующие основания не KOM плементарны. Нетрудно доrадаться, что если через единички можно про 200 
вести диаrональ из левоrо нижнеrо уrла в правый верхний, то на после довательности может образоваься СОQтретствующая спираль. В данном случае видно, что существует только oдa диаrональ из единичек и пос ледовательность как бы складывается пополам и lй нуклеотид образует пару с 10M нуклеотидом, 2й нуклеО1'ИД с 9M И Т. д. Следовательно, на данной последоватеЛЬЕОСТИ мс.жно ПОСТрОИ'l''о спираль из пяти спаренных оснований. Это число можно найти, построив втuрую треуrольную таблицу. элементы которой Ь'! находятся по следующему правилу: b'J bi+t,j., +1, если а,) l тах (ai,j,t; b,+t,j)' если a'J  [). Можно доказать методом !t.атематческой индукции, что построенный таким образом Mci'j ричный ЭJJt.'мент J i; pabeh-iИСJij пар в МCiк';ИМ!:\.1ьнс1i [E Д.f:)ше спирали, построенной на участке последовательности от iro до jro нуклеотида. Заполнение этой таблицы начинается с первых номеров ПО"Л8" довательности. 1 2 3 4 5 6 7 8 9 10 А U U  с G С А А U 1 А О 2 U 1 О 1 3 U 1 О О 1 G 4 G О О О О 1 О О 5 С О О О 1 О 111 1 6 G О О О О 1 О 111 1 1 7 С О О О 1 О 1 О 22221 1 8 А О 1 1 О О О !J О 3 3 3 2 1 1 О 9 А О 1 1 О О О О О U 4 4 3 2 1 1 О О 10 U 1 О О О О О О 1 1 О 5 4 3 2 1 1 1 1 1 a ij b ij Рис. 6.5. Нуклеотидная последовательность и маТРИЦh возможных комп лементарных пар Таки,'V\ образом, можно Rы6рать :!3. данной последовательности наиболее длинную спираль. На основе одношпилечноrо алоритма можно найти конфи rурацИIC с дзумя и более спиралями. В результате можно получить CTPYK туру, состоящт иэ самых длинных спиралей. В последующих работах, аналоrично тому, как развивалась применени€ комбинаторных методов, подсчет нуклеотидных пар был заменен расчетом свободной энерrии. Нуссинов и Якобсон (Nussinov, Jacobson, 1980) раз работали быстрый алrоритм для предсказания вторичной структуры РНК с наименьшей свободной энерrией. Поскольку эта работа получила широкую известность и породила целый ряд исследований, рассмотрю ее более подробно. 7 Заказ S" 432"1 201 
Идею IIодхода леrче представить на задаче, в которой определяется структура с наибольшим числом спаренных оснований. Представим нуклео тидную последовательность ы 1 п n в вдде окружности, а возможные компле ментарные пары  дуrами между соответствующими нуклеотидами (рис. 6.6). Выберем на окружности отрезок bjb j длиной р и определим макси ь k I / (/ (//1 V bl '--------..... / Ь] iJ n Рис. 6.6. Jредставление вторичной структуры j на окружности мы:ьное число пар на этом отрезке. Точка разбиения отрезка k пробеrает все нуклеотидЬJ ОТ о i ДО Ь j  l' :i3 каждой 'l'o'.J:Ke проверяется возможность образования комплементарной нары b.b j и подсчитывается их число на фраrментах Ь ; b'1 и b.+ibjl' После Toro, как все точки k будут про верены, выбирается максимальная величина нуклеотидF.ЫХ пар и записыва ется в матрицу комплементарных пар Mj,j' Еси b j не может образовать пару ни с одним нуклеотидом k на фраrменте Ь! Ь j' то М!, j M; , j  l' YBe личивая соответственно значения i и j,МОЖНО проверить все возможные отрезки длиной р на последовательностя Ь'Ь п ' На следующем этапе повто рим аналоrично всю процедуру на отрезке длиной р+1 и Т.д. Следователь но, для кат.Lоr интезаЛа b ij Mi,j шах {Mi,.I+M'+I,jI+1, Mi,j)' i ( k <ji + р . Поскольку выбор дуrи ij происходит с последовательньw увеличением длины р, то величины Mi,'I' M'+I,j1 и Mi,j1 уже определены и эле мент матрицы Mj,j может быть леrко подсчитан. На последнем этапе pac считывается величина М1,п' Т.е. определяется, какое максимальное коли чество комплементарных пар может быть образовано на всей последова тельности. Для Toro, чтобы получить соответствующую максимальную структуру, строится вторая n n матрица К. В элементе матрицы K!,j содержится номер основания Ь. с наибольшим числом возможных НУКлеотидных пар на интервале b ij . Для образования структуры сначала рассмотрим величину Kj,n' В ней записано число k  номер нуклеотида Ь., который, образуя 202 
пару с нуклеотидом Ь п ' приводит К наилучшему сворачиванию всей после довательности. Образование этой пары делит последовательность на две части. Теперь для каждой из них анализируем матрицу К и повторяем про цедуру оптимальноrо сворачивания. Разбивая последовательность на все более маленькие фраrменты, получим в результате структуру с максималь ным числом пар. Алrоритм поиска структуры с минимальной свободной энерrией пост роен аналоrичным индуктивным образом. Анализируются последовательно увеличиваю1еся нуклеотидные фрarменты и определяется минимальная свободная энерrия. Выражение ля матриц М,., может сыт}. переписано следующим образом Ej,j min {Ej,kI"'Ek+I.JI+Ej.k' Е" J)' i < k <jlmin' ['де E i . J  элемент матрицы, в которой записана минимальная энерrия структуры, образованная нуклеотидной последовательностью b,b J ; EJ,k  энерrия пары нуклеоТИДОВ j и k; 1m'n равнс 3, это минимальное число нуклеотидов, которое может находится в петле. В каждом случае энерrия для отрезка b,b J определяется как сумма энерrий, рассчитанных для фраrментов b,bkl' bk+,b J и энерrии самой пары bkb J . Величина наmленьшей энерrии структуры, построенной на OT резке bjb J , записывается в матрицу Mi,J' а позиция b k , при которой по лучена эта величина в матрицу K',J' Такой индуктивный метод позволяет быстро подсчитать энерrv. Построение вторичной структуры с наименьшей свободной энерrией происходит в обратном порядке  от анализа всей последовательности b l . n К минимально возможнь фраrментам. В итоrе оп ределяется структура с наименьшей свободной энерrией. Время, необходи мое для выбора энерrетически оптимальной структуры, пропорционально п З . К числу наиболее популярных методов предсказания вторичной CTPYKTY ры относится также алrоритм, предложенный Цукером и Стиrлером (Zuker, Stiegler,1981). Идея их индуктивноrо подхода очень проста. Рассматри вается небольшой фраrмент нуклеотидной последовательности. На нем BЫ бирается структура с наименьшей свободной энерrией. На следующем шаrе фраrмент увеличивается на один нуклеотид.При анализе возможных вторич ных структур предполаrается, что выбранная на предыдущем этапе CTPYK тура является частью вновь образованной. Поэтому необходимо вычислить энерrию только тех возможных элементов вторичной структуры, которые образуются при элонrации цепи. Затем выбрать минимальную структуру и перейти к следующему этапу. На последнем этапе вычисляется энерrия структуры, сформированной уже всей цепью. На рис.6.7 представлены элементы вторичной структуры, лизируются В этой работе. Выделяются два типа вторичных структуры, в которых концевые нуклеотиды i и j образуют которые aHa структур: 1) комплементар 7* 203 
ную пару между собой; Z) CTpYKTYЫ, в которых нуклеотиды i и j не СВЯ завы друr с друrом. Все варианты структур первоrо '['ипа па казаны на рис. 6. ?, а, б, в. Ь первом случае в структуре присутствует только одна петля типа шпильки. Обозначим энерrию  Е1!. j' Если в СТру!<.туре существует ровно две пет ли, одна петля  е>(,я"аТ':,J1Ы,'J шпилька, а ВТОрUЯ может быть внутреннее или боковой (ри(,. Б.?, 6). 'IОlда ЭЫJрrию такuй структуры E2j, j можно преДС'!'аБИТЬ как ':,умму энерrий ДВух составляющР.х чаC'I'ей структуры Е1 j 1, j l' В этой час'f'И r:pYiCYTc'fByeT 1'UЛЬКО одна пет;,я, замкнутая HYKl1e отидами i 1 и J 1, И эн"::r'JШ остальноЙ 'ШСТ1i  R ЭнерТ'ия структуры E2 j ,j равни' Е2..,"' ?t1..;, .., И. ES1':C'!{,?T\, t"[f13 стру!:\туре Оо.r.ьше двух петеЮJ. "-0 ;;'r:,'"и',':\ мсжно r:pf;)!' :'aBV']' ,,;е,!{ :'УМ:Л'j энер!'ий двух частей СТРУК',УРЫ \j)}ic.6.r,;;): Е\"  Ei+l,!1 + Eil+1,jl' Аналоrично рассматривается: и F'l'OPO"f\ ЫЧ.IИ6f!Т, F !(О'Т':,ром К;:'"",f)Бые НУI,Лf,ОТИДЫ НА об разуют п:;"ру ДРУI' со ДРУIОМ. Минималыйч СБос;сщная энерrия: ИРУRТУРЫ рассчитывается. используя ПОЛУЧ6нные подобным uбразом реккурентные формулы. )g I O J () o . ' 1 j f   / , / Hl/H в ) J а 6 Рис. 6.7. Типы вторичных структур РНК. Вторичные структуры, в KOTO рой концевые нуклеотиды i и j образуют пару дру!' с друrом а  в структуре прису,;,ствует только одна петля; б в структуре присутствуюr две петли; в  общий случай: в структуре присутствуют больше двух петель В последние ['оды метод динамическоrо проrрамирования очень широко применялся для предсказания вторичных структур PhК. Повидимому, наи более интенсивно ИСПОЛЬЗ0вались рассмотренные нами алrоритмы, получен ные в работах (Nussinov, Jacobson, 1980; Zuker, Stiegler, 1981),Позже оба эти алrоритма неоднократно модифицировались. Якобсон и Зукер.объе динившись дру, с друrом (Jacobson, Good et al., 1984), сумели в 4 раза уменьшить требуемый объем памяти, необходимый для расчетов по проrрю ме Зукера и Стиrлера. В свою очередь в друrой работе Нуссинов с соавт. (Соmау, Nussinov et a1., 1984) значительно улучшили алrоритм расчета, предложенный ею ранее совместно с Якобсон,  скорость счета при этом для последовательности, содержащей 1000 нуклеотиДОВ. возросла на два порядка. При использовании метода динамическоrо проrрирования не зависимо от Toro, какой конкретно алrоритм применяется, на каждом шаrе вы6ира ется сдна структура. В результате с помощью этоrо метода можно полу 204 
чить только одну единственную вторичную структуру с минимальной CBO бодной энерrией. Естественно, что корректность этих предсказаний зави сит от точности определения термодинамических параметров. Однако в эк спериментальных работах указывается, что точность определения парамет ров для спиральных областей не превышает O,2O,5 ккал, а для петель и для друrих неспиральных областей оценка параметров еще Оолее rрубая  12 ккал (Sa1ser, 1977). Кроме этоrо, термодинамические параметры рассчитыв@отся дЛЯ KOHK ретной температуры (обычно 37 ) и cTporo определенных условий, имеется в виду, например, ионная сила раствора. Изменения условий должны при вести к изменению вторичной структуры. Однако метод ДИНillлическоrо проrрюирования не позроляет выявить возможные cTpYKrYPHe модифика ции. Он очень жестко связан с параметрами. Поэтому нет никакой YBepeH НОСТИ R ТОМ" ч'-rо, дэ.же \r;JIИ .?JСЧ1' П[1')нзведе.н ::E(KY:C,'''Y-':'J, ;р::;}.1" -''+t,:п{3J'; структура действительно cooTBeTcTBye'j' структуре с минимальноЙ CЬO('\O:  ной энерrией. Есть еще более важное соображение, которое застаВ,1Яf:'Т бьп'L неулоl' летворенным методом динамическоrо проrраммирования для поиска вторич ных структур РЕК. В ряде работ было показано, что биоло:,ическое значе, ние MorYT иметь альтернативные неравновесные структуры. Так, аЛьтерна тивные структуры MorYT быть важны для объяснения механизма транслящш (Go1d, et a1., 1981), стабильности мРНК (von Gabin et a1.,1983), aTTe нюации (Ko1ter, Yanofsky, 1982). Поэтому возникла потребность в разработке алrоритма, позволяющеr h предсказывать несколько близких по знерf'ИЯМ структур. В работе (W i 11 iams, Ti посо, 1986) был разработан модифицированный ал:'ори'I'IЛ, ь котором используются идеи динамическоrо проrраммирования, раЗВИ'vЫЕ; Пукером и Стиrлером. В результате расчета можно получить не только oд ну единственную оптимальную структуру. но и определить ряд субопти мальных вторичных структур. Кин.:rически п одхо Для предсказания вторичной с:труктуры РНК (:ылс предложено еще несколько ориrинальных алrоритмов, которые можно услов но объединить под названием кинетический подход. На наш Е3Т'ЛЯД. этот подход является наиболее перспективньм. Идея ero заключается в модели ровании на ЭВМ процесс а формирования вторичной структуры ?IL. В наиболее че1'КОМ виде таt;ой подход' был впервые использован 1IжО;:ЩЕ, ном (Jordan, 1972). Он фактически разыrрывал на ЭВМ процесс ООрdзсва' ния спиральных участков. С помощью метода MOHTeKapLC HQ послеLОВ& тельности выбираются две случайные точки. Е-сли они MorYT О()рЬ'з())jctП комплементарную пару, то проr'раММа "старается" дорастить СК(jЛЫ, Воз можно спиральный участок в обе стороны от стартовой паDЫ. Если спи ральный участок в этом месте возможен, ТО ОЕ фиксируетсн. ::'.lTeM ВЫ6И раются две друrие случайные точки и процедvра повторяется дО Т6Х пор. пока на последовательности остается возможнсть образовать комплмен 205 
тарные пары. Такой расчет проводится несколько раз и в результате мож но выбрать структуру с наибольшим числом пар. В работе Мартинеца (Martinez, 1984) предлаrается рассматривать про цесс образования вторичной структуры как последовательное добавление спиральных участков. Правило, которым при этом пользуются. является очень простым: к структуре надо добавить спираль, которая имеет наи большую константу равновесия  К равк  exp( oGi/RT), ['де oG i  изме нение стандартной свободной энерrии структуры при присоединении к ней iй спирали. Практически реализация этоrо алrоритма происходит следующим обра зом. Предварительно рассчитываются все возможные спирали, которые MO ,ут образоваться на данной последовательности. Затем на ЭВМ начинают моделировать образование вторичной структуры. Предположим, что на He котором этапе уже сформировалась часть вторичной структуры. На следую щем шarе для всех полностью тополоrически совместимых с этой CTPYKTY рой спиралей рассчитываются константы равновесия. Выбор спирали, KOTO рая добавляется к структуре, происходит с помощью метода МонтеКарло, при этом вероятность выбора пропорциональна константе равновесия. Про цесс самосборки молекулы РНК MHoroKpaTHo повторяют, и в результате по лучается наиболее вероятная структура. Такой подход к предсказанию оптимальной вторичной структуры предс тавляется нам очень перспективным и требующим CBoero развития. К сожа лению, эта работа не свободна от недостатков. Отметим два из них, Ka сающихся правила добавления спиралей к структуре. Автор полаrает, что только спирали, представленные на рис. 6.2,а, имеют право на COBMeCT ное существование. Однако в разделе "Условия совместимости спиралей" уже подробно обсуждалось более широкое определение тополоrической COB местимости и доказывалась необходимость рассматривать и частично COB местимые спирали. Кроме Toro, отметим, что при анализе образования структуры неправильно рассматривать только полностью или частично COB местимые спирали, необходимо учитывать все потенциальные спирали. На первый взrляд кажется,ЧТО возможность добавления к структуре только совместимых спиралей является очевиднь. Однако это оrраничение списка спиралей сильно уменьшает число вариантов образования структуры. Дейс твительно, чтобы добавить несовместимую спираль, необходимо разрушить некоторые уже существующие спиральные участки. Однако, возможно, что необходимая для этоrо затрата энерrии будет компенсироваться выиrрышем энерrии при появлении новой, более выrодной спирали в структуре. Второе возражение,касающееся выбора констант присоединения спиралей к структуре,более существенное. Процесс образования вторичной структуры можно описать обратимыми реакциями: S + h  Sh, ['де S структура, а h  спираль, которую добавляют к структуре. Используя константу paBHOBe сия. автор как будто хотел учесть обратимость этой реакции. Но утверж дение, будто выражение К равк S h описывает результирующую скорость 206 
процесса является абсолютно неправильным ни с кинетической, ни с Tep Модинамической точки зрения. В этой работе была сделана попытка рассчитать равновесную структу-- ру. Однако во мноrих исследованиях, в которых анализировался процесс самоорrанизации, было показано, что время структурных перестроек может достиrать очень большой величины. Позтому не всеrда ансамбль вторичных структур, существующих in vivo, можно считать равновесным. В связи с этим представляет интерес задача поиска кинетическоrо ансамбля вторич ных структур РНК  совокупности вторичных структур, вероятность обра зования которых зависит от времени. Для решения этой проблемы необхо дима внимательно про анализировать условия, а также кинетические KOHC танты образования спиральноrо участка во вторичной структуре. Все эти вопросы будут подробно рассмотрены ниже (см. "Определение кинетическо ['о ансамбля вторичных структур РНК"). Ферментативные и филоrе т ические методы п редс казания. Несколько особняком стоят работы, которые можно отнести к ферментативным и фило rенетическим методам предсказания вторичной структуры. Суть этоrо под хода заключается в том, что из анализа экспериментов по взаимодействию ферментов с молекулой РНК пытаются определить места расположения спи ральных участков в структуре. Для предсказания структуры используют также данные для тех же молекул, но в друrих орrанизмах. При этом предполаrается, что одинаковые РЕК из разных орrанизмов должны иметь схожую структуру. Разумеется анализ экспериментальных данных является обязательным при любом подходе. Беда только в том, что в подавляющем большинстве случаев у исследователя нет таких данных. В работе (Woese et a1., 1980) приведена вторичная структура 16S ри босомальной РНК, полученная, как пишут авторы, при помощи филоrенети ческих, ферментативных и химических доказательств. Эта молекула оказа лась очень удобным объектом, поскольку для нее имеется большое число экспериментальных данных. Ход анализа следующий. Сначала рассчитывают ся все возможные спиральные участки, которые MorYT быть сформированы на всей 1542 нуклеотидной последовательности. Таких спиралей, содержа щих более четырех пар нуклеотидов, оказалось около 10 000. Последова тельно, начиная с 5' конца, рассматривают возможность появления данной спирали в структуре и сопоставляют получающийся при этом фраrмент структуры с биохимическими данными. К примеру, возможность химической модификации нуклеотида свидетельствует, что данный нуклеотид скорее Bcero не находится в спиральном участке. Аналоrично анализируются дaH ные по местам взаимодействия с ферментами. Оrраничения, которые возни кают Изза экспериментальных данных, резко сужают число возможных СПИ ралей и перебор всех допустимых спиралей становится вполне разрешимой задачей. Затем сравнивают вторичные структуры 16S РНК из E.coli и B.brevis, а также из друrих орrанизмов. В результате была получена вторичная структура, состоящая из примерно 50 спиральных участков. 207 
Филоrенетический подход лежал в основе предсказания вторичной структуры 18S рРНК рибосом эукариот (Манькин и др.,1981). За основу взяли модель 16S рРНК E.co1i, предложенную в только что рассмотренной нами работе. При построении модели авторы исходили из Toro, что моле кулы рРНК одноrо класса, выполняя одни те ЖА функции в разных орrаниз мах, должны быть сходно ор;'анизованы, несмотря на различия в их пер зичных структурах. Анализ вторичной структуры РНК с помощью ферментативных методов ис Gледования проводился также в работе (Kramer, Mi11s, 1981), в которой исследовалось образование вторичной структуры РНК MDVl во время ее синтеза. При этом анализировалась вторичная структура, которая возни кает в процесс е роста, при различной длине цепи. Как видим. если исхо дить из стратеп!и поиска структуры, то эту работу можно с полным OCHO зэ.:{;,t'М (jTH,:H! у методу, который мы условно наззЭ,ли юшетическим. Oд наке. R данном случае критерием отбора служили биохимические данные. OparMeHTbl РНК различной длины были разделены с помощью электрофоре за, .i затем зЬ!делены из rеля. Каждый фраrмент был обработан нуклеазой Т1, которая специфична к однотжевому участку. Анализ этой реакции ПОЗЕоляет локализовать спиральные участки. Очень интересные наблюдения об изменении структуры были сделаны во время роста цепи. Было показа но, что процесс образования структуры сопровождается как образованием, так и разрушением Сl!иралей. Появление новых спиралей может привести к разрушению старых, если они не MorYT совместно сосуществовать по CTe рическим соображuruям. Авторы сделали вывод, что структура находится в состоянии динамическоr'о равновесия. Устойчивая при одной длине цепи струк'Т'ура при реете цепи разрушаАТСЯ и образуется друrая вторичная структура. Более '1'0['0 р Э'сой работе эксперzментально доказывается, что процесс формирования может идти разными ПУТЯ\1И. Так, во время роста цепи наря ду с оптимальной может существовать структура менее энерrетически BЫ rодная. Авторы, пытаясь объяснить этот факт, предполаrают. что CKO рОС'Т'Ь полимеризации значи'rельно выше скорости структурных перестроек и структуры не успевают перестроится. Все эти результаты представляются нам чрезвычайно важными для понимания процессов образования вторичной структуры и для объяснения биолоrических функций РНК. 5.4. ОПРЕДЕУНИЕ КИНЕТИЧЕскоrо АНСАМБЛЯ ВТОРИЧНЫХ СТРУКТУР РНК QQQg;'!QgлИ'р ЬН 'у :iaС.1:.КОВ.! Проведенный в разделе "Условия совместимости спиралей" анализ тополо!'ических условий взаимноrо распо ложения спиралей в структуре позволяет рассмотреть процесс образования спиральных участков. Этот процесс условно можно представить в виде трех последовательных этапов (рис.6.8). 208 
1. Подrотовка к образованию HOBoro спиральноrо фраrмента. Сразу OT метим, что если новая спираль тополоrически совместима полностью или частично со всеми существующими в структуре спиралями, то этот этап отсутствует. В противном случае для инициации спирали требуется полныt или частичный распад фраrментов вторичной структуры. Предпололим, что для образования спирали III требуется разрушить спираль II (рис.6.8). Кинетическая константа Кр определяется временем ожидания спонтанноrо распада спирали. Энерrетические затраты для этоrо процесса в основном зависят от внутренней энерrией мешающих участков, 2. Инициация спирали. На этом этапе существенным является образова ние первой пары спирали. Необходимым условием для этоrо является COOT ветствующее расположение комплементарных оснований. Кинетическая KOHC танта К Н определяется временем, за которое нуклеотиды подойдут друr к друrу и образуют комплементарную пару. Вероятность этоrо события зави сит в основном от энтропийноrо вклада в свободную энерrию цепи.Энер rия, необходимая для осуществления первых двух этапов, определяют BЫ соту энерrетическоrо барьера процесса образования спирали. 3. Рост новой спирали. Наличие инициирующей пары  аналоrично цeHT ру кристаллизации при образовании кристалла, приводит к спонтанному формированию комплементарных пар. Кинетическая константа К п может дoc тиrать очень большой величины, порядка 10610. (Forshke, 1974). Рост и замыкание спирали можно сравнить с быстрым застеиванием молнии, пос кольку все основания соответствующим образом сориентированы для обра зования комплементарных ap. Рис. 6.9. Различныр- условия инициа ции образования спирали II а  для инициации требуется пслное разрушение спирали I; б  свободное образование инициирущей пары A 2 D 2 ; в для инициации требуется разрушить часть комплементарных пар; r  спи раль A 2 B 2 C 2 D 2 образоваться не может /' ,).) / /\ \ ,м/ \ \ 1, /)! \\ ti,  <ЩII! Е Рис. 6.8. Изменение энерrии  и этапы опраЗОRЫIИЯ С'пиrа.И в C'Tl':,"'(Type @   'Z8 D, С, 8 С  C, А, , ' , BI С. J.  1'1 , · D АI. U А. D. , /' i · 8, 8, 8,  8, / А, б4 51 11 5' 3' 1, 51 54 А, б' З' а б в r 209 
На рис.6.9 проиллюстрированы несколько вариантов образования новой спирали А,В,С,D,.При тополоrической несовместимости (рис. 6.9,а) Tpe буется полный распад всей спирали A,B,C,D,. При этом энерrетический барьер определяется энерrией распада сhирали и энерrией инициации HO вой спирали. При взаимной ориентации спиралей, показанной на рис. 6.9,б, инициация происходит свободно, а затем при помощи скользящей петли образуется динамический комплекс спиралей.Энерrия, необходимая для образования спирали, определяется энерrией, требующейся для воз никновения инициирующейся пары, например A,D,. В случае, представ ленном на рис.6.9,в, инициирующая пара не может образовываться свобод но. Однако в отличие от варианта на рис.6.9,а здесь не требуется пол Horo разрушения мешающей спирали, достаточно разрушить только две KOM плементарные пары с нуклеотидами А,А,. Это условие должно COOTBeT ствено отразиться на расчете барьера перехода. Заметим, что если в cy ществующем в структуре спиральном участке уже присутствует скользящая боковая петля,ТО ее перемещение может привести к тому, что число раз рушаемых пар станет минимальным. И, наконец, на рис.6.9,r представлена ситуация, коrда образование спирали невозможно. Здесь новая спираль как бы вложена в уже существующую. Даже если произойдет инициация, xo тя это маловероятно, старая спираль вытеснит ее из структуры. Определение зффективных кинетических констант образования и распада спиралей. Kдoe изменение структуры, Т.е. образование или разрушение спиральноrо участка является, как видно из сказанноrо выше, MHorocTa дийным процессом. На рис.6.8 были показаны некоторые промежуточные стадии при образованиv. новой спирали, каждая из которых характеризует ся своей кинетической константой. Однако при анализе перехода в новое состояние структуры целесообразно использовать эффективную кинетичес кую констчту  К. Вопрос о корректном определении эффективной кинети ческой константы подробно анализировался в работе (Миронов, Кистер, 1988).Суть анализа заключается в следующем. Предположим, что исследу ется переход из А в В.Допустим также, что у этой реакции высокий знер rетический барьер и начальные концентрации А и В равны соответственно 1 и 0.( Эти условия соответствуют, например, процессу образования HO вой спирали.) Поскольку кинетическая константа прямой реакции мала, то мал и поток из А в В. Обратный поток определяется в данном случае KOH центрацией В и, следовательно, тоже мал. Таким образом, суwарный по ток этой реакции равен примерно О, а отсюда следует, что реакция Haxo дится почти в равновесии и все промежуточные состояния при переходе из А в В тоже находятся в равновесии. Следовательно, эффективная кинети ческая константа Bcero процесса определяется равновесными концентраци ями предпоследних состояний и кинетическими константами последней CTa дии процесса. Исходя из этих рассуждений, можно вывести формулу для эффективной константы скорости распада спирали. Константа равновесия процесса пе 210 
рехода из состояния А в состояние В равна: КАвеХР(БG/RТ), ['де БG  изменение свободной энерrии при распаде спирали. Рассмотрим, что пред ставляет собой эти два состояния. Состояние А характеризует целую спи раль. В случае распавшейся спирали состояние В означает, что во всех комплементарных парах разрушены водородные связи. Изменение энерrии, которое происходит при этом переходе равно БGспирапи.Действительно, именно это значение требуется, чтобы разрушить все комплементарные связи в спирале. Таким образом, величина константы распада зависит только от энерrии спирали. Аналоrичный вывод был сделан и в работе (Anshe1evich et a1.,1984). Можно показать (Миронов, из N комплементарных пар, спирали равна Кистер,1988) , эффективная что для спирали, состоящей константа скорости распада КраспадNkпехр( БGспирапи/RТ), (6.1 ) ['де k п  константа скорости образования одной нуклеотидной пары. Как видно, константа распада зависит только от особенностей самой спирали и не зависит от Toro, в какой структуре эта спираль существует. Рассмотрим теперь, как изменится свободная энерrия структуры при образовании спирали. Появление HOBoro двуспиральноrо участка приводит к появлению соответствующей петли. Кроме Toro, как уже rоворилось, для образования спиралей бывает необходимо разрушить мешающие спиральные участки. СледоватеЛЬНО,изменение свободной энарrии структуры можно представить как сумму трех слаrаемых: изменений свободных энерrий при образовании собственно спиральноrо участка  БGспирапи' при появлении петель БGпетепь' а также при разрушении мешающих участков БGразруwеиие: БGструктуры==БGспирапи +БGпетепь БGразруwение. Как видно, зта величина зависит как от образующейся спирали, так и от Toro, в какой структуре она образуется. Знание величины БGструктуры позволяет рассчитать константу paBHOBe сия этоrо процесса  К: КОбразованнSI К К РаСП 8.да ехр(  БGструктуры/RТ) . Откуда, используя выражение (6.1). леrко получить эффективную KOHCTaH ту образования спирали: КОбразоааии. N*kпехр( (БGпетепь +БGразруwеиие )/RT). (6.2) 211 
Таким образом. вероятность образования спирали в структуре не зави сит от Toro какая эта спираль, важно только, в какой структуре она об разуется. Это можно интерпретировать слеДУЮЩJ образом. Время обраЗОRа ния спирали лимитируется процесс ом инициации. В предыдущем разделе уже указывалось, что инициация включает в себя подrотовительную стадию разрушение в случае необходимости спиральных фраrментов и образование первой комплементарной Пf\рЫ. Вероятность образования этой пары опреде ляется вероятностью встречи комплементарных нуклеотидов, что в свою очередь зависит от конформации пРтли, 06еспечи:еаюшей локализа.цию нукле отидов. Эта величина дает основной вклад в энтропию, а стало быть, и в свободную энерrию петель. Множитель N отражает тот факт, что инициация спирали может про изойти в любой из N потенциаЛhНЫХ нуклеотидных пар. После образования инициирующей пары, Э'1'О!'О "центра кристаллизации". Формирование Bcero сrтиральноrо уча(;ТJ. З8висящеrо от k n , rrрсисхотf'1' очень быстро. Как уже указывCiЛОСЬ, величина этой константы равна 10. . 08c. Q СНОJ ЩЭ-!!. ,!де5!!ШДХQДа". После Toro как бы.liИ рассмотрены структурные условия, а также термоьинамические параметры образования и распада спиральных участков. можно приступить К исследованию кинетики обра.зо вания rторичной структуры РНК (Миронов и др., '984; Mironov,Kist,er. 1986). Процесс образов8.НЮ, !;тсричной СТРУК1УРЫ можно представить сле дующим 06ра: 1 ОМ. В каждый данный момент времени состояние вторичной структуры можно описа1'Ь длиной :!Олинуклеотидной цепи и набором образо вавшихся 'rополоrически совместимых друr с друrом спиральных участков. Тоrда существуют две возможности для изменения состояния молекулы: BO первых, инициация и образование новой спирали и, BOBTOpЫX, удлинение цепи на один нуклеотид (распад спирали можно не рассматривать как С.'3.юстоятельную стадию, так как при э']'с1м увеличивается свободная энер rия). Образовачие спирали. как уже птмечалось, предстаВЛЯGТ собой сложнЬiЙ мноrостадийный процесс, для описания KOToporo необходимо pa.c считать эффеКТИВНУIО константу образования. Последовательность стадий эонrации цепи и образования спиралей и представляет собой процесс об рзования вторичной структуры. Задача состоит в том, чтобы наиболее 8лекватно описать этот процесс. Представv ПРОL"СС самооранизации вторичной структуры РНК в виде цепи Марком. В кэчест)",(; соrтояний системы будем Dассматрива1'}. различ ные состояния молекулы. Переходы из onHoro состояния молекулы в друrое соответствуют переходам в цепи Маркова. Переходные версятности опреле ЛЯЮ1СЯ соответствующими кинетическюли контантами. Таким образом, мож но рассчитать последовательность структурных перестроек.Для исследова ния же кинетики образования воричной структуры необходимо включить в рассмотрение время. CHaKO реальное время каждоrо перехода зависит не только от соответствующей кинетической константы, но и от множества друrих факторов. Например, от времени ожидания спонтанноrо распада Me 212 
шающей спирали. Поэтому предполаrается, ЧТО время перехода является случайной величиной. ПОСКОjffiКУ в построенной марковекой цепи переходы ОQЛRДают свойства ми: тационарноrти (в кадый момент времени вероятность перехода не зависит от наЧRла отсч,"та времени), ординарности (в каждый момент Bpe мени возможна только одна rюрестройка) и независимости от ИСТОРИИ (Be роятнось перехода зависит только от ткущеrо состояния системы и не зависит от Toro, каким образом образовалось это состояние), то врем>; перехода  случайная величина t, распределенная по закону Пуассона: f(t)  kiexp(k,t), (6.3) ['де f( t)  плотность вероятности; k,  ю:нетическая константа i 'ro пе pxaдв.. Теперь, KorlIa Оf1реде.r.ены :::остояния и вероятности переходов, MapKOB СУ.ИЙ: процесс пере':;троек RТОРИctной с !'рук!'уры полностью 'Jпределен. TaKO ва общая идея подхода. М!::QJ2...Л.2еliс;\(а:;1В;1J'i?.ТОРJlЧН911 CTPYKTY.Rbl На перво!.! этапе необхо димо определить те киупичики, ilЭ которых будет построена структура, Т.е. выявить все возможные спиральные фраrенты. Здесь СрQЗУ возникает вопрос, ,<то является КРИТ8?i1ем существования TaKoro фраrмента? Можно ли оrраничиться минимальной длиной, напри.мер три пары оснований в спи. рале? Повидимому, разумно использовать энерrетический критерий и OT бирать спирали, стабильность которых выше заранее заданной величины. Воспользуемся для этоrо таКЮА критерием, как время жизни спирали. Cy ществует отличная от нуля вероятность. что спонтанно раскроются после довательно все основания спирали. Среднее время этоrо процесса назовем 'временем распада спирали  t пас" Из формулы (6. 1) это время оценива' ется величиной t,  1/1\ 1/Nk эх р ( '.ОС ел " ра lH /;J.T) р8СП р&пад n д   О'С ДЛА КtiЖоrо случая Варьируя величину t pacn ' можно ВЬНJрать неа хо).;,иr-, е чuсло анализируемых спиралей. При выборе числа потенциальных спиралей можно иредположиrь, TO оп ределяющую роль в процессе формирования СТРУ!<:ТУРЫ иrра1(JТ ,;''а':;:1льные спирали, время жизни которых на порядок или больше превосходит анали зируемый интервал времени. Эти спирали создают как бы каркас CTPYKTY ры, а леrкоразруШаемые сирали достраивают структуру. Образование и распад этих слабых спиралей может происходить очень часто и быстро. Они подстраиваются к каркасу, и их вклад в свободную энерrию не ЯЕЛЯ ется решающим. Чтобы учесть это обстоятельство. целесообразно в Map ковском процессе рассматривать только относительно стабильные и проч ные спирали, а затем к полученной вторично::! структуре добqвить то:1оло rически совмеСТЮАые спирали. 213 
При анализе совместимости спиралей указывалось, что частично COB местимые спирали MorYT плавно перетекать одна в друrую. Эти соображе ния позволили интерпретировать процесс формирования вторичной CTPYKTY ры как исключительно динамичный, в течение KOToporo невозможно Bыдe лить статическую картину расположения спиралей. Все эти, вместе взя тые, соображения при водят к мысли о том, что реально не существует постоянная и неизменная структура, а есть некий остов из пр очных спи ралей, к которым пристраиваются мелкие спирали. Быстрые образования и разрушения этих спиралей, а также перетекания спиралей создают впечат ления, что молекулы "дышат". Повидимому, эти быстрые изменения BTO ричной структуры позволяют молекуле РНК более rибко выполнять свои би олоrические функции. Рассмотрим теперь моделирование MapKoBcKoro процесса структурных перестроек.Для этой цели используется метод МонтеКарло. Предположим, что предварительно рассчитано, что число потенциальных спиралей равно N. Пусть на некотором этапе процесса образована структура из m спиралей {S.'...,Sm}. Из этоrо состояния возможны следующие переходы: или образование одной из оставшихся спиралей Sm+I'...'SN или, если по линуклеоТИДНая цепь еще не полностью синтезирована, удлинение ее на один нуклеотид. Константа скорости роста цепи по некоторым имеющимся данзым зависит от последовательности ДИК, с которой идет транскрипция. Однако обычно при расчетах эта величина принимается постоянной и paB ной 3050 CI. Кинетические константы образования для оставшихся спи ралей рассчитываются соrласно формуле (6.2).После этоrо находим эффек тивную константу скорости перехода kkl' Номер перехода, Т.е. номер образующейся спирали i, определяем, моделируя реализацию r случайной величины, равномерно распределенной на интервале [O,k] из условия I  1  k, < r < 1=' I  k.. ,= . Затем осуществляем соответствующий переход  образование iй спирали или удлинение цепи. Время перехода определяем также, пользуясь методом МонтеКарло. Mo делирум случайную величину t, распределенную по закону Пуассона (6.3) с параiетром k. Реализация t этой случайной величины определяет время перехода. Затем счетчик реальноrо времени увеличиваем на t с и перехо дим к следующему этапу уже с новым состоянием. Процесс прекращается по достижении aдaHHoro значения времени. Для получения распределения Be роятностей марковский процесс структурных перестроек необходимо повто рить достаточно большое число раз (М). Точность распределения'вероят ностей можно оценить величиной 1/ М. Достаточно хорошую качественную картину можно получить при M100 (точность 107.).Для более точных oцe нок можно использовать M1000 (точность З7.). 214 
Существенное отличие предложенноrо алrоритма от рассмотренных ВЬПlIе кинетических методов заключается в том, что анализируется время каждо ro перехода. Использование вероятностных методов для выбора реальноrо времени позволяет проанализироватъ кинетику процесса.В результате pac считывается кинетический ансамбль вторичных структур, статистические веса которых зависят от времени. 6.5. РЕЗУЛЬТАТЫ ПРЕДСКАЗАНИЯ КИНЕТИЧЕскоrо АНСАМБЛЯ ВТОРИЧР СТРУКТУР РНК Анализ кинетики формирования ВТQI)ИЧНО !!,н CTPY Y.R.bl ...тРНК. Наиболее удобным объектом для проверки методов предсказания ЕТОРИЧНЫХ структур РНК являются транспортные РНК, вторичные структуры которых хорошо из вестны и экспериментально подтверждены. Рассмотрим для примера ПрОU8СС образования вторичной структуры предшественника TPRR A1a ИЗ ВоmЬ1Х mori в проuессе транскрипции. Молекула предшественника состоит из 98 нукле А Э' G"uu исс UAG В ссе ССАС С: 6' CUU'GCCCCCUA CCUC"CAt: "'С ССАс. С 6' GUUGCGGGCGU" CCUCAGA. U 3'  с  .СС'" U U СС СС с С .О с с AUC З' cc" G "АС G сисе u 6' C;UUCC'CCC(;UA АСА  е<А . U U U се с с с с .О с с с'СС'Аисс;' GCGA,UA" u О ,. УАСС Gcue с: иССА с А АСА . U 3.... G сссссссис: $' СС. . U "с е" СС се с G "и иА U ,.." с с Аи G С GGGCC ССАС 'с А у",ссссс С с u А сисес", А u С с СС t С F  се . U 'О / С 8' '6' сс. . U U U се  Е AU G GCCC"UGC А с с с 'САС Аис С А исс"УАСС ссие u се",'" АсА G С ССС У G U ci с с С с 3' CA UUсБ' f' L \,.. ... '.15 ,. .. Б' .. 1.2& . О, с б а Рис. 6.10. Кинетический ансамбль вторичных структур преtРНК из ВоmЬух mory а  формирование вторичной структуры в процессе роста цепи; б распределение вероятности по кинетическому ансамблю. Кривая L показы вает рост полинуклеотидной цепи в зависимости от времени отидов. В работе (Garber, Gage, 1979) экспериментально был исследован процесс синтеза и процессинrа молекулы РНК и поэтому есть возможность сравнить теоретические и экспериментальные результаты. Расчет показал (рис.6.10), что через О,6 с после начала транскрип 215 
ции цепь состояла из 28 нуклеотидов, которые образовали вторичную структуру А, состоящую из одной спирали 1. Эта спираль соответствует те  стеблю зрелой тРНК. Как видно из рис. 6.1С,О, эта структура  единственная возможная при данной длине РНК. Примерно через 1,5 с цепь увеличилась до 50 нуклеоидов. В этот МО' мент времени наиболее BepQjj'""HO образование юзу'/. структур Б и е (веро- ятности 0.36 и 0,24 соответственно ), причем С7руктура С содержит спи- раль с антикодо'новой петлей. Хотя структура В более вероятна, но этот путь процессинrа олазался тупиковый. Из рис. (6.10,б) видно, что веро- ятность образования этой структуры резко уБЫБает. Спираль Il распада- ется и образуется спираль 1 I 1, т. е. происхо,i.,ИТ переход к С'l'руктуре С. К этой структуре по мере роста цепи может ДОС1'рОИТЬСЯ спираль V и об- разуется трехспиральнq структура D. Длина цепи дости,ает 80 нуклеотидор пrимернс через 2 с после начал" Сl!нтеза. Появилась ВОЗМОЖНОСТЬ образоваться спирали lV. Таким образом, формируется структура Е, коrда к структуре D пристраиьается спираль IV. Возможен также друrой путь процессинrа  непосредственно из струк- туры С формируется структура F, соотвеТСТВУICщая канонической структуре "клеверноrо" листа. Однако к ЭТО1.1У MOMЫiТY времени вероятность образо- вания структуры F очень мала (0,12) и уступает вероятности образования СТРУКТУРЫ Е (0,18). ПОВИДflМUМУ, этот прямой путь формzрования вторич- ной структуры тРНК не является основным. Должны произойти значительные структурные перестройки, чтобы эта Наиболее энерrетически выrодная структура стала преобладающей. Заметим, что в это время существует дo ВОЛЬНО большое количество структур, маловероятных и поэтому не указан ных на рис. 6.10. Через 2,5 с вероятность структуры F значительно увеличивается. Этс связано с тем, что структура Е оказалось неустойчивой, так как спираль IV имеет сравнительно малое время жизни (О,7с) и при ее распаде BO::J можно образование существенно более стабильной спирали VI (время жизни 10 6 с). К концу paCCMoTpeHHoro интервала времени, через 3 с, вероят ность образования структуры F достиrла значения 0,58, значительно преВЫСИБ все остальные структуры. Какие выводы следуют из анализа кинетики образования вторичной структуры этой молекулы? Повидимому, основной вывод заключается в том, что молекула может начать выполнять свои биолоrические функции не ранее чем через приблизительно 2,5 с после начала синтеза. До этоrо времени верОЯТНОС1;Ь образования структуры типа "клеверный лист" слиш- ком мала. При ЭТОм путь образования этой структуры оказался, так ска- зать, непрямым, в различные моменты времени боле предпочтительными оказались друrие структуры. Еще одно важное заключение  синтез допол- нительноrо 3' концевоrо участка молекулы предшественика не приводит к образованию новой вторичной структуры и доминирующее значение структу- ры F остается. 216 
f"нализ В J:!l! ШIИЯ В1:Q1JЯ'!!LЩL.c:.Yт>LМP НК на ЭфКТИВ]I ..QСТl@!! СЛJ'!  ции. Приведем еще один пример использования кинетическоrо подхода для предсказания вторичной структуры РНК. Были рассчитаны вторичные CTpYK туры мРНК ряда рекомбинатных плазМИД, содержащие reHbl cro белка (Iserentant, fiers, 1980). Выбор объекта объясняется тем. что экспрес сия 'reHa в этих плазмидах очень сильно зависит от нуклеотидной после довательности нетранслируемой 5' части мРНК. Поскольку инициация TpaH сляции включает взаимодействие 30S рибосомы с 5'областью перед ['еном, то было предположено, что вторичная структура этой части РНК определя ет возможность контакта с рибосомой и влияет на частоту инициации трансляции. Рассмотрим более подробно участок РНК, включающий SD последователь ность и стартовый кодон AUG у двух плазмид, наиболее сильно отличаю щихся дру, от друrа экспрессией ['ена cro. На рис. 6.11.а изображен участок РНК плазмиды с наиОолее высокой экспрессией cro ['ена. Действи S D б' ,.............-I <  С А IПIIА 11 1 а Рис. 6.11.Фраrменты наиболее вероятных вторичных CTPYKTSP РНК двух плазмид, несущих ['ен cro белка, на последоватеЛD ности выделены SD участок и б стартовый кодон AUG а  вторичная структура фраrмента MPНК, обеспечива ющей высокую экспрессию ['ена cro; б,в  вторичная CTPYK тура фраrментов MPHK, обеспе 1 3!) 1 I  ] ; низкую экспрессию (C:4  C--U4НJ-..AA--<:A\ ( AcиAcи J V I " е': ' З' S D 6'  ' !  ... С--UА--<НJ---I.-{}--<rUUG--U'А'U---G з,1 . U--<:--<:--<:A...u---A--<: 1'1 I1 ! в тельно, во всех рассчитанных вторичных структурах кодон AUG всеrда Ha ходится в петле и открыт для взаимодействия. Считается, что доступ нооть cTapToBoro триплета более существенна для величины экспрессии, чем место связывания с рибосомой. Большая часть нуклеотидов SD после довательности также открыта, только два послених нуклеОТИДа входят в спираль I. Эта спираль практически всеrда присутствует в структуре. Правда, на рисунке указана еще одна спираль II, расположенная в центре последовательности SD, но это очень слабая спираль (время жизни 102c) и она частично совмещена со спиралью I. Можно предположить, что спи раль I будет формироваться полностью, вытесняя спираль II, тоrда oc тавшиеся две пары AU и CC не будут стабильны и распадутся. Следсва 217 
тельнс, сольшук часть времени функпиональные участки узнавания и свя зывания с рибосомой будут доступны. На рис. 6.11,6 у. 6.11,в представлены аналоrичные участки РНК друrой плазмиды, для которой синтез cro белка имеет самую маленькую величину. Из расчетоз следует, что  вероятностью 7080% будут образовываться структуры со спиралями I, II и III. Как видно, большая часть SD после довательнссти находится в спиральном состоянии.Нуклеотиды AUG CTapTO Boro кодона также образую спираль I. и в этсй ситуации взаимодействие с рибосомой вряд ли возможно. Однако трансляпия, хотя и Б незначитель ной степени, все же происходит. Возможно, это объясняется тем, что спирали 1 и II чзсично совместимы. Это означает в данном случае, что почти все нуУ.леот;n:ы, за ИСI\ЛJсченzеJ.\ крайней GC пары, MorYT образс-- вать друrие комплементарные пары, относящиеся к спирале II. Этот без барьерный переход приведет фа;<Т:lческУ. У. вытеснению спирали I и к осво  бождению нуклеотzдов cTapToBoro кодона. На рис 6.11, в приведены фраr менты структур мРНК этой же плазмиды. Вероятность их образования 10  15%. При этом также возможны взаимные переходы спиралей. Однако из ри сунка ВИДНО, что перестройка спиралей IV и V не меняют картины и функ циональнью участки остаются практически недоступны для рибосомы. Из результатов анализа вторичных структур РНК ВИДНО, что при помощи машинно:,о эксперимента можно объяснить fl rлавное предсказать величину экспрессии, а также друrие биолоrические свойства Pb. 6.6. ЗАКЛЮЧЕНИЕ Методы предсказания вторичных структур РНК получают большое pacr ространение в молекулярной биолоrии и rенной инженерии. Анализ вторич ных структур позволяет объяснить мноrие биолоrические явления.Первона чально при определении структуры подсчитывалось число Уотсон  Криков ских пар и выбиралась 'Ьтруктура с наибольшим числом спаренных OCHOBa ний. Позже с появлением термодинамических параметров, характеризующих вклад в свободную энерrию различных комплементарных пар, а также OДHO цепочечных участков  петель, появилась возможность выбрать в качестве критерия свободную энерrию, причем на новом этапе снова были использо ваны те же подходы  перебор, методы динамическоrо проrрирования и кинетический алrоритм. В качестве метода отбора оптимальной структуры в подавляющем боль шинстве случаев используется метод динамическоrо проrрирования. Это позволяет перебрать в обозримое машинное время orpoMHoe число вариан тов и выбрать одну оптимальную структуру. Недостатком этоrо подхода является то обстоятельство, что рассчитанная единственная структура может только на доли килокалорий отличаться от худших, которые будут 218 
отброшены р процессе отбора. Понятно, что при неточном знании термоди намических параметров выбор энерrетически наиболее оптимальной CTPYK туры может оказаться ошибочным. Эти соображения заставили значительно изменить этот алrоритм и в результате появилась возможность получать не только оптимальную, но и структуры, близкие к ней по значению. МноrО'.,lсленные экспериментальные наблю"ения за процессом образова ния вторичной структуры показали, что молекула РНК в процессе caмoop rанизации может принимать различные формы, причем эти вторичные CTPYK туры формируются С различной вероятностью. На возможность образования различных структур для биолоrических молекул и соответственно сущест вование различных биолоrических функций у этих молекул указал еще 1975 r. Том (Thom, 1975). Он назвал такие структуры рэзонансньи. Эти сооб ражения подсказывают, что для объяснения биолоrических функций РНК цe лесообразно анализировать процесс образования молекулы. В ряде работ делались попытки TaKoro подхода. Однако ко всем этим методам можно высказать замечание принципиаль Horo характера. Дело в том, что в этих работах пытаются предсказать равновесную зторичную структуру. В то же время анализ процесса образо вания пространственной структуры заставляет усомниться в целесообраз ности такой постановки задачи. Дело в том, что спиральные участки Ha чинают образовываться сразу по мере синтеза РНК. Рост цепи приводит к всевозможным CTPYKTYPHЬ перестройкам  спирали разрушаются и образу ются новые. Этот процесс не прекращается сразу и с окончанием роста цепи. Трудно предположить, что сразу возникнет оптимальный набор спи ралей. Время релаксации к равновесию определяется характерными BpeMe нами структурных пере строек, которые в свою очередь определяются Bpe менами распада спиралей. Это время для спиралей с большим числом GC пар (например, 810 пар) может достиrать 10 6 с. Поэтому структура РНК может очень долrо релаксировать, скатываясь к своему минимуму. Вот TYTTO И возникает вопрос, так ли необходимо предсказывать равновесную структуру,может быть, время ее образования превышает время жизни моле кулы РНК. Это, конечно, предельный случай, но возможность Toro, что молекула РНК функционирует тоrда, коrда еще не образовалась paBHOBec ная вторичная структура, вполне допустима. Напомним, что, исследуя вопрос, в каких условиях среды может происходить самоорrанизация, Э.Шрединrер писал в своей знаменитой книrе (illрединrер,1972): Живая материя избеrает прихода к равновесию". Все сказанное заставило искать друrой подход к проблеме предсказа ния вторичной структуры РНК. Повидимому, необходимо рассчитывать Ha бор структур оптимальных в каждый данный момент времени. Тем caмь мы приходим к задаче не поиска равновесной структуры, а к анализу caмoro процесса, Т.е. к исследованию кинетики самоорrанизации молекулы РНК. Можно сформулировать эту задачу как определение кинетическоrо ансабля вторичных структур РНК  совокупности вторичных структур, статистичес 219 
кие веса которых зависят от времени. В дальнейшем развитие этоrо MeTO да пойдет по пути 50лее 8декватноrо описания процесса самоорrанизацим вторичной C'PYKTYpы. В заключение упомянем еше одну проблему, которая ЖДет CBoero реше ния. Речь идет о задаче взаимдействия двух молекул РНК. При этом MO жет существовать конкуренция между комплементарными участками в разных цепях. Это 06стоятельство сильно усложняет пр06лему предсказания БТО ричных структур. Однако решение этой задачи поможет 06ъяснить мноrие 6иолоrические процессы. В частности, репликация плазмид в значительной степени реrулируется взаимодействием двух молекул РНК. 
rлава 7. орrАНИЗАЦИЯ ХРАНЕНИЯ МОЛЕкУляРноrЕНЕТИЧЕСКОЙ ИНФОРМАЦИИ В БАЗАХ ДАННЫХ. ПАКЕТЫ ПРИКЛАДНЫХ проrРАММ АНАЛИЗА НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ilель этой rлавы обозначить те вопросы, с которыми столкнется че ловек. который захочет практически приступитъ  работе на ЭВМ с ['e нетическими текстqми. ИСПОТhЗУЯ те преЦСТR'jленчя и !,'етоды, которне были изложены в предыдущих rлавах. Для более полноrо ознакомления с вопросами, которые рассматриваются здесь, рькомендуется обратиться к компьютерным выпускам журнала Nucleic Acids Researr1 (1982. Val. 10, No 1; 1984. Vol. 12, Но 1; 1986. Vo1.14. ;10 1). вып;С'Дшимл ТRу.же OT дельными книrами под редакцией D.So1l, R.J.Robert,s, и кшп'е "Nu,leic acid and protein sequence ana1ysis: а practica1 approach" под pe.п:aK цией M,J.Bishop, C.Rawligs, 1987. Весьма полезным является представление об информационновычисли тельном комплексе как о совокупности иерархически подчиненных ypOB ней, начиная от материаловедения и физики полупроводников до пре метной области конкретной науки. Предмет данной rлавы  отображение предметной области молекулярной биолоrии и rенетики на вычислитель ную среду. 7.1. АППАРАТНОЕ ОБЕСПЕЧЕНИЕ. ТИПЫ ЭВМ. ТИПЫ ВНЕШНИХ НОСИТEJТ.Ей ИНФОРМAilИИ Для эффективной работы с БОЛЬillИМИ массивами м()леКУЛЯОНОI'енети ческой информации необходимы компьютеры. Традиционно выделяется He сколько типов ЭВМ О'ромов,1984): !ЛикроЭВМ. миниЭВМ. большие ЭВi!. cyтrep ЭВМ. Эти типы выделяются по !Лошносrи вычислительных ресурсов ЭВМ. Прежде Bcero они отличаются по объему оперативной памяти. Объем па мяти ЭВМ является не единственной характеристикой, определяющей МОЩ ность машины. Важным параметром является также разрядность и коли чество основных реrистров, разрярность шины, быстродействие и др. Все эти характеристики в реальных ЭВМ взаимосвязаны. Чем больше объ ем памяти, тем больше необходимая разрядность реrистров для эффек тивной работы и Т.д. С развитием вычислительной техники, ее COBep 221 
шенствованием и удешевлением условные rраницы между соседними клас сами ЭВМ смещаются в сторону более высоких значений. Появление персональНbIХ компьютеров придало новый характер про цессу информационновычислительноrо общения исследователей с ЭВМ. Вначале персональные компьютеры были 8разрядными вычислительнЫ1И машинами (например, App1e II), в настоящее время в подавляющем боль шинстве они имеют 16разрядные центральные процессоры. Появились об разцы 32разрядНbIХ персональных ЭВМ, по своей мощности превосходящие миниЭВМ недавнеrо прошлоrо. Для долrовременноrо хранения информации используются внешние HO сители. Основными их типами являются маrнитные диски с емкостью 2Мбайтlrбайт, маrнитные ленты с емкостью 20Мбайтlrбайт, rибкие маrнитные дискеты с емкостью 128Кбайтl,2Мбайт. На персональных компьютерах получили распространение встроенные (не съемные) маrнит ные диски типа "винчестер" с емкостью 5120 Мбайт. Различают внешние устройства прямоrо и поледовательноrо доступа. Накопители, использующие диски и rибкие дискеты, являются устрой ствами прямоrо доступа, т. е. в них возможен непосредственный дoc туп к физической записи с заданным адресом N без необходимости про смотра всех промежуточных записей. В ленточных накопителях, в том числе кассетных, для доступа к записи с адресом N необходимо промо тать ленту с текущеrо положения rоловки до этой записи. Поэтому слу чайный поиск на маrнитной ленте требует MHoro времени. В связи с зтим для доступа к базам данных информация с лент обычно переписыва ется на маrнитные диски. Из числа друrих периферийных устройств следует отметить печатаю щие устройства (принтеры). Наиболее часто используются принтеры с лепестковым шрифтоносителем ("ромашкой") и матричные принтеры, в KO торых отпечаток литеры формируется при помощи иrолочек. Они имеют скорость печати 50300 знаков в 1 мин. При помощи матричных принте ров можно печатать и rрафическую информацию. Для вычерчивания rрафи ков используются rрафопостроители различных типов. 7. 2. МОЛЕКУЛЯРноrЕНЕТИЧЕСКИЕ БАЗЫ дАННЫХ Что такое "база данных"? Базу данных (БД) можно представить ce бе как упорядоченный ,набор данных, записанный на какомлибо носите ле. Данное  это число, лоrическая константа (типа "да" или "нет"), либо фраrмент текста, имеющеrо смысл в данной БД. В реальных БД упо рядоченность может быть самой разнообразной в зависимости от пред метной области. Под выше приведенное определение попадает большой континrент записанных знанИй. Например, текст любой книrи может слу жить примером БД, так как внутри с.;ебя этот текст определенным обра 222 
зом упорядочен. Для чеrо используется БД? Элементарный отве" . для выдачи данноrо. Понятно, что из произвольноrо текста довольно тrуднс извлечь необходимое данное, даже если оно там содержится Б явном БИ де. Дело в том, что художественное или научное сочинеНИF; I<8K ИСТОЧ ник неформализовано инеформатировано. Большую степень упорядоченности представляет собой постзтейны2 текст энциклопедий, справочников. Однако под ЕД обычно интуитивно понимают высоко упорядоченный набор данных так, что можно rоворить о "формате" БД, т. е. о том, какая именно информация i! в каких ШIЮI!НС позициях строки записана на носителе. Часто БД является. набором ОТ-- дельных записей, каждая запись относится } одному объекту реальноrо мира. Иноrда запись (в особенности в библиоrрафических ЕД) назызают вторичным документом в отличие от первичных документ ОБ, в которых описываются реальные объекты. Fазные стороны объектоз ');"!Исываются R разных разделах записи, называемых полями. Записи сопоставляется уникальное для данной БД слово  ее идентификатор. Объекты БД MorYT иметь различные признаки, по которым объекты можно классифицировать тем или иным способом. Ключом (ключевым словом) называется слово (обычно из заранее обусловленноrо словаря), сопоставлеНБое }лассу объектов. Записи можно отыскать в БД по ключу или комбинации ключей. При попытке фиксации знаний (что в первую очередь интересует ис следователей) возникает две проблемы: формализация знаний и их фор матизация. В информатике традиционный путь накопления знаний  coc' тавление фактоrрафических БД. Основные молекулярноrенетические БД. Объектами молекулярноrене тических БД являются нуклеотидные, аминокислотные последовательнос, ти, rенетические карты, ферменты, нуклеотидные зонды и др. В настоя щее время основными молекулярноrенетическими БД (Bi1ofsky et al.. 1986; Hamm, Cameron, 1986; George et a1.. 1986) являются:  EMBL Nuc1eotide Sequence Data L1brary (объем свыше 30 млн нуклео тидов, 1989);  GenВank Genetic Sequence Data Bank (свыше 30 млн нуклеотидов, 1989);  NBRFPIR Protein Sequence Data Base (около 2 млн аминокислотных остатков, 1989). Постепенно пополняется отечественная БД нуклеотидных последователь ностей rенЭкспресс  винити  имr (12 млн нуклеотидов независимо отреферированных последовательностей, 1989). Представление молеку  ярноrенеических данных. Трудность задачи формальноrо представления знаний (имеются в виду области молекуляр ной rенетики и молекулярной биолоrии) состоит в неабсолютной aдeK ватности форм представления знаний в научном языке объектам и явле ниям изучаемой предметной области, поскольку только через язык воз можна фиксация знаний. Кроме Toro, мы стремимся предвидеть и вклю 223 
чить В наши лоrические представления неизвестные (неоткрытые) явле ния. Мы должны смириться либо с необходимостью постоянноrо обновле ния лоrических построений, либо с их неполнотой. В статьях (Lawrence, 1986; Friedland et а1.,1982; Schneider et a1.,1982; Schroeder, B1attner ,1982; Gouy et a1.,1984) описаны Moдe ли представления нуклеотидных последовательностей с точки зрения MO лекулярноrо биолоrа (и соответствующие языки манипулирования дaHHЫ ми). Рассмотрим одну из таких моделей данных, принятую с системе ACNUC (Gouy et a1., 1984). llентральнь понятием является последовател ность  участок ['енома, имеющий одну выделенную функцию. С ним acco циированы следующие понятия: орrанизм  биолоrический вид или TaKCO номическая rруппа любоrо уровня; катеrория  ключевые слова (для них используется сетевая модель); тип  один из следующих девяти типов: первичный транскрипт, зрелая МРНК, белоккодирующий участок, интрон, рРНК, тРНК, мяРНК, последовательность без уникальноrо типа, все дpy rие случаи; автор  авторы публикаций о данной последовательности; ссылка  библиоrрафические ссылки на последовательность; "материн ские поля"  известные непрерывные первичные последовательности. Эти понятия MorYT иметь связанные с ними комментарии. Понятия последова тельность, орrанизм, катеrория, тип, автор являются поисковыми. Лоrическая структура БД нуклеотидны р ледовательностей. БД ЕМВL состоит из отдельных записей, каждая из которых относится к одному участку ['енома или целому ['еному. Для этоrо участка хранится нуклеотидная последовательность вместе с ее формализованным описани ем. Описание последовательности разбито на несколько полей, в KOTO рых описаны различные характеристики данной последовательности. Таблица имен полей и их объяснение дЛЯ БД ЕМВL: ID  идентификатор (уникальное короткое название). АС  номер последовательности. DT  дата ввода или изменения. DE  описание последовательности, включая все продукты, ею кодируемые. KW  список ключевых слов. OS  название орrанизма. HS  классификация орrанизма. ОС  название орrанизмахозяина (для вирусов, фаrов и Т.п. ). НС  классификация орrанизмахозяина. RN,RA,RT,RL  библиоrрафическое описание последовательности. СС  комментарий. FH  заrоловок таблицы особенностей. FT  таблица особенностей, список функциональных сайтов, областей на последовательности, продуктов, кодируемых последовательностью, 224 
модификаций нуклеотидов, список мутаций, разноrласиР. тов. SQ  поле статистики последовательности, за которым помещается сама последовательность. Аналоrичные поля имеются и в друrих БД. В БЛ GenBank вместо таблицы FT испо.'Iьзуется таблица сайтов и таблица особенностеР. В таблице сайтов описываются отдельные сайты или rраниц областей. В ней приводятся координаты сайтов и их размер. В таблиuе особеннос тей отмечаются следующие области на нуклеотидной последовательности: белоккодирующая область, сиrнальный пептид, зрелый пептид, области. кодирующие тРНК и рРНК, мяРНК. Отметим некоторые проблемы создания БД, не безразличные для поль зователя. Информацию дЛЯ БД извлекают из текущеrо потока литературь: или полуuают непосредственно от авторов. Достаточно сеryьеную TPYД ность представляет собой своевременное отслеживание первичных источ ников (статей, книr, патентов и т.д.), имеющих отношение к теме. В существующие БД последовательности поступают с некотароР. задерж кой, иноrда значительной и, кроме Toro, до одной трети всех послео вательностей не имеет описания. Извлечение и формализация информации о последовательностях из первичных источников в настоящее время ведется экспертами. Сущесrву ет две точки зрения на то, кто является лучшим экспертом автор опубликованной последовательности или специально подrотовленный pe дактор БД. С одной отороны, автор лучше Bcero знает свою последова тельность, но с друrой  он субъективен в оценке своих результатов. Для написания реферата недостаточно данных, содержащихея в первичном источнике, необходимо привлечение общенаучных знаний. Экспертам TaK же приходится самостоятельно решать проблему достоверности знания. делать обобщения и выводы и в соответствии с лоrической структурой БД отражать их в реферате. Трудности усуrубляются тем, что обра6аты вать приходится исследовательские и, следовательно, относительно He достоверные, 'неустоявшиеся работы. На этапе ввода информации в ЭВМ к возможным опечаткю в первичном документе добавляются новые, которые лишь частично можно обнаружить и скорректировать с помощью ЭВМ (применением двойноrо ввода, СИН таксическоrо контроля и т.д.). При заrрузке полученноrо вторичноrо документа в БД возникает проблема увязки данной записи с уже имеющи мися в БЛ. В существующих БД значительный объем занимают дубли, воз никающие изза независvоrо или HaMepeHHoro секвенирозания одних и тех же участков ['енома. Например, один и тот же участок ['енама может быть представлен как последовательность reHa и одновременно в друrой записи как кодируемая им РНК. Кроме Toro, имеются близкородственные последовательности, которые MorYT быть представлены как один объект или как разные объекты. вариан 225 
Создатели ЗД решают указанные проблемы различньwи путями, поэто \ту раэныз БД имеют разное качество. Учитывая сказанное, пользовате лям ЕЛ ceдyeT MeTЪ в виду, что они MorYT столкнуться с отчасти He достоверной и ошибочной информацией (см., например, rл.4.3, ['де опи саны про'5лемы создания выборок ну:клеотидных последовательностей). 7.3. IIPЕДСТАВЛЕНИЕ ИНФОРМАЦИИ О НУКЛЕОТИДНЬ ПОСЛЕДОВАТЕЛЬНОСТЯХ ';'ею::товае лре дст  ле1! И. Основной единицей хранения информации на внешних носителях является файл данных. Файл можно определить как лоrически объединенную область внешней памяти, имеющую свое имя. Co вокупнасть файлов образует файловую систему. Определенная область Енешней памяти абычно отводится пад каталоr файловой системы. Если файловая система проста, например при последовательном расположении фаЙЛОЕ на маrнитной ленте, каталоr может отсутствовать. Важным типом файлов на ЭВМ являются текстовые файлы. Это файлы, лаически состоящие из атдельных строк, отделенных признаком конца стро:кл. 3 CTCKX содержатся обычные буквы, цифры и некоторые специ льные символы. Распространена Iсодрозка текстовых файлов в каде ASCI I и EBCDIC. Текстовые файлы являются наиболее стандартизованными файлами, и поэтому они в значительной степени машинонезависимы. При кодировании текстовых файлов общепринятым признаком конца строки является набор из двух кодов CR/LF или в шестнадцатиричном коде ODOA. В текстовом файле MorYT содержаться и друrие коды управления печатью. такие, как переход к новой странице, коды табуляции, однако они не являются об щепринятыми и MorYT различаться для раз.r.ичных систем обработки TeKC та. В п. 7.2 rоворилось о том, что молекулярноrенетические базы дaH ных содержат MHoro описательной текстовой информаци. Кроме Toro, ca ми последовательности также читаются в виде текста. Позтому в целях обеспечения переносимости дистрибутивные (т. е. ['отовые к передачи пользователям) выпуски БД распространяются в текстовом представлении с сохранением разделительных пробелов, отметок текущей длины, HeCMO тря на то, TO значительный объем носителя информации, занятый соб ственно последовательностями, используется нерационально. Для эффек тивной работы БД переписываются маrнитные диски в формате, отличном от TeKcToBoro. ПОСИ11  ольное представление. Нуклеотидные последовательности и подавляющая часть белковых последовательностей являются линейной (неразветвленной) цепочкой мономеров без знаков препинания. Интере сующая исследователя область может находиться в любом месте последо вательности. Для ускорения машинноrо доступа к таким областям удобно 226 
представлять последовательности в виде непрерывной цепочки символов, каждый из которых кодирует один мономер. В такой цепочке отсутствуют пометки, введенные для облеrчеНИfi визуальноrо просмотра последова, тельности или ее функциональной привязки. В наибольшей степени такой модели данных отвечают файлы прямоrс доступа, которые поддерживают ся, повидимому, на всех типах ЭВМ. Поэтому такое представление ши роко используется Б системах обработки rенетической информации. В этом случае надо иметь в виду, что области, например диска, кодирую щие саму последовательность MorYT отрываться от областей, на которых записано описание этой последовательности. Необходимые для визуаль Horo просмотра метки, текущую длину, комментарии и Т.д. вставляют соответствующие проrры обработки. lrpaMMHoe представленv.е. Посимвольное представление также явля ется расточительным, поскольку один мономер кодируется одним бай том (8 бит). Упаковка двух нуклеотидов в один байт применяется в файлах последовательностей Gerank'a, распространяемых на rибких дискетах. Несколько усложняется доступ к отдельному нуклеотиду, но принцип прямоrо доступа здесь сохраняется. Более сложные способы упаковки будут рассмотрены в следующем разделе. Стоит отметить еще один способ представления последовательностей в некоторых системах. В этих системах последовательность нуклеОТИДОБ превращается в последоватеЕЬНОСТЬ перекрывающихся lrp (см.rл.1). Например, Т кодируется О, С  1, А  2, G  3. Тоrда lrp коди руется целым числом в интервале от О до 411, а последовательность нуклеотидов превращается в последовательность целых чисел (рис 7.1). Такое представление используется в некоторых проrрах быстроrо по. иска rомолоrии (Fondrat et &1., 1986). Т С А G А А Т G Т А С 6     Рис. 7.1. 3нуклеотидное кодирование последовательности. В резуль тате кодирования получается пос"едовательность 6,27,46,58,40 ... Сжатие информации. Сжатие (синоним упаковка) представляет собой однозначно декодируемую перекодировку последовательности. Коэффии ентом сжатия К будем называть отношение количества байтов, занимае мых посимвольным представлением, к количеству байтов, занимаемых пе рекодированной, сжатой последовательностью. Таким образом, для по 227 
;:;ИМВОЛЬh()rс I;редставления коэффициент сжатия равен единице. Введем также среДFЮ длину кода: LL diP;. 1 сде d i  длина кода для iй буквы; Pi  вероятность iй буквы. Для информации, ЗaJшсанной оайтами К  8/L. Существует ПJ крайней мере два способа сжатия информации: не ис пользующий и использующий статистические свойства последовательности С:ШЛБОJlОВ. Очевидно, что в первом случае для последовательности с ал Iавитом из четырех символов максюлальное сжатие информации возможнс с коэффициентом 4 (метод 1). Для последовательности, rne допускается 5 символов T,C,A,G,N, коэффициент сжатия не превышает 8/10g25з,445 (метод 2). Выбор ')'I)ro ИЛ! ин')!о метода сжатия 3'3.БИС!Т H только от выи,рышэ. В объеме внешней ПЮIJЯ1И, но и от друrих обстоятельств, а именно зат рат на раскодировку, выиrрыша в длительности считывания информации из Бнешней памяти, обеспечения возможности прюоrо доступа и др. Раскодировка в методе 1 проста на любом языке проrраммирования, в котором имеется возможность работы с отдельными битюи. В ме1'оде 2 6.лт'оритм раскодировки несколько сложнее. МОЖНG закодировать последо вательности, упаковывая lринуклеОlИДЫ в один бат (метод 3), ксэффи циент сжатия равен трем. Раскодировка осуществляется довольно прос то. По этому же принципу можно закодиров8.ТЬ lcpy в m бэйт. ]ри ведем коэффициенты сжатия для пятибуквенноrо алфавита для различных значений m ([] обозначает целую часть числа): m 1 3 2 6 3 10 " 13 ., [ 17 ,") Коэффициент сжатия [ 8m 1 /rп 1 og2 5 J 3 3 3,33 3,25 3,4 m5, 117 коэффициент сжатия близок у Таким образом, в случае предельному. Рассмотрим статистические способы кодирования. В методе 2 каждый из пяти символов кодируется одинаковым количеством бит. При этом редко встречающийся символ N кодируется неэкономно. Справедливо YT верждение (см. Марков, 1982. c.165166), указываюшее предельную вели чину сжатия: средняя длина кода, оптимальноrо в смысле длины L(B',P)H(P)+f(P), сде O<f(P)<l: P{Pi}  распределение вероятностей для букв алфави 228 
та: В.  множество L-ообщений из букв алфавита, удовлеТЕоряющее HeKO торым дополнительным условиям, которые мы здесь не будем указывать; H(P)p,log2P.  шеннононская энтропия. Можно показать. что величи на f(P) с помощью блсчнсrо кодирования может быть сделана сколь уrодно близкой к О. Таким образом, среднюю длину кода можнс сделать сколь уrодно близкой к величине энтропии последовательнссти Е расче те на одну букву. ЗамеТI, что сама величина энтропии зависит от MO дели ;ТОРОJКдения текста (см. "Представлею:е молекулярноrенетических данных" ) . Аю' ,',ритм построения оптимальноrо кода был предложен Хафмачом \ см. Мар!(ов, 19(2). Приведем пример оптимальноrо кода. .судем считать. 1 1 что вероятность появления T,r,A,G равна p  p(H), q вероятность 4 4 появ.rrечи"Я 'J р (N) ( . р < Идея С'"I'1Т;1r:тиче:I,:)lr:) КОlIИРОРЗ.'Ч.ИЯ: СП ":;"""'')]--; :'  Т"'::': что наиболее вероят!'ые символы кодируются коротким KOДOBЫ! словом, редкие  длинным. Закодируем TOO. COl, A10, G110, H111. Можно показать, что Э'Т'::У;- код является однозначно декодируемым. (Обеспече ние однозначной декодируемости является причиной Toro, что одна из букв Т, С. А, G, все равно какая, кодируется тремя битами.) Средняя 1 1 1 1 длина кода 13p(N)+3'2(  p(H))+3(  р(П))  2,25+0,?5p(N) Сит. 4 4 4 4 Коэффициент сжатия в ЭТfJМ случае р8.1зен 3,55. Это еще Ее предел. При кодировании l'rp8JI.Mbl имеется 4' "хороших" lrr:'aMMbl, т. е. не ccдep жащих N, и 514' "плохих" lrpaMMbl, они имеют малую веРОЯТRССТЬ. Пусть вероятность "плохой" 1 rрашлы не превосходит:{, а сумма вероятностей всех "плохих" 1 ;,paмM не превосходит В8РОЯТНО,:ТИ любой из "хороших". 3а:.содируем 4'  1 "ХОРОШИХ" 1 rpaMM 2'1 битами, 1 "xopo шую" lrpaмMY 2k+l битами. R5141 "плохих" lrpRMM 2'1+n битами, ['де n Н8.именьшее число, определяемое из условия 2" > 51 AI. TorJla К можно оценить следующим образом: при lЗ, mах з"ачение K3,98, q5'10'; 14, mах значение K3,99, q7'106. Используется также сжа тие текстовой информации (; ИСПОЛЫЮЗ8.нием СЛОЕарей. Об(;уждение COOT ветствующих методов выходит за рамкй книrи. Таким обраdОМ, как пра вило, информация, хрантцаяся в компьютере, сонсем не похожа на ту, которая записана на ДИСТj:шбутивных носителях. 7. 4. УПР АВЛЕНИЕ БАЗАМИ ДАННЫХ Важнейшим видом матобесечения ЭВМ являются системы управления базами данных (СУБД), т. е. системы для хранения СТРУЮУРИРОВ9.нных данных и доступа к Нl по запросам по;;ьзователя (Кокорева, Малаши' нин, 1984; Дейт, 1980). в настоящее время разработано значительное 229 
число СУБД дЛЯ ЭВМ различных типов, и число их растет. Это связано с тем, что разработчики СУБД стремятся удовлетворить все возрастающие потребности в этих системах. Можно соrласиться с тем, что не сущест вует универсальной СУБД, одинаково приrодной для любых типов данных (или моделей данных), и обычно каждая СУБД, кроме Toro, что она pac считана на определенную модель данных, оптимизируется для относи тельно небольшоrо диапазона значений данных. Это и понятно. Трудно представить себе, что одинаково эффективно в одной и той же СУБД можно хранить, осуществлять доступ и изменять такие данные, как кал ровые данные большоrо предприятия, пространственные модели машиност роительных деталей и первичные последовательности нуклеиновых кис лот. Несравншы и типы запросов, которые предъявляются к этим систе мам. Таким образом, имея в виду перспективы увеличения объемов молеку лярноrенетических БД, мы приходим к выводу о небходимости создания спеиализированной СУБД в особенности для малых машин. Небольшие по объему последовательностей БД можно поставить под управление СУБД общеrо назначения, таких, как dBASEIII или R:5000 на микроЭВМ. Следует иметь в виду, что СУБД обычно не существуют сами по себе, а входят в состав информационнопоисковых систем, интеrрированных пакетов (т. е. пакетов, осуществляющих большую часть стандартных операций над данными), систем интерактивной инженерной rрафики и Т.д. СУБД в них выступает ядром проrраммной части, связывающей БД на внешнем носителе с интерфейсом пользователя (т. е. с теми проrрамма ми, с которыми непосредственно общается пользователь), Остановимся подробнее на функциональной части. Ниже идет список запросов, на которые может ответить.специализированная СУБД. 1. Создание подбазы данных по совокупности явных признакав. Напри мер, создание БД РНК В. subti1is. 2. Поиск по ключу, например по ключу "rлобиновые сены". 3. Внесение новых записей в БД. 4. Создание новых записей путем объединения или расчленения старых. 5. Статистика ключевых слов БД. 6. Создание списка фраrментов открытых рамок трансляции для данносо биолоrическоrо вида, например дик Н. sapiens. 7. Создание подвыборки последовательностей окрестности функциональ ных сайтов, например точек инициации транскрипциии по записям KC' ординат про моторов в таблице особенностей. 8. Статистика БД, например составление таблиц использования кодонов. 9. Сравнение данной последователвности с банком. Перечислим несколько примеров реализации СУБД. 1. ИПС ПОИСК (версия 1.2, ВИНИТИ) (Анев и др.,1982). Позволяет вести БД большоrс объема порядка нескольких сот меrабайт. (Запросы 1,2,5, запросы 3,4 выполняются администратором БД.) 230 
2. Интеrрированная система МВIS (CSIRO, Division of Mo1ecular Fio1ogy, Austra1ia) дЛЯ ЭВМ VAX 11/750 (Bucho1tz, Reisner, 1986). Позволяет одновременно работать с пятью заданными БД и выполнять . запросы 1,2,9. 3. Информационная подсистема DВQUEST системы GENEUS дЛЯ ЭВМ DEC VAX!VМS (Швеция) (Harr et a1.,1986). Запросы 1,2. 4. Поисковая подсистема GENEМAN пакета проrр DNASTAR дЛЯ IBM РС. Запросы i,2,9, имеется возможность широкоrо информационноrо поис ка по полю SQ (см. п.7.8) (Doggett, B1attner,1986). 5. Библиоrрафически ориентированная информационнопоисковая система IS дЛЯ микро ЭВМ "Искра226" (Шепелев и др. ,1986). Позволяет Bec ти БД объемом дО 2М. Способна выполнить запросы 1,2,3,4,5. 7.5. орrАНИ3АЦИЯ ДAНRЬ НА ВНЕШНИХ НОСИТЕЛЯХ. ПЕРЕДА ЧА ДAНRЬ НА ВНЕШНИХ НОСИТЕЛЯХ БД молеку"ярноrенетической информации MorYT передаваться из центров, в которых они создаются, на маrнитных лентах или дисках. Не утратили cBoero значения представления БД в виде отпечатанных типоr рафским способом хниr. Кроме собственно БД в дистрибутивный вариант MorYT включаться различные каталоrи, указатели, облеrчающие исполь зование БП человеком или машиной, nporpbl доступа к БД и Т.д. Соб ственно БП может содержаться в отдельном файле или может быть разби та на несколько отдельных файлов. Разбиение диктуется как объемом памяти носителя (обычно разбиение делается для дискет, так как Mac нитные ленты имеют достаточную емкость для размещения всех файлов), так и лоrикой БД. Например, рассмотрим орrанизацию файлов БД GenВank (выпуск 44.0, aBrycT 1986r.), распространяемой на дискетах объемом 320К. Вся информация размещена на 26 дискетах. На 23 из них находят ся: 1) файлы собственно нуклеотидных последовательностей; 2) файлы сокращенных описаний последовательностей (БД с полным описанием пос ледовательностей требует слишком большоrо числа дискет), 3) индекс ные файлы, используемые СУБД. Все последовательности содержатся в 54 файлах, в каждом из которых они сrруппированы по таксономическому признаку. Таким образом, каждая дискета содержит от ОДНОсО до четы рех файлов последовательностей и соответственно описаний. 24я дис кета содержит файлы указателей БД, 25я  файлы СУБД, 26я  файлы с проrрами, выполняющими различные функции с нуклеотидными последо вательностями. 
7.6. ИНТЕРФЕЙС ПОЛЬЗОВАТЕЛЯ (ЯЗЫКИ ВЗАИМОДЕйСТВИЯ) Работа с.  ,Jlенн ы ми и "QЧ!Q.е,l1ННЫШ1БЦо Л!lli!:!Дlо! И JЯЗ !:! В настоящее время в мире нашли широкое применение сети ЭВМ, OXBaTЫ вающие целые r:TpaHbl и континенты. Локальные вычислительные сети объ единяют инфсрма:.(ионновычислительные ресурсы в пределах неболь:пой территории, на расстоянии нескольких километров. Скорость передачи данных может достиrать десятков миллионов бит в 1 с. Станциями здесь называются единицы оборудования, будь то отдельная ЭВМ, терминал, печатающее устройство, коммутационное устройство или друrая локаль ная сеть. Станции сообщаются между собой на основе определенных пра вил, называемых протоколом. За рубежом наибольшую популярность полу чила локальная сеть. называемая ETНERNET (Мартин. 1985; rpOM(JB, 1()84 \, Для сообщения на больщих расстояниях используются линии связи об eco назначения, в частности телефонные r.инии связи. Для передачи дискретных (пифровых) сиrналов по таким линиям связи необходимо спе циальное УСТРОЙС1'во  модем, котсрое r;реобразует дискретный сиrнал Б аналоrовый. соответствующий пропускной способности линии, и обратно. Е настоящее время имеются модемы, обеспечивающие передачу со CKO ростью ДО 2400 бит в 1 с (обычно 300 бит Е 1 с). Для специаЛrНЫХ цe лей М01'УТ использоваться высокоскоростные линии связи. техническая скорость передачи данных может достиrать 1 rиrабит в 1 о. В Северной Америке, Европе, Японии существует целый ряд сетей, таких, как BINET, EARN. TRANSPAC. DATAPAC, TELENET, IPSS, ARPANET, TYМNET, AGRENET, JANET и др. В СССР работает rосударственная aBTOMa тизированная система научнотехнической информаuии ([АСНТИ) (Мали НИН,1987). После подключения к системе пользователь со своей удаленно CTaH ции получает доступ к информаци()нновычислительным ресурсам САТИ. Объем этих ресурсов определяется помимо наличных ресурсов протоколом ВЫСОКОсО уровня, обеС118чивающеrо пользователя известным уровнем дo ступа к прикладным системам, реализованным в сети. По отклику систе мы пользователь, вообще rоворя, не может установить, с каким именно оборудованием он работает. Чаще Bcero люди используют сети для полу чения информации. Нашли распространение такие прикладные системы, как электронная почта, электронные конференции и, что больше Bcero нас интересует, работа с базами данных. К настояшему времени извест но порядка 3 тыс. различных БД. В некоторых из них накоплены сотни тысяч вторичных документов. В виду этоrо прикладные системы MorYT размещать отдельные файлы БД на разных физических устройствах, Haxo дящихся в любом месте сети, тем caмь БД преврашаются в распределен ные. Систему, включающую в себя приклаДRые проrраммы и БII, можно Ha звать банком данных. Так, в режиме теледоступа работают GепБапk, 232 
EMBL, PIRNBRF. В СССР в системе ПОИСК в винити возможен доступ к БД EMBL (Анев и ДР.,1982). ПОИСК обеспечивает различные виды информаци oHHoro поиска: библиоrрафический, по ключевым словам и друrим дeCK рипторам (описательным признакам) последовательности. Прикладные системы (Kuhara et a1. , 1982; Kanehisa et a1., 1982; Devereux, 1982; Puste11, Kafatos, 1986; Harr et a1., 1986; и др.) обеспечивают специфическую работу с молекулярноrенетическими БД: поиск по банку, вызов различных nporpaмм анализа, статистики и Т.д. Для этой цели создаются также национальные службы (Smith D.H. et a1.,1986; PROPНET,...,1986; Smith T.F. et al., 1986; и др.) Работа на персональном компьютере. Большую популярность завоевали прикладные системы, реализованные на персональных компьютерах (ПК). С точки зрения пользователя работа на ПК имеет ряд ощутимых преиму ществ. 1. Независимость от большой машины. Персональный компьютер внешне похож на терминальное устройство. Поскольку в отличие от терминала ПК для своей работы необязательно должен быть связан с большой эвм, на нем можно работать в удобное время, в удобном месте и в удобном темпе. 2. Удобство (комфорт). ПК характеризуется высокими эрrонономичес кими качествами, надежен, практически не требует квалифицированноrо обслуживания. 3. Сравнительно мощные ресурсы. 4. Развитое математическое обеспечение (МО). Поскольку тираж ПК очень большой (сейчас эксплуатируется порядка 100 млн ПК), дЛЯ них разработано большое количество разнообразноrо МО BblcoKoro качества и, что самое ценное, ориентированноrо на работу неподrотовленноrо пользователя. Эта ориентированность на пользователя, пожалуй, саМое важное свойство ПК. ДЛЯ массы самых разнообразных применений ПК при думано orpoMHoe число способов, приемов, методов общения пользовате лей с ПК (иначе это называется интерфейсом пользователя). Остановим ся только на некоторых моментах. Интерфейс типа "командный язык" Это тип интерфейса, косда пользо ватель отдает команды машине на псевдоестественном языке. Например, в пакете проrрамм DNASTAR (Doggett,B1attner,1986) запрос TTGACA %83 » (22,24) ТАТААТ %50 /SЕQ<пробел> <пробел> означает поиск промоторов в БД, а именно консенсуса "35" при 83% rомолоrии и консенсуса "10" при 50% rомолоrии при расстоянии между их 5' концами от 22 до 24 нуклеотидов в классе SEQ. Недостатки TaKO ro языка: сложность освоения случайным пользователем (т. е. пользо вателем, обращающимся к прикладным, системам от случая к случаю), сравнительно медленная скорость набора команд, сильная неустойчи вость к ошибкам пользователя. Положительная сторона: сравнительно высокая rибкость. Язык TaKoro рода редко используется в системах анализа нуклеотидных последовательностей. 8 Заказ NO 4327 23З 
Интерфейс типа меню. Меню  это набор альтернатив продолжения pa боты, предоставляемый пользователю. С помощью меню можно выразить достаточно сложные запросы к прикладной системе, в то же время поль зователю не нужно учить командный язык. Выбор осуществляется нажати ем однойдвух клавиш, достиrается высокая степень наrлядности, при длительной работе с системой вырабатывается автоматизм. Этот интер фейс очень широко применяется (Cannon,1987; Isono, 1984). ИнтерФейс типа макетный запрос (Querybyex  Все разнообра зие задач и подзадач, параметров и Т.д. не исчерпывается набором альтернатив. Поэтому при выборе из большоrо спектра возможностей, например при задании фрarмента последовательности, используются дpy rие средства. Кроме Toro, в сложных проrрах со множеством функций MHoroYPoBHeBble меню утомительны, особенно при MHoroKpaTHoM повторе нии одних и тех же действий. В этом случае удобен интерфейс типа Ma кетнblЙ запрос (Querybyexamp1e) (U11man, 1982). Представим себе, что проrра предлаrает заполнить бланк, в котором какието ПОЗИЦИИ заполнены названиями функций и значениями параметров, применяемых по умолчанию. Вы какието позиции изменяете, заполняете пустые клеткИ и запускаете просру. В дальнейшем уже не надо продираться через частокол вопросов и ответов, даже самых коротких, так как проrрамма запомнила все необходимые параметры. Мноrооконный интерфейс. Важную роль в популяризации MHorooKoHHoro интерфейса сыrрали пк фирмы App1e. С друrой стороны, именно тща тельная про работка пользовательскоrо интерфейса, в котором важней шую часть занимает мноrооконный интерфейс, обеспечила фирме App1e коммерческий успех, а также успех у пользователей. Мноrооконный интерфейс можно уподобить приборной доске COBpeMeH Horo автомобиля или даже небольшоrо самолета. Экран разбивается на несколько зон или окон, в каждое из которых выводится информация, характеризующая различные стороны информационновычислительноrо про цесса. Эти окна MorYT перекрываться, более нужные MorYT вытеснять менее нужные, расширяться, исчезать и Т.д. Мноrооконный интерфейс может быть создан на различном проrрном уровне. В настоящее время он обычно выполнен на уровне операционной оболочки (подробнее см., например, Мазурик, 1987). Приведем в качестве примера одну из картинок пакета проrр IBI/Puste11 (Puste11, Kafatos, 1986) (рис.7.2). На зкране показаны окна: сверху: 1) текущее устройство BBoдaBЫBOД; 2) объем свободной памяти; 3) текущее состояние клавиатуры; 4) текущая дата и время; 5) название текущей задачи; 234 
p rinter Мет=200000 I Fri Jan 01,1988 i isk [Def] Protein Text РС18Р DNA Text ACYRGA SV40 I/O + Format DNAIOFILE Mobi1ity Stds DNASTD IBI/Puste11 Sequence Analysis Programs 02  Disk Operations  efault Path C:\MYDIR\ 20000000 bytes capacity 10000000 bytes available emory DNA SV40 ats RRNA ACYRGA ats H ternate Path C:\DATAB\ C ross Reference 1 Help 2 Quit 3 Output4 print 5 Browse6LOADats7 Stats 8 Rename9FuncHlpOCursHlp Рис. 7.2. Пример MHorooKoHHoro интерфейса в пакете nporp IBI Puste 11 внизу: 1) текущие функции ключей. В центре мосут находиться различные окна: 1) rлавное меню; 2) окно для установки даты и времени; 3) окно, в котором описывается текущая задача; 4) название основной и вспомоrательной директории на диске; 5) перекрестные указатели БД; 6) каталоr файлов, заrруженных в память; 7) скользящее окно каталоrа рабочей директории. Заметим, что для оживления диалоrа, придания ему динамизма, удобства ввода rрафической информации или целеуказания в современных прикладных системах используются дополнительные cpeДCTa: синтезатор речи, музыки, манипулятор типа "мышь", указатель на экране (световое перо), диджитайзеры (координатоrрафы). 7.7. СТАндАРТНЬШ ФУНКЦИИ ПРИКЛАДНЬ ПАКЕТОВ АНАЛИЗА Проrры, которые необходимы большинству пользователей, включают в себя следующие ставшие стандартными функции (Александров А.А. и др., 1986; Staden, 1986):  ввод и редактирование последовательностей, а также их описаний;  поиск заданных олиrонуклеотидов, включающих символы, кодирующие 8* 235 
неоднозначные нуклеотиды, а также поиск (;айтов с неполной [,GMOY.O rией;  построение физических карт и таблиц фраrментов рестрикции по из вестной нуклеотидной последовательности, моделирование элетрофо ретическоrо разделения рестрикционных фраrментов;  трансляция последовательности в различных вариантах rенетическоrо кода;  построение карт и таблиц потенциально транслируемых полипептидов в заданном диапазоне молекулярных весов (так называемых открытых pa мок считывания);  распечатка таблиц использования кодонов и аминокислот, подсчет MO лекулярноrо веса и изоэлектрической точки полипептида, построение карт rидрофобности и вторичной структуры белка;  поиск прямых, обратных и инвертированных повторов по З'О.,r;анным :1a раметрам (в том числе несовершенных), rраФическое отображение пов торов на карте последовательности;  анализ и rрафическое представление rомолоrии двух нуклеотидных последовательностей с заданными параметрами фильтрации (так назы ваемые точечные матрицы rомолоrии);  статистика последовательности, расчет встречаемости MOHO и олиrо нуклеотидов, расчет и построение функций GCсодержания; Некоторые пакеты проrр имеют также расширенные функции, такие, как:  поиск оптимальных зондов;  поиск сложных сайтов на последовательности или списке последова тельностей по заданной матрице частот встречаемости нуклеотидов;  поддержка проектов по секвенированию (стыковка и редактирование фраrментов, их хранение);  моделирование rенноинженерных экспериментов. Для больших ЭВМ и для наиболее развитых пакетов на мощных мини и микроЭВМ зто дополнительно:  выявление потенциальных вторичных структур РНК и оценка их энерrе тических параметров;  оптимальное выравнивание двух близких последовательностей по за данным параметрам;  поиск rомолоrии между заданной последовательностью и всем банком;  физическое (рестрикционное картирование);  множественное выравнивание. В настоящее время пакеты прикладных проrр (ПIIП) анализа нукле отидных последовательностей представляют собой набор сравнительно простых инструментов (хотя они MorYT быть реализованы при помощи очень сложных алrоритмов, использующих мощные математические MeTO ды). Они взяли на себя механическую работу, но пока еще не стали ин теллектуальными помощниками пользователя. В основном машины MorYT 236 
. Пакет Тип ЭВМ Орrанизацияразработчик Литература    EC1040 НИВIl АН СССР (Пущино)  молrЕН EC1060 ВНИИ молекулярной биоло  rии (Новосибирск)  .. МАЛК EC1010 ВНИИ rенетики и селекции Миронов и промышленных микроорrа др. ,1987 низмов (Москва) GEL CM4 Институт цитолоrии и Жарких, 1 I rенетики со АН СССР РОI'ОЗИН, :984 НЕШ CM4 НИВЦ АН СССР (Пущино) Лунина, 1984 Адаптация Электро Институт I паке молекулярной  I та Isono никаБО биолоrии АН СССР (Москва) I SEQBUS Искра226 Институт молекулярной rолованов rенетики АН СССР (Москва) и др. ,1986 сейчас оперировать лишь строrими фактами. Для исследователя имеет значение знание, зафиксированное не только в отдельных, cTporo YCTa новленных "атомарных" фактах, но и rипотезы. факты, нуждающиеся в проверке и интерпретации, теоретические обобщения, новые механизмы, понятия. Эффективность оперирования с ними и составляет талант уче НОсО. Мосут ли помочь в этом компьютеры, в особенности тю, сде Ha коплены большие БД? 7.8. 0?30Р ОТДЕЛЬНЬ ПРИКЛАдВЬ проrрАММ И ФОРМЫ ВЬЩАЧИ ИНФОРМАUИИ в этом разделе мы остановимся на некоторых проrраммах, выполняю щих функции, перечисленные в разделе 7.7. В настоящее время создано большое количество разнообразных IIПП для анализа нуклеотидных после довательностей для всех основных типов ЭВМ. В той или иной мере они перекрывают спектр функций, изложенный в предыдущем разделе. Подроб ные сводки имеющеrося матобеспечения приводятся в работах Квина, Корна, Роулинrса и др. (Korn, Queen, 1984; Raw1ings, 1986; Directo ry..., 1987). Следует иметь в виду, что пакеты проrр постоянна совершенствуются. и такие сводки быстро устаревают. В СССР наиболее 237 
широко используются следующие пакеты nporpaмм (см. таблицу), которые охватывают почти весь спектр отечественных ЭВМ. В связи с переходом на новую вычислительную технику, постепенным освоением в СССР выпуска персональных ЭВМ (имеются в виду в частнос ти Искра1030, EC1840 и друrие перспективные типы ЭВМ, в том чи сле разработки странчленов СЭВ), в орrанизациях  участницах Bce союзной nporpaммbl 'Тенинформ", а также странах  участницах кп НТП СЭВ ведется интенсивная работа по созданию HOBoro nporpaмMHoro обеспечения в области молекулярной биолоrии и rенетики. Можно Haдe яться, что в ближайшем будущем персональные ЭВМ станут у нас обычнь оборудованием биолоrических лабораторий. За рубежом наибольшей популярностью пользуются персональные ЭВМ фирмы IBM и совместимые с ними компьютеры. Для этоrо типа ЭВМ имеет ся ряд коммерческих продуктов, в частности ппп IBI  Puste11, MicroGenie, DNASTAR, DNASYS (Cannon,1987; Hoyle,1987), PC/Gene. Эти проrраммные продукты являются показательными для рассматриваемоrо рынка матобеспечения. Важное значение имеют выходные формы ППП. Особенно наrлядны ['pa фические формы вывода информации. На рис.7.37.7 представлены HeKO торые примеры таких Форм, полученных на пакете SEQBUS. На рис. 7.3 показан фраrмент рестрикционной карты SV40XX. Слева обозначены имена ':", 20 40 6е) 8) '10('  11 I1 1 I 11 1111111 I 111 1 11 I 1 G(;.(;CCC ,:; Т KL..4C СТ Т ..4..4(; (.(":'NCC (;(.;.\..-)СС ..п Gс..п ССТ ..4(,::, 11 ТТТ..4..4..4 111 .4(;СТ ,::'G..4T СС 1; С !.--)(:;;.с (,;,CI(';'C Т ,;..4Т С4 О::';мt'lНt-!t'lНt'lТ сс (':;..4T С RCCGG') ..4PA1 .4CC1 .4FL11 ,4.$I,Д ,4).411 ,'-11-'..4111 ,4(..'R11 ,4H.41I1 .4LIJI 1.4М H1 1E(..',$1 EH)1 1CL1 EST:><:1 EH1 CFR"1e"'1 I 1 11 111111I 1 1111111 1 1 1 11 I I I I 11 Рис. 7.3. Пакет SEQBUS. Проrрамма Q>SIT2. Фраrмент рестрикционной карты SV40XX сайтов (в данном случае рестриктаз), справа  соответствующие сайты узнавания. Вертикальные черточки обозначают положение сайтов узнава ния. Черточки вниз  положение сайтов узнавания по обратной нити. На рис. 7.4 показан фраrмент распечатки той же последовательности с указанием имеющихся на ней сайтов. На рис. 7.5 изображена карта OTK рытых рамок считывания для последовательности TFIIIA. Более информа 238 
301 ААССААGТТССТСТТТСАGАGGТТАТТТСАGGCСАТGGТGCТGCGCСGGC 350 TTGGTTCAAGGAGAAAGTCTCCAATAAAGTCCGGTACCACGACGCGGCCG ЛМNLI<D> ЛМNL<I> ЛНАЕI ЛВВVSI ЛНАЕIII ЛВВVI<I> ЛNСОI ЛСFR101 ЛFNU4НI ЛИРАII ЛNАЕI ЛИНАI Рис. 7.4. Пакет SEQBUS. Проrра Q>SIT2. Фрarмент распечатки после довательности SV40XX Слева и справа указаны координаты последовательности. Точки над последовательностью отмечают каждый десятый нуклеотид. Стрелка рядом с названием рестриктазы указывает на первый нуклеотид сайта узнава ния. В уrловых скобках для рестриктаз с непалиндромным сайтом указа но направление нити, по которой найден сайт: D  прямая нить, I  инвертированная тивными являются подобные карты, на которых кроме открытых рамок считывания приводятся rрафики вероятности кодирования белка (см. rл. 3), местоположение сайтов, напоминающих промоторы и терминаторы (см. rл.4), а также друrих особенностей анализируемой последовательности. Такие карты весьма полезны при характеризации участков ['енома (Staden, 1986). Эту карту можно дополнить картой инвертированных повторов (потенциальных шпилек, рис.7.6). Одной из наиболее часто применяемых функций анализа последова тельностей является построение так называемых точечных матриц [,OMO лоrии (rл. 1). Эти матрицы, особенно при удачном подборе параметров фильтрации, дают ценную информацию о rомолоrичных областях последо вательностей (рис. 7.7). 7.9. ПЕРСПЕКТИВЫ Первое направление  развитие проrрноаппаратных средств. Бли жайшие перспективы в этой области связаны с быстрь развитием тради ционной вычислительной техники, увеличением быстродействия ЭВМ, YBe личением объема памяти, усовершенствованием внешних запоминающих устройств. В настоящее время становятся доступными БД и COOTBeTCTBY ющее nporpaммHoe обеспечение на, оптических дисках, емкость которых значительно перекрывает объем современных БД и накопленноrо MaTeMa тическоrо обеспечения. Второе  создание автоматизированных рабочих мест (АРМов) reHHoro инженера и друrих подобных АРМов на основе мош 239 
'1  .-,  ..:. 3   '1   2   3   , u, lLL,, Щ, r., "L, ,У! !I Ii  \," 4 " iJ L, L..,,, '" ц . , L, i. I , III 111, \11 fU  ,fJ  I " II( I111 I  ,. ( ,I r  ,lrМu ........J r ,,,I,,, 111 1 ,  r, 1. ,r!  ,---J,J . (:) 2е' 40 .:i) 30 '10"') % TFIIIA (11S17) Рис. 7.5. Пакет SEQBUS. Проrрамма >PEPT. Карта потенциальных пепти дов для последовательности TFIIIA Слева указаны номера фаз трансляции. Внизу и вверху  масштабная линейка. rоризонтальная линия на карте обозначает открытую рамКУ считывания. Высокая черта выше этой линии обозначает инициируюший кодон AUG, Юfзкая  GUG. Открытая рамка заканчивается терминируюшим кодоном (длинная черта). Отдельные терминирующие кодоны указаны KO роткими штрихами. Пользователь может задать минимальный размер от- крытой рамки считывания ной ЭВМ, сопряженной с rрафической станцией, разработка высокоэффек тивных rрафических языков. Третье  новые методы анализа rенетичес ких текстов, включающих как новые алrоритмы анализа отдельных облас тей, так и автоматизацию моделирования сложных rенетических систем, в которых анализ первичной структуры выступает лишь как один из уровней исследования. Четвертое  переход от отдельных молекуляр ноrенетических БД к интеrрированным БД и, возможно, формирование на основе этоrо баз знаний (Стоrний, rлазунов, 1986). Пятое  постоянная разраБОТКа концептуальноrо интерфейса, т. е. rносеолоrических и co ответствуюших им "естественных" (т. е. Toro, что обычно сужается до понятия "обшение на естественном языке") проrраммных средств общения исследователей и проrраммных комплексов. illестое  разработка cpeДCB rибкоrо и эффективноrо управления rиrантскими массивами информации. С этой проблемой неизбежно столкнутся коллективы, которые в настоя щее время приступают к осуществлению проекта секвенирования reHoMa человека, содержащеrо приблизительно 3 млрд пар нуклеотидов. Tpyдo емКОСТЬ этоrо проекта оценивается в 150200030 000 человеколет, а цена от 60 млн до 3 млрд долларов (Roberts 1987а,Ь). Однако первич ная последовательность reHoMa будет лежать мертвым rрузом. если не будет средств работы с ним. Уолтер rильберт, основавший компанию Ge ome Corporation, предполarает после завершения проекта по секвени рованию извлекать прибыль, обслуживая потребителей информации по че Т10веческому reHoMY. Повидимому, это перспективное дело. 240 
] C>::Et'1.4 о I  ИНВЕРТ.ПОВТОРОВ. w- 101 [, - ;7 f< - о   I "' I ..:::i ...... I.J О :=:: ::;; ::r "= :r: <! \ I ') t) 2е. "9 l д 6(1 ее. ЮF1П.4 (-1 -15-17) 1 е-е) " Рис. 7.6. Пакет SEQBUS. ПроrРа1па Q>SТEM. Схема инвертированных пов торов длиной 7 пар нуклеотидов на последовательности TFIIIA, разде ленных не более чем 101 нуклеотидом. Выведены только совершенные повторы. На схеме повторы показаны равнобедренными треуrольниками, CTO роны которых соединяют два элемента повтора, а высота определяет значимость повтора в условных единицах. Повторы заданноrо Типа, как видно из сравнения с рис.7.5, локализуются вблизи начала и конца структурной части reHa TFIIIA 1.1 -';')с;./('7 1. 3Е 1()3 ",о ......./ ,... '.",-:. <;;> .:s:> -т ':s;:;. .::;::. /" / / . /' /  . ./'.. ,,' .., , <'./' '." / ./'..'" . )..-; /, ,/" ,-о",. ,'" / / х ::< .:;;:;.  ; ," ....,/../,./.. о:. : .:....:>:,..: ;..';'" '.' ,. / :..( ;:r.s L.." el><x (J.elee1  e.34 оеl ) D Рис. 7.7. Пакет SEQBUS. Проrрамма Q>REVN. Точечная матрица rомолоrии между фраrментами 1400 последовательности SV40XX Параметры фильтрации: точка ставится на матрице, если совпадают 6 нуклеотидов из 7. 1,3.103  ожидаемая плотность точек на матрице. Хорошо виден повтор длиной 72 пары НУКлеотидов, а также серия более мелких повторов вблизи начала последовательности 
Приложение А Таблица кодирования нуклеотидов, включая вожденные Основные нуклеотиды Обозначение Анrлийское название А С G Т U Adenine Cytosine Guanine Thymine Urac i 1 Русское название Аденин Питозин rуанин Тимин Урацил Знаки, кодищие набор нуклеотидов Обозначение Набор Название R У М W S к D Н V в N (A,G) (С,т/и) (А,С) (А,т/и) (C,G) (G,T) (A,G,T/U) (A,C,T/U) (A,C,G) (C,G,T/U) (A,C,G, Т/И). Нет никакоrо нуклеотида ( пробел) Пурин (Purine) Пиримидин (Pyrimidine) .Иноrда этот набор обозначается знаком минус. Знак минус используется также в базах данных в тех случаях, коrда неиз вестно, какой нуклеотид стоит в данном положении. 242 
ЛИТЕРАТУРА АдельсонВельский r.M., Диниц Е.А., Карзанов А.В. Потоковые алrорит мы. М.: Наука, 1975. 119с. Александров А.А., rолованов Е.И., Сприжицкий Ю.А. Основные функции пакетов прикладных проrрамм анализа нуклеотидных и аминокислотных последовательностей//Теоретические исследования и банки данных по молекулярной биолоrии и rенетике. Новосибирск,1986. C.6164. Александров Н.Н., Миронов А.А. Распознавание промоторов Escherichia co1i по первичной структуре ДНК//Молекуляр. биолоrия. 1987. Т. 20. C.242249. Анев П.Д., Василева В.И., Мате ева Ж.П. Интерактивная информационно поисковая система ПОИСК1.2. Часть первая. Описание применения. М.:МЦНТИ, 1982. 32 с. Бородовский М.Ю.,Миронов А.А.,Певзнер П.А. О значимости встречаемос ти слов в непрерывных текстах с учетом самопересечений//Математи ческие и вычислительные методы в биолоrии. Биомолекулярные систе мы. Пущино,1987.С.6768. Бородовский М.Ю., Сприжицкий Ю.А., rолованов Е.И., Александров А.А. Статистические закономерности в первичных структурах функциональ ных областей reHoMa E.co'li 1.Частотные характеристики//Молекуляр. биолоrия.1986а.Т.20.С.10141023. Бородовский М.Ю., Сприжицкий Ю.А.,rолованов Е.И., Александров А.А. Статистические закономерности в первичных структурах функциональ ных областей reHoMa E.co1i I1. Не одно родные марковские модели //Молекуляр. биолоrия.1986б.Т.20. C.10241033. Бородовский М.Ю., Сприжицкий Ю.А., rолованов Е.И., Александров А.А. Статистические закономерности в первичной структуре функциональной области reHoMa E.co1i. 111. Компьютерное распознавание кодирующих областей//Молекуляр. биолоrия.1986в.Т.20,N 5.C.13901397. Бородовский М.Ю., Шепелев В.А., Александров А.А. Закономерности KOH TeKcTHoro смещения частот синонимических кодонов в Е.со1i//Моле куляр. биолоrия.1988.Т.22,N 3.C.767779. Вапник В.Н. Задача обучения распознавания образов. М.:Знание, 1971. Вапник В.Н., rлазкова T.r., Кощеев В.А., и др. Алrоритмы и проrраммы восстановления зависимостей. М.:Наука,1984.816с. rолованов Е.И. Статистические методы электронномикроскопическоrо картирования и математическоrо моделирования ФУНКllИональных сиrна лов reHoMa. Дис. .. канд. ф.м. наук. , М. 1987. 124с. rолованов Е.И., illепелев В.А., Александров А.А. Система проrрамм для исследования нуКлеотидных последовательностей на микроЭВМ "Иск 243 
ра226"//ТеореТИЧеСКИе исследования и банки данных по молекулярной 6иолоrии и rенетике. Новосибирск,1986.С.5960. ['ромов r. Р. Национальные информационные ресурсы: проблемы промышлен-- ной эксплуатации. М.:Наука,1984. 240с. ryceB В.Д., Куличков В.А., Титкова Т.Н. Анализ rенетических текстов. 1. LrpaмMHble характеристики//Вычислительные системы. Новосибирск, 1980.Вып.83.С.1133. rэри М., Джонсон Д. Вычислительные машины и труднорешаемые задачи. М.:Мир,1982.416с. Дейт К. Введение в системы баз данных. М.:Наука,1980. Доув У. Биолоrические выводы//Фаr лямбда. М.:Мир,1975.С.379399. Дэвидсон Н., Сцибальский В. Химические и физические свойства &ЧК фа ['а лямбда//Фаr лямбда. М.:Мир,1975.С.65111. Жарких А. А. , РОI'ОЗИН И. Б. GEL. ffiП: для авт',)матизироваННОiJ анаЛIЕ<:', первичной CTPYKYpы дЕК. Руководство к использованию. Новосибирск. Препринт, 1984. 28 с. Зыков А.А. Теория rрафов. М.:Наука,1987,381 с. Кантор Ч., illиммел П. Биофизическая химия Т.2.М.:Мир,1984. 493 с. Карзанов А.В. О минmлальных по среднему весу разрезах и циклах ['pa фа//Качественные и приближенные методы исследования операторных уравнений. ЯрослаRль,198S.С.7S82. Кимура М. Молекулярная эволюция. теория нейтральности. М.:Мир, 1985. C.1?7222. Кокор ева Л.В., Малашинин И.И. Проектирование банков данных. M.:Hay ка, 1984. 256с. Крамер r. Математические методы статистики. М.:Мир,1975. КРЫЛJВ В.Н. Современные проблемы бактериофаrии//Успехи микробиоло rии.1985.Т.20.С.122153. КР'_lЛов В. Н., Ребентиш Б. А., Дебабов В. r. и др. Изучение расщепления ДНК новых лямбдоидных бактериофаrов специфической эндонуклеазой ЕсоRI//Молекуляр. БИОЛJrия.197?Т.11.С.82082S. Крылов В.Н., llblraHKoB Ю.Д. Новые лямбдоидные фаrи Escherichia со1i//rенетика.1976.Т.12.С.102104. Кульба А.М.,rорелЬеВ А.С.,Фомичев Ю.К. Рестриктазный анализ ДНК фа ['а SM Pseudomonas аеrugiпоsа//Молекуляр. биолоrия. 1986.Т.20, N 1. C.181184. Лунина Н.Л. Система обработки нуклеотидных последовательностей НЕШ. Материалы по математическому обеспечению ЭВМ. Серия МИНliЭВМ. Вып.9. НИВll. Пущино, 1984. 46с. Льюин Б. reHbl. М.:Мир,198?С.2154. Лысов Ю.П., Флорентьев В.Л., Хорлин А.А. и др. Определение нуклео тидной последовательности ДНК rибридизацией с олиrонуклеотидами. Новый методl/Докл. АН СССР. 1988.T.303,N 6.C.1S081511. Мазанов А.Л.,Киселев В.И. Банк данных белков и нуклеиновых кислот. 244 
Теоретические исследования и банки данных по молекулярной биолоrии и ['енетР.ке. Новоси6ирск,1986.С.3235. Мазурик В.П. Прикладные системы и решение задач// Персональные компьютеры: информатика для всех. М.:Наука, 1987.C.102144. Малинин М.М. Об интенсификации НRучноинформационной деятельнос тиI/Научнотехническая информация. Сер.2. Информационные проr:ессы и системы. М.:ВИНИТИ,1987.N 10. C.3132. Манькин А.С., Копылов А.М.. Рубцов K.r., Скрябин K.r. Модель вторич ной структуры 18S рРНК рибосом эукариот//Докл. АН СССР. 1981.Т.256, N 4. C.10061010. Марков А.А. Введение в теорию кодирования. М.:Наука, 1982. 192с. Мартин Дж. Вычислительные сети и распределенная обработка данных. Проrраммное обеспечение, методы и архитектура. М.: Финансы и CTa тис тика. i985, вып. :. 256с. Машко С.В., Козлов Ю.И., rенинr Л.В., и др. Распределение последова тельностей ДНК, узнаваемых специфическими эндонуклеазамиI/Молеку ляр. биолоrия.1977.Т.11.С.11241135. Миркин Б.r., Родин. rрафы и reHbl. М.:Наука,1977.240с. Миронов А.А., Александров Н.Н. Быстрый метод поиска rомолоrий нукле О'l'идных последовательностей//Биофизика.1988. N 2. С. 229232. Миронов А.А., Александров Н.Н., Люсиновскаяrурова Л.В., Кистер Л.Э. Пакет прикладных проrрюм для анализа нуклеотидных последователь ностей//Молекуля биолоrия. 198?T.21,C.672677. Миронов А.А., Дьяконсва Л.П., Кистер А.Э. Предсказание ансамблей вторичных структур РНК. Кинетический анализ самоорrанизации// Mo лекул. биолоrия.1984. T.18,N 6. C.16861694. Миронов А.А., Кистер А.Э. Теоретический анализ кинетики образования вторичной структуры РНК в процессе транскрипции и трансляции. Учет дефектных спиралей//Молекуляр. биолоrия.1985.Т.19,N 5.C.13501357. Миронов А.А. Кистер,А.Э. Теоретический анализ структурных перестроек в процессе образования вторичных структур РНК//Молекуляр. биоло rия., 1988.Т.2З,N 1.C.6172. Певзнер П.А. Эффективный алrоритм упаковки ветвлений во взвешенном rраФе//Комбинаторные методы в потоковых задачах. М.:ВНИИСИ, 1979. C.113 126. Певзнер П.А. Задача о минимальном в среднем цикле и физическое Kap тирование молекул ДНК//Дискретная оптимизация и компьютеры: Тез. докладов 111 Всесоюзной школысеминара, M.,198?C.200201. Певзнер П.А. Рестрикционные rрафы и физическое картирование молекул ДНКI/Биополимеры и клетка. 1988a.T.4,N 5.C.233238. Певзнер П.А. Эффективность фильтрации в методах быстроrо поиска co молоrий //Теоретические исследования и банки данных в молеулярной БИОЛО,rии и rенетике. Новосибирск,1988б. Певзнер П. А., Миронов А. А. Применение метода ветвей и rраниц для фи" 245 
зическоrо(рестрикционноrо) картирования молекул днк//rенетика и биохимия микроорrанизмов  биотехнолоrии,М.,1986.С.80. Певзнер П.А., Миронов А.А. Эффективный метод физическоrо картирова ния//Молекуляр.биолоrия.1987а.Т.21,N 3.C.788796. Певзнер П.А., Миронов А.А. Выбор оптимальных олиrонуклеотидных зон дов для локализации rенов//Математические и вычислитеЛЬНые методы в биолоrии. Пущино, 1987б.С.8586. Пехов А.П., Щербакова Е.В., Медведкова Н.А., Кривская К.С. Рестрик Ционное картирование фактора rенетическоrо переноса//Молекуляр. rенетика, микробиолоrия и вирусолоrия.1985,Т.3.С.1922. Ратнер В.А., Жарких А.А., Колчанов Н.А. и др. Проблемы теории моле кулярной эволюции. Новосибирск: Наука,1985. Романовский. Алrоритмы решения экстремальных задач. М.:Наука, 1977. 352с. Саrитов В.Р., Метлицкая А.З., Александров А.А. Избирательность peCT риктазы BspRI в отношеwйи собственных сайтов на ДНК// Биополимеры и клетка.1987.Т.3.С.289294. Спи рин А.С. Молекулярная биолоrия: Структура рибосомы и биосинтез белка.М.:Высшая школа, 1986. 301с. Сприжицкий Ю.А., Нечипуренко Ю.Д., Александров А.А., Волькенштейн М.В. Закономерности сблоченности нуклеоТИДОВ в кодирующих и HeKO дирующих областях последовательностей дик из различных орrаниз мов//Молекуляр. биолоrия.1988.Т.22,N 2. C.338356. Стефик М., Эйкинс Я., Балзер Р., и др. Экспертные системы// Киберне тический сборник. М.:Мир,1985,22.С.170220. СТJrний А.А., rлазунов Н.М. Современные проблемы создания интеrриро ванных систем баз данных//Киберненика. Становление информати ки.М.:Наука, 1986.C.128138. Сумароков Л.Н. Перестройка системы научнотехнической информа цииl/Научнотехническая информация. Сер.2. ИНформационные процессы и системы. М.,ВИНИТИ,1987.N 9. C.14. Туманян B.r., Сотников а Л.Е., Холопов А.Е. Об определении вторичной структуры РНК по последовательности нуклеотидов//Докл. АН СССР. 1966.T.166,N 6. C.14651468. Форд Л., Фалкерсон Д. Потоки в сетях.М.:Мир, 1966.276 с. illепе13В В.А., rолованов Е.И., Александров А.А. Информационнопоиско вая система IS для ППЭi3М "Искра226';/ /Персональные компьютеры и лекальные сети. Новый Афон,1986.С.110111. illсннон К. Работы по теории информации и киберненетике. М.: Издво Иностр.лит.,1963.С.243332. illрединrер Э. Что такое жизнь? М.:Атомиздат,1972. 88с. Эйrен М. Самоорrанизация материи и эволюция биолоrичских макромоле кул. М.:Мир,1973. 216с. Abremsky К., Ward D.F. PLASМID МАР: а microcomputer program for 246 
display and storage of p1asm1d data//Gene.1986.Vol.46,N 1.P.127 130. A11ison L.,Yee C.N. Restriction site mapping is in separation theory//Comp.Appl. Biosci.1988.Vo1.4,N 1.P.97102. Almagor Н. А Markov ana1ysis of DNA sequences//J.Theor.Biol.1983. Vo1.l04.P.633645. Almagor Н. Nuc1eotide distribution and the recognition of coding regions in DNA sequences an information theory approacrJ/ J.Theor. Biol.1985.Vo1.117.P.127136. Anshe1evich V.V., Vo1ogodskii A.V., Lukashin A.V., FrankKamenetskii M.D. Slow re1axational processes in the melting of 1inear biopo1y mers/IБiopo1ymers.1984.Vo1.23,N 1.P.3958. Arquest D.G., Miche1 C.J. А purinepyrimidine motif verifying ап identical presence in a1most a11 gene taxonomic groups//J.Theor. Bio1.1987.Vol.128.P.457461. Arratia R., Waterman M.S. Ап ErdosRenyi 1aw with shifts//Adv. Math. 1985.Vol.55.P.1323. Bains W. МULTAN: а program to a1ign mu1tiple DNA sequences// Nuc1. Acids Res. 1986. Vol.14.P.159177. Beckmann J.S., Brende1 V., Trifonov E.N. Intervening sequences exibit distinct vocabu1ary//J.Biomol. Struct. Dyn. 1986.Vo1.4. P.391 400. Be110n В. Construction of restriction maps//Comp.App1.Biosci. 1988. Vo1.4,N 1.P.111116. Bennetzen L.J., Bendjamin D.H. Codon selection in yeast//J.Biol. Chemistry.1982.Vo1.2574.P.30263031. Bennett G.N., Yanofsky С. Sequenceana1ysis of operator constitutive mutants of tryptophan operon of Escherichia co1i// J.Mo1.Bio1. 1978. Vo1.121.P.179192. Berg, O.G., von Иiрре1, Р.И. Se1ection of DNA binding sites Ьу regu1atory proteins: Statistica1mechanica1 theory and application to operators and promoters//J. Mo1. Bio1. 1987.Vo1.193, N 4.P.723 750. Berg O.G., von Hippel Р.И. Se1ection of DNA binding sites Ьу regu1atory proteins. II. The binding specificity of cyc1ic АМР receptor protein to recognition sites//J. Mo1. Biol. 1988.Vo1.200. P.709723. Bibb М., Find1ay P.R., Iohnson Н. The re1ationship between base composition and codon usage in bacteria1 genes and its use for the simp1e and reliable identification of protein coding sequences// Gene.1984.Vo1.30.P.157166. Bi1lings1ey Р. Statistica1 methods in Markov chains//Anna1s Math. Statist.1961.Vo1.82.P.1240. Bi10fsky H.S., Burks С., Fickett J.W., et a1. The GenВank genetic 247 
sequence data bankl/Nucl.Acids Res.1986.Vo1.14, N 1.P.14. Bird А.Р. DNA methy1ation and the frequency of CpG in anima1 DNA //Nuc1. Acids Res.1980.Vo1.8.P.14991504. Blaisde1l В.Е. А preva1ent persistent globa1 nonrandominess that distinguishes coding and noncoding nuc1ear DNA sequences//J.Mo1. Evo1.1983a.Vol.19.P.122133. B1aisde11 В.Е. Choice of base at si1ent codonsite 3 is se1ective1y neutra1 in eucaryotic structura1 genes: it maintains excesS short runs of weak and strong hydrogen bonding bases//J.Mo1.Evo1. 1983Ь. Vo1.19.P.226236. B1aisde11 В.Е. А measure of the simi1arity of sets of sequences not requiring sequence a1ignment//Proc. Nat1. Acad.Sci.USA.1983c. Vol. 83. P.51555159. B1aisdel1 В.Е. Markov chain analysis finds а significant inf1ence of neighboring bases оп the occurence of а base in eucariotic nuc1ear DNA sequences proteincoding and noncoding//Mo1.Evol.1985. Vol.21. P.278288. B1ake R.D.,Ear1ey S. Distribution and evo1ution of sequence charac teristics in the E.co1i genome//J.Biomo1.Struct.Dyn. 1986. Vo1.4, N 2.P.291307. Booth K.S.,Leuker G.S. Testing for the consecutive ones property, interval graphs and graph planarity using PQtree a1gorithms//J. Comput.Syst.Sci.1976.Vo1.13,N 3.P.335379. Borer P.N., Deng1er В., Tinoco I.,Jr., Uhlenbeck О.С. Stabi1ity of ribonuc1eic acid doublestranded he1ices// J.Mo1.Bio1. 1974. Vol. 86,N 4.P.843853. Borodovsky M.Yu., GuseinZade S.M. Agenera1 ru1e for ranged series of codon frequencies in different genomes//J. Biomo1. Struct. Dyn. 1989. Vo1.6.P.10011012. Brand А.Н., Breeden L., Abraham J., Sterng1anz R., Nasmyth К. Characterization of а si1encer in yeast  а DNA sequence with properties opposite to those of а transcriptional enhancer//Ce11. 1985. Vo1. 41.P.4148. Breen S., Waterman M.S., Zhang N. Reneva1 theory for several patterns//J.App1.Prob.1985.Vo1.22.P.228234. Brende1 У., Весkтапп J.S., Trifonov E.N. Linguistics of nuc1eotide sequences: morpho1ogy and comparison of vocabu1aries//J.Biomo1. Struct.Dyn.1986.Vol.4.P.1121, Brende1 У., Hamm G.H., Trifonov E.N. Terminators of transcription with RNA po1ymerase from Escherichia co1i: what they 100k 1ike and how to find themI/J.Biomo1ec.Struct.Dyn.1986.Vo1.3,N 4. P.705723. Brende1 У., Trifonov E.N. А computer a1gorithm for testing potentia1 procariotic terminators//Nuc1.Acids Res.1984, Vol.12, N 10. Р. 44114427. 248 
Bucher Р., Trifonov E.N. Оп Nussinov's compi1ation of eucariotic transcription initiation sites: Letter to the editor//J.Theor. Bio1. 1987. Vo1. 126, N 3.P.373375. Bucho1tz С.А., Reisner A.N. МВIS  an integrated system for the retrieva1 and ana1yses of sequence data from nuc1eic acids and proteins//Nuc1. Acids Res.1986.Vo1.14,N 1.P.265272. Campbe11 А. Comprehensive viro1ogy.Vo1.8.N.Y.:P1enum Press,1977. P.259280. Campbe11 A.,Botstein D. Lambda II //Co1d Spring Harbor Labor., 1983.Р.З65380. Cannon G.C. Sequence ana1ysis оп microcomputers//Science. 1987. Vo1.238,N 4823.P.97103. Cantor C.R., Schimme1 P.R. Biophysical Chemistry Pt I: The Conforma tion of Bio1ogica1 Macromo1ecu1es, Ch. 6 /W.H.Freeman. San Fransisco, СА,1980. Chamberlin М., Baldwin R. L., Berg Р. An enzymica11y synthesed RNA of a1ternating base sequence: physica1 and chemica1 characteriza tion//J.Mo1.Bio1.1963.Vo1.7,N 4, P.334349. Chvata1 У., Sankoff D. Longest common subsequences of two random sequences//J.App1.Probabi1.1975.Vo1.12.P.306315. Claverie J.M., Bougue1eret L. Heuristic inforтational ana1ysis of Sequences//Nuc1eic Acid Research.1986.Vo1.14, P.179196. Co1lins J.F., Cou1son A.F.W. App1ications of para11el processing algorithms for DNA seqиence ana1ysis//Nuc1.Acids Res.1984.Vo1.12, N 1.P.181192. Соmау Е., Nussinov R., Соmау О. Ап acce1erated a1gorythm for ca1cu1ating the secondary structure of sing1e stranded RNAs /lNuc1. Acids Res.1984.Vo1.12,N 1.P.5366. Cou1son А., Su1ston J., Brenner S., Karn J. Toward а physica1 mар of the genome of the nematode Caenorhabditis e1egan//Proc.Nat1. Acad. Sci. USA. 1986.Vol.83.P.78217825. Danna К., Sack G.H., Nathans D. Studies of Simian Virus 40 DNA VII. А c1eavage тар of the SV40 Genome//J.Mo1.Bio1. 1973.Vo1.78. Р.З63 376. Dayhoff М.О. At1as of protein sequence and structure, Nationa1 Biomedica1 Research Foundation, Washington, D.C.,1972. Dayhoff М.О. At1as of protein sequence and structure//Washington: Georgetown University,1978. Dayhoff J.E. Distingvished words in data sequences: Ana1ises and App1ications to nevra1 coding and other fie1ds//Bu11. Math. Bio1. 1984.Vo1.46.P.529543. Deken J.G. Maxima1 common subsequences//Discrete Math.1979. Vo1. 26. P.1731. Devereux J., Haeber1i Р., Smithies О. А comprehensive set of 249 
sequence ana1ysis for the VAXllNuc1. Acids Res.1982. Vo1. 10, N 1. P.387396. DeVoe Н., Tinoco I.,Jr. The stabi1ity of helica1 po1ynuc1eotides:" base contribution//J.Mo1.Bio1.1962.Vo1.4, No 6.P.500517. deWachter R. The Number of Repeats Expected in Random Nuc1eic Acid Sequences and Found in Genes//J.Theor.Bio1.1981.Vo1.91.P.7198. Dhi1lon T.S., Poon А.О.У., Yin Wah Hai, Dhi110n E.R.S. Co1iphage НК139 integrates between his and supd//J.Viro1.1982.Vo1.44.P.716 719. Directory of protein and nuc1eic acid sequence data sources //Codata' Bu11.1987.N 65.P.159. Dix T.I.,Kieronska Т.Н. Errors between sites in restriction site mapping//Comp. App1.Biosci.1988.Vo1.4,N 1.P.117124. Dobson M.J., Tuite M.F., Roberts N.A., et a1. Conservation of higt efficiency promoter sequences in Saccharomyces cerevisiae//Nuc1. Acids Res.1982.Vo1.10.P.26252637. Doggett Р.Е., B1attner F.R. Persona1 access to sequence databases оп personal computers/lNuc1. Acids Res.1986.Vo1.14, N 1,611619. Doi R.H., Wang L.F. Mu1tip1e procaryotic ribonuc1eic po1ymerase sigma factors//Microbio1. Rev.1986.Vo1.50, P.227243. Drmanac R., Labat 1., Brukner I., Crkvenjakov R. Sequencing of mega base p1us DNA Ьу hybridization: theory of the method//Genomics. 1989.Vo1.4.P.114128. Dugg1eby R., Kinns Н., Rood J. А computer program for determination the size of DNA restrictiQn fragments//Ana1.Biochem.1981. Vol. 110. P.4955. Durand R., Bregegere F. An efficient program to construct restricti оп maps from experimenta1 data with rea1istic error 1eve1// Nuc1. Acids Res.1984.Vo1.12,N 1.P.703716. Eigen М., Schuster Р. The Hypercyc1e. А Princip1e of Natura1 Se1f Organization //Die Naturwissenschaften.1978. Vo1.65,N 7.P.341369. Eismann Е., v.WilckenBergmann В., Mu11erHi11 В. Specific destruc tion of the second 1ac operator decreases repression of the operon in Escherichia co1i fivefo1d//J.Mo1.Bio1.1987. Vo1.195. P.949952. E1der J.K., Southern Е.М. Measurement of DNA 1ength Ьу ge1e1ectro phoresis 2. Comparison of methods for re1ating mobi1ity of fragment 1ength//Ana1.Biochem.1983.Vo1.128, N 1.P.227231. E1der J.K., Southern Е.М. Computeraided ana1ysis of onedimensiona1 restriction fragment ge1s //Nucleic acid and protein sequence analysis: а practica1 approach/M.J.Bishop, C.J. Raw1ings. Oxford; Washington, D.C.: IRL Press,1987. 417 с. Fichant G., Gautier С. Statistica1 method for predicting protein cOding redions in nuc1eic acid sequences//Comput. App1. Biosci. 1987.Vo1.3.P.287295. 250 
Fickett J.W. Recognition of protein coding regions in DNA sequences //Nucl.Acids Res.1982.Vo1.10.P.53035318. Fiers W., Contreras R., deWachter R., et a1. Recent progress in the sequence determination of bacteriophage МS2 RNAI/Biochimie.1971. Vo1.3.P.495506. Fitch W., Smith Т., Ra1ph W. Mapping the order of DNA restriction fragment//Gene.1983.Vol.22,N 1.P.1929. Fitch W.M. Ca1cu1ating the expected frequencies of potentia1 secon dary structure in nuc1eic acids as а function of stem length, 100p size, base composition and nearest neighbor frequencies// Nuc1. Acids Res.1983.Vol.11. P.46554663. Fondrat С., Dessen Р., Le Веих Р. Princip1e of codification for quick comparisons with the entire biomo1ecu1e databanks and associated programs in FORTRAN 77/lNuc1. Acids Res.1986.Vo1.14, N 1.P.197204. Freier S.M., Petersheim М., Hickey D.R.& Turner D.H. Thermodynamic studies of RNA stabi1ity//J.Biomo1.Struct. Dyn. 1984. Vol.1, N 5. P.12291242. Freier S.M., Kierzek R., Jaeger J.A., et al. Improved freeenergy parameters for predictions of RNA dup1ex stabi1ity//Proc.Nat1. Acad.Sci.USA 1986.Vol.83,N 24.P.93739377. Fresco J.R., Alberts В.М., Doty Р. Some mo1ecu1ar details of the secondary structure of ribonuc1eic acid/lNature.1960. Vo1.188,N 4745.P.98101. Fried1and Р., Kedes L., Brutlag D., et al. GENESIS, а, know1edge based genetic engineering simu1ation system for representation of genetic data and experiment p1anning/lNuc1. Acids Res.1982.Vo1.10, N 1. Р. 323340. von Gabin А., Belasco J.G., Schottel J.L., et al. Decay of A in Escherichia coli: Investigation of the fate of specific segments of transcripts//Proc.Natl.Acad.Sci.USA.1983.Vol.80,N 3.P.653657. Ganoza М.С., Kofoid Е.С., Mar1iere Р., Lous B.G. Potentia1 secondary structure at trans1ationinitiation sites//Nuc1. Acids Res.1987. Vol.15.P.345360. Garber R.L., Gage L.P. //Ce11.1979.Vol.18.P.817828. Garden P.W. Markov Analysis of Vira1 DNAlRNA sequences//J.Theor. Biol. 1980.Vo1.82.P.679684. Gardner M.On the paradoxia1 situation that arise from nontransitive re1ations//Sci.Am.1974.Vol.231.P.120128. Gat1in L. The informationa1 theoryand the living systems. N.Y.: Col итЫа Uni versi ty Press, 1975. P.'3540. Gay N.G., Walker J.E. The АТР operon: nuc1eotide sequence of promotor and the genes for the membrane proteins, and the de1ta subunit of E.co1i atpsynthetase/lNucl. Acids Res. 1981. Vo1. 9. 251 
Geor'ge D.G., Barker W.C., Hunt L.T. The protein identification resource (РШ)// Nuc1. Acids Res., 1986. Vol.14,N 1.P.1116. George J., Chirikjian J.G. Sequencespecific endonuclease BamНl: re1axation of seqllence recogrli tion/ /Proc.Nat1.Acad.Sci. USA. 1982. Vo1.79.P.24322436. Gibbs A.J., Mclr.tyre G.A. The diagram, а method for comparing sequences// Eur.J.Biochem.1970.Vo1.16.P.111. Gi1bert W., Majors J., Махат А.М. Organisation and expression of chromosomes. Ber1in: Dah1em Konferenzen, 1976.P.167172. Goad W.B., Kanehisa M.I. Pattern recognition in nuc1eic acids sequences. 1. А genera1 method for finding local homo1ogyes and symmetries//Nuc1.Acids Res.Vo1.1982,N 10.Р.24726З. Go1d L., Pribnow D., Schneider Т., et a1. //Апп. Rev. Microbiol. 1981. Vr 35.Р.3634QЗ. Go1dstejn L., Waterman M.S. Mapp1ng DNA Ьу stochastic re1axation// Adv.App1ied Math.1987.Vol.8,N 2.P.194207. Golovanov Eu.I., Sprizhitsky Уи.А., Alexandrov А.А. Computer ana1ysis of functiona1 sites оп nucleotide sequences//Structure and functions of proteills and nuc1eic acids: 6th USSRFrance simposium: Abstracts. Tskha1tubo, 1982.Р.52. Gotoh О., Tagashira У. Sequence search оп а supercomputer// Nuc1. Acids Res.1986.Vo1.14.P.5764. Gough E.J.,Gough N.H. Direct ca1cu1ation of the sizes of DNA fragments separated Ьу gel e1ectrophoresis//Nuc1eic Acids Res. 1984. Vo1.12,N 1.P.845853. Goulden I.P.,Jackson D.M.An inversion theorem for cluster decom position of sequences with distinguished subsequences// J. London Math.Soc.1979.Vol.20.P.567576. Gouy М., Gauntier G. Codon Usage in bacteria: cGrrelation witn gene expressivity/lNuc1.Acid.Res.1982.V01.10.P.70557074. Gouy М., Vi1leret F., Mugnier С.. Jacobzone М., Gautier С. ACNUC: а nuc1eic acid'sequence data base and ana1ysis systeml/ Nucl. Acids Res.1984.Vol.1,N 1.P.121127. Gra11a J., Crothers D.M. Free energy of imperfect nucleic acid hellees. II. Sша1l hairpin 100ps//J.Mo1.Biol. 1973. Vo1.73,N 4. P.497511. Grantham R. Amino acids difference foru1a to he1p explain protein evo1ution/JScience.1974.Vo1.185.P.862864. Grantham R., Gautier С., Gony М. Codon frequences in 119 individua1 genes confirm consistent choices о! degenerate bases according to genome type/lNucl. Acids Res.1980a, Vo1.8.P.18931912. Grantham R., Gautier С., Gouy М., et a1. Codon cata10g usage and genome hypothesis/lNuc1.Acids Res.1980b.Vol.8.P.r49r62. 252 
Gray A.J., Beecher D.E., Olson М.У. Computerbased image ana1ysis of onedimensiona1 e1ectrophoretic ge1s used for the separation of DNA restriction fragments//Nucl.Acids Res.1984.Vo1.12,N 1. Р. 47З 491. Gribskov М., Devereux J.. Burgess R.R. The codon preference p1ot: grafic ana1ysis of protein coding sequences and p,ediction of genc expressiorv/Nuc1.Acid Res.1984.Vo1.12. Р.5З9550. Grob U., Stuber К. Recognition of i1ldefined signals in nucleic acid sequences//Comput. App1. Biosci.1988.Vol.4. N 1.P.7988. Grosjean Н., Fiers '. Preferentia1 codon usage in procaryotic genes: the optima1 codonanticodon interaction energy and the se1ective codon usage in efficient1y expressed genes//Gene.1982. Vol. 18. Р. 199209. Grossman А.О., Evickson J.W., Gross С.А. The htpR gene product o E.co1i is а sigma factor for heatshock promoters//Ce11.1984. Vo1. 38.P.383390. Gruskin K.D., Smith T.F. Molecu1ar genetics and computer analysis// Comput. App1. Biosci.1987.Vo1.3.P.167170. Guibas L.J., Od1yzko А.М. String over1aps, pattern matching and nontransitive games//J.Combinatoria1 Theory (ser.A). 1981. P.183 208. Hahn S., Dunn Т., Sch1eif R. Upstream repression and CRP stimu1ati оп of the Escherichia co1i Larabinose operon // J.Mo1.Bio1. 1984. Vo1.180.P.6172. Hamm G.H., Cameron G.N. The ЕМВL data 1ibrary//Nuc1. Acids Res.1986. Vo1.14,N 1.P.510. Har1ey С.В., Reyno1ds R.P. Ana1ysis of Е. co1i promoter sequences// Nuc1.Acids ReS.1987.Vo1.15.P.23432361. Harr R., Fa11man Р., Haggstrom М., Wah1strom L., Gustafsson Р. GENEUS, а computer system for DNA and protein sequence analysis containing an information retrieva1 system for the EMBL data 1ibrary//Nuc1. Acids Res.1986.Vo1.14,N 1.P.273284. Harr R., Haggstrom М., Gustafsson Р. Search algorithm for pattern match ana1ysis of nuc1eic acids sequences/lNuc1. Acids Res. 1983. Vo1.11.P.29432957. Hasegava М., Yasunaga Т., Miyata Т. Secondary structure of MS2 phage PA and bias in code word usage//Nuc1.Acids Res. 1979. Vo1.7,N 7. P.20732079. HelmBychowski К.М., Wi1son А.С. Rates of nuc1ear DNA evolution in pheasantlike birds: Evidence from restriction maps//Proc.Nat1. Acad.Sci.USA.1986.Vo1.83,N 3.P.688692. Hinds '.Р., Blake R.D. De1ineation of coding areas in DNA sequences through asignment of codon probabi1ities// J. Biomol. Struct. Dyn. 1985. Vo1.3.P.543551. 253 
Honigman А., Mahaina J., A1tuvia S., et a1. P1asmid vectors designed for the ana1ysis of transcription termination signa1s//Gene. 1985. Vo1.36,N 2.P.131141. Hopfie1d J.J. Neura1 networks and physica1 systems with emergent co11ective computationa1 abi1ities//Proc.Nat1.Acad.Sci.USA. 1982. Vo1.79.P.25542558. Hoy1e Р. Use of commercia1 software оп IBM persona1 computers// Nuc1eic acid and protein sequence ana1ysis: а practica1 approach/ M.J.Bishop, C.J. Raw1ings. Oxford; Washington, D.C.: IRL Press, 1987.417 с. ' Hunt Т.Р., Magasanik В. Transcription of glnA Ьу purified Escherichia co1i components: core RNA po1ymerase and the products of glnF, glnG and glnL//Proc.Natl.Acad.Sci.USA.1985.Vo1.82.P.8453 8457. Iida У. DNA sequences and mu1tivariate statistica1 ana1ysis. Categorica1 discrimination approach to 5' sp1ice site signa1s of mRNА precursors in higher eukaryotes' genes//Comput.App1. Biosci. 1987.Vo1.3.P.9398. Ikemura Т. Correlation between the abundance of E.co1i transfer RNAs and the occurence of the respectiv codons in its protein genes: А proposa1 for а synonymous codon choise that is optima1 for the E.co1i trans1ationa1 system//J.Mo1. Bio1.1981.Vo1.151.P.389409. Ikemura Т. Correlation between the abundance of yeast transfer RNAs and the occurance of the respective codons in protein genes// J.Mo1.Biol.1982.Vo1.158.P.573597. Irani М.Н., Orosz L., Adhya S. Contro1 e1ement within а structural gene  the ga1 operon of Escherichia coli// Ce11. 1983. Vo1.32. P.783788. lserentant D., Fiers W. Secondary structure of mRNА and efficiency of translation initiation//Gene.1980.Vo1.9, N 1.P.112. Isono К. А computer program package for storing and retrieving DNAlRNA and protein sequence data//Nuc1.Acids Res.1984.Vo1.12,N 1. P.101112. Jacobson А.В., Good L., Simonetti J., Zuker М. Some simp1e computa tiona1 methods to improve the fo1ding of 1arge RNAs// Nuc1.Acids Res.1984.Vol.12,N 1.P.4552. Johnson M.S., Doo1itt1e R.F. А method for the siтu1taneous alignment of three or more amino acid sequences// J.Mo1.Evo1. 1986. Vo1. 23. P.267278. Jordan B.R. Computer generation of pairing schemes for RNA mo1ecu les// J.Theor.Bio1.1972.Vo1.34,N 2.Р.З63378. Kanehisa М. Use of statistica1 criteria for screening potentia1 homo1ogies in nuc1eic acids sequences// Nuc1eic Acids Res.1984. Vol.12,N 1.P.203214. 254 
Kanehisa М., K1ein Р., Greif Р., DeLisi С. Computer ana1ysis and structure prediction of nuc1eic acids and protein//Nuc1. Acids Res. 1982.Vo1.10,N 1.P.417428. Kar1in S., Ghandour G., Ost F., Tavare S., Korn L.J. Newapproaches for computer ana1ysis of nuc1eic acid sequences// Proc.Nat1. Acad. Sci.USA.1983.Vo1.80.P.56605664. Karp R.M. А characterization of the minimum cyc1e mean in а digraph//Discrete Math.1978.Vol.23,N 3.P.309311. Ke1ly T.J.,Smith Н.О. А restriction enzyme from Hemophi1is inf1uenzae. II.Base sequence of recognition site//J.Mo1.Bio1.1970. Vo1.51,N 2.P.392400. Kess1er С., Ho1tke H.J. Specificity of restriction endonuc1eases and methy1ases  а review (Edition 2)// Gene, 1986.Vo1.47.P.1153. Khoury G., Gruss Р. Enhancer e1ements//Ce11.1983.Vo1.33, P.313314. Kieser Т. DNAGEL: а computer program for determining DNA fragment sizes using а sma11 computer equipped with а graphics tablet// Nuc1. Acids Res.1984.Vo1.12,N 1.P.679689. Kohara У., Akiyama К., Isono К. ТЬе physical mар of the who1e Esche richia coli chromosome: app1ication of а new stratatgy for rapid ana1ysis and sorting of 1arge genome 1 ibrary//Ce1 1. 1987. Vo1. 50. P.495508. Ko1askar A.S., Reddy В.У.В. А method to 10cate protein coding sequences in DNA of procariotic systems//Nuc1.Acids Res. 1985. Vo1.13.P.185194. Ko1ter R., Yanofsky С. Attenuation in amino acid biosynthetic operons// Ann. Rev. Genet.1982.Vo1.16.P.113134. Konopka А. Is the information content of DNA evolutionary signifi cant// J.Theor.Biol.1984.Vo1.107.P.697704. Korn L.J., Queen C.L. Ana1ysis of bio1ogica1 sequences оп sma1l соm, puters//DNA.1984.Vo1.3.P.421436. Korn L.J., Queen C.L., Wegman M.N. Computer ana1ysis of nuc1eic acids regulatory sequences//Proc.Nat.Acad.Sci. USA.1977.Vo1. 74. P.44014405. Kramer F.R., Mi11s D.R. Secondary structure formation during RNA synthesis//Nuc1.Acids Res. 1981.Vo1.9,N 19.P.51095124. Kruger К., Grabowski P.J., Zaug A.J., et a1. Se1fsp1icing RNA: Autoexcision and autocyclisation of the ribosoma1 RNA intervening sequence of Tetrahymena//Ce1l.1982.Vo1.31. P.147157. Kry10v V.N. Mo1ecu1ar bases of genetic processes// Proc. of the 14 Intern.Congr.Genet.Moscow:Mir,1981.Vo1.3. B.2.P.1524. Kuhara S., Matsuo F., Futamura S., et al. GENAS: а data base for nucleic acid sequence ana1ysis//Nuc1. Acids Res.1982.Vo1.10,N 1. P.89100. Lander E.S., Waterman M.S. Genomic mapping Ьу fingerprinting random 255 
c1ones: а mathematica1 ana1ysis//Genomics. 1988. Vo1.2.P.231239. Landau М., Vishkin U., Nussinov R. Ап efficient string matching algorithm with k differences for nuc1eotide and amino acids sequenses//Nuc1.Acids Res.1986.Vo1.14.P.247263. Lawrence С.В. Data structures for DNA sequence manipulation//Nuc1. Acids Res.1986.Vo1.14,N 1. P.205216. Lefschez S. Applications of a1gebraic topo1ogy. Graphs and networks. The PicardLefschez theory and Fеуnшап integra1s.N.Y.: Springer Ver1ag,1975.P.220. Lewis J., Doty Р. Derivation of the secondary structure of 5S RNA from its binding of comp1ementary 01igonuc1eotids// Nature. 1970. Vo1.225,N 5232.P.510512. Lipman D.J., Maize1 J. Comparative ana1ysis of nuc1eic acid sequen ces Ьу their general constraints//Nuc1. Acids Res.1982.Vo1.10,N 8. P.27232739. Lipman D.J., Wi1bur W.J. Contextua1 constraints оп synonymous codon сhоiсе//J.Моl.Вiо1.1983.Vо1.163.Р.36З376. Lipman D.J.. Wi1bur W.J., Smith T.F., Waterman M.S. Оп the statis tica1 significance of nuc1eic acids similarities//Nucl. Acids Res. 1984.Vo1.12,N 1.P.215226. Luk К., Szyba1ski W. А c1uster of 1eftward, rhodependent t j ' terminators in the J gene of co1iphage lambda//Gene. 1983.Vo1.21, N 3.P.175191. Maina С.У., Nolan G.P., Szalay A.S. Molecu1ar weight determination program//Nuc1.Acids Res.1984.Vol.12, N 1.P.695702. Maizel J.V., Lenk R.P. Enhanced graphic matrix ana1ysis of nucleic acid and amino acid sequences//Proc.Nat1.Acad.Sci.USA.1981.Vo1.78. P.76657669. Martinez Н.М. An efficient method for finding repeats in mo1ecular sequences//Nuc1.Acids Res.1983.Vo1.11.P.46294634. Martinez Н.М. Ап RNA fo1ding ru1e//Nuc1.Acids Res. 1984. Vo1.12,N 1. P.323333. Maruyama Т., Gojobori Т., Aota S., Ikemura Т. Codon usage tabu1ated from GenBank genetic sequences data /lNuc1.Acids Res.1986. Vo1.14. P.r151r197. McC1ure W.R. Mechanism and contro1 of transcription initiation in prokaryotes//Ann.Rev.Biochem.1985.Vo1.54. P.171204. McLachlan A.D., Bosswe1l R.D. Confidence 1imits for homo1ogy in pro tein and gene sequences. The cmyc oncogene and adenovirus Е1а protein//J.Mo1.Bio1. 1985.Vo1. 185. P.3949. Mironov А.А., A1exandrov N.N. Statistica1 method for rapid homo1ogy searchllNuc1. Acids Res.1988.Vo1.16.P.51695174. Mironov А., Kister А. RNA secondary structure formation during transcription//J.Biomo1ec. Struct.Dyn.1986.Vo1.4, N 1.P.19. 256 
Mishe1 C.J. New statistica1 approach to discriminate between protein coding and noncoding regions in DNA sequences and its evo1utionJ/ J.Theor.Bio1.1986.Vo1.120,N 2.P.22232236. Modiano G., Battistuzzi G., Motu1sky A.G. Nonrandom patterns of codon usage and of nuc1eotide substitutions in human alfa and betaglobin genes: An evo1utionary strategy reducing the rate of mutations with dratic effects//Proc.Nat1.Acad.Sci.USA. 1981. Vo1. 78. P.11101114. Moreau J., Marcaud L., Maschat F., et a1. A+Trich 1inkers define functiona1 domains in eukaryotic DNAI/Nature.1982. Vo1.295. P.260 262. Mu1ler У., Fitch W.M. Evo1utionary se1ection for perfect hairpin structures in viral DNAs//Nature.1982.Vo1.298.P.582585. Mu1ligan М.Е., Hawley D.K, McC1ure W.R. Escherichia co1i promoter sequences predict in vitro RNA polymerase se1ectivity//Nucl.Acids Res.1984.Vo1.12,N 1.P.789800. Murata М., Richardson J.S., Sussman J.L. Simu1taneous comparison of three protein sequences//Proc. Natl. Acad. Sci. USA.1985.Vo1.82. P.30733077. Naharro G., Robbins К.С., Reddy Е.Р. Gene product of vfgr Опс: hybrid protein containing а portion of actin and tyrosinspecific protein kiпаsе//Sсiепсе.1984.Vоl.223.Р.6З66. Nakata К., Kanehisa М., Delisi Ch. Prediction of splice junctions in mRNА sequences//Nuc1.Acids.Res.1985.Vo1.13, P.53275340. Need1eman S.B., Wunsch C.D. А Genera1 method app1icable to search for simi1arities in the amino acids sequences of two proteins// J. Mo1.Bio1.1970.Vo1.48.P.444453. Neumaier P.S. А program package app1icable to the detection of over1aps between restricton maps//Nuc1.Acids Res.1986. Vo1.14,N 1. Р. 351 362. No1an G.P.. Maina С.У., Sza1ay A.S. P1asmid mapping computer programl/ Nuc1.Acids Res.1984.Vo1.12,N 1.P.717729. Nuc1eic acid and protein sequence ana1ysis: а practica1 approach/ M.J.Bishop, C.J. Raw1ings. Oxford;Washington, D.C.:IRL Press,1987. 417 с. Nussinov R. Some ru1es in the ordering of nuc1eotides in the DNA// Nucl.Acids Res.1980a.Vo1.8.P.45454562. Nussinov R. Strong adenine c1ustering in nuc1eotide sequences// J. Theor.Biol.1980b.Vo1.85.P.285291. Nussinov R. Nearest neighbour nuc1eotide patterns// J.Bio1. Chem. 1981a.Vo1.256.P.84588462. Nussinov R. Eucariotic dinuc1eotide preference ru1es and their imp1ication for degenerate codon usage //J.Mo1.Bio1.1981b. Vo1. 149.P.125131. 257 
Nussinov Н. Doublet frequences in evo1utionary distinct groups// Nucl. Acids Res.1984a.Vo1.12.P.17491763. Nussinov R. Strong doublet preferences in nuc1eotide sequences and DNA geometry//J.Mo1.Evo1.1984b.Vo1.20.P.111119. Nussinov R. Compi1ation of eukaryotic sequences around transcription initiation sites//J.Theor.Biol.1986a.Vo1.120, P.479487. Nussinov R. Some guide1ines for identification of recognition sequences: regu1atory sequences frequent1y contain (T)GTG/CAC(A), TGAlTCA and (T)CTC/GAG(A)// Biochim. Biophys. Acta.1986b.Vo1. 866. P.93108. Nussinov R., Jacobson А.В. Fast a1gorithm for predicting the secondary structure of sing1estranded RNAI/Proc. Nat1. Acad.Sci USA.1980.Vo1.77,N 11.P.63096313. Olson М.У., Dutchik J.E., Graham М.У. et.a1. Random c10ne strategy for genomic restriction mapping in yeast//Proc. Nat1.Acad.Sci.USA. 1986.Vo1. 83.P.78267830. Papanico1au С., Gouy М., Ninio J. Аn energy mode1 that predicts the correct fo1ding of tRNA and the 5S RNA mo1ecu1es// Nuc1.Acids Res. 1984.Vo1.12,N 1.P.3144. Parker R.C., Watson R.M., Vinograd J. Mapping of c10sed circular DNAs Ьу c1eavage with restriction endonuc1eases and ca1ibration Ьу agarose gel e1ectrophoresis//Proc. Nat1.Acad.Sci.USA.1977.Vo1. 74, N 3.P.851855. Pearson W. Automatic construction of restriction site maps//Nuc1. Acids Res. 1982.Vo1.10,N 1.P.217227. Pevzner Р.А. Ltup1e DNA sequencing: а computer analysis//J. Biomo 1ec. Struct. Dyn. 1989.Vo1.7.P.6373. Pevzner Р.А., Borodovsky М.Уи., Mironov А.А., I. The significance of deviation from mеаn statistica1 characteristics and prediction of the frequency of occurences of words//J. Biomo1ec. Struct.Dyn. 1989а. Vo1.6.P.10131026. Pevzner Р.А., Borodovski М.Уи., Mironov А.А., Linguistics of nucleotide sequences: II.Stationary words in genetic texts and zonna1 structure of DNA//J. Biomolec. Struct. Dyn. 1989Ь. Vo1.6. P.10271038. Phil1ips G.J., Arno1d J., Ivarie R. The effect of codon usage оп the oligonucleotide composition of the E.co1i genome and identifica tion of over and underrepresented sequences Ьу Markov c1ain analysis// Nuc1.Acids Res.1987a.Vo1.15.P.26272638. Phi1ips G.J., Arno1d J., Ivarie R. Monothrough hexanuc1eotide composition of the Escherichia co1i genome: а Markov chain ana1isis/lNucl.Acids Res.1987b.Vol.15.P.26112626. Pipas J.M., McMahon J.E. Method for predicting RNA secondary structure//Proc. Nat1. Acad. Sci. USA.1975. Vo1.72,N 9. P.201 258 
P1ikaitis B.D., Car10ne G.M., Edmonds Р., Mayer L.V. Robust estimation of standard curves for protein mo1ecu1ar weight and 1inear duplex DNA basepair number after ge1 e1ectrophoresis// Ana1.Biochem.1986.Vo1.152.P.346360. Po1isky В., Green Р., Garfin D.E. et a1. Specificity of substrate recognition Ьу EcoRI restriction endonuc1ease// Proc. Nat1. Acad. Sci. USA.1975.Vol.72.P.33103314. Po1ner G., Dorgai L., Orosz L. PМAP,PМAPS: DNA physica1 mар соп structing programs//Nuc1. Acids Res.1984.Vo1.12,N 1. P.227236. Porshke D. А direct measurement of the unzippering rate of а nuc1eic acid double hе1iх//Вiорhуs. Chem. 1974.Vo1.2.P.97101. PROPНET, а nationa1 computing resource for life science research// Nuc1. Acids Res.1986.Vo1.14,N 1.P.2124. Pu11man В. Mo1ecu1ar associations in bio1ogy. N.Y.: Academic Press. 1968.Р.235. ptashne М. The operon. Co1d Spring Harbor. N.Y.: Co1d Spring Harbor Laboratory Press.1978, P.325343. Puste11 J., Kafatos F.C. А convenient and adaptable microcomputer environment for DNA and protein sequence manipu1ation and analysis/lNuc1. Acids Res.1986.Vo1.14,N 1,479488. Rackwitz H.R., Zehetner G., Murialdo Н., et a1. Ana1ysis of cosmids using 1inearization Ьу phage 1ambda terminase//Gene.1985. Vo1.40, N 2. P.259266. Raw1ings С. The software directory for molecu1ar bio1ogists. E1ain Co1es:1986.P.300. Reich J.G., Drabsch Н., Daum1er А. Оп the statistica1 assesment of simi1arities in DNA sequences//Nucleic Acids Res.1984.Vo1.12.N 13.P.55295543. Reich J.G., Meiske W. А simp1e statistical significance test of window scores in 1arge dot matrices obtained from protein or nucleic acid sequences//Comput. App1. Biosci.1987.Vo1.3.P.2530. Roberts L. Who owns the human genome//Science.1987a.Vo1.237, N 4813.P.358361. Roberts L. Нитап genome: question of cost//Science.1987b, Vo1.237,N 4821.P.14111412. Rowe G.W., Trainor L.E.H. Оп the informationa1 Content of Vira1 DNAI/J.Theor.Bio1.1983.Vo1.101.P.151170. Russe1s P.J., Cranda11 R.E., Feinbaum Н. GELYSIS: Pasca1imp1emen ted ana1ysis of onedimensiona1 e1ectrophoresis ge1s//Nuc1.Acids Res. 1984.Vo1.12,N 1.Р.49З498. Sa1ser W. G10bin mRNA sequences: Ana1ysis of base pairing and evo1utionary imp1ications//Co1d Spring Harbor Symp. Quant. Bio1. 1977.Vo1.42.P.9851002. 259 
Sanger F., Coulson A.R., Hong G.F., Petersen С.В. Nucleotide sequences of Bacteriopnage DNA//J.Mol.Biol. 1982.Vol.162. Р.729. Sankoff D. Mutation trees of sequences//SIAМ J.Appl. Matt. 1975. Vol. 78.P.3542. Schaffer Н.Е., Sederoff R.R. Improved estimation о! DNA fragment lengths from agarose gels//Anal.Biochem.1981. Vol.115.P.113122. Schneider T.D., Stormo G.D., Gold L., Ehrenfeucht А. Information content of binding sites оп nucleotide sequences//J. Mol. Biol. 1986. Vоl.188.Р.4154Зl. Schneider T.D., Stormo G.d., Haemer J.S., Gold L. А design for computer nucleicacidsequence storage, retrieval, and manipula tionl/ Nucl. Acids Rеs.1982.VGl.10.Р.3013ЗО24. Schroeder J.L., Blattner F.R. Formal description of а DNA oriented computer langage.//Ncl. Acids Res.1982.Vol.l0, N 1.P.6984. Schroeder J.L., Blattner F.R. Leastsquares method for restriction mapping//Gene.1978.Vol.4,N 2.P.167174. Sellers P.S. Оп the theory and computation of evolutionary distances//SIAМ J.Appl.Math.1974.Vol.26.P.787793. Shapiro В.А., Nussinov R., Lipkin L.E., Maizel J.V.,Jr. Ап interactive dot matrix system for locating potentially significant features in nucleic acid molecules// J.Biomolec.Struct. Dyn.1987. Vol.4,N 5.P.697706. Shaw J.E., Bingham Н., Fuerst C.R., Pearson M.L. Multisite character of hostrange mutations in bacteriophage lambda//Virology. 1977. Vol. 83.P.180194. Shepherd J.C.W. Method to determine the reading frame of а protein from purine pyrimidine genome sequences and its possible evolutionary justification//Proc.Natl.Acad.Sci. USA.1981.Vol. 78. P.15961600. Shine J., Dalgarno L. The З'tеrminаl sequence of Escherichia coli 16S ribosomal RNA: Complementary to nonsense triplets and ribosomal binding sites// Proc. Natl. Acad. Sci.USA.1974.Vol.71.P. 1342lЗ46. Shostak R. Separation theory//J.Assoc. Comput. Mach. 1987. Vol.28.P. 769779. Shpaer E.G. Constraints оп codon context in Escherichia coli genes: their possible role in modulating the efficiency of translation// J.Mol.Biol.1986.Vol.188.P.555564. Shulman M.J., Steinberg С.М., Westmoreland N. The coding function of nucleotide sequences сап Ье described Ьу statistical analysis//J. Theor.Biol.1981.Vol.88.P.409420. Slater G.W., Rousseau J., Nooland.J. Оп the strething of DNA in reptation theories of gel electrophoresis/lВiopolymers.1987. Vol. 26, N 6.P.863872. O 
S 't h Н О B i rn  tal 'l н.с. А simple method for DNA restriction П!l" ....." J...J mapping//Nucl.Acids Rcs.1976.Vol.3.P.23872398. Smi th D.H. + Brutlag D., I"ledland Р., Kedes L.H. BIONET: Hational computing resource for molecular bio1ogy//Nucl. Acids Res.1986. Vol.14,N 1.P.1720. , . Smith T.F., Gruskin К., Tolman S., Faulkner D. ТЬс moleCUlar blOlogy сотРll ter research resou1ce/ /Nuc 1. Ас i ds Res. 1986. Vo 1. 14, N 1. Smith T.F., Waterman M.S., Burks С. The statistical distribution of nucleic acids similarities//Nucl. Acids Res.1985.Vol.13+ N 2. Smith н.о.. Wilcox K.W. А restriction enzyme from emophilis influenzae.I. Purification and general properties//J.Mol. Biol. 1970. Vol.51,N 2.P.379391. Southern Е.М. Measurement of DNA length Ьу gel electrophoresis// А 1 R . h 10""0 ' 1   ''1....\ T {") Р  1 0 З f')'l па ...1.-1 ос ет. J-I'::... 01 < 1 u.J, Н .... .. '--' . .v. Sobel Е., Martinez Н.М. А multiple sequence alignment progralv/ Nucl. Acids Res.1986.Vol.14.P.363374. Stadeп R. Аn interactive grapllics program for comparing and aligniпg nucleic acid and amino acid sequences//Nucl. Acids Res.1982. Vol. 10.P.29512961. Staden R. Measurements of the effects that coding for а protein has оп DNA sequence and their use for finding genes//Nucl. Acids. Res. 1984a.Vol.12.P.551567. Staden R. Computer methods to locate signals in nucleic acid sequences//Nucl. Acids Res.1984b.Vol.12,N 1.P.505 519. Staden R. Computer methods to locate genes and signals in nllcleic acid sequences//Genetic Engineering: principles and methods. 1985. Vol.7.P.67114. Staden R. The current status and portability of our sequence handling software//Nucl. Acids Res.1986.Vol.14, No 1.P.217 232. Staden R. Methods to definc and locate patters of motifs in sequences//Comput. Appl. Biosci.1988.Vol.4, N 1.P.5360. Staden R., McLachlan A.D. Codon prefsrence and its use in identyfy ing protein coding regiol1s in long DNA sequences//Nucl. Acids Res. 1982.Vol.10,N 1.P.141156. Statistical analysis of DNA sequence dataIВo.S.Weir. N:Y.: Dekker. Steele J.M. Long common subsequences and the proximity of 2 random strings//SIAM J.Appl.Math.1982.Vol.42.P.?31737. Stefic М. Inferring DNA structure from segmentation Data// Artif. Intel. 1978. Vol.11,N 1.Р. 85115. Stormo G.D. Identifyng coding sequences//Nucleic acid and protein sequence analysis: а practical approach/M.J.Bishop, C.J. Rawlings. Oxford;Washington, D.C.: IRL Press,1987. 417 с. Stormo G.D., Schneider T.D., Gold L. Characterization of trans lational ini tiation si tes in Е. со} i/ /Nucl. Acids Res.1982a.VoLl0 261 
Stormo G.D., Schneider T.D., Gold L., Ehrenfeucht А. Use of the "Perceptron" algorithm to distinguish translational initiation sites in E.coli//Nucl. Acids Res.1982b. Vol.10. P.299?3011. Stormo G.D., Schneider T.D. Gold L. Quantitative analysis of the relationship between nucleotide sequence and functional activity/I Nucl. Acids Res.1986.Vol.14, N 16.P.66616679. Studnicka GoM., Rahn G.M., Cummings I.W., Salser W. Computer method for predicting the secondary structure of singlestranded RNAI/ Nucl.Acids Res.1978.Vol.5,N 9.P.3365338? Stulich R., Rohde К. EМВOPRO  an automatically generated protein 1 sequence data base//Comput.Appl.Biosci.1989. Vol.5,N 1.P.1518. Sulston J., Mallet F., Staden R. et al. Software for genome mapping Ьу fingerprinting tесhniqцеs//Соmрut.Аррl.Вiоsсi.1988. Vol.4,N 1. Susskind М.М., Botstein D. Molecular genetics of bacteriophage Р22// МiсrоЬiоl.Rеv.19?8.Vоl.42.Р.З85413. Templeton A.R. Phylogenetic inference from restriction endonuclease cleavage site maps with particular reference to the evolution of humans and the apes//Evolut.1983. Vol.3?P.221244. Terry B.J., Jack W.E., Modrich Р. Facilitated diffusion during catalysis Ьу EcoRI endonuclease. Nonspecific interactions in EcoRI catalysis//J.Biol. Chem.1985. Vol.260.P.131301313? Thom R. Structural stability and morphogenesis. Chapter 7, N.Y.: Academic Press.19?5.P.124150. Tinoco I.,Jr., Uh1enbeck о., Levine M.D. Estimation of secondary structure in ribonucleic acids//Nature. 1971.Vol.230, N 5293. Tramontono А., Macchiato M.F. Probability of coding of а DNA sequence: an algorithm to predict translated reading frames from their thermodynamic characteristics/lNucl.Acids.Res.1986.Vol.14. Trifonov E.N., Brendel V. GNOMIC: а dictionary of the genetic code// Philadelphia: Balaban Publishing.1986.2?2P. Tuffery Р., Dessen Р., Mugnier С., Hazout S. Restriction тар construction using а 'complete sentences compatibility' algorithm//Comput.Appl. Biosci.1988.Vol.4,N 1.P.I03110. Uhlenbeck О.С., Borer P.N., Dengler B.,Tinoco I.,Jr. Stability of RNA hairpin loops: A6 Cт U 6 //J.Mol.Biol.19?3, Vol.?3,N 4. Ullman J.D. Principles of data base systems. Rockvil1, МD:Computer Sciene Press,1982. P.19?210. ValentinHansen Р., Albrechtsen В., LoveLarsen J.E. DNA protein recognition  demonstration of three genetically separated operator elements that are required for repression of the Escherichia coli deoCAВD promoters Ьу the deoR repressor//EМEO J. 1986.Vol.5.P.20152021. Waterman M.S. Sequence aligпment in the neighborhood of optimum with general application to dynamic programming//Proc.Nat.Acad.Sci.USA. 1983.Vоl.80.Р.312З3124. 262 
Waterman M.S.General methods of sequence comparison//Bull.Math.Bl01. 1984.46,N 4.P.473500. Waterman M.S MUltiple sequence alignment Ьу consensus// Nucl. Acids Res.1986.Vol.14.P.90959102. Waterman M.S. Probability distributlons for DNA sequences coтpa risons// Some mathematical questions lD biology. DNA Sequence Analysis.1986.P.2956. Waterman M.S., Arratia R.. Galas D.J. Pattern recognition in several sequences  consensus and alignment/IБull. Math.Biol. 1984. Vol. 46.P.51552? Waterman M.S., Grlggs J.R. Interval graphs and maps of DNA// Bull. Math. BiGl.1986.Vol.48,N 2.P.189197. Waterman M.S., Smith T.F., Beyer W.A. Some biological sequence metrics//Adv.Math.1976.Vol.20.P.367387. Waterman M.S., Smith T.F., Katcher H.L. Algorithm lor restrlction тар comparisons/lNucl.Acids Research.1984.Vol.12, N 1.P.237242. Wilbur W.J., Lipman D.J. Rapid similarity searches of nucleic and protein data banks//Proc.Nat.Acad.Sci.USA., 198З.Vоl.80.Р.726730. Williams А. . Tinoco I.fJr. А dynamic programming algorithm for finding alternative RNA secondary structures//Nucl. Acids Res. 1986.Vol.14.P.299315. Williams М.Е. Electronic Databases//Science.1985.Vol.228, P.4454b6. Woese C.R., Magrum L.J., Gupta R., et al. Secondary structure model for bacierial 16S ribomal RNA: phylogenetic, enzymatic aпd chemical evidence//Nucl.Acids Res.1980.Vol.8,N 10. P.22752293. Wong J.T.F., Cedergren R. Natural selection versus primitive gene structure as determinant of codon usage//Eur.J.Biochem. 1986. Val. 159.P.175180. Wulkan M.,Lott T.J. Computeraided construction of nucleic acid restriction maps using defined vectors//Comput. Appl. Biosci.1985. Vol.l,N 4.P235239. Zehetner G., Frischauf А., Lehrach Н. Approaches to restriction тар determination//Nucleic acid and protein sequence analysis: а practical approachIМ.J.Bishop, C.J. Rawlings. Oxford;Washiпgton, D. С.: IRI. Press. 1987. 417 с. Zehetner G., Lehrach Н. А computer programт package for restriction тар analysis and manipulation//Nucl.Acids Res.1986. Vol.14, N 1. Zhurkin V.B. Perlodicity in DNA primary structure is defined Ьу secondary structure of the coded proteinl/ Nucl. Acids Res. 1981. Vol.9.P.19631971. Zuker,M., Stiegler.P. Optimal computer folding of large RNA sequen ces uSing thermodynamics and auxiliary informationl/ Nucl. Acids Res. 1981.Vol.9,N 1.P.133148. 
оrЛАВЛЕНИЕ ПРЕДИСЛОВИЕ · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·  . . . . . . . . . . . 4 . . .  .. ..... ..... .......4 ВВЕДЕНИЕ .................... . 4 . . . . . . · · · . · · · · · · · · · · rЛАВА 1. ПОИСК rомолоrИй (А.А.МироНов)..............................11 [JlAВA 2. СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА rЕНЕТИЧЕСКИХ ТЕКСТОВ (М.IO.БороJJ.ОВСКИЙ. П.А.Пев3нер)............................ .6 rJlAВA .. РАСПОЗНАВАНИЕ КОдиРУ1Оl1IИX ОБЛАСТЕй В НУКЛЕОТИДИЫХ ПОСЛЕДОВАТЕЛЬНОСТЯХ (М.IO.БородовсКий)......................81 rЛАВА 4. РАСПОЗНАВАНИЕ ФУНКUИОНАЛЬНblХ сиrНАЛОВ (Н. Н. Александров. 10 А Калам6ет ) , ............................ 113 . . . . . . . . . . . . . . . . . . . rЛАВА 5. ФИЗИЧЕСКОЕ (РЕСТРИКllИОННОЕ) КАРТИРОВАНИЕ МОЛЕКУЛ ДИК (П.А.Пев3нер)............................................ .154 rЛАВА 6. МЕТОДЫ ПРЕДСКАЗАНИЯ ВТОРИЧНЫХ СТРУКТУР РНК (А. э. Кист ер ) . . . . . . . . . . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . . . . . .. 189 rJAВA 7. оРrАНИЗАUИЯ ХРАНЕНИЯ МОлЕКУлЯРНоrЕНЕТИЧЕСКОй ИНФОРМAllИИ В БАЗАХ дАННЫХ. ПАКЕТЫ ПРИКJIAДRЫХ проrРАММ АНАЛИЗА НУКЛЕОТИдНЬcr ПОСЛЕДОВАТЕЛЬНОСТЕй (В.А.lliепелев)............221 II1'iiЛ()][Е А....................................................... Ll JI1iTEPATA.. . · · · . · · · . · . · . . · . . · . .. . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. 2Ll Научное издание Александров Александр Анатольевич, Александров Николай Николаевич, Бородовский Марк Юрьевич и др. КОМПЬЮТЕРНЫЙ АНАЛИЗ rВНЕТИЧЕСКИХ ТЕКСТОВ Утверждено к печати Институтом молекулярной rенerики АН СССР Редактор издаreльcтsа Р.,Л. ЦЫБУЛЬСКАЯ. Художник Б.м. РЯБЫI1IEВ Художественный редактор НJi. миХАйлОВА Технический оедактоо л.и. КУПРИЯНОВА ИБ f,"O 40240 ПОдm!'сано:в печать 20.02.90. Т-07702.. Формат 60х90 1{16. Бумarа оenП5\ tr 1. I1eчзть ОфСPТJ.Iая. Уcл.nеч.л. 16,5. Усл. кр. отт. 16,88. Уч.-изд.л. 18,1. Тираж 1800 экэ. Тип. эак. 4327. иена з р. 40 }(. Opeн8. !рудовото Краснorо Знамени издательство "Наука" 117864 rСП-7, Москва 85 Профсоюэная ул.. 90. 2"Я тиnоrрафия иэдательстэ "Наука", 121099, Москва r -99, 1IIубинский пер., 6. Ориrинan-макет попrотовлен на компьютере в Институте молекУлярной rеиerики АН СССР