Текст
                    


R&C
СЕРИЯ «БИОИНФОРМАТИКА И МОЛЕКУЛЯРНАЯ БИОЛОГИЯ» Главные редакторы: Садовничий В. А. (МГУ им. М. В. Ломоносова) Скулачев В. П. (факультет биоинженерии и биоинформатики МГУ им. М. В. Ломоносова) Редакционная коллегия: Богданов А. А. (Институт физико-химической биологии им. А. Н. Белозерского МГУ) Гельфанд М. С. (Институт проблем передачи информации им. А. А. Харкевича РАН) Есипова Н. Г. (Институт молекулярной биологии им. В. А. Энгельгардта РАН) Кирпичников М.П. (биологический факультет МГУ им. М. В. Ломоносова) Колчанов Н. А. (Институт цитологии и генетики СО РАН) Миронов А. А. (факультет биоинженерии и биоинформатики МГУ им. М. В. Ломоносова) Ризниченко Г. Ю. (биологический факультет МГУ им. М. В. Ломоносова) Ройтберг М. А. (Институт математических проблем биологии РАН) Рубин А. Б. (биологический факультет МГУ им. М. В. Ломоносова) Финкельштейн А. В. (Институт белка ПНЦ РАН) Шайтан К. В. (биологический факультет МГУ им. М. В. Ломоносова)
СЕРИЯ «БИОИНФОРМАТИКА И МОЛЕКУЛЯРНАЯ БИОЛОГИЯ» Вышли в свет: Дурбин Р., Эдди HL, Крог А., Митчисон Г Анализ биологических последовательностей Эвери Дж. Теория информации и эволюция Готовятся к публикации: Сету бал Ж., Мейданис Ж. Введение в вычислительную молекулярную биологию Бородовский М., Екишева С. Анализ биологических последовательностей. Задачи и решения

С. Игнасимуту Основы биоинформатики Перевод с английского А. А. Чумичкина Москва ♦ Ижевск 2007
УДК 57:004.383 И 264 ББК 28.071.3 Интернет-магазин http://shop.rcd.ru • физика • математика • биология • нефтегазовые технологии Игнасимуту С. Основы биоинформатики. — М.-Ижевск: НИЦ «Регулярная и хаотическая динамика», Институт компьютерных исследований, 2007. — 320 с. Настоящая книга является вводным курсом в биоинформатику и раскрывает основные вопросы этой дисциплины. Кратко изложена история развития и станов- ления биоинформатики как научной дисциплины. Приведены необходимые для ее изучения сведения из биологии, генетики и информатики. Рассмотрены принципы применения информационных технологий для управ- ления биологическими данными: организации и сохранения данных, разработки программных средств и создания информационных ресурсов, а также автоматизи- рованного анализа данных и интерпретации полученных результатов. Представлены современные методы разработки новых лекарственных препа- ратов. Дано описание и приведены веб-адреса большого числа отдельных программ, программных пакетов и баз данных, наиболее популярных среди специалистов в об- ласти биоинформатики. Книга адресуется студентам, исследователям, преподавателям и работникам фармацевтической промышленности. ISBN 978-5-93972-620-7 ББК 28.071.3 Originally published in English as BASIC BIOINFORMATICS © 2004 Narosa Publishing House, New Delhi — 110 002 All Rights Reserved. © 2004 Перевод на русский язык: НИЦ «Регулярная и хаотическая динамика» http://shop.rcd.ru http://ics.org.ru
Оглавление Благодарности................................................ 7 Предисловие.................................................. 8 Глава 1. История становления, предмет и значение биоинформати- ки ...................................................... 10 1.1. Знаменательные вехи в истории науки ................ 11 1.2. Развитие методики секвенирования.................... 18 1.3. Цели и задачи биоинформатики........................ 21 1.4. Прикладная область биоинформатики................... 23 1.4.1. Анализ гомологичности последовательностей.... 23 1.4.2. Разработка лекарственных препаратов ......... 24 1.4.3. Прогнозирующие функции....................... 24 1.4.4. Медицина..................................... 24 1.4.5. Права на интеллектуальную собственность...... 25 1.5. Проблемы и перспективы.............................. 27 Глава 2. Компьютеры, «Интернет», «Всемирная паутина» и «НЦБИ»................................................. 30 2.1. Компьютеры и программы.............................. 30 2.2. «Интернет».......................................... 34 2.3. «Всемирная паутина»................................. 37 2.4. Программы-обозреватели.............................. 39 2.5. «ЕМБнет» и СВП...................................... 42 2.6. «НЦБИ» ............................................. 44 Глава 3. ДНК, РНК и белки................................... 51 3.1. Развитие представлений о наследственности........... 51 3.2. ДНК................................................. 56 3.3. РНК................................................. 61 3.4. Транскрипция и трансляция........................... 69 3.5. Белки............................................... 74
Глава 4. Секвенирование и анализ ДНК и белков..................... 82 4.1. Геномика и протеомика..................................... 82 4.2. Картографирование генома.................................. 87 4.3. Методы секвенирования ДНК................................. 88 4.4. Открытая рамка считывания (ОРС)........................... 91 4.5. Определение последовательности клона...................... 95 4.6. Ярлыки экспрессируемых последовательностей................ 97 4.7. Секвенирование белков..................................... 99 4.8. Анализ экспрессии генов и белков..........................101 4.8.1. Микроматрицы ДНК ..................................102 4.8.2. Анализ экспрессии белков......................108 4.8.3. Открытие генов................................111 4.9. Проект «Геном человека»..............................115 Глава 5. Базы данных, программы и их назначение...................122 5.1. Значение баз данных..................................122 5.2. Базы данных последовательностей нуклеиновых кислот ... 130 5.3. Базы данных белковых последовательностей.............134 5.4. Базы данных структур.................................139 5.5. Библиографические базы данных и «Виртуальная библиотека» 148 5.6. Специализированные средства анализа..................149 5.7. Пути использования баз данных........................156 Глава 6. Выравнивание последовательностей.........................159 6.1. Алгоритм.............................................160 6.2. Цели и типы выравнивания.............................160 6.3. Изучение подобий.....................................163 6.4. Очки за мутации, выпадения и замены..................167 6.5. Методы выравнивания последовательностей..............173 6.6. Попарное выравнивание ....................................174 6.7. Множественное выравнивание последовательностей.......181 6.8. Алгоритмы распознавания доменов в белковых структурах . . 188 6.9. Алгоритмы сравнения структур.........................189 6.10. Рекомендации к выполнению поиска последовательностей . . 190 Глава 7. Методы предсказания белковых структур по последова- тельностям ДНК и аминокислот...............................197 7.1. Стратегии предсказания генов..............................197 7.1.1. Программы предсказания генов.......................200 7.2. Стратегии предсказания белков ............................202
7.2.1. I Ipwiciciriaiinc вторичной структуры.........204 7.2.2. (обсгвсинос стремление аминокислот к формирова- нию //-изгибов.......................................208 7.2.3. Библиотеки ротамеров .........................209 7.2.4. Предсказание трехмерной структуры.............210 7.2.5. Сравнительное моделирование...................211 7.2.6. Протягивание .................................212 7.2.7. Энергетический подход к предсказанию белковых структур ......................................213 7.2.8. Предсказание функций белков...................214 7.3. Программы предсказания белков........................215 7.4. Визуальное отображение молекул.......................218 Глава 8. Гомология, филогения и эволюционные деревья .... 221 8.1. Гомология и подобие..................................221 8.2. Филогения и родство..................................224 8.2.1. Подходы к филогенетическому анализу...........226 8.2.2. Филогенетические деревья......................231 8.2.3. Методы построения деревьев....................233 8.3. Молекулярные подходы к определению филогении.........237 8.4. Базы данных филогенетического анализа................239 Глава 9. Открытие лекарственных препаратов и фармакоинфор- матика ...................................................243 9.1. Открытие лекарственных препаратов....................243 9.1.1. Опознавание и утверждение мишени..............244 9.1.2. Определение опытного соединения...............246 9.1.3. Оптимизация опытного соединения...............247 9.2. Фармакоинформатика...................................249 9.2.1. Химические библиотеки.........................249 9.3. Программы поиска ....................................252 Приложение . . t..........................................260 Литература...................................................283 Словарь терминов.............................................287 Предметный указатель.........................................311

Благодарности Я выражаю искреннюю благодарность своим друзьям, которые всяче- ски поддерживали меня во время работы над этой книгой. Я очень признате- лен господину Ч. Муту за набор и подготовку к печати моей рукописи. Также хочу поблагодарить господина Р. Махимайраджа за графическую обработку иллюстраций. Я нахожусь в неоплатном долгу у многих издателей и авто- ров, позволивших мне позаимствовать некоторые рисунки и определения из их книг. И наконец, поздравляю сотрудников издательства с успешной работой!
Предисловие Посвящается преподобному отцу Петеру Хансу Колвенбаху, генералу Ордена иезу- итов Биоинформатика — междисциплинарный предмет. Это наука об исполь- зовании информации в изучении биологии. В биоинформатике биология, информатика и математика сливаются в единую дисциплину. Строго гово- ря, биоинформатика расширяет предметную область вычислительной био- логии, изучающей применение методов количественного анализа в модели- ровании биологических систем. Таким образом, биоинформатика изучает применение информационных технологий для управления биологическими данными. Объем биологической информации растет с феноменальной скоростью, что видно по темпам заполнения хранилищ геномов последовательностя- ми нуклеиновых кислот и белков. Троякая цель биоинформатики включает в себя организацию и сохранение данных, разработку программных средств и создание ресурсов, а также автоматизированный анализ данных и интер- претацию полученных результатов. Таким образом, под биоинформатикой мы подразумеваем науку о хранении, извлечении, организации, анализе, интерпретации и использовании биологической информации. С начала 1990-х гг. многие лаборатории заняты анализом полных ге- номов организмов некоторых видов например бактерий, дрожжей, мыши и человека. Благодаря этим совместным усилиям огромное количество дан- ных уже собрано и накоплено в базах данных, большая часть которых до- ступна для общего пользования. Эти данные ожидают анализа и оценки важности. Расшифрованные последовательности нуклеотидов и аминокис- лот необходимо проверять на предмет подобий и различий, и в настоящее время необходимо исследовать уже тысячи таких последовательностей. Раз- работка этих безмерных залежей данных и добыча информации, ценной для проведения дальнейших исследований и разработки новых изделий, — одна из задач биоинформатики. Биоинформатика не только дает ученым мужам теоретические осно- вания и вкладывает в их руки инструменты для анализа белков и ДНК,
Предисловие 9 но также руководит ими при оценке гомологичности последовательностей и в разработке лекарственных препаратов. Исследовательский аппарат био- информатики покоится на двух основополагающих принципах: принципе сравнения и группировки данных согласно биологически значимым подо- биям и принципе истолкования и объяснения наблюдений над данными одной категории на основе анализа данных другой категории. В биоинфор- матике применяются следующие виды анализа: попарное и множественное выравнивание, поиск в базах данных, сигналы, регулярные комбинации, карты последовательностей ДНК или белков, предсказание открытой рамки считывания и вторичной структуры. Стоит лишь представить себе возможности применения биоинформа- тики в различных областях науки и промышленности, как становится оче- видной вся важность подготовки высококвалифицированных кадров, что- бы человечество могло достойно ответить задачам постгеномной эпохи. Эта книга стремится познакомить читателя с основными понятиями био- логии, базами данных и сетевыми программными средствами биоинформа- тики. Мы надеемся, что эта книга удовлетворит индивидуальные запросы сегодняшних студентов, исследователей, преподавателей и работников фар- мацевтической промышленности. Преподобный отец доктор С. Игнасимуту, член Ордена иезуитов
Глава 1 История становления, предмет и значение биоинформатики В самом широком смысле термин «биоинформатика» означает инфор- мационную технологию в приложении к управлению биологическими дан- ными и их анализу. За период с 1950 г. и до наших дней в базах данных было собрано и накоплено большое количество данных расшифровки по- следовательностей, относящихся к геномам различных живых организмов. А поскольку сравнение последовательностей, состоящих из нескольких сотен нуклеотидов или аминокислот, не очень удобно проводить вручную, для этой цели было разработано несколько вычислительных методов. Там, где данные накапливаются быстрее, чем они могут быть проанализированы и использованы, существует большая потребность в профессионалах, владе- ющих программным обеспечением для обработки этой постоянно растущей массы информации. Определение Известно множество различных определений биоинформатики. Неко- торые из них приведены ниже. 1) Биоинформатика — это технология применения ЭВМ для решения информационных задач в области естественных наук; главным образом она занимается созданием обширной электронной базы данных последователь- ностей геномов и белков. Во вторую очередь биоинформатика развивает различные методики например пространственного моделирования биомо- лекул и биологических систем. 2) Биоинформатика — это автоматизированное управление всеми вида- ми биологической информации, включая гены и их продукты, целые орга- низмы или даже экологические системы.
1.1. Знаменательные вехи в истории науки 11 3) Биоинформатика — это интеграция математических, статистических и вычислительных методов анализа биологических, биохимических и био- физических данных. Сюда входит разработка способов хранения, выборки и анализа биологических данных например последовательностей нуклеи- новых кислот и белковых последовательностей, а также структур, функций, метаболических путей и моделей взаимодействия генов. 4) Биоинформатика — это отрасль информатики, отвечающая за хране- ние и анализ биологической информации, а также за манипуляцию данны- ми. Биоинформатика является фундаментальной инфраструктурой, на коей зиждется весь аппарат биологических исследований. 1.1. Знаменательные вехи в истории науки Ниже мы приводим хронологический список важнейших событий, ко- торые способствовали становлению биоинформатики как самостоятельной научной дисциплины: 1866 г. — Грегор Мендель опубликовал результаты своих опытов над пе- редачей наследственных «факторов» у растений гороха. 1928 г. — Эрвин Шрёдингер высказал предположение, что такой фактор имеет размеры около 1000 ангстрем. 1933 г. — А. Тизелиус предложил метод электрофоретического разделе- ния смеси белков в растворе. 1951 г. — Л. Полинг и Р. Кори предложили модели структур, образуемых полипептидной цепью белка: о-спирали и /3-листа. 1952 г. — Р. Франклин и М. Уилкинс с помощью рентгеноструктурного анализа обнаружили регулярный характер структуры ДНК. 1953 г. — Дж. Уотсон и Ф. Крик предложили модель двойной спирали ДНК. 1954 г. — М. Перутц и возглавляемая им группа ученых разработали ме- тоды изоморфного замещения тяжелыми атомами, позволившие решить проблему фаз в кристаллографии белка. 1955 г. — Ф. Сенгер расшифровал последовательность бычьего инсулина. 1957 г. — Артур Корнберг создал первую синтетическую молекулу ДНК.
12 Глава 1 1965 г. — Маргарет Дейхофф вместе с сотрудниками «Национального фонда биомедицинских исследований» («НФБИ»), Вашингтон, впервые собрали воедино базы данных белковых последова- тельностей. 1968 г. — Вернер Арбер, Гамильтон Смит и Дэниел Нат описали принцип действия рестриктаз. 1969 г. — Объединение компьютеров «Станфордского университета» и «Калифорнийского университета в Лос-Анджелесе» привело к созданию сети «АРПАнет» (ARPAnet). 1970 г. — Опубликовано подробное описание алгоритма Нидлмена- Вунша для сравнения последовательностей. — А. Дж. Гиббс и Г. А. Макинтайр описали новый метод сравне- ния двух последовательностей (аминокислот или нуклеотидов) с помощью точечной матрицы. 1972 г. — Пауль Берг, применив лигазу, сконструировал первую искус- ственную молекулу рекомбинантной ДНК. — Станли Коэн, Энни Чан и Герберт Бойер произвели первый организм с рекомбинантной ДНК. 1973 г. — Джозеф Сэмбрук со своей рабочей группой усовершенствовали метод электрофореза ДНК за счет применения агарозного геля. — Станли Коэн клонировал ДНК. — Создан «Брукхейвенский банк данных белка». — Роберт Меткалф в своей докторской диссертации описал сеть «Этернет» (Ethernet). 1974 г. — Винт Карф и Роберт Кан развили концепцию объединения ком- пьютерных сетей в глобальную сеть «Интернет» и разработали протокол управления передачей (ПУП) — (Transmission Control Protocol, TCP). 1975 г. — П. X. О’Фаррелл изобрел метод двумерного электрофореза в по- лиакриламидном геле с добавлением додецилсульфата натрия. — Эдвард Саузерн опубликовал описание разработанного им Саузерн-блот анализа.
1.1. Знаменательные вехи в истории науки 13 — Билл Гейтс и Пол Аллен основали корпорацию «Майкрософт» (Microsoft Corporation). 1977 г. — Фредерик Сенгер, Аллен Максам и Уолтер Гилберт освоили методику секвенирования ДНК. 1979 г. — В «Лос-Аламосской национальной лаборатории» («ЛАНЛ»), штат Нью-Мексико, Уолтер Гоуд с сотрудниками впервые объ- единили базы данных последовательностей ДНК в прототип базы данных «Генбанк» (GenBank). 1980 г. — Марк Сколник, Рей Уайт, Дэвид Ботштейн и Рональд Дейвис создали ПДР-маркерную1 карту генома человека. — Впервые расшифрована полная последовательность генов орга- низма «FX-174». — Вутрих в соавт. опубликовал статью с подробным описанием применения метода многомерного ЯМР для определения струк- туры белка. — Основана корпорация «Интеллиджинетикс» (IntelliGenetics Inc.) в Калифорнии. Ее первым продуктом был комплект программ для анализа последовательностей ДНК и белков «Интеллиджи- нетикс суит» (IntelliGenetics Suite). — Опубликован алгоритм Смита-Уотермена для выравнивания по- следовательностей. — Верховный суд США признал патентоспособность бактерий с искусственно модифицированным геномом. 1981 г. — Корпорация «ИБМ» (IBM) выпустила на рынок персональный компьютер. — Секвенирована митохондриальная ДНК человека. — Д. Бенсон, Д. Липмен с сотрудниками разработали «ГЕНИН- ФО» (GENINFO) — управляемую с помощью меню программу доступа к базе данных последовательностей. — Майзель и Ленк разработали различные схемы фильтрации и цветного отображения, которые значительно повысили удоб- ство применения метода точечных матриц. 1ПДР — полиморфизм длины рестрикта.
14 Глава 1 1982 г. — На рынок выпущен первый лекарственный препарат, основан- ный на рекомбинантной ДНК. — В «Университете штата Висконсин» при «Центре биотехноло- гий в Висконсине» открыт информационный отдел «Джинетикс компьютер труп» (Genetics Computer Group, GCG). 1983 г. — В продаже появился лазерный компакт-диск (CD). 1984 г. — В сети «Интернет» размещена система имен доменов (СИД) — (Domain Name System, DNS) Джона Постела. — Корпорация «Эппл компьютер» (Apple computer) выпустила на рынок компьютер «Макинтош» (Macintosh). 1985 г. — Кэри Муллис изобрел полимеразную цепную реакцию (ПЦР). — Опубликован алгоритм «ФАСТП» (FASTP). — Роберт Синшеймер внес первое предложение о разработке про- екта «Геном человека». 1986 г. — Томас Родерик ввел термин «геномика» для обозначения науч- ной дисциплины, рассматривающей вопросы картографирова- ния, секвенирования и анализа генов. — Корпорация «Амоко текнолоджи» (Amoco Technology Corpora- tion) приобрела «Интеллиджинетикс». — Отделом медицинской биохимии «Женевского университета» совместно с «Европейской лабораторией молекулярной биоло- гии» («ЕЛМБ») была создана база данных «Свисс-прот» (Swiss- PROT). — Лерой Худ и Ллойд Смит автоматизировали процесс секвени- рования ДНК. — Шарль Делизи созвал заседание с целью обсудить возможности определения нуклеотидной последовательности генома челове- ка. 1987 г. — Министерство охраны окружающей среды США официально объявило о запуске проекта «Геном человека». — И. Кохара в соавт. опубликовал физическую карту генома ки- шечной палочки (£. coll).
1.1. Знаменательные вехи в истории науки 15 1988 г. — Дэвид Т. Бёрк в соавт. описал методику применения дрожжевой искусственной хромосомы (ДИХ). — Пирсон и Липмен опубликовали алгоритм «ФАСТА» (FASTA). — При «Национальном институте рака» (США) организован «На- циональный центр биотехнологической информации» («НЦ- БИ»). 1989 г. — «Национальный институт здоровья» (США) учредил «Нацио- нальный центр исследования генома человека» («НЦИГЧ»). — Информационный центр «Джинетикс компьютер груп» стал частной компанией. — Компания «Оксфорд молекулар груп» (Oxford Molecular Group Ltd., OMG), Оксфорд, выпустила программные продукты: «Ана- конда» (Anaconda), «Асп» (Asp) и «Хамелеон» (Cameleon), а также программы для молекулярного моделирования, разра- ботки лекарственных препаратов и конструирования белковых молекул. 1990 г. — Альтшуль с группой программистов написали программу «БЛАСТ» (BLAST) для автоматического выравнивания после- довательностей ДНК. — Майкл Левитт и Крис Ли основали компанию «Молекулар ап- пликейшенз груп» (Molecular Applications Group) в Калифор- нии. — В Вифезде, штат Мэриленд, учреждена компания «Информакс» (InforMax). 1991г. — «ЦЕРН», Женева, объявил о создании протоколов, положивших начало «Всемирной паутине». — Крейг Вентер изобрел технологию опознавания генов с помо- щью ярлыков экспрессируемых последовательностей (ЯЭПов). — В Калифорнии создана компания «Инсайт фармасьютикалз» (Incyte Pharmaceuticals), занимающаяся развитием фармацевти- ческой геномики. — В Юте (США) основана компания «Мириад джинетикс» (Myriad Genetics Inc.), призванная определить гены основных заболева- ний и раскрыть механизмы их наследования.
16 Глава 1 1992 г. — Уильям Хазелтин открыл компанию «Хьюман джином системе» (Human Genome systems) в штате Мэриленд. — Крейг Вентер учредил «Институт геномных исследований» («ТИГР») — (The Institute for Genomic Research, TIGR). — Мэл Саймон с сотрудниками «Кал тек» (Cal Tech) изобрели бактериальную искусственную хромосому (БИХ) — ключевой элемент в сборке гена из клонов. — В проект «Геном человека» вошла компания «Уэлком траст» (Welcome Trust). 1993 г. — Френсис Коллинс принял на себя руководство проектом «Ге- ном человека». В Великобритании был открыт «Сенгеровский центр». К проекту присоединились некоторые другие страны. Завершение работы над проектом запланировано на 2005 год. — В Нью-Хейвене, штат Коннектикут, появилась корпорация «Кьюра джин» (CuraGen Corporation). 1994 г. — Основана корпорация «Нетскейп коммуникейшенз» (Netscape Communications Corporation), выпустившая на рынок программу-обозреватель «Навигатор» (Navigator). — Эттвуд и Бек создали базу данных белковых мотивов «ПРИНТС» (PRINTS). — В штате Мэриленд образована компания «Джин лоджик» (Gene Logic). 1995 г. — Ученые «ТИГРа» впервые расшифровали последовательность генома свободно живущего организма Haemophilus influenzae. — Патрик Браун с сотрудниками «Станфордского университета» изобрел технологию создания и применения микроматриц ДНК. 1996 г. — Секвенирован геном пекарских дрожжей (Saccharomyces cerevisiae). — Международный консорциум по проекту «Геном человека» сформировал «Бермудские правила» публикации научных дан- ных. — Барух в соавт. сообщил о создании базы данных «Просайт» (PROSITE).
1.1. Знаменательные вехи в истории науки 17 — Компания «Аффиметрикс» (Affymetrix) выпустила первые ком- мерческие чипы ДНК. 1997 г. — Опубликован геном Е. coli. — Компания «Оксфорд молекулар груп» приобрела «Джинетикс компьютер груп». — Появилась компания «ЛИОН байосайенс АГ» (LION bioscience AG). 1998 г. — Расшифрованы геномы червя Caenorhabditis elegans и дрожжей Saccharomyces cerevisiae. — Крейг Вентер основал компанию «Силера джиномикс» (Celera Genomics) в штате Мэриленд. — «Университетский колледж», Лондон, учредил «Инфаматику» (Inphamatica) — новую компанию по развитию геномики и био- информатики. — В Сан-Диего была образована компания «Джин форматикс» (Gene Formatics), долженствующая проводить анализ и пред- сказание структур и функций белков. — Создано некоммерческое научно-исследовательское учрежде- ние «Швейцарский институт биоинформатики». — «Национальный институт здоровья» (США) начал проект «ПОН1» с целью выявления изменений, происходящих в геноме человека. — «Силера джиномикс» предложила секвенировать геном челове- ка быстрее и дешевле, чем вышеозначенный консорциум. 1999 г. — Компания «Уэлком траст» сформировала консорциум для раз- вития проекта «ПОН». — Опубликована последовательность первой хромосомы человека. 2000 г. — Секвенированы геномы Pseudonomas aeruginosa, Arabidopsis thaliana и Drosophila melanogaster. — Компания «Фармакопея» (Pharmacopeia) приобрела «Оксфорд молекулар груп». 1 ПОН — полиморфизм отдельного нуклеотида
18 Глава 1 2001 г. — В середине февраля журналы «Сайенс» и «Нейче» опубликова- ли аннотации к геному человека и результаты его анализа. 2002 г. — Опубликованы последовательности геномов некоторых других организмов. Все вышеупомянутые события во многом, прямо или косвенно, спо- собствовали развитию биоинформатики. 1.2. Развитие методики секвенирования До 1945 г. не было известно ни одного метода количественного анали- за, пригодного для исследования какого-либо белка. Однако значительный прогресс методов хроматографии и мечения изотопными индикаторами, ко- торый наблюдался в последующее десятилетие, в конечном счете привел к раскрытию полного состава первой белковой последовательности (гормо- на инсулина). Расшифровка последовательности первого фермента (рибонуклеазы) была закончена к 1960 году. К 1965 г. было секвенировано около 20-ти белков длиной более 100 остатков, а к 1980 г. их число приближённо оце- нивалось равным 1500. К настоящему времени расшифровано уже более 300 000 последовательностей. Первый опыт Раньше большую часть белковых последовательностей секвенировали вручную методом последовательного расщепления по Эдману — денсиля- ции. Очень важным шагом к быстрому увеличению числа секвенируемых белков было изобретение автоматического анализатора аминокислот, что к 1980-му г. привело к 104-кратному увеличению чувствительности по срав- нению с методикой, предложенной Эдманом и Беггом в 1967 году. Впервые полный аминокислотный состав последовательности белка был определен в 1979 году посредством масс-спектрометрического анали- за. Эта методика сыграла решающую роль в открытии новой аминокисло- ты (7-карбоксиглутаминовой кислоты) и установлении ее местоположения в N-концевой области белка протромбина. В течение 1960-х и 1970-х гг. развитие методов анализа цепей нукле- иновых кислот представлялось невероятно трудной задачей. Когда же эти методы появились, то вначале они были применимы только для секвениро- вания РНК (рибонуклеиновой кислоты) и главным образом транспортной РНК (тРНК). Благодаря относительно малой длине (как правило, 74-95 ну-
1.2. Развитие методики секвенирования 19 клеотидов) и сравнительной простоте процедуры выделения отдельных молекул, тРНК оказалась идеальным материалом для этих ранних мето- дов. Усовершенствованные методы Молекула ДНК (дезоксирибонуклеиновая кислота) состоит из тысяч нуклеотидов, и поэтому сборка полной последовательности нуклеотидов целой молекулы хромосомной ДНК представляет собой весьма сложную задачу. С появлением технологии клонирования генов и ПЦР ученые полу- чили возможность выделять отдельные фрагменты хромосомной ДНК. Эти достижения в свою очередь проложили путь к развитию быстрых и эффек- тивных методов секвенирования ДНК. К 1977-му году появились два метода секвенирования, основанные со- ответственно на реакциях обрыва цепи и химического расщепления. Эти методы с некоторыми незначительными видоизменениями заложили осно- ву для революции секвенирования 1980-х и 1990-х годов и последующего рождения биоинформатики. Благодаря своей чувствительности, специфичности и возможности ав- томатизации, полимеразная цепная реакция (ПЦР) считается передовым ме- тодом анализа образцов геномной ДНК и построения генетических карт. Последующие усовершенствования базовой технологии ПЦР дополнитель- но увеличили мощность и практическую ценность этой методики. С момента получения в 1987 году первой последовательности, секве- нированной полуавтоматическим методом, изобретения ПЦР в 1990 г. и вне- дрения способа флуоресцентного мечения фрагментов ДНК, производимых методом полимерного копирования по Сенгеру, были осуществлены попыт- ки крупномасштабного секвенирования, также внесшие неоценимый вклад в развитие биоинформатики. Кроме этого, за данный промежуток времени значительное развитие получили технологии автоматизированной регистра- ции результатов секвенирования последовательностей. В начале 1980-х гг. исследователи имели возможность вручную (с по- мощью электронных перьев) считывать последовательности ДНК с картины полос на гелевой пленке. Затем появились устройства записи изображения, а именно камеры, которые оцифровывали оптическую информацию, полу- ченную в ходе гель-электрофореза. В 1987 году Стивен Кравец помог раз- работать первое программное обеспечение для устройств автоматического считывания информации с гелевых пленок. В начале 1990-х гг. Крейг Вентер с сотрудниками изобрел новый ме- тод определения генов. Вместо того чтобы секвенировать хромосомную
20 Глава 1 ДНК с предельным разрешением в один нуклеодит, группа Вентера выде- лила молекулы информационной РНК, копировала их в молекулы кДНК и затем секвенировала некоторую часть молекулы кДНК, в результате че- го были созданы ярлыки экспрессируемых последовательностей (ЯЭПы). Эти ЯЭПы могли быть использованы в качестве указателей для выделения целого гена. Кроме того, подход с применением ЯЭПов повлек за собой организа- цию огромных баз данных нуклеотидных последовательностей и, как пола- гают, развитие метода ЯЭПов показало осуществимость проектов высоко- производительного обнаружения новых генов и явилось ключевым толчком для развития прикладной геномики. Хранилища последовательностей К началу 1998 года в общедоступные безызбыточные базы данных бы- ло помещено уже более 300000 белковых последовательностей, а число частично расшифрованных последовательностей в общественных и корпо- ративных базах данных ЯЭПов оценивалось миллионами. Напротив, число пространственных структур в «Банке данных белка» («БДБ») до сих пор не превышает 20 000. Министерство энергетики США в 1980-х гг. запустило ряд проектов по созданию подробных генетических и физических карт генома человека. Их цель состояла в расшифровке полной последовательности нуклеотидов человеческого генома и в определении локусов предполагаемых 30000 ге- нов. Работа столь большого размаха подстегнула развитие новых вычис- лительных методов анализа генетических карт и данных секвенирования последовательностей ДНК, а также потребовала разработки новых методов и лабораторного оборудования для расшифровки и анализа ДНК. Чтобы принести наибольшую пользу обществу, данные проекты вызва- ли необходимость применения усовершенствованных средств распростра- нения информации с целью максимально быстрого ознакомления широкого круга ученых и врачей с результатами научных открытий и исследований. Международную научно-исследовательскую программу, явившуюся резуль- татом этой глобальной инициативы, назвали проектом «Геном человека» (ПГЧ). Полезные веб-узлы Довольно интересное руководство находится по адресу http://www.oml.gov/TechResources/Human_Genome/.
1.3. Цели и задачи биоинформатики 21 Краткий обзор роли, истории участия и достижений Министерства энергетики США в развитии проекта «Геном человека» помещен на сле- дующем веб-узле: http://oml.gov/TechResources/Human_Genome/publicat/tko/index.html. «Консорциум по аннотированию геномов» («КАГ») представляет изоб- ражения последовательностей различных геномов в форме иллюстрирован- ного справочника с графиком выполнения работ и т. д. Его адрес: http ://compbio. oml. go v/gac/index .html. Следующий веб-узел содержит данные картографирования и секвени- рования геномов самых разнообразных организмов: http://fp.mcs.anl.gov/~gaasterland/genomes.html. 1.3. Цели и задачи биоинформатики Основополагающий принцип биоинформатики состоит в том, что био- полимеры, например молекул нуклеиновых кислот и белков, могут быть преобразованы в последовательности цифровых символов. Кроме того, для представления мономеров аминокислотных и нуклеотидных цепей необхо- димо лишь ограниченное число алфавитных знаков. Подобная гибкость анализа биомолекул с помощью ограниченных ал- фавитов привела к успешному становлению биоинформатики. Развитие и функциональная мощь биоинформатики во многом зависят от прогрес- са в области разработки аппаратных средств и программного обеспечения ЭВМ. Простейшие задачи, стоящие перед биоинформатикой, касаются со- здания и ведения баз данных биологической информации. По сути, предмет биоинформатики включает в себя три компонента: 1) создание баз данных, позволяющих осуществлять хранение крупных на- боров биологических данных и управление ими; 2) разработка алгорит- мов и методов статистического анализа для определения отношений меж- ду элементами крупных наборов данных; 3) использование этих средств для анализа и интерпретации биологических данных различного типа — в частности, последовательностей ДНК, РНК и белков, белковых структур, профилей экспрессии генов и биохимических путей. Цели Цели биоинформатики следующие: 1) Организовывать данные таким образом, чтобы исследователи имели доступ к текущей информации, хранящейся в базах данных, и могли вносить в нее новые записи по мере получения новых сведений.
22 Глава 1 2) Развивать программные средства и информационные ресурсы, которые помогают в управлении данными и в их анализе. 3) Применять эти средства для анализа данных и интерпретации полу- ченных результатов таким образом, чтобы они имели биологический смысл. Задачи В целом задачи биоинформатики состоят в анализе информации, зако- дированной в биологических последовательностях. Последнее предполага- ет следующее: — Обнаружение генов в последовательностях ДНК различных организ- мов. — Развитие методов изучения структуры и (или) функции новых рас- шифрованных последовательностей и соответствующих структурных областей РНК. — Определение семейств родственных последовательностей и построе- ние моделей. — Выравнивание подобных последовательностей и восстановление фи- логенетических деревьев с целью выявления эволюционных связей. Помимо перечисленных выше задач, следует упомянуть еще один важнейший вопрос биоинформатики — обнаружение мишеней для меди- каментозного воздействия и отыскание перспективных опытных соедине- ний. Предмет Биоинформатика осуществляет следующие виды деятельности. 1) Управление биологическими данными и их обработка; сюда входит их организация, отслеживание, защита, анализ и т. д. 2) Организация связи между учеными, проектами и учреждениями, во- влеченными в фундаментальные и прикладные биологические иссле- дования. Связь может включать в себя электронную почту, пересылку файлов, дистанционный вход в систему, телеконференции, электрон- ные информационные табло и, наконец, учреждение сетевых информа- ционных ресурсов.
1.4. Прикладная область биоинформатики 23 3) Организация наборов биологической информации, документов и лите- ратуры, а также обеспечение доступа к ним, их поиска и выборки. 4) Анализ и интерпретация биологических данных с применением вычис- лительных методов, как-то: визуализация, математическое моделиро- вание, а также построение алгоритмов высокопараллельной обработки сложных биологических структур. 1.4. Прикладная область биоинформатики Вычислительная биология нашла применение во многих областях. По- мимо обеспечения ученых, исследующих белки и ДНК, теоретической ба- зой и вычислительно-аналитическим аппаратом, она помогает и во многих других вещах. В расшифровке смыслового содержания последовательностей наме- тились два различных аналитических направления: 1) согласно первому подходу ученые опираются на методы распознавания регулярных комби- наций, посредством которых обнаруживают подобие последовательностей и, следовательно, выявляют эволюционно связанные структуры и функции; 2) согласно второму подходу используют методы предсказания ab initio — для прогнозирования трехмерных структур и, в конечном счете, выведения функции непосредственно по линейной последовательности. Прямое пред- сказание трехмерной структуры белка по его линейной последовательности аминокислот — важнейшая цель биоинформатики. 1.4.1. Анализ гомологичности последовательностей Одна из движущих сил биоинформатики — поиск подобий между раз- ными биомолекулами. Помимо систематической организации данных, иден- тификация белковых гомологов имеет прямое практическое применение. Теоретические модели белков обычно основаны на структурах близких го- мологов, определенных опытным путем. Всякий раз, когда ощущается недостаток биохимических или струк- турных данных, могут быть выполнены исследования на дрожжеподобных низших организмах, а результаты могут быть распространены на гомоло- гичные молекулы более высоких организмов например человека. Более то- го, данный подход упрощает проблему понимания сложных геномов: за счет непосредственного анализа простых организмов и последующего рас- пространения тех же самых принципов на более сложные. Это могло бы привести к опознаванию потенциальных мишеней для медикаментозного воздействия путем испытаний на гомологах основных микробных белков.
24 Глава 1 1.4.2. Разработка лекарственных препаратов Опирающийся на биоинформатику подход к открытию лекарств да- ет важное преимущество. С помощью биоинформатики могут быть опи- саны генотипы, сопряженные с патофизиологическими состояниями, что в принципе позволит опознать соответствующие молекулярные мишени. Посредством программного транслятора по известной последовательности нуклеотидов может быть определена вероятная аминокислотная последова- тельность кодируемого белка. В случае принятия такого подхода методы изучения последовательно- стей могли бы применяться для поиска гомологов у опытных организмов; и на основании подобия последовательностей было бы возможно модели- ровать структуру конкретного белка, взяв за основу экспериментально уста- новленные структуры. И наконец, стыковочные алгоритмы могли бы проек- тировать молекулы, потенциально связывающиеся с моделируемой струк- турой, прокладывая тем самым путь для биохимических испытаний, прове- ряющих биологическую активность этих молекул уже на физическом белке. 1.4.3. Прогнозирующие функции Благодаря технологии массового просмотра данных можно получить ответ на ряд вопросов, касающихся эволюционных, биохимических и био- физических характеристик исследуемых биомолекул. Мы можем устано- вить: а) специфические свертки белка, соответствующие определенным филогенетическим группам, б) общность между различными свертками, на- блюдаемыми у отдельных организмов, в) долю аналогичных сверток, общих для родственных организмов, г) степень родства, выведенного из тривиаль- ных эволюционных деревьев, и д) различие метаболических путей у разных организмов. Кроме того, на основании того факта, что свертки белка часто связа- ны с определенными биохимическими функциями, можно получать дан- ные относительно функций белка. Путем комбинирования информации об экспрессии генов, а также структурной и функциональной классификации белков можно предсказать появление определенной свертки белка в гено- ме, что характерно для высоких уровней экспрессии. На основании анализа структурных данных можно составить карту взаимодействий всех белков того или иного организма. 1.4.4. Медицина Приложения к медицинским наукам затрагивают главным образом ана- лиз экспрессии генов. Как правило, это предполагает сбор данных об экс-
1.4. Прикладная область биоинформатики 25 прессии в клетках, пораженных различными заболеваниями, и сравнение этих измерений с нормальными уровнями экспрессии. Обнаружение ге- нов с измененной в пораженных клетках экспрессией создает основу для объяснения причин болезни и указывает потенциальные мишени для лекар- ственных препаратов. Располагая подобной информацией, можно разрабатывать соединения, которые связываются с экспрессируемым белком. Далее могут быть про- ведены эксперименты на микроматрицах, чтобы оценить реакцию на фар- макологическое воздействие полученного опытного соединения; подобная информация может помочь также в разработке тестов для обнаружения или прогноза токсичности опытных лекарств на стадии клинических испыта- ний. Объединение биоинформатики с экспериментальной геномикой может открыть путь для многих достижений, которые приведут к коренным из- менениям в будущих программах здравоохранения. К ним можно отнести послеродовое определение генотипа с целью оценки восприимчивости или устойчивости индивидуума к определенным болезням и патогенам, пред- писание уникального сочетания вакцин, уменьшение затрат на лечение за счет повышения эффективности терапии и предупреждения рецидивов за- болевания. Вкупе все эти новшества могут привести к разработке инди- видуальных пищевых рационов и выявлению заболеваний на ранних ста- диях. Кроме того, программы медикаментозного лечения могли бы специаль- но подбираться к конкретному пациенту и болезни, и таким образом обес- печивать наиболее эффективный курс лечения с минимальными побочными эффектами. В частности, проект «Геном человека» принесет несомненную пользу судебной медицине и фармацевтической промышленности, приве- дет к открытию многих полезных и вредных генов, внесет неоценимый вклад в развитие представлений об эволюции человека и, кроме того, бу- дет способствовать разработке методов диагностики болезней, возможных осложнений и генетически обусловленных реакций на терапевтическое воз- действие, а также развитию индивидуальных подходов к лечению, методов обнаружения мишеней для лекарственных препаратов и, наконец, станов- лению генотерапии. 1.4.5. Права на интеллектуальную собственность Права на интеллектуальную собственность (ИС) — неотъемлемая часть современных деловых отношений. Под правами на ИС понимают средства защиты любых нематериальных активов. Примеры ИС: патент, авторское
26 Глава 1 право, торговая марка, географический знак и коммерческая тайна. Патент — исключительная монополия, предоставляемая правительством изобретате- лю на пользование его изобретением в течение ограниченного периода вре- мени. Главные области биоинформатики, которые нуждаются в защите ин- теллектуальной собственности, следующие: а) средства управления инфор- мацией и ее анализа (например, методы моделирования, базы данных, алго- ритмы, программное обеспечение и т. д.), б) геномика и протеомика и в) от- крытие (разработка) лекарственных препаратов. Новшества Львиная доля новых разработок в биоинформатике относится к приме- нению реализованного на ЭВМ программного обеспечения (в том числе протоколов), предназначенного для сбора и (или) обработки биологиче- ских данных. Эти изобретения подпадают под общую категорию изобре- тений в области ЭВМ и подразделяются на изобретения, реализованные на ЭВМ, и изобретения, использующие машиночитаемые носители инфор- мации. Все эти изобретения имеют две составляющие: а) программное обес- печение и б) аппаратные средства ЭВМ. Например, основанная на критерии подобия автоматизированная си- стема распознавания новых групп последовательностей нуклеотидов в за- данном наборе нуклеотидных последовательностей может включать в себя устройство ввода, память и процессор (в качестве аппаратных компонентов системы), а также набор данных или метод использования команд, храни- мых в памяти и выполняемых процессором, — как программное обеспечение системы. Патентная охрана была бы неоценима в защите методов, исполь- зующих вычислительные возможности, таких как методы выравнивания последовательностей, поиска гомологий и моделирования метаболических путей. Геномика и протеомика Геномика осуществляет выделение и описание генов и приписывание последовательностям этих генов некоторых функций или назначений (на- пример экспрессии специфического белка или обозначения этого гена в ка- честве маркера определенной болезни). Эта работа предполагает проведе- ние большого числа лабораторных испытаний и применения разнообразных вычислительных методов. Эти методы также могут быть защищены права- ми на интеллектуальную собственность.
1.5. Проблемы и перспективы 27 Протеомика занимается очисткой и описанием белков, используя тех- нологии типа двумерного гель-электрофореза, многомерной хроматографии и масс-спектроскопии. Применение этих методов к определению свойств и обнаружению связи белка, то есть маркера, со специфической болезнью, является весьма сложным и трудоемким процессом и требует значительных инвестиций. Методы разработки лекарственных средств с применением автомати- ческого моделирования, которое предполагает использование ЭВМ и вы- числительных алгоритмов, также могут быть отнесены к интеллектуаль- ной собственности. В табл. 1.1. представлены некоторые примеры патентов в области биоинформатики. Таблица 1.1. Примеры патентов в биоинформатике Шифр Наименование рубрики 1.US 6355423 Методы и устройства для измерения диффе- ренциальной экспрессии генов 2. US 6 334099 Методы нормализации экспериментальных данных 3. US 5 579250 Метод рациональной разработки лекарствен- ных препаратов, основанный на ab initio ком- пьютерном моделировании конформационных особенностей пептидов 4. WO 98/15652 Секвенирование последовательностей ДНК и РНК с использованием рестриктаз 5. ЕР1 108779 ‘ Пространственные структуры по крайней мере одного полипептида 6. ЕРО 807 687 Очистка рекомбинантной протеазы и компью- терная программа, применяемая в разработке лекарственных препаратов 1.5. Проблемы и перспективы На пути развития биоинформатики стоит множество проблем: 1) Ученым приходится оперировать со все более и более сложными дан- ными и объединять источники информации в единую систему.
28 Глава 1 2) Чтобы обеспечить возможно лучшее понимание функций генов, дан- ные разнообразных типов данных должны обрабатываться одновре- менно. 3) Необходимо совершенствовать приемы аннотирования, фильтрации и отображения данных. 4) Данные о составе генома и экспрессии генов должны быть интегриру- емы более эффективно. 5) Должны быть развиты более мощные методы предсказания структуры белка по первичной последовательности аминокислотных остатков. 6) Необходимо развивать методы отбора опытных препаратов для заклю- чительных испытаний. Но есть и многочисленные перспективы: 1) Обученные и квалифицированные специалисты в области биоинфор- матики требуются во многих научно-исследовательских и фармацевти- ческих компаниях. 2) В научных и учебных учреждениях всегда открыты вакансии для ква- лифицированного персонала. 3) Подготовленные специалисты будут востребованы организациями, за- нятыми обнаружением полезных генов и в перспективе — производ- ством продуктов с измененным геномом. 4) Квалифицированные исследователи в области биоинформатики внесут неоценимый вклад в развитие геномики и протеомики. 5) Ученые-биоинформатики поддержат научную революцию в области разработки лекарственных препаратов и генотерапии. 6) Специалисты в области биоинформатики будут способны анализиро- вать картины экспрессии генов с помощью компьютерных алгоритмов. 7) Квалифицированные работники в области биоинформатики внесут вклад в изучение реакций организма на токсичность медикамента и в развитие методов прогнозирования токсичности разрабатываемых лекарственных препаратов.
1.5. Проблемы и перспективы 29 Контрольные вопросы 1. Что такое биоинформатика? 2. Каковы заслуги Р. Франклин и М. Уилкинса? 3. Кто произвел первый организм с рекомбинантной ДНК? 4. Когда в продаже появился лазерный компакт-диск? 5. Кто разработал программу «БЛАСТ»? 6. Кто создал базу данных «ПРИНТС»? 7. В каком году были опубликованы аннотации к геному человека? 8. Опишите вкратце историю развития технологии секвенирования. 9. В чем состоят цели биоинформатики? 10. Каковы задачи биоинформатики? 11. В каких областях биоинформатика находит свое применение? 12. Что такое — патент? 13. Приведите несколько примеров патентов в биоинформатике.
Глава 2 Компьютеры, «Интернет», «Всемирная паутина» и «НЦБИ» Сегодня компьютеры являются неотъемлемой частью биологических исследований, и без них прогресс биологии и медицины, несомненно, был бы значительно затруднен. Компьютеры необходимы для управления био- логическими данными, объем и сложность которых непрерывно растут. Появление международной сети «Интернет» произвело революцию в мире связи. Создание «Всемирной паутины» способствовало успешно- му внедрению и развитию «Интернета». Последняя, будучи глобальной сверхмагистралью, дает возможность пользователям свободно перемещать- ся в пределах первой — единственного крупнейшего собрания разнородных информационных ресурсов. Компьютеры обрабатывают огромные количе- ства данных и помогают в исследовании сложнейшей динамики, наблюда- емой в природе. 2.1. Компьютеры и программы Компьютер — электронная вычислительная машина, применяемая для хранения и обработки информации в режиме двоичного счета. ЭВМ может выполнять как математические операции, так и действия с символами. Ком- пьютер собран из невероятного числа транзисторов, конденсаторов и рези- сторов. Появление биоинформатики было бы невозможным без достижений в области конструирования аппаратных средств и разработки программного обеспечения. Для хранения информации необходимы носители с высокой скоростью работы и большой емкостью. Для осуществления выборки и ана- лиза информации нужны специальные программы. Программное обеспечение — собирательный термин, обозначающий совокупность различных программ, предназначенных для выполнения на ЭВМ. К аппаратным средствам относят физические устройства, как-то: про- цессор, дисководы и дисплей. Программное обеспечение подразделяют на
2.1. Компьютеры и программы 31 две категории: системное и прикладное. Системное программное обеспе- чение включает в себя операционную систему компьютера и совокупность любых других программ, необходимых для запуска приложений, тогда как прикладное программное обеспечение устанавливается пользователем для выполнения специальных задач. Компьютерные программы пишут на самых разных языках програм- мирования: в машинных кодах, на ассемблерах или же языках высокого уровня. Программы, написанные на ассемблере или языке высокого уров- ня, должны быть преобразованы в машинный код путем ассемблирования и компиляции. В операционной системе «Уиндоус» (Windows) файлы в машинном ко- де названы исполняемыми файлами, а соответствующие файлы в системе «Юникс» (Unix) — исполняемыми образами. Такие файлы непосредствен- но выполняются процессором ЭВМ. Сценарии — это файлы, выполняемые какой-либо программой. Их пишут на таких языках подготовки сценариев, как, например, «Майкрософт вижюэл бейсик» (Microsoft Visual Basic), «Ява скрипт» (Java Script) и «ПЕРЛ» (PERL). Языки программирования Существует множество различных языков программирования, подго- товки сценариев и разметки, нашедших свое применение в биоинформатике. Язык разметки гипертекста (ЯРГ) — (HyperText Markup Language, HTML) — предназначен для задания внешнего вида гипертекстового документа, включая определение позиций гиперссылок. Следует отметить, что ЯРГ не является языком программирования. «Ява скрипт» — популярный язык подготовки сценариев, который рас- ширяет функциональные возможности гипертекстового документа, позво- ляя включать в веб-страницы такие элементы, как всплывающие окна, ани- мации, а также объекты, изменяющие внешний вид при наведении на них указателя мыши. «Ява» представляет собой универсальный и машинонезависимый язык программирования, предназначенный для создания приложений, выполни- мых на аппаратных платформах различных ЭВМ. Исходный код «Явы» — «C++». «Ява» отличается от «Ява скрипт». Апплеты «Явы» встраивают в гипертекстовые документы. «ПЕРЛ» (PERL — Practical Extraction and Reporting Language — практич- ный язык извлечения данных и формирования отчетов) — универсальный язык сценариев, который широко используется в анализе данных секвениро- вания. Расширяемый язык разметки (РЯР) — (Extensible Markup Language,
32 Глава 2 XML) — позволяет описывать файлы по типу содержащихся в них дан- ных. Языки «ПЕРЛ» и «Питон» наиболее пригодны при создании прило- жений для биоинформатики — во многом благодаря своей эффективности и способности удовлетворять разнообразным функциональным требовани- ям данной области. «ПЕРЛ» был изобретен Лэрри Уоллом на основе языков типа «sed», «awk», оболочки ОС «Юникс» и «С». «ПЕРЛ» позволяет выполнять превосходное сопоставление регуляр- ных комбинаций знаков, имеет гибкий синтаксис, или грамматику, и требу- ет сравнительно небольшое число кодов для программирования различных операций. Он хорош для обработки строк, то есть основных действий, про- изводимых при анализе последовательностей и управлении базами данных. Этот язык контролирует и оптимизирует распределение памяти ЭВМ, а так- же имеет хорошую совместимость с вычислительными системами, работа- ющими на ОС «Юникс». Он доступен в сети для свободного копирования, компиляции и распечатки. «ПЕРЛ» может быть загружен со своей домашней страницы: http://www.perl.org. «Питон» — полный объектноориентированный язык подготовки сцена- риев, написанный Гёйдо ван Россумом в 1998 году. Он содержит средства быстрого и легкого формирования графического интерфейса пользователя, библиотеку применяемых в структурной биологии функций и обширную библиотеку численных методов. БСМЛ (BSML — Bioinformatic Sequence Markup Language — язык раз- метки последовательностей в биоинформатике) графически описывает ге- нетические последовательности и методы хранения и передачи закодиро- ванной информации о структуре последовательностей, а также сопутству- ющей графической информации. БИОМЛ (BIOML — Biopolymer Markup Language — язык разметки биополимеров) обеспечивает описание типа дан- ных для аннотирования информации о последовательности молекулярного биополимера и данных о его структуре. Операционные системы Операционная система — основная программа, которая управляет все- ми периферийными устройствами и контролирует работу других (приклад- ных) программ. БИОС (BIOS — Basic Input-Output System — базовая система ввода-вывода) — операционная система низкого уровня, которая частично или полностью реализована аппаратным путем (то есть записана в ПЗУ). БИОС управляет действиями ЭВМ например принятия решений о включении тех или иных устройств при «холодном пуске» системы, чте-
2.1. Компьютеры и программы 33 ния и записи дисков, возвращения ответов на ввод, отображения на монито- ре отчетов системы и диагностики служебных устройств. Затем управление переходит к операционной системе высокого уровня и на дисплее компьюте- ра появляется типичный графический интерфейс пользователя (ГИП), как, например, в ОС «Уиндоус». Файлы, которые содержат команды для опера- ционной системы, в ОС «Уиндоус» называют командными файлами, а в си- стемах «Юникс» — основными сценариями. ОС «Уиндоус», принадлежащая корпорации «Майкрософт», — наи- более привычная операционная система для домашних и офисных ПК. Большая часть корпоративных рабочих станций и серверов работает под различными версиями операционной системы «Юникс». Операционные системы «ГНУ» (GNU) и «Линукс» (Linux) соответствуют стандарту «Юникс». Операционная система обеспечивает доступ к имеющимся в ЭВМ фай- лам и программам. «Юникс» — мощная ОС для работы в режиме кол- лективного обслуживания пользователей. Первое программное обеспече- ние для работы «Всемирной паутины» было разработано именно на базе ОС «Юникс». ОС «Юникс» изобилует различными командами и функцио- нальными возможностями — от сетевых программ до текстовых редакторов и от электронной почты до программ чтения новостей. Кроме того, она обеспечивает свободный доступ к предназначенным для загрузки из се- ти программам, написанным для систем «Юникс». В настоящее время ОС «Юникс» существует в различных формах и реализациях. ОС «Линукс» считают некоммерческой версией «Юникс», посколь- ку она может быть бесплатно загружена из сети и установлена на ПК. Под управлением ОС «Линукс» персональные компьютеры оказались весь- ма универсальными и удобными рабочими станциями. Некоторые важ- ные пакеты программ для вычислительной биологии рассчитаны на работу в ОС «Линукс». «ИБИОН» (IBION) — новая машинонезависимая и функци- онально законченная система для биоинформатики. Это крупнейший сер- вер, приспособленный для нужд биоинформатики: он содержит в себе веб- сервер «Апач» (Apache), реляционную базу данных «postgreSQL», стати- стический язык «R» и работает на аппаратных средствах фирмы «Интел» с предварительно установленными ОС «Линукс» и полным комплектом про- грамм и баз данных для биоинформатики. Обычно программное обеспечение поставляется на дискетах или компакт-дисках. Мы говорим, что файл закачивается, когда он копируется с удаленного источника на местный компьютер, и что он скачивается, когда копируется с жесткого диска компьютера и передается к удаленному источ- нику. Загрузка из «Интернета» возможна тремя путями: 1) непосредственно
34 Глава 2 из гипертекстового документа, 2) с ППФ-сервера или 3) по электронной почте. 2.2. «Интернет» Взаимодействие международной сети «Интернет», «Всемирной паути- ны», глобальной сети биологической информации и активная деятельность поставщиков услуг создало своего рода информационную подпитку для ре- волюции в биоинформатике. «Интернет» — глобальная сеть компьютеров и местных компьютерных сетей, связывающая многочисленные правитель- ственные, учебные и коммерческие учреждения. Она позволяет компьюте- рам общаться на своих электронных языках. Биологическая информация хранится на многих компьютерах, рассеянных по всему миру, и самый лег- кий путь доступа к этой информации — объединение всех этих компьютеров в единую сеть. Компьютеры могут быть соединены друг с другом разными спосо- бами, наиболее часто — телефонными кабелями и линиями спутниковой связи, что позволяет осуществлять обмен данными между удаленными пользователями. Для эффективной работы созданной системы объединен- ных сетей был принят единый протокол связи: протокол управления пе- редачей (данных) / «Интернет»-протокол (Transmission Control Protocol / Internet Protocol, TCP/IP), чаще записываемый в виде аббревиатуры ПУП/ИП. ПУП определяет правила разбиения данных на пакеты и по- следующей сборки переданных по каналу связи пакетов. ИП управляет адресацией и выбором маршрута передачи информационных пакетов по сети. Столь универсальная структура связи означает, что машины различ- ных типов смогут говорить друг с другом на своего рода «машинном эспе- ранто». Подключенные к сети компьютеры рассматриваются как узлы и под- держивают взаимную связь посредством передачи пакетов данных. Для осу- ществления передачи данные сначала разбиваются на маленькие посыла- емые независимо друг от друга пакеты (единицы информации) и затем объединяются по достижении своего адресата. Но пакеты не обязатель- но пересылаются непосредственно от одной машины к другой; они могут пройти через несколько компьютеров, стоящих на пути к конечному полу- чателю. На случай если какой-либо из промежуточных узлов выбранного маршрута не работает, в сетевых протоколах предусмотрена функция поис- ка альтернативного пути, что возможно благодаря взаимному пересечению различных маршрутов.
2.2. «Интернет» 35 Доступ Сеть «Интернет» предоставляет средства распространения программ- ного обеспечения и позволяет исследователям проводить сложный анализ на удаленных серверах. До конца 1980-х гг. существовало три основных спосо- ба доступа к базам данных через «Интернет»: серверы электронной почты, ППФ и сервер «ТЕЛНЕТ» (TELNET). Сервер электронной почты — это средство передачи текстовых сообщений с одного компьютера на другой. ППФ — средство (протокол) пересылки компьютерных файлов (например программ) между удаленными машинами. «ТЕЛНЕТ» — сетевой протокол, который позволяет оператору подключаться к удаленным компьютерам и ра- ботать на них, как будто они имеют физический доступ к этим машинам. Серверы электронной почты позволяли ученым обмениваться инфор- мацией путем отправки запроса в электронном письме по адресу почтового сервера. Рано или поздно запрос обрабатывался сервером, и результат отсы- лался обратно в почтовый ящик отправителя. Однако такая система имела свои неудобства, как-то: плохая обработка запросов с ошибками и необхо- димость ожидания ответа. С помощью ППФ исследователь может закачать полную базу данных и производить поиск на своем компьютере. Это нов- шество также имеет свой изъян: исследователь должен периодически загру- жать все используемые им базы данных после каждого их обновления. «ТЕЛНЕТ» дает пользователю возможность подключаться к удаленно- му компьютеру и получать доступ к его программным и аппаратным ресур- сам. Этот метод полезен для эпизодических запросов. К его неудобствам можно отнести сложное управление опознаванием пользователей и пере- грузка вычислительных возможностей удаленного компьютера. Рождение Настоящие истоки «Интернета» ведут к научно-исследовательскому проекту по организации сети, разрабатывавшемуся в «АРПА» (ARPA — Advanced Research Projects Agency — «Управление перспективных иссле- довательских программ» при Министерстве обороны США) в 1969 году и названному «АРПАнет» (ARPAnet). Первоначально сеть «АРПАнет» свя- зывала четыре узла, расположенных в различных местах на Западном побе- режье США, с непосредственной целью быстрого обмена данными между научными лабораториями военного назначения. В 1981 году была представлена сеть «БИТнет» (BITnet — Because It’s Time), обеспечившая прямое соединение между университетами для передачи электронных писем и файлов. В 1982 году «АРПА» внедрило
36 Глава 2 ПУП/ИП, позволивший объединить различные сети и наладить между ни- ми унифицированную связь. Адреса После того как машины были соединены друг с другом посредством сети, возникла необходимость найти однозначный способ обозначения от- дельных компьютеров таким образом, чтобы сообщения и файлы могли быть отправляемы строго своему адресату. С целью облегчения связи меж- ду узлами, каждому компьютеру в сети «Интернет» присвоен уникальный опознавательный номер (его ИП-адрес). ИП-адрес уникален и обозначает только одну машину. Его записывают арабскими цифрами, разделенными точками. Например, некоторый узел в «Интернете» мог бы иметь следу- ющий ИП-адрес: 130.14.25.1. Эти числа обозначают конкретную машину, узел, в котором расположена эта машина, а также домен (и субдомен), кото- рому этот узел принадлежит. Эти числа помогают компьютерам определять направления передачи данных. Помимо этого была создана альтернативная иерархическая систе- ма имен доменов, устанавливающая соответствие между числовыми ИП- адресами и текстовыми именами, и благодаря которой адреса «Интер- нета» можно записывать в более понятной форме. Например, запись «ncbi.nlm.nih.gov» равносильна представленным выше числам и означает: узел «Национального центра биотехнологической информации» (ncbi) при «Национальной медицинской библиотеке» (nlm) при «Национальном ин- ституте здоровья» (nih) при правительстве США (gov). Полный список суффиксов доменов, включая коды стран, может быть найден по следующему адресу: http://www.currents.net/resources/directory/noframes/nf.domains.html Подключение Обычно мы можем подключиться к «Интернету» через модем, который использует для передачи данных двужильные телефонные кабели (по кото- рым бегут собственно телефонные сигналы). Скорости передачи данных при подключении через модем относительно низки (от 28,8 до 56 килобит в секунду (кбит/с)). Помимо этого был разработан ряд новых технологий для более быстрой передачи данных. Одна из таких технологий — ИСДН (ISDN — Integrated Services Digital Network — цифровая сеть связи с ком- плексными услугами), но она относительно дорогостоящая.
2.3. «Всемирная паутина» 37 Другие, более рентабельные альтернативные системы основаны на применении телевизионных коаксиальных кабелей, которые не исполь- зуются для передачи телевизионных сигналов и, следовательно, свобод- ны для высокоскоростной передачи данных (до 4,0 мегабит в секунду (Мбит/с)). Позже появились системы ЦАЛ (цифровая абонентская ли- ния — Digital Subscriber Line, DSL) с высокой скоростью (до 7 Мбит/с) и АЦАЛ (асимметричная цифровая абонентская линия — Asymmetric Digital Subscriber Line, ADSL). Некоторые более современные технологии при- меняют для подключения к «Интернету» каналы спутниковой и радио- связи. Большинство людей обычно используют «Интернет» для обмена элек- тронной почтой, подписки на группы новостей, пересылки файлов и ди- станционного управления компьютером. Электронная почта обеспечивает общение между индивидуумами; рассылка новостей сопряжена с дистан- ционной обработкой данных, включающей в себя использование, например, протокола передачи файлов (ППФ), управляющего пересылкой файлов меж- ду машинами, и протокола «ТЕЛНЕТ», с помощью которого пользователи могут подключаться к компьютерам в разных узлах и работать с ними, как через обычный терминал. Наиболее впечатляющая возможность сети «Интернет» — общение пользователей в режиме реального времени. Такое общение обеспечива- ется протоколом голосовой связи ОС «Юникс», или «ВМС-фоном» (VMS phone), и аналогично проведению телефонной беседы: пользователи обща- ются друг с другом, печатая сообщения в разделенном на две части экране. Расширение этой концепции — телеконференции, где группы участников встречаются и «переговариваются» друг с другом, опять же набирая свои послания в соответствующих полях размежеванного интерфейса. 2.3. «Всемирная паутина» «Всемирная паутина» (www) — средство обмена информацией по сети «Интернет» с помощью программы, называемой клиент или обозреватель. «Всемирная паутина» была задумана и разработана в «Европейском совете по ядерным исследованиям» («ЦЕРН») в 1989 году. «Европейская лабо- ратория физики элементарных частиц» (подразделение «ЦЕРНа») развила концепцию совместного использования информационных ресурсов и обес- печила расположенным в разных государствах группам, входящим в «Со- общество физики высоких энергий», возможность взаимного обмена дан- ными. Впоследствии это привело к созданию среды, через которую текст,
38 Глава 2 изображения, звуки и видео можно было бы доставлять по заказу пользо- вателей во все точки Земного шара. Концепция обмена информацией между удаленными терминалами и принцип разветвлений для быстрого распространения и передачи данных немедленно нашли применение во многих других областях. В результате «Всемирная паутина» быстро развивалась и теперь оказывает сильное вли- яние на развитие биоинформатики. Сегодня «Всемирная паутина» является наиболее развитой информационной системой, развернутой в сети «Интер- нет». «Всемирная паутина» — это информационная система, построенная на принципе гиперсреды. Она стала столь популярной и мощной, что вос- принимается чуть ли не синонимом самой сети «Интернет». «Всемирная паутина» — совокупность гипертекстовых и иных документов, доступных по всему миру через сеть «Интернет». Появление в начале 1990-х гг. систем «Гофер» (Gopher) и «ВАИС» (WAIS — Wide Area Information Server — глобальный информационный сер- вер) повысило избирательность доступа к базам данных. «Всемирная паути- на», изобретенная Тимом Бернерсом-Ли («ЦЕРН») в 1990 году, постепенно заменила оба эти протокола. «Всемирная паутина» значительно повысила возможности доступа по перекрестным ссылкам, обеспечив эффективную интеграцию баз данных, рассредоточенных в сети «Интернет», и таким об- разом устранив потребность загрузки и ведения на местных компьютерах многочисленных копий баз данных. Благодаря этому исследователь может легко просматривать записи баз данных с помощью активных гипертекстовых перекрестных ссылок с воз- можностью возвращения к последней просмотренной записи. Первый веб- сервер молекулярной биологии «Экспази» (ExPASy — Expert Protein Analysis System — экспертная система анализа белков) был создан в 1993 году сов- местно «Клиникой Женевского университета» и самим «Женевским уни- верситетом». Веб-страницы и веб-узлы Веб-страницами называют документы, которые появляются в окне программы-обозревателя, когда мы путешествуем по «Всемирной пау- тине». Каждый отображаемый обозревателем документ сети называют веб- страницей, а совокупность веб-страниц данного сервера в собирательном значении называют веб-узлом. По своему содержанию веб-страницы подоб- ны обычным текстовым документам, за исключением лишь того, что они намного более гибки, поскольку могут содержать ссылки на любые другие страницы и файлы, размещенные в пределах сети.
2.4. Программы-обозреватели 39 Веб-узел — собрание взаимосвязанных веб-страниц, находящихся на одном компьютере. Каждому веб-узлу в сети «Интернет» присвоен уни- кальный адрес. Наиболее замечательная особенность веб-страниц — на- личие ссылок. Ссылка на веб-странице позволяет пользователю перейти к другой странице, расположенной в том же веб-узле, или даже к какой- либо странице на другом веб-узле, расположенном в любой точке мира. Весьма ценное качество «Всемирной паутины» — простой доступ к ста- тическим страницам с подсвеченным текстом, по которому можно щелкать мышью и таким образом просматривать связанные между собой страницы с рассредоточенной по ним информацией. Объектная сеть Объектная сеть предназначена для поддержки высокофункциональных диалоговых систем. Это многозвенная архитектура, которая содержит два объекта и уровень связи. Один объект может представлять интерфейс поль- зователя, а другой — обеспечивать необходимые вычисления. Для передачи данных между этими двумя объектами необходимо описать сообщения, ко- торые они могли бы принимать. Обмен сообщениями между двумя или более объектами осуществля- ется посредством специального кода БОЗ (брокер объектных запросов — Object Request Broker, ORB), установленного на каждой машине и способ- ного интерпретировать описания пересылаемых сообщений и переводить их на собственный язык каждого объекта. С помощью объектной сети си- стема может быть разбита на самостоятельные компоненты, написанные на разных языках и работающие на разных аппаратных системах. ОАБОЗ (общая архитектура брокеров объектных запросов — Common Object Request Вгбкег Architecture, CORBA) обеспечивает стандарты, уни- фицирующие эту связь. ОАБОЗ включает в себя язык для описания струк- туры сообщений, ИДЛ (IDL — Interface Definition Language — язык опи- сания интерфейсов), а также архитектуру для программ-посредников, или БОЗов. БОЗы обеспечивают «прозрачную» связь между удаленными объек- тами и формируют магистраль (разводку объектной сети). 2.4. Программы-обозреватели Весь потенциал «Интернета» был полностью осознан только с появ- лением программ-обозревателей, которые впервые обеспечили свободный доступ к информации, расположенной на разных веб-узлах. Обозревателями называют приложения-клиенты, посылающие запросы серверам, используя
40 Глава 2 набор стандартных протоколов и соглашений. Типичный обозреватель се- ти содержит минимальный набор программных средств, необходимых для осуществления поиска, извлечения, отображения и пересылки информации по сети «Интернет». Первая точка контакта между обозревателем и сервером — домашняя страница. После загрузки этой начальной страницы обозреватель раскрыва- ет интерфейс, удобный для выборки документов, доступа к файлам, поиска в базах данных и т. д. Наиболее популярными программами-обозревате- лями стали: «Линкс» (Lynx), «Мозаика» (Mosaic), «Нетскейп навигатор» (Netscape Navigator) и «Интернет иксплорер» (Internet Explorer). «Линкс» и «Мозаика» «Линкс» была разработана в вычислительном центре «Канзасского университета» (США) как часть проекта создания информационной си- стемы университетского городка. Она работает на операционных системах «Юникс» или «ВМС», но обеспечивает только текстоориентированный ин- терфейс через дешевые устройства ввода-вывода данных например широко известного терминала (или эмулятора) «VT-100». «Мозаика» была развита в 1993 г. в «НЦПС» (Национальный центр по применению суперкомпьютеров — National Center for Supercomputing Applications, NCSA) при «Университете штата Иллинойс», Урбана-Чемпейн, США. Будучи гипермедиа-системой, разработанной для платформ «Х-Уин- доус» (X-windows), «Эппл Мак» (Apple Мас) и «Майкрософт Уиндоус» (Microsoft Windows), она обеспечила единый удобный для пользователя, «дружественный» интерфейс, совместимый с самыми разными протокола- ми, форматами данных и информационными серверами, какие только можно найти в сети «Интернет». «Нетскейп навигатор» и «Интернет иксплорер» «Нетскейп навигатор» был разработан в 1994 году корпорацией «Нет- скейп коммуникейшенз», Маунтин-Вью, штат Калифорния, США. Его гото- вили на смену «Мозаике». Теперь это самый популярный пакет для навига- ции по «Интернету». Современные версии этого пакета содержат в себе воз- можности доступа к ресурсам «Интернет», пересылки электронной почты, независимого отображения нескольких страниц, связи в режиме реального времени, поддержки аудио и видео, а также современную технологию, поз- воляющую создавать визуально привлекательные, полностью диалоговые страницы (например, с апплетами «Явы»).
2.4. Программы-обозреватели 41 «Интернет Иксплорер» — детище корпорации «Майкрософт», Редмонд, США. Он был разработан на базе «Мозаики» в 1995 году и предназначен для работы в операционных системах для ПК. Эта программа предлага- ет стандартный набор функций других обозревателей гиперсред, включая поддержку многооконного режима, апплетов «Явы» и элементов ActiveX. Пользователи могут перемещаться, щелкая по специальным словам, кнопкам или картинкам. Эти активизируемые щелчком мыши объекты из- вестны под общим названием «гиперссылки». Гиперссылки Гиперссылки при наведении на них указателя мыши обычно выделя- ются некоторым способом — контрастным цветом, подчеркиванием, рамкой и т. д. Щелчок по выделенной ссылке вызывает необходимый документ неза- висимо от его местоположения: на том же самом сервере или на сервере в другой части света. Связь между гиперссылками прозрачная (счастливый оператор избавлен от необходимости явного указания адресов). Каждому гипертекстовому документу присвоен уникальный адрес, на- зываемый УУР (URL — Uniform Resource Locator — унифицированный ука- затель (информационного) ресурса). Строка УУР имеет следующий стан- дартизованный формат: ЬПр://собственно адрес. Здесь http — аббревиатура протокола связи, используемого серверами сети — протокола передачи ги- пертекстовых файлов (ППГФ) (HyperText Transfer Protocol, HTTP). ППГФ — протокол, используемый для обмена информацией в пределах «Всемирной паутины». Собственно адрес указывает местоположение гипертекстового документа в сети «Интернет». ЯРГ Гипертекстовые документы пишут на стандартном языке разметки, из- вестном как ЯРГ — язык разметки гипертекста (HyperText Markup Language, HTML). Код ЯРГ строго текстоориентированный, и любая сопутствующая графическая или звуковая информация этого документа существует в виде отдельных файлов в общем формате. Команды разметки позволяют автору веб-страницы выделять текст жирным шрифтом (команда <В>), вставлять горизонтальные линейки разметки (<HR>), изображения (<IMG>) и т. д.; каждый из этих режимов выключается соответствующим знаком </> (на- пример </В>). Другая технология, поддерживающая создание функционального хра- нилища генетической информации, получила название РЯР — расширяе-
42 Глава 2 мый язык разметки (extensible Markup Language, XML). РЯР, подобно ЯРГ, может быть использован для создания веб-страниц. РЯР помечает дан- ные способом, понятным любому другому приложению. Эта технология обеспечивает общий язык представления данных в стандартном форма- те. Она позволяет описывать файлы по типу содержащихся в них дан- ных. РЯР более гибкий и надежный по сравнению с ЯРГ. Он обеспечивает метод описания смысла, или семантики содержимого документа. Одно из его преимуществ заключается в возможности управления не только спосо- бом отображения данных на веб-странице, но также и способом обработки этих данных различными программами или СУБД — системой управления базами данных (Database Management System, DBMS). 2.5. «ЕМБнет» и СВП Компьютеры хранят информацию о последовательностях в виде строк — простых рядов последовательных знаков. Каждый знак выражен двоичным кодом и представлен наименьшей единицей информации, назы- ваемой байтом. Каждый байт состоит из 8 битов, и каждый бит может принимать значение 0 либо 1, что дает 255 различных комбинаций би- тов, то есть возможность кодирования одним байтом 255-ти знаков. По- следовательность ДНК обычно хранится и обрабатывается в компьюте- ре в виде ряда 8-битовых слов в упомянутом двоичном формате. Белко- вая последовательность представлена как ряд 8-битовых слов, состоящих из буквенных обозначений аминокислот в двоичной форме. Обычно ин- формацию о последовательности ДНК или белка записывают в текстовый файл в стандартном формате АСКОИ (ASCII) или в формате программы «ФАСТА». Чтобы связать европейские лаборатории молекулярной биологии, при- менявшие в своих исследованиях методы биоинформатики и вычислитель- ной биологии, в 1988 году была организована сеть. Эта сеть, получившая название «ЕМБнет» (EMBnet — European Molecular Biology net), была разра- ботана с целью предоставления информационных и образовательных услуг сотрудникам лабораторий, расположенных в различных государствах Ев- ропы, через специально выделенные узлы, работающие на местных язы- ках. Впоследствии организация этой сети избавила отдельные учреждения от необходимости хранить периодически обновляемые копии ряда биоло- гических баз данных, устанавливать программы поиска, покупать дорого- стоящие пакеты коммерческих программ и т. д.
2.5. «ЕМБнет» и СВП 43 Центры и узлы Теперь «ЕМБнет» обслуживает 34 узла. Из них 20 узлов — специально выделенные Национальные узлы. Соответствующие нации обязаны под- держивать базы данных, предоставлять программное обеспечение и сете- вые услуги (анализ последовательностей, моделирование белков, создание генетических карт и т. д.), обеспечивать поддержку и обучение пользовате- лей, а также проводить научные исследования и внедрять новые разработ- ки. Восемь узлов «ЕМБнет» имеют специальное назначение. Это учебные, производственные или научно-исследовательские центры, которые предна- значены для работы со специальными знаниями в определенных узких об- ластях биоинформатики. В основном они ответственны за обслуживание баз данных и разработку программного обеспечения для нужд биологии. Остальные шесть узлов были интегрированы в «ЕМБнет» как При- соединенные узлы. Это центры вычислительной биологии в неевропейских странах, которые предоставляют своим пользователям те же виды услуг, что и типичный Национальный узел. Почти все эти узлы предлагают отвечаю- щий современному уровню доступ к базам данных и программам анализа последовательностей, наряду с разнообразными средствами молекулярного моделирования, анализа геномов, картографирования генов и т. д. В табл. 2.1 приведен список Присоединенных узлов «ЕМБнет». Таблица 2.1. Присоединенные узлы «ЕМБнет» Аббревиатура Страна Адрес IBBM Аргентина http://sol.biol.unlp.edu.ar/ ANGIS t Австралия http://www.angis.su.oz.au/ CBI Китай http://www.cbi.pku.edu.cn/ CIGB Куба http://bio.cigb.edu.cu/ CDFD Индия http://salarjung.embnet/ SANBI Южная Африка http: //www. sanbi. ас. za Система выборки последовательностей Система выборки последовательностей (СВП) (SRS — Sequence Retrieval System) является сетевым обозревателем баз данных молекуляр- ной биологии. Она была разработана с целью предоставления пользовате- лям «ЕМБнет» дополнительных сервисных услуг. СВП позволяет вносить
44 Глава 2 любую одноуровневую базу данных в предметный указатель любой другой базы данных. Преимущество этой системы состоит в том, что производные указатели могут быть быстро найдены, что позволяет операторам выбирать, связывать ссылками и получать доступ к записям во всех ресурсах, объеди- ненных данной системой. По своему желанию пользователь СВП может легко переопределять список подключенных баз данных. Система выборки последовательностей связывает базы данных нукле- иновых кислот, ЯЭПов, белковых последовательностей, образцов белковых сверток, структур белка, а также специализированные (раритетные) и (или) библиографические базы данных. Таким образом, СВП представляет собой очень мощную систему, дающую пользователям возможность формулиро- вать запросы в базы данных различных типов через единый унифициро- ванный интерфейс, без необходимости волноваться о внутренней структуре данных, языках запросов и т. п. СВП — интегрированная система информационного поиска во мно- гих разнородных базах данных последовательностей и передачи выбран- ных последовательностей аналитическими средствами например программ сравнения и выравнивания последовательностей. В общей сложности СВП может производить поиск в 141 базе данных последовательностей белков и нуклеотидов, метаболических путей, пространственных структур и функ- ций белков, геномов, описаний болезней и фенотипов. Сюда же входят многие небольшие базы данных, такие как базы данных структурных моти- вов белков «Просайт» (Prosite) и «Блоки» (Blocks), базы данных факторов транскрипции и специализированные базы данных некоторых патогенов. Помимо собственно доступа к огромному числу разнообразных баз данных, СВП обеспечивает тесные связи (посредством перекрестных ссы- лок) между базами данных и легкость в запуске приложений. Поиск в от- дельной базе данных может быть расширен до поиска в полной сети, то есть все записи, имеющие отношение к некоторому белку, могут быть легко найдены во всех содержащих их базах данных. Программы поиска подо- бия и построения выравниваний могут быть запускаемы непосредственно, причем без сохранения результатов запроса в промежуточном файле. До- машний адрес СВП следующий: http://srs.ebi.ac.uk/. 2.6. «НЦБИ» «Национальный центр биотехнологической информации» («НЦБИ») — (National Center for Biotechnology Information, NCBI) был основан в 1988 го- ду в США как подразделение «Национальной медицинской библиотеки»
2.6. «НЦБИ» 45 (National Library of Medicine) и расположен в университетском городке «На- ционального института здоровья» («НИЗ»), Вифезда, штат Мэриленд. Роль «НЦБИ» — разработка новых информационных технологий в по- мощь нашему пониманию молекулярных и генетических процессов, проте- кающих в здоровом и больном организме. К специальным целям относятся: создание автоматизированных систем хранения и анализа биологической информации, развитие передовых технологий машинной обработки инфор- мации, облегчение доступа пользователей к базам данных и программному обеспечению, а также координация усилий по сбору биотехнологической информации по всему миру. Помимо этого, «НЦБИ» обслуживает «Генбанк» — базу данных после- довательностей ДНК, созданную при «НИЗе». Группы аннотаторов создают записи о структуре расшифрованных последовательностей — на основании почерпнутых из научной литературы данных вкупе с информацией, предо- ставляемой самими учеными, — и осуществляют обмен ими с такими меж- дународными базами данных нуклеотидов, как «ЕЛМБ» и «ЯБД» (Японский банк ДНК — DNA DataBank of Japan, DDB J). «Энтрез» Подобно СВП для сети «ЕМБнет», сервисная программа «Энтрез» (Entrez) была разработана в «НЦБИ» с целью обеспечения выборки дан- ных молекулярной биологии (а также организации ссылок на библиогра- фические источники) из баз данных, объединенных в «НЦБИ». «Энтрез» позволяет связывать друг с другом похожие записи из разных баз данных, вне зависимости от того, есть ли между ними прямые перекрестные ссылки. «Энтрез» обеспечивает доступ к базам данных последовательно- стей ДНК («Генбинк», «ЕЛМБ» и «ЯБД»), белковых последовательностей («Свисс-прот», «РИБ», «ПРФ» (PRF), «СЕКДБ» (SEQDB), «БДБ», последо- вательностей белка, полученных трансляцией последовательностей ДНК), базам данных картографирования генома и хромосом, трехмерных белко- вых структур из «БДБ» и также к библиографической базе данных «Пубмед» (PubMed). Подобная связь между различными базами данных — сильная сторона данной системы. «Энтрез» можно назвать отправным пунктом для выборки последовательностей и структур из ресурсов «НЦБИ». «Энтрез» — сетевая информационно-поисковая система. Она интегрирует информацию, содер- жащуюся во всех базах данных «НЦБИ». Это общий внешний интерфейс для всех баз данных, поддерживаемых «НЦБИ», и притом чрезвычайно удобный. В общей сложности «Энтрез» имеет связь с 11 базами данных
46 Глава 2 (см. табл. 2.2). К «Энтрез» можно обратиться через главную страницу «НЦ- БИ» по следующему УУР: http://www.ncbi.nlm.nih.gov/Entrez/. Таблица 2.2. Распределенные по категориям базы данных, обслуживаемые системой «Энтрез» Категории Базы данных 1. Последователь- ности нуклеино- вых кислот 2. Последователь- ности белков «Энтрез-нуклеотиды»: последовательности из БД «Генбанк», «Рефсек» (RefSec) и «БДБ» «Энтрез-белки»: последовательности из БД «Свисс-прот», «РИБ», «ПРФ» и «БДБ», а так- же трансляции с аннотированных кодирующих областей из БД «Генбанк» и «Рефсек» 3. Трехмерные структуры 4. Геномы «Энтрез-БДММ» (База данных молекулярных моделей) — (Molecular Modeling Database) Полные геномы, собранные из многих источ- ников 5. PopSet Набор последовательностей ДНК из «Генбан- ка», отобранных с целью анализа эволюцион- ного родства населения 6. «ОМИМ» «Сетевая БД менделевского наследования у че- ловека» (Online Mendelian Inheritance in Man, OMIM) 7. Таксономия 8. Книги 9. ProbeSet «Таксономическая база данных НЦБИ» «Книжная полка» (Bookshelf) «Сборник экспрессии генов» («СЭГ») (Gene Expression Omnibus, GEO) 10. Трехмерные до- мены 11. Литература Домены из «Энтрез-БДММ» «Пубмед» Модель данных «НЦБИ» разработал модель отношений разнородных данных, описы- вающих последовательности. Благодаря этому стало возможно бурное раз-
2.6. «НЦБИ» 47 витие программного обеспечения и интеграции баз данных, находящих- ся в ведении популярной информационно-поисковой системы «Энтрез»; на этой же модели построена база данных «Генбанк». К преимуществам модели следует отнести возможность легкого перехода между описанием последовательностей ДНК и кодируемых ими белков, генетическими карта- ми хромосом и пространственными структурами соответствующих белков, а также списком опубликованной литературы, содержащей относящуюся к этим объектам информацию. Модель данных «НЦБИ» работает непосредственно с последовательно- стью ДНК и последовательностью белка. Процесс трансляции представлен в виде связи между этими двумя последовательностями, а не взаимными аннотациями друг на друга. Аннотации, содержащие описание белка (на- пример, продукты распада пептида), представлены в виде характеристик, аннотированных непосредственно на последовательности белка. Благодаря этому принципу стало очень удобно анализировать последовательности бел- ка, полученные путем трансляции характеристик кодирующих последова- тельностей с помощью программы «БЛАСТ» или любого другого средства выборки последовательностей (и притом без потери обратной связи с ис- ходным геном). Набор, состоящий из последовательности ДНК и продуктов ее трансляции, называют набором Nuc-prost. Разработанная в «НЦБИ» модель данных описывает тип после- довательности как «сегментированная последовательность». «Генбанк», «ЕЛМБ» и «ЯБД» представляют восстановленные сборки сегментирован- ных последовательностей в виде непрерывно покрытых областей (НПО). «Энтрез» показывает такую сборку как линию, соединяющую все состав- ляющие ее последовательности. Выборка и применение информации Существует по крайней мере две главные причины помещения данных в компьютер: выборка и открытия. Выборка есть извлечение откуда-либо того, что было помещено туда ранее. Накопление информации о последо- вательностях без обеспечения путей ее извлечения делает эту информацию абсолютно бесполезной. Гораздо ценнее получить от системы больше зна- ний, чем было в нее вложено. Такой принцип может привести к биоло- гическим открытиям. Ученые могут совершать такого рода открытия или обнаруживая новые отношения между различными элементами информа- ционного содержания (которые ранее не могли быть выявлены в силу того, что эти элементы вносились в базу данных по отдельности), или проводя над этими элементами вычисления, открывающие новое прочтение записей.
48 Глава 2 В модели данных «НЦБИ» акцент поставлен на поощрении открытий; это означает, что данные должны быть описаны таким образом, чтобы было возможно легко устанавливать отношения и проводить вычисления. «НЦ- БИ» использует четыре основных элемента данных: библиографические ссылки, последовательности ДНК, последовательности белков и простран- ственные структуры. В 1992 году «НЦБИ» начал присваивать регистрационные номера «Ге- нинфо» (GI) — (Geninfo Identifiers) всем последовательностям, внесенным в «Энтрез», включая сюда же последовательности нуклеотидов из «ЯБД», «ЕЛМБ», «Генбанка», последовательности белков из транслированных ха- рактеристик кодирующих последовательностей, белковые последователь- ности из «Свисс-прот», «РИБ», «ПРФ», «БДБ», БД патентов и др. GI при- сваивается в дополнение к номеру доступа, полученному в исходной базе данных. GI — простой числовой номер, иногда называемый «номер GI». Это уникальный номер, обозначающий только одну определенную после- довательность; он постоянный и по нему может быть произведен поиск и выборка последовательности. «Биопос» «Биопос» (Bioseq), или биологическая последовательность, является центральным элементом в модели данных «НЦБИ». Он состоит из отдель- ной непрерывной молекулы нуклеиновой кислоты или белка и таким об- разом определяет линейную целочисленную систему координат для этой последовательности. «Анпос» (seq-annot) — автономный пакет аннотаций к последовательностям или информации, относящейся к конкретным по- зициям на определенных «Биопосах». Выравнивания последовательностей описывают отношения биологических последовательностей путем указа- ния взаимно соответствующих частей этих последовательностей. Такое со- ответствие может отразить эволюционную консервативность, структурное подобие, функциональное подобие или случайное событие. Зеркала и «Интранет» Дублирующие серверы, предоставляющие услуги и информацию почему-либо недоступного основного сервера, называют зеркалами. Чтобы получить доступ к необходимому веб-узлу, нужно набрать его УУР в адрес- ной строке «программы-обозревателя». Многие учебные заведения имеют «Интранет», то есть корпоративную локальную сеть, к которой можно под- ключаться только с компьютеров данного учреждения. Именно разветвлен-
2.6. «НЦБИ» 49 ная сеть (веб) делает «Всемирную паутину» столь мощной. В таблице 2.3 приведен вполне исчерпывающий (для начального ознакомления) список основных шлюзовых веб-узлов. Таблица 2.3. Некоторые основные веб-узлы для новичков, подвизающихся в биоин- форматике 1. http://www.ncbi.nlm.nih.gov/ 2. http://www.ebi.ac.uk/ 3. http://www.expasy.ch/ 4. http://www.embl-heidelberg.de/ 5. http://www.gmd.de/welcome.en.html 6. http://links.bmn.com/ Помимо перечисленных в этой таблице, есть большое число специаль- ных узлов, так или иначе относящихся к биологии. В поиске этих ресур- сов могут быть полезны универсальные поисковые машины типа «Гугл» (Google), «Яху» (Yahoo), «Альта-Виста» (Alta Vista) и «Хотбот» (Hotbot). Контрольные вопросы 1. Что такое компьютер? 2. Что такое программное обеспечение? 3. Приведите несколько примеров языков программирования. 4. В чем состоят достоинства языка «ПЕРЛ»? 5. Что такое «Интернет»? 6. Опишите принцип работы «Интернета». 7. Что такое «Всемирная паутина»? 8. Что такое обозреватели сети? Приведите несколько примеров. 9. Как работает программа навигации «Нетскейп навигатор»? 10. Опишите сеть «ЕМБнет».
50 Глава 2 11. Какую пользу приносит система выборки последовательностей в био- информатике? 12. Какова роль «НЦБИ» в обслуживании баз данных последовательно- стей? 13. Перечислите основные функции системы «Энтрез».
Глава 3 ДНК, РНК и белки Свойства, характеризующие живой организм (вид), определяются его фундаментальным набором генетической информации — геномом. Геном состоит из одной или нескольких молекул ДНК (у некоторых вирусов — РНК), организованных в виде хромосом. В ДНК закодирована вся необхо- димая информация о функциях клетки. Последовательность ДНК опреде- ляет последовательность белка. Последовательность белка определяет его структуру. Структура белка определяет его функцию. Следовательно, нам важно понять фундаментальные свойства ДНК, РНК и белка, а также их взаимодействие. 3.1. Развитие представлений о наследственности Еще в 1866 году Грегор Мендель предположил, что у растений гороха, над которыми он проводил наблюдения, существуют некие «наследствен- ные факторы». К началу ХХ-го века стало ясно, что менделевские факторы были связаны с клеточными образованиями — хромосомами. Хромосомы представляют собой нитевидные молекулы химического вещества, сосре- доточенные в ядре клетки. Примерно в это же время для описания факторов, приписываемых хромосомам менделевского гороха, генетики стали употреблять термины «единица наследственности» и «генетическая частица». К 1920-м гг. эти термины вышли из употребления, а на смену им пришло слово «ген», пред- ложенное Вильгельмом Иогансеном. Под ним понимали некую особую са- мостоятельную структуру, расположенную в хромосоме клетки. Первые шаги В 1869 году Фридрих Мишер выделил нуклеиновую кислоту из кле- точного ядра и назвал это вещество нуклеином. Чуть позже Фибус Левин с коллегами изучили составляющие нуклеина и дали этому веществу более точное номенклатурное название: дезоксирибонуклеиновая кислота (ДНК).
52 Глава 3 Кроме того, в некоторых организмах они обнаружили рибонуклеиновые кислоты (РНК). Проведенный ими анализ показал, что оба вида нуклеиновых кислот состоят из компонентов трех типов: 1) сахаров с пятью атомами углеро- да (пентоз): рибоз (в РНК) или дезоксирибоз (в ДНК), 2) ряда фосфат- ных групп, то есть химических групп — производных фосфорной кислоты и 3) соединений четырех видов, содержащих азот и обладающих химиче- скими свойствами оснований. В ДНК эти четыре различных основания представлены аденином, ти- мином, гуанином и цитозином, а в РНК — аденином, урацилом, гуанином и цитозином. По своему строению аденин и гуанин являются дицикличе- скими молекулами, принадлежащими к группе пуринов, а цитозин, тимин и урацил — моноциклическими молекулами и относятся к пиримидинам (см. рис. З.1.). Дальнейшее изучение В 1949 году Эрвин Чаргафф установил, что в молекуле ДНК (незави- симо от источника) количество аденина всегда равно количеству тимина, а количество цитозина соответственно равно количеству гуанина. Наряду с экспериментальными данными Мориса Уилкинса и Розалинды Франклин, на основании которых они предположили, что молекула ДНК представля- ет собой спираль, наблюдения Чаргаффа сыграли важную роль в открытии модели двойной спирали ДНК, предложенной Джеймсом Уотсоном и Френ- сисом Криком. (В 1962 году Уотсон, Крик и Уилкинс стали лауреатами Нобелевской премии в области физиологии и медицины. К сожалению, Р. Франклин умерла от рака в 1958 году, и, в силу того что Нобелевский комитет не присуждает премий посмертно, она не была упомянута.) В 1902 году Арчибальд Гаррод постулировал причину генетических заболеваний в изменении генетического материала предка. Кроме того, он предположил, что болезнь алкаптонурия возникает из-за недостатка фер- мента, разлагающего алкаптон. (Пациенты, страдающие этой болезнью, вы- деляют мочу, которая быстро чернеет на открытом воздухе. Изменение цвета имеет место, потому что моча содержит алкаптон — вещество, темнеющее в присутствии кислорода. В организме здоровых индивидуумов алкаптон (химическое название — гомогентизиновая кислота) разлагается на более простые вещества, но организм людей, больных алкаптонурией, не может проводить эту реакцию, и алкаптон выделяется в свободном виде.) В 1940-х гг. Дж. Бидл и Э. Тейтум установили постулат «один ген — один фермент», согласно которому находящиеся в клетке гены влияют
3.1. Развитие представлений о наследственности 53 фосфат ОН О"—Р — О II о изображается также как Рис. 3.1. Компоненты нуклеиновых кислот. Первый компонент — фосфатная группа, представляющая собой остаток фосфорной кислоты и состоящая из атома фос- фора, четырех атомов кислорода и одного атома водорода. Второй компонент — сахар-пентоза: дезоксирибоза (в ДНК) либо рибоза (в РНК). Третий компонент — одно из пяти азотистых оснований: аденин, гуанин, цитозин, тимин и урацил. Сле- дует отметить присутствие азота в каждой из этих молекул. Первые два основания известны как пурины; последние три — пиримидины
54 Глава 3 на производство клеточных ферментов. (Ферментом называют белок, ко- торый катализирует определенную реакцию обмена веществ, но при этом сам в ней не участвует и химически не изменяется.) Вклад биохимиков В 1940-х гг. биохимики сообщили, что в клетках, осуществляющих синтез белка, наблюдается необычно большое количество РНК. Они вы- двинули теорию, согласно которой синтез РНК происходит в ядре, затем РНК выходит в цитоплазму, где определяет последовательность аминокис- лот в белке. В 1961 году Ф.Крик с коллегами пришли к заключению, что генети- ческий код ДНК, по всей вероятности, состоит из ряда блоков химической информации и каждый блок соответствует одной аминокислоте в молекуле белка. Далее они выдвинули (и доказали экспериментально) гипотезу о том, что каждый такой блок представлен последовательностью из трех азотистых оснований, кодирующей определенную аминокислоту. В 1968 году за рабо- ту по выяснению природы генетического кода Маршалл Ниренберг и Хар Гобинд Хорана были награждены Нобелевской премией в области физио- логии и медицины. В последующие годы биохимики показали, что генетический код почти универсален: одни и те же триплетные кодоны определяют те же самые ами- нокислоты независимо от того, является ли организм бактерией, насекомым или растением. Столь существенное различие между организмами различ- ных биологических видов обусловлено не природой азотистых оснований, но последовательностью их расположения в молекуле ДНК. «Центральная догма» Различные последовательности оснований в ДНК определяют различ- ные же последовательности оснований в РНК, а последовательности ос- нований в РНК определяют последовательности аминокислот в белках Рис. 3.2. Экспрессия генов и синтез белка: а) код оснований в ДНК используется в процессе транскрипции, чтобы формулировать код оснований в РНК. Затем мо- лекула РНК используется в процессе трансляции для кодирования аминокислотной последовательности белка; б) некоторые триплеты оснований ДНК и РНК и коди- руемые ими аминокислоты. Обратите внимание, что код триплетов РНК (кодонов) комплементарен коду триплетов ДНК и что некоторые кодоны являются «старт»- или «стоп»-сигналами
3.1. Развитие представлений о наследственности * Тимин Т в ДНК кодирует урацил U в РНК * Буквой «О» в ДНК и РНК обозначены молекулы соответственно дезоксирибозы и рибозы Триплет ДНК Триплет РНК Значение кода ТАС AUG «старт» АТС UAG «стоп» ААА UUU Фенилаланин AGG UCC Серин АСА A UGU к Цистеин GGG > ссс • Пролин GAA г сии Лейцин GCG CGC Аргинин ТТС AAG Лизин TGC ACG Тирозин CCG GGC Глицин СТА GAU Асп. кислота
56 Глава 3 (см. рис. 3.2). Это так называемая «Центральная догма» синтеза белка. И поскольку нуклеиновые кислоты и белки отличаются, постольку разнятся и организмы разных биологических видов (см. рис. 3.3). иРНК белок геномная ДНК Рис. 3.3. «Центральная догма» гласит, что ДНК транскрибируется в РНК, которая затем транслируется в белок 3.2. ДНК В пространственном отношении молекула ДНК представляет собой линейную двуспиральную структуру (см. рис. 3.4). Двойная спираль обра- зована двумя переплетающимися цепями, составленными из стандартных мономерных звеньев, называемых нуклеотидами (см. рис. 3.5). Каждый ну- клеотид состоит из фосфатной группы, молекулы сахара-дезоксирибозы и одного из четырех различных азотистых оснований: аденина, гуанина, цитозина или тимина. Каждый из четырех нуклеотидов обычно обозначают первой буквой входящего в его состав основания: A, G, С или Т. Каждая нуклеотидная цепь скреплена связями в сахаро-фосфатном кар- касе цепи. Две переплетающиеся цепи удерживаются вместе слабыми свя-
3.2. ДНК 57 Рис. 3.4. Модель, построенная на основании интерпретации рентгенограмм ДНК. Уотсон и Крик постулировали, что молекула ДНК образована двумя закрученны- ми в спираль нитями, составленными из чередующихся молекул дезоксирибозы и фосфата. Они высказали догадку, что азотистые основания прикреплены к этим нитям-цепям сбоку, и что расстояние между последовательными нуклеотидами рав- но 0,34 нм. Рентгенограммы показали расстояние между витками, равное 3,4 нм. Исходя из этого ученые предположили, что один виток образован десятью нуклео- тидами. Диаметр витков одной нити ДНК может быть равным только 1 нм, но на рентгенограммах наблюдался диаметр 2 нм, поэтому Уотсон и Крик постулировали, что ДНК образована именно двумя переплетающимися нитями
58 Глава 3 Рис. 3.5. Связи между нуклеотидами, формирующими молекулу нуклеиновой кисло- ты. Фосфатная группа образует мостик между 5'-атомом углерода одного нуклеотида и 3'-атомом углерода следующего нуклеотида. При слиянии гидроксильной группы (ОН), прежде соединенной с 3'-атомом углерода, с атомом водорода (Н), прежде при- надлежащим фосфатной группе, высвобождается молекула воды Н2О. Соединение между нуклеотидами называют «3'-5\соединением», химическую связь называют фосфодиэфирной связью. Здесь следует упомянуть, что 3'-углерод нижнего нуклео- тида свободен для образования связи с другим нуклеотидом (его называют 3/-концом молекулы) и что фосфатная группа верхнего нуклеотида также может связаться с другим нуклеотидом (это 5’-конец молекулы)
3.2. ДНК 59 зями между выдающимися основаниями противоположных цепей. Соответ- ствие между основаниями противоположных нитей относится к принципу замок-ключ: аденин спаривается только с тимином, а гуанин образует па- ру только с цитозином. Основания, которые формируют пары оснований, называют комплементарными. При репликации нити ДНК расплетаются, после чего на каждой из разошедшихся нитей исходной двойной спирали синтезируется новая, комплементарная ей нить (см. рис. 3.6). Совокупный комплемент ДНК организма называют его геномом. Со- матические клетки большинства растений и животных содержат две копии своего генома; такие организмы являются диплоидными. Клетки большей части грибов, водорослей и бактерий содержат только одну копию генома; эти организмы являются гаплоидными. Сам же геном состоит из хромосом, в которых находится ДНК. Хромосома Буквально слово «хромосома» означает окрашенное тело. Хромосома — нитевидное образование химического вещества, сосредоточенное в ядре клетки. Гены закодированы в молекуле ДНК, которая в свою очередь ор- ганизована в виде хромосомы. На основании организации хромосом все живые организмы классифицируют на прокариотов (доядерных) и эукари- отов (ядерных). Организация хромосомы прокариотов очень проста: это единственная, обычно кольцевая, двойная спираль ДНК. Ядерное вещество не окружено отчетливой ядерной мембраной. Хромосома эукариотов представляет со- бой двойную линейную цепь ДНК и сильно свернута. Ядерное вещество отделено от цитоплазмы полностью сформированной мембраной. В диплоидных клетках все хромосомы и составляющие их гены при- сутствуют дважды. Например, соматические клетки человека содержат два набора по 23 хромосомы, то есть в общем 46 хромосом. Говорят, что две хро- мосомы с тождественным набором генов являются гомологичными. Хромо- сомы эукариотов объединены в пары. Центромера Каждая хромосома имеет перетяжку, названную центромерой. В зави- симости от положения центромеры различают 4 типа хромосом, Если цен- тромера находится в середине хромосомы, это метацентрический тип. Если центромера немного удалена от центра, это субметацентрический тип. Ес- ли центромера расположена на вершине хромосомы, это телоцентрический гип. Если центромера находится очень близко к одному из концов, то это
60 Глава 3 материнская молекула старая новая старая новая нить нить нить нить дочерняя молекула дочерняя молекула Рис. 3.6. Общая схема репликации ДНК. Двойная спираль расплетается, и две «ста- рые» нити служат матрицами для синтеза «новых» нитей путем присоединения комплементарных оснований акроцентрический тип. Центромеры служат участками прикрепления нитей веретена, которые формируются в процессе деления клетки. У многих видов для определения пола имеется особая пара хромо- сом, соответственно названных половыми хромосомами. Все остальные
3.3. РНК 61 хромосомы набора упоминаются как аутосомы. Схематическое представ- ление полного диплоидного набора хромосом называют кариотипом. Идеограмму получают путем расположения сфотографированных на клеточном препарате хромосом по размеру. Концевые части хромосом на- зывают теломерами, в которых расположены короткие множественные по- вторные последовательности ДНК. У всех живых существ генетическая информация представлена в форме ДНК и содержится в каждой клетке их тела. Отличительной особенностью всех живых организмов является воспроизводство и передача следующим поколениям молекул ДНК. В ДНК зашифрованы инструкции для синтеза белков. Ген Ген — участок последовательности хромосомной ДНК, необходимый и достаточный для производства определенного функционально активного продукта: полипептида или зрелой молекулы РНК. Ген состоит не только из собственно кодирующих последовательностей, но также из примыкающих к ним нуклеотидных последовательностей, необходимых для правильной экспрессии генов. 3.3. РНК РНК — вторая из двух основных нуклеиновых кислот; в отличие от двойной спирали ДНК, она образована одинарной цепью. В сахаро- фосфатном мостике РНК находится рибоза вместо дезоксирибозы, а в на- боре азотистых оснований — урацил (U) вместо тимина (Т). В клетках встречается три типа молекул РНК, участвующих в синтезе белка: информационная РНК (иРНК), транспортная РНК (тРНК) и рибосо- мная РНК (рРНК). иРНК действует как матрица для синтеза белка; рРНК и тРНК формируют часть механизма биосинтеза белка. иРНК производится в клеточном ядре путем транскрипции (ферментом РНК-полимеразой II) кодирующих белок генов. В отличие от прокариотов, в клеточных си- стемах эукариотов кодирующая последовательность в гене не является непрерывной (см. рис. 3.7). В гене последних присутствует некоторое чис- ло некодирующих последовательностей, называемых интронами, которые перемежаются с кодирующими последовательностями, или экзонами, — частями гена, определяющими аминокислотный состав белка. Интроны не содержат информацию о функционально активном генном продукте вроде белка.
62 Глава 3 Ген прокариотов I-------------------------------------------1 I______II________________________________11_J регулятивная кодирующая сигналы область для область окончания запуска транскрипции транскрипции Ген эукариотов I----------------------------------------------------------1 интроны 1-----------1 кодирующая область (экзоны) 1—1 регулятивная сигналы область для окончания запуска транскрипции транскрипции Рис. 3.7. Обобщенная структура гена прокариотов и эукариотов. Кодирующая об- ласть — это область, несущая информацию о структуре генного продукта (обычно белок). Смежные с ними регулятивные области (светлая линия) содержат последова- тельности, которые распознаются и связываются белком, транскрибирующим РНК с этого гена, и белками, которые влияют на количество производимой РНК. Следуег отметить, что в генах эукариотов кодирующая область часто разбита на сегменты (экзоны) одним или несколькими некодирующими интронами. (Источник: A. J.F. Griffiths et al., Modern Genetic Analysis, W. H. Freeman and Company, 2002) Первичная иРНК По мере того как РНК-полимераза передвигается вдоль матрицы ДНК, минуя ее интроны и экзоны, формируется молекула иРНК-предшественника (пред-иРНК). Эта первичная иРНК, синтезируемая в ходе транскрипции комбинации экзонов и интронов, не может служить матрицей для синте- за белка. Поэтому необходимо созревание пред-иРНК для удаления из нее некодирующих интронов. Интроны удаляются биохимическим путем, а эк- зоны сращиваются вместе; в результате формируется функционально ак- тивная молекула зрелой иРНК. Благодаря сращиванию кодирующая после-
3.3. РНК 63 экзон 1 интрон экзон 2 интрон экзон 3 транскрипция ген иРНК- предшественник Интроны вырезаются, а экзоны соединяются встык зрелая иРНК Рис. 3.8. Образование иРНК. Ген состоит из экзонов (частей гена, кодирующих бе- лок) и интронов (промежуточных последовательностей, расположенных между эк- зонами). В процессе формирования иРНК ген транскрибируется в молекулу первич- ной иРНК. Затем интроны удаляются биохимическим путем и экзоны сращиваются вместе. В результате этих процессов получается зрелая молекула иРНК, которая го- това к трансляции. При синтезе иРНК в клетках прокариотов (например бактерий) подобное созревание не происходит; оно наблюдается только в клетках эукариотов (например растений, животных и человека)
64 Глава 3 довательность становится непрерывной, и иРНК превращается в точную матрицу для построения белка (см. рис. 3.8). В дополнение к вышеописанным процессам созревание первичной иРНК включает этап модификации 5’-концевого нуклеотида, иначе назы- ваемой блокированием. К 3’-концу цепи РНК присоединяется хвост длиной 250 аденинов. Этот процесс называют полиаденилированием, а хвост — поли-А хвостом (см. рис. 3.9). С помощью РНК-полимеразы II в ядре про- изводится сразу несколько разновидностей иРНК. Молекулы иРНК, нахо- дящиеся внутри ядра, отличаются длиной и стадией созревания. Такая по- пуляция иРНК была названа гетерогенной ядерной РНК (гяРНК). Сращивание Сращивание происходит в ядре клетки при соучастии группы молекул, которые, подобно ферментам, имеют каталитические функции. Эти моле- кулы состоят из коротких нитей богатой урацилом РНК, названных уРНК или малыми ядерными РНК (мяРНК), соединенных с малыми ядерными рибонуклеопротеидами (мяРНП). В реакциях сращивания могут быть за- мешаны РНП различных видов, например: Ul, U2, U4, U5, U6. В месте экзон-интронного стыка находится особая последовательность нуклеоти- дов, называемая сигнатурной последовательностью. Эта сигнатурная после- довательность опознается малыми ядерными РНП. Рибонуклеиновая часть мяРНП взаимодействует с нуклеотидами экзон-интронного стыка, и их па- ры оснований комплементарно соединяются. В РНК позвоночных животных имеется последовательность точки ветвления. Молекула мяРНП типа U1 связывается с 5’-участком сращения, а мяРНП типа U2 связывается с последовательностью точки ветвления. Остальные мяРНП (U5 и U4/U6) образуют комплекс с U1 и U2, что приво- дит к свертыванию интрона в петлю таким образом, что экзоны сходятся вместе. Комплекс из интрона и молекул мяРНП называют сплайсосомой. Сплайсосомы закручивают интрон в петлю, сводят экзоны вплотную и за- тем соединяют концы экзонов (см. рис. 3.10). У некоторых одноклеточных организмов вместо молекул мяРНП сама иРНК заботится о сращивании с помощью рибонуклеаз рибозима. Блокирование Блокирование — процесс химической модификации 5’-конца молекулы иРНК, в результате которого он защищается от действия экзонуклеаз. Как правило, иРНК прокариотов остается устойчивой только в течение несколь-
участок начала транскрипции сигнал полиаденилирования (AAUAAA) экзон 1 интрон 1 экзон 2 интрон 2 экзон 3 и поли-А сращивание ® зрелая иРНК экзон 1 экзон 2 экзон 3 Рис. 3.9. Ориентиры для процессов транскрипции и трансляции в гене эукариотов, содержащем два интрона (верхняя полоса), и созревание его транскрипта в функционально активную иРНК. Следует иметь в виду, что, поскольку эти ориентиры показаны на примере кода РНК, постольку в последовательности гена стоит буква U вместо Т. (Источник: A. J. F. Griffiths et al., Modern Genetic Analysis, W. H. Freeman and Company, 2002)
66 Глава 3 первичная иРНК GU A AG экзон 1 экзон 2 Рис. 3.10. Структура и функция сплайсосомы. Сплайсосома составлена несколь- кими мяРНП, которые последовательно прикрепляются к РНК и располагаются в пространстве приблизительно так, как показано на рисунке. Относительное вы- равнивание молекул мяРНП обусловлено образованием водородных связей между входящими в них молекулами мяРНК и комплементарными им последовательностя- ми интрона. Таким образом, реагенты правильно выстраиваются, и могуг протекать реакции сращивания (1 и 2). Р-образная петля, или аркан, сформированная вырезан- ным интроном, смыкается через центральный аденин-нуклеотид. (Источник: A. J. F. Griffiths et al., Modern Genetic Analysis, W.H. Freeman and Company, 2002) ких минут. У эукариотов время полураспада иРНК приблизительно рав- но шести часам. При редактировании РНК любой нуклеотид может быть удален, добавлен или заменен. Транспортная РНК Молекулы тРНК представляют собой подобные стыковочным переход- никам маленькие молекулы, связующие аминокислоты. Функция тРНК —
3.3. РНК 67 периодически подносить правильную аминокислоту молекуле иРНК и при- креплять ее к наращиваемой полипептидной цепи в процессе синтеза белка. Каждая аминокислота приписана к своей собственной тРНК. Транспортная РНК — молекула о двух концах. На одном из ее концов находится антикодон. Основания на этом конце спариваются с основаниями Fe-кодона в последо- вательности иРНК. Другой конец тРНК является своего рода стыковочным гнездом для временного прикрепления аминокислоты. Справляясь с последовательностью кодонов в иРНК, молекулы тРНК подбирают необходимые аминокислоты и таким образом выстраивают уникальную полипептидную последовательность. Молекулы тРНК имеют длину от 74 до 95 нуклеотидов. Молекулы тРНК производятся в форме предшественника, называемого пред-тРНК. Гены тРНК нескольких видов транскрибируются ферментом РНК-полимеразой III совместно и безоста- новочно. Фермент рибонуклеаза расщепляет макромолекулу тРНК на от- дельные «мини-молекулы» разнородных тРНК. Рибосомы Рибосомы — это макромолекулы, состоящие из РНК и нескольких полипептидов. Рибосомы обеспечивают устойчивую платформу для син- теза белка. Каждая рибосома состоит из большой и малой субъединиц (см. рис. 3.11). Рибосомная РНК Рибосомы прокариотов принадлежат к типу 70 S. Коэффициенты седи- ментации субъединиц равны 50Sh30S(S означает измерение в единицах Сведберга скорости осаждения молекул при центрифугировании). Субъеди- ница 50 S состоит из двух молекул рРНК и 31 полипептида. Субъединица 30 S содержит единственную рРНК и 21 полипептид. Рибосомы эукари- отов относятся к типу 80 S. Субъединицы имеют размеры 60 S и 40 S. Субъединица 60 S содержит 3 рРНК и приблизительно 49 полипептидов. Субъединица 40 S состоит из одной рРНК и приблизительно 33 полипепти- дов. Гены рРНК транскрибирует РНК-полимераза I. У таких прокариотов, как, например, Е. coli, гены рРНК представле- ны 7 копиями, рассеянными по всему геному. Каждый такой ген содержит одну из 7 копий группы из расположенных друг за другом последователь- ностей рРНК типов 16 S, 23 S и 5 S. Ген транскрибируется в цельную пред-рРНК (молекула 30 S), которая должна созреть, чтобы произвести от- дельные молекулы рРНК разных типов. Пред-РНК свертывается в виде
23S 5S (2900 н.) (120 н.) белки LI L2 L3 О © • (всего: 31) 16S (1540 н.) (всего: 50) Глава 3 Рис. 3.11. Рибосомы образованы большой и малой субъединицами. Каждая субъединица состоит из молекул рРНК раз- ной длины и набора белков. В состав всех рибосом входят две основные молекулы рРНК (показаны в левом столбце). Помимо этого, рибосомы прокариотов содержат одну рРНК длиной 120 нуклеотидов, (коэффициент седиментации 5 S), тогда как рибосомы эукариотов имеют две маленькие рРНК: молекулу РНК 5 S, аналогичную молекуле 5 S у прокариотов, и молекулу 5,8 S длиной 160 нуклеотидов. Белки большой субъединицы называют LI, L2 и т. д., а белки малой субъединицы — SI, S2 и т. д. (Источник: Lodish et al., Molecular Cell Biology, Scientific American Books, Inc., 1995).
3.4. Транскрипция и трансляция 69 комплекса стебельно-петельных структур, к которым прикрепляются рибо- сомные белки. В это время некоторые нуклеотиды молекулы рРНК мети- лируются. Наконец, рибонуклеаза (РНК-аза III) расщепляет комплекс и вы- свобождает отдельные молекулы рРНК размерами 5 S, 23 S и 16 S. Зрелые рРНК окончательно формируются дальнейшей подрезкой 5’- и 3’-концов рибонуклеазами М5, Ml6 и М23. У эукариотов последовательности рРНК типов 28 S, 18 S и 5,8 S зако- дированы в едином гене. Этот ген присутствует в виде множества копий, отделенных короткими нетранскрибируемыми областями. В геноме челове- ка существует около 200 копий такого гена, которые разбиты на 5 групп, расположенных на отдельных хромосомах. Эти гены транскрибирует РНК- полимераза I. Транскрипция протекает в ядрышке внутри клеточного ядра. Пред-рРНК человека обладает размером 45 S. После созревания она расщеп- ляется на рРНК типов 28 S, 18 S и 5,8 S. Механизм созревания пред-рРНК эукариотов подобен таковому у прокариотов. Расщепление пред-рРНК на зрелые 28 S, 18 S и 5,8 S рРНК осуществляется рибонуклеазами. Малые цитоплазматические РНК (мцРНК) управляют движением белка внутри эу- кариотической клетки. 3.4. Транскрипция и трансляция Биологическая роль большей части генов — нести информацию, опре- деляющую химический состав белков или регулятивные сигналы, управля- ющие производством этих белков клеткой. Современные биохимики соглас- ны в том, что процесс синтеза белка начинается с разматывания свернутой двойной спирали ДНК и расплетания двух нитей. Таким образом ген — функциональная система ДНК — переводится в рабочий режим, то есть становится доступным для клеточных механизмов транскрипции. Транскрипция Первый шаг клетки в производстве белка — копирование, или транс- крипция последовательности нуклеотидов одной нити гена в комплемен- тарную однонитевую молекулу рибонуклеиновой кислоты (см. рис. 3.12). Для ее синтеза используются отдельные нуклеотиды, находящиеся в окру- жающем пространстве; фермент РНК-полимераза соединяет эти нуклеоти- ды вместе и формирует молекулу РНК. Синтез РНК называют транскрипцией; этот термин предложил Ф. Крик в 1956 году. Получаемые таким образом фрагменты называют РНК-транс- криптами. В комплексе с рибосомными белками и ферментами молекулы
кодирующая нить 5' — | |-3' ДНК матричная нить 3' — 1 Г5'. -3' иРНК Рис. 3.12. Последовательность иРНК комплементарна матричной нити ДНК, с которой она считывается, и поэтому идентична последовательности кодирующей нити (за исключением лишь того, что основание Т в ДНК заменяется на U в РНК). Изображенная здесь последовательность — отрезок гена, кодирующего фермент ^-галактозидазу, участвующий в метаболизме лактозы. (Источник: A. J. F. Griffiths et al., Modern Genetic Analysis, W.H. Freeman and Company, 2002) Глава 3
3.4. Транскрипция и трансляция 71 РНК составляют систему, которая выполняет задачу считывания генетиче- ского рецепта и приготовления белка согласно этой формуле. Происходящий в ядре клетки процесс транскрипции во многом подобен процессу репликации ДНК: здесь нить ДНК служит матрицей для производ- ства копии РНК (транскрипта). РНК-транскрипт (который у многих видов подвергается некоторым структурным модификациям) становится рабочей «химической матрицей» информации гена — своего рода информационной молекулой, названной информационной РНК (иРНК). Зрелая иРНК выхо- дит в цитоплазму, где используется клеточными механизмами в качестве программы для производства белка. Трансляция Трансляцией называют процесс синтеза цепи аминокислот на матрич- ной последовательности нуклеотидов в цепи иРНК. Последовательность нуклеотидов молекулы иРНК считывается от одного конца иРНК к друго- му, группами по три последовательных основания. Эти группы называют кодонами (например: AUU, CCG, UAC). В силу того что генетический код состоит из нуклеотидов четырех типов, существует 4 х 4 х 4 = 64 различных кодона, причем каждый может кодировать либо некоторую аминокислоту, либо сигнал окончания трансляции (см. табл. 3.1). Поскольку для построения составляющих белки полипептидов исполь- зуются только 20 различных аминокислот, постольку одной и той же амино- кислоте могут соответствовать сразу несколько кодонов. Например, кодоны AUU, AUC и AUA кодируют аминокислоту изолейцин. Триплеты UUU и UUC кодируют фенилаланин. Молекула иРНК состоит из ряда последо- вательных кодонов, формируемого по мере продвижения РНК-полимеразы по матричной нити ДНК. В клетке эукариотов зрелая молекула иРНК проникает через пору в ядерной мембране в цитоплазму клетки. Здесь она объединяется с одной или несколькими рибосомами. В это время аминокислоты прикрепляют- ся к соответствующим молекулам тРНК, плавающим в цитоплазме. После соединения с подходящей аминокислотой различные молекулы тРНК при- крепляются к рибосоме, где иРНК уже заняла исходную позицию. Отре- зок молекулы иРНК присоединяется к субъединице 30 S, а молекула тРНК со своей аминокислотой — к субъединице 50 S. На этом этапе кодон иРНК притягивает комплементарный антикодон тРНК. Комплементарная стыковка кодон-антикодон помещает требуемую аминокислоту в должной позиции. Таким образом, взаимное узнавание кодона и антикодона определяет положение аминокислоты в цепи белка.
Таблица 3.1. Генетический код. Здесь хорошо видно, что почти что каждая аминокислота может быть закодирована несколькими различными кодонами. Стоп-кодон не кодирует никакую аминокислоту, но служит сигналом к рибосоме, что это — конец белка и трансляция должна прекратиться вторая буква и с A G и иии " Фен UCU UAU Тир UGU - | Цис U UUC J UCC UAC J UGC 1 С UUA И UCA Сер UAA 3 Стоп UGA И 1 Стоп А UUG J ЛеИ UCG UAG J Стоп UGC 3 1 Трп G С CUU ''I сси CAU -*1 CGU и я сис ссс САС J Гис CGC с CQ Лей Про Apr . я « CUA ССА САА "1 CGA А « « CUG J CCG л л Глн CAG -J CGG J G * S о Он с A AUU ACU AAU П AGU q । Сер U ь AUC Иле АСС AAC J Асн AGC J С AUA - х, аса Мет Ре ААА П п AGA П Лиз 1 1 Apr А AUG - ACG J AAG J AGC G G GUU GCU GAU Асп GGU и GUC т. GCC . GAC J GGC С Вал Ала Гли GUA GCA GAA П GGA А GUG GCG GAG J GGG G Глава 3
3.4. Транскрипция и трансляция 73 Именно в этот момент генетический код ДНК экспрессируется в форме позиции аминокислоты в цепи белка. После спаривания с иРНК комплекс тРНК-аминокислота удержива- ется зажимным механизмом, подобным тискам, в большой субъединице рибосомы. Затем рибосома перемещается по иРНК во вторую позицию. Здесь вторая тРНК со своей аминокислотой подходит к рибосоме и спа- ривает свой антикодон со вторым кодоном на молекуле иРНК. Таким об- разом, на цепи иРНК уже две молекулы тРНК стоят рядом друг с другом, и прикрепленные к ним аминокислоты сильно сближены. В течение мил- лисекунды ферменты, находящиеся в рибосомной субъединице 50 S, со- единяют эти аминокислоты и образуют дипептид (цепь из двух аминокис- лот). Первая молекула тРНК освобождается от своей ноши и выходит обрат- но в цитоплазму; первая аминокислота удерживается соединением со вто- рой. Теперь рибосома перемещается в третью позицию, где расположен О N С С тРНК4 высвобож- дается стрелка показывает новую пептидную связь, образующуюся между ак^ и ак5 кодон кодон направление перемещения рибосомы КОДОН кодон кодон кодон кодон ак2 ак2 ак3 ак4 ак5 ai^ ак7 Рис. 3.13а. Момент трансляции иРНК: присоединение отдельной аминокислоты (акб), удерживаемой расположенной на участке А молекулой тРНК, к наращива- емой полипептидной цепи, привязанной к тРНК на участке Р. (Источник: A. J. F. Griffiths et al., Modern Genetic Analysis, W. H. Freeman and Company, 2002) H2N ' 2 сч < А подход комплекса ак„—тРНК7 5 иРНК
74 Глава 3 третий кодон иРНК. Тут на сцену выходит новая тРНК со своей аминокис- лотой, и процесс продолжается, в конечном счете формируя длинную цепь аминокислот, называемую полипептидом (см. рис. 3.13,а и 3.13,6). Рис. 3.136. Добавление аминокислоты (ак) к растущей цепи полипептида в про- цессе трансляции иРНК. Вереница рибосом, совместно передвигающаяся по иРНК, одновременно производит множество копий полипептида; здесь показаны две такие рибосомы. (Источник: A. J. F. Griffiths et al., Modern Genetic Analysis, W. H. Freeman and Company, 2002) Полипептидная связь образуется за счет удаления воды, образован- ной атомом водорода и гидроксильной группой соседних аминокислот (см. рис. 3.14). Последние один или два кодона иРНК — сигналы обрыва цепи, или «стоп-сигналы». Как только рибосома достигает этих кодонов (UAA, UAG или UGA), никаких комплементарных молекул тРНК не существуют и, следовательно, никакие аминокислоты не добавляются к цепи. Вместо этого сигналы остановки активизируют факторы высвобождения, чтобы выпростать полипептид из рибосомы. Затем полипептид свертывается в функционально активную молекулу белка. 3.5. Белки В целом белки рассматривают как функциональные и структурные мо- лекулы всех клеток. В химическом аспекте белки представляют собой це- пи, составленные из стандартных звеньев — аминокислот. Для составления бесчисленных комбинаций, встречающихся в белках клеток, используют- ся только двадцать различных аминокислот (см. табл. 3.2). Состоящая из
3.5. Белки 75 С-конец -С-ОН+2(Н О) О О I ф I ^3 Пептидная Пептидная а) связь связь Рис. 3.14. Пептидная связь: а) полипептид формируется за счет образования между аминокислотами пептидных связей при удалении воды. Аминокислоты обозначе- ны буквосочетаниями «ак». Знаками Ri, R% и 77з обозначены 77-группы (боковые цепи), которые обусловливают различие аминокислот. R может быть чем угодно: от водородного атома (как в глицине) до сложного цикла (как в триптофане). (Ис- точник: A. J.F. Griffiths et al., Modern Genetic Analysis, W.H. Freeman and Company, 2002.) б) пептидная группа — устойчивая плоская единица; 77-группы лежат вне плоскости основной связи C-N. Стандартные длины связей выражены в ангстре- мах. (Источник: Stryer, L., Biochemistry, W.H. Freeman and Company, 1995)
Глава 3 76 аминокислот полипептидная цепь свертывается в пространстве по опреде- ленной модели свертывания. Белки показывают большое разнообразие об- разцов свертки. Свертывание можно представить как процесс своего рода внутримолекулярного отвердевания, или кристаллизации. Таблица 3.2. Четыре природных нуклеотида, составляющих ДНК и РНК и 20 нату- ральных аминокислот, образующих белки Четыре нуклеотида ДНК а-аденин g-гуанин Четыре нуклеотида РНК с-цитозин t-тимин а-аденин g-гуанин Двадцать аминокислот белков Неполярные с-цитозин и-урацил G-глицин А-аланин Р-пролин V-валин I-изолейцин L-лейцин Полярные F-фенилаланин М-метионин S-серин С-цистеин Т-треонин N-аспарагин Q-глутамин Н-гистидин Заряженные Y-тирозин W-триптофан D-аспарагино- Е-глутаминовая вая кислота кислота К-лизин R-аргинин Примечание: для классификации аминокислот могут быть использованы и другие характеристики. Например, аминокислоты гистидин, фенилала- нин, тирозин и триптофан являются ароматическими и, как показано, исполняют специальные структурные роли в мембранных белках. Названия аминокислот часто сокращают до первых трех букв (напри- мер, глицин — Гли), за исключением изолейцина, аспарагина, глутами- на и триптофана, которые сокращены соответственно до Иле, Асн, Глн и Трп. Редкую аминокислоту селеноцистеин обозначают трехбуквенным сокращением Сец и однобуквенным — U. Названия нуклеотидов принято записывать строчными буквами, а ами- нокислот — прописными. Таким образом, запись «atg» обозначает после- довательность аденин-тимин-гуанин, а запись «ATG» — последователь- ность Аланин-Треонин-Глицин.
3.5. Белки 77 Структура Линейную последовательность аминокислот в молекуле белка относят к первичной структуре. Области локальной регулярности в пределах сверт- ки белка (например, а-спирали, /3-изгибы и /3-нити) относят ко вторичной структуре. Кроме того, в белках наблюдаются повторяющиеся структуры, обусловленные взаимодействием между спиралями и листами, расположен- ными в первичной последовательности близко друг к другу. Эти характер- ные расположения а-спиралей и (или) /3-нитей в виде обособленных эле- ментов свертки (например, /3-цилиндры, /3-а-/3-единицы, греческие ключи и т.д.) относят к сверхвторичным структурам (см. рис. 3.15). Общую свертку последовательности белка, образованную упаковкой ее вторичных и (или) сверхвторичных структурных элементов, относят к тре- тичной структуре. Взаимное расположение отдельных цепей в молекуле белка, состоящей из нескольких субъединиц, относят к четвертичной струк- туре. И наконец, взаимное расположение отдельных молекул (например, как в комплексах типа белок-белок или белок-нуклеиновая кислота) относят к пятеричной структуре. Домены Многие белки в пределах свертки отдельной цепи содержат компакт- ные единицы, которые выглядят, как будто они имеют самостоятельную стабильность. Их называют доменами. В иерархической классификации структур домены стоят между сверхвторичными структурами и третичной структурой целой молекулы. Модульные белки — это многодоменные белки, которые часто содержат множество копий групп тесно связанных доменов. • Мотивы Активный участок фермента, принимающий участие в его каталитиче- ской функции, занимает лишь малую часть молекулы. Если белок развер- нуть в полипептидную цепь, то область активного участка окажется рас- пределенной на отдельные отрывки, рассеянные по первичной структуре. Такие маленькие консервативные области, которые придают характерную второстепенную форму белку, называют мотивами. В ДНК мотивы — корот- кие последовательности пар оснований, характеризующие участки, которые регулируют определенные события в экспрессии гена или репликации хро- мосомы (например 5’-участки сращения или инициаторы репликации). Наиболее общая классификация семейств белковых структур основана на вторичных и третичных структурах (см. табл. 3.3).
78 Глава 3 Рис. 3.15. Характерные сверхвторичные структуры: а) шпилька а-спирали; б) /3-шпилька; в) /3-а-/3-единица. Шевроны указывают направление первичной цепи. (Источник: Lesk, А. М., Introduction to В ioinformatics, Oxford University Press) Образцы сверток Внутри этих общих категорий можно наблюдать широкое разнообразие образцов сверток белковых структур. Среди белков с подобными моделями свертывания выделяются семейства с достаточно большой долей подобных характеристик структуры, последовательности и функции молекул белков, чтобы можно было предположить некую эволюционную связь между ними.
3.5. Белки 79 Таблица 3.3. Класс и характеристики белковых структур Класс Характеристики а-спирали Вторичная структура исключительно или почти ис- ключительно а-спиральная /3-листы Вторичная структура исключительно или почти ис- ключительно /3-листовая а + (3 а-спирали и /3-листы, расположенные в различных частях молекулы; отсутствие /3-а-/3-единиц а/0 а-/3- линейные а-/3-цилиндры Спирали и листы, собранные из /3-а-/3-единиц Линейные нити листа, почти плоского Линейные нити листа, почти свернутого Мало или никакой — вторичной струк- туры Классификация белковых структур занимает ключевое место в биоинфор- матике: наводит мост между последовательностью и функцией белка. Аминокислотная последовательность белка однозначно определяет его пространственную структуру. Будучи помещены в среду подходящего рас- творителя с благоприятными температурными условиями (подобие вну- тренней среды клетки), белки самопроизвольно свертываются в исходную рабочую конформацию. Если последовательности аминокислот содержат исчерпывающую информацию для описания трехмерной структуры белков, го, значит, возможно изобрести алгоритм предсказания структуры белка по последовательности аминокислот. Но это оказалось трудно. Поэтому ученые направили свои усилия на предсказание вторичной структуры, рас- познавание сверток и моделирование гомологов. Биохимическая природа С биохимической точки зрения белки играют множество ролей в жиз- ненных процессах организма: структурные белки (например, белки вирус- ной оболочки, внешнего рогового слоя кожи человека и шкуры животных, а также белки цитоскелета); белки, катализирующие химические реакции (ферменты); транспортные и накопительные белки (гемоглобин); регуля-
80 Глава 3 тивные белки, к которым относятся гормоны и рецепторы; белки передачи сигналов; белки, управляющие транскрипцией генов; белки, участвующие в распознавании (молекулы адгезии клеток, антитела и другие белки им- мунной системы). Белки могут образовывать невероятно большие моле- кулы. Во многих случаях только маленькая часть структуры — активный участок — является функционально активной; остальная часть молекулы необходима только для организации и фиксирования пространственных от- ношений аминокислотных остатков активного участка. Химическая природа В химическом аспекте молекулы белка суть длинные полимеры, обыч- но содержащие несколько тысяч атомов и состоящие из однородного с по- вторяющимися элементами тяжа (или основной цепи) и боковых цепей, со- единенных с соответствующими остатками. Полипептиды белков образова- ны в виде основной цепи постоянной структуры, к которой последовательно прикреплены различные боковые цепи. Боковые цепи могут выбираться из набора для 20 стандартных аминокислот, и притом независимо друг от дру- га. Именно последовательность боковых цепей придает каждому белку его индивидуальные структурные и функциональные характеристики. Шапероны Некоторые белки могут правильно свернуться только в присутствии шаперонов; однако последние лишь катализируют данный процесс, но не направляют его. Молекулярные шапероны — это вспомогательные белки, которые гарантируют, что растущие белковые цепи примут правильную конформацию. Ученые полагают, что шапероны блокируют неправильные пути свертывания (которые привели бы к неактивным продуктам) путем предотвращения неправильной агрегации и осаждения еще не собранных субъединиц. По всей вероятности, шапероны временно связываются с вза- имодействующими поверхностями, открытыми только на ранних стадиях сборки белковой макромолекулы. Функции Белки исполняют несколько жизненных функций: 1) катализ различных биохимических реакций (например, ферменты); 2) передача нервных им- пульсов (например, медиаторы, или нейротрансмиттеры); 3) регуляция про- цессов воспроизводства клетки; 4) рост и развитие разнообразных тканей
3.5. Белки 81 (например, трофические факторы); 5) перенос кислорода в крови (напри- мер, гемоглобин); 6) защита от возбудителей болезней (например, антитела) и т. д. Функция белка обусловлена формой его молекулы. Контрольные вопросы 1. Кто ввел в употребление слово «ген»? 2. Кто впервые выделил нуклеиновую кислоту? 3. Какой ученый дал название «ДНК»? 4. В чем состоит заслуга Эрвина Чаргаффа? 5. Кто предложил модель двойной спирали ДНК? 6. Кому принадлежит постулат «один ген — один фермент»? 7. Что такое хромосома? 8. Что такое центромера? Назовите различные типы центромер. 9. Каковы различные виды РНК? 10. Что такое полиаденилирование? 11. Опишите процесс транскрипции. 12. Перечислите основные этапы трансляции. 13. Какие уровни и классы белковых структур вам известны? 14. Какова функция шаперонов?
Глава 4 Секвенирование и анализ ДНК и белков Достижения в области биологии и химии позволили значительно по- высить скорость секвенирования генов и белков. С появлением техноло- гии клонирования появилась возможность относительно просто встраивать последовательности чужеродной ДНК во многие биологические системы. Кроме того, благодаря этой технологии было освоено быстрое массовое производство специфичных последовательностей ДНК — необходимая пре- людия к расшифровке последовательностей. Технология синтеза олигонуклеотидов дала возможность исследова- телям конструировать короткие фрагменты ДНК из последовательностей нуклеотидов. Во-первых, эти олигонуклеотиды могут быть использованы для зондирования обширных библиотек кДНК с целью извлечения генов, содержащих эту последовательность. Во-вторых, эти фрагменты ДНК могут быть использованы в полимеразных цепных реакциях (ПЦР) для размноже- ния или модификации известных последовательностей ДНК. Две главные цели анализа последовательностей: 1) распознать после- довательности, которые кодируют белки, определяющие весь клеточный метаболизм, и 2) обнаружить последовательности, которые регулируют экс- прессию генов или иные клеточные процессы. 4.1. Геномика и протеомика Предмет геномики — развитие и применение методов молекулярной картографии и секвенирования, а также описания, вычисления и анали- за целых геномов организмов и полных наборов генных продуктов. Под геномом мы понимаем цельный комплемент генетического материала, со- держащегося в наборе хромосом. Анализ полных геномов дает нам новые представления о глобальной организации, экспрессии, регулировании и эво- люции наследственных материалов (см. рис. 4.1).
4.1. Геномика и протеомика 83 Рис. 4.1. Анализ генома: иерархическое представление. (Источник: A. J. F. Griffiths cl al. Modern Genetic Analysis: Integrating Genes and Genomsy W.H. Freeman and (’ompany, New York, 2002) Структурная, функциональная и сравнительная геномика Общая геномика охватывает три различные подобласти: структурную, функциональную и сравнительную геномику. Структурная геномика за- нимается составлением генетических и физических карт, а также рас- шифровкой полных геномов. Генетические карты дают ученым молеку- пярные ориентиры для построения физических карт и карт последова- тельностей с более высоким разрешением и, кроме того, указывают мо- лекулярные точки входа исследователям, занимающимся клонированием генов. Физические карты дают представление о том, как именно клоны из библиотек геномных клонов распределены в целом геноме. Они обеспечи- вают ресурс клонов для позиционного клонирования. Последовательности ДПК генома полезны в описании функций всех генов, включая экспрессию и регуляцию генов.
84 Глава 4 В ведении функциональной геномики находится общее изучение струк- туры, картин экспрессии, взаимодействий и регуляции молекул РНК и бел- ков, кодируемых геномом. Это всесторонний функциональный анализ генов и не содержащих гены последовательностей, проводимый на уровне целых геномов. Сравнительная геномика рассматривает методы сравнения полных ге- номов различных биологических видов с целью развития наших пред- ставлений о функциях каждого генома, а также об эволюционных связях организмов-носителей этих геномов. Подходы к секвенированию генома Расшифровка полной геномной последовательности ДНК какого-либо организма дает возможность попытаться распознать все гены этого орга- низма и таким образом определить его генотип. Для выполнения труд- ной задачи обработки, анализа и описания огромного числа генов и боль- ших количеств ДНК были изобретены специальные экспериментальные ме- тоды. Первый подход к секвенированию генома заключается в воспроизве- дении генетической и физической карт генома с достаточно высоким раз- решением (чтобы обозначить сегменты для дальнейшего увеличения разре- шения) и последующего секвенирования этих сегментов в строгом порядке, означенном картами. Другой подход — прямой метод дробовика — состоит в том, чтобы разбить геном на случайные перекрывающиеся фрагменты, после чего секвенировать эти фрагменты и осуществить сборку их после- довательностей с помощью вычислительных алгоритмов. Анализ геномных последовательностей показывает, что каждый орга- низм располагает некоторым набором генов, необходимых для протекания основных метаболических процессов, и также набором генов, продукты ко- торых определяют специфическую функцию данного организма. Поэтому расшифровка полного генома закладывает основу знания, на которой можно возводить здание научных представлений об экспрессии генов и белков, но которая сама по себе не достаточна для определения полного набора белков организма. Протеомика Сфера деятельности протеомики — каталогизация и анализ белков с целью установления следующих фактов: в каком состоянии (и на ка- ком этапе жизненного цикла) клетки данный белок экспрессируется, в ка-
4.1. Геномика и протеомика 85 ком количестве он синтезируется, и с какими другими белками он может взаимодействовать. Термин «протеомика» относится ко всем белкам, экс- прессируемым геномом. Это систематический анализ профилей белков тка- ней. Слово «протеом» означает белки, производимые данным биологиче- ским видом в определенное время. Протеом изменяется с течением вре- мени и определяется как «совокупность белков отдельного образца или экземпляра (ткань, организм, клеточная культура) в некоторый момент вре- мени». Протеомика отражает биологическую активность генома, а это — ди- намический процесс. Протеомику подразделяют на выразительную протео- мику (изучение глобальных изменений в экспрессии (выражении) белков) и цитокартографическую протеомику (систематическое изучение взаимо- действий между белками путем выделения белковых комплексов). В по- следнее время наблюдается все возрастающий интерес научного мира к про- теомике; это связано с тем, что информация, полученная при расшифровке последовательности ДНК, открывает только статическую картину мгновен- ного состояния множества путей, которыми клетка могла бы использовать свои белки, тогда как жизнь клетки есть абсолютно динамический про- цесс. Состав белков, экспрессируемых организмом, изменяется во время ро- ста, болезни и смерти клеток и тканей. Используя все возможности пере- довых технологий, протеомика стремится систематизировать и описывать белки, сравнивать изменения в уровнях их экспрессии в здоровых и больных тканях, изучать их взаимодействия и определять их функциональную роль. Протеомика начинается с функционально видоизмененного белка и конча- ется геном, ответственным за его синтез. Цели Цели протеомики следующие: 1) определить все белки протеома, 2) расшифровать последовательность каждого белка и внести полученные данные в базы данных и 3) провести общий анализ уровней экспрессии белков в клетках разных типов и на разных стадиях их развития. Структурная и функциональная протеомика В общей протеомике можно выделить структурную и функциональ- ную протеомику. Структурная протеомика, или экспрессия белков, измеря- ет число и типы белков, присутствующих в здоровых и больных клетках. Этот подход полезен в определении структуры клеточных белков. Некото-
86 Глава 4 рые из этих белков могут оказаться мишенями для новых лекарственных препаратов. Под функциональной протеомикой понимают учение о биоло- гических функциях белков. Важнейшая функция белков состоит в передаче сигналов посредством разветвленных проводящих путей, насыщенных вза- имодействующими друг с другом белками. Исследование протеома можно разбить на три основные стадии. 1) Разделение смеси белков с помощью ДЭПААГ (двумерный электро- форез в полиакриламидном геле). 2) Определение отдельных очищенных от геля белков посредством масс- спектрометрии или секвенирования с N-конца. 3) Хранение, обработка и сравнение полученных данных с помощью ме- тодов биоинформатики. Значение протеомики В постгеномную эру протеомика внесет неоценимый вклад в изучение функций открытых генов. Дифференциальная демонстративная протеоми- ка, предметом которой является сравнение уровней экспрессии белка, най- дет применение в лечении широкого спектра заболеваний. Поскольку часто бывает довольно трудно предсказать функцию белка на основании его гомо- логии с другими белками или даже по его трехмерной структуре, постольку определение компонентов белкового комплекса, то есть клеточной структу- ры, занимает центральное место в функциональном анализе. Протеомика будет играть важную роль также в открытии и разработ- ке лекарственных препаратов — за счет описания болезненного процесса путем непосредственного отыскания наборов белков (путей или групп), со- вокупность которых вызывает болезнь. Протеомику можно рассматривать как основанный на принципе мас- сового перебора метод молекулярной биологии, который стремится задоку- ментировать общее распределение белков в клетках, определить и охаракте- ризовать отдельные интересующие нас белки и в конечном счете объяснить их взаимодействия и функциональные роли. Такой прямой анализ на белковом уровне стал необходим в связи с тем, что данные исследования генов, проводимого методами геноми- ки, не позволяют адекватно предсказывать структуру или динамику бел- ков, так как львиная доля регулятивных процессов имеет место именно на уровне белков, где в основном и протекают болезненные процессы и где мо- жет быть найдена большая часть мишеней для медикаментозного воздей- ствия.
4.2. Картографирование генома 87 4.2. Картографирование генома До появления технологии анализа геномов генетический базис наших знаний об организме обычно включал в себя хромосомные карты срав- нительно низкого разрешения и физические карты генов, производящих известные мутантные фенотипы. Начиная с карт сцепления генетических признаков, составление молекулярных карт целого генома в общем случае проходит через несколько шагов последовательного увеличения разрешения (см. рис. 4.2). Генетическая карта — изображение относительных расстояний между генами, оцениваемых на основании измеренных частот рекомбина- ции этих генов. цитогене- тическая карта молекулярный маркер 1 молекулярный маркер 2 молекулярный- маркер 3 генетическая карта высо- кого разреше- ния ген клонированные фрагменты ' физическая карта TTAGCTTAACGTACTGGTACCGTACCGTGGCTTAT последова- тельность нуклеотидов ДНК Рис. 4.2. Общий план основных подходов к картографированию полного генома. Общая схема составления карты генома с помощью методов анализа с возрастаю- щей разрешающей способностью. (Источник: A. J. F. Griffiths et al., Modern Genetic Analysis: Integrating Genes and Genomes, W. H. Freeman and Company, New York 2002)
88 Глава 4 Составление генетических карт — процесс установления принадлеж- ности генов к определенным хромосомам и приписывания им генетиче- ских расстояний относительно других (уже известных) генов. Генетиче- ские карты геномов строят по данным генетических скрещиваний или, в случае человека, анализа родословной. Генетические скрещивания поз- воляют установить местоположения генетических маркеров (любой ал- лель, который может использоваться для отметки локуса на хромосоме или в гене) на хромосомах и определить генетическое расстояние между ними. Раньше в качестве маркеров для экспериментов при составлении гене- тических карт использовали гены. Теперь для построения генетических карт применяют генетические маркеры другого типа — ДНК-маркеры. Последние представляют собой генетические маркеры, обнаруживаемые с помощью молекулярных инструментов, оперирующих с самой ДНК, а не с продуктом гена или производным фенотипом. В составлении карты генома человека используются ДНК-маркеры че- тырех основных типов: 1) полиморфизм длины рестрикта (ПДР), 2) пере- менное число тандемных повторений (ПЧТП) (иначе называемых минис- путниками), 3) короткое тандемное повторение (КТП) (называемое также микроспутником) и 4) полиморфизм отдельного нуклеотида (ПОН). (С по- мощью микроматриц ДНК может быть выполнена одновременная печать сотен ПОНов.) 4.3. Методы секвенирования ДНК Известно несколько методов определения порядка нуклеотидов в ДНК. Один из таких методов называют секвенированием с обрывом цепи, или дидезокси-секвенированием, или же (в честь его изобретателя) методом по- лимерного копирования по Сенгеру. В основной реакции секвенирования участвуют следующие реагенты: однонитевая матрица ДНК, праймер для инициирования синтезируемой цепи, четыре дезоксирибонуклеозидтрифос- фата (дАТФ, дЦТФ, дГТФ и дТТФ) и фермент ДНК-полимераза, который встраивает комплементарные нуклеотиды в растущую нить ДНК, используя матричную нить в качестве шаблона. Обычно проводят четыре отдельные полимеразные реакции, причем каждая содержит небольшое количество одного из четырех дидезоксирибо- нуклеозидтрифосфатов (ддАТФ, ддЦТФ, ддГТФ и ддТТФ). Последние дей- ствуют как конкурентные ингибиторы реакции, обрывающие цепь. В каж- дой из четырех реакционных смесей синтезируется набор фрагментов ДНК
4.3. Методы секвенирования ДНК 89 разной длины: с общим началом и концами в определенных (одного и того же вида, но стоящих в разных позициях последовательности) основаниях (см. рис. 4.3). Автоматизированные методы В наши дни автоматизированы почти все реакции секвенирования. Каждую реакционную смесь метят специфической флуоресцентной мет- кой (или на праймере, или на субстрате одного из нуклеотидов), что поз- воляет определять концевые основания всех фрагментов с помощью ска- нера. Затем все четыре смеси реагентов объединяют в общей емкости и фрагменты ДНК разделяют путем электрофореза в полиакриламидном геле (ЭПААГ). Меньшие фрагменты ДНК движутся быстрее, чем более крупные. Таким образом набор фрагментов ДНК разделяется по размеру. Раз- решающая способность метода ЭПААГ позволяет разделять полину- клеотиды при разнице длин всего лишь в один остаток. Около кон- ца дорожек сканер считывает флуоресцентную метку с проходящего ми- мо фрагмента ДНК, и эта информация преобразуется в данные со- поставления дорожек, представленные в виде графика, построенного из группы цветных пиков, соответствующих определенным основаниям (см. рис. 4.4). Расшифрованные последовательности ДНК хранятся в базах данных. Так, имеются базы данных последовательностей геномной, комплементар- ной (кДНК) и рекомбинантной ДНК. Секвенирование генома выполняют с помощью метода дробовика или стратегии сборки НПО клонов. Для проверки качества расшифрованных последовательностей применяют мно- гие различные программы, например: «Фред», «Вектор клип» (vector clip), «Кроссматч» (CrossMatch), «Рипитмастер» (RepeatMaster), «Фрап» (Phrap) и «Стаден гэп-4» (Staden Gap4). Появление высокопроизводительной технологии автоматизированного секвенирования ДНК с флуоресцентными метками привело к быстрому накоплению информации о последовательностях; эта информация в свою очередь обеспечивает основу для получения вычислительными методами данных о последовательностях белков. На анализ последовательности ДНК опирается множество видов исследований; например, к ним можно отнести: обнаружение филогенетических связей; генная инженерия и составление рестрикционных карт; определение структуры гена посредством предска- зания интронов и экзонов; анализ кодирующей белок последовательности с помощью открытой рамки считывания (ОРС) и т. д.
90 Глава 4 матрица 5' ---GGATTCTGCTACGGA 3/ _________ТТтпптПТТп^ праймер конкурентный ингибитор ддАТФ 5' ---GGATTCTGCTACGGA 3' ddATGCCT I 1 ddACGATGCCT | '"] ddAGACGATGCCT | ' '~1 ddAAGACGATGCCT| | конкурентный ингибитор ддЦТФ 5' ---GGATTCTGCTACGGA ---------► 3' ddCT| | ddCCT I 1 ddCGATGCCT | 1 ddCTAAGACGATGCCT ------ 1 ddCCTAAGACGATGCCT | ' | конкурентный ингибитор ддГТФ 5' ---GGATTCTGCTACGGA ----- 3' ddGCCT Г ~~1 ddGATGCCT | ' ~| ddGACGATGCCT | ~~] конкурентный ингибитор ддТТФ 5' ---GGATTCTGCTACGGA ► 3' ddT |□ ddTGCCT I I ddTAAGACGATGCCT | | a) Рис. 4.3. Принцип секвенирования ДНК: а) реакции секвенирования независимо протекают в реакционных смесях, содержащих ограниченное количество одного из четырех дидезокси нуклеотидов. Продукт каждой реакции — набор фрагментов, за- канчивающихся определенным основанием; б) полиакриламидный гель, поделенный на отдельные дорожки для независимого протекания реакций. В типичном автома- тизированном процессе все реакционные смеси объединяют перед электрофорезом, а концевые нуклеотиды фрагментов определяют путем сканирования специфиче- ских флуоресцентных меток. (Источник: Twyman, R. М., Advanced Molecular Biology @ BIOS Scientific Publishers Ltd., 1998)
4.4. Открытая рамка считывания (ОРС) 91 Рис. 4.4. Образец высококачественного графика сопоставления дорожек, где пи- ки всех оснований обозначены достаточно наглядно. Пики обычно распечатыва- ются разным цветом (на этом рисунке показаны линиями различного стиля) с це- лью облегчения визуальной интерпретации. Программное обеспечение типа «Фред» (Phred) считывает пики и присваивает им качественные значения (А — толстая сплошная линия; С — тонкая сплошная; G — тонкая пунктирная; Т — толстая штрих-пунктирная). (Источник: Westhead, D. R. et al., Instant Notes: Bioinformati.es, Bios Scientific Publishers Ltd., 2003) Экзоны, интроны и КП Согласно «Центральной догме» ДНК транскрибируется в РНК, кото- рая затем транслируется в белок. В эукариотических системах экзоны фор- мируют часть конечной кодирующей последовательности (КП), тогда как интроны, хотя и транскрибируются, но вырезаются клеточными механиз- мами прежде, чем иРНК принимает свою окончательную, зрелую форму (см. рис. 4.5). Базы данных последовательностей ДНК обычно содержат информацию на уровне нетранслированной геномной последовательности, интронов и экзонов, иРНК, кДНК и продуктов трансляции. Нетранслируемые области (НТО) встречаются как в ДНК, так и в РНК; они представляют собой отрезки нетранслируемой последовательности, ко- торые с обеих сторон примыкают к КП и не транслируются в белок. Нетранслируемая последовательность, особенно расположенная на 3’-конце КП, весьма специфична как к самому гену, так и к биологическому виду, которому свойственно наличие этой КП. 4.4. Открытая рамка считывания (ОРС) Открытыми рамками считывания называют отрезки последовательно- сти ДНК, не прерываемые такими кодонами, которые привели бы к пре- кращению синтеза белка, и ограниченные соответствующими сигналами начала и конца трансляции. Таким образом, ОРС может считаться лю-
92 Глава 4 5' I интрон б'-НТО | экзон экзон з' интрон I экзон | З'-НТО смысловая нить геномной ДНК иРНК белок б’-НТО транскрипция I КП з'-нто трансляция Рис. 4.5. В эукариотических системах экзоны формируют часть конечной кодирую- щей последовательности (КП), а интроны также транскрибируются, но затем выре- заются клеточным механизмом прежде, чем иРНК принимает свою функционально активную форму. Изображенный на этом рисунке ген состоит из трех экзонов и двух интронов. В отличие от кодирующих последовательностей, экзоны не заканчивают- ся, как обычно, стоп-кодонами, но экзон-интронными границами; нетранслируемые области (НТО) расположены с обоих концов гена; если транскрипция начинает- ся с 5’-конца последовательности, то 5’-НТО содержит промоторные участки (ти- па блока ТАТА), а З’-НТО следует непосредственно за стоп-кодоном. (Источник: Attwood, Т. К. and Parry-Smith, D. J., Introduction to Bioinformatics, Pearson Education Ltd., 2001) бая последовательность нуклеотидов без стоп-сигнала, которая кодирует некоторое минимальное число аминокислот (около 100). Определение ОРС у прокариотов не представляет трудностей. У эукариотов отыскание ОРС усложнено характерным наличием интронов. Какая рамка считывания является правильной для трансляции? Пра- вильной рамкой считывания обычно считают самую длинную рамку, не
4.4. Открытая рамка считывания (ОРС) 93 прерываемую кодоном остановки (TGA, ТАА или TAG). Такую рамку на- зывают открытой рамкой считывания (ОРС). Найти конец ОРС намного легче, чем отыскать ее начало. В качестве индикаторов областей ДНК, предположительно кодирую- щих белки, можно использовать несколько характеристик. Одна из таких характеристик — достаточная длина ОРС. В точном определении начала КП может быть полезно также распознавание примыкающих последовательно- стей Козака (см. рис. 4.6). Кроме того, было установлено, что модели ис- пользования кодонов отличаются сочетанием кодирующих и некодирующих областей. кДНК ЯЭП КП НТО Рис. 4.6. При создании библиотеки комплементарных ДНК (кДНК) последняя синтезируется из иРНК с помощью обратной транскриптазы. Затем производятся ЯЭПы путем однократного считывания каждого клона на автосеквенаторе. В иРНК старт-кодон может примыкать к последовательности Козака, которая дает дополни- тельную уверенность в правильности предсказания начала КП. (Источник: Attwood, Т. К. и Parry-Smith, D. J., Introduction to Bioinformatics Pearson Education Ltd., 2001) » В частности, частоты использования кодонов для кодирования опре- деленных аминокислот отличаются у организмов разных видов, а правила использования кодонов нарушаются в тех областях последовательности, ко- торые не предназначены для трансляции. Таким образом, статистический анализ частот использования кодонов может быть полезен для определения 5’- и З’-НТО (а также для опознавания неправильных трансляций), пото- му что в этих областях наблюдается нехарактерно высокая встречаемость редко используемых кодонов. Таблица 4.1 иллюстрирует значительную изменчивость в выборе ко- донов, которые различные организмы используют для кодирования опре- деленных аминокислот. Помимо характерной для каждого вида модели ис- пользования кодонов, многие организмы оказывают общее предпочтение
94 Глава 4 нуклеотидам G или С над А или Т в третьей позиции кодона (позиции Уоб- бла). Закономерное отклонение частоты встречаемости нуклеотидов в этой позиции в сторону G или С также может внести вклад в предсказание ОРС. Таблица 4.1. Частоты использования кодонов (в процентах) для кодирования се- рина, отмеченные у разнообразных опытных организмов. Для кодирования серина существует шесть возможных кодонов, которые в принципе могут использоваться с равной частотой всякий раз, когда в КП определяется серин. В действительности, однако, организмы чрезвычайно избирательны в отношении кодонов. Отраженные здесь характерные различия в частотах встречаемости кодонов могут быть исполь- зованы в качестве дополнительного фактора в предсказании областей ДНК, предпо- ложительно кодирующих белки Кодон Е. coli D. melanogaster Н. sapiens Z. mays S. cerevisiae AGT 3 1 10 4 5 AGC 20 23 34 30 4 TCG 4 17 9 22 1 ТСА 2 2 5 4 6 ТСТ 34 9 13 4 52 ТСС 37 42 28 37 33 Как полагают, мощным средством опознавания ОРС в области, рас- положенной выше старт-кодона генов прокариотов, является обнаружение участков прикрепления рибосом (которые помогают направлять рибосомы к правильным позициям начала трансляции). Присутствие экзонов и интронов в генах эукариотов может приве- сти к тому, что потенциальные продукты гена будут иметь разные дли- ны, поскольку в конечной транскрибированной иРНК могут быть оставле- ны не все экзоны (хотя порядок представленных экзонов всегда сохраня- ется). Если процесс редактирования иРНК приводит к трансляции полипеп- тидов различной длины, то такие конечные белки называют вариантами сращения или альтернативно сращёнными формами. Таким образом, ре- зультаты поиска в базе данных по образцам кДНК или иРНК (информа- ция транскрипционного уровня), обнаруживающие многочисленные пробе- лы в совпадениях с последовательностью запроса, могут быть следствием альтернативного сращивания.
4.5. Определение последовательности клона 95 4.5. Определение последовательности клона Клон — это скопированный фрагмент ДНК, поддерживаемый в форме кольца и идентичный матрице, с которой он был получен. Процесс опреде- ления нуклеотидной последовательности клонов позволяет выполнить ана- лиз целой последовательности ДНК. По окончании эксперимента по кло- нированию некоторого гена, последовательность которого уже известна, необходимо удостовериться в том, что клонированная последовательность действительно идентична опубликованной расшифровке. Исходный клон кДНК синтезируют с помощью матрицы иРНК. Затем этот клон секвенируют. Сначала конструируют праймеры, комплементар- ные известным олигонуклеотидам, присутствующим в клонирующем век- торе, который окружает встроенную ДНК. После гибридизации соответ- ствующими олигонуклеотидами праймеры наращиваются в ходе реакции синтеза цепи, используя в качестве матрицы встроенную последователь- ность (см. рис. 4.7). 5' оборванная цепь ддГТФ ДНК-матрица з' б) 5' ------------------------- ДДГТФ 5 ’ ------------------------------ддГТФ 5' ---------------------------------------- ддГТФ 5' -----i------------------------------------- ддГТФ о / С С С С к I 3 ------------------------------------------------------- о Рис. 4.7. Секвенирование матричной ДНК: а) синтез цепи и ее обрыв после при- соединения ддГТФ; б) набор цепей, оканчивающихся в различных позициях опре- деленного основания. Исходя из того что гуанин всегда спаривается с цитозином, можно заключить, что в каждой из этих позиций матричной последовательности находится цитозин. (Источник: Attwood, Т. К. and Parry-Smith, D. J., Introduction to Bioinformatics Pearson Education Ltd., 2001) Реакция синтеза заканчивается при встраивании в цепь одного из ди- дезоксинуклеотидов (ддАТФ, ддТТФ, ддГТФ или ддЦТФ). Цепи обрывают-
96 Глава 4 ся в разных позициях одного и того же основания, так как в реакционной смеси присутствуют также нормальные основания (дАТФ, дТТФ, дГТФ или дЦТФ), конкурирующие с дидезоксинуклеотидами. В результате для каждого праймера мы получаем набор фрагментов различной длины. Затем фрагменты разделяют на автосеквенаторах в гелях с использованием стандартных методов радиоактивного или флуоресцент- ного мечения (исходя из целесообразности) и определяют порядок распо- ложения оснований в последовательности. И наконец, программа сборки строит согласованную последовательность клона (согласно весам, припи- санным к каждой позиции исходной последовательности). Расшифровка последовательностей клонов, взятых с физической карты генома, осуществляется также путем сборки целого генома, секвенирован- ного методом дробовика (см. рис. 4.8). Секвенирование целого генома ме- тодом дробовика проводят следующим образом: целый геном разбивают на множество случайных клонов, затем в каждом из них секвенируют области встроек, примыкающие к точкам сопряжения с последовательностью век- hsmwswsssmsssss НПО1 НПО 2 нпоз считывания спаренных концов считывания спаренных концов каркас секвенированная НПО 1 пропуск секвенированная секвенированная НПО 2 пропуск НПО 3 Рис. 4.8. Сборка целого генома, секвенированного методом дробовика. Сначала на основании анализа уникальных перекрытий между считываниями последовательно- стей клонов строят отдельные НПО. Затем считывают участки спаренных концов НПО, в результате чего правильно упорядочивают и ориентируют НПО, а также перекрывают пропуски между ними и объединяют их в более крупные единицы, называемые каркасами. (Источник: A. J. F. Griffiths et al., Modern Genetic Analysis, W. H. Freeman and Company, 2002)
4.6. Ярлыки экспрессируемых последовательностей 97 тора; полученную таким образом информацию о составе секвенированных последовательностей перекрывающихся клонов используют для сборки по- следовательности всего генома и восстановления физической карты этих клонов. Внедрение технологии флуоресцентного секвенирования привело к ускорению темпов накопления данных о последовательностях ДНК. Те- перь за тот же промежуток времени может быть выполнено большее число реакций секвенирования, а протоколы стали лучше отвечать условиям ав- томатизации. Если реакции протекают во флуоресцентном геле, то преро- гатива на интерпретацию активированной лазером флуоресценции и преоб- разование этих данных в цифровую форму, подходящую для дальнейшего анализа, может быть отдана ЭВМ. Обычно гель-электрофорез проводят на 36 параллельных дорожках. Выходная информация представлена рядом закодированных цветом пиков, под которыми расположена строка знаков, обозначающих основания. Ино- гда интерпретирующее хроматограмму программное обеспечение не может определить, какое основание должно быть названо в определенной позиции. В таком случае появляется знак пробела «-». В конечном файле данных се- квенирования такие неопределенные позиции обозначены буквой «N». 4.6. Ярлыки экспрессируемых последовательностей Ярлык экспрессируемой последовательности — секвенированный отре- зок последовательности клона, случайно отобранного из библиотеки кДНК, используемый для опознавания генов, экспрессируемых в определенной ткани. Мы далеко не всегда располагаем расшифровками полных последо- вательностей ДНК; львиная доля накопленных к настоящему времени дан- ных о ДНК состоит из отдельных отрезков последовательностей, большая часть которых представлена ярлыками экспрессируемых последовательно- стей (ЯЭПами). В анализе ЯЭПов необходимо учитывать следующие моменты: 1) ал- фавит ЯЭПов состоит из пяти знаков; 2) в последовательности могут при- сутствовать фантомные всуды (вставки/удаления), приводящие к сдвигам рамки трансляции; 3) весьма вероятно, что ЯЭП окажется подпоследова- тельностью какой-либо последовательности из баз данных; 4) ЯЭП может вовсе не представлять отрезок КП какого-либо гена. Принцип секвенирования ЯЭПа показан на рис. 4.9. Из клеток интере- сующей ткани или клеточной линии создают библиотеку кДНК. Для этого из ткани или культуры клеток выделяют иРНК. Затем иРНК обратно транс-
98 Глава 4 клетка или ткань г, выделение иРНК II и обратная транскрипция V в кДНК помещение последовательностей ЯЭПов в «бдЯЭП» з'-яэп п встраивание кДНК в вектор II для размножения и создания v библиотеки кДНК кДНК кДНК кДНК кДНК вектор 4 - _ - вектор вектор секвенирование 5 - и 3-концов встройки кДНК отбор отдельных \ клонов вектор Рис. 4.9. Краткая схема конструирования ЯЭПов. (Источник: Wolfsberg, Т. G. and Landsman, D., Expressed Sequence Tags (ESTs) in Bioinformatics — a practical guide to the analysis of genes end proteins (eds) Baxevanis, A. D., and Francis Quellette, В. E, John Wiley & Sons, Inc., 2002) крибируют в кДНК — обычно с помощью праймера олиго-(дТ), так что один конец встройки кДНК получается транскрибированным с поли-А хвоста на конце иРНК. Другой конец кДНК обычно соответствует некоторому участ- ку кодирующей последовательности или, если кодирующая последователь- ность коротка, — участку 5’-НТО. Наконец, полученную кДНК клонируют с помощью вектора. Отдельные клоны выбирают из библиотеки и синтезируют по одной последовательности с каждого конца встройки кДНК. Таким образом, каж- дый клон обычно представлен 5’-ЯЭПом и З’-ЯЭПом. Поскольку ЯЭПы коротки, они обычно представляют только фрагменты генов, а не пол- ные кодирующие последовательности. Типичный ЯЭП имеет длину от 200 до 500 нуклеотидов. Как правило, процесс производства ЯЭПов в высокой степени авто- матизирован и обычно предполагает использование флуоресцентной лазер- ной системы для считывания гелевых пленок. Для дальнейшего анализа расшифрованные последовательности загружаются в вычислительную си- стему.
4.7. Секвенирование белков 99 Представляет ли такой ЯЭП новый ген? Чтобы ответить на этот во- прос, необходимо произвести поиск в базе данных ДНК. Если результат показывает существенное подобие с некоторой последовательностью в базе данных, то нормальная процедура классификации совпадений определит, был ли найден действительно новый ген. Если, однако, результат поис- ка не показывает значительного подобия, то мы не имеем достаточных оснований предполагать, что был обнаружен новый ген: может оказаться и так, что данный ЯЭП представляет некодирующую последовательность какого-либо известного гена, которую просто не успели поместить в базу данных. Во многих иРНК (особенно у человека) на 5’- и 3’-концах КП распо- ложены длинные нетранслируемые области. Весьма вероятно, что рассмат- риваемый ЯЭП был целиком транскрибирован с одной из этих некодиру- ющих областей. Если нам повезет, то в базе данных уже будет находиться некоторое сечение нетранслируемой (некодирующей) последовательности. Если это так, то при поиске будет найдено прямое совпадение, посколь- ку нетранслируемые области сильно консервативны и весьма специфичны к кодирующим генам. В случае неблагоприятного исхода не будет найдено никакого совпаде- ния, что указывает на одну из следующих двух возможностей: 1) данный ЯЭП представляет некоторую КП, для которой нет ни одной подобной по- следовательности в базе данных (все же ясная возможность), 2) этот ЯЭП представляет некодирующую последовательность, которая еще не помеще- на в базу данных. В интерпретации анализа ЯЭПов очень важно четко различать эти две ситуации (см. рис. 4.10)! 4.7. Секвенирование белков Прямое секвенирование РНК заключается в химическом определении модифицированных нуклеотидов. Наиболее чувствительное сравнение меж- ду последовательностями возможно провести на уровне белка; обнаружение отдаленно связанных последовательностей намного удобнее осуществлять после их трансляции, потому что избыточность кода из 20 различных ами- нокислот — функциональных мономеров белка — значительно меньше из- быточности генетического кода из 64 кодонов. Поскольку белки суть функ- ционально выраженная абстракция происходящих в ДНК генетических со- бытий, постольку снижение вырожденности кода на этом уровне неизбежно сопровождается потерей информации, имеющей непосредственное отноше- ние к эволюционному процессу.
100 Глава 4 HI iii экзон 1 экзон 2 экзон 3 экзон 4 геномная ДНК кДНК 5f ГГИХ'ГТ nl ггГЧТТ Я^ТТы -лЛ1^||||^^ о ->LJ11 У1С711Ы Рис. 4.10. Выравнивание полностью секвенированных последовательностей кДНК и ЯЭПов с геномной ДНК. Толстые линии обозначают области выравнивания; на изображении кДНК это экзоны гена. Точки между сегментами кДНК или ЯЭПа- ми обозначают области в геномной ДНК, которые не выравниваются с последо- вательностями кДНК или ЯЭПов; это области интронов. Числа над линией кДНК обозначают координаты (в нуклеотидах) последовательности кДНК, где нуклеотид № 1 — ближайший к 5’-концу кДНК, а нуклеотид №816 — ближайший к З’-концу кДНК. Каждый ЯЭП представляет только короткую последовательность, считанную с 5’- или с 3’-конца соответствующей кДНК. Таким образом, ЯЭПы устанавлива- ют границы единиц транскрипции, но не дают никакой информации о внутренней структуре транскриптов, если только последовательности этих ЯЭПов не пересека- ют интроны (как в случае З’-ЯЭПа, изображенного на этом рисунке). (Источник: A. J. F. Griffiths et al., Modem Genetic Analysis, W. H. Freeman and Company, 2002) В прошлом прямое секвенирование белков проводили с помощью ме- тода расщепления белков по Эдману: концевой остаток белка помечали, удаляли и затем определяли, проводя ряд химических реакций. Совре- менные методы секвенирования белков опираются на масс-спектрометрию (МС) — методику, позволяющую точно определить отношение массы иона к его заряду в вакууме (т/е или m/z) и по нему вычислить массу моле- кулы. Определение структуры Структуру белка определяют путем рентгеноструктурного анализа или спектроскопии ядерного магнитного резонанса (ЯМР-спектроскопии). Рент- геноструктурный анализ заключается в восстановлении положений атомов на основании анализа дифракционной картины прохождения рентгеновских лучей через точно ориентированный кристалл белка. Рассеянные рентге-
4.8. Анализ экспрессии генов и белков 101 новские лучи вызывают положительную и отрицательную интерференцию и создают регулярную картину сигналов, или отражений. Результат зависит от трех переменных: амплитуды и фазы рассея- ния (которые зависят от числа электронов в каждом атоме), а также от длины волны падающих рентгеновских лучей. Основанием метода ЯМР- спектроскопии послужил тот факт, что некоторые атомы, включая природ- ные изотопы азота, фосфора и водорода, ведут себя подобно крошечным магнитам и изменяют свой спиновый магнитный момент в приложенном пе- ременном магнитном поле. Эти процессы обусловлены поглощением корот- коволнового электромагнитного излучения и производят спектры ЯМР. Для определения структуры белка применяют также некоторые другие методы: например, ЯМР-спектроскопию с магическим углом вращения (ЯМРМУВ) и спектроскопию кругового дихроизма (СКД). Предсказание структуры Известны три главных подхода к предсказанию вторичной структуры белка: 1) эмпирические статистические методы, основанные на оценке па- раметров известных пространственных структур; 2) методы, опирающиеся на физико-химические критерии (такие как компактность свертки, гидро- фобность, заряд, энергия водородной связи и т. д.); 3) алгоритмы предска- зания, приписывающие полипептиду вторичную структуру по данным его сравнения с известными структурами гомологичных белков. Одним из стандартных эмпирико-статистических методов является ме- тод Чоу-Фасмена, основанный на оценке наблюдаемых в негомологичных белках конформационных предпочтениях аминокислот. Однако, несмотря на то что это «стандартный» подход, принятый во всех подобных методах, его надежность в Плане определения конформационных потенциалов ами- нокислот оказалась неудовлетворительной. Что касается алгоритмов пред- сказания, то, напротив, за счет анализа данных множественного выравни- вания последовательностей точность предсказаний в данной предметной области возрастает на несколько процентов. Предсказание третичной струк- туры белка (особенно построенное на предсказанных вторичных структурах молекулы) все еще лежит за пределом возможного. 4.8. Анализ экспрессии генов и белков Проявление потенциала гена называют его экспрессией, в ходе кото- рой ген используется как своего рода план синтеза определенного белка.
102 Глава 4 Картины экспрессии гена дают ключи к раскрытию его биологической ро- ли. Все функции клеток, тканей и органов управляются дифференциальной экспрессией генов. Анализ экспрессии гена проводят с целью изучения его функции. Ин- формация о том, какие гены экспрессируются в здоровых и больных тканях, позволит нам определить как набор белков, необходимый для нормальной функции, так и отклонения состава, вызывающие болезнь. Эти данные по- могут в разработке новых диагностических тестов различных заболеваний, а также новых лекарств, способных влиять на активность пораженных генов или белков. Раньше экспрессию генов изучали на уровне РНК или белка, по прин- ципу ген-за-геном, с помощью методов Нозерн- и Вестерн-блот анализа. Теперь известны способы анализа общей экспрессии, в которых все ге- ны исследуют одновременно. Простой, но относительно дорогой методи- кой анализа на уровне РНК является прямая выборка последовательностей из наборов РНК, или библиотек кДНК, или даже из баз данных последова- тельностей. В более совершенной методике, получившей название САЭГ (серий- ный анализ экспрессии генов), от каждой кДНК синтезируют очень корот- кие ярлыки последовательности (обычно 8-15 н.), после чего их соединяют вместе по несколько сотен и таким образом формируют сцепку до начала секвенирования. В одной реакции секвенирования может быть получена ин- формация об относительном содержании сотен различных иРНК. Каждый ярлык САЭГ уникально обозначает каждый ген, и путем подсчета числа яр- лыков могут быть определены относительные уровни экспрессии каждого гена (см. рис. 4.11). 4.8.1. Микроматрицы ДНК В настоящее время широкое применение получили микроматрицы ДНК (чипы ДНК). Микроматрица ДНК, или чип ДНК, — плотная батарея эле- ментов ДНК (часто называемых признаками или ячейками), размещенных Рис. 4.11. Упрощенная схема метода серийного анализа экспрессии генов. Nla III — довольно популярная рестриктаза: вначале ее применяют для получения 3’-фраг- ментов кДНК и обеспечения перевеса для лигирования линкеров, а затем — для удаления линкеров перед сцеплением сдвоенных ярлыков. Fok I — рестриктаза типа Ils с участкОхМ узнавания в линкере, которая производит ярлыки САЭГ путем раз- резания молекулы ДНК несколькими основаниями ниже этого участка. (Источник: D. R. Westhead et al., Instant Notes: Bioinformatics, Bios Scientific Publishers Ltd., 2003)
4.8. Анализ экспрессии генов и белков 103 поли-А + РНК ААААА синтез кДНК биотинили- рованный олиго-дТ Nla III рестрикционное переваривание, очистка и сцепление двойных ярлыков CCTAGTCAGGCGACTTCA '----*---"----V---' ярлык 1 ярлык 2 двойной ярлык А CCAAAGTGCTTTCGAGGA GAAGTCCTACGATCATGG ярлык 3 ярлык 4 ярлык 5 ярлык 6 двойной ярлык В двойной ярлык В
104 Глава 4 на миниатюрной подложке из нейлонового фильтра или предметного стекла. Каждый элемент представляет определенный ген. (Специфика гибридиза- ции нуклеиновой кислоты состоит в том, что некоторую отдельную моле- кулу ДНК или РНК можно пометить радиоактивной или флуоресцентной меткой и таким образом получить зонд, который может быть использован для выделения комплементарной молекулы из очень сложной смеси, напри- мер, из набора элементов целой молекулы ДНК или клеточной РНК). Матрицу обычно гибридизируют комплексным зондом РНК; такой зонд производят путем мечения совокупной смеси молекул РНК, полученных из клетки определенного типа. Таким образом, состав зонда отражает от- носительное число отдельных молекул РНК в клетке-источнике. Если вы- полняется ненасыщаемая гибридизация, то интенсивность сигнала каждого элемента микроматрицы представляет относительное содержание соответ- ствующей РНК в зонде и, следовательно, позволяет одновременно визуали- зировать относительные уровни экспрессии нескольких тысяч генов. Наиболее широко применяют метод с автоматизированным нанесени- ем отдельных клонов ДНК на подложку (покрытое специальным составом предметное стекло). Такие краплёные матрицы ДНК могут иметь плотность до 5000 элементов на квадратный сантиметр. Элементы содержат молекулы двунитевой ДНК (клоны из исследуемого генома или молекулы кДНК) до 400 п. н. длиной, которые должны быть денатурированы до начала гибри- дизации (см. рис. 4.12). Геночипы Другой метод — фотолитографический синтез на чипе, в котором ко- роткие олигонуклеотиды синтезируются in situ во время изготовления чи- па. Такие батареи ячеек известны как геночипы. Они имеют плотность до 1 000 000 элементов на квадратный сантиметр, причем каждый элемент включает до 109 однонитевых олигонуклеотидов длиной 25 н. Каждый ген на геночипе представлен 20-ю элементами (20-ю перекрывающимися оли- гонуклеотидами); кроме того, для нормализации неспецифической гибри- дизации в него включены 20 контрольных несовпадений. Для крапления матриц ДНК применяют флуоресцентные зонды, так как для мечения различных наборов РНК очень удобно использовать разные флуорофоры. Они могут быть одновременно гибридизированы на одной матрице, что позволяет проводить непосредственное измерение дифферен- циальной экспрессии генов. Гибридизацию геночипов проводят отдельными зондами на двух идентичных чипах, а интенсивности сигналов измеряют и сравнивают с помощью прилагаемого программного обеспечения.
измерение интенсивности излучения в красной и зеленой областях спектра компьютерный анализ относительных уровней экспрессии Рис. 4.12. Процесс измерения дифференциальной экспрессии с помощью микроматрицы ДНК. Сначала клоны ДНК размножают и наносят на подложку, в результате чего получают микроматрицу. Затем опытные и эталонные образцы РНК обратно транскрибируют и метят различными флуоресцентными красителями (Су5 и СуЗ), которые флуоресци- руют в различных (красной, зеленой) областях спектра. После чего эти образцы гибридизируют на микроматрице. Затем при помощи лазерного возбуждения измеряют флуоресценцию каждого красителя на всех элементах (генах) и преобразуют эти данные к относительным уровням экспрессии генов в опытных и эталонных образцах. (Источник: Duggan D. J. et al., Expression profiling using cDNA microarrays. Nature Genet. 21 (suppl. 2): pp 10-14, 1999) 4.8. Анализ экспрессии генов и белков
106 Глава 4 Анализ данных Исходные данные опытов на микроматрице состоят из изображений гибридизированных матриц. Точный характер изображения зависит от под- ложки матрицы (тип используемой матрицы). Матрицы ДНК могут содер- жать много тысяч элементов. Поэтому процессы сбора и анализа данных должны быть автоматизированы. Программное обеспечение для предвари- тельной обработки изображений обычно поставляется вместе со сканером. Оно позволяет определять границы отдельных пятен и измерять полную ин- тенсивность (мощность) сигналов по яркости целых пятен. Интенсивность сигналов необходимо корректировать по интенсивности фона, и, кроме то- го, в матрицу должны быть включены контрольные меры для измерения неспецифической гибридизации и оценки разброса параметров гибридиза- ции на различных матрицах. Цель обработки данных состоит в преобразовании сигналов гибриди- зации в числа, которые могут быть использованы для получения матри- цы экспрессии генов. Интерпретация данных гибридизации микроматри- цы проводится с помощью их группировки согласно подобным профилям экспрессии. Группировка — способ упрощения больших наборов данных за счет объединения подобных данных в определенные группы. Для авто- матизации методов анализа данных гибридизации микроматриц были раз- работаны различные варианты программных приложений (см. табл. 4.2). Область применения Микроматрицы ДНК применяют в следующих целях. 1) Исследование состояний клеток и процессов, в них протекающих. Картины дифференциальной экспрессии, зависимой от состояния клетки, могут дать ключи к разгадке механизмов таких процессов, как образование спор или переход от аэробного метаболизма к анаэробному. 2) Диагностика заболеваний. Тест на присутствие мутаций может под- твердить диагноз предполагаемого генетического заболевания; сюда же вхо- дит обнаружение поздно проявляющихся симптомов, как, например, в слу- чае болезни Хантингтона, и определение потенциально опасных для потом- ства генов у предполагаемых родителей (рекомендации при планировании семьи). 3) Генетические предупредительные признаки. Некоторые болезни не определяются исключительно и непоправимо генотипом, но вероятность их развития зависит от поведения определенных генов и может быть оценена
4.8. Анализ экспрессии генов и белков 107 Таблица 4.2. Ресурсы «Интернета», созданные для программного или информацион- ного обеспечения анализа экспрессии генов на микроматрицах. Первые два веб-узла предоставляют вполне исчерпывающие сведения и содержат сотни ссылок на базы данных, источники программного обеспечения и другие ресурсы. В таблице приве- дены два комплекта, предусматривающих работу в сети программ анализа, а также некоторые базы данных, содержащие экспериментальные данные анализа микро- матриц и другую информацию об экспрессии генов УУР Продукт(ы) Комментарии Узлы со ссылками на программы анализа микроматриц и другие ресурсы http://genome- Cluster, Xcluster, Обширный список ресурсов про- www4.stanford.edu SAM, Scanalyze, граммного обеспечения «Стан- /MikroArray/SMD/ многие другие фордского университета» и другие restech.html источники, как загружаемые, так и сетевые. http://ihome.cuhk.edu. Cluster, Cleaver, Исчерпывающий список загружа- hk/~b400559/arraysoft. GeneSpring, емого и сетевого программного html Genesis, многие обеспечения анализа микроматриц другие и проходки данных, плюс ссылки к базам данных экспрессии генов. Сетевой анализ микроматриц http://ep.ebi.ac.uk/EP/ Expression Очень мощный комплект разрабо- profiler тайных «ЕИБ» программ анализа и группировки данных экспрессии. http://bioinfo.cnio.es. Средства анали- Комплект программ «Националь- dnarray/analysis/ за матриц ДНК ного испанского центра рака» (CNIO), содержащий программы * построения диаграммы разбро- са двух образцов, иерархической группировки, SOM, моделирова- ния нейросетей и просмотра дере- вьев. Базы данных анализа микроматриц http://www.ncbi.nlm. «Национальный «СЭГ» («Сборник экспрессии ге- nih.gov/geo/ центр биотех- нов») — база данных экспрес- нологической сии генов и гибридизации мат- информации» риц, в которой может произво- («НЦБИ») диться поиск по номеру доступа, через страницу содержания или через интерфейс поиска «Entrez ProbeSet».
108 Глава 4 Продолжение табл. 4.2 УУР Продукт(ы) Комментарии http://www.ebi.ac.uk /microarray/ArrayExpress /arrayexpress.html ArrayExpress «ЕИБ» — база данных экспрессии генов на микроматрицах. Разрабо- тан MGED и обслуживает MIAME. http ://ww w. ncgr. org/ genex/ GeneX База данных экспрессии генов «GeneX» — объединенный набор средств анализа и сравнения дан- ных гибридизации микроматриц. по картине их экспрессии. Осведомленный о предрасположении к той или иной болезни, человек в некоторых случаях может предупредить развитие заболевания путем внесения поправок в свой образ жизни. 4) Подбор лекарственных препаратов. Установление генетических факторов, обусловливающих ответные реакции организма на воздействие медикаментов; у одних пациентов подобные эффекты делают лечение неэф- фективным, а у других даже вызывают опасные аллергические реакции. 5) Классификация болезней. По разным картинам экспрессии генов мо- гут быть определены различные типы лейкемии. Знание точного типа бо- лезни важно для подбора оптимальных методов лечения. 6) Выбор мишени для разработки лекарства. Белки, показывающие повышенный уровень транскрипции в определенных болезненных состоя- ниях, могли бы быть потенциальными мишенями для фармакологического воздействия (при условии, что по другим данным будет показано, что уси- ленная транскрипция необходима для поддержания болезненного состояния или способствует ему). 7) Сопротивляемость патогенам. Сравнительный анализ генотипов или картин экспрессии у восприимчивых и стойких к антибиотику бакте- риальных штаммов позволяет обнаружить белки, вовлеченные в механизм сопротивляемости. 4.8.2. Анализ экспрессии белков Двумерный электрофорез в полиакриламидном геле (ДЭПААГ) — об- щепринятый биохимический метод, в котором белки разделяют по двум независимым параметрам: по изоэлектрической точке (pl) (заряду) и мо- лекулярной массе. Разделение в первом измерении выполняют с помощью
4.8. Анализ экспрессии генов и белков 109 изоэлектрофокусировки в неподвижном градиенте pH. Градиент pH обра- зуется рядом буферов, а неподвижный градиент pH создается ковалентным связыванием буферных групп с гелем, что предотвращает миграцию самого буфера в ходе электрофореза. Изоэлектрофокусировка Изоэлектрофокусировка означает принудительную миграцию белков под действием электрического поля, пока pH буфера не станет равной pl белка. Изоэлектрическая точка белка — это величина его pH, при кото- рой он не несет никакого результирующего заряда и поэтому не движется в приложенном электрическом поле. По окончании миграции гель урав- новешивают в моющем средстве додецилсульфате натрия (ДСН), который однородно связывается со всеми белками и придает им результирующий отрицательный заряд. Благодаря этому может быть выполнено разделение во втором измерении — по молекулярной массе. После разделения во втором измерении гель белка окрашивают универ- сальным красителем, чтобы проявить расположение всех белковых пятен. Затем для сравнения уровней экспрессии белка могут быть выполнены вос- производимые сеансы ДЭПААГ с подобными образцами (тканей). Таким образом получают диагностический индикатор белка для любого отдельно- го образца (см. рис. 4.13). Наконец, окрашенный гель с белками сканируют и получают цифровое изображение. Затем на нем находят и измеряют отдельные белковые пят- на и корректируют интенсивность сигнала каждого пятна по интенсивно- сти окружающего фона. Для выполнения этих операций было разработано несколько алгоритмов, основанных на Гауссовом приближении или опреде- лении лапласианов Гауссовых пятен. Пятна, морфология которых отклоня- ется от единой Гауссовой формы, могут быть интерпретированы с помощью модели перекрывающихся форм. Другие методы Более простой подход — линейный цепной анализ, в котором програм- ма сканирует столбцы пикселов цифрового изображения и регистрирует пики плотности сигнала. Этот процесс повторяется для смежных столб- цов пикселов, что позволяет алгоритмически определять как центры пятен, так и общую интенсивность сигнала каждого пятна. Другой метод изве- стен под названием «преобразование водораздела». В этом методе интен- сивности пикселов представлены в виде топографической карты, так что
но Глава 4 Рис. 4.13. Проекция двумерного белкового геля. Белки в образце были разделены по изоэлектрической точке (горизонтальное измерение) и молекулярной массе (верти- кальное измерение). Каждое пятно должно соответствовать отдельному белку по ней могут быть определены холмы и долины. Этот метод полезен для отделения групп, цепей и маленьких пятен, перекрывающихся с больши- ми (боковых пятен, или лепестков), а также для слияния областей одного пятна. На выходе программы, опирающейся на любой из подобных методов, мы получаем список пятен. ДЭПААГ может быть использован также для анализа дифференциальной экспрессии белка. С его помощью можно опре- делять белки, которые активируются или подавляются определенным кур- сом лечения или различными лекарствами, искать белки, связанные с теми или иными болезненными состояниями, или отслеживать изменения в экс- прессии белка, происходящие в течение развития клетки или целого орга- низма. После регистрации данные анализа экспрессии белка организуются в виде матрицы экспрессии этого белка. Результаты экспериментов ДЭПА- АГ обычно хранятся в базах данных ДЭПААГ. Они могут быть найдены по следующим адресам: http://www.expasy.ch/ch2d/2d-index.html http://www-lecb.ncifcrf.gov/2dwgDB/
4.8. Анализ экспрессии генов и белков 111 4.8.3. Открытие генов В последнее время значительные денежные средства выделяются на поиск генов, связанных с конкретными видами болезней. Цель этого по- иска состоит в развитии новых методов терапии для борьбы с широким спектром распространенных функциональных и структурных расстройств например рака, туберкулеза, астмы и т. д. В настоящее время есть две глав- ные стратегии открытия белков, которые могут представлять собой молеку- лярные мишени, подходящие как для получения молекулярных препаратов, так и для развития генотерапии. Подходы Одним из подходов к обнаружению связанных с болезнью генов яв- ляется метод позиционного клонирования. Согласно этому методу изучают популяцию людей, в которой наблюдаются случаи рассматриваемого забо- левания, и находят хромосому, связанную с развитием этой болезни. Затем устанавливают связь болезни с некоторой хромосомной областью, после че- го секвенируют большой отрезок хромосомы вблизи этой области (локуса) и получают последовательность ДНК длиной несколько м. п. н. В принципе такой локус может содержать множество генов, хотя, скорее всего, только один из них действительно вовлечен (прямо или косвенно) в болезнетвор- ный процесс. Для повышения эффективности распознавания генов в локусе могут быть использованы различные методы поиска последовательностей и пред- сказания генов, но так или иначе должны быть экспрессированы несколько генов, и для установления того, какой именно ген действительно вовлечен в болезнь, потребуется дальнейший анализ (или испытания). Хотя гены, обнаруженные этим способом, могут быть вполне удовлетворительными с академической точки зрения, они вовсе не обязательно будут хорошими мишенями для лекарственных препаратов (или точками терапевтического воздействия). Другой подход к открытию генов, требующий намного меньших за- трат на секвенирование и больше полагающийся на мощные поисковые возможности современных вычислительных систем, основан на отыскании генов, которые фактически экспрессируются в здоровых и больных тканях. Он позволяет проводить сравнение уровней экспрессии в двух состояниях и применять процесс рассуждения, посредством которого потенциальной мишени для препарата можно достичь более прямым способом. Этот про- цесс анализирует те молекулы иРНК, которые используются клеточным механизмом в качестве матрицы для синтеза этих самых белков.
112 Глава 4 Обнаружение генов Как правило, в обнаружении генов участвуют следующие элементы: участки сращения, старт- и стоп-кодоны, точки разветвления, промоторы и терминаторы транскрипции, участки полиаденилирования, участки при- крепления рибосом, участки связывания с топоизомеразой II, участки рас- щепления топоизомеразой I и участки связывания с различными факторами транскрипции. Такие локальные участки называют «сигналами» и обна- руживают с помощью «датчиков сигналов». Напротив, удлиненные и пе- ременной длины последовательности (например экзонов и интронов) на- зывают «содержанием» и обнаруживают посредством «датчиков содержа- ния». Наиболее сложные из применяемых датчиков сигналов — нейросети. Типичный датчик содержания — тот, который предсказывает кодирующие области. Для определения полной структуры гена было создано несколько си- стем, комбинирующих датчики сигналов и содержания. Такие системы спо- собны распознавать более сложные взаимозависимости между свойствами генов. Одной из первых комплексных программ поиска генов, разра- ботанных на сегодняшнее время, является «Джинленг» (Genelang); по- строенная на принципе динамического программирования, эта программа комбинирует отобранные экзоны и другие области или участки с назна- чаемым счетом и предсказывает целый ген с максимальным полным сче- том. Главная особенность динамического программирования — модель, ко- торая содержит скрытую, или ненаблюдаемую переменную, привязанную к каждому нуклеотиду и отражающую функциональную роль или пози- цию этого нуклеотида. Такие модели называют скрытыми марковскими моделями (СММ). Самые популярные статистические методы, использу- емые для поиска генов, — марковские модели, реализованные в программе «Джинмарк» (Genemark). К важным средствам поиска генов, построенным на СММ, относятся также «Экопаз» (Ecoparse), «Экспаунд» (Xpound) и т. д. Более полный список вычислительных поисковых баз данных генов приве- ден в таблице 4.3. У прокариотов локус гена все еще принято определять путем триви- ального поиска открытой рамки считывания. Такой способ, конечно, не пригоден для высших эукариотов. Для различения кодирующих и некоди- рующих областей у высших эукариотов применяют датчики содержания экзонов, построенные на статистических моделях частот использования ну- клеотидов и проводящие статистическую оценку некоторых зависимостей, наблюдаемых в структуре кодона.
4.8. Анализ экспрессии генов и белков 113 Таблица 4.3. Вычислительные поисковые базы данных генов и программы поиска генов Наборы данных и программы поиска генов Узлы доступа 1. Наборы данных для поиска генов а) Отдельные гены ftp://www-hgc.lbl.gov/pub/genesets/ б) Аннотиро- ванные НПО http://igs-server.cors-mrs.fr/banbury/index/html http ://www. sanger. ас. uk/proj ects/C. el egans/genefinding 2. Основанные на СММ программы поиска генов Genie http://www.cse.ucsc.edu/~dkulp/cgi-bin/genie Genscan http://ccp.081mit.edu/genscan.html HMMgene http://www.cbs.dtu.dk/services.HMMgene/ Veil http://www.cs.jhu.edu/labs/copbio/veil.html 3. Прочие средства поиска генов AAT http ://genomes. cs .mtu. edu. aat. html FGENEH http://dot.imgen.bcm.tmc.edu:9331/genefinder/gf.shtml GENEID http://www.imim.s/GeneIdentification/Geneid/geneid_input.html Genelang http://cbil.humgen.upenn.edu/~sdong/genlang_home.html GeneParser *http://beagle.colorado.eduT eesnyder/geneparser.html Glimmer http://www.cs.jhu.edu/labs/compbio/glimmer.html Grail http://compbio.oml.gov/ Procrusters http://www-hto.usc.edu/software/procrusters Уровни экспрессии генов Геном человека невероятно сложен и состоит приблизительно из 3 мил- лиардов пар нуклеотидов ДНК. При этом лишь только 3 % ДНК являет- ся кодирующей последовательностью (то есть той частью генома, которая транскрибируется в РНК и затем транслируется в белок). Остальная часть генома состоит из областей, необходимых для компактного хранения хромо-
114 Глава 4 сом, их репликации во время деления клетки, управления транскрипцией и т. д. Львиная доля работы по анализу последовательности генома при- ходится на исследование продуктов клеточных механизмов транскрипции и трансляции, то есть на анализ белковых последовательностей и структур. В последнее время масса усилий направлена на автоматизацию про- цессов исследования иРНК; частично это связано с тем, что смысловая машинная трансляция иРНК в последовательность белка может быть легко реализована алгоритмически, но главная причина состоит в том, что молеку- лы иРНК представляют ту часть генома, которая экспрессируется в клетках определенного типа на определенном этапе их развития. Таким образом, если говорить простыми словами, мы имеем три уровня геномной информации: 1) геном хромосом (собственно геном) — генетиче- ская информация, общая для всех клеток организма; 2) экспрессируемый геном (транскриптом) — часть генома, которая экспрессируется в клетке на определенной стадии ее развития; 3) протеом — совокупность молекул бел- ка, взаимодействие которых придает клетке ее индивидуальные качества. Каждый уровень требует различные аналитические методы и объясни- тельные алгоритмы. На разных стадиях развития и уровнях биологической активности клетки экспрессируют различный набор генов. Такой характе- ристический набор экспрессируемых генов называют профилем экспрессии этой клетки. Зарегистрировав профили экспрессии некоторой клетки, мы можем воссоздать картину уровней экспрессии генов в нормальном или ненормаль- ном состоянии клетки, а также картину относительных уровней экспрессии всех генов, транскрибируемых в этой клетке. Кроме того, регистрация про- филей представляет собой быстрый подход к открытию генов, который дополняет другие методы, принятые в развернутых в мировом масштабе проектах секвенирования генома. Регистрация профилей экспрессии Процесс регистрации профиля экспрессии состоит в следующем. Сна- чала отбирают культуру клеток, затем из этих клеток извлекают РНК и ста- билизируют ее посредством обратной транскриптазы, с помощью которой с матрицы РНК синтезируют кДНК. Наконец, кДНК преобразуют в биб- лиотеку (библиотеку кДНК), подходящую для использования в реакциях быстрого секвенирования. Выборка клонов отбирается из библиотеки наугад — например, 10000 из библиотеки объемом 2 миллиона клонов. Для того чтобы инициировать 10000 реакций секвенирования и затем провести их на автосеквенаторах,
4.9. Проект «Геном человека» 115 выполняется сложная автоматизированная операция секвенирования. Ито- говые данные загружаются в ЭВМ для дальнейшего анализа. Идеальный результат — набор из 10 ООО последовательностей; каждая из них имеет длину 200-400 н. и представляет некоторую часть последова- тельности каждого из 10000 клонов. В действительности некоторые реак- ции секвенирования вообще не получатся, некоторые производят недоста- точно содержательные данные, а некоторые выдают данные неприемлемого качества. Последовательности, которые успешно миновали весь этот про- цесс, суть не что иное, как ярлыки экспрессируемых последовательностей (ЯЭПы). Полученные ЯЭПы помещают в «Генбанк», «ЕЛМБ» и «ЯБД». К ЯЭП- ам открыт доступ через все эти базы данных. Те же самые ЯЭПы находятся в базе данных «бдЯЭП», поддерживаемой «НЦБИ». 4.9. Проект «Геном человека» Геном — это полная последовательность ДНК организма. Первое пред- ложение о проекте «Геном человека» (ПГЧ) в 1985 году внес Роберт Син- шеймер, по образованию молекулярный биолог. В то время, когда он был ректором «Калифорнийского университета», Синшеймер организовывал на- учную конференцию, чтобы обсудить возможность осуществления этого проекта. Шарль Делизи, глава «Отдела исследования здоровья и окружающей среды» при Министерстве энергетики США, услышал о предложении ПГЧ и сам стал энергичным сторонником этого проекта. В 1986 году Делизи организовал встречу ученых, проводивших исследования ДНК в лаборато- риях Ливермора и Лос-Аламоса, и предложил им осуществить этот проект; основной целью проекта было названо определение последовательности нуклеотидов генома человека. Для разрешения ряда правовых вопросов Национальная академия наук назначила экспертную комиссию, и члены этой комиссии предложили орга- низовать объединенный консультативный комитет для управления проектом и ввести в него представителей Министерства энергетики и «Национально- го института здоровья». В 1987 году на развитие этого проекта «НИЗ», воз- главляемый Джеймсом Вингарденом, получил грант в сумме 17,4 миллиона долларов. Джеймс Д. Уотсон стал первым директором нового «Управления по исследованию генома человека» («УИГЧ»). «УИГЧ» назначил Нортона Зиндера на пост председателя консульта- тивного комитета по проекту «Геном человека». В 1990 году «управление»
116 Глава 4 стало «центром» и было названо «Национальным центром исследования генома человека» («НЦИГЧ»). В 1998 году «НЦИГЧ» был переименован в «Национальный институт исследования генома человека» («НИИГЧ»). Проект «Геном человека» стал самым крупным и наиболее сложным меж- дународным проектом, с финансовой поддержкой от правительств стран- участниц и множества разных благотворительных обществ. Цели проекта: • определить все гены в ДНК человека (около 30 000); • определить 3 миллиарда пар нуклеотидов ДНК человека; • всю полученную информацию внести в базы данных; • разработать средства анализа этих данных; • передать созданные технологии частным научно-исследовательским и производственным компаниям; • обратиться к этическим, юридическим и социальным проблемам, ко- торые могут возникнуть в ходе работы над проектом. Первая рабочая карта полного ядерного генома человека была опуб- ликована в журналах «Нейче» и «Сайенс» в феврале 2001 г. Благодаря быстрому технологическому прогрессу проект был полностью завершен уже к апрелю 2003 г. (несмотря на то что окончание работ было наме- чено на 2005 г.), и исследователи во всем мире получили долгожданную возможность использовать для разных практических целей полную высоко- качественную эталонную последовательность ДНК. Замечательные факты В ходе работ были открыты многие гены и установлена их связь с бо- лезнями человека. Ниже мы приводим краткую схему содержания (см. рис. 4.14) и некоторые примечательные особенности генома человека. • Геном человека содержит 3,2 миллиарда пар нуклеотидов. (А, С, Т и G) • Гены очень сильно отличаются по размеру. Средний ген состоит из 3000 п. н. Самый крупный из известных генов человека — дистрофин (2,4 м. п. н.). • Функции более 50 % обнаруженных генов пока не известны.
4.9. Проект «Геном человека» 117 • Последовательности генома всех представителей населения Земли сов- падают на 99.9 %. • Инструкции для синтеза белка кодирует приблизительно 2 % генома. • Повторные последовательности (не кодирующие белки) составляют около 50 % генома. (Ученые полагают, что повторные последователь- ности поддерживают структуру и динамику хромосомы. Перестройка этих областей приводит к появлению совершенно новых генов или к ви- доизменению и перегруппировке существующих). • Примерно 40 % белков человека оказались подобными белкам червей или плодовых мушек. • Гены беспорядочно распределены по всему геному и отделены друг от друга обширными пространствами некодирующей ДНК. • Хромосома № 1 (наибольшая хромосома человека) состоит из 2968 ге- нов, а Y-хромосома (наименьшая) содержит 231 ген. • Были определены гены, предположительно связанные с развитием мно- гих болезней и расстройств организма, включая рак молочной железы, атрофию мышц, глухоту и слепоту. • Полиморфизм отдельного нуклеотида может произойти в каждой из 3 миллиардов позиций последовательности ДНК. • На каждые 2 т. п. н. приходится один микроспутник (короткое тандем- ное повторение). (Андерсон с сотрудниками расшифровали полную последовательность генома митохондрий человека. Кольцевая двунитевая молекула содержит 16569 п. н. и 37 генов. Среди них: тринадцать генов кодируют белки дыха- тельной системы клеток, а другие 24 гена предназначены для транскрипции в молекулу РНК, кодирующую белки митохондрий). Составленная по итогам работ по ПГЧ «Периодическая таблица жиз- ни» так или иначе будет полезна для каждого. Джеймс Уотсон и объеди- ненный консультативный комитет «НИЗ»-Министерства энергетики были против патентования генов. Эксперты исходили из того факта, что раз обще- ство оплачивало работы по расшифровке генома, то именно оно и должно решать, что делать с полученной информацией. Кроме того, для дальнейшего развития программы изучения генома ученые должны иметь свободный доступ ко всем имеющимся данным о ге- номах организмов и также ко всем сопутствующим сведениям. В 1997 го-
118 Глава 4 Рис. 4.14. Содержание генома человека (по данным «НИИГЧ» на апрель 2003 г.) ду «НИЗ» учредил «Генбанк» и обеспечил открытый доступ к информации через сеть «Интернет». Это побудило многих исследователей воздерживать- ся от подачи патентных заявок на предварительные данные расшифровки последовательностей. Польза от исследования генома Открытия, совершённые в различных программах исследования гено- ма, найдут свое применение в следующих областях человеческой деятель- ности:
4.9. Проект «Геном человека» 119 Молекулярная медицина: • совершенствование диагностики заболеваний; • обнаружение наследственного предрасположения к болезням; • разработка лекарств с опорой на молекулярную информацию и инди- видуальные генетические профили пациентов; • развитие генотерапии. Геномика микробов: • быстрое обнаружение и уничтожение патогенов; • разработка новых видов биологического топлива; • защита граждан от последствий применения бактериологического и хи- мического оружия; • безопасная и эффективная очистка токсических отходов. Оценка риска: • оценка уровня риска для здоровья индивидуумов, которые подверга- ются радиоактивному излучению или воздействию мутагенов; • обнаружение загрязняющих веществ и наблюдение за состоянием окру- жающей среды. Антропология и эволюция: • изучение эволюции, обусловленной мутациями эмбрионов; • изучение миграции различных групп населения; • изучение мутации Y-хромосомы, чтобы проследить происхождение и миграцию мужчин. Опознавание с помощью ДНК: • установление личности преступников, ДНК которых может соответ- ствовать вещественным уликам, оставленным на месте преступления; • оправдание людей, ошибочно обвиненных в преступлениях;
120 Глава 4 • установление отцовства и других отношений родства; • выявление биологических видов, находящихся под угрозой исчезнове- ния и вне опасности вымирания; • обнаружение бактерий и других организмов, которые могут загрязнять окружающую среду; • определение соответствия доноров реципиентам при проведении опе- раций по пересадке органов; • определение родословной селекционного семенного материала или племенного скота. Земледелие и животноводство: • выращивание зерновых культур, устойчивых к болезням и засухе; • повышение производительности; • разведение домашнего скота; • разработка и применение биопестицидов. Контрольные вопросы 1. Из каких операций состоит основная реакция секвенирования ДНК? 2. Опишите полный процесс секвенирования ДНК. 3. Какова роль открытой рамки считывания? 4. Опишите способ определения последовательности клона. 5. Что такое ярлыки экспрессируемых последовательностей? 6. Каким образом секвенируют ЯЭПы? 7. Каковы методы секвенирования белков? 8. Что такое микроматрица ДНК? 9. Опишите процесс гибридизации микроматриц ДНК.
4.9. Проект «Геном человека» 121 10. Назовите УУР некоторых сетевых ресурсов, полезных в анализе экс- прессии генов на микроматрицах. 11. В чем состоит анализ экспрессии белка? 12. Какие подходы к открытию генов вам известны? 13. Назовите несколько организмов, геномы которых были успешно рас- шифрованы. 14. Какую пользу из проекта «Геном человека» смогут извлечь именитые исследователи и простые смертные? 15. Каково содержание ядерного генома человека? 16. Какие результаты были получены в ходе работ над проектом «Геном человека»? 17. Приведите некоторые цели проекта «Геном человека». 18. Почему человечеству важно как можно больше знать о геноме своих представителей?
Глава 5 Базы данных, программы и их назначение Сегодня биологические данные собирают и сохраняют во всех уголках мира. Для того, чтобы интерпретировать эти данные в биологически зна- чимом аспекте, необходимы специальные средства и методы. Базы данных и программы предоставляют доступ к существующей информации и позво- ляют сравнивать эти данные с целью отыскания подобий и различий. Мно- гие «Интернет»-совместимые базы данных молекулярной биологии имеют собственные уникальные средства навигации и форматы хранения данных. Различные средства выборки данных помогают решать следующие за- дачи. Для некоторой последовательности или некоторого фрагмента этой последовательности требуется найти подобные последовательности в ба- зе данных. В базе данных необходимо найти белковые структуры, подоб- ные структуре заданного белка или какому-либо фрагменту его структуры. Для последовательности белка неизвестной структуры должно найти такие структуры в базе данных, которые принимают подобные пространственные свертки. В базе данных необходимо отыскать последовательности, которые соответствуют заданной структуре. 5.1. Значение баз данных Базой данных называют логически согласованное собрание взаимосвя- занных данных с присущим значением, предназначенное для определен- ной цели. База данных состоит из записей — самостоятельных внутренне связных пакетов информации. Это единое хранилище информации, записи которого обрабатываются специальной программой. Содержанием записей можно легко управлять (например, просматривать, обновлять и т. д.). Поиск в базах данных можно проводить путем их просмотра с помо- щью перекрестных ссылок — или по сети «Интернет», или посредством навигации в загруженных и установленных версиях для персональных ком- пьютеров или местных сетей ЭВМ (в последнем случае — коллективный
5.1. Значение баз данных 123 доступ). Базы данных представляют собой электронные картотеки и обес- печивают удобный и эффективный метод хранения большого количества информации. Они являются собраниями проанализированной биологиче- ской информации, организованными в виде центральных ресурсов коллек- тивного пользования. Базы данных необходимы для сбора и сохранения данных, обеспечения удобных для пользователя функций доступа и поиска, а также стандартиза- ции представления данных и организации данных в знания. Главные цели создания баз данных: 1) уменьшение избыточности данных и 2) достижение независимости данных. Хранимую в этих базах данных информацию можно искать, сравни- вать, извлекать и анализировать. Базы данных дают возможность управлять однотипными данными и развивать сеть, позволяющую получать доступ к ним со всех точек Земного шара. Благодаря развитию «Всемирной пау- тины» ученые имеют доступ к многочисленным ресурсам биологической информации, расположенным во всех уголках мира, но эти данные силь- но рассредоточены, и поэтому необходимо иметь эффективные механизмы выборки данных. Если мы хотим извлечь максимальную выгоду из огромного объема имеющейся сегодня информации о последовательностях, то мы должны создавать, обслуживать и распространять базы данных с простым в ис- пользовании программным обеспечением доступа к содержащейся в них информации, а также проектировать передовые средства анализа, позволя- ющие визуализировать и интерпретировать скрытые в этих данных ключи к структурам и функциям биомолекул. Базы данных последовательностей нуклеиновых кислот и белков под- держивают сервисные средства для очень широкого круга операций вы- борки и анализа йнформации — например, выборки последовательностей из базы данных, сравнения последовательностей, машинной трансляции последовательностей ДНК в последовательности белка, простых видов ана- лиза и предсказания структур, распознавания регулярных комбинаций и гра- фического представления молекул. Некоторые примеры таких баз данных: «Энтрез» (http://www.ncbi.nlm.nih.gov/Entrez/) и «ОМИМ». «Экспази» — си- стема выборки и анализа информации (http://www.expasy.ch). Типы баз данных Существует много различных типов баз данных, отличающихся как по характеру содержимого, так и по способу хранения данных. Базы дан- ных широко классифицируют на два типа, а именно на базы данных об-
124 Глава 5 щего и специального назначения. Базы данных ДНК, белков, углеводов и т.п. являются примерами баз данных общего назначения. Специализи- рованными являются базы данных ярлыков экспрессируемых последова- тельностей (ЯЭПов), характеризующих геном последовательностей (ХГП), полиморфизмов отдельных нуклеотидов (ПОНов), меченых участков по- следовательности (МУПов) и т.п. К специализированным относят также базы данных «Кабат» (Kabat) — ресурс данных об иммуногенных белках — и «Лиганд» (Ligand) — хранилище информации о лигандах ферментативных реакций. Базы данных общего назначения в свою очередь широко классифици- руют на базы данных последовательностей и базы данных структур. Базы данных последовательностей содержат записи отдельных последовательно- стей — нуклеотидов, аминокислот или белков. Базы данных структур содер- жат записи отдельных последовательностей биохимически определенных структур макромолекул (например, БД Protein 3D structure). По принципу организации базы данных подразделяют на два ти- па: 1) реляционные и 2) объектно-ориентированные. В реляционной базе данных информация упорядочена в виде таблиц, составленных из строк, представляющих собой элементы или единицы хранения данных (записи), и столбцов (полей), несущих характеристики (атрибуты) содержимого этих записей. Объектно-ориентированная база данных представляет собой со- брание объектов, например, генетических карт, генов или белков, и имеет набор встроенных служебных программ анализа, которые помогают уста- навливать связи (отношения) между этими объектами. Классификация Более определенно базы данных могут быть классифицированы (по сложности хранимых данных) на следующие три типа: 1) первичная база данных, 2) вторичная база данных и 3) смешанная база данных. Первичная база данных содержит необработанные (первичные) дан- ные в той форме, в которой они были получены из источника (например: «Генбанк» — БД последовательностей генома — и «Свисс-прот» — БД после- довательностей белка). Такие базы данных известны также под названием архивных банков данных. Вторичная база данных представляет собой базу данных с добавленным значением (оценкой), которая содержит некоторую специальную аннотированную и производную информацию, полученную из первичной базы данных (например: БД «СКОП» (SCOP), «КАТ» (САТН) и «Просайт» (PROSITE)). Это производные банки данных, которые содер- жат информацию, отобранную из архивных банков данных после анализа
5.1. Значение баз данных 125 их содержимого. Смешанная база данных объединяет в себе множество структур разных первичных баз данных. Избыточной называют такую базу данных, в которой может быть най- дено более одной копии каждой последовательности. Базы данных, постро- енные на подмножествах некоторой первичной базы данных (с целью со- кращения смещения выборки), нередко называют безызбыточными базами данных. Некоторые базы данных, являющиеся специализированными ресурса- ми, называют раритетными базами данных. Они содержат данные секвени- рования генома какого-либо биологического вида или последовательности, расшифрованные каким-нибудь особым способом (например: база данных генома Сахарных грибов (Saccharomyces) «СГД» (SGD), база данных генома Дрозофилы (Drosophila) и т. п.). В дополнение к приведенным выше ресур- сам, в сети можно найти многие другие библиографические банки данных и банки веб-узлов. Записи базы данных Записи базы данных содержат в себе новые экспериментальные ре- зультаты и дополнительные сведения в форме аннотаций. Аннотации дают информацию об источнике данных и методах его анализа, то есть получе- ния этих данных. Они указывают совершивших открытие исследователей и приводят перечень публикаций по данному вопросу. Наконец, они обес- печивают ссылки на соответствующие записи других банков данных. Ад- министраторы баз данных составляют аннотации по результатам анализа последовательностей посредством компьютерных программ. С целью обеспечения открытого доступа ко всем фундаментальным данным, относящимся к ДНК и РНК, научные журналы в качестве условия публикации статьи требуют предварительного помещения новых последо- вательностей нуклеотидов в базу данных. Подобные условия распростра- няются также на последовательности аминокислот, нуклеиновых кислот и белковых структур. Форматы представления последовательностей Многие базы данных и прикладные программы предназначены для ра- боты с данными о составе последовательностей, что предполагает наличие стандартного формата ввода информации о последовательностях нуклеино- вых кислот и белков. Наиболее распространенными являются следующие три формата описания последовательностей: «НФБИ/РИБ» («Националь-
126 Глава 5 ный фонд биомедицинских исследований» и «Ресурс идентификации бел- ка»), «ФАСТА» и «ГДЕ» (GDE). Каждый из этих форматов имеет не только средства для представления самих последовательностей, но также и функ- ции, позволяющие вставлять уникальный код для обозначения последова- тельности и добавлять комментарии, которые могут описывать, например, имя последовательности, вид организма, от которого она была получена, и номер доступа для «Генбанка» или другой подходящей базы данных. Строки в формате «НФБИ/РИБ» начинаются с фразы «>Р1;» (белки) или «>N1;» (нуклеиновые кислоты). В начале строк в формате «ФАСТА» стоит только знак «>», а в формате «ГДЕ» — «%». Таблица характеристик (строки FT) представляет собой компонент аннотации записи и сообща- ет о свойствах определенных областей, например, кодирующих последова- тельностей (КП). Таблица характеристик может указать области, которые выполняют (влияют на) ту или иную функцию, или взаимодействуют с дру- гими молекулами, или затрагивают репликацию, или вовлечены в рекомби- нацию, или являются повторными элементами, или имеют вторичную или третичную структуру, или же были уточнены или исправлены. Запись базы данных Типичная запись базы данных содержит три раздела. 1) Заголовок — включает в себя описание последовательности, ее источ- ник (организм), ссылки на литературу и перекрестные ссылки на со- ответствующие последовательности в других базах данных. В поле «Локус» записано уникальное имя (в виде аббревиатуры), описываю- щее функцию последовательности. За ним идет номер доступа в поле «Доступ». Поле «Организм» содержит двойное (на английском и ла- тинском языках) название организма и его полную таксономическую классификацию. 2) Таблица характеристик — содержит описание характерных свойств со- держимого записи, например: кодирующие последовательности, экзо- ны, повторения, промоторы и т.д. в последовательностях нуклеоти- дов и домены, участки связывания структурных элементов и т.д. — в последовательностях белка. Если таблица характеристик включает кодирующую последовательность ДНК (КП), то в описании данной характеристики обязательно приведены ссылки на транслированную последовательность белка. 3) Последовательность (per se), которую чаще всего анализируют с помо- щью ЭВМ.
5.1. Значение баз данных 127 Система управления базами данных Система управления базами данных (СУБД) представляет собой про- граммное обеспечение, которое позволяет определять и строить базы дан- ных, а также совершать над ними сложные операции. Это набор программ, предназначенный для управления любым числом баз данных. СУБД вклю- чает в себя: 1) пользовательский интерфейс для обращения к БД, 2) поль- зователя, работающего в диалоговом режиме, 3) разработчика прикладных программ, 4) процессор базы данных, выполняющий функции управления хранением физических данных на диске и доступом к ним, и 5) словарь ба- зы данных, в который записывается вся информация о базе данных, схемах, статьях предметного указателя и правах доступа. СУБД отвечает за 1) организацию доступа к данным, 2) внесение, об- новление и удаление данных, 3) безопасность, 4) целостность, 5) блокирова- ние, 6) регистрацию работы системы, 7) поддержку пакетных и диалоговых программ, 8) работу вспомогательных средств архивного резервирования и восстановления информации, 9) оптимизацию работы, 10) расширение возможностей доступа, 11) поддержание каталога и справочника объектов базы данных, 12) управление буферными пулами и 13) работу в качестве интерфейса для связи с программами других систем. СУБД обеспечивает независимость и коллективное использование дан- ных, а также их безызбыточность, совместимость, безопасность и целост- ность. Типы СУБД Существует три основных типа систем управления базами данных: иерархический, реляционный и сетевой. Иерархическая и сетевая модели СУБД основаны на принципе управления базой данных путем отслежива- ния связей между элементами данных. Данные представлены в виде иерар- хической структуры, а связи описаны и установлены с помощью указате- лей физических адресов, помещенных в теле записей. Такие СУБД обычно применяют в крупных информационных системах, построенных на базе универсальных ЭВМ. Реляционная система управления базами данных Реляционная система управления базами данных (РСУБД) стала попу- лярной только благодаря простой модели данных. Данные представлены как совокупность отношений (реляций). Каждое отношение изображено в ви- де таблицы. Строка соответствует записи, а столбец соответствует полю.
128 Глава 5 Каждая таблица содержит только однотипные записи. Все записи в табли- це имеют одинаковое число полей. Порядок записей в пределах таблицы не имеет никакого значения. Столбцы таблиц являются атрибутами. Все строки таблицы могут быть однозначно опознаны по значениям данных (элементов) из одного или более столбцов. Столбец, который однозначно определяет каждую строку, является первичным ключом. Среди особенно популярных РСУБД можно назвать программы «Май- крософт Аксес» (Microsoft Access) и «Оракул» (Oracle). «Майкрософт Ак- сесс» имеет удобный графический интерфейс, который позволяет очень легко создавать базы данных и манипулировать ими. «Аксесс» обеспечива- ет возможность независимой работы с различными вариантами табуляции: таблицами, запросами, формами и отчетами. Другое программное обеспе- чение, известное под названием «Постгре» (Postgre), предназначено для управления БД на базе ОС «Линукс». РСУБД построена на системе ма- тематических понятий, то есть операции управления элементами данных основаны на теории множеств. Алгебра отношений обеспечивает набор действий для манипулирова- ния отношениями. Она поддерживает понятие обращения (запроса), поз- воляющее осуществлять выборку информации из базы данных по принци- пам теории множеств. Таким образом, на исчислении отношений может быть построен формальный язык запросов. Вместо того чтобы записы- вать последовательность операций алгебры отношений, мы просто фор- мулируем единственное декларативное выражение, описывающее резуль- таты, которые мы хотим получить. Выразительная сила языка вполне от- вечает возможностям аппарата алгебры отношений. Многие современные коммерческие языки основаны на исчислении отношений; наиболее извест- ный из них — язык структурированных запросов (ЯСЗ) — Structured Query Language (SQL). Язык структурированных запросов Язык структурированных запросов (ЯСЗ) объединяет набор команд, обеспечивающих доступ к базе данных. ЯСЗ — средство организации и вы- борки информации, хранимой в базе данных. ЯСЗ не является процедурным языком. Это означает, что при использовании ЯСЗ мы должны обозначать конечный результат, а не описывать алгоритм его получения. Это язык вы- сокого уровня, позволяющий манипулировать информацией из базы данных (извлекать, изменять и т. п.) с помощью обычных английских слов и фраз, например: «выбрать» (select), «создать» (create), «пропустить» (drop), «об- новить» (update), «вставить» (insert) и т. д.
5.1. Значение баз данных 129 Существуют различные типы команд: 1) Язык определения данных (ЯОД): команды создания, удаления и видо- изменения объектов базы данных типа таблиц, представлений и пред- метных указателей. 2) Язык манипулирования данными (ЯМД): команды вставки, удаления и изменения данных. 3) Язык структурированных запросов (ЯСЗ): операторы выбора, которые применяются для осуществления выборки данных и могут быть про- верены с помощью команд ЯМД. 4) Язык управления перепиской (ЯУП): эти команды используют для со- хранения целостности данных при их изменении (переписке). 5) Язык управления данными (ЯУД): команды создания и обслужива- ния баз данных, разбиения данных на сегменты, а также назначения прав доступа пользователей к таблицам и другим объектам базы дан- ных. 6) Язык выборки данных (ЯВД): команды, предназначенные для осуще- ствления выборки данных из одной или нескольких таблиц. Информационная проходка и обнаружение знаний Биологические базы данных продолжают расти невероятными темпа- ми. К настоящему времени накоплен колоссальный объем данных для из- влечения информации высокого уровня, прокладывающей путь к развитию новых концепций и открытию концептуальных взаимосвязей и интересных информационных схем, сокрытых в базах данных. Информационной проходкой называют технологию применения спе- циальных средств для обнаружения и извлечения новых информационных схем. Обнаружение знаний охватывает теоретические и практические во- просы извлечения информации высокого уровня (знаний) из залежей дан- ных низкого уровня. Оно сочетает в себе методы, заимствованные из СУБД, статистики и технологии искусственного интеллекта. Обнаружение зна- ний включает в себя несколько шагов предварительной обработки данных, информационную проходку и шаги интерпретации знаний. К целям об- наружения знаний относятся сверка, прогнозирование и описание (объяс- нение).
130 Глава 5 5.2. Базы данных последовательностей нуклеиновых кислот Базы данных последовательностей нуклеиновых кислот являются со- браниями записей. Каждая запись имеет формат текстового файла. Тексто- вый файл содержит текст, который может читать как человек, так и ком- пьютер. Этот текст представляет данные о единственной непрерывной последовательности и аннотации к ней. Многие записи собраны по дан- ным нескольких статей, в которых были опубликованы перекрывающиеся фрагменты полной последовательности. Каждая запись разделена на поля. Это необходимо для создания предметных указателей реляционных баз дан- ных. Каждое из полей — обязательно таблица, а значения полей — указатели. Записям присвоены уникальные номера доступа. Первая последовательность нуклеиновых кислот дрожжевой тРНК дли- ной 77 н. была опубликована примерно в 1964 году. Сегодня в мире существует три головных института, которые входят в «Международное объединение баз данных последовательностей нуклеотидов». Это «Нацио- нальный центр биотехнологической информации» («НЦБИ»), «Европейская лаборатория молекулярной биологии» («ЕЛМБ») и «Японский банк ДНК» («ЯБД»). Эти ресурсы обеспечивают ежедневное сохранение данных и вза- имный обмен ими. Одноименные базы данных содержат не только сами последовательности, но также и подробные аннотации. «ЕЛМБ» В БД «ЕЛМБ» находятся последовательности, напрямую вносимые ав- торами публикаций и группами, занятыми расшифровкой геномов, а также взятые из научной литературы и патентных заявок. Эта база данных под- держивается при сотрудничестве «ЯБД» и «Генбанка»; группы участников собирают данные о частях полной последовательности, публикуемые по всему миру, после чего обмениваются всеми новыми и обновленными за- писями. Объем базы данных ДНК возрастает по экспоненте, и по последним оценкам время удвоения количества информации составляет около 9-12 ме- сяцев. Формат записей «ЕЛМБ» совместим с форматом БД «Свисс-прот». Вы- борку информации из «ЕЛМБ» можно проводить с помощью СВП (системы выборки последовательностей); СВП связывает основные базы данных по- следовательностей ДНК и белков с базами данных мотивов, структур, карт и другими специализированными ресурсами, а также содержит ссылки на записи БД «МЕДЛАЙН» (MEDLINE). Поиск в БД «ЕЛМБ» по последова-
5.2. Базы данных последовательностей нуклеиновых кислот 131 тельностям запроса может быть осуществлен путем обращения к програм- мам «БЛАСТ» и «ФАСТА» через сетевые интерфейсы «ЕЛМБ». «ЯБД» База данных «ЯБД» создана, расположена и обслуживается в «Нацио- нальном институте генетики»; благодаря сетевому средству внесения дан- ных, в «ЯБД» может быть помещена последовательность, расшифрован- ная в любой научной лаборатории мира. Кроме того, в «ЯБД» предусмот- рен стандартный поиск посредством обращения к программам «ФАСТА» и «БЛАСТ» по сети. «Генбанк» База данных «Генбанк» (детище «НЦБИ») содержит последовательно- сти из многих общедоступных источников, причем большей частью полу- ченные от самих исследователей или от руководителей крупномасштабных проектов расшифровки геномов. «Генбанк» является базой данных родо- вых последовательностей. Выборка информации из «Генбанка» может быть произведена с помощью интегральной системы выборки «Энтрез». БД «Ген- банк» предусматривает поиск последовательностей по запросу пользователя (через сетевой интерфейс «НЦБИ» с программным пакетом «БЛАСТ»). Постоянно растущий объем базы данных, а также большое раз- нообразие доступных источников информации потребовало разделения «Генбанка» на 17 меньших секций, обозначаемых трехбуквенным кодом (см. табл. 5.1). Запись «Генбанка» состоит из нескольких ключевых слов, подходящих зависимых подклщчевых слов и факультативной таблицы характеристик; ее конец обозначен ограничителем «//». Расположение этих элементов всегда постоянно: ключевые слова начинаются в столбце 1; подключевые слова начинаются в столбце 3; код, определяющий часть таблицы характеристик, начинается в столбце 5. Любая строка, начинающаяся знаком пробела, рас- сматривается как продолжение вышестоящего ключевого или подключевого слова. К ключевым относятся следующие слова: «ЛОКУС», «ОПРЕДЕЛЕ- НИЕ», «НОМЕР ДОСТУПА», «ИСТОЧНИК», «ССЫЛКА», «ХАРАКТЕРИ- СТИКА», «ЧИСЛО ОСНОВАНИЙ» и «НАЧАЛО». Главная цель базы данных «Генбанк» состоит в том, чтобы предоста- вить научному сообществу доступ к самой современной, всесторонней и ис- черпывающей информации о последовательностях ДНК, а также побуждать всех заинтересованных лиц к выборке и использованию этих данных.
132 Глава 5 Таблица 5.1. Семнадцать подразделений «Генбанка» № Секция Категория последовательностей 1. ВСТ Бактерии 2. PLN Растения, грибы, водоросли 3. INV Беспозвоночные 4. PRI Приматы 5. ROD Грызуны 6. МАМ Проч, млекопитающие 7. VRT Проч, позвоночные 8. PHG Бактериофаги 9. VRL Вирусы 10. RNA Структурная РНК 11. SYN Синтетические 12. UNA Неаннотированные 13. EST Ярлыки экспрессируемых посл-тей (ЯЭПы) 14. STS Меченые участки посл-й (МУПы) 15. GSS Характеризующие геном посл-ти (ХГП) 16. HTG Посл-ти высокопроизводительной геномики (ВПГ) 17. РАТ Патентованные «БДГП» «База данных геномных последовательностей» («БДГП») — Genome Sequence DataBase (GSDB) создана при «Национальном центре геномных ресурсов» в Санта-Фе, штат Нью-Мексико. «БДГП» предназначена для сбо- ра, обработки и распределения данных о полном наборе последовательно- стей ДНК (а также сопутствующей информации) и удовлетворяет потреб- ности главных лабораторий, занятых секвенированием геномов. Формат за- писей «БДГП» совместим с форматом записей «Генбанка». «База данных геномных последовательностей» доступна или через сеть, или посредством сервисных средств типа клиент-сервер, предусмотренных в реляционных базах данных. Главные базы данных последовательностей имеют множество фи- лиалов для хранения особых видов информации о последовательностях.
5.2. Базы данных последовательностей нуклеиновых кислот 133 «бдЯЭП» (dbEST) — подразделение «Генбанка», предназначенное для хра- нения ярлыков экспрессируемых последовательностей (ЯЭПов). «бдХГП» (dbGSS) — хранилище однопроходных характеризующих геном последова- тельностей (ХГП); «бдМУП» (dbSTS) создана для хранения меченых участ- ков последовательностей (МУПов); и, наконец, в «ВПГ» (HTG — высокопро- изводительная геномика) помещают необработанные данные о геномных последовательностях (в стадии секвенирования). «ОМИМ» (OMIM — сете- вая БД менделевского наследования у человека) — многоцелевая база дан- ных генов человека и генетических нарушений, обслуживаемая «НЦБИ». «Ансамбль» По замыслу база данных «Ансамбль» (Ensembl) (http://www.ensembl.org) должна стать универсальным источником информации о геноме человека. Цели ее организации состоят в том, чтобы собрать и аннотировать всю из- вестную информацию о последовательности ДНК человека и в конечном счете сделать ее доступной для многих ученых, выражающих самые раз- ные интересы и требования к этим данным. Чтобы достичь поставленных целей, помимо обеспечения функций сбора и организации информации, до- вольно серьезные усилия были направлены на развитие вычислительного аппарата базы данных. Программа, разработанная для пополнения этого ресурса, «еМОТИВ» (eMOTIF), основана на принципе построения согла- сованных выражений из консервативных областей выравниваний исходных по следовательно стей. «Ансамбль» является совместным проектом «Европейского институ- та биоинформатики» («ЕИБ») и «Сенгеровского центра». Этот проект от- крыт для сотрудничества со всеми заинтересованными организациями. Со- бранные в «Ансамбле» данные включают в себя гены, ПОНы, повторения и гомологии. Эти гены или определены экспериментально, или найдены путем алгоритмического анализа последовательности. Поскольку экспери- ментальное подтверждение аннотации генома человека весьма ненадежно, «Ансамбль» представляет подтверждающие данные для опознавания каж- дого гена. Сервисные средства дают возможность создавать обширную сеть связей с другими, содержащими подобную информацию, базами данных — например «ОМИМ» или баз данных экспрессии. Специализированные геномные ресурсы В дополнение к многоцелевым базам данных последовательностей ДНК существует также ряд более специализированных геномных ресурсов.
134 Глава 5 Цель этих ресурсов состоит в том, чтобы поместить в фокус а) геномику ви- дов или б) специальные методы секвенирования. В качестве примеров таких ресурсов можно привести «СГД» (SGD — Saccharomyces Genome Database — база данных генома Сахарных грибов), «БДТ» (TDB — TIGR DataBase — база данных «ТИГРа») и «ЭйсДБ» (AceDB). Ниже мы приводим список адресов некоторых баз данных нуклеотидных последовательностей. EMBL http://www.ebi.ac.uk/embl/index.html DDB J http: //www. ddbj. nig. ас.j р/ GenBank http://www.ncbi.nlm.nih.gov/GenBank/GenBankover dbEST http://www.ncbi.nlm.nih.gov/dbEST/ GSDB http://www.ncgr.org/research/sequence/ SGD http://genome-www.stanford.edu/saccharomyces/ UniGene http://www.nebi.nlm.nih.gov/UniGene/ TDB http://www.tigr.org/tdb/tdb.html AceDB http ://www. sanger. ac .uk/ soft ware/Acedb/ Webace http://www.webace.sanger.ac.uk/ 0MIM http://www.ncbi.nlm.nih.gov/omim 5.3. Базы данных белковых последовательностей Большую часть данных о составе аминокислотных последовательно- стей получают путем трансляции соответствующих последовательностей нуклеиновых кислот. Первичная структура белка — это его аминокислотная последовательность; последние хранятся в первичных базах данных в виде линейных строк букв, обозначающих составляющие их остатки. Вторичная структура белка соответствует областям локальной регулярности, которые в выравниваниях последовательностей проявляются часто в виде сильно консервативных мотивов; они хранятся во вторичных базах данных как регулярные комбинации (например, регулярные выражения, индикаторы, блоки, профили и т. д.). Третичная структура белка является результатом упаковки элементов его вторичной структуры, может формировать обособ- ленные домены в пределах общей свертки и может привести к образованию самостоятельных единиц свертки, или модулей, хранимых в базах данных структур в виде наборов координат атомов. Первым секвенированным белком стал инсулин (1956 г.), последова- тельность которого состоит из 51 остатка. Начиная с 1980 г. научная ли- тература стала все более и более изобиловать информацией о первичных
5.3. Базы данных белковых последовательностей 135 последовательностях. В связи с этим несколько лабораторий начали соби- рать и помещать эти последовательности в центральные хранилища. Также было развито много центров первичных баз данных, расположенных в раз- личных частях мира. «База данных белковых последовательностей» была создана Маргарет Дейхофф в начале 1960-х гг. (при поддержке «НФБИ» — «Национального фонда биомедицинских исследований», ею же учрежденного в «Джордж- таунском университете»); целью данного ресурса был сбор последователь- ностей для изучения эволюционных связей между белками. С 1988 г. «Ба- за данных белковых последовательностей» обслуживается корпоративной организацией, получившей название «Международный ресурс идентифика- ции белка», или «МРИБ» (PIR-Intemational). В это крупнейшее объединение центров сбора данных о макромолекулярных последовательностях вошли: «Ресурс идентификации белка» («РИБ») при «НФБИ», «Японская между- народная информационная база (данных) белка» («ЯМИББ») и «Мартин- сридский институт белковых последовательностей» («МИБП»). «МИБП» занимается сбором и обработкой данных о последовательностях, помещае- мых в «МРИБ». Базы данных «РИБ» Сотрудникам «РИБ» удалось создать эффективную комбинацию про- граммного обеспечения доступа и выборки информации из тщательно адми- нистрируемой базы данных и средств обработки и анализа последователь- ностей. «РИБ» производит также «Интегрированную среду анализа после- довательностей» («ИСАИ») — Integrated Environment for Sequence Analysis (IESA). Ее функциональные возможности включают в себя обозрение, по- иск и анализ подобия последовательностей, а также связь с другими базами данных. «РИБ» поддерживает несколько баз данных белков. a) PIR-PSD: главная база данных белковых последовательностей. б) iProclass: классификация белков по структуре и функциям. в) ASDB: «База данных аннотаций и подобий» («БДАП»); каждая запись связана со списком подобных последовательностей. г) P/R-NREF: исчерпывающий безызбыточный ресурс более чем 800000 белковых последовательностей, собранных из всех доступных источ- ников.
136 Глава 5 Э) NRL-3D: база данных последовательностей и аннотаций белков с из- вестной структурой, хранимых в «Банке данных белка». е) ALN: база данных выравниваний белковых последовательностей. ж) RESID: база данных модификаций структур ковалентных белков. База данных «РИБ» разделена на четыре разные секции, обозначенные «РИБ1», «РИБ2», «РИБЗ» и «РИБ4». Они отличаются качеством данных и уровнем аннотирования: «РИБ1» содержит полностью классифициро- ванные и аннотированные записи; в «РИБ2» помещены предварительные записи, которые не были полностью просмотрены и, возможно, содержат избыточную информацию; «РИБЗ» представлен непроверенными записями, которые еще не были просмотрены; наконец, записи «РИБ4» подпадают под одну из следующих четырех категорий: 1) смысловые трансляции синтети- ческих последовательностей, 2) смысловые трансляции последовательно- стей, которые не транскрибируются или не транслируются клеткой, 3) по- следовательности белков или смысловые трансляции, которые интенсивно используются в генной инженерии и 4) последовательности, которые не ко- дируются геномом и не синтезируются рибосомами. В систему управления БД «РИБ» встроены программы выборки данных и поиска последователь- ностей через домашнюю веб-страницу «НФБИ-РИБ». «Свисс-прот» Плодотворное сотрудничество «Швейцарского института биоинформа- тики» («ШИБ») с «Библиотекой данных ЕЛМБ» привело к созданию анно- тированной базы данных аминокислотных последовательностей, названной «Свисс-прот». «Свисс-прот» — администрируемая база данных белковых последовательностей, которая стремится обеспечить аннотации высокого уровня, содержащие описания функций белков и структур их доменов, их посттрансляционных модификаций, вариантов сращения и т. п. с минималь- ным уровнем избыточности и достаточно высоким уровнем интеграции с другими базами данных. БД «Свисс-прот» связана перекрестными ссыл- ками со многими другими ресурсами. По развитию структуры и качеству аннотаций «Свисс-прот» намного опережает многие другие ресурсы белко- вых последовательностей и является предпочтительной базой данных для большинства исследователей. Записи начинаются с опознавательной строки (ID) и заканчива- ются ограничительным знаком «//». Опознавательные коды в «Свисс- прот» разработаны таким образом, чтобы быть вполне информативными
5.3. Базы данных белковых последовательностей 137 и в то же время достаточно удобными для пользователей; они имеют форму БЕЛОКИСТОЧНИК, где БЕЛОК — аббревиатура, которая обозначает тип белка, а ИСТОЧНИК — название организма. Поскольку опознавательные коды иногда могут изменяться, записи снабжены также дополнительным указателем — номером доступа, — который остается постоянным во всех версиях базы данных. Номер доступа расположен в строке АС, которая счи- тывается компьютером. Если в одной строке АС стоят несколько номеров, то наиболее часто используется первый (первичный) номер доступа. Строки DT обеспечивают информацию о дате занесения последова- тельности в базу данных и дате последнего внесенного изменения. Строка DE (описание) сообщает нам название, под которым данный белок изве- стен в научном мире. Следующие строки дают название гена (GN), вид организма (OS) и его таксономическую классификацию (ОС) в пределах биологического царства. В следующем разделе записи находится список справочных данных; это могут быть сведения из литературы, неопублико- ванная информация, полученная непосредственно из отчетов работ по про- ектам секвенирования, результаты исследований структур или мутагенеза белков и т. д. За ссылками следуют строки комментариев (СС). Они разделены на те- мы, которые сообщают нам о функции белка, его посттрансляционных мо- дификациях и специфичности к тканям, о его расположении в клетке и т. д. Строки комментариев указывают также на любое известное подобие или от- ношение к определенным семействам белков. Поле комментариев сопрово- ждают строки перекрестных ссылок базы данных (DR). Они обеспечивают связи с другими базами данных биомолекул, включая первичные инфор- мационные ресурсы, вторичные базы данных, специализированные базы данных и т. д. Сразу после строк DR находится список подходящих ключевых слов (KW), за которым помещен ряд строк FT (характеристик). Строки FT ука- зывают на особенно интересные области последовательности, к которым относятся местные вторичные структуры (например трансмембранных до- менов), участки связывания лигандов, посттрансляционные модификации и т.п. Каждая строка FT содержит ключ, позицию отмеченной характе- ристики в последовательности и комментарий, который может, например, показывать уровень достоверности прилагаемой аннотации. Последний раздел записи базы данных содержит саму последователь- ность, набранную в строках SQ. Для обозначения аминокислот использован только однобуквенный код. Структура «Свисс-прот» обеспечивает прямой и эффективный алгоритмический доступ к различным информационным полям.
138 Глава 5 «ТрЕЛМБ» База данных «ТрЕЛМБ» («Транслированная ЕЛМБ») была разработа- на в 1996 г. как аннотированное компьютером приложение к «Свисс-прот». Эта база данных использует формат «Свисс-прот» и содержит трансляции всех кодирующих последовательностей из «ЕЛМБ». БД «ТрЕЛМБ» разделе- на на две главные секции, обозначенные «СП-ТрЕЛМБ» и «РЕМ-ТрЕЛМБ»; «СП-ТрЕЛМБ» («Свисс-прот ТрЕЛМБ») содержит записи, которые в ко- нечном счете будут включены в «Свисс-прот», но еще не были анноти- рованы вручную; «РЕМ-ТрЕЛМБ» содержит последовательности, которые не предназначены для помещения в «Свисс-прот»; к ним относятся им- муноглобулины и рецепторы Т-клеток, фрагменты длиной менее восьми аминокислот, синтетические последовательности, патентованные последо- вательности, а также трансляции кодонов, которые фактически не кодируют белки. База данных «ТрЕЛМБ» была разработана для того, чтобы обеспечить очень быстрый доступ к данным о последовательностях, полученным в хо- де работ по различным проектам секвенирования геномов, и при этом не ставить под угрозу качество самой «Свисс-прот», включая туда последова- тельности с недостаточно полным анализом и аннотацией. База данных «РИБ» — безусловно, самый полный и многоплано- вый ресурс, но качество ее аннотаций все еще относительно низкое. «Свисс-прот» — база данных с развитой структурой, которая обеспечивает превосходные аннотации, но ассортимент ее последовательностей, по срав- нению с «РИБ», относительно беден. «НРЛ-ЗД» База данных «НРЛ-ЗД» (NRL-3D) произведена центром «РИБ» и содер- жит последовательности, извлеченные из «Банка данных белка» («БДБ»). Заголовки и биологические источники записей отвечают стандартам но- менклатуры, принятой в «РИБ». В теле записей приведены многочислен- ные библиографические ссылки, а также перекрестные ссылки на записи БД «МЕДЛАЙН» наряду с аннотациями на вторичные структуры, активные участки, участки связывания и модифицированные участки, сопровождае- мыми справочными сведениями об экспериментальных методах, разреше- нии, R-факторе и т. д. В конце приложен список ключевых слов. «НРЛ-ЗД» является довольно ценным ресурсом, поскольку он обеспе- чивает выборку информации о последовательностях, хранящихся в «БДБ», как посредством запроса по ключевым словам, так и через поиск подобия. Поиск в базе данных «НРЛ-ЗД» может быть проведен с помощью систе-
5.4. Базы данных структур 139 мы выборки «АТЛАС» (ATLAS) — программы информационного поиска во множестве баз данных, специально предназначенной для обеспечения доступа к базам данных последовательностей макромолекул. 5.4. Базы данных структур Базы данных структур архивируют, аннотируют и распределяют на- боры атомных координат. Они представляют собой собрания трехмерных структур биологических макромолекул, а именно белков и нуклеиновых кислот. Последняя организованная база данных структур белка — «Банк данных белка» («БДБ»). Адрес ее веб-узла следующий: http://www.rcsb.org/. Это единственное хранилище структурных данных мирового масшта- ба; оно поддерживается «НИОСБ» — «Научно-исследовательским объеди- нением структурной биоинформатики (Research Collaboratory for Structural Bioinformatics, RCSB) в «Руджерском университете», штат Нью-Джерси, США. (Здесь поддерживается также «НДБ» (NDB — Nucleic acid Structure Database — вспомогательная база данных структур нуклеиновых кислот). Равноценная база данных в Европе — «МСД» (MSD — Macromolecular Structure Database — база данных макромолекулярных структур), обслу- живаемая «Европейским институтом биоинформатики» («ЕИБ»). Веб-узел «МСД» — http://msd.ebi.ac.uk/. Базы данных «БДБ» и «МСД» содержат аб- солютно идентичные данные. Типичная запись «БДБ» включает в себя следующую информацию: на- звание белка, вид организма, из которого он получен, имя исследователя, определившего структуру, ссылки на публикации, описание процесса опре- деления структуры, описание эксперимента по определению структуры, по- следовательность аминокислот, перечень любых дополнительных молекул и координат атомов. В «МСД» предусмотрено средство поиска «ОКА» (ОСА), представляющее собой базу данных навигационного типа, которая объеди- няет информацию из многочисленных банков данных и содержит описание структур и функций белка. Другой полезный информационный источник в «ЕИБ» — база данных вероятных четвертичных структур (ВЧС) биологи- чески активных форм белков. Классификация структур Многие белки обнаруживают структурные подобия, отражающие в некоторых случаях общее эволюционное происхождение. Эволюцион- ный процесс производит замены, вставки и удаления в последовательно- стях аминокислот. У отдаленно связанных белков такие изменения могут
140 Глава 5 быть многочисленными и приводить к сверткам, значительно отличающим- ся по числу и ориентации вторичных структур. Однако было замечено, что если функции белков консервативны, то и структурные компоненты, окру- жающие важнейшие аминокислотные остатки определяющих эти функции активных участков, также являются консервативными. С целью лучшего понимания взаимосвязи структуры белка с его первичной последовательно- стью были разработаны схемы классификации структур. Ниже приведены базы данных (и программа), предлагающие разные варианты иерархической классификации белков «БДБ» согласно образцам свертки. 1) «СКОП» (SCOP): Структурная классификация белков. 2) «КАТ» (САТН): Класс / Конфигурация / Топология / Гомология. 3) «ДАЛИ» (DALI): Программа идентификации подобных структур с по- мощью матриц расстояний. 4) «ЦЕ» (СЕ): База данных выравниваний структур. База данных «СКОП» База данных «СКОП» описывает структурные и эволюционные отно- шения между белками с известной структурой. Так как современные сред- ства автоматического сравнения структур не могут надежно определить все такие отношения, БД «СКОП» построена на принципе сочетания ме- тодов ручного и автоматизированного контроля. Белки классифицированы согласно иерархической схеме, отражающей степень подобия их структур и силу эволюционных связей. Такая иерархия состоит из множества уров- ней, но в основном они описывают семейство, надсемейство и свертку белка. Белки объединяют в семейство (с ясными эволюционными отношения- ми членов), если их последовательности подобны более чем на 30 %. Белки помещают в надсемейство, когда, несмотря на низкую идентичность после- довательностей, их структурные и функциональные характеристики пред- полагают общее эволюционное происхождение. К группе с общей сверткой относят те белки, у которых соответствующие основные элементы вторич- ной структуры находятся в аналогичном взаимном расположении и обла- дают одинаковой топологией — безотносительно того, имеют ли эти белки общее эволюционное происхождение. БД «СКОП» обслуживает запросы по ключевым словам через сервер «Лаборатории МРК» (MRC Laboratory).
5.4. Базы данных структур 141 База данных «КАТ» База данных «КАТ» (классификация по классу, конфигурации, тополо- гии и гомологии) большей частью получена с помощью автоматических ме- тодов, но там, где автоматические методы дают сбой, по-прежнему необхо- дим ручной контроль. Разные категории в структуре классификации обозна- чены как уникальными номерами, так и описательными именами. В иерар- хической классификации можно выделить пять уровней: класс, конфигура- ция, топология, гомология и последовательность. Класс устанавливается по основным элементам вторичной структуры и их упаковке. Конформация описывает общее взаимное расположение эле- ментов вторичной структуры. Топология дает описание, которое охватывает и внешнюю форму, и характер соединений вторичных структур. На уровне гомологии сгруппированы домены, которые показывают более 35 % иден- тичности последовательностей и предположительно происходят от обще- го предка. Последовательность обеспечивает последний уровень иерархии, в соответствии с которым структуры в пределах установленных гомологи- ческих групп далее группируются на основании идентичности последова- тельностей. Поиск в БД «КАТ» осуществляют путем направления запросов по ключевым словам через сервер «Биомолекулярных структур и примити- вов моделирования» при «Университетском колледже в Лондоне». База данных «КАТ» — это база данных белковых структур, которая находится в «Университетском колледже в Лондоне». Подобно принятому в БД «СКОП» принципу классификации, белки БД «КАТ» классифициро- ваны в первую очередь на иерархические уровни по классу (за исключени- ем того, что здесь <э//3- и а + /3-белки принадлежат одному классу; вме- сто а + /3-белков, четвертый класс «КАТ» включает в себя белки с малым числом вторичных структур). Вслед за классом белки классифицированы по конфигурации, свертке, надсемейству и семейству. Смешанные базы данных Смешанными (неоднородными) называют базы данных, которые объ- единяют в себе разнообразные структуры и типы данных из различных первичных источников. Смешанные базы данных выполняют поиск после- довательностей намного эффективнее, потому что они избавлены от необхо- димости опрашивать многочисленные ресурсы. Если смешанная база дан- ных разработана по принципу исключения избыточности, то процесс опроса будет оптимизирован еще больше, так как в этом случае устранена возмож- ность неоднократной проверки одной и той же последовательности.
142 Глава 5 Для создания смешанных ресурсов могут быть использованы различ- ные стратегии. Конечный продукт зависит от выбранных источников дан- ных и критериев их слияния. Выбор разных источников и применение различных критериев избыточности привел к появлению различных неод- нородных баз данных, каждая из которых имеет свой собственный спе- циальный формат. Главные смешанные базы данных: «ББД» (NRDB — Non-Redundant Database — «Безызбыточная база данных»), «АУЛ» (OWL), «МИБП-Х» (MIPSX) и «Свисс-прот+ТрЕЛМБ». «Безызбыточная база данных» — многоцелевой ресурс, располагающий самой современной информацией. «АУЛ» — безызбыточная база данных белков с приоритетом записей по уровню аннотирования и достоверно- сти последовательностей. База данных «МИБП-Х» содержит исключитель- но информацию об уникальных копиях. Объединенный ресурс «Свисс- прот+ТрЕЛМБ» является одновременно и многоцелевым и минимально из- быточным. База данных «НДБ» «НДБ» — база данных структур нуклеиновых кислот (адрес — ndbserver.rutgers.edu/ndb) — собирает и распределяет структурную инфор- мацию о нуклеиновых кислотах. В дополнение к информации относи- тельно нуклеиновых кислот, «НДБ» поддерживает вспомогательную базу данных белков, связывающих ДНК. Имеющаяся информация представлена координатами и структурными факторами, архивом стандартов нуклеино- вых кислот и атласом нуклеиновых кислот, содержащим структуры, кото- рые подчеркивают определенные особенности каждой белковой структуры в «НДБ». Кроме того, «НДБ» предоставляет сведения о собственных кор- реляциях между структурными параметрами. База данных «КСД» «КСД» (CSD — Cambridge Structural Database — Кембриджская база дан- ных структур) накопляет исчерпывающие структурные данные об органи- ческих и металлоорганических соединениях, полученных с помощью рент- геноструктурного и нейтронографического анализа. Она содержит трех- мерные координаты атомов, а также сопутствующие библиографические, химические и кристаллографические данные. Сервисные средства «КСД» представлены программным обеспечением машинной графики, а также средствами поиска, выборки, обработки и визуального отображения дан- ных.
5.4. Базы данных структур 143 База данных «БМРБ» База данных «БМРБ» (BMRB — BioMagResBank — «Банк магнитного резонанса биополимеров») содержит данные ЯМР-анализа белков, пептидов и нуклеиновых кислот (www.bmrb.wisc.edu). Она предназначена для поме- щения вспомогательных данных, необходимых для определения ограниче- ний ЯМР и координат, хранящихся в «БДБ». «БМРБ» содержит параметры ЯМР, которые являются мерами гибкости и динамики. Кроме того, она со- держит данные относительно измеренных параметров химических сдвигов ЯМР, а также коэффициенты связи, полярные (ковалентные) связи, значения Т1, значения Т2, гетероциклические значения NOE, величины S2 (парамет- ры упорядочения), скорости водородного обмена и факторы поддержания водородного обмена. Базы данных «ЗДи» и «КССБ» «ЗДи» (3Dee) — база данных описаний белковых доменов. База данных «КССБ» (Классификация сверток по выравниваниям структур белков — Fold classification based on Structure-Structure alignment of Proteins, FSSP) постро- ена на автоматических сравнениях (по принципу «все против всех») трех- мерных структур всех записей «БДБ». Выравнивание структур выполнено с помощью программы «ДАЛИ». База данных «КССБ» является базой данных представительных свер- ток для всех структур из «БДБ». Алгоритм иерархической группировки обрабатывает такие представительные свертки и выстраивает дерево свер- ток на основании выявленных структурных подобий. База данных «КССБ» основана на структурном выравнивании всех попарных сочетаний белков из Брукхейвенской базы данных структур, проведенном с помощью про- граммы выравнивания структур «ДАЛИ». Прочие базы данных «База данных молекулярных моделей» («БДММ») — хранилище экспе- риментально определенных структур, извлеченных из «БДБ». Ее организа- ция базируется на концепции связей соседних последовательностей и струк- тур. «БДММ» классифицирует белки с известной структурой, хранящиеся в Брукхейвенском «БДБ», на структурно связанные группы посредством программы выравнивания структур «ВАСТ» (VAST — Vector Alignment Search Tool — средство поиска векторных выравниваний). «ВАСТ» вырав- нивает трехмерные структуры путем поиска подобных вариантов взаимно- го расположения элементов вторичной структуры. «БДММ» обеспечивает
144 Глава 5 метод быстрого опознавания всех структур из «БДБ», которые являются статистически необыкновенными. «База данных консервативных доменов» («БДКД») — (Conserved Domain Database, CDD) — база данных выравниваний консервативных до- менов со ссылками на их трехмерные структуры. «ЧЕМП» (CHAMP — Chemico-physical AMino acidic Parameter databank — банк данных физико- химических параметров аминокислот) содержит 32 различные группы физико-химических параметров аминокислот. Он интегрирован с «ФАСТА». «База данных ферментативных реакций» (Enzyme-Reaction Database) свя- зывает химические структуры с аминокислотными последовательностями ферментов, которые распознают эти химические структуры в качестве своих лигандов. Химические структуры и химические названия зарегистрированы в базе данных химических структур по системе MACCS. Ферменты зарегистрированы в этой базе данных с помощью опозна- вательных кодов записей в формате «НФБИ-РИБ». В этой базе данных последовательности ферментов разделены на группы, а консервативная по- следовательность каждой группы определяется путем множественного вы- равнивания последовательностей. Эти консервативные последовательности используются для построения мотивов. «Протерм» (ProTherm — Thermodynamic Database for Proteins and Mutants — база данных термодинамики белков и мутантов) — собрание численных данных, необходимых для изучения взаимосвязи между струк- турой, стабильностью и функцией белковой молекулы. Она содержит такие термодинамические параметры, как изменение свободной энергии Гиббса при развертывании, изменение энтальпии, изменение теплоемкости, тем- пература (фазового) перехода и т. д. Помимо этого, в «Протерм» помещена информация об активности, вторичной структуре, поверхностной реакцион- ной способности, методах измерения и условиях проведения экспериментов (pH, температура, концентрация буферных ионов и белков). БД «Протерм» связана с базами данных «РИБ», «Свисс-прот», «БДБ», «ПМД» (PMD) и «Пубмед». База данных «САРФ» (SARF — Spatial ARrangement of backbone Fragments — пространственное расположение фрагментов основной цепи) также является базой данных белков, классифицированных на основе струк- турного подобия. Вторичные базы данных Средства поиска в первичных базах данных эффективны для опозна- вания подобий последовательностей, но интерпретация результатов поис-
5.4. Базы данных структур 145 ка иногда затруднена и не всегда дает ответы на некоторые более слож- ные вопросы анализа последовательностей. В таких случаях целесообразно применять программы поиска во вторичных базах данных. В зависимости от типа аналитического метода, на котором построен алгоритм поиска во вторичных базах данных, отношения между объектами могут быть объ- яснены достаточно полно на уровне надсемейств, семейств, подсемейств и видоспецифических последовательностей. Принцип, положенный в основу развития вторичных баз данных, со- стоит в том, что с помощью множественных выравниваний могут быть об- наружены консервативные мотивы, которые отражают общие структурные или функциональные характеристики последовательностей, составляющих белки. Самый простой подход к распознаванию регулярных комбинаций заключается в том, чтобы характеризовать семейство по единственному консервативному мотиву и сократить данные о последовательности мотива к согласованной последовательности или к образцу регулярного выраже- ния. Регулярные выражения формируют основу базы данных «Просайт» (PROSITE). Кроме того, было создано большое число вторичных баз данных, ко- торые содержат плоды анализа последовательностей, выуженных из пер- вичных источников. Многие вторичные базы данных, например, «Про- сайт», «Профили» (Profiles), «ПРИНТС» (PRINTS), «Пфам» (Pfam), «Бло- ки» (BLOCKS) и «АЙДЕНТИФАЙ» (IDENTIFY), используют в качестве первичного источника БД «Свисс-прот». База данных «Просайт» хранит ре- гулярные выражения (комбинации); БД «Профили» является хранилищем взвешенных матриц (профилей); в БД «ПРИНТС» находятся выровненные мотивы (индикаторы). БД «Пфам» содержит скрытые марковские модели (СММ). БД «Бло»^1» хранит выровненные мотивы (блоки), а БД «АЙДЕН- ТИФАЙ» — нечетко регулярные выражения (комбинации). Тип информации, хранимой в каждой из упомянутых вторичных баз данных, отличен. И все же эти ресурсы построены на общем принципе, согласно которому гомологичные последовательности могут быть собра- ны вместе во множественные выравнивания, в пределах которых находятся консервативные области, которые показывают незначительные изменения (или отсутствие таковых) между рассматриваемыми последовательностя- ми. Эти консервативные области, или мотивы, обычно отвечают за выпол- нение некоторой жизненно важной биологической роли (то есть прямо или косвенно влияют на структуру или функцию белка). Одна из целей анализа последовательностей заключается в проекти- ровании вычислительных методов, которые помогают привязывать функ- циональную и структурную информацию к еще не описанным последо-
146 Глава 5 вательностям; это достигается за счет поиска в первичных базах данных, назначение которого состоит в установлении связей этих новых последова- тельностей с уже известными последовательностями. Таким образом, по- иск в пределах какой-либо одной базы данных проводят для того, чтобы установить, какие из последовательностей связаны между собой (истин- ное совпадение), а какие — нет (истинные несовпадения). Для улучшения диагностических показателей необходимо отмечать возможно больше ис- тинных совпадений членов семейства и включать в их число как можно меньше (желательно ни одного) ложных совпадений. База данных «Просайт» «Просайт» — первая вторичная база данных. Главная причина ее по- явления была связана с тем, что семейства белков могут быть достаточно просто и эффективно охарактеризованы по единственному наиболее консер- вативному мотиву, найденному во множественном выравнивании известных гомологов; такие мотивы обычно кодируют ключевые биологические функ- ции (например, активные участки ферментов, участки связывания лигандов или металлов и т. д.). Поиск в такой базе данных в принципе должен дать ответ на вопросы о принадлежности новой последовательности к какому- либо семейству белков и о возможности содержания в ней определенного домена или активного участка. База данных «ПРИНТС» Известно, что большую часть семейств белка можно охарактеризовать не по одному, а по нескольким консервативным мотивам. Поэтому для по- строения диагностических сигнатур членства в семействах имеет смысл использовать многие (или все) мотивы. Этот принцип положен в осно- ву развития базы данных индикаторов «ПРИНТС». Индикаторы, по сути, обеспечивают улучшенную достоверность диагностики по сравнению с ме- тодами единственного мотива — за счет взаимного контекста, обеспеченного мотивами-соседями; другими словами, если некоторая последовательность запроса оказывается не соответствующей всем мотивам в данном индика- торе, то картина совпадений, сформированная остальными мотивами, все же позволяет оператору сделать вполне достоверное заключение. База данных «Блоки» База данных множественных мотивов, известная под названием «Бло- ки», была создана путем автоматического обнаружения наиболее консерва- тивных областей в каждом семействе белков.
5.4. Базы данных структур 147 Ограничения принципа установления дальних гомологов по регуляр- ному выражению привели к созданию компендиума профилей. Оказалось, что изменчивые области между консервативными мотивами также содержат ценную информацию о последовательности. Таким образом, полное вырав- нивание последовательностей фактически становится дискриминатором. смм Альтернатива использования профилей — кодирование выравнивания в форме скрытых марковских моделей (СММ). Последние представляют собой математические описания, основанные на статистике и состоящие из линейных цепей состояний «совпадение», «удаление» или «вставка», по- средством которых кодируют консервативность последовательностей в вы- равниваниях членов семейств. Набор СММ для целого ряда белковых до- менов находится в базе данных «Пфам». Базы данных «АЙДЕНТИФАЙ», «КЭГГ» и «МЕДЛАЙН» База данных «АЙДЕНТИФАЙ» — еще один третичный ресурс, по- лученный путем автоматической обработки содержимого БД «Блоки» и «ПРИНТС». «КЭГГ» (KEGG — Kyoto Encyclopedia of Genes and Genomes — «Киотская энциклопедия генов и геномов») — база данных ме- таболических путей. В ней собраны отдельные геномы, продукты генов и их функции, а также сопутствующая биохимическая и генетическая ин- формация. «МЕДЛАЙН» объединяет в себе медицинскую литературу и со- держит большое число статей по молекулярной биологии. Она включена в «Пубмед» (PubMed) — библиографическую базу данных, предлагающую аннотации научных статей. Ниже приведены адреса этих ресурсов в сети: GenBank http://www.ncbi.nlm.nih.gov/GenBank/GenbankOver EMBL http://www.eli.ac.uk/embl/index.html DDBJ http://www.ddbj.nig.ac.jp/ PIR http://www.pir.georgetown.edu/ MIPS http://www.mips.biochem.mpg.de/ Swiss-PROT http://pir.georgetown.edu/pirwww/dlinfo/nrl 3d.h OWL http://www.bioinf.man.ac.uk/dbbrowser/OWL/ PROSITE http://www.expasy.ch/prosite/ PRINTS http://www.bioinf.man.ac.uk/dbbrowser/PRTNTS/ BLOCKS http://www.blocks.fhcrc.org/
148 Глава 5 Profiles http://www.isrec.isb-sib.ch/software/PFSCAN_form.html Pfam http://www.sanger. ас .uk/software/Pfam/ IDENTIFY http://dna.stanford.EDU/identify/ Proweb http://www.proweb.org/kinetin/ProWeb.html SCOP http://scop.mrc-lmb.cam.ac.uk/scop/ CATH http://www.biochem.ucl.ac.uk/bsm/cath/ 5.5. Библиографические базы данных и «Виртуальная библиотека» Публикация есть ядро каждого научного изыскания. Это общий для всех ученых процесс, посредством которого научная информация просмат- ривается, оценивается, распространяется и в конечном счете обретает фор- му записи в нетленном журнале научного прогресса. Библиографические базы данных (также известные как информационные базы данных или базы знаний) содержат опубликованные статьи, аннотации и избранные полно- ценные статьи со ссылками на отдельные записи в БД. Хотя существует множество библиографических баз данных, наибольшую популярность за- служили «Пубмед» и «АГРИКОЛА» (AGRICOLA), поскольку они обеспе- чивают постоянно обновляемую информацию, собранную из многочислен- ных источников. «Пубмед» «Пубмед» обслуживается «Национальной медицинской библиотекой» (США) и включает в себя библиографическую базу данных «МЕДЛАЙН», а также содержит ссылки на избранные полные статьи на веб-сайтах издательств научных журналов. Она предлагает аннотации к научным ста- тьям и объединена с другими средствами выборки информации, разработан- ными в структурах «Национального центра биотехнологической информа- ции». Научные журналы обычно помещают на своих веб-узлах оглавление и в некоторых случаях — полные статьи. СУБД «Пубмед» относится к ре- ляционному типу, и поэтому результатам запроса сопутствуют ссылки на записи «Генбанка», «БДБ» и т. д. Поиск в базе данных «Пубмед» может быть проведен через следующие веб-узлы: http://www.ncbi.nlm.nih.gov/PubMed/ http://www.pubmedcentral.nih.gov
5.6. Специализированные средства анализа 149 «АГРИКОЛА» «АГРИКОЛА» (AGRICOLA) — аббревиатура названия Agricultural Online Access (сетевой доступ к литературе по сельскому хозяйству). Это библиографическая база данных, которая обеспечивает ссылки на ли- тературу по сельскому хозяйству и поддерживается «Национальной сель- скохозяйственной библиотекой» и некоторыми другими сотрудничающими организациями. Ссылки обеспечивают доступ к публикациям и ресурсам, относящимся ко всем отраслям сельского хозяйства: ветеринарии, растение- водству, лесоводству, водному хозяйству и рыболовству, пищевой промыш- ленности и диетологии человека, охране земельных фондов и окружающей среды. Поиск в этой базе следует начинать с нижеуказанного веб-узла: http://www/nal.usda.gov/ag98/ «Виртуальная библиотека» Помещенная в сети «Виртуальная библиотека» предоставляет доступ к веб-узлам ценных информационных ресурсов. Она содержит коллекцию ссылок, открывающих путь к различным виртуальным журналам и биб- лиографическим базам данных. Виртуальные библиотеки могут быть клас- сифицированы на различные группы, объединяющие ссылки на различные виртуальные журналы, библиографические базы данных и обеспечивающие доступ к различным библиотекам институтов, форумам и конференциям, веб-узлам с обучающими программами, образовательным узлам, источни- кам предоставления грантов и финансирования научно-исследовательских программ, веб-узлам правительственных и регулятивных органов и т. д. Наиболее популярный веб-узел «Виртуальной библиотеки» следующий: http://www.vlib.org Можно выделить также группы виртуальных библиотек, специализи- рованных на различных дисциплинах например микробиологии, биохимии, и т. д. Многие издатели имеют свои собственные веб-узлы и помещают на них виртуальные журналы (например, «Нейче»: www.nature.com). Эти уз- лы обеспечивают свободный доступ к оглавлению и аннотациям статей. 5.6. Специализированные средства анализа Поиск гомологий составляет лишь одну сторону процесса анализа. Из- вестны также многие другие инструменты исследования, как-то: профили
150 Глава 5 гидропатии, применяемые для обнаружения возможных трансмембранных доменов и (или) гидрофобных ядер белковых молекул; винтовые колеса, служащие для определения предполагаемых амфипатических спиралей; ал- горитмы выравнивания последовательностей и построения филогенетиче- ских деревьев, используемые для составления карт эволюционных связей; диаграммы предсказания вторичных структур — для определения местопо- ложения а-спиралей и /3-нитей; многие другие средства. Очевидное неудобство в использовании целого набора методов для эффективного анализа последовательностей привело к разработке про- граммных пакетов, объединяющих все разнообразие этих методов в од- ной упаковке и устраняющих необходимость применять разные программы с различными интерфейсами, с отличающимися входными требованиями и разнородными форматами выхода. Очередные обновленные версии баз данных последовательностей ДНК и белков появляются каждые три-четыре месяца. В промежутки между вы- ходом основных версий новые расшифрованные последовательности до- бавляются к ежедневно обновляемым файлам. Для регулярного обновле- ния установленных на ПК баз данных были разработаны синхронизиро- ванные ППФ-сценарии (например, программы календарного планирования типа «Хрон» (Cron) для ОС «Юникс»). С помощью такой системы можно относительно легко отслеживать обновления отдельных баз данных, одна- ко эта задача становится обременительной для машины, когда необходимо проверять и слиять с собственным ресурсом сразу несколько баз данных (например, «Генбанк», «ЕЛМБ», «Свисс-прот» и «РИБ»). Более того, при появлении новых баз данных многие стремятся загрузить их и установить на собственный ПК; следовательно, имеющиеся сценарии тоже должны пери- одически обновляться, чтобы включать в панораму обзора новые ресурсы. Существует несколько известных пакетов, которые содержат доволь- но широкий набор программных средств анализа последовательностей ДНК и белков. Эти пакеты развивались, полнились новыми программами и по прошествии ряда лет стали достаточно универсальными средствами анализа. Пакет «ДКГ» Наиболее известный продукт из имеющегося в продаже программно- го обеспечения анализа последовательностей — пакет «ДКГ» (принадлежит «Оксфорд молекулар груп»). Он был разработан «Джинетикс компьютер груп» (575 Science Drive, Madison, Wisconsin, USA 53711) и вначале пред- ставлял собой набор средств анализа последовательностей нуклеиновых
5.6. Специализированные средства анализа 151 кислот, но в свое время включил в себя дополнительные программы анали- за белковых последовательностей. С помощью «ДКГ» можно обращаться как ко многим из часто исполь- зуемых баз данных последовательностей (например, «Генбанк», «ЕЛМБ», «РИБ» и «Свисс-прот»), так и к ряду специализированных баз данных и ре- сурсов мотивов (типа «Просайт», «БДФТ» («База данных факторов транс- крипции» — Transcription Factor Database, TFD) и «РЕБАЗА» (REBASE - Restriction Enzyme dataBASE — база данных рестриктаз). Особым достоин- ством системы пакета «ДКГ» является возможность относительно легкой ее настройки под конкретного пользователя, желающего, положим, обеспечить себе доступ к каким-либо дополнительным базам данных. Поисковая си- стема комплекта разделяет «ЕЛМБ» и «Генбанк» на различные секции, что позволяет сократить время поиска, направляя запросы только к необходи- мым отделам баз данных. Так, например, последовательности в «Генбанке» и «ЕЛМБ» можно искать совместно, по отдельности или по определенным таксономическим категориям (например: вирусы, бактерии, грызуны и т. д.). Базы данных последовательностей имеют свои собственные уникаль- ные форматы, так что последние должны быть преобразованы к формату «ДКГ» для обеспечения совместимости с программами этого пакета. Ана- логично все файлы данных, импортированные в пакет «ДКГ» для проведе- ния анализа, должны соответствовать его формату. К сервисным средствам относятся программы поиска попарного подобия, множественного вырав- нивания последовательностей, анализа эволюционных отношений, поиска мотивов и профилей, предсказания вторичной структуры РНК, построения диаграмм гидропатии и антигенности, смысловой трансляции, сборки по- следовательностей, составления рестрикционных карт и т. д. Пакет «РДКГ» Изначально пакет «Расширенный ДКГ» (EGCG) был задуман сотрудни- ками «ЕЛМБ» (Гейдельберг) как набор программ для поддержки проводи- мых «ЕЛМБ» научных исследований. В «РДКГ» входит более 70 программ, решающих такие задачи, как сборка фрагментов, картографирование, поиск в базах данных, множественный анализ последовательностей, распознава- ние регулярных комбинаций, анализ последовательностей белков и нуклео- тидов, анализ эволюционных связей и т. д. Пакет «Стаден» Пакет «Стаден» (Staden) представляет собой набор программ анализа последовательностей ДНК и белков. Он не имеет собственных баз данных,
152 Глава 5 но работает с базой данных «ЕЛМБ» и некоторыми другими базами дан- ных подобного формата. Пакет обладает оконным интерфейсом для рабо- чих станций «Юникс». Широкий диапазон функциональных возможностей пакета обеспечен служебными программами определения и поиска регу- лярных комбинаций мотивов в последовательностях белков и нуклеиновых кислот (например, некоторые стандартные процедуры позволяют находить участки сращений в иРНК, промоторы у Е. coli, гены тРНК и т. д. Кроме то- го, пользователи могут самостоятельно описывать регулярные комбинации такой же сложности). Сильная сторона пакета «Стаден» — наличие функции сборки последовательностей ДНК. В него включены алгоритмические методы для выполнения всех операций предварительной обработки первичных данных секвенирования с флуоресцентными метками, реализованные в виде программ визуального отображения следов (TREV), качественного монтажа последовательностей (PREGAP4) и удаления векторов (PREGAP4, VECTOR CLIP); набора меха- низмов сборки; мощных алгоритмов редактирования и конечной обработки НПО (GAP4). В пакет вошли также новые программы обнаружения точеч- ных мутаций (TRACE DIFF, GAP4). Кроме того, в пакете «Стаден» преду- смотрены средства анализа окончательно обработанных последовательно- стей ДНК (NIP4) и сравнения последовательностей ДНК или белков (SIP4); помимо своих основных функций, эти служебные программы обеспечи- вают интерфейс к библиотекам последовательностей. Новые диалоговые программы (TEV, PREGAP4, GAP4, NIP4 и SIP4) снабжены графическими интерфейсами пользователя, однако пакет содержит также большое коли- чество более старых, хотя все еще полезных программ, которые общаются с оператором посредством командной строки. Пакет «Лазерген» «Лазерген» (Lasergene) — пакет программ для ПК, который обеспе- чивает средства анализа кодирования, сопоставления регулярных комбина- ций и участков, а также анализа структуры и состава РНК и ДНК; ана- лиза участков рестрикции; проектирования зондов, а также праймеров для ПЦР; редактирования последовательностей; сборки последовательностей и управления НПО; множественного и попарного выравнивания последо- вательностей (включая построение и анализ точечных диаграмм); предска- зания вторичной структуры и анализа гидропатии белков; создания сетей и винтовых колес; поиска в базах данных. «Лазерген» может быть установ- лен на ПК с ОС «Уиндоус» или на «Макинтош» и работать как для нужд отдельного пользователя, так и в сетевых рабочих средах.
5.6. Специализированные средства анализа 153 Наряду с перечисленными выше пакетами программ, были созданы многие другие программные пакеты, которые отличаются специализацией на отдельных областях анализа последовательностей ДНК. Некоторые из них описаны ниже. Пакет «Секвенатор» «Секвенатор» (Sequencher) — пакет программ сборки последователь- ностей, предназначенный для работы на «Макинтошах» и обслуживающий многие лаборатории, занятые секвенированием полных геномов. Пакет счи- тывает исходные данные с хроматограммы и преобразует их в сборки НПО; к другим функциям относится: анализ участков рестрикции и ОРС, анализ гетерозигот на наличие мутаций, отсев векторов и транспозонов, анализ мо- тивов и скрытых мутаций, оценка качества последовательностей и, наконец, визуальная маркировка внесенных изменений, гарантирующая целостность данных. Пакет «Вектор, НТИ» Пакет «Вектор, НТИ» (Vector, NTI) совместим с ОС «Уиндоус 3.1» и совместно разработан организацией «СОАК» («Собрание образцов аме- риканской культуры» — American Type Culture Collection, АТСС) и корпора- цией «Информакс» (InforMax, Inc.). Это пакет для работы с базами знаний, призванный ускорить внедрение методов клонирования. Он может авто- матически оптимизировать проектирование новых артефактов ДНК и ре- комендовать очередные шаги процесса клонирования. Пользователь может устанавливать предпочтения этого процесса (например: выделение фраг- ментов, модификация концов и лигирование). Система включает в себя около 3000 правил генной инженерии. Пакет «Маквектор» Пакет «Маквектор» (MacVector) представляет собой разработанную для нужд молекулярной биологии систему с пользовательским интерфейсом типа «Макинтош», которая предназначена для создания удобной в работе среды для манипуляции с данными (а также их анализа) о составе после- довательностей ДНК и белков. Пакет заимствует пять функций поиска из программы «БЛАСТ» и включает в себя программу «КЛАСТЭЛ-В» для вы- равнивания последовательностей, а также управляемый посредством пикто- грамм редактор последовательностей, который объединен со встроенными функциями, выполняющими операции молекулярной биологии (например
154 Глава 5 трансляции, предсказания структуры белков и анализа рестриктов, прай- меров, зондов и мотивов). Кроме того, пакет снабжен набором сервисных средств, позволяющих вычислять кривые плавления структур РНК и ДНК, предсказанные по их последовательностям. Будущее коммерческих программных продуктов находится в руках тех поставщиков, которые понимают ключевые вопросы, с которыми сталки- ваются крупные промышленные потребители. Почти что все современные компании имеют внутренние корпоративные сети и поддерживают исполь- зование ППГФ и ИВБОЗ («Интернет»-протокол взаимодействия брокеров объектных запросов — Internet Inter-ORB Protocol, ПОР). Соответственно разрабатываемые для биоинформатики приложения должны как можно луч- ше соответствовать этим сетевым средам. Многие компании для успешно- го проведения исследований должны осуществлять интеграцию различных информационных и программных ресурсов. Большое число промышленных групп, принадлежащих к отрасли биоинформатики, выделяет значительные средства на развитие и обслуживание внутренних веб-серверов, которые дублируют услуги общедоступных веб-узлов служб биоинформатики. Две компании — «Нетджиникс» (NetGenics Inc.) и «Пангея системе» (Pangea Systems Inc.) — разработали биоинформатические системы, которые пред- лагают перспективу интеграции сервиса через сеть «Интранет». «СИНЕРДЖИ» Объектно-ориентированная система «СИНЕРДЖИ» (SYNERGY) — продукт «Нетджиникс» (штат Огайо, Кливленд) — включает в себя средства «Явы», ОАБОЗ и объектно-ориентированную базу данных и обеспечивает гибкую среду для управления проектами биоинформатики. «СИНЕРДЖИ» объединяет стандартные программы в единый пакет с помощью упаковщи- ков ОАБОЗа, которые создают упрощенный интерфейс между этими про- граммами и системой «СИНЕРДЖИ». Благодаря такому принципу разработ- чики могут легко и быстро включать в пакет ряд стандартных программ, а пользователи системы имеют возможность добавлять в него свои соб- ственные программы — посредством встроенных интерфейсных функций (упаковщиков) ОАБОЗа. «Пангея системе» Компания «Пангея системе» (штат Калифорния, Окленд) разработала программы «Джинмил» (GeneMill), «Джинуорлд» (GeneWorld) и «Джинте- заурус» (GeneThesaurus). Это ориентированные на работу в сети программы
5.6. Специализированные средства анализа 155 управления реляционными базами данных. В целом система «Пангея си- стеме» предназначена для управления проектами высокопроизводительного секвенирования и другими широкомасштабными проектами промышленной геномики. «Джинмил» — система управления базой данных о технологиче- ском процессе секвенирования (обеспечивает управление проектами секве- нирования); «Джинуорлд» — средство анализа последовательностей белков и ДНК; «Джинтезаурус» — служба подписки на опубликованные статьи и аннотации с описанием последовательностей, предоставляющая доступ к общественным и частным информационным ресурсам. Система построе- на по модульному принципу и позволяет легко создавать интерфейсы с кор- поративными системами, применяя для этого открытый программируемый интерфейс «ПУЛЬС» (PULSE — Pangea’s Unified Life Science Environment — единая биологическая среда «Пангеи»). Пакет «ЭМБОСС» Пакет «ЭМБОСС» (EMBOSS — European Molecular Biology Open Software Suite — открытый комплект программ европейских лабораторий молекулярной биологии) является объединенным набором программных па- кетов и отдельных программ анализа последовательностей. Он специально разработан для удовлетворения потребностей «Сенгеровского центра» и об- ществ пользователей сети европейских лабораторий молекулярной биоло- гии «ЕМБнет». В пакет входят приложения, обеспечивающие группировку ЯЭПов, быстрый поиск в базах данных по образцу последовательности, анализ регулярных комбинаций в последовательностях нуклеотидов, ана- лиз частот использования кодонов, опознавание генов и белковых мотивов. Пакет «Альфреско» Пакет «Альфреско» (Alfresco) — разработанное для сравнительного анализа геномов средство визуализации; для хранения и выборки дан- ных используется БД «ЭйсДБ». «Альфреско» позволяет сравнивать боль- шое число последовательностей подобных областей из геномов организмов различных биологических видов, а также визуально отображать результа- ты анализа, проводимого встроенными программами предсказания генов, поиска подобия, предсказания регулятивных последовательностей и т. д. Программа «ДАЛИ» Программу «ДАЛИ» (DALI — Distance matrix ALIgnment — вырав- нивание матриц расстояний) применяют для определения количества бел-
156 Глава 5 ков с образцами свертки, подобными таковым у структуры белка запроса. Эта программа написана Л. Холмом и С. Сандером. Она работает доста- точно быстро и позволяет осуществлять полный просмотр «БДБ» с целью поиска структур, подобных недавно определенной структуре, и, кроме того, выполнять классификацию структур белковых доменов по данным множе- ственного сравнения. Для удовлетворения потребностей ученого мира в эффективных авто- матизированных методах анализа данных имеется множество разнообраз- ных пакетов программ. Эти пакеты узко специализированы в отношении применяемого алгоритма и Moiyr быть легко загружены по сети в соответ- ствии с разносторонними запросами пользователя (см. табл. 5.2). 5.7. Пути использования баз данных Накопленная информация о биологических функциях отдельных по- следовательностей из геномов опытных организмов может быть исполь- зована для предсказания функций подобных генов у других организмов. Последовательность интересующего нас гена сравнивают с каждой после- довательностью из базы данных и подобные последовательности иденти- фицируют. Если последовательность запроса может быть легко выровнена с находящейся в базе данных последовательностью с известной функцией, структурой или биохимической активностью, то делают предположение, что последовательность запроса имеет ту же самую функцию, структуру или биохимическую активность. Если выравнивание последовательностей показывает более 50 % идентичности, то такое предсказание принято счи- тать достаточно правдоподобным. Основная цель поиска в базах данных (по последовательности запроса) состоит в том, чтобы найти гомологичный ген из генома другого организма. Так, ген, совпавший с последовательностью запроса с неизвестной функ- цией, может оказаться ключом к пониманию ее функции. И наоборот, по- следовательность запроса с известной функцией может быть использована для перебора последовательностей некоторого организма и отыскания гена, выполняющего аналогичную функцию. Приводим список адресов некоторых программных пакетов: GCG http://www.gcg.com/ EGCG http://www.sanger.ac.uk/software.EGCG/ Staden http://www.mrc-lmb.cam.ac.uk/pubseq/ NetGenics http://www.netgenics.com/ Pangea Systems http://www.pangeasystems.com/
5.7. Пути использования баз данных 157 Таблица 5.2. Наиболее популярные пакеты, предлагающие широкий набор средств анализа последовательностей ДНК и белков Пакет Возможности Staden Анализ последовательностей ДНК и белков. Имеет оконный интерфейс для рабочих станций «Юникс». GeneMill, GeneWorld, GeneThesaurus «Джинмил» — модульная система для управления технологи- ческими процессами секвенирования. «Джинуорлд» анали- зирует последовательности ДНК и белков. «Джинтезаурус» обеспечивает доступ к открытым и частным информацион- ным ресурсам. Lasergene Анализ кода, сопоставление регулярных комбинаций и участ- ков, структурный и сравнительный анализ РНК и ДНК, ана- лиз участков рестрикции, проектирование зондов и прайме- ров для ПЦР, редактирование последовательностей, сборка последовательностей, множественное и попарное выравнива- ние последовательностей, создание сетей и винтовых колес, поиск в базах данных. SYNERGY Объектно-ориентированный пакет, использует возможности «Явы», ОАБОЗ и объектно-ориентированную базу данных и обеспечивает гибкую среду управления проектами биоин- форматики. CINEMA «СИНЕМА» (Color INteractive Editor for Multiple Alignments — цветной диалоговый редактор множественных выравниваний) — написанный на «Яве» сетевой пакет, пред- лагающий средства опознавания мотивов, поиска в базах данных (с помощью «БЛАСТ»), визуального представления пространственных структур, построения точечных диаграмм * и профилей гидропатии, трансляции с шестью рамками. EMBOSS Пакет «ЭМБОСС» специально разработан для легкой инте- грации общедоступных программных пакетов и приложений для группировки ЯЭПов, анализа регулярных комбинаций в последовательностях нуклеотидов, анализа частот исполь- зования кодонов, опознавания генов и белковых мотивов и быстрого поиска в базах данных по образцу последователь- ности. EGCG Разработанная «Джинетикс компьютер груп» расширенная версия «ДКГ», включающая в себя более 70 программ сбор- ки фрагментов, картографирования, поиска в базах данных, множественного анализа последовательностей, распознава- ния регулярных комбинаций, анализа последовательностей нуклеотидов и белков, анализа эволюционных связей и т. д.
158 Глава 5 CINEMA http://www.biochem.ucl.ac.uk/bsm/dbbrowser/CINEMA2.1 EMBOSS http://www.sanger.ac.uk/Software/EMBOSS/ Alfresco http://www.sanger.ac.uk/Users/nic/alfresco.html Контрольные вопросы 1. Что такое база данных? 2. Какие типы баз данных вам известны? 3. Каковы, на ваш взгляд, функции баз данных? 4. Приведите примеры баз данных последовательностей нуклеиновых кислот. Для каких целей они созданы? 5. Каковы функции баз данных белковых последовательностей? Назовите несколько ресурсов. 6. Какие базы данных белковых последовательностей поддерживает «РИБ»? 7. Что такое базы данных структур? Приведите некоторые примеры. 8. Что такое библиографическая база данных? Дайте несколько примеров. 9. Что собой представляет «Виртуальная библиотека»? 10. Перечислите несколько специализированных пакетов анализа и укажи- те их возможности. 11. Что такое система управления базами данных? 12. Какие типы систем управления базами данных вам известны? 13. Что понимают под «информационной проходкой»? 14. Каковы задачи «Ансамбля»?
Глава 6 Выравнивание последовательностей Выравниванием последовательностей называют метод анализа подо- бий и различий на уровне отдельных оснований или аминокислот, который проводят с целью установления структурных, функциональных и эволюци- онных отношений между последовательностями. Простыми словами мож- но сказать, что это определение взаимного соответствия остатков; любое установленное соответствие, при котором сохраняется исходный порядок остатков в последовательностях, есть их выравнивание. Последовательности биологических макромолекул суть продукты мо- лекулярной эволюции. Если последовательности имеют некоторую общую предковую последовательность, то они, как правило, обнаруживают подо- бие в сочетаниях мономеров, структурах и биологических функциях. На- пример, если открыта новая последовательность с неизвестной функцией и при этом в базах данных могут быть найдены подобные ей последователь- ности с ранее установленными структурами и функциями, то выравнивание может стать основанием для предсказания функции или структуры этой но- вой последовательности. Выравнивание последовательностей — это процедура сравнения двух (попарное выравнивание) или нескольких (множественное выравнивание) последовательностей путем поиска рядов отдельных знаков или харак- терных комбинаций знаков, которые расположены в последовательностях в одинаковом порядке. При выравнивании пары последовательностей их помещают в две строки друг над другом. Идентичные, или подобные знаки передвигают таким образом, чтобы они стояли в соответствующих столб- цах. Неидентичные, или различные знаки либо помещают в одни и те же столбцы как несовпадения, либо располагают напротив пропусков, введен- ных во вторую последовательность. Появление высокопроизводительной технологии автоматического флу- оресцентного секвенирования ДНК привело к быстрому накоплению ин- формации о последовательностях и заложило основание для получения вы- числительными методами многочисленных данных о последовательностях белков. Анализ последовательностей ДНК (с помощью открытых рамок
160 Глава 6 считывания) может пролить свет на филогенетические отношения, поря- док участков рестрикции, наличие интронов, экзонов и кодирующих белки последовательностей, а также на особенности структур генов. 6.1. Алгоритм Алгоритмом называют всякую логически упорядоченную последова- тельность шагов, ведущих к выполнению задачи. Это набор правил для последовательного вычисления или решения задачи, который обычно вы- полняется компьютерной программой. Программа представляет собой ма- шинную реализацию (описание) алгоритма. Таким образом, алгоритм есть исчерпывающая и точная инструкция по способу решения задачи. Ниже приведены пять важных характеристик алгоритма. 1) Алгоритм должен останавливаться после выполнения конечного числа шагов. 2) Все шаги алгоритма должны быть точно описаны. 3) Формат входных данных алгоритма должен быть задан. 4) Формат выходных данных алгоритма должен быть указан. 5) Алгоритм должен быть эффективен (операции алгоритма должны быть элементарными). Генетический алгоритм Генетический алгоритм относится к классу алгоритмов обучения ма- шины, разработан специалистами по вычислительной технике и не имеет прямого отношения к биологии. Этот алгоритм строит выравнивания путем имитационного моделирования эволюционных изменений в последователь- ностях. 6.2. Цели и типы выравнивания Одна из целей выравнивания последовательностей состоит в том, что- бы определить степень подобия двух последовательностей и, если она до- статочно высока, сделать правдоподобное заключение об их гомологично- сти. При передаче генетической информации от предыдущего поколения следующему она несколько изменяется во время процесса копирования.
6.2. Цели и типы выравнивания 161 Изменения, которые происходят в процессе расхождения от общего предка, могут быть классифицированы на категории замен, вставок и уда- лений (выпадений). Эти изменения могут накапливаться от поколения к по- колению. По смене нескольких тысяч поколений в последовательностях может наблюдаться значительное число расхождений. Сравнение двух пред- положительно гомологичных последовательностей показывает степень их расхождения, то есть силу эволюционных изменений. Глобальное и локальное выравнивание Существует два типа выравнивания последовательностей: глобальное и локальное (см. рис. 6.1). В глобальном выравнивании делается попытка выровнять целые последовательности за счет помещения в соответствую- щие столбцы как можно большего числа идентичных знаков, вплоть до обоих концов каждой последовательности. В локальном варианте выравни- вают отдельные отрезки последовательностей с максимальной плотностью совпадений и таким образом получают один или несколько островков соот- ветствия (подвыравниваний) в пределах выравниваемых последовательно- стей. LGPSSKQTGKGSSRIWDN I I III I I глобальное LNITIKSAGKGAMRLGDA F Т G К G I I I локальное л lx rs выравнивание A (j К G Рис. 6.1. Различие гйежду глобальным (а) и локальным (б) выравниванием двух последовательностей Наиболее подходящими кандидатами на глобальное выравнивание яв- ляются последовательности с сильным подобием и приблизительно одина- ковой длиной. Локальное выравнивание лучше всего подходит для после- довательностей, на протяжении которых наблюдаются как подобные, так и различные отрезки, а также последовательностей, которые существенно отличаются по длине или составу и имеют общую консервативную область или домен. Изображенное на рис. 6.1 глобальное выравнивание распространено на всю длину последовательностей (до их концов включительно) и содер- жит в столбцах максимально возможное число совпадающих аминокислот.
162 Глава 6 Вертикальные черточки между последовательностями указывают совпаде- ния. Локальное выравнивание ограничено концами областей идентичности или сильного подобия. Предпочтение отдано обнаружению этих локальных областей. Известно два типа выравнивания: глобальное и локальное. Глобаль- ное выравнивание ищет подобие на всем протяжении последовательностей. Локальное выравнивание сосредоточивается лишь на отдельных областях подобия в некоторых частях последовательностей. С точки зрения биолога поиск локального подобия может дать более значимые и точные результаты, чем оценка выравнивания по всей длине по- следовательностей; это связано с тем, что функционально активные участки обычно расположены в пределах относительно коротких областей, которые остаются консервативными независимо от удалений или мутаций, происхо- дящих в промежуточных частях последовательности. Оптимальное выравнивание Оптимальным называют выравнивание с максимальным счетом, наи- большим числом соответствий и наименьшим количеством различий. Субоптимальное выравнивание — это условно оптимальное выравнивание, где наивысший счет находится ниже оптимального уровня. При оптималь- ном выравнивании неидентичные знаки и пропуски размещают так, чтобы в столбцах выравнивания было как можно больше идентичных, или подоб- ных знаков. Оптимальные выравнивания позволяют биологам выявлять эволюци- онные отношения последовательностей, предоставляя возможно лучшую информацию относительно того, которые знаки последовательностей долж- ны стоять в одних и тех же столбцах выравнивания, а которые являются вставками в одной из последовательностей (или соответственно выпаде- ниями в другой). Эта информация необходима для предсказания функций, структур и эволюционных отношений последовательностей по их выравни- ванию. Параметрическое сравнение последовательностей и статистический метод Бейеса Параметрическое сравнение последовательностей относится к машин- ным методам, которые применяют с целью поиска группы вариантов воз- можных выравниваний, получаемых при варьировании системы очков для оценки совпадений, несовпадений и пропусков. Есть также попытка исполь-
6.3. Изучение подобий 163 зовать такие системы назначения очков, чтобы глобальные и локальные вы- равнивания последовательностей приводили к непротиворечивым результа- там. Некоторые из программ, предназначенных для реализации этих функ- ций, — «Х-парал» (Xparal) и «Программа выравнивания блоков по методу Бейеса» (Bayes block aligner). Кроме того, статистические методы Бейеса применяют при построении выравниваний пар последовательностей и вы- числении расстояний между последовательностями. 6.3. Изучение подобий Поиск подобий последовательностей в базах данных дает нам воз- можность извлечь последовательности, которые являются подобными по- следовательности запроса. Извлеченная последовательность, для которой имеется функциональная и структурная информация, поможет нам пред- сказать структуру и функцию последовательности запроса. В общем слу- чае просмотр базы данных проводят с целью отыскания гомологов. Ско- рость и чувствительность поиска зависит не только от программы, но так- же и от аппаратных средств ЭВМ, от структуры просматриваемой базы данных и от длины целевой последовательности. При обычном просмотре базы данных последовательность запроса выравнивается с каждой после- довательностью базы данных. Выравнивание двух последовательностей называют попарным вырав- ниванием. Поиск подобия последовательностей предполагает сопоставле- ние последовательности запроса (называемой зондом или образцом) с пред- метной последовательностью (находящейся в базе данных). Отношения между ними могут быть определены количественно, что позволит оценить их подобие. Эволюционную связь между недавно расшифрованной после- довательностью и известным семейством генов устанавливают на основа- нии оценки степени их взаимного подобия. Если степень подобия низка, то такая связь считается лишь предположительной. Машинные алгоритмы динамического программирования реализуют методы поиска подобий, которые предполагают сопоставление последова- тельности запроса с предметной последовательностью, хранящейся в базе данных. Счет подобия вычисляется путем измерения близости между остат- ками (под близостью понимается число взаимно подобных нуклеотидных оснований или аминокислотных остатков, принадлежащих сравниваемым последовательностям). Алгоритм Нидлмена-Вунша применяют в глобальном выравнивании для поиска подобия последовательностей по всей их длине. Этот метод
164 Глава 6 основан на матричном исчислении. Алгоритм Смита-Уотермена использу- ют при локальном выравнивании для поиска подобия только в пределах некоторой части последовательностей. Это тоже матричный метод. Он ча- сто упоминается как эталонный тест для сравнения различных методов выравнивания. Попарное сравнение представляет собой фундаментальный процесс в анализе последовательностей. Последовательность состоит из букв, вы- бранных из алфавита. Сложность алфавита — 4 знака для ДНК и 20 знаков для белка. Иногда в алфавит вводят дополнительные знаки, предназначен- ные для указания степени неопределенности в идентичности некоторого остатка или основания. Простой подход к определению подобия между двумя последовательностями состоит в выстраивании последовательностей в линию, одну над другой, и вставке дополнительных знаков (пропусков) до тех пор, пока знаки в соответствующих позициях обеих строк не придут в соответствие (см. рис. 6.2). Последовательность а: О Р Q R S TUVW I I I I - I I I I Последовательность б: О Р Q R TUVW Рис. 6.2. Выравнивание двух последовательностей с введением пропусков. Верти- кальная черточка (|) указывает суперпозицию идентичных знаков, а горизонтальная черта (-) обозначает пропуск Пропуски и несовпадения Счет выравниванию можно назначить, подсчитав число столбцов, зна- ки в которых совпадают. Процесс выравнивания можно оценить по чис- лу введенных в последовательности пропусков и по числу оставшихся в них несовпадений. Полное выравнивание должно учитывать отношения всех остатков в обеих последовательностях. Это означает, что в позиции с неидентичными знаками, вероятно, придется поместить много пропусков. В таких случаях внесение пропусков в выравнивание становится много- кратным и выполняется по более сложной схеме. В результате алгоритмы производят выравнивания, содержащие довольно много совпадающих зна- ков и большое число пропусков. Хотя такое построение дает оптимальный счет и имеет математиче- ский смысл, его результат (выравнивание) оказывается биологически бес- смысленным, потому что вставка и выпадение мономеров — относитель-
6.3. Изучение подобий 165 но медленный эволюционный процесс. Алгоритмы метода динамического программирования налагают штрафы за пропуски, что позволяет макси- мизировать биологический смысл выравнивания. Простая система очков включает в себя одно очко (+1 балл) за каждую пару совпадающих знаков в выравнивании и штраф за пропуск (—1 балл) за каждый введенный про- пуск (применяют различные виды штрафов за пропуски: фиксированный штраф, пропорциональный штраф, а также линейный штраф, складываю- щийся из штрафа за введение и штрафа за продолжение пропуска). Следо- вательно, полный счет выравнивания есть разностная функция сумм очков за совпадения выровненных остатков и штрафов за пропуски. Расстояние Левенштейна (редактирующее расстояние) и Хеммингово расстояние Согласно концепции расстояния последовательности рассматриваются как точки в метрическом пространстве. Мерой расстояния является функ- ция, которая так же, как и мера подобия, присваивает численное значение паре последовательностей, но только на основании иного принципа: чем больше расстояние, тем меньше подобие (и наоборот). Меры расстояния обычно удовлетворяют математическим аксиомам метрики. В большинстве случаев меры расстояния и подобия взаимозаменимы — в том смысле, что маленькое расстояние означает высокое подобие, и наоборот. Счет выравнивания может быть измерен путем подсчета числа вве- денных пропусков и числа оставшихся несовпадений. Эти суммарные ве- личины отражают соответственно расстояние Левенштейна и Хеммингово расстояние. Расстояние Левенштейна (редактирующее расстояние) равно минимальному числу редактирующих операций, необходимых для преоб- разования одной строки (последовательности) в другую; редактирующая операция — удаление, вставка или замена отдельного знака в любой из вы- равниваемых последовательностей. Хеммингово расстояние между двумя последовательностями равной длины отражает число позиций с несовпадающими знаками. Поскольку в природе изменения разного вида происходят с неодинаковой вероятно- стью, постольку к различным редактирующим операциям желательно при- писывать переменные веса. В языке программирования «ПЕРЛ» текст (последовательности) запи- сывают в виде строк. Строки, как правило, заключают в одинарные или двойные кавычки (например: ‘это строка’). Расстояние между любыми дву- мя строками знаков может быть измерено и выражено как Хемминговым расстоянием, так и (редактирующим) расстоянием Левенштейна. Любая по-
166 Глава 6 следовательность редактирующих операций включает в себя уникальное выравнивание (но не наоборот!). Пример: agtc cgta ag-tcc cgctca Хеммингово расстояние = 2 расстояние Левенштейна = 3 Хеммингово и редактирующее расстояния измеряют различие двух по- следовательностей: подобные последовательности дают маленькие рассто- яния, а различные последовательности — большие. Совпадения с высоким и низким счетом Определенные варианты замены аминокислот имеют склонность к кон- серватизму, и поэтому замена одной аминокислоты другой с подобным раз- мером или физико-химическими свойствами более вероятна, нежели ее за- мена на аминокислоту с сильно отличающимися свойствами. В связи с этим для вычисления и подсчета очков выравниваний алгоритмы применяют различные меры расстояния. Подобные последовательности дают высокие счета, а различные последовательности — низкие. Алгоритм построения оптимального выравнивания может стремиться либо минимизировать меру различия (расстояние Левенштейна и Хеммингово расстояние), либо мак- симизировать функцию счета. Сравнение последовательностей обычно проводят по всей их длине, а полное выравнивание приводит к помещению большого числа остатков в позиции, которые не строго идентичны. Для биологически значимого срав- нения важно уравновешивать введение пропусков и максимизацию числа совпадений в идентичных позициях. Чтобы получить оптимальный счет, необходимо налагать штрафы, минимизирующие число пропусков, и штра- фы за продолжения, препятствующие продолжению этих пропусков. Одна из важных задач в анализе последовательностей состоит в про- ведении различий между совпадениями с высоким счетом, которые имеют только математический смысл, и биологически значимыми совпадениями, которые дают низкий счет. Применение Выравнивание последовательностей позволяет извлечь функциональ- ную, структурную и эволюционную информацию, зашифрованную в био-
6.4. Очки ЗА МУТАЦИИ, ВЫПАДЕНИЯ И ЗАМЕНЫ 167 логических последовательностях. Для получения этой информации важ- но построить возможно лучшее, или оптимальное выравнивание. Последо- вательности, которые показывают сильное подобие, вероятно, выполняют одинаковую функцию, будь это роль регулятора (в случае подобных молекул ДНК) или некоторая биохимическая функция (и подобная пространственная структура) — в случае белков. Кроме того, если две последовательности из геномов различных ор- ганизмов подобны, то считают весьма возможным существование общего предка этих последовательностей и приписывают им гомологичность. Вы- равнивание указывает изменения, предположительно произошедшие в двух гомологичных последовательностях при их расхождении от общей предко- вой последовательности в ходе эволюции. Поиск подобия в базах данных позволяет нам определить, какие из со- тен тысяч последовательностей, находящихся в базе данных, могут быть связаны с рассматриваемой последовательностью. Первое открытие по- добных последовательностей было совершено в 1983 году, когда Дулиттл и Уотерфилд узнали, что вирусный онкоген V-sis оказался видоизменен- ной формой нормального клеточного гена, который кодирует фактор роста тромбоцитов. Алгоритмы метода динамического программирования нахо- дят наилучшее выравнивание двух последовательностей для заданных мат- риц замен и принятой системы штрафов за пропуски. Довольно часто этот процесс оказывается весьма продолжительным. 6.4. Очки за мутации, выпадения и замены Случайные мутации приводят к заменам, выпадениям или вставкам нуклеотидов. В результате таких мутаций происходит замена остатка од- ной аминокислоты на остаток другой аминокислоты с весьма подобными физико-химическими свойствами, так что функция белка не затрагивается. Потеря белком своей функции обычно наносит вред всему организму. Следовательно, любое изменение сможет закрепиться, только если оно не оказывает вредного воздействия на структуру и функцию белка. Если изменение очень вредно для организма, то вызывающие его мутации пре- кратят распространяться в популяции, так как несущий их организм просто не сможет выжить. Поэтому львиная доля мутаций типа замены хорошо переносится белком. Замену, которая не затрагивает свойство или функцию белка, называют консервативной заменой. Обычно кодирующие белок гены эволюционируют намного медлен- нее, по сравнению с другими частями любого генома; это вызвано необхо-
168 Глава 6 димостью сохранять структуру и функцию белка. Эволюционные измене- ния, происходящие непосредственно в последовательности белка, тяготеют к заменам между аминокислотами с подобными свойствами, потому что вероятность нарушения структуры и функции белка при таких мутациях минимальна. В последовательностях белков, принадлежащих к одному эволюцион- ному семейству, обычно наблюдаются замены между аминокислотами с по- добными физико-химическими свойствами. Для назначения счетов заменам аминокислот применяют матрицу счетов замен. Кроме того, с помощью мат- рицы замен можно повысить чувствительность плохих выравниваний при сравнении белков. Матрица замен аминокислот Ученые обнаружили, что некоторые виды замен аминокислот обычно наблюдаются в родственных белках у организмов разных видов. Посколь- ку белок с этими заменами остается функционально активным, постольку очевидно, что замещающие аминокислоты совместимы с его структурой и функцией. Часто такие замены происходят между химически подобными аминокислотами, однако появляются также изменения другого вида, хотя относительно редко. Знание частот появления замещений всех типов, про- исходящих в различных белках (из большой выборки) может помочь в пред- сказании выравниваний любого набора белковых последовательностей. Если последовательности родственных белков вполне подобны, то их легко выровнять и можно без труда отследить все замены аминокислот, наступившие на последней стадии эволюции. Если наследственные отно- шения среди группы белков предварительно установлены, то могут быть предсказаны наиболее вероятные замены аминокислот, произошедшие в хо- де эволюции. Данный метод анализа был предложен и внедрен в научную практику Маргарет Дейхофф. Для этой цели применяют матрицы замен аминокислот, или табли- цы сравнения символов. Аминокислоты располагают вдоль верхней строки и вдоль левого столбца матрицы, и каждую ячейку матрицы заполняют значением счета, которое отражает частоту, с которой стоящие в соответ- ствующей строке и соответствующем столбце аминокислоты были бы сопо- ставлены друг с другом в выравнивании последовательностей родственных белков. Вероятность замены аминокислоты А на аминокислоту В всегда при- нимается равной обратной вероятности замены В на А. Это допущение сделано ввиду того, что для любых двух последовательностей аминокис-
6.4. Очки ЗА МУТАЦИИ, ВЫПАДЕНИЯ И ЗАМЕНЫ 169 лота предка в филогенетическом дереве обычно не известна. К тому же, правдоподобие замены должно зависеть как от произведения частот по- явления этих двух аминокислот, так и от их химического и физического подобия. В этой модели принято также допущение о том, что в рассматри- ваемом временном промежутке эволюции частоты появления аминокислот остаются постоянными. При вычислении счета выравнивания идентичным аминокислотам нужно давать большее значение, чем заменам, а среди замен — консерва- тивные замены должны получать больше очков, чем неконсервативные. Два популярных вида матриц — предложенные М. Дейхофф матрицы данных о мутациях (ДОМ) и изобретенные супругами Хеникофф матрицы блоч- ных замен (БЛОЗАМ) — были созданы для весовой оценки совпадений неидентичных остатков согласно наблюдаемым частотам замен на больших эволюционных расстояниях. Счет матрицы ДОМ базируется на понятии процентов точечных мутаций (ПТМ). Матрица процентов точечных мутаций (ПТМ) Эта матрица отражает правдоподобие замены одной аминокислотной последовательности на другую гомологичную последовательность белка в ходе эволюции. Матрицы ПТМ показывают изменения, ожидаемые в те- чение определенного периода эволюционного времени и сопровождаемые убывающим подобием последовательностей по мере того как гены, кодиру- ющие один и тот же белок, расходятся при увеличении времени эволюции. Таким образом, одна матрица дает ожидаемые замены в гомологичных бел- ках, которые за относительно короткий промежуток времени успели разой- тись друг от друга лишь на малое расстояние и сохранили не менее чем 50 % подобия. Другая матрица дает замены, ожидаемые у белков, кото- рые расходились в течение намного более длительного периода и оставили только 20 % подобия. Предсказанные таким образом изменения используют для построения оптимального выравнивания между двумя последовательностями белков и вычисления счета этого выравнивания. В данной эволюционной модели принято допущение о том, что замены аминокислот, наблюдаемые за корот- кие периоды эволюционной истории, могут быть распространены и на более длинные эволюционные расстояния. При получении матриц ПТМ каждую замену текущей аминокисло- ты в некотором рассматриваемом участке считают событием, не завися- щим от предыдущих мутаций в этом участке. Таким образом, вероят- ность замены некоторой аминокислоты на другую аминокислоту постоянна
170 Глава 6 и не зависит от предыдущих изменений на этом участке и также не за- висит от позиции исходной (дикой) аминокислоты в последовательности белка. Замены аминокислот в последовательности белка представляют в виде марковской модели, характеризуемой рядом изменений состояния системы, причем переход из одного состояния в другое не зависит от предыстории состояний. Использование этой модели позволяет экстраполировать замены аминокислот, наблюдаемые за относительно короткий период эволюцион- ного времени, на более длительные периоды. Для получения матриц ПТМ М. Дейхофф оценивала замены амино- кислот в группе эволюционирующих белков; при этом были отмечены 1572 замены в 71 группе последовательностей белков, которые были по- добны по крайней мере на 85%. Поскольку такого рода замены амино- кислот наблюдаются в близкородственных белках, они представляют собой мутации, которые не приводят к значительным изменениям функции белка. Поэтому их называют «принятыми мутациями», что следует понимать как замены аминокислот, «принятые» естественным отбором и закрепившиеся в популяции. Вначале подобные последовательности белков были организованы в филогенетическое дерево. Затем было подсчитано число замен каждой аминокислоты на каждую другую аминокислоту. Чтобы сделать эти числа пригодными для анализа последовательностей, была необходима инфор- мация об относительной изменчивости (подверженности заменам) каждой аминокислоты. Относительные мутабильности были оценены путем подсчета в каждой группе связанных последовательностей числа замен каждой аминокислоты и деления этого числа на величину, названную мутационной экспозицией аминокислоты. Этот фактор равен произведению частот всех замен, произо- шедших в 100 случайных позициях последовательностей из этой группы. Этот фактор нормализует данные для различных составов аминокислот, ча- стот мутации и длин последовательностей. Затем нормализованные частоты были просуммированы для всех групп последовательностей. Согласно этим подсчетам, аминокислоты аспарагин, серин, аспарагиновая и глутаминовая кислоты были наиболее мутабильными, а цистеин и триптофан — наименее изменчивыми. На основании вышеупомянутых частот замен аминокислот и значений их мутабильности была получена вероятностная матрица мутаций разме- ром 20 х 20, отражающая все возможные замены аминокислот. Поскольку замена каждой аминокислоты была смоделирована на марковской модели, где мутация в каждом участке независима от предыдущих мутаций, по-
6.4. Очки ЗА МУТАЦИИ, ВЫПАДЕНИЯ И ЗАМЕНЫ 171 стольку изменения, предсказанные для более отдаленно связанных белков, которые подверглись многим (7V) мутациям, также могут быть рассчитаны. Согласно этой модели матрицу 1 ПТМ можно умножить саму на себя N раз и получить матрицы переходов для сравнения последовательностей со все более и более низкими уровнями подобия ввиду расхождения в тече- ние более длительных периодов эволюционной истории (по мере возраста- ния N). Один ПТМ — единица эволюционного расхождения, при котором был замещен 1 % аминокислот (то есть одна точечная мутация на 100 остатков). Это вовсе не подразумевает, что при 100 ПТМ будут заменены все ами- нокислоты: некоторые позиции могут измениться несколько раз, некоторые могут даже возвратиться назад к исходной аминокислоте, а некоторые могут не измениться вовсе. Если бы в природе не происходил естественный отбор, то частоты всех возможных замен аминокислот главным образом зависели бы от частот появления этих аминокислот в последовательности (фоновые частоты). Однако наблюдаемые в родственных белках частоты замен (це- левые частоты) обусловлены заменами, которые не вызывают серьезных нарушений функции белка. Матрицы ПТМ обычно преобразуют в логарифмические матрицы шан- сов. Счет шансов представляет собой отношение шансов на замену амино- кислоты в соответствии с двумя различными гипотезами — первой, что изменение фактически отражает истинное эволюционное изменение в дан- ном участке (числитель), и второй, что замена произошла из-за случайного изменения последовательности и не имеет никакого биологического значе- ния (знаменатель). Отношения шансов преобразуют к логарифмам, чтобы получить логарифмические счета шансов; благодаря этому приему умноже- ние счетов шансов двух аминокислот в выравнивании удобно заменяется сложением их логарифмов. Каждая матрица ПТМ предназначена для вычисления счетов выравни- ваний между последовательностями, которые разошлись на заданную вели- чину эволюционного расстояния. Маргарет Дейхофф с сотрудниками впервые использовали подход ло- гарифмических шансов, при котором счета замен в матрице были пропор- циональны натуральному логарифму отношения целевых частот к фоновым частотам. Для оценки целевых частот необходимо исследовать пары тесно связанных последовательностей и набрать частоты мутаций, соответствую- щие 1 ПТМ, после чего эти данные можно экстраполировать на расстояние 250 ПТМ. (Обратите внимание, что матрицы ПТМ получают путем подсчета наблюдаемых эволюционных изменений в последовательностях близкород- ственных белков и последующей экстраполяции отмеченных вероятностей
172 Глава 6 переходов на более длинные эволюционные расстояния.) Таким образом, в принципе возможно получить матрицы ПТМ для любого эволюционного расстояния, но на практике наиболее часто применяют матрицы 120 ПТМ и 250 ПТМ; для построения достаточно достоверных выравниваний из этих двух следует выбирать матрицу 250 ПТМ. Матрицы блочных замен аминокислот (БЛОЗАМ) Для вычисления счета выравниваний последовательностей белков ча- сто используют матрицу блочных замен 62 БЛОЗАМ. Значения элементов матрицы отражают замены аминокислот, отмеченные в большой выборке (более 2000) консервативных регулярных комбинаций аминокислот, назы- ваемых блоками. Эти блоки были найдены в базе данных белковых по- следовательностей, содержащей более 500 семейств родственных белков, и выполняют роль сигнатур этих семейств белков. В отличие от матриц ПТМ, предложенных Маргарет Дейхофф, матрицы БЛОЗАМ основаны на совершенно ином методе анализа последовательностей и требуют намного большего объема выборки данных. Каталог «Просайт» содержит списки белков, причисленных к опре- деленным семействам на основании подобных биохимических функций. Для каждого семейства известна регулярная комбинация аминокислот, ха- рактерная для присущей его членам функции. Стивен и Иёрья Хеникофф исследовали все семейства «Просайта» на присутствие непрерывных ком- бинаций аминокислот (блоков), которые были обнаружены в каждом се- мействе и могли бы использоваться в качестве общего для членов этого семейства опознавательного признака. Для определения местоположения этих комбинаций последовательно- сти из каждого семейства белков были исследованы на предмет наличия по- добных групп аминокислот — с помощью программы «МОТИВ» (MOTIF). Затем посредством написанной С. и И. Хеникофф программы «ПРОТО- МАТ» (PROTOMAT) эти исходные группы были организованы в более крупные непрерывные комбинации (блоки) длиной от 3 до 60 аминокислот (адрес программы: www.blocks.fhcrc.org). Поскольку эти блоки присутство- вали во всех последовательностях каждого семейства, они могли бы ис- пользоваться для опознавания новых членов этих семейств. Таким образом, коллекции семейств были дополнены путем поиска (в базах данных после- довательностей) новых белков с подобными консервативными блоками. Эти блоки, характеризующие каждое семейство, обеспечили уникаль- ные множественные выравнивания последовательностей для этих семейств. После их построения в каждом столбце выравнивания было подсчитано чис-
6.5. Методы выравнивания последовательностей 173 ло замен аминокислот. Затем каждому типу замен был назначен счет для всех выровненных блоков из базы данных, и эти счета были использова- ны для получения матрицы счетов, а именно матрицы БЛОЗАМ, отразив- шей частоты всех типов произошедших замен. Значения элементов матрицы БЛОЗАМ представляли собой логарифмы счетов шансов — отношения на- блюдаемых частот блочных замен аминокислот к ожидаемым случайным частотам. Однако следует иметь в виду, что подобная процедура подсчета всех за- мен аминокислот в блоках может привести к избыточному представлению тех замен аминокислот, которые происходят в наиболее тесно связанных членах каждого семейства. Чтобы уменьшить этот преобладающий вклад наиболее подобных последовательностей, такие последовательности были сгруппированы (в общие крупные последовательности), после чего были назначены счета заменам аминокислот в выровненных блоках. Числа замен аминокислот в пределах этих групп последовательностей были усреднены. Затем группировали блоки по идентичности и получали матрицы замен: из идентичных на 60 % блоков — 60 БЛОЗАМ, из подобных на 80 % блоков — 80 БЛОЗАМ и так далее. В отличие от матриц ПТМ, матрицы БЛОЗАМ от- ражают счета замен, отмеченные для целого ряда эволюционных периодов. Подобно матрицам ПТМ, матрицы БЛОЗАМ тоже основаны на кон- цепции целевых частот мутаций. При получении матриц БЛОЗАМ частоты мутаций определяют с помощью поиска в базе данных «Блоки», а числа, присвоенные матрицам БЛОЗАМ, не имеют той же самой интерпретации, как в случае матриц ПТМ. При получении матриц БЛОЗАМ любая по- грешность, потенциально вносимая при подсчете многократного вклада от идентичных пар остатков, устраняется путем группировки сегментов после- довательностей на основе их минимального тождества, выраженного в про- центах. Здесь фактически группы рассматриваются как отдельные после- довательности. Блоки содержат локальные множественные выравнивания отдаленно связанных последовательностей (в противовес тесно связанным последовательностям, используемым в ПТМ). По сути, матрица БЛОЗАМ представляет собой эволюционную модель в матричной форме, так как ее получают из прямых данных, а не из экстраполированных значений, как в случае матриц ПТМ. 6.5. Методы выравнивания последовательностей Подобия между последовательностями можно изучать с помощью раз- личных методов, как-то: метод точечных диаграмм, алгоритмы метода ди-
174 Глава 6 намического программирования (например алгоритмов Нидлмена-Вунша и Смита-Уотермена), а также методы слов, или /с-кортежей (например реа- лизованных в программах «ФАСТА» и «БЛАСТ»). Для выравнивания двух последовательностей (попарного выравнива- ния) применяют следующие методы: 1) Анализ точечной матрицы. 2) Алгоритм метода динамического программирования (ДП). 3) Методы слов, или Ажортежей (например используемых в программах «ФАСТА» и «БЛАСТ»). Выравнивание трех и более последовательностей выстраивают с помо- щью методов множественного выравнивания последовательностей. Можно рекомендовать следующие методы: 1) «Профили», 2) «Блоки», 3) «Индика- торы», 4) «ПСИ-БЛАСТ» и 5) скрытые марковские модели (СММ). 6.6. Попарное выравнивание Точечная матрица Анализ точечной матрицы — это прежде всего метод сравнения двух последовательностей с целью поиска возможного выравнивания знаков этих последовательностей. Кроме того, к этому методу обращаются при поиске прямых или обратных повторений в последовательностях белков и ДНК, а также для предсказания таких областей в РНК, которые являются само- комплементарными и, следовательно, имеют потенциал для формирования вторичной структуры. Главное преимущество метода точечных матриц при поиске выравнива- ний последовательностей состоит в том, что он позволяет найти все возмож- ные совпадения остатков между двумя последовательностями и предостав- ляет исследователю возможность выбора самых ценных из них. Затем мо- гут быть определены последовательности хорошо выровненных областей — уже с помощью других методов выравнивания последовательностей (на- пример динамического программирования). Выравнивания, производимые этими программами, могут быть сопоставлены с выравниванием по точеч- ной матрице; такое сличение покажет, совпадают ли самые длинные области и расположены ли вставки и удаления в наиболее подходящих местах. Точность определения совпадающих областей может быть повыше- на за счет отфильтровывания случайных совпадений, найденных в то-
6.6. Попарное выравнивание 175 чечной матрице. Фильтрация выполняется с помощью скользящего окна, позволяющего сравнивать эти две последовательности одновременно. Иден- тификацию выравниваний последовательностей с помощью метода точеч- ных матриц можно проводить путем подсчета точек на всех возможных диагоналях матрицы (чтобы определить статистически, какие диагонали дают больше всего совпадений) и последующего сравнения счетов этих совпадений с результатами произвольного сравнения последовательностей. Анализ точечных матриц может быть полезен также для поиска пря- мых и обратных повторений в последовательностях. Например, могут быть обнаружены повторные области, распределенные по всей длине хромосом. Путем построения выравниваний последовательностей методами динами- ческого программирования могут быть найдены прямые повторения. Ана- лиз точечных матриц дает возможность выявить присутствие повторений одного и того же знака в последовательности. Метод точечных матриц показывает любые возможные выравнивания последовательностей в виде диагоналей матрицы. Анализ точечной мат- рицы может легко показать присутствие вставок или удалений, а также прямых и обратных повторений, которые гораздо труднее найти другими, пусть даже более автоматизированными методами. Точечная диаграмма представляет собой простой визуальный подход к сравнению двух последовательностей. Это таблица, или матрица. Она да- ет простое наглядное представление о характере эволюционной связи между двумя последовательностями. Две сравниваемые последовательности откла- дывают на X и Y осях диаграммы. В каждой клетке, где соответствующее основание или остаток на одной оси совпадают с основанием или остатком на другой оси, ставят точку. Диаграмма характеризуется некоторыми явно случайными точками и центральной диагональю, где высокая плотность сгруппированных* точек указывает области наибольшего подобия между этими двумя последовательностями (см. рис. 6.3). Динамическое программирование Динамическое программирование — это вычислительный метод, ко- торый применяют для выравнивания двух последовательностей белков или нуклеиновых кислот. Данный метод очень важен для анализа после- довательностей, потому что он обеспечивает возможно лучшее, или опти- мальное выравнивание между последовательностями. Основанный на этом методе алгоритм сравнивает каждую пару знаков в паре последовательностей и строит выравнивание. Такое выравнивание будет содержать совпадающие и несовпадающие знаки, а также пропуски
176 Глава 6 МТ FRDLLSVS FEGPRPDSSAGGSSAGG Рис. 6.3. Иллюстрация метода построения диаграммы точечной матрицы: простая матрица сопоставления остатков; в клетках, находящихся на пересечении иден- тичных остатков, стоят знаки «х». (Источник: Atwood, Т. К. and Parry-Smith, D. J., Introduction to Bioinformatics, Pearson Education ltd., 2001) в обеих последовательностях, которые размещены так, чтобы число сов- падений между идентичными, или связанными знаками было возможно максимальным. Алгоритм динамического программирования обеспечивает надежную вычислительную базу для выравнивания последовательностей белков и ДНК. Путем несложного видоизменения основного алгоритма ме-
6.6. Попарное выравнивание 177 года динамического программирования можно получить его варианты для глобального и локального видов выравнивания. Программа глобального выравнивания построена на алгоритме Нидл- мена-Вунша, а программа локального выравнивания — на алгоритме Сми- та-Уотермена. Другая особенность алгоритма динамического программи- рования состоит в том, что полученные выравнивания зависят от выбранной системы сравнения пар знаков и назначения штрафов за пропуски. Напри- мер, самая простая система сравнения последовательностей белка основана на идентичности знаков. Совпадение в выравнивании награждается только тогда, когда две выровненные аминокислоты идентичны. Метод динамического программирования, применявшийся для гло- бального выравнивания последовательностей Нидлменом и Вуншем и для локального выравнивания Смитом и Уотерменом, дает одно или несколько выравниваний последовательностей. Алгоритм начинает строить выравни- вание с левых концов этих двух последовательностей и, согласно заданной системе очков за совпадения, несовпадения и пропуски, пытается привести в соответствие все возможные пары знаков из выравниваемых последова- тельностей. Эта процедура производит матрицу чисел, которая представляет все возможные выравнивания между последовательностями. Набор с макси- мальной суммой счетов последовательных элементов матрицы определяет оптимальное выравнивание. Метод динамического программирования га- рантирует (в математическом смысле) построение оптимального выравни- вания для данного набора определенных пользователем переменных, поми- мо прочего задающих тип матрицы счетов и параметры системы штрафов за пропуски. При глобальном выравнивании последовательностей с помощью про- граммы Нидлмена^Вунша, основанной на методе динамического програм- мирования, оптимальный счет в каждом элементе матрицы рассчитывается путем прибавления счета текущего совпадения к сумме счетов ранее вы- численных элементов и вычитания штрафов за пропуски. Каждый элемент матрицы может иметь положительный, отрицательный или нулевой счет. Алгоритм Нидлмена-Вунша максимизирует число совпадений знаков по всей длине последовательностей. В том случае, когда имеется дополни- тельная последовательность, отложенная до послевыравнивания, допускает- ся введение пропусков также на концах последовательностей. Эти крайние пропуски вводятся довольно часто, но не всегда, — в зависимости от вы- бранной системы штрафов за пропуски. Локальное выравнивание последовательностей (построенное програм- мой Смита-Уотермена, основанной на методе динамического программиро-
178 Глава 6 вания) показывает локальные совпадения с наивысшим счетом между дву- мя последовательностями и дает более значимые совпадения, чем таковые в глобальном выравнивании. При этом выделяются регулярные комбинации мономеров — консервативные области последовательностей. Локальное вы- равнивание стремится быть короче и может не включать в себя много про- пусков. Если выбрать систему очков соответственно мере расстояния, то ме- тод динамического программирования можно применять для построения выравнивания, отражающего эволюционные изменения. В таком случае выравнивания будут оцениваться на основе различий между самими по- следовательностями и между знаками этих последовательностей, то есть количества изменений, необходимых для преобразования одной последова- тельности в другую. Чем больше расстояние между последовательностями, тем больше времени (в ходе эволюции) прошло с момента расхождения этих последовательностей от общего предка. Слово, или fe-кортеж Методы слов, или /с-кортежей, реализованы в алгоритмах программ «ФАСТА» и «БЛАСТ». Они выравнивают две последовательности очень быстро: сначала находят короткие идентичные отрезки последовательно- стей, называемые слова или fc-кортежи, после чего объединяют эти слова в выравнивание по методу динамического программирования. Методы слов достаточно быстрые и позволяют просматривать полную базу данных при поиске предметной последовательности, которая дает наилучшее вырав- нивание с последовательностью запроса. Алгоритмы программ «ФАСТА» и «БЛАСТ» являются эвристическими, то есть основанными на эмпириче- ских методах машинного программирования, в которых решение находится по установленным опытным путем правилам и используется обратная связь для уточнения результата. Основная операция при поиске в базе данных — выравнивание по- следовательности запроса с каждой предметной последовательностью базы данных; и если эвристические методы позволяют выполнить эту операцию значительно быстрее, то лучше применять именно их, а не алгоритмические методы динамического программирования. «ФАСТА» Программа «ФАСТА» обеспечивает как высокий уровень чувствитель- ности, так и большую скорость поиска подобия. Чувствительность дости-
6.6. Попарное выравнивание 179 гается за счет реализованных в программе «ФАСТА» алгоритмов оптими- зированного локального выравнивания и анализа матрицы замен. Сначала «ФАСТА» подготавливает список слов, выбранных из пары сравнивае- мых последовательностей. Слово есть не что иное, как строка из 3-6 ну- клеотидов или 1-2 аминокислот. При этом слова не должны перекры- ваться. Затем программа сопоставляет слова и ведет подсчет совпаде- ний. Подобно построению диаграммы и вычислению счета точечной мат- рицы, «ФАСТА» создает диагональ из слов, находит совпадение с возмож- но высоким счетом и помечает результат (совпадение слов) как элемент № 1. Если максимальный счет оказывается достаточно большим, програм- ма переходит ко второму уровню. На втором уровне для каждого лучшего совпадения слов производится поиск соседних приблизительных совпаде- ний, и если значение счета удовлетворительно, то программа объединяет короткие сегменты элемента № 1, строит из них более длинную диагональ точечной матрицы и вычисляет счет после включения пропуска и оценки штрафа. Наилучший счет из счетов второго уровня называют НЧ — начальным числом. «ФАСТА» сохраняет счета НЧ, вычисленные для всех сравнений последовательности запроса с предметной последовательностью. После то- го как все последовательности базы данных проверены, последовательно- сти, которые дают максимальные счета НЧ, используются для построения (с помощью алгоритма Смита-Уотермена) локального выравнивания с воз- можно оптимальным счетом. Файл данных в формате «ФАСТА» включает в себя строку-титр (за- головок) и строки данных о последовательности. Описание последователь- ности следует за строкой-титром, в начале которой стоит знак «>». Первое слово в этой строке — название последовательности, далее идет описание последовательности. Остальные строки содержат саму последовательность. При чтении файла данных программа «ФАСТА» игнорирует пустые строки, а также все знаки пробелов или пропусков в последовательности. Файл, объ- единяющий в себе множество последовательностей, построен по тому же принципу; строки, содержащие описание последовательностей, идут друг за другом. Формат «ФАСТА» принят во многих программах множественного выравнивания последовательностей. «БЛАСТ» Программа «БЛАСТ» (BLAST — Basic Local Alignment Search Tool — основное (программное) средство поиска локальных выравниваний) была
180 Глава 6 написана Альтшулем с сотр. в 1990 году. Благодаря своей эффективности и развитому статистическому аппарату, она снискала себе широкую попу- лярность. Алгоритм программы «БЛАСТ» основан на допущении о том, что выравнивания с высоким счетом, весьма вероятно, содержат короткие отрезки идентичных или почти идентичных знаков. Эти короткие отрезки называют словами. Первый шаг «БЛАСТ» — поиск слов некоторой установленной дли- ны W со счетом выше некоторого порога Т. Величина W обычно равна 3 для последовательностей белка и 11 для последовательностей нуклеиновых кислот. Вначале «БЛАСТ» выбирает слово из последовательности запро- са и продолжает удлинять его в обоих направлениях, сопоставляя с целе- вой последовательностью и одновременно подсчитывая счета совпадений и несовпадений, а также штрафы за введение и продолжение пропусков. Продолжение слова производится до тех пор, пока не будет достигнут неко- торый предел S. «БЛАСТ» продолжает отдельные пары совпадающих слов до тех пор, пока полный счет выравнивания не снижается от максимальной величины до некоторого порога; в качестве результата программа выдает пары сегментов с высоким счетом. «БЛАСТ» — это эвристический алгоритм поиска, реализованный в раз- личных программах пакета «БЛАСТ»: «БЛАСТП» (BLASTP), «БЛАСТН» (BLASTN), «БЛАСТХ» (BLASTX), «ТБЛАСТН» (TBLASTN), «ТБЛАСТХ» (TBLASTX) и «ПСИ-БЛАСТ» (PSI-BLAST). «БЛАСТП» сравнивает ами- нокислотную последовательность запроса с предметными последователь- ностями из базы данных белка. «БЛАСТН» сравнивает запрашиваемую по- следовательность с предметными из базы данных нуклеотидных последова- тельностей. «БЛАСТХ» сравнивает результаты машинной смысловой ТШР, т. е. трансляции с шестью рамками (обеих нитей) последовательности за- проса нуклеотидов с содержимым базы данных последовательностей бел- ков. «ТБЛАСТН» сравнивает белковую последовательность запроса с по- следовательностями из базы данных нуклеотидных последовательностей, динамически транслируемых с шестью рамками считывания (обе нити). «ТБЛАСТХ» сравнивает продукты ТШР нуклеотидной последовательно- сти запроса с ТШР последовательностей из базы данных последовательно- стей нуклеотидов. «ПСИ-БЛАСТ» сравнивает аминокислотную последова- тельность запроса с предметными последовательностями из базы данных белка. Программы «ФАСТА» и «БЛАСТ» реализуют главным образом методы поиска локального подобия, которые тяготеют к обнаружению коротких идентичных отрезков, в сумме дающих полное выравнивание.
6.7. Множественное выравнивание последовательностей 181 6.7. Множественное выравнивание последовательностей Множественным называют выравнивание двух и более последователь- ностей. Групповой анализ последовательностей, входящих в семейства ге- нов, предполагает установление связей между более чем двумя членами группы, что позволяет выявить скрытые консервативные характеристики семейства. Цель множественного выравнивания последовательностей состоит в том, чтобы произвести краткую, но исчерпывающую характеристику дан- ных о структуре последовательностей, на основании которой можно будет принять решение о принадлежности этих последовательностей к рассмат- риваемому семейству генов. По сравнению с попарным, множественное вы- равнивание дает больше информации об эволюционной консервативности. Для того чтобы множественное выравнивание было максимально информа- тивным, оно должно содержать равномерную выборку близко и отдаленно связанных последовательностей. Для построения оптимального множественного выравнивания после- довательностей в соответствующие столбцы сводят как можно больше по- добных знаков. Множественное выравнивание группы последовательностей может обеспечить информацию о наиболее подобных областях, присущих этой группе. В белках такие области могут быть представлены консерва- тивными доменами — функционально активными или структурными. Если известна структура одного или нескольких членов выравнивания, то иногда возможно предсказать, какие аминокислоты образуют подобные пространственные отношения в структуре других белков-членов вырав- нивания или какие гены занимают те же участки в последовательностях членов-нуклеиновых кислот. Множественное выравнивание последователь- ностей применяют' также для предсказания зондов, специфичных к другим членам группы, или для открытия семейства подобных последовательно- стей — из одного или разных организмов. Для построения множественных выравниваний последовательностей существует несколько методов, как-то: «Профили», «Блоки», «Индикато- ры» и т. д. «Профили», например, использует подход весовых матриц для суммирования целого выравнивания. «Блоки», например, ищет в пределах выравниваний консервативные, не содержащие пропусков, блоки аминокис- лотных остатков и затем преобразует эти блоки к позиционным матрицам счетов. «Индикаторы», например, позволяет вручную извлечь из выравниваний относительно короткие непрерывные высокоспецифичные мотивы и полу-
182 Глава 6 чить из них невзвешенные матрицы счетов. Все эти методы используют такие приемы, как выравнивание всех пар последовательностей, выравни- вание последовательностей в произвольном порядке или выравнивание по- следовательностей в порядке ветвления филогенетического дерева. Высокая продуктивность методов анализа множественного выравни- вания последовательностей обусловлена их способностью сопоставлять родственные последовательности из геномов различных видов организмов и выражать степень подобия в относительно сжатом формате. К настоящему времени создано большое число баз данных множественных выравниваний с открытым доступом по сети. Ключевые шаги Ключевые шаги в построении множественного выравнивания следую- щие. 1) Посредством поиска в базах данных или иным способом найти после- довательности для выравнивания. 2) В каждой последовательности определить область для включения в вы- равнивание. 3) Оценить подобия последовательностей из набора — путем их попарно- го сравнения в произвольном порядке. 4) Запустить программу множественного выравнивания. 5) Вручную проверить выравнивание на наличие проблемных участков. 6) Удалить последовательности, которые, насколько можно судить, се- рьезно нарушают выравнивание и затем повторно выровнять поднабор оставленных последовательностей. 7) В наборе хорошо выравнивающихся последовательностей определить ключевые остатки и попытаться по очереди добавить к выравниванию отложенные последовательности, не нарушив выравнивание ключевых остатков, кодирующих основные характеристики семейства. Методы К настоящему времени были разработаны разнообразные методы, по- средством которых множественное выравнивание последовательностей из- вестных белков можно применять для идентификации родственных по- следовательностей при поиске в базах данных. К некоторым из наиболее
6.7. Множественное выравнивание последовательностей 183 важных методов относятся: «Профили», «Блоки», «Индикаторы», «ПСИ- БЛАСТ» и «Скрытые марковские модели» («СММ»). «Профили» Как правило, белки с подобной функцией имеют в своей структуре общий идентичный мотив. Поэтому предсказание мотивов намного полез- нее, чем поиск глобального подобия первичных последовательностей бел- ков. Белки, обладающие подобными или сравнимыми функциями, весьма вероятно, являются производными формами общего белка-предка. Очень часто их последовательности (особенно мотивы) показывают некоторую степень подобия. Выравнивание последовательностей обычно позволяет обнаружить семейства родственных белков. Такой вид множественного вы- равнивания нередко называют профилем. Профиль выявляет регулярные комбинации, присутствующие во мно- жественном выравнивании гомологичных последовательностей. Эти комби- нации имеют большое значение: • Они дают более высокую точность в выравниваниях отдаленно связан- ных последовательностей. • Группы высококонсервативных остатков (весьма вероятно) входят в структуру активного участка белка и дают ключи к его функции. • Консервативные регулярные комбинации облегчают опознавание гомо- логичных последовательностей из других групп. • Регулярные комбинации в последовательностях полезны в классифи- кации подсемейств в группе гомологов. • Группы остатков, которые показывают малую консервативность и под- вержены вставкам и выпадениям, являются достаточно верными при- знаками антител, легко вступающих в перекрестную реакцию с при- родной структурой. • Методы предсказания структуры, основанные на множественном вы- равнивании последовательностей, являются более надежными, чем ме- тоды, построенные на анализе единственной последовательности. На- пример, моделирование гомологий кардинально зависит от построения правильного выравнивания последовательностей. Регулярные комбинации, отраженные в профилях, являются хорошим средством обнаружения гомологий; для этого последовательности запроса из базы данных сравнивают с последовательностями из таблицы выравни-
184 Глава 6 вания и приписывают высокие веса к консервативным позициям и низкие — к изменчивым. В базе данных «Профили» находится сводная информация о полных выравниваниях последовательностей, представленная в форме таблиц сче- тов, или профилей. Профили показывают, какие остатки могут находиться в данных позициях, какие позиции сильно консервативны, а которые — вырождаются, а также какие позиции или области допускают вставки. После построения множественного выравнивания последовательно- стей алгоритм находит в нем сильно консервативную область и произво- дит матрицу счетов определенного вида, называемую профилем. Профиль содержит счета замен аминокислот и штрафы за пропуски (совпадения, несовпадения, вставки, выпадения) в каждом столбце консервативной об- ласти и организован таким образом, что всегда можно построить и оценить выравнивание этой области с некоторой новой последовательностью. «Блоки» Понятие блока выведено из понятия мотива — консервативного отрез- ка аминокислотной последовательности, который придает белку определен- ную функцию или структуру. Если мотивы белков из некоторого семейства выровнены без введения пропусков в последовательности, то мы получаем блоки. Находящиеся в базе данных «Блоки» консервативные мотивы, или бло- ки, обнаружены путем отыскания рассеянных триплетов остатков, а счет этих блоков рассчитан с помощью матриц 62 БЛОЗАМ. Достоверность найденных этим методом блоков подтверждена вторым алгоритмом поиска мотивов, основанным на принципе поиска набора блоков, имеющего наи- высший счет, блоки в котором стоят в правильном порядке и без перекры- тия. Блоки из одного семейства преобразованы к позиционным матрицам, которые могут быть использованы при проведении независимых сеансов поиска в базах данных. Подобно профилю, блок представляет собой определенную консер- вативную область во множественном выравнивании последовательностей. Блоки отличаются от профилей отсутствием вставок и удалений в своих по- следовательностях. Каждый столбец содержит только совпадения и несов- падения (замещенные позиции без пропусков). «Индикаторы» Во множественных выравниваниях последовательностей довольно ред- ко случается найти более одного мотива, характеризующего выровненное
6.7. Множественное выравнивание последовательностей 185 семейство. С точки зрения диагностики имеет смысл использовать несколь- ко или сразу все консервативные области, чтобы создать сигнатуру, или индикатор, и за счет этого обеспечить более высокий шанс опознавания от- даленного родственника (при поиске в базах данных), который, к тому же, не зависит от того, все ли части сигнатуры совпадают. Индикаторы белков — это группы мотивов, представляющие собой наиболее консервативные об- ласти множественных выравниваний последовательностей. «ПСИ-БЛАСТ» «ПСИ-БЛАСТ» (PSI-BLAST — Position Specific Iterated-BLAST - пози- ционный итерационный «БЛАСТ») включает в себя элементы методов по- парного и множественного выравнивания последовательностей. Программа «ПСИ-БЛАСТ» предназначена для поиска (в базах данных) предметных последовательностей, подобных последовательности запроса. Сначала про- грамма производит последовательный поиск. Затем она выводит информа- цию о регулярных комбинациях, обнаруженных во множественном вырав- нивании последовательностей первичных совпадений, и проводит повтор- ный поиск в базе данных, используя регулярную комбинацию в качестве запроса. После этого программа повторяет этот процесс, уточняя регуляр- ную комбинацию в последующих циклах. После начального поиска в базе данных «ПСИ-БЛАСТ» автоматически создает позиционные профили из групп результатов со степенью совпаде- ния с запросом выше установленного порога. При многократном прогоне программа уточняет профиль и повышает чувствительность поиска. «смм» «Скрытые марковские модели» («СММ») — метод статистических мо- делей, в котором для построения выравнивания набора последовательно- стей рассматриваются все возможные комбинации совпадений, несовпаде- ний и пропусков. Кроме того, с помощью «СММ» может быть смоделиро- вана обнаруженная область подобия, содержащая вставки и выпадения. Скрытая марковская модель (СММ) — это вероятностная модель, ко- торая включает в себя множество взаимосвязанных состояний. Это су- щественно линейная цепь состояний совпадения, удаления или вставки, которая может быть использова для кодирования консервативной обла- сти последовательностей во множественных выравниваниях. База данных «Пфам» содержит большое число наборов СММ. СММ — это вычислительная структура, применяемая для описания неявных регулярных комбинаций, которые характеризуют семейства гомо-
186 Глава 6 логичных последовательностей. СММ являются мощными инструментами для обнаружения отдаленно родственных последовательностей и для пред- сказания образцов свертки белков. Метод «СММ» дает возможность вво- дить в моделируемую последовательность пропуски и назначать зависимые от позиций штрафы за их введение. Кроме того, этот метод параллельно выполняет выравнивание и вероятностную оценку. Автоматическое выравнивание Ядро анализа последовательностей образует множественное вырав- нивание. Следовательно, важнейшим инструментом аналитика последо- вательностей является редактор выравниваний. Имеется несколько про- грамм автоматического выравнивания, как в автономной форме (например «КЛАСТЭЛ-В»), так и в виде компонентов крупных программных пакетов (например программы «Пайлап» (Pileup) в пакете «ДКГ»). Но автоматиче- ски построенные выравнивания почти неизменно требуют более или менее значительного ручного редактирования — для удаления ложных пропусков, восстановления пар остатков-вдов или исправления неправильно выров- ненных участков. Эта операция часто оказывается проблематичной, так как к настоящему времени не разработан стандартный формат выравниваний. Следовательно, обмен данными между программами выравнивания по- чти невозможен без использования специальных сценариев для согласова- ния взаимно несоответствующих входных и выходных форматов. Появление «Явы» — объектноориентированного языка программирования сетевых за- дач — помогло решить некоторые из этих проблем. Совместимые с «Явой» обозреватели могут запускать апплеты на самых разных платформах; аппле- тами называют маленькие прикладные программы, запускаемые с сервера через веб-страницы, в исходный текст которых они встроены; программное обеспечение загружается непрерывно с сервера и помещается обозревате- лем в буфер на время сессии. «КЛАСТЭЛ» Программа «КЛАСТЭЛ» (CLUSTAL) строит глобальное множествен- ное выравнивание последовательностей, разделяя этот процесс на следую- щие шаги: 1) Построение попарных выравниваний всех последовательностей. 2) Построение филогенетического дерева на основании счетов этих вы- равниваний.
6.7. Множественное выравнивание последовательностей 187 3) Выравнивание последовательностей в порядке очереди и согласно фи- логенетическим отношениям в построенном дереве. Принятый в «КЛАСТЭЛе» подход основан на допущении о том, что подобные последовательности, вероятно, эволюционно связаны. Програм- ма выравнивает последовательности парами, следуя порядку ветвления фи- логенетического дерева семейства. Сначала выравниваются подобные по- следовательности, а затем к выравниванию добавляются более отдаленно связанные последовательности. После этого программа вычисляет счета попарных выравниваний среди всех последовательностей и объединяет по- следовательности в группы на основании этих счетов. Затем программа вы- равнивает эти группы друг с другом и строит окончательное множественное выравнивание. Программа «КЛАСТЭЛ» была усовершенствована много раз. Более поздний продукт — «КЛАСТЭЛ-В» (CLUSTAL W) — производит расстанов- ки пропусков в тесно связанных последовательностях, после чего исполь- зует их в качестве руководства для вставки пропусков в более отдаленные последовательности. Подобным же образом информация об изменчивости наиболее подобных последовательностей, собранная в течение процесса вы- равнивания, используется для более обоснованного варьирования штрафов за пропуски, зависящих от природы и позиции остатков. «СИНЕМА» Программа «СИНЕМА» (CINEMA, Color INteractive Editor for Multiple Alignments) — цветной диалоговый редактор множественных выравнива- ний, написанный на «Яве». Эта программа позволяет строить выравнивания последовательностей вручную или автоматически (например, с помощью «КЛАСТЭЛ-В»), а также визуально отображать и редактировать выравни- вания последовательностей, помещенные в различных сетевых ресурсах. Помимо особого преимущества в возможности диалогового выравнивания в сети «Интернет», «СИНЕМА» устанавливает связи с первичными источ- никами данных и таким образом обеспечивает легкий и быстрый доступ к обновляемым данным и открывает путь к информационным ресурсам в «Интернете». «СИНЕМА» — нечто большее, чем простое средство для облагорожен- ного цветом построения выравниваний. Помимо описанных выше функций, программа предлагает следующие возможности: модификация мотивов; по- иск в базах данных (с помощью «БЛАСТа»); визуализация пространствен- ных структур (с возможностью отображения координат), которая позволяет
188 Глава 6 рассмотреть консервативные пространственные характеристики в выравни- вании; построение точечных диаграмм и профилей гидропатии; трансляция с шестью рамками и т. д. Программа снабжена исчерпывающим файлом помощи (написанным на ЯРГ) и доступна как в виде автономной версии, помещенной на веб-сервере «Обозреватель баз данных биоинформатики» (DbBrowser Bioinformatics), так и в виде встроенного компонента базы дан- ных индикаторов белков «ПРИНТС». 6.8. Алгоритмы распознавания доменов в белковых структурах В 1994 г. Цефус предложил метод для определения прерывных доменов на основании их «компактности». Алгоритм «САРЕБ» («Синтаксический анализатор развертывающихся единиц белка» — Parser for protein Unfolding Units, PUU) пытается максимизировать взаимодействия в пределах каждой структурной единицы (домена) и притом минимизировать взаимодействия между самими единицами. Если имитационное моделирование молекуляр- ной динамики выполняется на белковой молекуле, то остатки, подчиняющи- еся наиболее коррелированному движению, скорее всего, являются частью какого-либо домена. Поэтому для аппроксимации междоменной динамики применяют гар- моническую модель. Различия в периодах флуктуаций могут быть исполь- зованы для разложения доменов. Однако некоторые цепи могут проходить между единицами по нескольку раз. Чтобы решить эту задачу, остатки груп- пируют путем решения задачи о собственном значении матрицы контак- тов — это сводит задачу к одномерному поиску всех обоснованных пробных делений пополам. Единицы, которые могут существовать в виде самостоя- тельных образований, распознают на основании физических критериев. Алгоритм «ДОМАК» (DOMAK) многократно разделяет белок на две произвольные части и вычисляет «величину расщепления» по числу контак- тов при каждом произвольном разделении. Чем сильнее различие двух раз- деляемых частей структуры, тем больше величина расщепления. Програм- ма распознавания доменов «Детектив» (Detective) основана на допущении о том, что каждый домен должен содержать опознаваемое гидрофобное ядро. Однако вполне возможно, что гидрофобные ядра различных доме- нов выходят за пределы граничных областей. Данный алгоритм причисляет к компонентам ядер такие аминокислотные остатки, которые появляются в регулярной вторичной структуре и имеют повернутые внутрь боковые цепи, образующие друг с другом преимущественно неполярные контакты.
6.9. Алгоритмы сравнения структур 189 Известен также алгоритм, минимизирующий плотность междоменных контактов путем деления цепи. Был предложен и другой алгоритм распо- знавания доменов в структурах белка, основанный на групповом анализе вторичных структур. Однако практические испытания алгоритмов показа- ли, что метод согласованной оценки, учитывающий результаты трех незави- симых алгоритмов распознавания доменов («Детектив», «САРЕБ» и «ДО- МАК»), дает лучшую точность, чем любой из этих алгоритмов, работающий в одиночку. Алгоритм «Струдл» (Strudl — STRUctural Domain Limits) использу- ет графовую эвристику Кернигана-Линя и разбивает белок на группы остатков, которые показывают минимальное межгрупповое взаимодействие. Граф определяет связи между узлами и представлен матрицей. Начав с под- ходящего разбиения, «Струдл» минимизирует функцию стоимости, которая зависит от взаимодействий между узлами. Для этого алгоритм выполня- ет перестановку пар узлов до тех пор, пока не будет получено оптималь- ное разбиение. Межузельные взаимодействия определяются по взвешенной диаграмме Вороного. 6.9. Алгоритмы сравнения структур В свое время был предложен целый ряд алгоритмов, опирающихся на теорию графов, матрицы расстояний, методы динамического программиро- вания и Монте-Карло, молекулярную динамику, критерии максимального правдоподобия и т. д. Метод двойного динамического программирования (предназначенный для выравнивания структур) предполагает работу с двумя матрицами. При сравнении бедковых структур путем выравнивания матриц расстояний («ДАЛИ») программа производит вычисление матриц расстояний между остатками по трехмерным координатам каждого белка. Матрицы рассто- яний разлагаются на группы элементарных контактов (например подобия типа гексапептид-гексапептид). Подобные группы контактов объединяются в пары, которые в свою очередь объединяются в более крупные непроти- воречивые множества пар. Выравнивания оцениваются на основании счета подобия. Несовпадающие остатки не вносят вклад в полный счет. Основное преимущество этого метода состоит в том, что он не зависит от топологиче- ской связности выровненных сегментов. Кроме того, этот алгоритм допус- кает обращения цепи и введение в последовательности пропусков любой длины. Он полностью автоматизирован, и все структурные классы можно анализировать с одним и тем же набором параметров.
190 Глава 6 Алгоритм «Комбинаторное продолжение выборочного пути» («КП- ВП») опирается на понятие выровненной пары фрагментов (ВПФ). Вы- ровненная пара фрагментов состоит из двух структурноподобных фрагмен- тов, по одному из каждой структуры. Подобие определяется на основании локальной геометрии, а не на глобальных признаках вроде ориентации вто- ричных структур или общей топологии. Если комбинация ВПФов образует непрерывный путь выравнивания, то делается попытка продолжить его; в противном случае он отбрасывается. Таким образом, путем проб различ- ных сочетаний ВПФов программа выстраивает единственное оптимальное выравнивание. Средство поиска векторных выравниваний («ВАСТ») применяют для попарного выравнивания структур. За единицу подобия третичных струк- тур принята пара элементов вторичной структуры (ЭВС), для которых ха- рактерны подобный тип, относительная ориентация и взаимное сродство. При сравнении двух доменов рассчитывается сумма счетов совмещения этих единиц. 6.10. Рекомендации к выполнению поиска последовательностей Одной из важнейших целей биоинформатики является предсказание функции и, разумеется, структуры белка по линейной последовательности аминокислот. Получив недавно расшифрованную последовательность, уче- ный задается вопросами: что такое этот белок? К какому семейству он принадлежит? Какова его функция? Каким образом можно объяснить за- висимость его функции от особенностей его структуры? Путем поиска во вторичных базах данных, в которых собраны обобщенные характеристики функциональных и структурных участков известных белков, можно найти регулярные комбинации и по ним установить связи с ранее описанными семействами. Со своей стороны поиск в библиотеках сверток, содержащих образцы известных структур, поможет опознать ранее описанную свертку. Колоссальный объем существующих баз данных последовательностей позволяет предположить, что отыскание гомологов новых последовательно- стей часто будет давать положительный результат, а постоянное расшире- ние баз данных регулярных комбинаций мономеров и образцов структур — увеличивать шансы на определение функций и установление возможных се- мейств сверток. Следует отметить, что прогресс, наблюдаемый в разработке методов предсказания, пока еще отстает от достижений в развитии мето- дов распознавания регулярных комбинаций мономеров и образцов сверток.
6.10. Рекомендации к выполнению поиска последовательностей 191 Так что довольно часто оказывается невозможно непосредственно предска- зать функцию или структуру белка по его последовательности, но притом удается опознать гомологи и распознать комбинации мономеров и образцы сверток, которые, ввиду разнообразия и объема баз данных, вполне могут быть найдены. Как в таком случае можно использовать эту информацию, чтобы построить чувствительный метод поиска новых последовательно- стей? По сути, здесь нужно проверить идентичные совпадения и затем пе- рейти к поиску приближённо подобных последовательностей в первичных базах данных. Данная стратегия включает в себя поиск ранее охарактеризо- ванных последовательностей и, где возможно, образцов сверток в разнооб- разных базах данных образцов сверток. Заключительный шаг — обобщен- ный анализ результатов всех этих поисков и составление обоснованного заключения о семействе, функции и структуре белка. Диалоговая сетевая обучающая программа «Биоакгивность» (BioActivity) может быть найдена по следующему адресу: http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/prefacefrm.html Первый и самый быстрый способ опознавания неизвестного фраг- мента последовательности белка — поиск идентичности, предпочтитель- но в смешанной базе данных последовательностей. «АУЛ» — смешанный ресурс, к которому можно непосредственно обращаться с помощью встро- енного языка запросов. Поиск идентичности (отрезков) пептидов длиной до 30 остатков возможен через сетевой интерфейс; последний обеспечивает удобную форму диалога и ограждает пользователя от необходимости вни- кать в синтаксис языка запросов. Поиск идентичности в течение нескольких секунд покажет, существует ли в базе данных точное соответствие неизвест- ному пептиду. Следующий веб-узел также может быть полезен: http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/nucleicffm.html Если поиск идентичности не позволил найти соответствие, то следую- щий шаг — поиск подобных последовательностей, и опять же, предпочти- тельно в неоднородной базе данных. Для лучшего результата поиск подобия рекомендуют проводить на пептидах длиной более 30 остатков (чем короче пептид, тем больше правдоподобие обнаружения случайных совпадений, которые не имеют никакого биологического значения). Во всех случаях при поиске с помощью программы «БЛАСТ» желательно использовать как мож- но больше известной информации о последовательности (хотя это может
192 Глава 6 привести к осложнениям в интерпретации результатов поиска многодомен- ных или модульных белков). При анализе отчета программы «БЛАСТ» особое внимание следует обращать на несколько важных моментов. Во-первых, мы заинтересованы в отыскании совпадений с высоким счетом и соответственно низким зна- чением вероятности. Очень низкая вероятность свидетельствует о том, что совпадение вряд ли возникло случайно. Если значение вероятности прибли- жается к единице, то такое совпадение считают случайным. Второй важный момент — показывают ли результаты поиска группу высоких счетов (с низ- кими вероятностями) наверху списка, что указывает на вероятное родство между последовательностью запроса и семейством последовательностей в этой группе. Эвристические программы поиска например «БЛАСТа» не всегда дают ясные ответы. Часто программа не назначает высокий счет ни одному из найденных совпадений, даже если в списке совпадений присутствует био- логически значимая последовательность. Такие методы поиска не обладают должной чувствительностью, чтобы всегда выуживать правильный ответ из обширного косяка последовательностей в первичной базе данных; чаще всего они бросают редкую сеть, а потом уже пользователь самостоятельно разбирает улов. При этих обстоятельствах (когда не найдено ни отдельной последова- тельности, ни группы последовательностей с высоким счетом) необходимо рассмотреть следующий момент: не просматриваются ли любые очевидные зависимости в типе совпавших последовательностей, то есть не предпола- гают ли аннотации, что некоторые из них принадлежат к одному семейству? Если аннотации дают подходящие ключи, то следующим шагом будет по- пытка подтвердить эти зависимости — как с помощью обратного поиска посредством программы «БЛАСТ» (позволяют ли найденные совпадения опознать последовательность в поиске подобия?), так и путем сравнения результатов поиска во вторичных базах данных. Первый вторичный ресурс, который можно рекомендовать, — база дан- ных «Просайт». Она доступна через страницу «Анализ белковых последо- вательностей — поиск во вторичных базах данных» по следующему адресу: http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/protein 1 frm.html Для этого необходимо просто поместить код базы данных в соответ- ствующее окно ввода и активизировать кнопкой «Включить» (on) факуль- тативную функцию для исключения регулярных комбинаций с высокой ве- роятностью появления (то есть правил).
6.10. Рекомендации к выполнению поиска последовательностей 193 Следующий шаг — запрос в библиотеку профилей «ИЗРЕК» (ISREC). В дополнение к профилям, которые уже были включены в главный ресурс «Просайт», данный веб-сервер предлагает подбор предварительно опубли- кованных профилей, которые еще не были достаточно проверены и описаны для помещения в «Просайт». Для запуска поиска полного собрания профи- лей, опять же, нужно внести код базы данных в соответствующее окно для ввода, не забывая при этом переключить кнопку формата с установки по умолчанию (простой текст) на «Свисс-прот ID»: http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/proteinlfrm.html Другой важный ресурс поиска — собрание скрытых марковских моде- лей «Пфам». Поиск выполняется через сетевой интерфейс; для этого после- довательность запроса помещают в окно для ввода текста: http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/proteinlfrm.html Последовательность должна быть в формате «ФАСТА», то есть запросу должны предшествовать знак «>» и подходящее имя последовательности. «ПРИНТС» — другой важнейший вторичный ресурс, который наводит мост между методами поиска отдельных мотивов (подобно использован- ным для составления базы данных «Просайт») и методами выравнивания доменов или составления профилей (например реализованных в «Библио- теке профилей» и «Пфам»). Поиск в БД «ПРИНТС» осуществляется через страницу «Анализ белковых последовательностей — получение индикато- ров белка»: http://www.biomf.man.ac.uk/dbbrowser/bioactivity/protein2frm.html Результат поиска разбит на несколько разделов. В первом разделе про- грамма предлагает интеллектуальное «предположение», основанное на по- явлении одного или нескольких полных или частичных совпадений индика- торов (с высоким счетом). Далее программа проводит расширенное вычис- ление и показывает первые 10 полных совпадений с наилучшим счетом; в их число входят интеллектуальные результаты предыдущего этапа анализа, но к ним прилагаются и дополнительные совпадения, призванные объяснить, почему именно это предположение было выбрано как наилучшее, и обеспе- чить возможность альтернативного выбора, если предположение програм- мы будет сочтено неверным или неполным. Остальные разделы результата поиска содержат дополнительную информацию, что позволяет оператору
194 Глава 6 найти и устранить какие-либо недочеты. Особенная ценность программно- го обеспечения поиска в БД «ПРИНТС» состоит в том, что пользователь может визуально отображать совпадения отдельных индикаторов, щелкая мышкой в графическом окне. Следующий вторичный ресурс для поиска — база данных «Блоки», со- держащая обработанную информацию из БД «Просайт» и «ПРИНТС». Если совпадения, найденные в «Просайт» и (или) «ПРИНТС», являются истин- ными совпадениями, то мы можем ожидать подтверждения этих результатов при поиске в БД «Блоки». Для запуска поиска в базе данных «Блоки» нужно ввести последовательность запроса в соответствующее окно для ввода: http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/proteinlfrm.html В каждом случае надо не забывать переключаться на требуемую ба- зу данных. Коды доступа в столбце «Блок» показывают число мотивов; совпадения с этими мотивами ранжированы по счету. Указан также ранг блока с наивысшим счетом — так называемого блока привязки. Если вы- бор опорного блока подтвержден присутствием дополнительных блоков, дающих совпадения с высоким счетом в правильном порядке, то про- грамма рассчитывает вероятность, отражающую правдоподобие этих сов- падений, появляющихся совместно и в определенном порядке. Часто ре- зультаты бывают засорены совпадениями (с высоким счетом) отдельных блоков. Такие совпадения, как правило, случайны, и их вероятности не рассчитываются. Информационное содержание отдельных блоков может быть визуально отображено в процессе просмотра логотипа последователь- ности. Логотип последовательности — это графическое представление мно- жественного выравнивания, состоящее из закодированных цветом колонок с буквами, обозначающими аминокислоты в последовательных позициях. Уровень букв повышается с увеличением частот появления соответствую- щих аминокислот, а высота букв возрастает с усилением консервативности выровненных позиций; следовательно, буквы в колонках с единственными остатками (то есть представляющие консервативные позиции) более вы- сокие, чем буквы в колонках со множеством остатков (то есть в более изменчивых позициях). Наиболее часто встречающиеся остатки не только выше, но также и за- нимают более высокие уровни в соответствующей колонке; таким образом, самый высокий остаток вверху списка есть наиболее вероятный остаток из всех предсказанных для этой позиции. Для устранения проблемы из- быточного представления последовательностей в блоках (которое сильно
6.10. Рекомендации к выполнению поиска последовательностей 195 смещает частоты появления остатков) программа рассчитывает веса по- следовательностей с помощью позиционной матрицы счетов (ПМС). Этот прием позволяет снизить доминирование избыточно представленной после- довательности в колонках и увеличивает долю редких аминокислот отно- сительно обычных. Наконец, последний информационный ресурс — БД «АЙДЕНТИФАИ»; для выполнения поиска необходимо внести последовательность запроса в соответствующее окно для ввода: http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/proteinlfrm.html Более полную информацию о структуре белка можно получить из ре- сурсов классификации структур (типа «СКОП» и «КАТ»); для этого можно использовать ссылки, вложенные в записи БД «Просайт» и «ПРИНТС», или внести соответствующий код «БДБ» в окна для ввода, посетив страницы этих ресурсов. Поиск в БД «СКОП» может быть проведен через страницу «Анализ белковых структур — ресурсы классификации структур»: http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/structureffm.html Для отправки запроса в БД «КАТ» нужно поместить желаемый код «БДБ» (в формате ЯРГ) в соответствующее окно для ввода на веб-странице по указанному выше адресу. Щелчок по гиперссылке на код «БДБ», встро- енной в резюме записей БД «КАТ», выполняет переход к сетевому ресур- су «БДБрезюме» (PDBsum) — собранию информации обо всех структурах из «БДБ». Здесь же дозволяется просмотреть картину полной свертки и вто- ричной структуры молекулы. Используя эту наглядную информацию, мож- но приступить к рационализации (в плане структурных и функциональ- ных особенностей свернутой в пространстве молекулы) результатов поиска во вторичных базах данных — главным образом путем совмещения мотивов, показавших совпадение в БД «Просайт», «ПРИНТС» и «Блоки», с первич- ной последовательностью. Контрольные вопросы 1. Что такое выравнивание последовательностей? 2. Каковы цели выравнивания последовательностей? 3. Какие типы выравнивания последовательностей вам известны?
196 Глава 6 4. Опишите этапы анализа точечной диаграммы. 5. В чем заключается попарное сравнение последовательностей? 6. Опишите принцип назначения счета мутациям, выпадениям и заменам. 7. Какие программы применяют для попарного сравнения последователь- ностей в базах данных? 8. Что такое множественное выравнивание последовательностей? 9. Перечислите ключевые шаги в построении множественного выравни- вания. 10. Какие программы применяют для множественного выравнивания? 11. Каким образом следует выполнять поиск последовательностей? 12. Что такое строка? 13. Что такое Хеммингово расстояние? 14. Что такое (редактирующее) расстояние Левенштейна?
Глава 7 Методы предсказания белковых структур по последовательностям ДНК и аминокислот После успешного освоения секвенирования целых геномов, первосте- пенной задачей биологического исследования стало извлечение биологиче- ского смыслового содержания из длинных последовательностей нуклеоти- дов (как раз определенных посредством секвенирования). Сегодня довольно часто можно услышать слово «аннотировать», что означает «извлечь по- лезную биологическую информацию из первичных элементов в геномной ДНК (структурная аннотация) и затем приписать этим последовательностям функции (функциональная аннотация)». С появлением проектов секвенирования целых геномов широкое при- менение нашли программы алгоритмического просмотра последовательно- стей геномной ДНК и поиска в них генов, в особенности тех, которые кодируют белки. После расшифровки новой геномной последовательности в ней распознаются наиболее вероятные кодирующие белок области, после чего в базах данных проводится поиск подобия предсказанным белкам. Предсказание является неотъемлемым методом, принятым в биоинфор- матике. Приписывание структур продуктам гена — это первый шаг в пони- мании того, как именно организмы реализуют свою геномную информацию. Предсказание помогает установить структуры закодированных в геноме мо- лекул, свойственные им отправления и присущие взаимодействия, а также организацию этих функций и взаимодействий в пространстве и времени на протяжении всей жизни организма. Цель предсказания генов состоит в определении тех областей геномной ДНК, которые кодируют белки. 7.1. Стратегии предсказания генов Поскольку форму клетки, ее роль и физиологические свойства в зна- чительной степени определяют присутствующие в клетке белки, постольку
198 Глава 7 одна из первых задач в анализе генома состоит в определении полипепти- дов, кодируемых геномом организма. А чтобы составить список таких по- липептидов, в свою очередь необходимо выявить структуру каждой иРНК, кодируемой геномом. Для предсказания наиболее вероятной последовательности иРНК и ко- дирующих полипептиды областей биоинформатика использует несколько независимых наборов данных. К этим наборам данных относятся: после- довательности кДНК, последовательности служебных участков, отмечаю- щие точки начала и конца транскрипции, сращивания и трансляции пред- иРНК, последовательности родственных полипептидов и, наконец, инфор- мация о видоспецифической избирательности организмов в использовании некоторых кодонов. На рис. 7.1 показаны различные источники информации, совместный анализ которых служит составлению возможно лучших предсказаний иРНК. Качество предсказания иРНК и структуры полипептида по последователь- ности геномной ДНК зависит от интеграции информации о последователь- ности кДНК, предсказаний служебных участков, а также данных о подобии полипептидов и отклонении частот выбора кодонов. Категории Стратегии отыскания генов могут быть разбиты на три категории, а именно: основанные на содержании (семантические), на основе участков (позиционные) и сравнительные. Семантические методы при построении прогноза полагаются на общие свойства, рассеянные по всему объему по- следовательности. К рассматриваемым характеристикам относятся: частота использования отдельных кодонов, периодичность повторений и сложность состава последовательности. Поскольку различные организмы используют синонимичные кодоны с различной частотой, постольку такие ключи мо- гут открыть дверь к определению тех областей, с которых, вероятнее всего, будут транскрибированы экзоны. Позиционные методы сосредоточивают свое внимание на присутствии или отсутствии определенной последовательности, регулярной комбинации или консенсуса. Эти методы применяют для обнаружения характеристик на- пример донорных и акцепторных участков сращения, участков связывания факторов транскрипции, поли-А хвостов, а также старт- и стоп-кодонов. Сравнительные методы делают предсказания на основании гомологично- сти последовательностей. Они транслируют исходные последовательности, сравнивают эти трансляции с последовательностями белков из баз данных и таким образом пытаются найти области в ранее описанных последователь-
Рис. 7.1. Данные анализа различных форм информативных продуктов гена — молекул кДНК, ЯЭПов, обнаруженных программой «БЛАСТ» подобий, совпадений мотивов и отклонений частот встречаемости кодонов — объединяются в предсказания генов. Если на некоторую последовательность геномной ДНК указывают данные нескольких классов, то появляется большая уверенность в правдоподобии, что предсказание гена является точным. (Источник: A. J. F. Griffiths et al., Modern Genetic Analysis, W. H. Freeman and Company, 2002) 7.1. Стратегии предсказания генов
200 Глава 7 ностях белка, соответствующие кодирующей области в последовательности запроса. Самый простой метод отыскания последовательностей ДНК, которые кодируют белки, состоит в поиске открытых рамок считывания. За ОРС принимают отрезок последовательности ДНК, состоящий из непрерывного ряда кодонов, каждый из которых определяет некую аминокислоту. Предсказание вторичной структуры РНК Изменения состава нуклеотидов, периодически происходящие в после- довательностях РНК, не затрагивают регулярные комбинации спаренных оснований, которые и формируют двунитевые области (элементы вторич- ной структуры) молекулы. Следовательно, выравнивание двух последова- тельностей ДНК, кодирующих одну и ту же молекулу РНК, должно показать совместные изменения в позициях попарно взаимодействующих оснований. В дополнение к этим соизменяющимся позициям, в последовательностях ге- нов, кодирующих РНК, могут быть обнаружены ряды подобных знаков (ну- клеотидов), что свидетельствовало бы об общем происхождении этих генов. Для предсказания наиболее вероятных областей спаривания оснований в молекуле РНК были разработаны специальные вычислительные методы. Основанные на них алгоритмы предсказания структуры молекул РНК про- изводят: 1) анализ всех возможных комбинаций потенциальных двунитевых областей (опираясь на принцип минимизации энергии) и 2) определение такого соизменения оснований, при котором в ходе эволюции сохраняет- ся вторичная и третичная структура молекулы РНК. (Анализ совместной изменчивости привел К. Вусе к предсказанию трех таксономических кате- горий: Бактерии, Эукариоты и Археи.) 7.1.1. Программы предсказания генов Известно множество программ предсказания генов, которые до- ступны для свободного закачивания с веб-узла «Всеобщее достояние» (Public Domain). Основанная на методе нейросети программа «ГРААЛЬ!» (GRAIL 1— Gene Recognition and Analysis Internet Link — «Интернет»-ресурс распознавания и анализа генов) распознает потенциальный продукт коди- рования в окнах постоянной длины (100 оснований); при этом рассмат- ривается сама последовательность, а не дополнительные характеристики например участков сращения или старт- и стоп-кодонов. «ГРААЛБ2» отличается применением окон переменной длины. «ГРААЛЬ-ЭКСП» (GRAIL-EXP) строит предсказания с учетом дополни-
7.1. Стратегии предсказания генов 201 тельной информации, для чего производит поиск уже известных полных и частичных последовательностей генов, помещенных в базы данных. Про- грамма «ЭФДЖИНИ» (FGENEH) предсказывает внутренние экзоны на основании линейного дискриминантного анализа таких структурных осо- бенностей, как: донорные и акцепторные участки сращения, предполагае- мые кодирующие области, а также интронные области, примыкающие как к 5'-, так и к З'-концу предполагаемого экзона. Программу «ЭФДЖИНС» (FGENES) — расширение «ЭФДЖИНИ» — применяют в тех случаях, когда в рассматриваемом отрезке ДНК ожидают- ся многочисленные гены. «МЗЕФ» (MZEF) предсказывает внутренние ко- дирующие экзоны посредством квадратического дискриминантного анализа последовательностей. Программа «ГЕНСКАН» (GENSCAN) предсказывает полные генные структуры. Она может опознавать интроны, экзоны, промо- торные участки и сигналы полиаденилирования. В своих прогнозах «ГЕН- СКАН» полагается на вероятностную модель. «Геномскан» (GenomeScan) назначает более высокий счет предполагаемым экзонам. «ПРОКРУСТ» (PROCRUSTES), естественно, занят подгонкой последовательностей геном- ной ДНК под некий образец, определенный родственным целевым белком. «ГенГО» (GenelD) находит экзоны на основании измерений потенциала кодирования. «Джинпазер» (GeneParser) с помощью метода нейронной сети определяет, какие элементы (начальный экзон, внутренний экзон, конечный экзон или интрон) находятся в рассматриваемых подынтервалах последо- вательности. «СММген» (HMMgene) предсказывает целые гены в любой заданной последовательности ДНК. Различные методы дают результаты разного типа, и ни одна программа не способна подобрать универсальный ключ к вычислительному определению генов. Ниже приведены веб-адреса вышеописанных программ: FGENES GenelD GeneParser GENSCAN GRAIL GRAIL-EXP HMMgene MZEF PROCRUSTES http://genomic.sanger.ac.uk/gf/gf.shtml http://wwwl .imim.es/geneid.html http://beagle.colordo.edu/~eesnyder/GeneParser.htmlhttp://genes.mit.edu/GENSCAN.html http://compbio.oml.gov/tools/index.htmlhttp://compbio.oml.gov/grailexp/ http: //www. cbs. dtu.dk/services/HMMgene/ http://www.cshl.org/genefinder http: //w ww-hto. use. edu/software/procrustes
202 Глава 7 7.2. Стратегии предсказания белков Одной из главных целей биоинформатики является установление ха- рактера связи между последовательностью аминокислот и пространствен- ной структурой белка. Если такая связь будет описана, то можно будет достаточно точно предсказывать структуру белка по последовательности аминокислот. Предсказание структуры по последовательности стало воз- можным благодаря новым методам и информационным ресурсам. По сравнению с алфавитом нуклеиновых кислот (4 основания), алфа- вит белков (20 аминокислот) позволяет кодировать несоизмеримо большее число вариантов структур и функций; прежде всего это связано с тем, что различия в химическом строении этих остатков выражены сильнее. Каж- дый остаток может влиять на общие физические свойства белка, потому что исходная аминокислота была основной или кислой, гидрофобной или гидрофильной и имела структуру прямой или разветвленной цепи или же ароматического кольца. Таким образом, каждый остаток несет в себе некое качество для формирования в пределах белкового домена структуры опре- деленного типа (обусловленной последовательностью конформации). Методы предсказания Многочисленные наблюдения показывают, что денатурированный бе- лок, при возвращении реакционной среды в исходное состояние, спонтан- но свертывается в уникальную трехмерную нативную конформацию. Этот факт свидетельствует о том, что природа имеет алгоритм восстановления структуры белка по последовательности аминокислот. Некоторые попыт- ки понять этот алгоритм базируются исключительно на общих физических принципах; другие — на сравнительном анализе известных аминокислот- ных последовательностей и структур некоторых белков. Доказательством нашего успеха в понимании этого алгоритма послужит его воспроизведение в виде компьютерной программы, которая могла бы предсказывать струк- туру различных белков по последовательности аминокислот. Большая часть алгоритмов предсказания структуры белка, опирающих- ся только на основные физические принципы, пытается воспроизвести меж- атомные взаимодействия в белковой молекуле и определить совместимую энергию, присущую любой возможной конформации данного белка. В вы- числительном аспекте проблема предсказания структуры белка выглядит как задача отыскания глобального минимума функции совместимой энергии конформаций. Пока что этот подход не преуспел: частично в силу несостоя- тельности выведенной функции энергии и частично ввиду того, что извест-
7.2. Стратегии предсказания белков 203 ные на сегодняшний день алгоритмы минимизации неизбежно застревают в локальных минимумах. Альтернативу априорным методам представляет подход, предполага- ющий восстановление целостной картины структуры белка путем поиска последовательностей, образующих подобные ему структуры. Методы, ко- торые объединяет в себе этот подход, эмпирические, то есть основаны на знаниях. Мост над пропастью последовательность-структура Понимание структуры белка ведет к пониманию его функции и ме- ханизма активности. В настоящее время существует большой разрыв между количеством расшифрованных последовательностей и числом из- вестных структур. Этот разрыв называют «пропастью последовательность- структура». Он же и главный стимул для развития методов предсказа- ния структуры белков. Предсказать структуру означает установить отно- сительное расположение всех атомов белковой молекулы в трехмерном пространстве, располагая лишь информацией о первичной последователь- ности. Предсказание структуры выполняют различными методами: сравни- тельного моделирования, распознавания сверток, предсказания вторичной структуры, предсказания ab initio и предсказания, основанного на знаниях. Алгоритмы, построенные на методах анализа знаний, пытаются предска- зывать структуру белка на основании информации, почерпнутой из базы данных известных структур. Если последовательность белка с неизвестной структурой (целевая по- следовательность) выровнена с одной или несколькими последовательно- стями белков с известной структурой и в выравнивании 80 или более остатков показывает в лучшем случае 25 % подобия, то средства множе- ственного выравнивания позволяют предсказать структуру, принимаемую целевой последовательностью, на основании сравнения с известной (эта- лонной) структурой. Такой метод называют сравнительным моделировани- ем (моделированием гомологии). Он дает возможность построить полную модель расположения атомов третичной структуры. Если подходящие эталонные структуры для данной целевой после- довательности не существуют, то остается прибегнуть к альтернативному подходу — предсказанию вторичной структуры. Этот путь ведет к пред- сказанию свойственного каждому остатку состояния вторичной структу- ры: спирального, нитевидного, листовидного или катушкообразного. Такие предсказания иногда называют предсказаниями трех состояний.
204 Глава 7 Методы распознавания сверток (ci-считывания) позволяют обнаружить отдаленные отношения и отделить их от случайных подобий последова- тельностей, не связанных с общей сверткой. Разработанные на их основе алгоритмы осуществляют поиск в библиотеке известных структур белка и находят структуру, наиболее подходящую для последовательности запро- са, структура которой и должна быть предсказана. После построения вы- равнивания между последовательностью запроса и отдаленно связанными последовательностями из БД может быть получена полная картина искомой трехмерной структуры белка. Методы ab initio предполагают предсказание структуры белков от пер- вых принципов и опираются на различные теории физических наук напри- мер статистической термодинамики и квантовой механики. Из всех этих методов самые точные и всесторонние предсказания дает сравнительное моделирование. 7.2.1. Предсказание вторичной структуры Одной из важнейших задач анализа последовательностей является точ- ное предсказание очагов формирования а-спиралей, /3-нитей и других эле- ментов вторичной структуры в аминокислотной цепи белка. Предсказа- ние структуры по аминокислотной последовательности начинают с анализа базы данных известных структур. Поиск в этих базах данных проводят с целью выявления всех возможных связей между последовательностью и структурой белка. Качество предсказания вторичной структуры зависит от точности рас- познавания типа элементов вторичной структуры в известных свертках, а также от точности определения местоположения и протяженности этих элементов. К основным типам вторичных структур, которые исследуют- ся на предмет изменчивости последовательности, относятся си-спирали, /3-нити и катушки. Во всех методах предсказания вторичной структуры принято два до- пущения. Первое (главное) допущение предполагает обязательное наличие некоей корреляции между аминокислотной последовательностью и вторич- ной структурой молекулы. Согласно второму допущению любой отдельно взятый короткий отрезок последовательности с более высокой вероятно- стью формирует вторичную структуру одного вида, чем другого. Одними из первых методов, основанных на концепции склонности ами- нокислот к формированию вторичной структуры, являются методы Чоу- Фасмена и «ГОР» (Гарнье-Осгаторпа-Робсона). Предсказание строилось по данным анализа аминокислотного состава коротких участков последова-
12. Стратегии предсказания белков 205 тельностей. Более поздние методы учитывали извлеченную из множествен- ных выравниваний эволюционную информацию, что значительно повыси- ло точность предсказания вторичной структуры, так как в ходе эволюции структура намного более консервативна, нежели сама последовательность. В настоящее время широкое применение нашли следующие методы предсказания вторичной структуры белков: 1) Чоу-Фасмена и «ГОР»; 2) мо- делирования нейронных сетей; 3) поиска «ближайшего соседа». Метод Чоу-Фасмена Метод Чоу-Фасмена основан на допущении о том, что каждая амино- кислота индивидуально влияет на вторичную структуру в пределах некото- рого окна последовательности. Он опирается на анализ частот появления каждой из 20 аминокислот в а-спиралях, /3-листах и изгибах. Кроме то- го, построенный на нем алгоритм использует специальный набор правил предсказания вторичной структуры. Вначале алгоритм просматривает последовательность и пытается най- ти короткую подпоследовательность аминокислот, показывающую высокую склонность к образованию зародыша структуры определенного типа. Пред- сказание а-спиралей считают достаточно правдоподобным, если четыре из шести аминокислот имеют высокую вероятность (> 1,03) пребывания в ci-спирали. Что касается предсказания склонности к образованию заро- дыша /3-нити, то его принимают за верное, если на каждые пять амино- кислот в последовательности приходится три с вероятностью нахождения в /3-нити > 1,00. Затем алгоритм продолжает области зародышеобразова- ния в обе стороны — до тех пор, пока значения вероятности для группы из четырех аминокислот не падают ниже 1. Если для некоторого отрезка последовательности могут быть предсказаны как а-спиральные, так и /3-ни- тевидные области, то принимается предсказание с более высокой вероятно- стью. Предсказание изгибов основано на несколько ином принципе. Алго- ритм моделирует изгибы в виде тетрапептидов и рассчитывает две веро- ятности. Во-первых, как и в случае предсказаний а-спиралей и /3-нитей, алгоритм вычисляет среднее от вероятностей пребывания в изгибе каждой из четырех аминокислот. Во-вторых, определяются вероятности появления в изгибе аминокислотных комбинаций, начинающихся с очередной позиции тетрапептида. Затем алгоритм перемножает эти четыре вероятности, вычисленные для группы из четырех аминокислот в смоделированной последовательно- сти, и находит вероятность того, что данный тетрапептид является изгибом.
206 Глава 7 Предсказание изгиба считается верным, если значение первой вероятности превышает вероятность появления в данной области а-спирали или /?-нити и если значение второй вероятности больше 7,5 • 10~5. Метод «ГОР» Метод «ГОР» основывается на допущении о том, что аминокисло- ты, примыкающие к центральному аминокислотному остатку, тоже влияют на вторичную структуру, к которой центральный остаток, вероятно, скло- нен. При составлении предсказаний этот метод опирается на принципы теории информации. Алгоритм просматривает известные вторичные струк- туры и определяет частоту появления определенных аминокислот в каждом типе структуры. Кроме того, определяется также частота появления амино- кислот (20-ти видов) в восьми соседних позициях (отстоящих от N- и С- концов центральной аминокислоты), и, таким образом, общее количество исследуемых позиций равно 17, включая центральную. Предсказание с помощью нейронных сетей В подходе нейронных сетей компьютерные программы обучаются рас- познавать регулярные комбинации аминокислот, находящиеся в известных вторичных структурах, и отличать эти комбинации от других аминокислот- ных групп, не пребывающих в этих структурах. Такие модели нейронной сети большую часть информации из последовательностей извлекают путем алгоритмической интерпретации. Из программ моделирования нейронных сетей можно назвать «ПХД» (PHD) и «Ннпредикт» (NNPREDICT). В прин- ципе модели нейронных сетей предназначены для имитационного модели- рования работы мозга. Предсказание методом поиска ближайшего соседа Так же как и методы нейронных сетей, методы поиска ближайшего соседа основаны на принципе обучающейся машины. Они предсказыва- ют предпочтение аминокислоты из последовательности запроса к опреде- ленной конформации вторичной структуры; для этого алгоритм сравнивает последовательность запроса с подобными ей последовательностями, струк- тура которых известна. Алгоритм передвигает окно переменной длины по набору из 100-400 обучающих последовательностей с известной структу- рой и составляет большой список коротких фрагментов последовательно- стей.
7.2. Стратегии предсказания белков 207 Затем отмечается минимальное взаимное подобие последовательно- стей, а также вторичная структура, соответствующая центральной амино- кислоте в каждом из окон. После этого алгоритм выбирает из последо- вательности запроса окно того же самого размера, сравнивает его с каж- дым из вышеупомянутых фрагментов последовательностей и определяет 50 фрагментов, дающих наилучшие совпадения. Наконец, по частотам по- явления известной вторичной структуры средней аминокислоты в каждом из этих 50-ти фрагментов строится предсказание вторичной структуры сред- ней аминокислоты в окне последовательности запроса. Склонность к формированию вторичной структуры В свое время было предпринято множество попыток предсказать вто- ричную структуру прямо по последовательности аминокислот. Наблюдения над растворами образцовых полипептидов показали, что аминокислоты об- ладают сильной изменчивостью в склонности к образованию регулярных конформаций. Самые первые попытки предсказания вторичной структуры базировались на параметризации физических моделей. Так, в ходе физико- химических исследований образцовых полипептидов было установлено, что склонность аминокислоты к продолжению спиралей может отличать- ся от ее же склонности к зарождению таковых. Чоу и Фасмен предложили подход, основанный на статистической мо- дели. Согласно этому подходу частоту появления определенной аминокис- лоты в некоторой конформации сравнивают со средним значением частот появления в этой же конформации всех известных аминокислот (из ал- фавита). Полученное отношение выражает склонность этой аминокислоты к появлению в данной конформации. По этим величинам аминокислоты были классифицированы на различные классы, и на их же основании были сформулированы правила предсказания вторичной структуры. Оба метода (Чоу-Фасмена и «ГОР») опираются на концепцию склонно- сти аминокислот к формированию определенных вторичных структур. Как оказалось, аминокислоты оказывают предпочтение некоторым состояниям вторичной структуры, что отражено в таблице 7.1. Например, глутамино- вая кислота отдает явное предпочтение спиральной вторичной структуре, а валин имеет склонность (ниже среднего) к обоим типам регулярной вто- ричной структуры, что говорит о его тяготении к петлям. Однако точность этих ранних методов, основанных на местном составе аминокислот отдельных последовательностей, была довольно низка и поз- воляла предсказать правильное состояние вторичной структуры не более чем 60 % остатков.
208 Глава 7 Таблица 7.1. Склонность аминокислот к формированию спиралей и нитей. Значение вероятности 1,0 указывает на то, что склонность данной аминокислоты к соответ- ствующей вторичной структуре равна усредненной склонности всех известных ами- нокислот; превышающие единицу значения указывают на склонность выше сред- ней; значения меньше единицы указывают на склонность ниже средней. (Значения рассчитаны путем деления частоты встречаемости данного остатка в соответствую- щей вторичной структуре на среднее значение частот появления в этой вторичной структуре всех известных остатков) Аминокислота се-Спирали /3-Нити Глу 1,59 0,52 Ала 1,41 0,72 Лей 1,34 1,22 Мет 1,30 1,14 Глн 1,27 0,98 Лиз 1,23 0,69 Apr 1,21 0,84 Гис 1,05 0,80 Вал 0,90 1,87 Иле 1,09 1,67 Тир 0,74 1,45 Цис 0,66 1,40 Трп 1,02 1,35 Фен 1,16 1,33 Тре 0,76 1,17 Гли 0,43 0,58 Асн 0,76 0,48 Про 0,34 0,31 Сер 0,57 0,96 Асп 0,99 0,39 7.2.2. Собственное стремление аминокислот к формированию /3-изгибов Частота появления пар аминокислот в /3-изгибах была вычислена по данным анализа результатов исследования кристаллической структуры бел- ка. Были отмечены следующие частоты: Про-Асн (63 %), Про-Фен (50 %),
7.2. Стратегии предсказания белков 209 Про-Гли (38 %), Про-Сер (31 %) и Про-Вал (8 %). Однако статистический анализ, основанный на ином критерии оценки склонности к /3-изгибам, показал существенное различие в порядке предпочтений. Так, при исследо- вании набора белковых структур из базы данных был определен следующий порядок предпочтений: Про-Гли > Про-Асн > Про-Сер > Про-Вал > Про- Фен. Склонность к формированию /3-изгибов оценивалась путем измере- ния стандартной свободной энергии Гиббса циклизации пептида в образцо- вых тетрапептидах типа Цис-Про-Х-Про. Был отмечен следующий поря- док предпочтений: Про-Асн > Про-Гли > Про-Сер > Про-Фен > Про-Вал. Измерения (ЯМР-анализ) температурной зависимости химических сдвигов в образцовых пептидах типа Тир-Про-Х-Асп-Вал позволили определить семейства /J-изгибов. Согласно данным ЯМР-спектроскопии, семейства /3-изгибов стоят в порядке Про-Гли > Про-Асн > Про-Фен > Про-Сер > Про-Вал. Совместный анализ данных термодинамики, ЯМР и (статистических) данных о кристаллической структуре показывает, что порядок предпочте- ний выглядит как: Про-Гли, Про-Асн > Про-Сер > Про-Вал. Хотя относи- тельное положение пары Про-Фен кажется очень изменчивым в этом ряду, для других пептидов наблюдается четкая корреляция между статистиче- скими предпочтениями, рассчитанными по белковым структурам из базы данных и предпочтениями, основанными на данных термодинамического анализа и ЯМР-спектроскопии образцовых соединений. 7.2.3. Библиотеки ротамеров Ротамерами называют конформации боковых цепей, обладающие низ- кой энергией. Новаторская работа о конформационных предпочтениях бо- ковых цепей показала, что несколько конформационных вариантов боко- вых цепей имеют намного более высокую вероятность существования, чем другие. Эти результаты побудили ученых к проведению целого ряда иссле- дований, призванных определить функцию вероятности того, что данная боковая цепь, присущая данной аминокислоте, появится в соответствую- щей конформации, а также установить зависимость конформации боковой цепи от конформации основной цепи. Благодаря значительно возросшему объему баз данных, было создано множество библиотек ротамеров. Библиотеки ротамеров могут быть исполь- зованы в молекулярном моделировании: алгоритм извлекает из них наибо- лее вероятные конформации боковых цепей и добавляет их к основной цепи макромолекулы.
210 Глава 7 7.2.4. Предсказание трехмерной структуры Результаты сравнительного анализа белковых структур показывают, что новые предсказываемые структуры белков часто имеют свертки, или конфигурации, подобные таковым уже известных структур. Проведенные сравнения структур свидетельствуют также о том, что многие различные последовательности аминокислот в белках могут принимать одинаковую свертку структуры. Анализ последовательностей этих структур показал, что в различных структурных средах могут быть найдены одинаковые короткие регулярные комбинации аминокислот. В ходе экспериментов по выравниванию структур было обнаружено не менее 500 общих структурных сверток, появляющихся в доменах бо- лее 12 500 трехмерных структур из Брукхейвенского «БДБ». Кроме того, эти исследования показали, что одинаковую свертку могут принять мно- гие различные последовательности. Таким образом, существует множество сочетаний аминокислот, которые могут совмещаться в одинаковые трехмер- ные конформации, заполняя свободное пространство и образуя надлежащие контакты с соседними аминокислотами, что приводит к формированию об- щей трехмерной структуры. Есть также достаточно высокая вероятность того, что новая последова- тельность будет соответствовать какому-либо известному образцу свертки. Цель распознавания сверток состоит в том, чтобы обнаружить, какая свертка лучше всего подходит новой последовательности. Для предсказания трех- мерной структуры применяют скрытые марковские модели (дискретные мо- дели в пространстве состояний) или протягивание. Если два белка показывают существенное подобие последовательно- стей, то они, очевидно, должны обладать подобными трехмерными струк- турами. Подобие может распространяться как на всю длину последователь- ностей, так и на одну или несколько отдельных областей с относительно короткими (смежными или перемежающимися пропусками) регулярными комбинациями мономеров. Принято считать, что если в глобальном вырав- нивании последовательностей более 45 % позиций аминокислот идентич- ны, то эти аминокислоты должны быть вполне совместимы в трехмерной структуре белка. Таким образом, если структура одного из выравниваемых белков из- вестна, то может быть достоверно предсказана структура второго белка, а также положения идентичных аминокислот в его структуре. Если иден- тичными являются менее 45 %, но более 25 % аминокислот, то структуры соответствующих белков, вероятно, будут подобными, однако чем меньшим будет число идентичных аминокислот, тем более явными будут изменения в соответствующих пространственных положениях.
7.2. Стратегии предсказания белков 211 7.2.5. Сравнительное моделирование К сравнительному моделированию, которое чаще всего называют мо- делированием гомологий, следует прибегать в том случае, когда извест- на трехмерная структура последовательности, показывающей существенное подобие с оцениваемой последовательностью белка. Эти две последователь- ности выравнивают и определяют в них подобные сегменты. Если известно несколько подобных структур, то применяют множественное выравнивание по следовательно стей. Было отмечено, что достоверность предсказания структуры методом сравнительного моделирования тем выше, чем больше рассматривается по- добных структур. Эффективность выравнивания существенно затрагивает точность последующего предсказания структуры. За построением выравнивания, позволяющего определить взаимно со- ответствующие остатки, следует предсказание структуры интересующего нас белка на основании оценки структур гомологов. Для выполнения этого шага имеется несколько алгоритмов. Они могут быть широко классифици- рованы на алгоритмы 1) сборки твердых тел, 2) сопоставления сегментов и 3) удовлетворения пространственным ограничениям. Алгоритмы сборки твердых тел собирают структуру из твердых тел — моделей ядер, петельных областей, боковых цепей и т. д. Эти твердые те- ла опознаются по родственным структурам и добавляются к каркасу, кон- фигурация которого определяется путем усреднения положений эталонных атомов в консервативных областях свертки образца. Программа сопоставле- ния сегментов рассчитывает координаты по приблизительным положениям консервативных атомов в структурах образцов. При этом используется база данных коротких сегментов белковых структур. Помимо этогр в расчет могут быть приняты законы геометрии или пра- вила энергии состояний. Для получения набора ограничений по расстояни- ям можно применить выравнивание рассматриваемой последовательности с одним или несколькими образцами структуры. Следовательно, алгоритм определения искомой структуры вполне может опираться на принципы мет- рической геометрии, ограниченной минимизации энергии или ограничен- ной молекулярной динамики. Шаги Ниже приведена последовательность шагов алгоритма сравнительного моделирования: 1. Выровнять аминокислотные последовательности белка-цели с белком (белками) с известной структурой.
212 Глава 7 2. Определить такие сегменты основной цепи, которые представляют со- бой области, содержащие вставки или удаления. Вшивание этих обла- стей в основную цепь известного белка позволяет построить модель полной основной цепи целевого белка. 3. Заменить боковые цепи мутировавших остатков. У тех остатков, кото- рые не мутировали, сохранить исходную конформацию боковых цепей. 4. Проверить модель (визуально и автоматически) и попытаться обна- ружить любые серьезные конфликты между атомами. Устранить эти конфликты. 5. Уточнить модель путем ограниченной минимизации энергии. 7.2.6. Протягивание Протягивание — это метод распознавания сверток. Имея в своем рас- поряжении библиотеку известных структур и последовательность исследу- емого белка с неизвестной структурой, мы задаемся вопросом: обладает ли этот белок такой же точно структурой, что и эталонный белок? Протяги- вание — это метод сопоставления последовательности с формой. Протягива- ние отталкивается от того факта, что даже белки с очень низким подобием последовательностей часто имеют тождественные структуры. Метод протягивания можно применять в отсутствие любой существен- ной идентичности последовательностей нового белка и последовательно- стей белков с известной структурой, тогда как для сравнительного моде- лирования необходимо найти структуры белков, последовательности ко- торых существенно подобны последовательности рассматриваемого белка. Последовательность запроса сопоставляют с базой данных известных свер- ток и принимают за верное, что белок имеет ту же свертку, что и лучшее совпадение. Теоретические соображения позволяют утверждать, что общее коли- чество возможных сверток белков ограничено. Следовательно, возможно предсказать структуру белка, характерного для каждой возможной свертки. Основной принцип протягивания состоит в построении возможно большего числа упрощенных моделей исследуемого белка (на основании сравнений со всеми известными структурами, а также оценки различных возможных выравниваний последовательностей известных и неизвестных белков). Алгоритмы протягивания могут работать на уровне информации о по- следовательности, о структуре или на обоих уровнях. Процесс протягива- ния включает в себя две основные операции: а) отыскание оптимального
7.2. Стратегии предсказания белков 213 выравнивания последовательности со структурой (с возможным введением пропусков) и б) назначение счета различным выравниваниям и принятие решения об оптимальной форме. Назначение счета можно выполнить 1) пу- тем картографирования структурной информации и создания профилей для всех структурных участков или 2) посредством оценки потенциалов парных взаимодействий. Модели, основанные на парных взаимодействиях, обычно имеют от- носительно более высокую избирательность. Однако поиск оптимального выравнивания с помощью такой оценки оказывается гораздо труднее и в вы- числительном отношении намного дороже. 7.2.7. Энергетический подход к предсказанию белковых структур Сущность энергетического подхода заключается в вычислении потен- циальной энергии различных конформаций; конформация с самой низкой энергией принимается за структуру рассматриваемой молекулы. Вид функ- ции потенциальной энергии зависит от физики взаимодействующих тел. Функция потенциальной энергии содержит члены, выражающие хорошо изученные взаимодействия (например кулоновского взаимодействия заря- женных тел), члены, отражающие взаимодействия между поляризуемыми атомами, и т. п. Если эксперименты проводят в приложенных силовых полях, осно- ванных на переменной геометрии, то в функцию потенциальной энергии включают члены, выражающие отклонения от принятой в качестве допу- щения «идеальной геометрии». Идеальную геометрию различных остатков определяют с помощью изучения высокоразрешающих структур образцо- вых соединений. Коэффициенты функции потенциальной энергии могут быть найдены посредством квантовомеханических вычислений ab initio, либо путем анализа термодинамических, спектроскопических или кристал- лографических данных — с учетом одного вида данных или всех трех. Однако основанные на подходе ab initio попытки определения глобаль- ного минимума энергии были менее успешны, чем подходы, опирающиеся на знания. Причиной этого была 1) неточность существующих функций энергии и 2) вычислительная трудность поиска глобального минимума. Развитие энергетических методов (применимых для определенных си- ловых полей, основанных исключительно на физике взаимодействующих тел и распознающих структуру с минимальной энергией в качестве натив- ной) было бы главным шагом к выяснению роли отдельных взаимодействий в формировании структуры белка, а также к пониманию механизмов ее свертывания.
214 Глава 7 По ряду причин поиск глобального минимума энергии белков действи- тельного размера не может быть выполнен на уровне общей совокупно- сти атомов; поэтому большее внимание получили методы моделирования полипептидных цепей с помощью моделей объединенных остатков. По- сле того как глобальный минимум будет найден на уровне объединенных остатков, он может быть экстраполирован на представление полной со- вокупности атомов и распространен на ограниченную область конформа- ционного пространства в окрестности преобразованной структуры. В це- лом этот подход получил название «иерархический подход к свертыванию белка». 7.2.8. Предсказание функций белков При сравнении белковых структур может быть выявлено родство ис- следуемого белка и дальних гомологов с известной функцией, и эта гомо- логия в свою очередь может послужить ключом для предсказания функции исследуемого белка. Если последовательности гомологов показывают высо- кую степень подобия, то для определения родства могли бы быть пригодны методы, основанные на сравнении последовательностей. Однако в случае низкого подобия последовательностей сравнение белковых структур может показать отношения, которые не удалось выявить методами, опирающимися исключительно на анализ аминокислотных последовательностей. В ходе эволюции белки могут 1) сохранить и функцию и специфику, 2) сохранить функцию, но изменить специфику, 3) измениться на зависимую функцию или подобную функцию в отличном метаболическом контексте и 4) измениться на совершенно независимую функцию. Белки с подобными структурами и даже с подобными последовательностями могут выполнять весьма различные функции. И напротив, сильно разошедшиеся белки мо- гут сохранить подобные функции. Более того, сколько различных после- довательностей совместимы с одной и той же структурой, ровно столько же эволюционно несвязанных белков с различными свертками могут вы- полнять одинаковые функции. Если в последовательностях ферментов, принадлежащих к одному го- мологическому ряду, удается определить набор сильно консервативных остатков, которые пространственно близки, но не требуются для струк- турной стабилизации, то можно предположить, что они являются остатка- ми активного участка. Установление природы остатков активного участка позволило бы подобрать ключи к функции и механизму действия данного фермента.
7.3. Программы предсказания белков 215 Домены В структуру некоторых белков входят особые элементы (модули), кото- рые и обусловливают взаимодействия между белковыми молекулами. Рас- познавание таких доменов помогает опознавать участников таких межмо- лекулярных взаимодействий. Например, присутствие в исследуемом белке домена SH2 или домена РТВ указывает на его сродство ко всякому белку, содержащему остаток фосфотирозина. Наличие мономерного домена PD2 свидетельствует о его возможном взаимодействии с белком, содержащим домен PDZ/LIM, или с С-концевой областью мембранных белков. Присутствие в белке домена гомологии Плекстрина указывает на то, что он, вероятно, будет вовлечен в переда- чу сигналов и, возможно, будет связываться с богатыми кислотами обла- стями белка, участвующего в передаче сигналов, или же с фосфоинозити- дами. В рентгеноструктурном анализе кристаллов применяют метод моле- кулярного замещения, что позволяет получить начальный набор фаз. Если в базе данных удается найти белок, последовательность которого суще- ственно подобна последовательности исследуемого белка, то его структура может быть использована для построения модели исследуемого белка ме- тодом сравнительного моделирования. По координатам атомов этой структуры можно вычислить структур- ные факторы. Затем по фазе рассчитанных структурных факторов и по измеренным значениям величин структурных факторов вычисляется новая модель электронной плотности. Полученная таким образом модель может быть уточнена путем приближения по методу наименьших квадратов или посредством аппроксимации рядами Фурье. 7.3. Программы предсказания белков Известно несколько вычислительных алгоритмов предсказания, пред- полагающих опознавание неизвестных белков по наличию известных хи- мических и физических свойств аминокислот из алфавита. Многие из этих программ доступны через сервер «Экспази», принадлежащий «Швейцар- скому институту биоинформатики». «Аакомпидент» (AACompIdent) опре- деляет аминокислотный состав неизвестного белка и находит известные белки с тем же самым составом. «Аакомпсим» (AACompSim), вариант про- граммы «Аакомпидент», выбирает последовательности известных белков из базы данных «Свисс-прот».
216 Глава 7 Программа «ПРОПСЁРЧ» (PROPSEARCH) устанавливает аминокис- лотный состав белка, по которому обнаруживает слабые отношения между белками и таким образом опознает членов, принадлежащих к одному се- мейству. Алгоритм «МАУС» (MOWSE — MOlecular Weigh SEarch — поиск молекулярного веса) анализирует информацию, полученную с помощью масс-спектрометрических методов. Существует и несколько других про- грамм, предназначенных для анализа физических свойств, обусловленных аминокислотной последовательностью. Программы «КомпьютепИ/МВ» (ComputepI/MW) и «Протпарам» (ProtParam) рассчитывают изоэлектриче- скую точку и молекулярный вес первичной последовательности белка. «Пептидмасс» (PeptideMass) определяет продукты расщепления бел- ка после воздействия определенной протеазы или химического реагента. «ТГРИС» (TGREASE) вычисляет гидрофобность белка в пределах всей це- пи. Алгоритм «САПС» (SAPS — Statistical Analysis of Protein Sequences — статистический анализ белковых последовательностей) выдает исчерпыва- ющую статистическую информацию о любой заданной последовательности запроса. Есть также несколько других программ, разработанных для анали- за мотивов и регулярных комбинаций. С помощью программы «БЛАСТ» выполняют поиск в общедоступных базах данных с целью найти по- следовательности, подобные изучаемой последовательности запроса. Про- грамма «ПСИ-БЛАСТ» предназначена для обнаружения новых, отдален- но связанных членов некоторого семейства белков путем анализа после- довательностей из подобного семейства. Основанная на методе «Пфскан» (Pfscan) программа «Профильскан» (ProfileScan) находит в библиотеке про- филей подобия последовательности запроса (белковой или нуклеиновых кислот). База данных «Блоки» опирается на понятие блоков и определяет семей- ство с помощью анализа подобного семейства последовательностей. «Про- фильскан» анализирует сами белки и даже не рассматривает отдельные по- следовательности. К «БДКД» (CDD — Conserved Domain Database — «Базе данных консервативных доменов») обращаются, когда необходимо опознать консервативные домены в пределах белковой последовательности. Известно также несколько программ, предназначенных для анализа классов вторичных структур и сверток. Алгоритм «Ннпредикт» использует двухслойную нейронную сеть с прямой связью и приписывает предсказан- ный тип структуры каждому остатку; совместим с форматом «ФАСТА». Программа «Предиктпротеин» (PredictProtein) предсказывает вторичную структуру, для чего обращается к БД «Свисс-прот» и применяет алгоритмы «Максхом» (МахНот) и «ПХДсек» (PHDsec).
7.3. Программы предсказания белков 217 Алгоритм «ПРЕДАТОР» (PREDATOR) оперирует набранной в ба- зе данных статистикой относительно появления типов остатков в раз- личных классах местных структур, образованных водородными связями. «ПСИПРЕД» (PSIPRED) использует две нейросети с прямой связью, по- средством которых выполняет анализ профиля, предоставленного програм- мой «ПСИ-БЛАСТ». «СОПМА» (SOPMA — Self-Optimized Prediction Method — метод само- оптимизирующегося предсказания) строит вспомогательные базы данных последовательностей белков с известными вторичными структурами, пред- сказанными на основании подобия последовательностей. Затем информация из вспомогательных баз данных используется при составлении предсказа- ния для последовательности запроса. «СОПМА» — комбинация пяти дру- гих методов (метода «ГОР» (Гарнье-Осгаторпа-Робсона), метода гомоло- гий Левина, метода двойного предсказания, метода «ПХД» (PHD) и метода «КНРС» (CNRS)). «Джпред» (Jpred) объединяет в себе шесть различных методов предска- зания структуры и возвращает согласованное предсказание, основанное на правиле простого большинства. С сервера «Джпред» запускаются програм- мы «ПХД», «ДСК» (DSC), «ННССП» (NNSSP), «ПРЕДАТОР», «ЗПРЕД» (ZPRED) и «МУЛПРЕД» (MULPRED). Кроме того, есть некоторые алгоритмы, предназначенные для опознава- ния особых структур или характеристик. Алгоритм «КАТУШКИ» (COILS) сравнивает последовательность запроса с последовательностями белков из базы данных, которые имеют структуру типа спиральной катушки. Про- граммы «ТМпред» (TMpred) и «ПХДтопология» (PHDtopology) приме- няют для предсказания трансмембранных областей. «СигналП» (SignalP) обнаруживает сигнальные пептиды и участки их расщепления. «СЕГ» (SEG) позволяет обнаружить неглобулярные области. Программы «ДАЛИ», «Свисс-МОДЕЛЬ» *(Swiss-MODEL) и «ТОПИТС» (TOPITS) предназначены для предсказания третичной структуры. «РОЗЕТТА» (ROSETTA) предсказывает структуру белка по последо- вательности аминокислот с помощью анализа информации об известных структурах. Для предсказания структуры белка эта программа сначала мо- делирует структуры фрагментов (по данным оценки известных структур) и затем объединяет их в модель структуры целой молекулы. Программа «ЛИНУС» (LINUS — Local Independently Nucleated Units of Structures — ло- кальные независимо зарождающиеся структурные единицы) предназначе- на для предсказания структуры белка по последовательности аминокислот. В основу ее положен исключительно априорный метод, который совершен- но не использует информацию об известных структурах или о взаимосвязи последовательностей со структурами.
218 Глава 7 7.4. Визуальное отображение молекул Визуальное отображение молекул помогает ученым конструировать молекулы белка. Существует ряд бесплатных и коммерческих пакетов про- граммного обеспечения, которые предназначены для визуализации био- молекул. Наиболее популярными из свободно доступных пакетов стали: «Расмол» (RasMol), «Чайм» (Chime), «Молмол» (MolMol), «Протеин икс- плорер» (Protein explorer) и «Кайнимидж» (Kinemage). Название «Расмол» — сложное сокращение словосочетания «растр молекул» (растром называют матрицу пикселов на экране компьюте- ра). Это программа молекулярной графики, предназначенная для визуа- лизации белков, нуклеиновых кислот и маленьких молекул с известной трехмерной структурой. Для отображения молекулы «Расмолу» необхо- дим файл атомных координат, который описывает положение каждого атома в молекуле с помощью пространственных декартовых координат. «Расмол» допускает самые разные форматы файла координат, включая формат «БДБ». Пользователь может выбрать угодный ему цветовой ре- жим и форму представления молекулы. «Расмол» может работать незави- симо от программы-обозревателя. Адрес его домашней страницы следу- ющий: www.umass.edu/microbio/rasmol. «Чайм» и «Протеин иксплорер» — производные «Расмола», ко- торые позволяют визуально отображать молекулы в окне программы- обозревателя. Следовательно, с ними можно работать только при подклю- чении к сети. Доступ к «Чайму» обеспечивает следующий адрес: www.umass.edu/microbio/chime. Название «Молмол» образовано от английского MolMol — Molecule analysis and Molecule display — анализ и отображение молекулы. «Мол- мол» — программа молекулярной графики для отображения, анализа и редактирования трехмерных структур биологических макромолекул, спе- циализированная преимущественно на структуры белков и нуклеиновых кислот, определенные методом ЯМР-спектрометрии. Адрес «Молмол» сле- дующий: www.mol.biol.ethz.ch/wuthrich/software/molmol. Программа «Кайнимидж» (Kinemage — kinetic images — кинематиче- ские изображения) позволяет перемещать две молекулы или различные ча- сти молекулярного комплекса друг относительно друга. Программа «Мол-
7 А. Визуальное отображение молекул 219 скрипт» (Molscript) предназначена для создания мультипликаций элементов вторичной структуры. «Грасп» (Grasp) применяют для визуального отобра- жения поверхности молекул. «Свисс-БДБвьювер» (Swiss-PDBviewer) про- изводит высококачественные изображения посредством визуализации мето- дом обегающего луча. Коммерческое программное обеспечение «Инсайт II» (Insight II) предназначено для поддержки аппаратных средств ЭВМ для диа- логовой пространственной визуализации. Ниже даны адреса веб-узлов некоторых из упомянутых выше про- грамм: ComputepI/MW MOWSE PeptideMass TGREASE SAPS AACompIdent AACompsim ROPSEARCH BLOCKS Pfam PRINTS ProfileScan nnpredict PredictProtein SOPMA Jpred PSIPRED PREDATOR COILS PHDtopology SignalP Tmpred http://www.expasy.ch/tools/pi_tool.htmlhttp://srs.hgmp.mrc.ac.uk/cgi-bin/mowse http://www.expasy.ch/tools/peptide-mass.htmlhttp://ftp.virginia.edu/pub/FASTA/ http://www.isrec.isb-sib.ch/software/SAPS_form.html http: // www. expasy. ch/tool s. aacomp/ http: //www. expasy. ch/tools/aacsim/ http://www.embl-heidelberg.de/prs.htmlhttp://blocks.fhcrc.org http://www.sanger.ac.uk/software/Pfam/ http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/PRINTS.htmlhttp://www.isrec.isb-sib-ch/software/PFSCAN-form.html http://www.cmpharm.ucsf.edu/~nomi/nnpredict.htmlhttp://www.embl-heidelberg.de/predictprotein/ http://pbil.ibcp.fr/ http://jura.ebi.ac.uk:8888/http://insulin.brunel.ac.uk/psipred http://www.embl-heidelberg.de/predator/predator_ifho.htmlhttp://www.ch.embnet.org/software/COILS_form.html http://www.embl-heidelberg.de/predictproteinhttp://www.cbs.dtu.dk/services/signalP/ http://www.isrec.isb-sib.ch/ftp- server/tmpred/www/TMPRED_form.html DALI SWISS-MODEL TOPITS http://wwwz.ebi.ac.uk/dali/ http://www.expasy.ch/swissmod/SWISS-MODEL.html http://www.embl-heidelberg.de/predictprotein/
220 Глава 7 Контрольные вопросы 1. В каких случаях применяют методы предсказания структуры? 2. Какие стратегии используются в предсказании генов? 3. Какие методы предсказания структуры иРНК вам известны? 4. Приведите примеры некоторых из наиболее употребительных методов предсказания генов. 5. Чем вызвана необходимость предсказания белковых структур? 6. Какое из описанных в этой главе средств вы бы избрали для предска- зания вторичной структуры? 7. В чем заключается собственное стремление аминокислот к формиро- ванию /3-изгибов? 8. Что такое библиотека ротамеров? 9. Какова разница между методами предсказания ab initio и методами, основанными на знаниях? 10. Каким образом осуществляется сравнительное моделирование? 11. Каковы шаги сравнительного моделирования? 12. Что такое протягивание белков? 13. Что такое энергетический подход к предсказанию структур? 14. В чем состоит предсказание функции белка? 15. Приведите примеры некоторых программ предсказания белков. 16. Какие преимущества дает визуальное отображение молекул? 17. Приведите несколько примеров программ визуализации молекул.
Глава 8 Гомология, филогения и эволюционные деревья Слово «гомология» буквально означает происхождение от общего предка. Обычно потомки некоторого общего предка показывают подо- бие по нескольким признакам. Такие признаки называют гомологичными. Во время своего пребывания на Галапагосских островах в 1835 году Чарльз Дарвин проводил наблюдения над зябликами и отметил различия в формах их клювов, а также установил связь формы клюва с особенностями добы- вания корма. Клювы тех зябликов, которые питаются фруктами, подобны клювам попугаев; зяблики, которые едят насекомых, ловят их с помощью узких, прямых клювов. Эти наблюдения послужили Дарвину толчком к раз- витию теории эволюционного пути происхождения видов. 8.1. Гомология и подобие Долгое время слова «гомология» и «подобие» употребляли как взаимо- заменимые синонимы — даже несмотря на то, что они формально отличны. Подобие является мерой сходства или различия и не зависит от источни- ка сходства. Подобие может наблюдаться среди данных, которые можно собрать в настоящее время, и не подразумевает никакой исторической ги- потезы. Напротив, утверждения о гомологии основаны исключительно на умозрительных выводах об исторических событиях, которые практически не поддаются наблюдению. Мера подобия может быть выражена количе- ственно, а гомология — прежде всего качественный показатель. Если установлено, что последовательности разошлись от общего пред- ка, то их называют гомологичными. Если же свертки белков подобны, но первичные последовательности отличны, то такие свертки считают ана- логичными. Сущность анализа последовательностей состоит в обнаруже- нии гомологичных последовательностей путем тривиального поиска в базах данных, обычно по неизвестным или неописанным последовательностям за- проса. Гомология не есть мера подобия, но абсолютное утверждение о том,
222 Глава 8 что последовательности имеют расходящуюся, а не сходящуюся эволюци- онную связь. Последовательности, которые показывают взаимное подобие выше некоторого условного уровня, определенного путем выравнивания соответ- ствующих оснований, называют гомологичными. Такие последовательно- сти происходят от общего предка, который обладал подобной структурой; при этом структуру самого предка часто бывает трудно определить, по- скольку в ходе смены поколений она последовательно видоизменялась. Ортологи, Паралоги и Ксенологи Гомологи подразделяют на ортологи, паралоги и ксенологи. Ортоло- гами называют гомологичные гены, которые имеют общую родословную и функцию при отсутствии любых данных о дублировании гена. (Если име- ется информация, подтверждающая факт дублирования гена, то гены, кото- рые принадлежат эволюционной ветви, нисходящей от одного из дублетов, и выполняют аналогичные функции, также упоминаются как ортологи.) Ортологи появляются в результате видообразования. Это гены, которые происходят от общего предка и расходятся ввиду расхождения организмов, геномам которых они принадлежат. Их функции стремятся к подобию. Паралоги возникают вследствие дублирования гена. Они представляют собой гены, которые произошли от самодублировавшегося предкового гена и затем разошлись. Две копии дублированного гена и их потомки в нис- ходящей эволюционной ветви называют паралогами. Различие их функций постепенно усиливается. Ксенологами гены становятся в результате их горизонтальной (в пре- делах одного колена дерева) передачи между двумя организмами. В других случаях наличие взаимно подобных областей в последовательностях может быть обусловлено не происхождением их от общего предка, а, возможно, независимым развитием по двум эволюционным путям, сходящимся на од- ной функции (пример так называемой сходящейся эволюции). Изучение ортологичных и паралогичных белков В категории гомологичных последовательностей полезно проводить различие между белками, которые выполняют одну и ту же функцию в ор- ганизмах различных биологических видов (ортологами) и белками, которые исполняют различные, но зависимые функции в пределах одного организ- ма (паралогами). Сравнение последовательностей ортологичных белков от- крывает путь к изучению молекулярной палеонтологии. Так, построение
8.1. Гомология И ПОДОБИЕ 223 филогенетических деревьев показало эволюционные связи между белками бактерий, грибов и млекопитающих, а также между белками животных, насекомых и растений. Подобные открытия возможны только благодаря ис- следованиям на молекулярном уровне. Изучение паралогичных белков со своей стороны дало более глубокое понимание основных механизмов эволюции. Паралогичные белки произо- шли от общих предковых генов в ходе ряда их последовательных дублиро- ваний. Дублированные гены следовали по отдельным эволюционным путям, и новые свойства развивались благодаря изменчивости и приспособляемо- сти организмов. Появление различных свойств и функций, сопряженное с событиями дублирования гена, может быть обнаружено путем сравнения последовательностей белков. Например, различные зрительные рецепторы (опсины), которые ото- шли друг от друга еще в начале эволюции позвоночных, реагируют на свет различной длины волны. Длинноволновые опсины человека (чувствитель- ные к красной и зеленой областям спектра) более тесно связаны друг с дру- гом (приблизительно 95% идентичности последовательностей), чем каж- дый из них с коротковолновыми синими опсинамми или с родопсинами (ахроматическими рецепторами), с которыми они разделяют в среднем 43 % идентичности последовательностей. Сложность, обусловленная наличием целого комплекса взаимосвязанных отношений между паралогами и между ортологами, значительно затрудняет классификацию семейств белков. Модульные белки Основная проблема анализа последовательностей заключается в необ- ходимом единении биологической информации с данными расшифровки последовательностей. Этот процесс осложнен трудностью соотнесения ор- тологии с паралогией. Аналитический процесс в свою очередь осложнен тем фактом, что иногда подобие последовательностей ограничено только некоторой частью выравнивания. В частности, события развиваются по та- кому сценарию, когда мы изучаем модульные белки. Модули можно представить как подмножества белковых доменов; это самостоятельные единицы свертки, примыкающие друг к другу и часто слу- жащие структурными элементами для сборки белковой молекулы. Будучи составными элементами общей конфигурации, они могут быть использова- ны для передачи богатой палитры различных функций родительского бел- ка — или путем многократных комбинаций какого-либо одного модуля, или посредством комбинации различных модулей с образованием конфигураци- онных мозаик.
224 Глава 8 Если причину столь широкого распространения модулей рассматри- вать в генетическом аспекте, то ее нельзя объяснить исключительно собы- тиями дублирования и слияния генов; как полагают ученые, данный факт обусловлен действием механизмов перегруппировки генов. Какой биологи- ческий процесс ни возьми, кажется, что матушка Природа ведет себя как нерадивая портниха, использующая ворох всевозможных лоскутов, чтобы наспех скроить новое удобоносимое целое. Модистка Эволюция, очевидно, не утруждает себя созданием новых моделей, но работает со старым мате- риалом: или обновляет моды, ушивая их новыми кружевами, или сшивает их вместе, стараясь произвести более пестрый наряд. 8.2. Филогения и родство Обычно живые организмы классифицируют на группы по наблюдае- мым подобиям и различиям. Если два организма очень близко связаны друг с другом, то, как правило, принимают за верное, что они имеют недавне- го общего предка. Филогения — это описание биологических отношений, обычно изображаемое в виде дерева. Отмеченные подобия и различия меж- ду организмами используют для восстановления филогении. Науку об эво- люционных отношениях (связях) организмов называют филогенетикой. Филогенетический анализ относится к акту умозрительного выведения (вероятностной оценки) этих отношений. Филогенетический анализ пред- ставляет собой не что иное, как способ оценки эволюционных отношений. Эволюционную историю, восстановленную в результате филогенетического анализа, обычно изображают в виде разветвленных, древовидных диаграмм, которые представляют предполагаемую родословную наследственных отно- шений между молекулами, организмами или и тем и другим. Утверждение о филогении среди различных организмов предполага- ет их гомологию и зависит от классификации. Филогения устанавливает топологию отношений (схему родословной), выведенных либо на основа- нии классификации по подобию одного или нескольких наборов признаков, либо на основании модели эволюционных процессов. Во многих случаях филогенетические отношения, основанные на различных признаках, вполне достоверны и даже подтверждают друг друга. Эволюционное дерево Отношения среди видов, популяций, организмов или генов устанавли- вают, в буквальном смысле, по их родству или генеалогии, то есть путем построения схемы происхождения потомков от некоторого общего пред-
8.2. Филогения и родство 225 ка. Результаты обычно представляют в виде эволюционного дерева. Если последнее показывает всех потомков единственного исходного предкового вида, то его называют корневым. Эволюционные деревья, построенные по генетическим данным, часто базируются на умозаключениях из картины подобия (см. рис. 8.1). Филогенетический анализ семейства родственных последовательно- стей нуклеиновых кислот или белков заключается в установлении возмож- ных путей развития семейства в ходе эволюции. При построении дерева эволюционных отношений последовательности изображают в виде наруж- ных ветвей. Тогда разветвленные связи в кроне дерева отражают силу отно- шений между различными последовательностями. Цель филогенетического анализа состоит в том, чтобы обнаружить все ветвящиеся связи в дереве и определить длины его ветвей.
226 Глава 8 При анализе последовательностей нуклеиновых кислот и белков, наи- более тесно связанные последовательности могут быть определены по их положению на соседних ветвях дерева. Если в организме или группе ор- ганизмов удается обнаружить семейство генов, то филогенетические отно- шения среди генов такого семейства могут помочь предсказать, которые из них могли бы иметь эквивалентные функции. Если последовательности молекул двух нуклеиновых кислот или бел- ков, найденных в двух различных организмах, являются подобными, то это значит, что они, вероятно, произошли от общей предковой последовательно- сти. Выравнивание последовательностей показывает, какие позиции в этих последовательностях сохранились неизменными, а какие отошли от общей последовательности-предка. При абсолютной уверенности в том, что эти две последовательности состоят в эволюционном родстве, их можно счи- тать гомологичными. Эволюционное дерево — это двумерный граф, отражающий эволюци- онные отношения как самих организмов, так и их генов. Отдельные по- следовательности рассматриваются как таксоны, то есть филогенетически обособленные единицы — ветви дерева. Важно осознать, что каждый узел дерева представляет разветвление эволюционного пути (гена) организма на два разных вида, которые изолированы друг от друга в плане воспроизвод- ства. 8.2.1. Подходы к филогенетическому анализу В филогенетике приняты следующие систематические подходы: фене- тический (групповой), кладистический (временной) и эволюционный. Фенетический и кладистический подходы Согласно фенетическому подходу виды группируют на основании фе- нотипического сходства (подобия) и притом учитывают все признаки. Фило- генетические отношения, установленные через фенетический подход, обыч- но не относятся к эволюционной истории. В соответствии с кладистическим подходом в группы объединяют только те виды, которые имеют общие при- обретённые признаки, то есть признаки, которые отсутствовали у их даль- них предков. Кладистический подход основан на генеалогии. Этот подход, как полагают, является наилучшим методом для филогенетического анали- за, потому что он принимает текущую эволюционную теорию и опирается на нее, то есть предполагает, что новые виды образуются при разветвлении эволюционных линий (то есть путем кладогенеза).
8.2. Филогения и родство 227 Кладистический подход рассматривает возможные направления эволю- ции, выводит характеристики предков на всех узлах и выбирает оптималь- ное дерево согласно некоторой эволюционной модели. Отправной точкой кладистики служит тот факт, что члены одной группы, или одного клада, имеют общую эволюционную историю и более тесно связаны друг с другом, чем с членами любой другой группы. Данная группа определяется по некоторым общим характерным осо- бенностям, которые отсутствовали у далеких предков. Такими общими при- обретёнными признаками могут быть любые характеристики, которые мож- но визуально отметить и описать. Обычно кладистический анализ проводят или по набору фенотипических признаков или по множеству пар оснований или аминокислот в последовательности. Таким образом, фенетика основана на подобии, а кладистика — на генеалогии. В кладистике приняты три основных допущения: 1) Организмы любой группы связаны между собой происхождением от общего предка. 2) Эволюционные линии периодически разветвляются. 3) С течением времени у потомков происходит изменение характеристик. Клад, таксон и узел Кладом называют монофилетический таксон. Клад — это группа ор- ганизмов или генов, в которую входит ближайший общий предок всех ее членов и все потомки этого ближайшего общего предка. (Термин «клад» произошел от греческого слова «klados», означающего «ветвь» или «прут»). Таксоном называют, любую группу в классификации организмов (не обяза- тельно клад). Узел представляет собой точку разветвления эволюционной линии. В некоторых случаях длины ветвей соответствуют степени расхо- ждения видов (см. рис. 8.2). Человек Шимпанзе ------------------ Макака Резус (другой клад) Рис. 8.2. Родство трех млекопитающих, представленное в виде ветви филогенетиче- ского дерева
228 Глава 8 Методы В настоящее время наибольшее распространение получили три метода поиска эволюционного дерева (или деревьев), наилучшим образом отража- ющего наблюдаемые изменения в группе последовательностей; к ним отно- сятся методы максимальной экономичности, расстояний и максимального правдоподобия. Метод максимальной экономичности Метод максимальной экономичности (метод минимальной эволюции) предсказывает эволюционное дерево, которое минимизирует число шагов, необходимых для воспроизведения наблюдаемого изменения в последова- тельностях. Для того чтобы с наибольшей вероятностью предсказать, в ка- ких позициях последовательностей знаки совпадают, требуется построить множественное выравнивание этих последовательностей. В таких позициях множественного выравнивания будут расположены вертикальные столбцы с совпадающими знаками последовательностей. Для каждой выровненной позиции определяют такие филогенетиче- ские деревья, которые требуют наименьшее число эволюционных изме- нений, необходимых для того, чтобы произвести наблюдаемые изменения в последовательностях. Такой анализ проводят для каждой позиции в вы- равнивании последовательностей. Наконец, определяют те деревья, кото- рые производят наименьшее число изменений в целом для всех позиций последовательностей. Метод максимальной экономичности применяют для построения деревьев на основе минимального числа мутаций, необходимых для преобразования одной последовательности в другую. К основным сред- ствам анализа по методу максимальной экономичности, включенным в па- кет «ФИЛИП» (PHYLIP), относятся программы «ДНКПАЗ» (DNAPARS), «ДНКПЕННИ» (DNAPENNY), «ДНККОМП» (DNACOMP), «ДНКМУВ» (DNAMOVE) и «ПРОТПАЗ» (PROTPARS). Метод расстояний Согласно методам матриц расстояний, сначала строят все возможные выравнивания последовательностей (с целью определения наиболее близко связанных последовательностей), а затем на основании измеренных таким образом расстояний восстанавливают филогенетические деревья. Метод расстояний позволяет восстановить филогенетическое дерево группы путем оценки количества изменений в каждой паре последователь- ностей из этой группы. Последовательности в парах с наименьшим чис- лом изменений называют «соседями». На дереве такие последовательности
8.2. Филогения и родство 229 представлены ветвями, соединенными с общим узлом, который соответ- ствует общему предку. Цель методов расстояний состоит в отыскании дерева с правильным расположением соседей и такими длинами ветвей, которые как можно точнее воспроизводят исходные данные. Успех методов расстояний за- висит от того, насколько аддитивными в предсказанном эволюционном дереве будут расстояния между последовательностями из рассматривае- мой группы. К наиболее употребительным методам расстояний относятся: ГМЕНПАСА (групповой метод невзвешенных пар со средним арифметиче- ским — Unweighted Pair Group Method with Arithmetic mean, UPGMA) и объ- единения соседей (ОС), а также методы, основанные на оптимизации адди- тивности дерева расстояний (например МЭВ — метода минимальной эво- люции). В пакет «ФИЛИП» включены следующие программы анализа рас- стояний: «ФИТЧ» (FITCH), «КИТЧ» (KITSCH) и «НЕЙБОР» (NEIGHBOR). Метод максимального правдоподобия Метод максимального правдоподобия, основанный на вероятностном расчете, позволяет найти дерево, которое наилучшим образом описывает изменения, отмеченные в наборе последовательностей. Этот метод подо- бен методу максимальной экономичности в том, что анализ проводят для каждого столбца множественного выравнивания последовательностей. При этом учитывают все возможные деревья. По каждому построенному дереву оценивают число вероятных измене- ний, или мутаций, вызвавших наблюдаемые изменения в последовательно- стях. Поскольку частота появления новых мутаций очень мала, постольку чем больше мутаций необходимо для приведения некоторого дерева в со- ответствие с имеющимися данными, тем менее правдоподобно это дерево. Деревья с наименьшим количеством изменений будут наиболее правдопо- добны. Метод максимального правдоподобия позволяет построить ожидаемую модель изменений последовательности и для всех остатков взвесить вероят- ности их замен на любые другие остатки. Пакет «ФИЛИП» включает в себя две программы — «ДНКМЛ» (DNAML) и «ДНКМЛК» (DNAMLK), — пред- назначенные для анализа филогенетических отношений по методу макси- мального правдоподобия. Критерии филогенетического анализа Для проведения филогенетического анализа могут быть использованы многие различные критерии, как-то: морфологические характеристики, био-
230 Глава 8 химические свойства и данные расшифровки последовательностей нуклеи- новых кислот и белков. Информация такого рода очень полезна для срав- нительного анализа, потому что она представляет собой большую и несме- щенную выборку данных, которая охватывает все известные организмы и позволяет проводить сравнение как близкородственных, так и отдаленно связанных таксонов. Степень родства между последовательностями обычно определяют объективно и количественно, применяя для этого алгоритмы выравнивания последовательностей. Как самая популярная форма данных для филогене- тического или кладистического анализа, макромолекулы и в особенности последовательности нуклеотидов намного превосходят морфологические и другие признаки организмов. Этапы филогенетического анализа Филогенетический анализ состоит из четырех шагов. 1) Выравнивание (построение модели данных и извлечение набора фило- генетических данных). 2) Определение модели замен. 3) Построение дерева. 4) Оценка дерева. Самосовершенствование Самосовершенствование — это оценочный метод переборки дерева, вполне совместимый с методами расстояний, максимальной экономичности и максимального правдоподобия, а также с любым другим методом восста- новления деревьев. Результат самосовершенствующегося анализа, как пра- вило, выражен числом, связанным с некоторой ветвью филогенетического дерева и показывающим долю самосовершенствующихся реплик, сохраня- ющих монофилетичность клада. Самосовершенствование можно рассматривать как двухступенчатый процесс, состоящий из этапа формирования новых наборов данных из ис- ходного набора и этапа вычисления числа, которое дает относительное чис- ло появлений данной ветви в дереве. Это число обычно называют оценкой самосовершенствования. Оценка самосовершенствования, как полагают, яв- ляется мерой точности. На основании данных имитационного моделирова- ния было сделано предположение о том, что при благоприятных условиях
8.2. Филогения и родство 231 (примерно равные скорости изменения, симметричные ветви) оценки само- совершенствования, превышающие 70 %, соответствуют вероятности более 95 %, что была найдена истинная филогения. Другим методом, подобным самосовершенствованию, является метод складного ножа. Параметрическое самосовершенствование оперирует с моделируемыми на ЭВМ, но полно- стью отвечающими действительности репликами. Его можно применять в сочетании с любым методом построения деревьев. 8.2.2. Филогенетические деревья Филогенетические отношения принято представлять в виде деревьев (древовидных схем). Наиболее наглядно изобразить эволюционные отно- шения организмов можно с помощью графа. Граф — это простая диаграмма (абстрактная структура), применяемая для представления отношений между элементами например чисел, объектов или мест. Сами элементы изобража- ют в виде узлов, а отношения между ними показывают в виде связей, или ребер (соединительных линий). В филогенетических деревьях узлы пред- ставляют различные организмы, а связи показывают линии родословной. В теории графов деревом называют граф особого вида. Граф представ- ляет собой структуру, состоящую из узлов (абстрактных точек) и соеди- няющих их ребер (линий между точками). Путь от одного узла к другому складывается из множества последовательных ребер, первое из которых выходит из начальной точки (узла), а последнее входит в конечную точку (узел). Граф называют связным, если в нем между любыми двумя узлами можно провести по крайней мере один путь. Деревом называют связный ациклический граф, между каждыми двумя точками которого имеется стро- го один путь. Некоторый узел дерева может быть выбран в качестве его корня. Аб- страктные деревья могут быть корневыми или некорневыми. Некорневые деревья показывают топологию отношений, но не схему родословной. Кор- невое дерево, в котором каждый узел порождает двух потомков, называют бинарным деревом. К еще одному особому виду относят ориентированные графы, в которых каждое ребро имеет определенную ориентацию. Тогда, со- гласно данному определению, корневые филогенетические деревья являют- ся ориентированными графами, поскольку отношения типа предок-потомок подразумевают некоторую ориентацию всех ребер (см. рис. 8.3). К ребрам графа можно приписать числа, обозначающие, в некотором смысле, «расстояния» между узлами, соединенными этими ребрами. Затем этот граф можно начертить в масштабе, и тогда длины ребер будут про- порциональны приписанным расстояниям. Длина пути в графе равна сумме
232 Глава 8 л) Неизвестный примат б) ПОП Человек Шимпанзе Горилла Эукариоты Археи Бактерии Рис. 8.3. Корневые деревья: а) трех высокоразвитых приматов с общим (точно не установленным) приматом-предком; б) трех главных форм жизни на планете Зем- ля. Архей раньше называли архебактериями, а бактерий — Эубактериями. Название «Эукариоты» обращает внимание на ядерно-цитоплазматическую систему, прису- щую этим ядерным организмам (органеллы игнорируются). ПОП — последний об- щий предок всех известных жизненных форм. (Источник: D. R. Westhead et al., Instant Notes: Bioinformatics, Bios Scientific Publishers Ltd., 2003) длин составляющих его ребер. В филогенетических деревьях длины ре- бер обозначают либо некоторую меру различия между двумя видами, либо отрезок времени с момента их расхождения (см. рис. 8.4). Характерные свойства деревьев Деревья имеют некоторые отличительные особенности: 1) Узлы деревьев делятся на два типа: предковые и конечные (листья, вершины). Предковые узлы могут либо соответствовать, либо не со- ответствовать известным видам. Из предковых узлов выходят ветви. Они могут быть соединены либо с другими предковыми узлами, либо с конечными узлами, которые представляют известные виды. Конечные узлы отмечают конец эволюционного пути. 2) Деревья могут быть корневыми или некорневыми. Если в дереве выде- лен узел-предок, то его называют корневым. Если же положение предка не обозначено, то такое дерево является некорневым. 3) Все деревья бинарны. Эволюция видов представлена рядом последо- вательных разветвлений. 4) Длина ветвей может быть значимой или незначимой.
8.2. Филогения и родство 233 Иглокожие (морская звезда) Вторичноротые — Оболочники (аппендикулярия) ----Головохордовые (ланцетник) ----Круглоротые (минога, миксина) ----Хрящевые рыбы (акула) ----Костные рыбы (полосатый данио) ----Земноводные (лягушка) ----Млекопитающие (человек) I— Пресмыкающиеся (ящерица) ’— Птицы (курица) Рис. 8.4. Филогенетическое дерево позвоночных и наших ближайших родственни- ков. Как Хордовые, включающие в себя Позвоночных, так и Иглокожие относят- ся к Вторичноротым. (Источник: Lesk, А. М., Introduction to Bioinformatics у Oxford University Press, 2003) 8.2.3. Методы построения деревьев Методы построения деревьев могут быть разделены на методы, осно- ванные на расстояниях, и методы, основанные на подобии признаков. Методы расстояний Алгоритмы, опирающиеся на методы расстояний, вычисляют попар- ные расстояния согласно некоторой мере, после чего отбрасывают фактиче- ские данные и используют только фиксированные расстояния, по которым восстанавливают деревья, оптимизирующие закон распределения в наборах фактических данных для каждого признака. При этом попарные расстояния не фиксированы, но определяются топологией дерева. Методы расстояний предполагают восстановление деревьев на осно- вании оценки степени различия (расстояния) между двумя выровненными последовательностями. Метод расстояний позволил бы построить истинное дерево, если в последовательности были бы точно запечатлены все собы- тия генетического расхождения. Однако при насыщении последовательно- стей мутациями расхождение достигает верхнего предела. Групповой метод невзвешенных пар с вычислением среднего арифметического (ГМЕНПАСА)
234 Глава 8 относится к групповому, или фенетическому методу. Одноименный алго- ритм соединяет ветви дерева на основании критерия наибольшего подобия членов пар и вычисляет усредненные расстояния членов образованных пар от общих узлов. Алгоритм объединения соседей (ОС) обычно применяют при построе- нии дерева расстояний (независимо от выбранного критерия оптимизации). Метод Фитча-Маргобиаша (ФМ) стремится максимизировать соответствие наблюдаемых попарных расстояний некоторому дереву путем минимизации квадратов отклонения всех возможных наблюдаемых расстояний от соот- ветствующих возможных длин путей в этом дереве. Метод минимальной эволюции (МЭВ) пытается найти кратчайшее дерево, согласное с длинами путей, измеренных методом, подобным ФМ. Методы подобия Методы подобия на всех этапах анализа опираются на описание при- знаков. Это позволяет оценить достоверность позиции каждого основания в выравнивании с помощью оценки позиций всех остальных оснований. Принцип метода максимальной экономичности (МЭК) состоит в поиске дерева, которое требует наименьшего числа изменений, посредством кото- рых можно объяснить различия, отмеченные у рассматриваемых таксонов. Метод МЭК принимает за оптимальное такое дерево, которое требует наи- меньшее число мутаций. Метод максимального правдоподобия (МП) основан на допущении о том, что изменения, происходящие со всеми нуклеотидами (или амино- кислотами), равновероятно приводят к перерождению правдоподобий. Ме- тод МП не просто подсчитывает число мутационных событий, но, помимо этого, присваивает им количественные значения вероятности. Для каждой возможной топологии дерева принятые частоты замен варьируют, что поз- воляет найти параметры, которые дают наивысшее правдоподобие появле- ния наблюдаемых последовательностей. За оптимальное принимают дерево с самым высоким правдоподобием формирования отмеченных данных на- блюдений. Модели Методы построения филогенетических деревьев предполагают исполь- зование специальных эволюционных моделей. Модели, принятые в различ- ных филогенетических методах, основаны на некоторых важных допуще- ниях:
8.2. Филогения и родство 235 1. Последовательности правильны и получены из точно установленных источников. 2. Последовательности гомологичны (то есть все так или иначе произо- шли от общей последовательности-предка). 3. Все белки в выравнивании последовательностей взаимно гомологичны. 4. Каждая последовательность из включённого в анализ набора имеет общую филогенетическую историю с другими (например, нельзя сме- шивать последовательности из ядер и органелл клеток). 5. Выборка таксонов соответствует поставленной задаче. 6. Изменчивость последовательностей отобранных образцов характерна также и для более широкой группы исследуемых объектов. 7. Изменчивость последовательности в образце содержит филогенетиче- ский сигнал, пригодный для решения поставленной задачи. Таблица подобия и таблица расстояний Филогенетические деревья могут быть построены или по таблицам подобия, или по таблицам расстояний, что говорит о сходстве организмов по данному набору признаков (см. рис. 8.5). Обычно числа в таблице подо- a) a b c d e a 100 65 50 50 50 b 65 100 50 50 50 c 50 50 100 97 65 >d 50 50 97 100 65 e 50 50 65 65 100 6) a b c d e a 0 6 11 11 11 b 6 0 11 11 11 c 11 • 11 0 2 6 d 11 11 2 0 6 e 11 11 6 6 0 Рис. 8.5. Гипотетические таблицы для пяти организмов, обозначенных буквами а-д: а) таблица подобия; б) таблица расстояний. (Источник: D. R. Westhead et al., Instant Notes: Bioinformatics, Bios Scientific Publishers Ltd., 2003)
236 Глава 8 бия показывают процент совпадений. Такие данные формируют основание для проведения анализа по Адансону, или численной таксономии. Числа в таблице расстояний показывают процент различий. Некоторые из наиболее употребительных алгоритмов построения дере- вьев в филогенетическом анализе производят иерархическую группировку слиянием с помощью матриц расстояний. Принцип действия алгоритмов данного вида заключается в слиянии таксонов из таблицы расстояний по два вместе на каждом шаге до тех пор, пока не остается только одна группа. Известны и другие алгоритмы, основанные на методах матриц расстояний например методов единственной связи, полной связи, усредненной связи и центроидного метода. Выравнивание по последовательности и структуре По мере увеличения числа расшифрованных геномов мы хотим все больше и больше знать об эволюции генов или белков. Изучение эволюции белков и генов требует сравнения гомологов, то есть последовательностей, которые имеют общее происхождение, но не обязательно выполняют по- добные функции. В основу филогенетического анализа последовательностей положен простой принцип, согласно которому чем больше подобие между двумя последовательностями, тем меньше мутаций необходимо для преобразова- ния одной последовательности в другую и, следовательно, тем позже они разошлись от общего предка. В филогенетике данные о последовательностях обычно представлены в виде их множественных выравниваний. Отдельные позиции с выровнен- ными основаниями обычно называют участками. Такой участок равнозна- чен признаку в теоретических филогенетических рассуждениях, а факти- ческое основание (или пропуск), занимающее этот участок, — состоянию данного признака. Выровненные позиции последовательности, подвергнутые филогене- тическому анализу, представляют собой априорные филогенетические вы- воды, поскольку принято, что генеалогически связанными, или гомологич- ными, являются сами участки, а не расположенные в них основания. Построение выравнивания состоит из этапов выбора процедуры вы- равнивания и извлечения из него набора филогенетических данных. Ти- пичная процедура выравнивания включает в себя автоматическое выравни- вание с помощью программы типа «КЛАСТЭЛ-В», последующее ручное редактирование выравнивания и загрузку его в программу построения де- ревьев.
8.3. Молекулярные подходы к определению филогении 237 Выравнивание по вторичной или третичной структуре последователь- ности считают филогенетически более достоверным, чем выравнивание по последовательностям, потому что достоверность оценки гомологично- сти значительно выше, если сравнения проводят на сложных структурах, а не на простых знаках первичной последовательности. 8.3. Молекулярные подходы к определению филогении На фоне традиционной таксономии развивались молекулярные подхо- ды к определению филогении. При филогенетическом анализе рассматрива- ли многие свойства молекул. В 1967 г. на основании иммунологических дан- ных В. М. Сарих и А. Ч. Уилсон объявили, что расхождение эволюционных путей людей и шимпанзе имело место 5 миллионов лет назад (см. рис. 8.6). Это заявление противоречило данным палеонтологов, которые утверждали, что разветвление произошло 15 миллионов лет назад. В 1909 г. Э. Т. Рейхерт и А. Ф. Браун опубликовали филогенетический анализ рыб, проведенный на кристаллах гемоглобина. В современном филогенетическом анализе наилучшие меры подобий между видами обеспечивают последовательности ДНК. Данные представ- ляют в цифровом виде. Даже возможно отличать отборочные генетические изменения от неотборочных; для этой цели используют или третью по- зицию в кодонах, или нетранслируемые области в качестве псевдогенов, или отношение замен синонимичных кодонов к заменам не синонимичных кодонов. Сравнению подлежат многие гены. В отобранной для изучения совокупности видов необходимо найти гены с подходящей степенью из- менчивости. Слабо измененные гены (в рассматриваемой выборке видов) не обеспечивают никакой возможности определить степень подобия. Гены, которые изменены слишком сильно, не могут быть выровнены. По сравнению с традиционными деревьями, построенными по морфо- логическим признакам, молекулярные филогении намного информативнее, потому что они шире в охвате (например, цветковые растения с млекопи- тающими можно сравнивать по последовательностям белка, но никак не по морфологическим признакам); кроме того, результаты анализа информации такого типа непротиворечивы и объективны. Последовательности макромолекул Последовательности различных макромолекул эволюционируют с раз- ной скоростью; это свойство характерно также для различных областей одной и той же макромолекулы. Мономеры последовательности РНК или
238 Глава 8 Человек 0 Лошадь 0 Шимпанзе а Человек 0 Шимпанзе 0 Лошадь 0 Человек а Шимпанзе а --------------Лошадь а Рис. 8.6. Два дерева, построенные по результатам анализа последовательностей ге- моглобина человека, шимпанзе и лошади. Нижнее дерево правильно и показывает правильную филогению как для а-, так и для /3-цепи гемоглобина. Верхнее дерево построено из /3-цепей человека и лошади, а также a-цепи шимпанзе и является путаным, поскольку оно создает впечатление, будто бы лошадь ближе к человеку, чем шимпанзе. (Источник: D. R. Westhead et al., Instant Notes: Bioinformatics, Bios Scientific Publishers Ltd., 2003) белка, определяющие структуру или функцию молекулы, могут допускать мутации менее охотно, чем остатки в других областях. Скорость эволюции отдельно взятой последовательности в значительной степени (и обратно пропорционально) зависит от доли остатков, замена которых неблагоприят- но затрагивает ее естественную структуру и функцию. Митохондриальная ДНК Митохондриальная ДНК (мтДНК) оказалась очень полезной макро- молекулярной последовательностью для изучения родственных отношений
8.4. Базы данных филогенетического анализа 239 у приматов. Вследствие дыхательного газообмена концентрация различных видов активного кислорода (например перекиси и гидроксильного иона) в митохондриях значительно выше, чем в ядре, и, следовательно, шан- сов на окислительные химические повреждения в митохондриальной ДНК сравнительно больше. Более того, мтДНК-полимераза сильнее подвержена ошибкам, чем соответствующий ядерный фермент. Поэтому ввиду повы- шенной собственной частоты мутаций мтДНК эволюционирует быстрее, чем ядерная ДНК. В мтДНК приматов находится короткая некодирующая область, в ко- торой отборочные ограничения низки, так как точечные мутации имеют тенденцию не затрагивать функцию митохондрий. Эта особенная после- довательность эволюционирует со скоростью, приемлемой для изучения филогении приматов. Изображенное на рис. 8.3 дерево не противоречит данным выравнивания и группового анализа этой области, а также согласно с подобными исследованиями кодирующих последовательностей мтДНК. Рибосомная РНК Рибосомная РНК (рРНК) является чрезвычайно консервативной и при- том универсальной молекулой, которая присутствует в клетках всех жи- вых организмов (животных, растений, грибов, бактерий, паразитов и т. д.). Она имеет низкую устойчивость к мутациям и эволюционирует очень мед- ленно. Развитая вторичная структура рРНК гарантирует, что скорость эво- люционного изменения будет медленна, поскольку двойные спиральные области требуют взаимно компенсирующих замен оснований (вероятность которых ничтожно мала). Представленное на рис. 8.7 дерево совместимо с выравниванием и групповым анализом этих молекул, а сделанные из его оценки выводы не противоречат таковым, полученным по результатам дру- гих исследований макромолекул. 8.4. Базы данных филогенетического анализа Из универсальных средств, предназначенных для филогенетическо- го анализа, можно назвать «ПАУП» (PAUP — Phylogenetic Analysis Using Parsimony — филогенетический анализ по критерию экономичности) и «ФИЛИП» (PHYLIP — Phylogenetic Inference Package — программный па- кет для филогенетического анализа). Программа филогенетического анализа «ПАУП» вобрала в себя столько различных функций (в том числе графи- ческое отображение деревьев), сколько может предложить отдельно взятая независимая от платформы программа с интерфейсом типа меню.
Бактерии Археи Эукариоты Метанобактерии Метано кокки Пиродикгиум Термотога Несерные зеленые бактерии Животные Слизе- вики Экстремальные галофилы Энтамебы Грамположигельные бактерии Пурпурные бактерии Термоплазма Ресничные Термококки Жгутиконосцы Термопротеус Трихомонады Дипломонады Аквифекс Рис. 8.7. Общая классификация живых организмов, выведенная К. Вусе на основе анализа последовательностей РНК размером 15 S. (Источник: Lesk, А. М., Introduction to Bioinformatics, Oxford University Press, 2003) Сине-зеленые бактерии Флавобактерии Грибы Растения 240 Глава 8
8.4. Базы ДАННЫХ ФИЛОГЕНЕТИЧЕСКОГО АНАЛИЗА 241 Программный пакет «ФИЛИП» состоит приблизительно из 30 про- грамм, которые охватывают большую часть моментов филогенетическо- го анализа. Это программное обеспечение с интерфейсом типа команд- ной строки не поддерживает мышь и предусматривает прямой набор ко- манд. База данных «ПАЛИ» (PALI — Phylogeny and ALIgnment of homologous protein structures — филогения и выравнивание структур гомологичных бел- ков) содержит выравнивания последовательностей, построенные на осно- вании пространственных структур, и построенные на базе структур фи- логенетические деревья гомологичных доменов белков, принадлежащих к белковым семействам. Филогенетические отношения представлены с по- мощью древовидных диаграмм двух типов (основанной на последователь- ностях): диаграмма, которая построена на метрике структурного несходства, определенной для попарного выравнивания, и (основанной на структурах) диаграмма, которая построена по данным подобия топологически эквива- лентных остатков. База данных «СУПФАМ» (SUPFAM) содержит потен- циальные отношения членов надсемейств, выведенные путем сравнения семейств, сгруппированных по структурам, и семейств, сгруппированных по последовательностям. К полуавтоматическим базам данных относится «ПАСС-2» (PASS2 — Protein Alignment organized as Structural Superfamilies — выравнивание белков, организованное в надсемейства структур). Контрольные вопросы 1. Что показали наблюдения над зябликами, проведенные Чарльзом Дар- виным на Галапагосских островах? 2. Как вы понимаете разницу понятий «гомология» и «подобие»? 3. Чем, на ваш взгляд, отличаются ортологи, паралоги и ксенологи? 4. Что такое модули? 5. Что такое филогения? 6. В чем сущность фенетического подхода? 7. Назовите характерную особенность кладистики. 8. Что такое узел? 9. Какое дерево называют филогенетическим?
242 Глава 8 10. Чем отличаются корневое и некорневое дерево? 11. Каковы отличительные свойства филогенетического дерева? 12. Какие допущения приняты в построении филогенетического дерева? 13. Какие методы применяют в филогенетике? 14. В чем молекулярная филогенетика превосходит традиционную? 15. Какие базы данных используют в филогенетическом анализе? 16. Что такое самосовершенствование?
Глава 9 Открытие лекарственных препаратов и фармакоинформатика Лекарственный препарат — химическое вещество, молекула которого взаимодействует с мишенью (биологической молекулой) внутри организ- ма и посредством такого взаимодействия вызывает тот или иной физио- логический эффект. Молекулярные мишени обычно относятся к белкам. В зависимости от производимого ими эффекта, лекарства могут оказывать благотворное или вредное влияние на организм. Цель фармацевтической промышленности состоит в разработке медикаментов, обладающих опреде- ленными целебными эффектами и предназначенных для излечения многих заболеваний, особенно болезней человека. Лекарственным препаратом можно назвать только такое химическое соединение, которое отвечает следующим требованиям: оно должно быть безопасным, эффективным, устойчивым (и химически и метаболически), легко усвояемым (должно быстро всасываться и переноситься к участку воздействия), фармацевтически доступным (путем выделения из естествен- ных источников или химического синтеза) и оригинальным (патентоспо- собным). 9.1. Открытий лекарственных препаратов Разработку новых медикаментов можно проводить двумя методами: эмпирическим и рациональным. Эмпирический метод — это слепой ме- тод проб и ошибок; его называют также методом черного ящика. Тысячи химических соединений испытывают на патогенах или опытных организ- мах, даже не зная мишень, на которую препарат воздействует, и механизм его действия. Впрочем, иногда может произойти случайное открытие, по- добное открытию пенициллина. Подходы Обычно на медикаментозную активность проверяют тысячи химиче- ских соединений. Как правило, лишь одно из 10000 может действительно
244 Глава 9 поразить мишень. В подобного рода подходах никто не знает заранее, какую мишень препарат атакует и каков сам принцип воздействия. Рациональный подход начинается с ясного знания мишени и механизма, приводящего к ее поражению. Открытие лекарственных препаратов включает в себя задачи обнаружения мишени и поиска снаряда. Мишень относится к причинному фактору болезни, а снаряд — к активной молекуле, которая взаимодействует с этим причинным фактором. При медикаментозном лечении болезни лекарства взаимодействуют с мишенями, которые так или иначе способствуют развитию болезни, влия- ют на их активность и таким образом производят различные положительные эффекты. Терапевтическая мишень может быть эндогенной (белок, синте- зируемый в организме пациента, которому назначен препарат) или, в случае инфекционных заболеваний, — экзогенной (белок, производимый болезне- творным организмом). Медикаменты либо стимулируют, либо подавляют активность белка-мишени. 9.1.1. Опознавание и утверждение мишени На самом деле разработка препарата оказывается не столь легкой зада- чей. Это невероятно сложный, продолжительный и дорогостоящий процесс. Получение препарата начинается с установления потенциально подходя- щей мишени болезни. Этот процесс называют опознаванием мишени. Здесь нужно изучить все, что известно о самой болезни, о возможных причинах заболевания, ее симптомах, генетике, эпидемиологии, связи с другими бо- лезнями — человека и животных — и, наконец, обо всех известных методах ее лечения. Прежде всего должна быть выяснена биология болезни (причина за- болевания, распространение болезни в популяции, развитие болезни в ор- ганизме пациента, биохимические и физиологические изменения, наблю- даемые у пациентов, и т. д.). В прошлом опознавание мишени проводили в основном ввиду медицинской целесообразности. Теперь опознавание ми- шени зависит не только от медицинской потребности, но и от таких факто- ров, как успех существующих методов терапии, деятельность конкурирую- щих компаний — производителей лекарственных средств, а также от оценки перспектив рынка. Типы мишеней Мишенями для медикаментозного воздействия обычно являются био- молекулы например ферментов, рецепторов или ионных каналов. Приме-
9.1. Открытие лекарственных препаратов 245 нимость того или иного фермента в качестве мишени зависит от того, на- сколько он важен для выживания патогена. Если этот фермент оказывается мало существенным, то такая мишень не представляет никакой ценности. Если терапевтическая мишень находится внутри организма, то флуктуации ее активности должны соответствовать колебаниям серьезности (тяжести) заболевания. Только в том случае, когда удается установить высокий уро- вень значения воздействия на мишень для эффективного контроля над ходом заболевания, мишень может быть признана адекватной данной болезни. Как только мы удостоверились в правильности выбора мишени, мы мо- жем определить ее модуляторы. Модуляторы мишеней делятся на положи- тельные и отрицательные (см. табл. 9.1). Таблица 9.1. Список положительных и отрицательных модуляторов Биомолекулы Положительные модуляторы Отрицательные модуляторы Ферменты Активаторы Ингибиторы Рецепторы Агонисты Антагонисты Ионные каналы Деблокаторы Блокаторы Оценка и утверждение За опознаванием мишени следует процесс ее утверждения. Послед- ний предполагает всесторонние испытания терапевтического потенциала молекулярной мишени. Этот процесс может включать в себя моделирова- ние болезней на опытных животных и анализ данных об экспрессии генов и белков. Путем сравнения уровней экспрессии генов в нормальном и бо- лезненном состоянии новые медикаментозные мишени могут быть обнару- жены in silico. Этим целям могут, служить испытания на микроматрицах. Как только ген, который в болезненном состоянии обнаруживает «по- вышающую или понижающую регуляцию» (экспрессируемый на более вы- соком или низком уровне, чем в нормальной ткани), установлен, опреде- ляют его природу с помощью методов биоинформатики. Кроме того, по- средством программы «БЛАСТ» проводят поиск подобных ему генов или белков в базах данных последовательностей. Подобные гены и белки помо- гают определять функцию подверженного регуляции гена. Если оказывает- ся, что мишень принадлежит к одному из классов структур, которые очень легко поддаются медикаментозному воздействию (рецепторы, ферменты
246 Глава 9 или ионные каналы), то создатель препарата может вздохнуть с облегче- нием. Адекватная мишень должна обладать высоким терапевтическим по- казателем, то есть должна быть гарантия существенного терапевтического эффекта при введении такого препарата. Если мишенью является известный белок, то активность к связыванию может быть измерена непосредственно. Потенциальный противомикробный препарат может быть испытан путем наблюдения его воздействия на рост культуры патогенных микроорганиз- мов. Эффект некоторых соединений можно проверять на эукариотических клетках, выращенных в культуре тканей. Если какое-либо лабораторное жи- вотное восприимчиво к данной болезни, то испытания медикамента могут быть проведены на группе опытных животных. Признаки Если найденная мишень является ферментом, то изучают следующие признаки: активный участок и участвующие в его формировании амино- кислоты, наличие или отсутствие металлического компонента, число водо- родных доноров и акцепторов, находящихся в активном участке, топология активного участка, данные о гидрофобных и гидрофильных аминокислотах, присутствующих в активном участке. Если мишень оказывается биохимическим веществом или субстратом какого-либо фермента, то проводят оценку следующих факторов: размер мо- лекулы, ее химическая природа, наличие групп, показывающих донорную или акцепторную емкость (по отношению к водороду), побочные продук- ты метаболизма и возможности химической модификации этого соедине- ния. 9.1.2. Определение опытного соединения После окончательного утверждения мишени начинается поиск ле- карств, которые взаимодействуют с этой мишенью. Этот процесс называ- ется созданием снаряда и состоит в поиске опытных соединений, то есть веществ, обладающих частью желательной биологической активности иде- ального лекарственного препарата. Качества снаряда Молекула-снаряд должна иметь следующие желательные качества: а) потенцию (способность эффективно модулировать мишень), б) раство- римость (она должна быть легко растворима в воде для более быстрого
9.1. Открытие лекарственных препаратов 247 эффекта), в) умеренную липофильность (способность проникать через плаз- матическую мембрану), г) метаболическую устойчивость (не должна слиш- ком быстро разрушаться в организме; желателен также длительный срок хранения), д) биологическую усвояемость (быстрое всасывание в организ- ме и в то же время медленное выведение для поддержания активности), е) специфичное связывание белков, ж) слабую или нулевую токсичность. Поиск опытных соединений Известно несколько стратегий поиска опытных соединений. 1) Интуитивная прозорливость — за счет «случайных» наблюдений и опы- тов (открытие пенициллина Александром Флемингом). 2) Изыскание естественных источников — заимствования из различных направлений традиционной медицины (хинин из коры хинного дерева). 3) Изучение всей известной информации о субстратах, лигандах или ин- гибиторах, а также о механизме активности белка-мишени и выбор потенциально активных соединений на основании анализа собранных данных. 4) Испытание лекарств, показавших свою эффективность в лечении ана- логичных заболеваний. 5) Массовые отборочные испытания близких по составу или функции веществ. 6) Обзор сведений о побочных эффектах, отмеченных в практике приме- нения существующих лекарств. 7) Перебор и проба тысяч соединений «вслепую». 8) Компьютерное моделирование и автоматическое проектирование ab initio. 9.1.3. Оптимизация опытного соединения Первичное опытное соединение, найденное одним из вышеприведен- ных способов, должно быть оптимизировано. Оптимизация заключается в модификации контрольных соединений с целью получения их производ- ных (конкурсных лекарств) с возможно лучшими терапевтическими про- филями. Например, высокая доступность препарата предполагает легкое
248 Глава 9 всасывание и быстрый перенос к мишени. В свою очередь это требует ме- таболической устойчивости лекарства. Для этого необходим надлежащий профиль растворимости — препарат должен достаточно хорошо растворять- ся в воде (для обеспечения всасывания), но его растворимость не должна превышать определенный порог (иначе он будет немедленно выведен из ор- ганизма); его растворимость в жирах должна быть достаточна для проник- новения сквозь мембраны клеток, но недостаточной для его причисления к жировым запасам. После модификации конкурсные лекарства оценивают по качеству, принимая во внимание такие факторы, как легкость синтеза и приготов- ления лекарственной формы. Затем оптимальное соединение регистрируют как новый разработанный препарат и направляют на клинические испыта- ния. Это самая длительная и дорогостоящая стадия процесса разработки препарата. Именно по этой причине большая часть проектов останавли- вается перед этим этапом. Клинические испытания призваны определить уровень безопасности и переносимости препарата при лечении пациентов и определить его метаболический путь в организме. Стадии испытаний Испытания лекарственных препаратов проводят в несколько стадий. Доклиническая стадия: Испытания на опытных животных Стадия 1 Нормальные (здоровые) добровольцы Стадия 2 Оценка безопасности и эффективности воздей- ствия на пациентов, выбор дозы и режима прие- ма Стадия 3 Сравнение эффекта в группах пациентов, при- нимающих новый препарат и плацебо, или ком- паратор; на этой стадии ожидают апробацию от соответствующих регулятивных органов и при- нимают решение о выпуске лекарства в продажу Стадия 4 Длительное отслеживание побочных реакций, о которых сообщают фармацевты и доктора. Вклад различных наук в развитие методики разработки лекарственных препаратов В развитие методики разработки лекарственных препаратов неоцени- мый вклад внесли геномика, протеомика, комбинаторная химия и техноло-
9.2. Фармакоинформатика 249 гия высокопроизводительных отборочных испытаний. Геномика и протео- мика коренным образом изменили подход к опознаванию и утверждению молекулярных мишеней. Традиционно мишени для медикаментозного воз- действия оценивались путем наблюдений над пациентами и подбора опыт- ных соединений, дающих желательный клинический эффект. С появлением геномики и, в частности, полной последовательности генома человека и ее аннотаций тысячи новых потенциальных мишеней могут быть опознаны по последовательности, структуре и функции. Биоинформатика важна не только в силу своей роли в анализе по- следовательностей и структур, но также и ввиду построения алгоритмов для моделирования взаимодействий белка-мишени с молекулами препара- та. Благодаря этому стала возможной именно рациональная разработка пре- паратов, где на основании данных о структуре белка предсказывают тип лигандов, взаимодействующих с данной мишенью, и таким образом про- кладывают путь к открытию снаряда. В последнее время для опознавания опытных соединений начали при- менять систематические методы. Эти методы основаны на высокопроизво- дительных отборочных испытаниях, в которых открытие снарядов ускоре- но за счет высокопараллельных форм для анализа (например 96-луночных планшетов). В свою очередь внедрение таких технологий требует собрания больших химических библиотек для проведения испытаний. Это стало воз- можным благодаря методам комбинаторной химии, посредством которых большое число различных соединений может быть синтезировано путем объединения и разделения реагентов между очередными стадиями реакции. 9.2. Фармакоинформатика Термин «фармакоинформатика» часто употребляют для описания дис- циплины, объединяющей в себе биологию, химию, математику и инфор- мационные технологии, что необходимо для обработки и анализа данных в фармацевтической промышленности. Спектр основных вопросов фарма- коинформатики приведен в таблице 9.2. 9.2.1. Химические библиотеки Применение высокопроизводительных отборочных испытаний в от- крытии лекарственных препаратов зависит от наличия разнообразных хими- ческих библиотек (например создаваемых методами комбинаторной химии), так как они значительно увеличивают возможности отыскания молекул, взаимодействующих с определенной белковой мишенью. Количественно
250 Глава 9 Таблица 9.2. Области биологии и химии, в которых биоинформатика занимает клю- чевую позицию у конвейера новых лекарственных препаратов Прикладная область Роль биоинформатики Биология Геномика, протеомика (проект «Геном человека») Описание генов и белков человека Геномика, протеомика (проекты рас- шифровки геномов патогенов человека) Характеризация генов и белков болез- нетворных для человека организмов Функциональная геномика (структура белков) Анализ структуры белков (человека и его патогенов) Функциональная геномика (регистра- ция профилей экспрессии) Определение картин экспрессии генов в болезненном и здоровом состояниях Функциональная геномика (мутагенез на уровне генома) Определение мутантных фенотипов для всех генов в геноме Функциональная геномика (взаимодей- ствия белков) Определение взаимодействий среди всех белков Химия Высокопроизводительные отборочные испытания Высокопараллельные формы для испы- таний при опознавании снарядов Комбинаторная химия Синтез большого количества химиче- ских соединений Опознавание мишеней, оценка их соот- ветствия геному человека Каталогизация полиморфизмов отдель- ных нуклеотидов, их привязка к кар- тинам реакции на введение лекарства (фармакогеномика) Опознавание и утверждение мишеней в болезнетворных организмах Предсказание взаимодействия лекар- ства с мишенью Рациональная разработка медикаментов Классификация генов по картинам ре- акции на воздействие лекарств Восстановление метаболических путей Базы данных экспериментов на опыт- ных животных. Опознавание и утвер- ждение мишеней Характеризация взаимодействий белков Восстановление метаболических путей Предсказание участков связывания Хранение, отслеживание и анализ дан- ных Каталогизация химических библиотек Оценка качества и ассортимента биб- лиотек. Предсказание взаимодействий препарата с мишенью
9.2. Фармакоинформатика 251 определить химическое разнообразие очень сложно. Так, были предприня- ты попытки решения этой проблемы с помощью концепции «химического пространства». По сути, химическое пространство заключает в себе молеку- лы со всеми возможными химическими свойствами, сосредоточенными во всех потенциально активных участках молекул. Таким образом, библиотека с высоким показателем разнообразия будет обладать широким охватом хи- мического пространства, не содержащего промежутки и группы подобных молекул. Коэффициент Танимото Количественно разнообразие библиотек обычно определяют с помо- щью мер, основанных на сравнении свойств различных молекул, описывае- мых такими параметрами, как расположение и заряд атомов, а также потен- циал к формированию различных типов химической связи. Для сравнения двух молекул можно использовать коэффициент Танимото (Тс), отражаю- щий степень подобия фрагментов этих молекул. Коэффициент Танимото вычисляют по формуле Тс = с/(а + b — с), где а — число параметров фрагментов в соединении А, b — число параметров фрагментов в соединении В, с — число общих (подобных) параметров фраг- ментов этих соединений. Следовательно, для идентичных молекул Тс = 1, тогда как как для молекул без общих параметров Тс = 0. В химической библиотеке с идеальным показателем разнообразия большая часть попар- ных сравнений дала бы коэффициент Танимото, близкий к нулю. Фармакофор В том случае если о специфичности связывания белка-мишени почти ничего не известно, продуктивное открытие снарядов могут обеспечить хи- мические библиотеки с высоким показателем разнообразия. Если же о по- следовательности или о структуре мишени удалось собрать информацию строго определенного вида, то можно построить ограниченные библиоте- ки, охватывающие какую-либо одну область химического пространства. Например, если известна последовательность некоторого белка-мише- ни, то поиск гомологий в базе данных часто будет давать родственный белок с ранее установленной структурой и уже описанными взаимодействиями с маленькими молекулами. В таких случаях возможно спроектировать хи- мическую библиотеку, содержащую один молекулярный каркас, который сохраняет относительное расположение участков, присутствующих в из- вестном лиганде, но который может быть видоизменен путем прикрепления к нему разнообразных функциональных групп. Вполне возможно, что ранее
252 Глава 9 уже было показано, что некоторые из этих групп необходимы для связыва- ния лекарственных препаратов. Такие участки называют фармакофорами. Программные средства и информационные ресурсы Для создания комбинаторных библиотек и оценки их химического раз- нообразия было создано множество программных средств и информаци- онных ресурсов. Программа «Селекторе» (Selectors) — продукт компании «Трипос» (Tripos) — дает оператору возможность проектировать как биб- лиотеки с очень высоким показателем разнообразия, так и библиотеки, ограниченные определенным молекулярным каркасом. Программа «Кем-х» (Chem-x), разработанная «Оксфорд молекулар труп», позволяет измерять химическое разнообразие коллекций соединений и опознавать все фармако- форы. «Комбилайбмейкер» (ComibiLibMaker), другая программа «Трипос», предназначена для проектирования виртуальных мишеней. 9.3. Программы поиска Прежде чем проводить отсеивающие эксперименты в лабораторных условиях, имеет смысл попытаться собрать как можно больше информации о потенциальных взаимодействиях препарата с мишенью. Одним из пу- тей получения таких данных является автоматический отборочный поиск в химических базах данных (на соответствие молекулярной мишени с извест- ной структурой). В других случаях структуру соединения можно попытать- ся определить по подобию с установленной структурой близкой гомологии или предсказать ее с помощью алгоритма протягивания. Если структура белка-мишени известна, то можно применять основанные на критерии аде- кватности алгоритмы распознавания потенциальных взаимодействующих лигандов. К настоящему времени разработано большое число алгоритмов стыков- ки, которые пытаются подобрать маленькие молекулы к участкам связыва- ния, анализируя информацию о пространственных ограничениях и энергии связей (см. табл. 9.3). Стыковочные алгоритмы К наиболее общепризнанным алгоритмам (программам) стыковки можно отнести «Автодок» (Autodock), «ДОК» (DOCK) и «КомбиДОК» (CombiDOCK). В «ДОКе» расположение атомов на участке связывания пре- образуется в упорядоченное множество шаров, называемых точками участ-
9.3. Программы поиска 253 Таблица 9.3. Программное обеспечение имитационного моделирования стыковки, предназначенное для загрузки на ПК или диалоговой работы в «Интернете» УУР ЖТ Описание Доступ http://www.scripps.edu/ pub/olson-web/dock. autodock/index.html Г Autodock Загрузка на ЭВМ с ОС «Юникс» и «Линукс» http://swift.embl- heidelberg.de/ligin/ Ж LIG1N, устойчивое пред- сказание взаимодействия белка с лигандом; ограни- чено малыми лигандами Загрузка на ЭВМ с ОС «Юникс» или как часть пакета «УОТИФ» (WHATIF) http.V/www.bmm.icnet. uk/docking/ Ж FTDock и сопутствующие программы. RPScore и mMultiDock могут прогно- зировать взаимодействия между белками. Опирают- ся на библиотеку преобра- зований Фурье Загрузка на ЭВМ с ОС «Юникс» и «Линукс» http://reco3.musc.edu/ gramm/ * Ж GRAMM (Global Range Molecular Matching — сопоставление молекул в глобальном масштабе (ГРАММ)) эмпирический метод, основанный на та- блицах валентных углов. Достоинство «ГРАММа» состоит в возможности работы со структурами низкого качества. Загрузка на ЭВМ с ОС «Юникс» или «Уиндоус» http://cartan.gmd.de/ flex-bin/FlexX Г FlexX вычисляет опти- мальные молекулярные комплексы, состоящие из лиганда, связанного на активном участке, и белка, и ранжирует результат. Работа в «Рабо- чем пространстве FlexX» при под- ключении к сер- веру Примечание: Ж означает «жесткий»; Г означает «гибкий»; эти буквы показыва- ют, что программа расценивает лиганд в качестве жесткой (Ж) или гибкой (Г) молекулы.
254 Глава 9 ка. По расстояниям между шарами алгоритм рассчитывает точные размеры участка связывания; вычисленные размеры сопоставляются с информацией из базы данных химических соединений. Найденным соответствиям между участком связывания и потенциальным лигандом назначаются доверитель- ные счета, после чего лиганды ранжируются согласно их полным счетам. «КомбиДОК» рассматривает каждый потенциальный лиганд как кар- кас, убранный функциональными группами. Сперва алгоритм предсказы- вает возможные варианты стыковки путем анализа расположения шаров (только тех, которые находятся на каркасе), после чего проверяет на сов- местимость отдельные функциональные группы, используя разнообразные сочетания вращений связей. Наконец, алгоритм производит стыковку и вы- числяет общий счет комплекса. Химические базы данных можно просматривать не только на соответ- ствие участку связывания (поиск взаимодействий комплементарных моле- кул) но также и некоторому лиганду (поиск взаимодействий идентичных молекул). Известно несколько алгоритмов сравнения двумерных или трех- мерных структур и построения профилей подобных молекул. Установление трехмерной структуры мишени (рентгеноструктурный анализ, ЯМР-интраскопия) есть необходимое условие разработки соедине- ния, которое должно или связываться с ней, или воздействовать на нее. Соединение выбирают из существующей библиотеки химических соеди- нений путем комбинаторной стыковки структур. Опытные соединения из библиотеки поочередно состыковывают с активным участком молекуляр- ной мишени (путем перебора вариантов комплементарной установки). Эта предварительная установка in silico сокращает число соединений, которые необходимо синтезировать и испытывать in vitro, так как базы данных со- держат необходимые (для имитационного моделирования) описания хими- ческих свойств и методов синтеза соединений. Анализ активных участков Специальный алгоритм имитационного моделирования тщательно ана- лизирует активный участок молекулярной мишени и выстраивает опытное соединение из отдельных фрагментов. Поверхность молекулярной мише- ни, которая должна взаимодействовать со снарядом, может быть окружена различными химическими средами, например, зонами гидрофобности, об- разования водородных связей или каталитической зоной. В эти области последовательно помещают фрагменты гипотетического соединения. Ори- ентация фрагментов дает ключи к пониманию конечной формы опытного соединения.
9.3. Программы поиска 255 Для данного вида анализа активных участков применяют программы GRID, GREEN, HISTE, HINT, BUCKTS и др. Иногда целая молекула сразу вписывается в рецепторный или активный участок. «ДОК» — программа, алгоритм которой построен по принципу «подгонки форм» (см. рис. 9.1, а — 9.1, г). Она перебирает все возможные способы подогнать лиганд к рецеп- торному участку. Участок связывания в молекуле рецептора или фермента содержит области образования водородных связей, а также гидрофобные области. Первоначально программа помещает и ориентирует молекулу-прототип в активном участке таким образом, чтобы удовлетворить некоторой части энергий связей. Затем последовательно добавляет и подгоняет дополни- тельные фрагменты до тех пор, пока не будет найдено удовлетворение всем энергиям связей. Программа «КЛИКС» (CLIX) моделирует варианты рас- положения точек активного участка и затем ищет в базе данных химические структуры, которые удовлетворяли бы такой имитации. КОСА При разработке лекарственных препаратов опытные соединения опти- мизируют путем добавления к молекулярному каркасу различных функци- ональных групп и проверки каждого производного соединения на его био- логическую активность. Если на моделируемой молекуле есть несколько открытых позиций, которые можно заместить, то общее количество моле- кул, которые должны быть проверены во всестороннем отборочном анализе, является очень большим. Синтез и отбор всех этих молекул потребовали бы значительных вре- менных затрат и производственных усилий, — тем более что львиная доля молекул не обладала бы никакой полезной функцией. Оценка по КОСА позволит отобрать только те молекулы, которые с наиболее высокой вероят- ностью будут иметь полезную активность, и таким образом продвинуться к цели химического синтеза. КОСА означает «количественное отношение структура-активность» (Quantitative Structure-Activity Relationship, QSAR) и представляет собой выраженное в математической форме отношение, ко- торое описывает взаимосвязь структуры молекулы с ее биологической ак- тивностью. Здесь, по существу дела, молекулы рассматриваются как совокупно- сти молекулярных свойств (параметров), организованных в виде таблицы. Программа «КОСА» просматривает эти данные и пытается находить сов- местимые отношения между отдельными параметрами и биологическими функциями и таким образом определить набор правил, которые могут быть
256 Глава 9 Рис. 9.1, а. Окно Hex: представление в виде проволочного каркаса. Молекулы энзима RmlD (Rv3266c) и лиганда 1 Iza до момента стыковки Рис. 9.1, б. Окно Hex: представление в виде проволочного каркаса. Очень тесный контакт молекул энзима RmlD (Rv3266c) и лиганда 1 Iza после момента стыковки
9.3. Программы поиска 257 Рис. 9.1, в. Окно Hex: вид гармонической поверхности молекул энзима RmlD (Rv3266c) и лиганда 1 Iza после их полной стыковки Рис. 9.1, г. Окно Hex: мультипликационная модель комплекса молекул энзима RmlD (Rv3266c) и лиганда 1 Iza
258 Глава 9 использованы для назначения счета новым молекулам при оценке их потен- циальной активности. КОСА обычно выражают в виде линейного уравне- ния: i=N Биоактивность = постоянная + СгРг> г=1 где Pi~Pn — параметры (молекулярные свойства), установленные для каж- дой молекулы в опытном наборе; Ci-Сдг — коэффициенты, рассчитываемые путем подгонки параметров молекул к их биологическим функциям. Как только опытные молекулы определены, они должны быть опти- мизированы в плане потенции, избирательности и фармакокинетических свойств. О высокой биологической усвояемости (всасывании в желудочно- кишечном тракте) говорит наличие следующих четырех качеств: число до- норов водородной связи < 5, акцепторов водорода <10, относительный молекулярный вес < 500 и липофильность < 5. Лекарства, нацеленные на центральную нервную систему, должны обладать достаточной проницаемо- стью гемоэнцефалического барьера. Ниже даны адреса некоторых полезных веб-узлов, относящихся к теме этой главы: http://www.netsci.org/science/compchem/featurel9.html http://clogp.pomona.edU/medchem/chem./master/search.html http://chemfinder.cambridgesoft.com http://www.cas.org/casdb.html http://www.mdli.com http://www.daylight.eom/dayhtml/smiles/smiles-into.html#TOC Контрольные вопросы 1. Что такое лекарственный препарат? 2. Перечислите известные вам методы поиска препаратов. 3. Что такое мишень для медикаментозного воздействия? 4. Какие способы опознавания мишени для медикаментозного воздей- ствия вам известны? 5. В чем состоит процедура утверждения мишени?
9.3. Программы поиска 259 6. Каким образом следует опознавать опытное соединение? 7. Перечислите желательные качества опытного соединения. 8. В чем заключается оптимизация опытного соединения? 9. Какие стадии должен пройти лекарственный препарат при клинических испытаниях? 10. Что такое фармакоинформатика? 11. Охарактеризуйте предметную область фармакоинформатики. 12. Каково назначение химических библиотек? 13. Приведите названия некоторых программ поиска в химических базах данных.
Приложение Список специальных веб-узлов и их адресов в сети Название веб-узла Адрес в сети 1. Веб-узлы ресурсов для попарного выравнивания последовательностей Bayes block aligner BCM Search Launcher: http://www.wadsworth.org/res&res/bioinfo Попарное выравнивание по- http://dot.imgen.bcm.tmc.edu:9331/seq- следовательностей search/alignment.html SIM: программа поиска ло- кального подобия для отыс- кания альтернативных вырав- ниваний http: //www. expasy. ch/tool s. sim. htm 1 Global alignment program (GAP, NAP) http: //genome. cs. m tu. edu/al i gn/al ign. htm 1 FASTA: комплект программ http://fasta.bioch.virginia.edu/fasta/fasta_list.html BLAST: 2 программы вырав- нивания (BLASTN, BLASTP) http://www.ncbi.nlm.nih.gov/gorf/bl2.html Iwa: выравнивание последо- вательностей по критерию правдоподобия http://www.ibc.wustl.edu/servive/lwa.html 2. Веб-узлы и ресурсы программ множественного выравнивания последовательностей Глобальное выравнивание, в том числе последовательное CLUSTALW или CLUSTALX ППФ к ftp.ebi.ac.uk/pub/software (последний снабжен графи- ческим интерфейсом) MSA http://www.psc.edu/ http://www. ibc. wustl. edu/i bc/msa. html ППФ к fastlink.nih.gov/pub/msa PRALINE http://mathbio.nimr.mrc.ac.uk/~jhering/praline
Приложение 261 Название веб-узла Адрес в сети Итеративные и прочие методы DIALIGN: выравнивание сег- http://wvzw.gsf. de.biodv/dialign.html ментов MultAlin http://protein.toulouse.inra.fr/multalin.html PRRP: последовательное гло- ftp.genome.ad.jp/pub/genome/saitama-cc бальное выравнивание (со случайным или двойным вло- жением) SAGA: генетический алго- http://igs-server.cnrs.mrs.fr/\motred/ ритм Proj ects_home_page/saga_home_page. html Локальное выравнивание белков ASSET: средство статиста- ППФ к ncbi.nlm.nih.gov/pub/neuwald/asset ческой оценки выровненных сегментов BLOCKS: веб-узел http://blocks.fhcrc.org/blocks/ eMOTIF: веб-сервер http://dna.Stanford.EDU/emotif/ GIBBS: статистический ме- ППФ к ncbi.nlm.nih.gov/pub/neuwald/gibbs9_95/ тод выборки HMMER: ПО на основе скры- http://hmmer.wustl.edu/ тых марковских моделей MACAW: рабочая среда для ППФ к ncbi.nlm.nih.gov/pub/macaw построения и анализа множе- ственных выравниваний МЕМЕ: веб-узел, метод мак- http://meme.sdsc.edu/meme/website/ симизации математического ожидания ♦ Profile analysis («Калифор- http://www.sdsc.edu/projects/profile/ нийский университет в Сан- Диего») SAM: веб-узел — ресурс http://www.cse.ucsc.edu/research/compbio/sam.html скрытых марковских моделей 3. Базы данных и ресурсы анализа РНК Банк данных рРНК 5 S База данных рРНК 5 S Веб-узел сравнительных дан- ных об РНК http://rose.man.poznan.pl/5SData/ http://userpage.chemie.fu-berlin.de/fb_chemie/ i be. agerdmann/5 S_rRN A. html http: //ww w. bchs. uh. edu/~nzhou. temp/5 sne w. html http: //www. ma. iemb. utexas. edu/
262 Приложение Название веб-узла Адрес в сети GenLang: лингвистический анализатор последовательно- стей Gobase: база данных ми- тохондриальных последова- тельностей Анализ интронов Saccharomyces cerevisiae Гены тРНК и митохондрий высших растений MFOLD: конфигурация РНК с минимальной энергией База данных нуклеиновых кислот и ресурс структур Pseudobase: база данных псевдоузлов, администриру- емая Э. ван Батенбергом в http://www.cbil.upenn.edu/ http://alice.bch.umontreal.ca.genera/ gobase/gobase.html http://www.cse.ucsc.edu/research/compbio/ yeast_introns.html ftp://ftp.ebi.ac.uk/pub/databases/plmiTPHK/ http://bioinfo.math.rpi.edu/~zukerm/ma/ http: //ndbserver. rutgers. edu/ http://wwwbio.leidenuniv.nl/~batenburg/pkb.html «Лейденском университете» Веб-узел базы данных рибо- нуклеазы Р RDP II: проект базы данных рибосомной РНК Базы данных мутаций рибо- сомной РНК Ribo Web Project: простран- ственные модели субъедини- цы 30 S и рРНК 16 S рибосом Е. coli База данных последователь- ностей аптамеров РНК («Те- хасский университет») Веб-узел редактирования РНК, «Калифорнийский уни- верситет в Лос-Анжелесе» Правка РНК, встав- ка/удаление уридина База данных модификаций РНК Вторичные структуры РНК, интроны группы I, рРНК 16 S, рРНК 23 S http://jwbrown.mbio.ncsu.edu/RNaseP/home.html http://www.cme.msu.edu/RDP/ http://www.fandm.edu/Departments/Biology/ Databases/RNA.html http://www-smi.stanford.edu/projects/ helix.ribo3models/index.html http://speak.icmb.utexas.edu/ellington. aptamers.html http://www.lifesci.ucla.edu/RNA/index.html http://www.lifesci.ucla.edu/RNA/trypanosome/ http://medlib.med.utah.edu/RNAmods/ http://www.ma.icmb.utexas.edu
Приложение 263 Название веб-узла Адрес в сети База данных структур РНК http://www.mabase.org/ RNA world при IMB Jena http://www.imb-jena.de/RNA.html База данных последователь- http://rma.uia.ac.be/ ностей субъединиц рРНК База данных частиц распо- http://psyche.uthct.edu/dbs/SRPDB/SRPDB.html знавания сигналов База данных малых РНК http://mbcr.bcm.tmc.edu/smallRNA/smallma.html. База данных мяРНК http://ma.wustl.edu/snoRNAdb/ S. cerevisiae База данных tmRNA http://psyche.uthct.edu/dbs/tmRDB/tmRDB.html Веб-узел tmRNA http://www.indiana.edu/~tmma/ TPHKscan-SE: поисковый http://www.genetics.wustl.edu/eddy/tRNAscan-SE/ сервер последовательности тРНК и http://www.uni-bayreuth.de/departments/ генов тРНК biochemie/sprinzl/tRNA/ База данных uRNA http://psyche.uthct.edu/dbs/uRNADB/uRNADB.html Vienna: пакет программ пред- http://www.tbi.univie.ac.at/~ivo/RNA/ сказания и сравнения вторич- ных структур РНК Последовательности РНК ви- http://www.callisto.si.usherb.ca/~jpperra роидов и вироидоподобных организмов 4. Филогенетические отношения организмов Entrez http://www3 .ncbi.nlm.nih.gov/Taxonomy/ taxonomyhome.html RDP (Проект базы данных http://www.cme.msu.edu/RDP/ рибосом) Tree of life http://phy 1 ogeny.arizona.edu/tree/phylogeny.html 5. Сетевые ресурсы для носка в базах данных по простой последовательности запроса BLAST: основное средство http://www.ncbi.nlm.nih.gov/BLAST/ поиска локальных ваний выравни- ППФ к ncbi.nlm.nih.gov/blast/executables WU-BLAST http://blast.wustl.edu http ://w ww. blast, wustl. edu/blast/executables FASTA http://fasta.bioch.virginia.edu/fasta ППФ к ftp.virginia.edu/pub/fasta
264 Приложение Название веб-узла Адрес в сети BCM Search Launcher («Бей- лорский медицинский кол- ледж») TIGR: поиск указателей ге- нов http://dot.imgen.bcm.tmc.edu:9331/ http://www.tigr.org 6. Примеры гостевых веб-узлов для выполнения поиска в базах данных с помощью алгоритма Смита-Уотермена, основанного на методе динамического программирования BCM Search Launcher bic-sw Mpsearch Scanps SEARCH: сервер электрон- ной почты Swat http ://dot. i mgen. bcm. tmc. edu: 93 31/seq- search/protein-search.html http://www.ebi.ac.uk/bic_sw/ http://www.dna.affrc.go.jp/htbin/mp_PP.pl http://www.ebi.ac.uk/scanps http://www.ddbj.nig.ac.jp/E-mail/homology.html http: //www. genome, wash i ngton. edu/U W GC/ analysistools/swat.html 7. Программы и веб-узлы для поиска в базах данных по регулярному выражению, мотиву, блоку или профилю Регулярные выражения и мотивы EMOTIF Scan http://dna.stanford.edu/scan/ Prosite: регулярные комбина- http://www.expasy.ch/tools/scnpsit2.html ции 1SREC: сервисное средство http://www.isrec.isb- поиска регулярных комбина- sib.ch/software/PATFND_form.html ций Fpat http://www.ibc.wustl.edu/fpat/ PHI-BLAST http://www.ncbi.nlm.nih.gov/ MOTIF http://www.motif.genome.ad.jp/MOTIF2.html Блоки BLOCKS http://www.blocks.fhcrc.org/blockmkr/ make_blocks.html MAST http://meme.sdsc.edu/meme/website/ BLIMPS Анонимный ППФ ncbi.nlm.nih.gov/repository/ blocks/unix/blimps Probe Анонимный ППФ ncbi.nlm.nih.gov/pub/neuwald/probe 1.0
Приложение 265 Название веб-узла Адрес в сети Genfind Профили http://pir.georgetown.edu/gfserver Profilesearch Анонимный ППФ ftp.sdsc.edu/pub/sdsc/biology/profilejprograms Profile-SS http://www.psc.edu/general/software/packages/ profiless/profiless.html 8. Программы и веб-страницы транслированных последовательностей и аннотаций Таблица участков сращения у Arabidopsis http://www.Arabidopsis.org/splice_site.html База данных частот использо- вания кодонов http://www.kazusa.or.jp/codon/ Ecoparse: поиск генов Е. coli Сервер электронной почты по адресу с использованием СММ http: //www. cbs. dtu. dk/krogh/EcoParse .info EST-GENOME: выравнива- http://www.hgmp.mrc.ac.uk/Registered/ ние последовательностей генома, ЯЭПов и кДНК Option/estgenome.html Exon recognizer совместно с GeneScope http://gf.genome.ad.jp/ FGENES: сопутствующие программы, основанные на линейном дискриминантном анализе, или СММ http://genomic.sanger.ac.uk/gf/gf.shtml FINEX: анализ границ интро- нов с экзонами http ://w ww. icnet. uk/LRITu/proj ects/finex/ GeneFinder: узел * доступа http://dot.imgen.bcm.tmc.edu:9331/ «Бейлорского медицинского колледжа» gene-finder/gf.html Genehacker: анализ геномов микробов с помощью СММ http://www-scc.jst.go.jp/sankichi.GeneHacker/ GeneID-З: веб-сервер, ис- http://wwwl.imim.es/geneid.html Сервер электрон- пользующий основанные на системе правил модели, и GeneID+ ной почты по адресу geneid@darwin.bu.edu Genmark и GeneMark.hmm, http: //genemark, biology, gatech. edu/GeneMark/ использующие СММ http://www2.ebi.ac.uk/genemark/ GeneMark: домашняя страни- ца http://genemark.biology.gatech.edu/GeneMark/
266 Приложение Название веб-узла Адрес в сети GeneParser: веб-страница, при- меняет комбинацию методов нейронных сетей и динамиче- ского программирования http://beagle.colorado.edu/~eesnyder/GeneParser.html GeneScan: поиск характеристи- ческих регулярных комбина- ций за счет преобразований Фурье с последовательностями ДНК http ://202.41.10.146/GS .html GeneScope http://gf.genome.ad.Jp//genescope/ Видоизменения генетического http://www.ncbi.nlm.nih.gov/htbin- кода post/Taxonomy/wprintgc?mode=c Genie: поиск генов человека http://www.csb.ucsc.edu/~dkulp/cgi-bin/genie в ДНК длиной 10 т. п. н. и у http: //www. fruitfly. org/seqLtool s/geni e. html Drosophila методами СММ и нейронных сетей http://ww.tigem.it/TIGEM/HTML/Genie.html GenLang: основан на лингви- стических методах http://www.cbil.upenn.edu/ GenScan: основан на вероят- ностной модели структуры ге- нов позвоночных, Drosophila и растений http://genes.mit.edu/GENSCAN.html Genseqer: выравнивание по- следовательностей генома и ЯЭПов http://gremlin 1 .zool.iastate.edu/cgi-bin/gs.cgi Glimmer: трансляция генов http://www.tigr.org/softlab/ прокариотов с помощью ин- терполированных марковских моделей http://www.cs.jhu.edu/labs/compbio/glimmer.html Grailll: предсказание с помо- щью нейросетей и на осно- вании счетов характеристиче- ских комбинаций в последова- тельности и ее состава http ://compbio. oml. gov/ Нехоп: предсказание экзонов http://dot.imgen.bcm.tmc.edu:9331/ посредством линейного дис- криминантного анализа gene-finder/gf.html Участки сращения в РНК чело- http.7/sol2. ebi.ac.uk/proj ects/Events/gene/ genepred- века и анализ дерева решений thanaraj.html
Приложение 267 Название веб-узла Адрес в сети INFO: отыскание участков сращения путем поиска подо- бий в базах данных http ://elcapitan/ucsd/ edu/~info/ NFOGENE: база данных из- вестных генов и структур ге- нов http://genomic.sanger.ac.uk/inf/infodb.shtml Анализ инициирующих кодо- http://www.ncbi.nlm.nih.gov/htbin- нов post/Taxonomy/wprintgc?mode=c Опознавание кодирующей области генома микробов с помощью марковских цепей 5-го порядка http://igs-server.cnrs-mrs.frAaudic/selfid.html Morgan: отыскание генов по- звоночных путем классифи- кации по деревьям решений http://www.cs.jhu.edu/labs/compbio/morgan.html MZEF: квадратический дискриминантный анализ экзонов человека, мыши, Arabidopsis и S. pombe http ://argon. cshl. org. genefinder/ NetGene: анализ участков сращения в генах человека, С. elegans и Arabidopsis с по- мощью нейросетей http://www.cbs.dtu.dk/services/NetGene2/ NetPlantGene http://www.cbs.dtu.dk/services/NetPGene/ NetStart: предсказание генов позвоночных и Arabidopsis с помощью нейросетей http://www.cbs.dtu.dk/services/NetStart/ Procrustes: основац на прин- ципе сравнения родственных геномных последовательно- стей http://www-hto.usc.edu/software/procrustes/ Push-button Gene Finder: опо- знавание генов с помощью марковских и скрытых мар- ковских моделей http://www.cse.ucsc.edu/research/compbio/pgf/ Splice Predictor: предсказание генов растений с помощью обученных логит-линейных моделей http://gremlin 1 .zool.iastate.edu/cgi-bin/sp.cgi Splicing Sites: использует нейросеть LBNL http://www.fruitfly.org/seqL_tools/splice.html
268 Приложение Название веб-узла Адрес в сети ExPASy: программы трансля- ции http://www.expasy.ch/tools/dna.html EBI: сетевой смысловой транслятор http://www2.ebi.ac.uk/translate/ Трансляция крупного генома в сети http://alces.med.umn.edu/rawtrans.html Veil (Определитель стыков между интронами и экзонами по алгоритму Витерби): ана- лиз ДНК позвоночных с по- мощью СММ http://www.cs.jhu.edu/labs.compbio/veil.html Webgene: набор программ предсказания генов и парал- лельного поиска в базах дан- ных http://www.itba.mi.cnr.it/webgene/ Webgenemark и Webgenemark.hmm http://genemark.biology.gatech.edu/GeneMark/ Участки сращения в геноме http://www.cse.ucsc.edu/research/compbio/ дрожжей по данным лабора- тории М. Эйреса мл. yeast_introns.html 9. Программы предсказания промоторов, веб-страницы и аннотации BDNA: визуальный анализ участков связывания факто- ров транскрипции на осно- вании конформационных и физико-химических свойств ДНК http://www.mgs.bionet.nsc.ru/systems/GeneExpress Conslnspector http://www.gsf.de/biodv/consinspector.html Core-Promoter: поиск промо- http://argon.cshl.org/genefinder/ торов RNAPII генов человека посредством квадратического дискриминантного анализа CPROMOTER/index.html EPD: база данных промото- http://www.epd.isb-sib.ch/ ров эукариотов http://www.epd.isb-sib.ch/promoter_elements/ EpoDB: гены, экспрессируе- мые во время эритропоэза по- звоночных http://www.cbil.upenn.edu/ FastM: анализ участков свя- зывания факторов транскрип- ции http://genomatrix.gsf.de/cgi-bin/fastm2/fastm.pl
Приложение 269 Название веб-узла Адрес в сети GeneExpress: анализ транскрип- http://www.mgs.bionet.nsc.ru/systems/GeneExpress ций с обращением к базе дан- ных TRRD Genome inspector: комбиниро- http://www.gsf.de/biodv/genomeinspector.html ванный анализ множественных сигналов в геномах Grailll: предсказание TSS с по- http://compbio.oml.gov/ мощью нейросетей и на основа- нии счетов характеристических комбинаций в последовательно- сти и ее состава MAR-FINDER: отыскание об- http://www.ncgr.org/MarFinder/ ластей прикрепления матрикса Matlnd http://www.gsf.dc/cgi-bin/matsearch.p 1 Matinspector http://www.gsf.de/biodv.matinspector.html (для за- грузки) http://www.gsf.de/cgi-bin/matsearch.pl (для работы в сети) Ресурс ядерных рецепторов http://nrr.georgetown.edu/GRR/GRR.html (включая глюкокортикоид) Mirage (Ресурс молекулярной http://www.ifti.org/ информатики для анализа экс- прессии генов) NNPP: предсказание промото- http://www.fruitfly.org/seq_tools/promoter.html ров у прокариотов и эукариотов с помощью нейросетей NSITE: поиск участков связы- http://genomic.sanger.ac.uk/gf/gf.shtml вания TF или других регуля- тивных факторов согласован- ной последовательности OOTFD: объектно-ориентиро- http://www.ifti.org/cgi-bin/ifti/ootfd.pl ванная база данных факторов транскрипции PLACE: цис-регулятивные эле- http://www.dna.affrc.go.jp/htdocs/PLACE/ менты растений PlantCARE: цис-регулятивные http://sphinx.rug.ac.be:8080/PlantCARE/index.html элементы растений Pol3scan: поиск последова- http://irisbioc.bio.unipr.it/genomics.html тельностей промоторов RNAP Ш/тРНК с помощью матриц счетов регулярных комбинаций
270 Приложение Название веб-узла Адрес в сети Polyadq: отыскание участков полиаденилирования http://argon.cshl.org/tabaska/polyadq_form.html Весовые матрицы промотор- ных элементов и скрытые марковские модели http: //ww w. epd. isb-sib. ch/promoter_el ements/ Promoter II: распознавание последовательностей РоШ с помощью нейросетей http://www. cbs. dtu. dk/services/promoter Promoters сап http://cbs.umn.edu/software/proscan/promoterscan.html RegScan: классификация про- моторов http://wwwmgs.bionet.nsc.ru/mgs/programs/classprom Sequence walkers: графиче- http: //www-1 ecb. nci fcr f. go v/~toms/walker/ ское отображение взаимодей- ствия регулятивного белка с участком связывания ДНК narcoverlogowalker.html Signal scan: поиск элементов управления транскрипцией http://bimas.dcrt.nih.gov:80/molbio/signal/ TargetFinder: поиск промото- ров в отобранных аннотиро- ванных последовательностях http://hercules.tigem.it/TargetFinder.html TESS: поиск участков свя- зывания факторов транскрип- ции http://www.cbil.upenn.edu/tess/ Tfbind: участки связывания факторов транскрипции http://tfbind.ims.u-tokyo.ac.jp Thyroid: ресурс рецепторов http://xanadu.mgh.harvard.edu/receptor/trrfron.html Transfac: программы поис- ка участков связывания TF; Matlnd: создание матриц сче- тов; Matinspector: поиск соот- ветствий матрицам http://www.gsf.de/cgi-bin/matsearch.pl TRRD: база данных областей управления транскрипцией http://www.mgs.bionet.nsc.ru/systems/GeneExpress TSSG: подобна TSSW, но ра- http://genomic.sanger.ac.uk/gf/gf.shtml ботает с последовательностя- http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene- ми из другой базы данных промоторов search.html
Приложение 271 Название веб-узла Адрес в сети TSSW: распознавание области http://genomic.sanger.ac.uk/gf/gf.shtml промотора РоШ человека и http://dot. imgen.bcm.tmc.edu:93 31/seq-search/gene- участка начала транскрипции с помощью линейного дискри- минантного анализа search.html Выборка генов клеточного http ://www. ncbi.nlm.nih. go v/CBB research/ цикла и анализ промоторов Landsman/Cell_cycle_data/upstream_seq.html Проект анализа клеточного цикла http://genome-www.stanford.edu/cellcycle/info 10. Основные веб-узлы ресурсов для структурного анализа белков Файлы с координатами атомов структур (в формате БДБ), мо- дели, программы просмотра, ссылки на многие другие веб- узлы анализа и классификации структур http://www.rcsb.org/pdb MMDB: «База данных мо- лекулярных моделей»; VAST: «Средство поиска векторных выравниваний»: средства срав- нения структур, просмотра, протягивания http://www.ncbi.nlm.nih.gov/Structure/ SOPE: база данных структур- ных отношений белков с из- вестной структурой, классифи- цированных по надсемейству, семейству и свертке http://scop.mrc-lmb.cam.ac.uk/scop САТН: база данных, иерархи- ческая классификация доменов белковых структур по клас- су, конфигурации, семейству и надсемейству; прочие базы данных и программы анализа структур и протягивания http://www.biochem.ucl.ac.uk/bsm Базы данных. TOPS: мульти- пликации топологии структу- ры белков; Dali: доменный сер- вер; FSSP: база данных http://www2.ebi.ac.uk/
272 Приложение Название веб-узла Адрес в сети Важный веб-узел ресурсов для предсказания вторичной http://cubic.bioc.columbia.edu/predictprotein структуры с помощью PHD, predator, TOPITS и threader Типичные базы данных анали- за белков; Swiss-Model: ресурс для предсказания моделей бел- ков; Swiss-Pdb Viewer http://www.expasy.ch/ 11. Программы визуального отображения молекул белков Chime Cn3d Mage http://www.umass.edu/microbio/chime/ http://www.ncbi.nlm.nih.gov/Structure/ http://kinemage.biochem.duke.edu/website. kinhome.html Rasmol Swiss 3D viewer, Spdbv http://www.umass.edu/microbio/rasmol/ http://www.expasy.ch/spdbv/mainpage.html 12. Базы данных регулярных комбинаций и последовательностей семейств белков 3D-Ali 3D-PSSM BLOCKS COGS (База данных и веб-узел поиска групп семейств ортоло- гов) Dip (База данных взаимодей- ствующих белков) eMOTIF HOMSTRAD HSSP http://www.embl-heidelberg.de/argos/ali/ali_info.htmlhttp://www.bmm.icnet.uk/3dpssm http://blocks.fhcrc.org/ http://www.ncbi.nlm.nih.gov/COG http://dib.doe-mbi.ucla.edu http://dna. Stanford.EDU/emotif/ http://www-cryst.bioc.cam.ac.uk/~homstrad http://swift.embl-heidelberg.de/hssp/http:www.sander.ebi.ac.uk/hssp/ INTERFPRO: объединенный ресурс доменов и функцио- нальных участков белков LPFC NetOGly 2.0: сервер предсказа- ний NNSL http://www.ebi.ac.uk/interpro http://www-camis.stanford.edu/projects/helix/LPFC/http://www.cbs.dtu.dk/services/NetOGlyc/ http: //predict, sanger. ас. uk/nnpsl/
Приложение 273 Название веб-узла Адрес в сети Pfam http ://www. sanger. ac.uk/Pfam PIR http://www-nbrf.georgetown.edu/ pirwww/pirhome.shtml PRINTS http://www.biochem.ucl.ac.uk/bsm/ ddbrowser/PRTNTS/PRINTS.html PROCLASS h ttp: //www. nbr f. georgetwon. edu/ gfserver/proclass.html PRODOM http ://protein. toulouse. inra. fr/prodom. html Prosite http ://w w w. expasy. ch/prosite ProtoMap http://protomap.comell.edu PSORT http://psort.nibb.ac.jp SignalP: веб-сервер http://www.cbs.dtu.dk/services/SignalP/ SMART http://srnart.embl-heidelberg.de SYSTERS http://www.dkfz-heidelberg.de/tbi. services/cluster/systersform TargetDB http.7/molbio.nmsu.edu:81/ 13. Наиболее известные программы предсказания вторичной структуры белка ВСМ: «Бейлорский медицин- http://dot.imgen.bcm.tmc.edu:9331/ ский колледж» seq-search/struc-predict.html DSC http://www. bmm. i cnet.uk/dsc/ J-Pred: сервер предсказания структуры http://jura.ebi.ac.uk:8888/ NNPRED http://www.cmpharm.ucsf.edu/'nomi/nnpredict.html Сервер NAP@ и MLR: пред- сказание вторичной структуры http://Pbil.ibcp.fr/NPSA/ PSA: «Система анализа белко- вых последовательностей» http://bmerc-www.bu.edu/psa/index.html PREDATOR http://www.embl-heidelberg.de/argos. predator/predatorinfo.html Predict Protein: сервер http://www.embl_heidelberg.de/predictprotein/ predictprotein.html PSSP http://dot.imgen.bcm.tmc.edu:9331/ seq-search/struc-predict.html Simpa96 http: //pbi 1. ibcp. fr/NP S А/
274 Приложение Название веб-узла Адрес в сети SOPM, SOPMA SSP http://pbil.ibcp.fr/NPSA/ http://dot.imgen.bcm.tmc.edu:9331/ seq-search/struc-predict.html UCLA-DOE: сервер предсказа- ния структуры http://www. doe-mbi. ucla. edu/people/frs vr.html 14. Серверы и программы протягивания 123D 3D-PSSM Honig lab Libra 1 http://www.hnmb.ncifcrf.gOv/~ nicka/123D.html http://www.bmm.icnet.uk/~3dpssm http://honiglab.cpmc.columbia.edu http://www.ddbj.nig.ac.jp/htmls/ E-mail/libra/LIBRA_l .html NCBI: веб-узел http://www.ncbi.nlm.nih.gov/ structure/RESEARCH/threading.html Profit Threader 2 TOP1TS http: //lore. came. sbg. ac. at/home. html http://insulin.brunel.ac.uk/threader/threader.htmlhttp://www.embl-heidelberg. de/predictprotein/doc/help05.html UCLA-DOE сервер предсказа- ния структуры http: //www. doc-mbi .ucla. edu/peopl e/frs vr/frs vr. html 15. Сетевые ресурсы анализа геномов и сопутствующей информации А. Геномы прокариотов MAGPIE: «Многоцелевая ра- бочая среда автоматизирован- ного исследования геномов» Сравнительный анализ гено- мов в лаборатории П. Борка Базы данных геномов микро- бов http://genomes.rockefeller.edu/magpie http://www.bork.embl-heidelberg.de/Genome/ http://www.ncbi.nlm.nih.gov:80/PMGifs/ Genomes/micr.html http://www.techfak.uni-bielefeld.de/techfak/ persons/chrisb/ ResTools/biotools/biotools 10.html http://www-nbrf.georgetown.edu/pir/ genome.html#PROK TIGR: домашняя страница ком- плексного ресурса микробов (содержит все известные дан- ные) http ://w ww. tigr. org/ tigr- scripts/CMR2/CMRHomePage.spl
Приложение 275 Название веб-узла Адрес в сети Участие Министерства энер- гетики США в проекте «Ге- ном человека» http://www.jgi.doe.gov/ Б. Базы данных геномов опытных организмов и другие базы данных геномов Программа просмотра генома Arabidopsis thaliana Информационный ресурс А. thaliana База данных червя Caenothabditis elegans Хромосомы С. elegans База данных протеома С. elegans Проект расшифровки генома С. elegans Информация о геноме Dictyostelium discoideum Проект Беркли по расшиф- ровке генома Drosophila melanogaster Хромосомы D. melanogaster D. melanogaster. секция Flybase (базы данных гено- мов мух) * Проект расшифровки генома Е. coli GenProtEC: база данных ге- нома и протеома Е. coli Указатель генов Е. coli Базы данных геномов при «НЦБИ» http ://www.kazusa. or.jp/kaos http://www.arabidopsis.org/ http://www.wormbase.org/ ftp://ftp.sanger.ac.uk/pub/databases/ C.eleganssequence/CHROMOSOMES/ http://www.sanger.ac.uk/Projects/C_elegans/wormpep/ http://www.sanger.ac.uk/Projects/C_elegans/ http://www.biology.ucsd.edu/others/dsmith/dictydb.html http://www.fruitfly.org/ http://flybase.bio.indiana.edu/maps/fbgrmap.htmlhttp://flybase.bio.indiana.edu/ http://www.genetics.wisc.edu/ http://genprotec.mbl.edu/ http://web.bham.ac.uk/bcm4ght6/res.htmlhttp://www.ncbi.nlm.nih.gov/Genomes/index.html http://www.ncbi.nlm.nih.gov/Entrez/Genome/ main_genomes .html http://www.ncbi.nlm.nih.gov:80/PMGifs/Genomes/ org.html
276 Приложение Название веб-узла Адрес в сети Не входящие в «НЦБИ» ба- зы данных геномов http://www.techfak.uni-bielefeld.de/techfack/ persons/chrisb/ResTools/biotools/biotools 10.html http://www-nbrf.georgetown.edu/pir/genome.html Список геномов при «НИ- Зе» MitBASE: база данных ДНК митохондрий Информация о геноме мы- ши (Mus musculus) Проекты расшифровки ге- номов растений в рамках инициативы Национального научного фонда США Последовательности генома органелл http://molbio.info.nih.gov/molbio/db.html http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl http://www.informatics.jax.org/ http: //www. ns f. go v/bi o/dbi/pgrs ites. html http://www.ncbi.nlm.nih.gov/PMGifs/Genomes/ organelles.html http://www-nbrf.georgetown.edu/pir/genome.html Базы данных и исследова- тельские ресурсы геномов паразитов Веб-узел расшифровки и анализа геномов ретровиру- сов Проект расшифровки гено- ма риса (Oryza sativa) Изображение 16-ти хро- мосом Saccharomyces cerevisiae'. http: //www. eb i. ac. uk/paras i tes/paras i te-genome. html http://www.ncbi.nlm.nih.gov/retroviruses/ http://rgp.dna.affrc.go.jp/ http ://genome- www. Stanford. edu/S accharomy ces/M АР/ GENOMICVIEW/GenomicView.html YPD: коммерческая ба- за данных протеома S. cerevisiae SGD: база данных ге- нома Сахарных грибов (Saccharomyces) http: //w w w.proteome. с от/Y PDhome. htm 1 http://genome-www.stanford.edu/Saccharomyces/ В. Сравнительный анализ геномов человека и мыши Celera Genomics: компа- ния, занимающаяся восста- новлением целых последо- вательностей путем автома- тизированной сборки фраг- ментов http://www.celera.com/
Приложение 277 Название веб-узла Адрес в сети Данные сравнения http://www.bioscience.org./urllists/chromos.html хромосом человека http://www.ncbi.nlm.nih.gov/Homology/ (Homo sapiens) и мыши http://infosrvl.ctd.oml.gov/TechResources/ (М. musculus) Human_Genome/publicat/97pr/05g_mous.html http:/.srs.ebi.ac.uk/, databanks link, M0USE2HUMAN Кооперативный центр со- http://lpg.nci.nih.gov/html- ставления карт сцепления генетических признаков че- ловека: просмотр карты хромосом в графическом интерфейсе chlc/ChlcIntegratedMaps.html Draft Human Genome Browser: программа про- смотра предварительной карты генома человека http://genome.ucsc.edu/goldenPath/hgTracks.html Полиморфизмы, мутации и картографирование после- довательности генома чело- века http://srs.ebi.ac.Uk/.Databanks link Проект производства ЯЭПов генома человека http://genome.wustl.edu/est/esthmpg.html Ресурсы информации о ге- номе человека при «НЦБИ» http://www.ncbi.nlm.nih.gov/genome/guide/ Веб-узлы исследований ге- нома человека, поддержива- емые «Ок-Риджскими наци- ональными лабораториями» http: //www. oml.gov. hgmi s/centers. htm 1 Карта хромосом мыши http://brise.uj f-grenoble. frC mongelar/ (М. musculus) с воз- можностью диалогового просмотра clicklientsideV2bis.html Сетевая база данных насле- дования у человека: «Уни- верситет Джонса Хопкин- са» и «НЦБИ» http://www3.ncbi.nlm.nih.gov/0mim/ «Уайтхедовский институт биомедицинских исследова- ний» http://www.oml.gov/hgmis.research.centers.html
278 Приложение Название веб-узла Адрес в сети Г. Связь генов и геномов и анализ протеомов различных организмов Alfresco: программа визуа- лизации для сравнения ге- номов http://www.sanger.ac.uk/Software/Alfresco/ Allgenes.org: полный ука- затель (каталог) генов, со- бранный из ЯЭПов и пред- сказанных генов http://www. allgenes. org/ CGAP: проект определения участков генома, связанных с развитием рака http://www.ncbi.nlm.nih.gov/CGAP COG (группа семейств ор- тологов): система класси- фикации генов http://www.ncbi.nlm.nih.gov/COG/ DOGS: База данных разме- ров геномов http://www.cbs.dtu.dk/databses/DOGS/index.html E-CELL: рабочая среда про- ектирования и моделирова- ния биохимических и гене- тических процессов http://www.e-cell.org FA STPAN: автоматиче- ский поиск в сетевых базах данных ЯЭПов для опознавания новых членов семейств (паралогов) http://www.uvasoftware.org/ GeneCensus: сравнение ге- номов по кодируемым бел- ковым структурам http://bioinfo.mbb.yale.edu/genome/ GeneQuiz: комплексная си- стема для крупномасштаб- ного анализа биологиче- ских последовательностей и управления данными http://jura.ebi.ac.uk:8765/ext-genequiz/ Genes and disease: карта хромосом человека http://www.ncbi.nlm.nih.gov/disease/ Genome channel при «Ок- Риджских национальных лабораториях» http://compbio.oml.gov/channei/ GOLD™: сетевая база дан- ных геномов http: //wit. integratedgenomi cs .com/ GOLD/
Приложение 279 Название веб-узла Адрес в сети IMGT: специализированная база http://www.ebi.ac.uk/imgt/index.html данных иммуногенетики, содер- жащая сведения об иммуногло- булинах, рецепторах Т-клеток и главном комплексе гистосовме- стимости (ГКГ) всех позвоноч- ных KEGG: «Киотская энциклопедия http://www.genome.ad.jp/kegg/ генов и геномов» М1А (Агент по сбору информации http://mia.sdsc.edu/ о молекулах): веб-сервер для по- иска в базах данных информации о ма1фомолекулах Выравнивание ортологичных ге- http://www.tigr.org/tdb/toga/orthtables.html нов в «ТИГРе» PEDANT: средство извлечения, http://pedant.mips.biochem.mpg.de/ описания и анализа белков SEQUEST: определение белков http://thompson.mbt.washington.edu/sequest/ посредством масс-спектрометрии STRING: средство поиска повтор- http://www.Bork.EMBL-Heidelberg.DE/STRING/ ных появлений соседних генов Taxonomy browser при «НЦБИ»: http://www.ncbi.nlm.nih.gov/Taxonomy/ таксономическая группировка ге- taxonomyhome.html/ номов для выборки последова- тельностей UniGene System: сгруппирован- http://www.ncbi.nlm.nih.gov/UniGene ные по принципу отношения к ге- нам последовательности «Генбан- ка», полезные для опознавания ге- нов Веб-сервер Отдела сельскохозяй- http://genome.comell.edu/ ственных исследований при Ми- нистерстве земледелия США, со- держащий справочную информа- цию о геномах растений и живот- ных Д. Метаболизм и регуляция, функциональная геномика ДЭПААГ-анализ белков: список http://www.expasy.ch/ch2d/2d-index.html организмов
280 Приложение Название веб-узла Адрес в сети AlignAce: анализ промоторов http://atlas.med.harvard.edu/download/ совместно регулируемых генов, например микроматриц, путем выборки с помощью программы Gibbs ArrayExpress: поддерживаемая http://www.ebi.ac.uk/arrayexpress/ «Европейским институтом био- информатики» база данных для испытаний на микроматрицах BRITE: база данных взаимодей- http://www.genome.ad.jp/brite/brite.html ствий между белками и пере- крестных ссылок Есосус: электронная энциклопе- http://ecocyc.PangeaSystems.com/ecocyc/ дия генов и метаболизма Е. coli EpoDBis: база данных генов, http://www.cbil.upenn.edu/EpoDB/index.html связанных с красными кровяны- ми тельцами (эритропоэз) по- звоночных Expression Profiler: набор про- http://ep.ebi.ac.uk/ грамм анализа и группировки данных о последовательностях и экспрессии генов Веб-узлы функциональной гено- http://www.oml.gov.hgmis/publicat/hgn/ мики hgnarch.html#fg GeneCensus: сравнение геномов http://bioinfo.mbb.yale.edu/genome/ по кодируемым белковым струк- турам GENECLUSTER http://www.genome.wi.mit.edu/MPR/software.html GeneX: совместная сетевая база http://www.ncrg.org.research/genex/ данных и набор средств для ана- лиза данных об экспрессии ге- нов MetaCyc: энциклопедия метабо- http://ecoocyc.PangeaSystems.com/ecocyc/ лизма Microarray guide: лаборатория http://cmgm.stanford.edu/pbrown/ Брауна NIH: проект развития техноло- http://www.nhgri.nih.gov/DIR/LCG/15K/HTML/ гии микроматриц Программное обеспечение экс- http://rana.lbl.gov/ периментов на микроматрицах
Приложение 281 Название веб-узла_________________Адрес в сети______________________________________ Microarrays.org: новый общедо- http://www.microarrays.org/ ступный ресурс информации о технологии микроматриц, про- граммных средств и протоколов SMART: изучение генетически http://smart.embl-heidelberg.de/ подвижных белковых доменов SWISS-2DPAGE: база данных http://www.expasy.ch/ch2d/ ДЭПААГ TIGR: ресурсы составления ан- http://www.tigr.org/tdb/tgi.shtml нотаций и внесения генов в ука- затели, включая анализ транс- крибированных последователь- ностей, помещенных в обще- ствеенные базы данных ЯЭПов WIT (What is there?): диалоговое http://wit.mcs.anl.gov.WIT2/ восстановление метаболических путей в сети Транскриптом дрожжей http://bioinfo.mbb.yale.edu/genome/ (S. cerevisiae) Геночип дрожжей (S. cerevisiae) http://cmgm.stanford.edu/pbrown/yeastchip.html Е. Номенклатура и функциональная характеризация генов; развитие баз данных геномов Номенклатура A. thaliana http://www.arabidopsis.org/links/nomenclature.html GAIA: аннотирование и анализ http://www.cbil.upenn.edu/gaia2/gaia информации о геноме GeneQuiz: комплексная систе- http://jura.ebi.ac.uk:8765/ext- ма для крупномасштабного ана- genequiz/genequiz.html лиза биологических последова- тельностей и управления данны- ми GFF (характеристики для поиска http://www.sanger.ac.uk/software/GFF/ генов): инструкция по описанию генов и других характеристик в геномике GO (онтология генов): управля- http://genome-www.stanford.edu/GO/ емый словарь К2: система объединения рас- http://www.cbil.upenn.edu/ пределенных неоднородных баз данных и информационных ре- сурсов
282 Приложение Название веб-узла Адрес в сети Kleisli Project: средство всемир- http://sdmc.krdl.org.sg/kleisli/ ного объединения банков дан- ных через сеть «Интернет» MAGPIE: «Многоцелевая рабо- http://www.rockefeller.edu/labheads/gaasterland. чая среда автоматизированного gaasterland.html исследования геномов» http://genomes.rockefeller.edu/magpie/index.htmlhttp://magpie.genome.wisc.edu/tools.html Mendel Plant Gene Nomenclature http://genome-www.stanford.edu/Mendel/ Database (база данных номен- клатуры генов менделевских растений) RefSeq и LocusLink: админи- http://www.ncbi.nlm.nih.gov/LocusLink/refseq.html стрируемый набор эталонных последовательностей, база для аннотирования функций TAMBIS: концептуальная мо- http://img.cs.man.ac.uk/tambis/ дель молекулярной биологии и биоинформатики, а также мето- ды обращения к этой модели
Литература [1] Attwood, Т. К. and Parry-Smith, D. J., 2002. Introduction to Bioinformatics, Pearson Education (Singapore) Pte. Ltd., Singapore. [2] Baldi, P. and Brunak, S., 1998. Bioinformatics — the Machine Learning Approach, The MIT Press, Cambridge, MA. [3] Banaszak, J., 2000. Foundations of Structural Biology, Academic Press, NY, USA. [4] Baxevanis, A.D. and Quellette, F. B.F. (Eds.), 2001. Bioinformatics: A practical Guide to the Analysis of Genes and Proteins, 2n^ ed., John Wiley & Sons, New York. [5] Benson, G. and Page, R. (Eds.), 2004. Algorithms in Bioinformatics, Springer Verlag, Berlin. [6] Bergeron, B., 2003. Bioinformatics Computing, Prentice-Hall, London, England. [7] Berners-Lee, T., 1999. Weaving the Web, Harper Collins Publishers Inc., NY, USA. . [8] Bourne, P. E. and Weissing, H. (Eds.), 2003. Structural Bioinformatics, John Wiley & Sons, New York. [9] Brown, S.M., 2000. Bioinformatics: A Biologist's Guide to Biocomputing and the Internet. Eaton Publishing, Biotechniques Books Division, Natick. [10] Campbell, A. M. and Heyer, L. J., 2003. Discovering Genomics, Proteomics and Bioinformatics. Benjamin Cummings. [11] Cantor, C. R. and Smith, C. L., 1999. Genomics: The Science and Technology Behind the Human Genome Project, John Wiley & Sons Inc., NY, USA.
284 Литература [12] Dan Gusfield, 1997. Algorithms on Strings Trees and Sequences, Cambridge University Press, Cambridge. [13] Dayhoff, M. D., (Ed.), 1978. Atlas of Protein Sequence and Structure, National Medical Research Foundation, Washington. [14] David Mount, W., 2001. Bioinformatics, Cold Spring Harbor Laboratory Press, New York. [15] Durbin, R., Eddy, S., Krogh, A. and Mitchinson, G. (Eds.), 1998. Biological Sequence Analysis. Probabilitic Models of Proteins and Nucleic Acids, Cambridge University Press, Cambridge. [16] Dwyer, R. A., 2003. Genomic Perl: From Bioinformatics Basics to Working Code, Cambridge University Press, New York. [17] Eidhammer, I., et al., 2004. Protein Bioinformatics: Algorithmic Approach to Sequence and Structure Analysis, John Wiley & Sons, New York. [18] Ewebs, W. J., 2004. Statistical Methods in Bioinformatics, Introduction, Springer Verlag, Berlin. [19] Gibas, C. and Jambeck, P. 2001. Developing Bioinformatics Computer Skills, O’Reilly, Shroff Publishers and Distributors Pvt. Ltd., Mumbai. [20] Greg Gibson and Muse Spenser, V, 2002. Primer of Genomic Science, Sinauer Associates Inc., Publishers, Sunderland. [21 ] Higgins, D. and Taylor, W. (Eds.), 2000. Bioinformatics: Sequence Structure and Databanks a Practical Approach, Oxford University Press, Oxford. [22] Hillis, D.M., Moritz, C. and Mabie, B.K. (Eds.), 1996. Molecular Systemics, Sinauer Associates Inc., Sunderland. [23] Jamison, C. D., 2004. Perl Programming for Bioinformatics and Biologists, John Wiley & Sons, New York. [24] Jonathan Pevzner, 2003. Bioinformatics and Functional Genomics, John Wiley & Sons, New York. [25] Khan, I. A. and Khanum, A. (Eds.), 2002. Fundamentals of Bioinformatics, Ukaaz Publications, Hyderabad.
Литература 285 [26] Khan, LA. and Khanum, A. (Eds.), 2003. Essentials of Bioinformatics, Ukaaz Publications, Hyderabad. [27] Khan, I. A. and Khanum, A. (Eds.), 2003. Recent Advances in Bioinformatics, Ukaaz Publications, Hyderabad. [28] Krane, D. E. and Raymer, M. L., 2003. Fundamental Concepts of Bioinformatics, Pearson Education Singapore Pte. Ltd., Singapore. [29] Krawetz, S.A. and Womble, D. D. (Eds.), 2003. Introduction to Bioinformatics — Theoretical and Practical Approach, Humana Press, Totawa. [30] Lacroix, Z. and Critchlow, T. (Eds.), 2003. Bioinformatics Managing Scientific Data, Morgan Kaufmann. [31] Leach, A., 2001. Molecular Modeling, Prentice-Hall, London, England. [32] Lengauer, T. (Ed.), 2002. Bioinformatics from Genomes to Drugs, John Wiley & Sons, New York. [33] Leonard, J. B., 2000. Foundation of Structural Biology, Academic Press, New York. [34] Lesk, A. M., 2003. Introduction to Bioinformatics, Oxford University Press, Oxford. [35] Luke Alphe, 1997. DNA Sequencing: From Experimental Methods to Bioinformatics, BIOS Scientific Publishers, Oxford. [36] Mani, K. and Vijayaraj, N., 2002. Bioinformatics for Beginners, (Ed.) D. Padmanaban, Kalaikathir Achagam, Coimbatore. [37] Mani, K. and Vijayaraj, N., 2004. Bioinformatics — A Practical Approach, Apamaa Publications, Coimbatore. [38] Mishra, A., 2001. Bioinformatics and Human Genome, Authorspress Publishers, Delhi, India. [39] Mount, D. W., 2003. Bioinformatics, Sequence and Genome Analysis, CBS. [40] Murthy, C. S.V., 2003. Bioinformatics, Himalaya Publishing House, New Delhi.
286 Литература [41] Orengo, С., et al., 2003. Bioinformatics: Genes, Proteins and Computers,, BIOS Scientific Publishers, Oxford. [42] Pevzner, Pavel, 2000. Computational Molecular Biology — An Algorithmic Approach, The MIT Press, Cambridge, MA. [43] Rashidi, H. H. and Buehler, L. K., 2000. Bioinformatics: Basics, Applications in Biological Science and Medicine, CRC Press, Florida, USA. [44] Racjard, D. (Ed.), 1997. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids, Cambridge University Press, Cambrid- ge. [45] Sehomberc, D. and Lessel, U. (Eds.), 1995. Bioinformatics: From Nucleic Acids and Proteins to Cell Metabolism, VCH. [46] Stephen Misener and Stephen Krawetz, A. (Eds.), 2001. Bioinformatics Methods and Protocols, Humana Press, Totowa. [47] Sundararajan, S. and Balaji, R., 2002. Introduction to Bioinformatics, Himalaya Publishing House, New Delhi. [48] Thomas, E. C., 1992. Proteins: Structures and Molecular Properties, 2П^ Ed., Freeman. [49] Tisdall, J. D., 2001. Beginning Perl for Bioinformatics, O’Reilly Publi- shers. [50] Tisdall, J. D., 2003. Mastering Perl for Bioinformatics, O’Reilly Publi- shers. [51] Waterman, M.S., 1995. Introduction to Computational Biology: Maps, Sequences and Genomics. Chapman and Hall, London. [52] Westhead, D.R., Parish, J. H. and Twyman, R. M., 2003. Instant Notes: Bioinformatics, BIOS Scientific Publishers Ltd., Oxford, UK. [53] Wilkins, N. R. (Ed.), 1997. Proteome Research: New Frontiers in Functional Genomics, Springer-Verlag, Berlin. [54] Yap, T. K., Frieder, O. and Martino, R. L., 1996. High performance Computational Methods for Biological Sequence Analysis, Kluwer Academic, Norwell.
Словарь терминов Ab initio — в противоположность эмпирическому, основанному на знаниях, методу, — анализ, проводимый от первого принципа. In silico — означает проведение биологического эксперимента, а также управление им и его анализ с помощью ЭВМ (в среде имитационно- вычислительного моделирования). Аденин — пуриновое основание, входящее в состав ДНК и РНК. Алгоритм — набор правил с заданной логической последовательностью шагов (стандартных операций), представляющих собой этапы решения задачи. Алгоритм Смита-Уотермена — основанный на методе динамического про- граммирования алгоритм поиска локального выравнивания последова- тельностей. Главная особенность состоит в том, что все отрицательные счета, вычисленные по матрице динамического программирования, за- меняются нулями, чтобы избежать продолжения выравниваний с плохим счетом и облегчить поиск (по этой матрице) локальных выравниваний, начинающихся и заканчивающихся в любых заданных позициях. Алфавит — общее число знаков, принятых для описания последовательно- стей: 4 знака в случае последовательностей ДНК и 20 знаков в случае последовательностей белков. Аминокислота — элементарная структурная единица белков. Известно 20 природных аминокислот, встречающихся в белках животных, и прибли- зительно еще 100, обнаруженных только у растений. Аналоги — в филогенетике к ним относят негомологичные белки, кото- рые обладают подобным строением сверток или подобными функцио- нальными участками и которые, как полагают, возникли в результате сходящейся эволюции.
288 Словарь терминов Аннотация — совокупность комментариев, примечаний, ссылок и справок, которые организованы в произвольном формате или в виде управляе- мого словаря и вкупе описывают всю экспериментальную информацию и теоретические выводы о гене или белке. Апплет — маленькая прикладная программа, загружаемая с сервера через ЯРГ-страницы. Архив — собрание файлов. АСКОИ — американский стандартный код обмена информацией (American Standard Code for Information Interchange). АСКОИ определяет 128 зна- ков, которым присвоены номера 0-127. База данных — собрание записей данных, представленное либо единствен- ным файлом, либо совокупностью отдельных файлов. Белок — молекула, состоящая из одной или нескольких цепей аминокислот, расположенных в определенном порядке; порядок расположения амино- кислот определен последовательностью азотистых оснований в кодиру- ющем этот белок гене. Белки необходимы для формирования структуры, выполнения функции и осуществления регуляции клеток, тканей и ор- ганов; при этом каждый белок играет определенную роль (например: гормонов, ферментов и антител). Библиотека — неупорядоченное собрание клонов (то есть клонированная ДНК некоторого организма), полученных из геномной ДНК или кДНК. Библиотека кДНК — библиотека генов, собранная из встроек кДНК, син- тезированных по матрице иРНК с помощью обратной транскрипта- зы. Бит — двоичный знак. Бит информации — минимальное количество информации, необходимое для обозначения двух равновероятных возможностей (определение из теории информации). Число битов информации 7V, требуемое для пе- редачи сообщения, содержащего М возможностей, равно log2 М = N битов. «БЛАСТ» — программа для поиска подобия в базах данных последователь- ностей.
Словарь терминов 289 Блок — не содержащий пропусков, выровненный мотив, состоящий из сегментов последовательности, которые группируют, чтобы уменьшить кратный вклад от групп сильно подобных или идентичных последова- тельностей. Варианты сращения — белки различной длины, синтезированные путем трансляции молекул иРНК, собранных из произвольных разновеликих выборок экзонов из матричной ДНК. Вверх — направление считывания последовательности молекулы ДНК, обратное направлению транскрипции. Вдова — остаток аминокислоты, отделенный от соседних остатков лож- ными пропусками; как правило, результат чрезмерно усердной вставки пропусков программами автоматического выравнивания. Вектор экспрессии — клонирующий вектор, который конструируют для осуществления экспрессии белка с кДНК. Вестерн-блот — метод опознавания антигенов в смеси белков с помощью специфических антител. «Всемирная паутина» (www) — информационная система ресурсов, до- ступных через сеть «Интернет», использующая ППГФ в качестве основ- ной среды передачи информации. Вставка — область выравнивания последовательностей, в которой одна по- следовательность очевидно имеет дополнительные мономеры по срав- нению с другой последовательностью. Всуд — вставка/удаление в последовательности ДНК или белка. Вторичная база данных — база данных, которая содержит информацию, полученную путем обработки первичных данных о последовательно- сти и представленную, как правило, в форме регулярных выражений (комбинаций), индикаторов, блоков, профилей или скрытых марковских моделей. Эти абстракции представляют собой экстракт наиболее кон- сервативных особенностей множественных выравниваний и, таким об- разом, вполне могут быть надежными дискриминаторами для опреде- ления принадлежности недавно расшифрованных последовательностей к семействам.
290 Словарь терминов Вторичная структура — область локальной регулярности в пространствен- ной свертке белка (например а-спирали, /3-изгиба или /3-нити). Выравнивание — взаимное расположение двух или более последователь- ностей нуклеотидов или аминокислотных остатков, при котором число совпадающих мономеров является возможно максимальным. Выравнивание последовательностей — линейное сравнение последова- тельностей амино- или нуклеиновых кислот, в которые вводятся пропус- ки, чтобы передвинуть совпадающие позиции в сопоставленных после- довательностях в правильный столбец. Выравнивания составляют осно- ву методов анализа последовательностей и используются для точного определения места появления консервативных мотивов. Высокопроизводительные отборочные испытания — методика приме- нения автоматизированного анализа, позволяющая перебрать большое число соединений и отобрать из них те, которые обладают желательной активностью. Ген — фундаментальная физическая и функциональная единица наслед- ственности. Ген представляет собой упорядоченную последовательность нуклеотидов, расположенную в определенной области определенной хромосомы и кодирующую специфический функциональный продукт (то есть молекулу белка или РНК). Генетическая карта — изображение относительных позиций известных генов, или маркеров. Генетический алгоритм — особый алгоритм поиска, созданный по анало- гии с механизмами эволюции. Алгоритм кодирует совокупность первич- ных решений, измеряет предопределенную пригодность каждого реше- ния и выбирает из первичной совокупности решения с самой высокой пригодностью для воспроизведения. Генетический код — правила соотнесения четырех оснований ДНК или РНК с 20 аминокислотами. С помощью трех оснований (триплета, или кодона) можно закодировать 64 возможных последовательности. Каж дый триплет уникально определяет одну аминокислоту, но одна амино- кислота может быть закодирована по крайней мере шестью кодонами. Поэтому генетический код называют вырожденным.
Словарь терминов 291 Геном — весь генетический материал в хромосомах организма определен- ного биологического вида; размер генома в целом определяется общим количеством пар нуклеотидов. Гибридизация — процесс соединения двух комплементарных нитей ДНК или нити ДНК с нитью РНК, приводящий к образованию молекулы в виде двойной спирали. Гидропатия — свойство гидрофобности, низкое сродство к воде. Гиперсреда — совокупность форматированных веб-документов, содержа- щих разнородную информацию (включая текст, изображения, видео и аудио). Гиперссылка — активная перекрестная ссылка ППГФ, которая связывает веб-документы посредством сети «Интернет». Гипертекст — текст, содержащий вложенные ссылки (гиперссылки) на дру- гие документы. Глобальное выравнивание — процедура приведения в соответствие как можно большего числа знаков, распространяющаяся на всю длину двух и более последовательностей. Гомология — родство, обусловленное эволюционным процессом расхожде- ния от общего предка. Гомология отнюдь не синоним подобия. Группа — скопление подобных объектов в многомерном пространстве. Групповой анализ — метод объединения в группы наиболее подобных объ- ектов, выбранных из более крупной группы соотнесенных объектов. От- ношения определяются по некоторому критерию подобия или различия. Гуанин — одно из пуриновых азотистых оснований, входящее в состав ДНК и РНК. Дезоксирибонуклеаза (ДНКаза) — представитель группы ферментов, спо- собных переваривать ДНК. Дезоксирибонуклеиновая кислота (ДНК) — молекула, в которой закоди- рована генетическая информация. Молекула ДНК состоит из двух ни- тей, удерживаемых вместе слабыми водородными связями между пара- ми азотистых оснований. Нуклеотиды ДНК содержат основания четырех
292 Словарь терминов видов: аденин (А), гуанин (G), цитозин (С) и тимин (Т). В силу своей химической природы пары образуют только основания А и Т, а также G и С; таким образом, последовательность оснований каждой отдельной нити может быть выведена из последовательности нити-партнера. Динамическое программирование — метод сравнения и выравнивания строк или последовательностей по принципу, допускающему эффектив- ное в вычислительном отношении введение пропусков. Дискриминатор — математическая абстракция консервативного мотива или набора мотивов (например, образец регулярного выражения, профиль или индикатор), используемая для поиска идентичного или подобного мотива (мотивов) или в отдельно взятой последовательности запроса, или в целой базе данных. Длина ветви — в анализе последовательностей длина ветви отражает чис- ло изменений последовательности, произошедших в ходе эволюции, на- правленной по данной ветви филогенетического дерева. Домашняя страница — составленный на ЯРГ документ, который служит первым пунктом контакта между программой-обозревателем и сервером. Домен — компактная, самостоятельная, частично обособленная структурная единица, предположительно возникающая в результате событий слияния и дублирования генов. Домены не обязательно образованы смежными областями последовательности аминокислот: они могут быть дискрет- ными объектами, соединенными только гибкой связующей цепью; они могут иметь обширные сопрягающие области с многочисленными об- щими тесными контактами; наконец, они могут обменивать цепи с со- седними доменами. Комбинация доменов в пределах белка определяет его общую структуру и функцию. Дополнение — графический, звуковой или иной файл, прикрепленный к пе- ресылаемому сообщению в системах электронной почты. Древовидная диаграмма — разветвленная схема, применяемая для нагляд- ного представления филогенетических отношений. Дублирование гена — генетическое изменение, при котором отдельный сег- мент ДНК повторяется. Дублирования могут появиться где угодно; если дублированный сегмент примыкает к оригинальному, то такое дублиро- вание называют тандемным.
Словарь терминов 293 Задача свертывания белка — задача определения механизма (алгоритма) свертывания белка в его конечную пространственную структуру, опре- деляемую лишь информацией, закодированной в его первичной после- довательности. Закачка — загрузка файлов из компьютерной сети на местный компьютер. Зеркала — идентичные веб-узлы, расположенные на различных компьюте- рах; зеркала обеспечивают пользователям из определенных стран более быстрый доступ к данным. Зонд — последовательность ДНК или белка, используемая при поиске в ба- зах данных в качестве запроса. Идиотип — карта упорядоченных по номеру и размеру хромосом клетки организма. Индикатор — группа непрерывных мотивов, используемая для построения характеристических сигнатур принадлежности к определенному семей- ству. Такие группы непрерывных мотивов опознают в выравниваниях последовательностей при диалоговом поиске в первичной (или смешан- ной) базе данных. «Интернет» — международная сеть, которая объединяет местные компью- терные сети и соединяет правительственные, образовательные и ком- мерческие учреждения. «Интернет»-протокол взаимодействия брокеров объектных запросов (ИВБОЗ) — протокол, определяющий передачу сообщений между бро- керами объектных запросов по сети «Интернет». «Интранет» — местная корпоративная компьютерная сеть, изолированная от «Интернета» посредством брандмауэра, и предлагающая своим поль- зователям аналогичные сервисные средства (например поддержки веб- серверов, электронной почты и т. д.). Интрон — некодирующая область ДНК. Интроны — последовательности оснований ДНК, которые прерывают коди- рующую белок последовательность гена; эти последовательности транс- крибируются в РНК, но вырезаются из нее прежде ее трансляции в бе- лок.
294 Словарь терминов Информационная РНК (иРНК) — комплементарная копия ДНК, синтези- руется по однонитевой матрице ДНК в процессе транскрипции и затем мигрирует из ядра в цитоплазму. ИП — «Интернет»-протокол. ИП-адрес — адрес «Интернет»-протокола, представляет собой уникальный опознавательный номер, присвоенный каждому компьютеру в сети «Ин- тернет» для обеспечения согласованной связи между ними. Истинное несовпадение — несовпадение, правильно распознанное дискри- минатором в качестве такового. Истинное совпадение — совпадение, правильно распознанное дискрими- натором в качестве такового. Итеративный — предполагающий многократное выполнение последова- тельности операций. Кариотип — схематически представленная характерная для вида совокуп- ность морфологических признаков хромосом (число, размер, форма, де- тали строения и т. д.). Кладограмма — древовидная диаграмма, в которой каждый узел имеет две ветви; представляет эволюционную историю как процесс видообразова- ния путем раздвоения эволюционных линий. Клетка — структурная единица любого живого организма. Клиент — любая программа, которая взаимодействует с сервером (напри- мер: «Линкс», «Мозаика» и «Нетскейп навигатор»). Клон — скопированный фрагмент ДНК, поддерживаемый в форме кольца и идентичный матрице, с которой он был синтезирован; также популяция генетически идентичных клеток, полученная от одного предка. Клонирование — процесс производства идентичных копий некоторого фрагмента ДНК (который может кодировать целый ген), вырезанного из единственной матричной ДНК; также процесс создания идентичных копий клеток — потомков общего предка. Клонирующий вектор — молекула ДНК, сконструированная из части гене- тического материала вируса, плазмиды или клетки высшего организма,
Словарь терминов 295 в которую может быть встроен фрагмент ДНК без нарушения способно- сти вектора к саморепликации. Кодирующая последовательность (КП) — область ДНК или РНК, последо- вательность которой определяет последовательность аминокислот в бел- ке. Кодон — последовательность трех смежных нуклеотидов, которая кодирует либо определенный мономер (азотистое основание или остаток амино- кислоты), либо старт- или стоп-участок для механизма считывания. Командная строка — строка для ввода текстовых команд компьютеру. Командный язык — язык для составления списка команд, предназначенных для выполнения операционной системой ЭВМ. Комплементарная ДНК (кДНК) — нить ДНК, синтезированная с молекулы иРНК с помощью обратной транскриптазы. Консервативная последовательность — последовательность оснований в молекуле ДНК (или последовательность аминокислот в белке), которая в ходе эволюции оставалась фактически неизменной. Конформация — взаимное пространственное расположение атомов и связей в молекуле, обусловливающее ее строение и, следовательно, функцию. Корневое дерево — филогенетическое дерево, в котором наименее общий предок всех биологических видов выделен в виде отдельного порожда- ющего узла. • /с-Кортежи — короткие идентичные отрезки последовательностей, называ- емые также словами. КОСА — (количественное отношение структура-активность). Математиче- ская функция, описывающая взаимосвязь между структурными особен- ностями молекулы и ее биологической функцией. Лекарственный препарат — химический агент, воздействующий на био- логический процесс. Лиганд — любая маленькая молекула, которая связывается с белком или рецептором.
296 Словарь терминов Линейный штраф за пропуски — счет штрафа за пропуски, определяемый линейной функцией длины пропуска и состоящий из штрафа за введение пропуска и штрафа за продолжение пропуска, умноженного на длину пропуска. Логарифмический счет шансов — логарифм счета шансов. Локальное выравнивание — процедура выравнивания принадлежащих по- следовательностям областей с наивысшей плотностью совпадений, рас- пространяющаяся на отдельные короткие отрезки обеих последователь- ностей. Ложное несовпадение — истинное совпадение, которое неправильно рас- познается дискриминатором в качестве несовпадения. Ложное совпадение — истинное несовпадение, неправильно распознавае- мое дискриминатором в качестве совпадения. Максимальное правдоподобие — наиболее вероятный исход (дерево или выравнивание) при вероятностном моделировании эволюционных изме- нений в последовательностях ДНК. Максимальная экономичность — минимальное число эволюционных ша- гов, необходимых для воспроизведения наблюдаемых изменений в на- боре последовательностей; определяют путем сравнения числа шагов во всех возможных филогенетических деревьях. Матрица БЛОЗАМ — матрица, полученная с помощью локальных мно- жественных выравниваний более отдаленно связанных последователь- ностей. Их применяют для оценки подобия последовательностей при построении выравниваний. Матрица счетов ПТМ — матрица процентов точечных мутаций (ПТМ) опи- сывает вероятность замен оснований или аминокислот в ходе эволюции. Матрицы ПТМ аминокислот получают из семейств близкородственных последовательностей и используют для оценки подобия последователь- ностей при построении выравниваний. Машинный код — двоичный код, интерпретируемый процессором компью- тера. Метод дробовика — метод клонирования фрагментов ДНК, полученных путем произвольного дробления генома.
Словарь терминов 297 Метод объединения соседей — метод объединения в группы подобных пар из набора родственных объектов; позволяет построить дерево, вет- ви которого отражают степени различия между этими объектами (гены с подобными последовательностями). Меченый участок последовательности (МУП) — короткий (200-500 п. н.) отрезок последовательности ДНК, который присутствует в геноме че- ловека в единичном экземпляре; его местоположение и последова- тельность оснований известны. МУПы опознаются в ходе полимераз- ной цепной реакции (ПЦР) и помогают направлять и ориентировать картографирование, а также соотносить данные о последовательно- сти, сообщаемые из многих лабораторий, то есть служат ориентира- ми на развивающейся физической карте генома человека. Ярлыки экс- прессируемых последовательностей (ЯЭПы) — это МУПы, полученные из кДНК. Микроматрица — миниатюрный прибор, называемый также чипом (ми- крочипом, биочипом), который содержит сотни или тысячи различных молекул, закрепленных на подложке в узлах регулярной сетки. Мишень — молекула, которая является критическим фактором болез- ни и может быть поражена потенциальным терапевтическим сред- ством. Мозаика — мозаичный белок — это модульный белок, который состоит не из множественных тандемных повторений одного и того же модуля, а из множества различных модулей; при этом каждый модуль передает от- дельные нюансы общих функциональных возможностей родительского белка. Молчащая мутация — замещение нуклеотида, которое в силу избыточно- сти генетического кода не приводит к замене аминокислоты в продукте трансляции. Монте-Карло — метод статистических испытаний, в котором общее реше- ние сложной задачи отыскивается по совокупности возможных частных решений (случайных проб). Мотив — непрерывная цепь следующих друг за другом аминокислот в по- следовательности белка, общий характер которой повторяется (или со- храняется) в некоторой постоянной позиции всех последовательностей
298 Словарь терминов во множественном выравнивании. Мотивы представляют интерес, пото- му что они могут соответствовать структурным или функциональным элементам последовательности, которую они характеризуют. м. п. н. — единица длины фрагментов ДНК, равная 1 миллиону пар нуклео- тидов. Мутация — любое изменение (в) последовательности ДНК. Нейронная сеть — применяется в алгоритмах с элементами искусствен- ного интеллекта. Абстрактная структура, состоящая из множества про- стых единиц, которым присвоены численные веса и которые содержат символьные данные. Каждая единица работает только с символьными данными, поступившими на ее вход по связям с другими единица- ми. Немой терминал — настольное устройство для ввода-вывода данных, кото- рое не имеет собственных вычислительных возможностей и полностью обслуживается центральным компьютером. Такие терминалы не поддер- живают приложения с оконным интерфейсом. Нидлмена-Вунша алгоритм — основанный на методе динамического про- граммирования алгоритм поиска голобального выравнивания последо- вательностей. Нозерн-блот анализ — методика определения молекул РНК посредством гибридизации. Номер доступа — уникальный (опознавательный) номер или код, присво- енный для обозначения записи первичной или вторичной базы данных; такие записи содержат информацию о последовательности (амино- или нуклеиновых кислот) или о регулярной комбинации (регулярном выра- жении, индикаторе, профиле). Нормализованная библиотека — библиотека кДНК, которая организована таким образом, что все гены в ней представлены с одинаковой частотой. НПО — (непрерывно покрытые области) — последовательности клонов, со- ответствующие перекрывающимся областям некоторого гена, представ- ленного в виде сборки или множественного выравнивания этих после- довательностей.
Словарь терминов 299 Нуклеотид — молекула, состоящая из азотистого основания (A, G, Т и С в ДНК; A, G, U и С в РНК), остатка фосфорной кислоты и углевода (дез- оксирибозы в ДНК и рибозы в РНК). Молекулы РНК или ДНК содержат тысячи нуклеотидов. ОАБОЗ — общая архитектура брокеров объектных запросов (Common Object Request Broker Architecture, CORBA) — открытый промышленный стандарт, принятый для работы с распределенными объектами и разрабо- танный «Рабочей группой по развитию стандартов объектного програм- мирования» (Object Management Group). ОАБОЗ позволяет осуществлять взаимный обмен сообщениями между объектами и приложениями неза- висимо от компьютерного языка, архитектуры ЭВМ или географическо- го местоположения компьютеров. Обозреватель — компьютерная программа (называемая также приложением- клиентом), которая производит выборку информации из «Интернета» и «Всемирной паутины». Объектно-ориентированная база данных — база данных, в которой дан- ные хранятся в виде абстрактных объектов, связанных абстрактными же отношениями. Единицей хранения информации является не запись, как в реляционных базах данных, а объект. Форматы представления дан- ных могут быть самыми разными, включая, например, строки знаков, оцифрованные изображения, таблицы и т. д. Комплексный объект может включать в себя множество других объектов, причем объектно-ориен- тированная база данных позволяет осуществлять выборку таких объек- тов как цельных элементов. Благодаря гибкой системе представления данных и возмджности объединять объекты в группы, объектно-ориен- тированные базы данных являются очень мощными информационными системами. Онтология — описание отношений между объектами (особенно в системах искусственного интеллекта). Операционная система — программа или комплект программ для управле- ния работой компьютера, контроля операций ввода/вывода, прерывания пользовательских запросов и т. д. (например: «Юникс», «СВП», «Уиндо- ус НТ» и т. д.). Оперон — единица транскрипции, состоящая из одного или нескольких структурных генов, оператора и промотора.
300 Словарь терминов Описатель — слово (фраза), содержащее данные об отдельной последова- тельности или о наборе последовательностей; объем такой информации зависит от места описателя в записи. Оптимальное выравнивание — выравнивание с наивысшим счетом, по- строенное алгоритмом, способным к нахождению кратных решений. Это возможно лучшее выравнивание, которое может быть найдено для любого параметра, заложенного пользователем в программу выравнива- ния последовательностей. Опытное соединение — вещество, обладающее многими свойствами иде- ального лекарственного препарата и взаимодействующее с заданной мо- лекулярной мишенью. Ортологи — гомологичные белки, которые синтезируются в организмах различных биологических видов, но выполняют аналогичные функ- ции. Открытая рамка считывания (ОРС) — ряд кодонов ДНК (в том числе 5’-инициирующий кодон и стоп-кодон), кодирующий предполагаемый или известный ген. Пакет — отдельное сообщение или обособленный компонент сообщения; включает в себя адрес, управляющий и информационный сигналы, мо- жет передаваться по сети связи как самостоятельный объект. Паралоги — синтезируемые в одном организме гомологичные белки, кото- рые выполняют различные, но связанные функции. Параметрическое выравнивание последовательностей — метод, позво- ляющий найти диапазон возможных выравниваний путем варьирования параметров системы очков за совпадения и несовпадения, а также штра- фов за пропуски. Пара оснований — любая возможная пара азотистых оснований, принадле- жащих супротивным нитям ДНК или совмещенным участкам последова- тельности РНК. Аденин образует пару с тимином в ДНК или с урацилом в РНК; гуанин спаривается с цитозином. Пептид — короткая линейная цепь остатков аминокислот, соединенных пеп- тидной связью (ковалентной химической связью, соединяющей амино- группу одной аминокислоты с карбоксильной группой другой).
Словарь терминов 301 Первичная база данных — база данных, содержащая последовательности биомолекул (белков или нуклеиновых кислот) и сопутствующие аннота- ции (организм, биологический вид, функция, мутации, связь с опреде- ленными заболеваниями, функциональные и структурные комбинации, библиографические ссылки и т. д.). Первичная структура — линейная последовательность аминокислот в мо- лекуле белка. Плоский файл — файл данных, предназначенный для обмена информа- цией между базами данных и представленный в удобном для человека формате. Плоские файлы могут быть созданы на базе реляционных баз данных и приведены к формату, подходящему для их загрузки в другие базы данных. Позиционная матрица счетов (ПМС) — отражает изменения, отмечен- ные в столбцах выравнивания множества родственных последовательно- стей. Каждый последующий столбец матрицы соответствует очередному столбцу в выравнивании, а каждая строка соответствует определенной последовательности знаков. Полимеразная цепная реакция (ПЦР) — метод размножения (отрезка) мо- лекулы ДНК; к агентам реакции относится устойчивая к высокой тем- пературе полимераза и два праймера: 1) комплементарный участку (+) нити на одном конце размножаемой молекулы и 2) комплементарный участку (—) нити — на другом конце. Полиморфизм отдельного нуклеотида (ПОН) — изменение отдельного нуклеотида в последовательности ДНК. Попарное выравнивание — выравнивание последовательностей по парам. Последовательность ДНК — линейная последовательность пар оснований, принадлежащая фрагменту ДНК, гену, хромосоме или полному геному. Последовательность запроса — последовательность ДНК, РНК или белка, используемая в качестве образца для поиска в базах данных последова- тельностей с целью отыскать близкие или отдаленные члены семейства с известной функцией. Посттрансляционная модификация — катализируемая ферментом моди- фикация пептида, происходящая после его трансляции с иРНК (напри- мер: гликозилирование, фосфорилирование, миристилирование или ме- тилирование).
302 Словарь терминов Правило — короткое регулярное выражение (обычно длиной 4-6 остатков), используемое для опознавания кодируемых геномом (без установлен- ной принадлежности к семействам) комбинаций в последовательностях белка. Правила тяготеют к кодированию определенных функциональ- ных участков (например участков присоединения сахаров, фосфорили- рования, гидроксилирования, сульфатации и т. д.). Однако их небольшой размер означает, что регулярные комбинации не могут быть хороши- ми дискриминаторами, а могут лишь служить подсказкой при решении вопроса о возможности существования в последовательности того или иного функционального участка. Праймер — короткий полинуклеотид, к которому с помощью ДНК- пол имеразы можно добавлять новые дезоксирибонуклеотиды. Предсказание структуры — процесс алгоритмического восстановления вторичной, третичной и даже четвертичной структуры белка по после- довательности аминокислотных остатков. Продукт гена — белок, синтезируемый в ходе экспрессии гена. В некоторых случаях продуктом гена может быть молекула РНК, которая никогда не транслируется. Прокариот — организм, для которого характерно отсутствие ограниченно- го мембраной, структурно обособленного ядра (и других внутриклеточ- ных полостей). Примером таких доядерных организмов служат бакте- рии. Промотор — участок молекулы ДНК, с которым связывается РНК- полимераза, инициирующая транскрипцию. Пропуск — область выравнивания последовательностей, в которой одна из последовательностей не содержит никакого мономера. Протеом — вся совокупность белков, синтезируемых с данного генома; сюда же относятся варианты одного и того же базового белка, появляющиеся в результате посттрансляционных модификаций. Протокол передачи гипертекстовых файлов (ППГФ) — протокол связи, принятый для обмена информацией между веб-серверами. Протокол передачи файлов (ППФ) — метод пересылки файлов между взаимно удаленными компьютерами.
Словарь терминов 303 Протокол связи — согласованный набор правил для стандартизации свя- зи между программами (например, управляет обменом данными между узлами по сети «Интернет»). Протокол сетевого теледоступа — метод связи между удаленными компью- терами, который позволяет пользователям подключаться к удаленным машинам и работать с ними как через обычный терминал. Протокол управления передачей/«Интернет»-протокол (ПУП/ИП) — на- бор правил для управления передачей данных между двумя компьюте- рами по сети «Интернет». Протягивание — метод предсказания структуры белка, состоящий в вы- равнивании последовательности белка неизвестной структуры с моде- лью известной пространственной структуры; позволяет определить про- странственную и химическую совместимость последовательности ами- нокислот с моделью известной структуры. Профиль — позиционная таблица счетов, в которую сведена информация о полном выравнивании последовательностей. Профили показывают, ка- кие остатки могут находиться в данных позициях; какие позиции консер- вативны, а какие вырождены; которые позиции, или области, допускают вставки. В дополнение к данным, полученным из выравнивания, система очков может включать в себя эволюционные веса и результаты анализа структур. Дифференциальные штрафы предназначены для компенсации вставок и удалений, встречающихся в элементах вторичной структуры. Профиль гидропатии — график, на который нанесены значения гидропа- тии, рассчитанные для каждого остатка белковой последовательности с помощью скользящего окна. Такие графики показывают характерные пики и впадины, отражающие соответственно наиболее гидрофобные и наиболее гидрофильньные области последовательности. Профиль экспрессии — характеристический набор генов, экспрессируемых в различных стадиях развития и функционирования клетки. Процент подобия — счет выравнивания последовательностей аминокислот; счета замен различных аминокислот ранжированы с помощью матрицы замен. Регулярная комбинация — обнаруживаемые в биомолекулах регулярные комбинации, как правило, образованы мономерами, составляющими по- следовательность гена или белка.
304 Словарь терминов Регулярное выражение — отдельное согласованное выражение, получен- ное из консервативной области выравнивания последовательностей и ис- пользуемое в качестве характеристической сигнатуры принадлежности к семейству. Синонимичные термины: правило, регулярная комбинация. Регулятивная область или последовательность — область в последова- тельности ДНК (или целая последовательность), которая управляет экс- прессией гена. Реляционная база данных — база данных, построенная на реляцион- ной модели данных (основанной на отношениях); данные организованы в двумерные таблицы. Таблицы описывают различные характеристики или свойства данных, но содержат избыточную информацию. Рентгеноструктурный анализ — метод, применяемый для определения трехмерной структуры белков. Рибонуклеиновая кислота (РНК) — молекула, которая химически подобна ДНК и играет основную роль в синтезе белка. Структура РНК подобна структуре ДНК, но по своей природе РНК менее стабильна. Существует несколько видов молекул РНК — информационная РНК (иРНК), транс- портная РНК (тРНК), рибосомная РНК (рРНК) и другие маленькие РНК, — причем РНК каждого вида служит своей цели. Сборка — процесс выравнивания перекрывающихся фрагментов последо- вательности в одну НПО или в ряд НПО. Сверхвторичная структура — наблюдаемая в последовательности белка организация а-спиралей и (или) /3-нитей в обособленные свернутые структуры (например /3-цилиндров, /3-а-/3-единиц, греческих ключей и т. п.). Свертка — основная третичная структура белка, обусловленная соста- вом элементов вторичной структуры, их последовательным соединением и относительным расположением в пространстве. Сдвиг рамки считывания — изменение смысла считывания ДНК, возни- кающее в результате вставки или выпадения основания, при котором рамка считывания всех последующих кодонов смещается соответствен- но числу произошедших изменений (например, если к началу исходной последовательности, в которой читаются кодоны UCU-CAA-AGG-UUA,
Словарь терминов 305 добавить одно основание U, то новая последовательность будет читать- ся как UUC-UCA-AAG-GUU, и т.д.). Сдвиг рамки считывания может быть обусловлен появлением случайных мутаций или ошибок в чтении результатов секвенирования. Секвенирование — определение порядка нуклеотидов (последовательно- сти оснований) в молекуле ДНК или РНК, либо порядка аминокислот в белке. Семейства генов — группы тесно связанных генов, которые кодируют по- добные белковые продукты. Сервер — компьютер или система программного обеспечения, которая пе- редает информацию клиенту через сеть «Интернет». Система выборки последовательностей (СВП) — средство выборки дан- ных. Скрытая марковская модель (СММ) — вероятностная модель, состоящая из множества взаимосвязанных состояний. Подобно «Профилям», про- грамма «СММ» кодирует полные выравнивания доменов. СММ пред- ставляют собой существенно линейные цепи состояний «совпадение», «удаление» или «вставка»; состояние совпадения обозначает консерва- тивный столбец в выравнивании; состояние вставки, напротив, допуска- ет вставки; состояния удаления позволяют пропускать позиции совпаде- ния. Смешанная база данных — база данных, которая объединяет в себе мно- жество первичных источников и использует набор заданных критериев, определяющих приоритет включения различных источников и необхо- димый порог избыточности. Смысловая трансляция — вычислительный процесс интерпретации смыс- лового содержания последовательности нуклеотидов иРНК и кодирова- ния его с помощью генетического кода в последовательность аминокис- лот, которая далеко не во всех случаях будет описывать белок. Согласованная последовательность — псевдопоследовательность, которая содержит сводную информацию о расположении остатков, содержащу- юся во множественном выравнивании. Сравнительная геномика — наука о сравнении геномов различных орга- низмов по числу генов, локусам и биологическим функциям генов; одна
306 Словарь терминов из целей состоит в определении групп генов, кодирующих уникальные для каждого организма биологические функции. Сравнительное моделирование — процесс предсказания структуры бел- ка на основании сравнения с последовательностью родственного белка с известной структурой. Субъединица — обособленная цепь полипептида в составе белковой моле- кулы; может быть отделена от других цепей (идентичных или отличных) без разрыва ковалентных связей. Счет выравнивания — счет, алгоритмически вычисленный по числу сов- падений, замен, вставок и удалений (пропусков) в выравнивании. Счета выравниваний выражают в единицах логарифмов шансов, часто в дво- ичных единицах (логарифм по основанию 2). Счет шансов — отношение правдоподобий двух событий, или исходов. Счет шансов на соответствие знаков двух последовательностей (при- меняемый при оценке выравниваний последовательностей и получении матриц счетов) равен отношению частоты наступления событий вырав- нивания знаков в родственных последовательностях к частоте абсолютно случайного выравнивания тех же двух знаков при условии совместного появления этих знаков в последовательностях. Счета шансов для множе- ства отдельных выровненных позиций вычисляют путем перемножения счетов шансов, найденных для каждой отдельной позиции. Счета шансов часто преобразуют к логарифмам и таким образом получают логарифми- ческие счета шансов; тогда логарифмический счет шансов выравнивания целых последовательностей вычисляют путем суммирования отдельных логарифмических счетов шансов, что намного удобнее. Теория информации — отрасль математики, предметом которой служит измерение количества информации в битах; бит определяет минималь- ное количество структурной сложности, необходимое для кодирования единичного объема информации. Точечная матрица — анализ диаграммы точечной матрицы представляет собой графический метод сравнения двух последовательностей. т. п. н. — единица длины фрагментов ДНК, равная 1000 пар нуклеотидов. Транскрипт — однонитевая цепь иРНК, синтезированная по матрице-гену.
Словарь терминов 307 Транскрипция — синтез комплементарной РНК по последовательности ДНК (гена); первый шаг экспрессии гена. Трансляция — процесс, в котором генетический код, заложенный в иРНК, направляет синтез белков из аминокислот. Трансляция с шестью рамками (ТШР) — трансляция отрезка ДНК, вклю- чающая в себя три трансляции в прямом и три — в обратном направле- нии, каковая необходимость вызвана наличием трех возможных рамок считывания неописанного отрезка ДНК. Трансмембранный домен — пронизывающая мембрану область белковой последовательности; в случае а-спиральных структур для этого необхо- дима длина 20-25 остатков. Третичная база данных — база данных, содержащая обработанную инфор- мацию из вторичных баз данных (регулярных комбинаций). К третич- ным относятся, например, базы данных «Блоки» и «еМОТИВ», которые заимствуют данные, хранимые в БД «Просайт» и «ПРИНТС». Ценность таких ресурсов состоит в том, что они обеспечивают альтернативную схему назначения счетов для фактически тех же самых первичных дан- ных и дают возможность выявить отношения, которые могли быть про- пущены при сравнительном анализе данных в исходной форме. Третичная структура — общая конфигурация последовательности белка, образованная упаковкой элементов ее вторичной и (или) сверхвторичной структуры. Унифицированный указатель ресурса (УУР) — адрес источника инфор- мации. УУР состоит из четырех частей: протокола, имени хоста, пути к директории и имени файла, например: http://www.biochem.url.ac.uk/bsm/dbbrowser/prefacefrm.html. Файл — обособленный набор байтов, которым можно манипулировать как цельным объектом. К-Фактор — в рентгеноструктурном анализе с помощью этого парамет- ра выражают степень согласия между теоретическими вычислениями и данными измерений; чем ниже Я-фактор, тем лучше соответствие и, следовательно, достоверность (буква R означает «расхождение»). Фантомные всуды — ложные вставки или удаления, которые появляют- ся, когда из-за физических неоднородностей в геле для секвенирования
308 Словарь терминов программа считывания или регистрирует какое-либо основание прежде- временно, или же вообще пропускает проходящее мимо основание. Фармакоинформатика — отрасль информатики, изучающая вопросы управления биологической и химической информацией в фармацевти- ческой промышленности. Фермент — белок-катализатор, который увеличивает скорость протекания биохимической реакции, но при этом не изменяет ее направление и ха- рактер. Филогенетический анализ — изучение эволюционных отношений между организмом определенного вида и его предшественниками (например, с помощью филогенетических деревьев). Филогенетическое дерево — графическое представление предполагаемых эволюционных отношений между группами организмов; такие отноше- ния могут быть установлены, например, путем множественного вырав- нивания последовательностей белков или нуклеиновых кислот. Функциональная геномика — наука, занимающаяся оценкой функции ге- нов, опознанных путем сравнения геномов. Функцию недавно опознан- ного гена проверяют путем введения в этот ген мутаций и последующего анализа изменений, произошедших в фенотипе полученного мутантного организма. Характеристика — аннотация на определенный отрезок последовательно- сти. Хромосомы — спаренные, самореплицирующиеся генетические структуры клеток, содержащие клеточную ДНК; последовательность нуклеотидов ДНК кодирует линейную группу генов. Центральная догма — фундаментальный принцип молекулярной биологии, провозглашенный Френсисом Криком в 1958 году. Центральная догма гласит, что передача информации между нуклеиновыми кислотами или от нуклеиновых кислот белкам возможна, а передача между белками или от белков нуклеиновым кислотам — невозможна. Цитозин — пиримидиновое основание, мономер ДНК и РНК. Четвертичная структура — относительное расположение отдельных по- липептидных цепей в белковой молекуле, образованной двумя и более субъединицами.
Словарь терминов 309 Шаперон — белок, обеспечивающий образование правильных нековалент- ных связей при свертывании белков in vivo; сами шапероны не входят в состав структур, в сборке которых они участвуют. Штраф за пропуски — штраф, который вычитают из счета подобия по- следовательностей с целью учета пропусков в выравнивании последова- тельностей. Штрафы — очки, или веса, которые в программах построения выравнива- ний последовательностей служат в качестве коэффициентов для вычис- ления счетов; такие веса обычно заданы в виде переменных параметров и могут быть изменены пользователем. Эвристический алгоритм — экономичная стратегия поиска решения за- дачи, для которой вычисление точного решения практически неосуще- ствимо. Эдмана метод расщепления — применяемый в секвенировании полипепти- дов метод, с помощью которого остатки аминокислот последовательно отщепляют от N-конца посредством реакции с фенилизотиоцианатом, приводящей к образованию фенилтиокарбамилпептида (ФТК-пептида). Это соединение расщепляют в безводной кислоте, высвобождая проме- жуточное вещество тиазолинон и остаток пептида. Экзоны — кодирующие белок последовательности гена. Ярлык экспрессируемой последовательности (ЯЭП) — отрезок последо- вательности клона, произвольно выбранного из библиотеки кДНК, и ис- пользуемый для опознавания генов, экспрессируемых в определенной ткани. Экспрессия гена — процесс, в ходе которого закодированная в гене ин- формация преобразуется в структурные и функциональные элементы клетки. К экспрессируемым относятся гены, которые транскрибируются в иРНК и затем транслируются в белок, а также гены, которые транскри- бируются в РНК, но не транслируются в белок (например, гены транс- портной и рибосомной РНК). Электронная почта — сообщение, составленное на компьютере и в те- чение нескольких секунд доставленное удаленному абоненту по сети «Интернет».
310 Словарь терминов «Ява» — объектно-ориентированный язык программирования сетевых за- дач, который дает возможность создавать как автономные программы, так и апплеты, запускаемые с помощью ссылок на веб-страницах. В иде- але программы «Явы» должны работать на любой машине, поддержива- ющей рабочую среду «Явы» (включая ПК и рабочие станции «Юникс»). «Ява скрипт» — язык сценариев, созданный на основе языка «Ява» и пред- назначенный для разработки сетевых приложений. Язык разметки гипертекста (ЯРГ) — язык, применяемый для созда- ния веб-доку ментов, которые могут интерпретироваться и отображаться программой-обозревателем.
Предметный указатель «-спираль 77, 205 Д-изгиб 77, 204, 208, 209 Д-лист 11, 79, 205 /с-кортеж 174, 178, 295 Ab initio 23, 27, 203, 204, 213, 247, 287 Е. coli 14, 17, 67, 94, 152 In silico 245, 254 www 37, 289 АСКОИ 42, 288 «Аакомпидент» 215, 219 Администрирование 135, 136 Акроцентрик 60 Активный участок 77, 80, 138, 140, 146, 162, 183, 214, 246, 254, 255 Алгоритм 12, 13, 21, 23, 24, 26-28, 79, 84, 101, 109, 287 Алфавит 21, 287 Альтшуль 15, 180 Анализ последовательностей 13, 32, 43, 82, 135, 145, 151, 157, 193, 201, 204, 221, 223 Аннотация 18, 29, 47, 48, 133, 135-138, 155, 192, 197, 249, 288 Архив 139, 142, 288 Аутосома 61 БД базы данных 263 БД общего назначения 124 БД структур 124, 139, 143 «БЛАСТ» 15, 47, 131, 153, 174, 179, 180, 185, 192, 288 БЛОЗАМ 169, 172, 173, 184, 296 Белка структура 13, 21, 23, 44, 45, 51, 77, 79, 122, 125, 134-136, 139, 140, 142, 143, 154, 188, 195, 202-204, 208, 212, 217, 249 Библиографическая БД 44, 45, 147-149 Биополимер 32 Бит 42, 288 «Блоки» 44, 174, 184, 194, 195, 216 Блокирование 64 «ВАСТ» 143, 190 Веб-страница 31, 38, 41, 136, 186, 195 Веб-узел 21, 39, 139, 191, 261 Вентер Крейг 15-17, 19 «Виртуальная библиотека» 148 Визуализация 23, 155, 187, 218, 219 Вставка 147, 162, 164, 174, 183-185, 187, 212, 289 Вставка (встройка) 139 Всуд 97 Вторичная БД 124, 134, 137, 144, 145, 190, 192, 195, 289 Вутрих 13 Выравнивание последовательностей 13, 26, 150-153, 157, 159-163, 166, 171- 173, 175, 177-179, 181, 185-187, 210, 226, 228, 230, 236, 241
312 Предметный указатель Высокопроизводительная геномика 132, 133 Высокопроизводительное секвенирова- ние 155, 159 Высокопроизводительные отборочные испытания 249, 250, 290 Вычислительная биоинформатика 23,42, 43 ГМЕНПАСА 229, 233 «ГРААЛЬ» 113, 201 Гейтс Билл 13 Гемоглобин 79, 81, 237 «Генбанк» 13, 46^8, 115, 118, 124, 130, 131, 136, 151 Генетический алгоритм 160, 290 Генетический код 54, 71, 73, 290 Геном 8, 10, 13, 14, 20, 23, 43^16, 51, 59, 67, 69, 87, 124, 130-133, 136, 138, 147, 153, 155, 167, 197, 198, 236, 249, 250, 291 Геномика 14, 15, 17, 20, 25, 26, 82, 86, 119, 133, 155, 248, 250 Геночип 104 Генскан 113, 201 Гидропатия 150-152, 157, 188, 291 Гидрофобность 101, 216, 254 Глобальное выравнивание 161, 163, 177, 178, 291 Гомология 26, 79, 86, 140, 141, 149, 183, 190, 203, 214, 221, 236, 251, 252, 291 Групповой анализ 181, 291 гяРНК 64 ДЭПААГ 86, 108-110 Дарвин Чарльз 221 Дейхофф Маргарет 12, 135, 168-172 «Джпред» 217, 219 Джеймс 11 Динамическое программирование 112, 163, 165, 167, 174, 175, 177, 178, 189, 292 Дискриминатор 147, 292 Длина ветви 225, 227, 229, 292 Домен 14, 36, 46, 77, 126, 134, 137, 141, 143, 144, 146, 147, 150, 156, 161, 181, 188, 190, 193, 202, 210, 215, 223, 241, 292 Древовидная диаграмма 224, 241, 292 Дулиттл Расселл 167 «ЕЛМБ» 14, 45, 47, 115, 130, 131, 150, 152 «ЕМБнет» 42 Замена 139, 161, 165-170, 172, 173, 179, 184, 229, 230, 234, 237-239 Запрос 35, 39, 44, 128, 148, 151, 154, 156 иРНК 61, 64, 65, 71, 73, 74, 91, 93, 94, 97, 102, 111, 114, 152, 198, 294 Изменчивость 170, 200, 204, 207, 223, 235 Изменчивость (изменение) 144 Измерение расстояния 228 Изоэлектрическая точка 108 «Интернет» 12, 30, 35, 37, 39, 40, 49, 118, 122, 187, 200 «Интранет» 48, 154 Интрон 61-63, 89, 112, 160, 201, 293 Информационная БД 148 Итеративность 294 «КАТ» 124, 140, 141, 195 кДНК 114, 198, 288, 295 «КЛАСТЭЛ-В» 153, 186, 236 «КЭГГ» 147 Кариотип 61, 294 Каркас 56, 96, 251, 254, 256 Клад 227, 230
Предметный указатель 313 Кладограмма 294 Клон 16, 114, 115, 294 Клонирование 19, 82, 95, 111, 153, 294 Кодон 54, 67, 71, 91, 93, 112, 138, 155, 198, 295 Козака последовательность 93 Комбинаторная стыковка 254 Комбинаторная химия 248-250 Комбинаторное продолжение 190 Коэн Станли 12 Крик Френсис 11, 52, 54, 69 Ксенолог 222 Левенштейна расстояние 165 «Линукс» 33, 128, 253 Лиганд 124, 137, 144, 146, 247, 249, 251, 253-255, 295 Линейный штраф за пропуск 165, 296 Липмен 13 Логарифм шансов 171, 296 Ложное несовпадение 296 Ложное совпадение 146, 296 Локальное выравнивание 161—163, 177, 179, 296 «МЕДЛАЙН» 130, 138, 147, 148 МУП 124, 132, 133, 297 «Майкрософт Аксесс» 128 Макромолекулярный 135, 139, 238 Максимальная экономичность 228-230, 234, 296 Максимальное правдоподобие 189, 228- 230, 234, 296 Матрицы ПТМ 169, 171, 296 Мендель Грегор 11,51 Метацентрик 59 Метод объединения соседей 229, 234, 297 Микроматрица 245, 297 Мишень 22, 23, 25, 108, 243-245, 258, 297 Мишень для медикаментозного воздей- ствия 22, 23, 86, 244, 245, 249, 258 «Мозаика» 40 «Молмол» 218 Модуль 223 Мозаика 297 Монте-Карло 189, 297 Мотив 16, 44, 77, 130, 134, 144, 146, 151, 153, 155, 157, 172, 181, 183, 184, 193, 194, 216, 297 Муллис Кэри 14 Мутация 106, 119, 152, 162, 167-169, 173, 228, 233, 236, 298 м. п. н. 111, 298 мяРНП 64 НПО 47, 89, 96, 113, 152, 298 «НЦБИ» 44-48, 115, 130, 131, 133 «Нетскейп Навигатор» 40 Нейронная сеть 201, 205, 206, 216, 298 Нидлмена-Вунша алгоритм 12, 163, 174, 177, 298 «Ннпредикт» 206, 216 Номер доступа 107, 126, 131, 137, 298 ОАБОЗ 39, 154, 299 «ОМИМ» 46, 123, 133 ОРС 89, 93, 94, 153, 200 Обозреватель 37,40,41,43, 186, 188,218, 299 Образцы свертки 76 Онтология 299 Опсин 223 Оптимальное выравнивание 162, 300 «Оракул» 128 Ортолог 222, 300 Открытие лекарственных препаратов 24-27, 86, 111, 243, 249
314 Предметный указатель «ПАУП» 239 ПГЧ 20, 115, 117 «ПЕРЛ» 31, 32, 165 ПОН 17, 88, 124, 133, 301 ППФ 34, 35, 37, 150 «ПРИНТС» 16, 145-147, 188, 193-195 «ПСИ-БЛАСТ» 174, 180, 183, 185, 216, 217 ПЦР 14, 19, 82, 152, 157, 301 Пара оснований 59, 64, 77, 227, 300 Паралог 222 Параметрическая последовательность 162, 300 Первичная БД 124, 134, 144, 191, 192, 301 Первичная структура 77, 134, 301 Подобие 23, 24, 26, 44, 48, 79, 122, 135, 138, 139, 143, 151, 155, 159, 160, 162- 165, 167, 169, 171, 175, 178, 180, 182, 183, 185, 189, 191, 197, 221-226, 234, 235, 237, 251 Полиаденилирование 64, 112 Полиморфизм 88, 117, 124, 250 Полипептид 61, 67, 71, 73, 74, 76, 77, 80, 94, 101, 198, 207, 214 Попарное выравнивание 157, 159, 163, 174, 185, 241, 301 Последовательность запроса 94, 131, 156, 163, 178, 180, 183, 185, 204, 206, 212, 216, 217, 221, 301 «Просайт» 16, 44, 124, 145, 146, 151, 192-195 Правка РНК 66, 94 Праймер 88, 95, 96, 98, 152, 154, 157, 302 Пред-РНК 67, 198 Предсказание 17, 23, 79, 89, 101, 111, 123, 150-152, 154-156, 159, 162, 168, 174, 181, 183, 186, 190, 197, 198, 200, 202-206, 210, 213, 215, 216, 250, 253, 263, 266-268 Предсказание структуры 101, 302 Программирование 31, 32, 112, 163, 165, 167, 174-178, 186 Протягивание 212, 252 Прокариот 59, 61, 64, 68, 69, 92, 94, 112 Промотор 112, 126, 152, 201, 302 Пропуск 96, 159, 162, 164-167, 175, 177, 179-181, 184-186 Протеом 85, 86, 114, 302 Протеомика 26, 27, 82, 84, 85, 248 Профиль 21, 85, 106, 114, 119, 134, 145, 147, 149, 157, 181, 183-185, 188, 193, 213, 247, 250, 254, 303 «Пубмед» 45, 46, 144, 147, 148 «Пфам» 145, 147, 185, 193 «РИБ» 45, 46, 48, 135, 136, 138, 144, 150, 151 РНК-полимераза 61, 62, 64, 67, 69, 71 РСУБД 127 «Расмол» 218 Редактирующее расстояние 165 Рентгеноструктурный анализ 11, 100, 254, 304 рРНК 61, 67-69, 239 САЭГ 102, 103 СВП 42-45, 130, 305 «СКОП» 124, 140, 141, 195 СММ 112, 113, 145, 147, 174, 183, 185 СУБД 42, 127 «Свисс-прот» 14, 45, 46, 48, 124, 130, 136, 137, 144, 150, 151, 215, 216 Сведберга единица 67 Сенгер Фредерик 11, 13, 16, 19, 88, 133, 155 Сервер 33, 35, 38-41, 48, 132, 140, 154, 186, 193, 215, 217, 253, 305
Предметный указатель 315 Сигнатура 64, 146, 172, 185 Служебные участки 198 Смита-Уотермена алгоритм 164, 174, 177, 179, 287 Составление генетических карт 43, 83, 88, 290 Составление геномных карт 84, 87, 88 Специализированная БД 124 Сплайсосома 66 Сравнительная геномика 83, 305 Сращивание 64, 66, 94, 198 Строка 32, 41, 164, 165 Структурная геномика 83 Структурная протеомика 85 Стыковка 252, 254 Сходящаяся эволюция 222 Счет 112, 162-166, 168, 169, 171-173, 175, 177-181, 184, 186, 189, 192-194, 201, 254, 258 Счет выравнивания 164, 165, 169, 186, 306 Счет шансов 171, 173, 306 Таксон 126, 151, 226, 227 Танимото коэффициент 251 Телоцентрик 59 Теория информации 206 Тизелиус 11 Топоизомераза 112 Топология 140, 141, 189, 217, 224, 231, 233, 234, 246 Точечная матрица 12, 13, 174, 179, 306 «ТрЕЛМБ» 138 тРНК 18, 152 Транскрипт 306 Транскрипция 61, 62, 69, 92, 151, 198, 307 Трансляция 45, 46, 71-74, 91, 93, 94, 97, 114, 123, 134, 136, 151, 154, 157, 180, 188, 198, 307 Третичная структура 77, 101, 126, 134, 190, 200, 203, 217, 307 т. п. н. 306 УУР 46, 48, 107, 253, 307 Удаление 139, 161, 162, 165, 174, 184- 186, 212 Удаление (выпадение) 97, 161 Узел 36, 43, 226, 227, 231 Уоббл 94 Уотсон Джеймс 52, 115, 117 «ФАСТА» 15, 126, 131, 174, 178-180, 193, 216 «ФИЛИП» 228, 229, 239, 241 Фенетический подход 226 Филогенетический метод 234 Филогенетическое дерево 22, 150, 169, 170, 182, 223, 227, 228, 230-233, 235, 241, 308 Филогения 224, 231, 237-239, 241 Франклин Розалина 11,52 Функциональная геномика 83, 250, 308 Функциональная протеомика 85 Хеммингово расстояние 165, 166 Хромосома 15-17, 51, 59, 69, 88, 114, 175, 308 «Центральная догма» 54, 56, 91, 308 Центромер 59, 81 Чаргафф Эрвин 52 Четвертичная структура 77, 139, 308 Чип ДНК 17, 102 Чоу-Фасмена метод 204 Шаперон 80, 309 Шрёдингер Эрвин 11 «ЭМБОСС» 155, 157
316 Предметный указатель Эвристика 178, 180, 189, 192, 309 Эдмана метод расщепления 100, 309 «Экспази» 38, 123, 215 Экзон 61-63, 89, 91, 94, 126, 160, 198, 201, 309 Экономичность 228, 234, 239 Экспрессия генов 21, 24, 27, 28, 46, 77, 101, 102, 104, 105, 107, 108, 111, 113, 114, 309 Электронная почта 22, 33, 34, 37, 40, 309 «Энтрез» 45^48, 123, 131 Эукариот 59, 67, 69, 71, 92, 112, 232 «Юникс» 31-33, 37,40, 150, 152, 157, 253 «ЯБД» 45, 47, 48, 115, 130, 131 ЯМР 13, 100, 143, 209, 218 ЯРГ 41, 188 ЯЭП 20, 93, 97-99 «Ява» 31, 40, 154, 157, 186, 310 «Яху» 49 Игнасимуту С. ОСНОВЫ БИОИНФОРМАТИКИ Дизайнер М. В. Ботя Технический редактор А. В. Широбоков Компьютерная верстка Д. П. Вакуленко Корректор Г Г. Тетерина Подписано в печать 7.09.2007. Формат 60 х 84х/16. Печать офсетная. Усл. печ. л. 18,6. Уч. изд. л. 18,32. Гарнитура Таймс. Бумага офсетная №1. Заказ №32. Научно-издательский центр «Регулярная и хаотическая динамика» 426034, г. Ижевск, ул. Университетская, 1. http://shop.rcd.ru E-mail: mail@rcd.ru Тел./факс: (+73412) 500-295

Преподобный отец доктор С. Иг- насимуту — священник, член Ордена иезуитов, преподает учебный курс биоинформатики и проводит научные изыскания на ниве современных био- технологий. С. Игнасимуту получил степени бакалавра и магистра есте- ственных наук в Мадрасском универ- ситете и блестяще защитил диссер- тации магистра и доктора философии в Университете Дели. Спустя не- сколько лет учёным советом Мадрас- ского университета ему была присво- ена степень доктора наук. Являясь членом нескольких национальных и международных научно-исследова- тельских объединений, доктор С. Иг- наеймуту в качестве ведущего иссле- дователя принимал участие в не- скольких крупных научно-исследова- тельских проектах, поддерживаемых государственными научными органи- зациями. К настоящему времени С. Игнасимуту опубликовал более 150-ти научных статей и 25 книг, при- чем некоторые из них используются в качестве учебников по всей Индии. Помимо чисто научной работы, автор настоящей книги состоит членом Со- вета по биотехнологиям при прави- тельстве штата Тамил-Наду и является лауреатом премии «Ученый Тамил-Наду» за достижения в облас- ти естественных наук.