Текст
                    Computer Assisted Studies
of Chemical Structure and
Biological Function
ANDREW J. STUPER
Rohm and Haas Company
Spring House. Pennsyhania
WILLIAM E. BRIGGER
International Flavors and Fragrances. Inc.
Union Beach. New Jersey
PETER С JURS
Pennsylvania State University
University Park, Pennsylvania
A Wiley-Interscience Publication
JOHN WILEY & SONS
New York • Chichester • Brisbane ■ Toronto
Э. СТЬЮПЕР,
У. БРЮГГЕР,
П. ДЖУРС
МАШИННЫЙ АНАЛИЗ СВЯЗИ
ХИМИЧЕСКОЙ СТРУКТУРЫ
И БИОЛОГИЧЕСКОЙ
АКТИВНОСТИ
Перевод с английского
канд. хим. наук В. П. Дмитриева
под редакцией
д-ра хим. наук А. М. Евсеева
ИЗДАТЕЛЬСТВО «МИР». МОСКВА 1982


УДК 541.69 + 519.25 + 518.5 Стьюпер Э., Брюггер У., Ди^урс П. С88 Машинный анализ связи химической структуры и биологической активности. Пер. с англ.-М.: Мир, 1982.-235 с, ил. Книгу, написанную авторами из США, отличают актуальность темы (связь между химической структурой и биологической активностью), а также перспективность излагаемого метода (распознавание образов) и средств его реализации (ЭВМ). В ней изложены принципы распознавания образов. На примере психотропных н снотворных агентов, одорантов н раздражителей носовой полости убедительно продемонстрирована эффективность метода, который позволяет успешно классифицировать н прогнозировать лекарственные препараты. Для научных сотрудников, работающих в области химической кибернетики, биохимии. „ 180500000-078 ^ 041(01)-82 Редакция литературы по химии 1979 by John Wiley & Sons, Inc. All Rights Reserved. Authorized translation from English language edition published by John Wiley & Sons, Inc. Перевод на русский язык, «Мир», 1982 ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА При решении практических задач в науке, в частности в химии и биологии, исследователь часто принимает решение, обоснованное не с такой точностью, как математическая теорема. Иначе говоря, теория, которой пользуется химик-синтетик, представляет собой обобщение опыта, часто сформулированное в виде рецепта. Однако для предсказания путей синтеза интересующих практику и технику соединений используются и расчеты физико-химических свойств молекул. Современные электронно-вычислительные машины постепенно начинают конкурировать с человеком в тех областях его деятельности, где нужно принимать решения на основе обобщения экспериментальных фактов. С помощью ЭВМ имитируют процесс принятия человеком решения об отнесении объектов (химических соединений) к тому или иному классу. Представляет интерес сама возможность классификации химических объектов при помощи ЭВМ. Некоторые элементы используемых алгоритмов очень похожи на приемы классификации объектов, применяемые человеком. Например, при классификации молекул выделяются характерные группы атомов, ответственные за определенные свойства химических соединений. Это выделение существенных признаков может быть сделано автоматически, что оправдывает применение термина «искусственный интеллект» для характеристики машинных методов распознавания объектов. Но в отличие от человека ЭВМ может обрабатывать очень большой ряд чисел и с большой скоростью упорядочивать его. что является ее преимуществом перед человеком. Необходимость представлять объекты в виде некоторого набора чисел является, с другой стороны, неудобством машинного метода классификации. В книге Стьюпера, Брюггера и Джурса основное внимание уделено формулировке и описанию различных проблем биологической
6 Предисловие редактора перевода химии, которые могут быть решены машинными методами распознавания образов. Здесь используется в основном линейный дискрими- нантный анализ, который уже был подробно описан в ранее изданной книге П. Джурса и Т. Айзенауэра*. Существенно новым является материал, дающий представление о способе построения признаков на основе молекулярной структуры. Дан подробный обзор наиболее распространенных способов кодирования молекулярной структуры органических соединений, описано построение дескрипторов, отражающих топологию молекулы и пространственную структуру. При изложении методов распознавания образов авторы предпочли наиболее простые и в то же время эффективные способы классификации. Основное внимание авторы обращают на отбор наиболее значимых для классификации признаков. Простота методов дискрими- нантного анализа, изложенных в книге, облегчает освоение методов распознавания образов химиками, что является достоинством данной книги. Биологическая активность органических соединений интересует многих химиков-органиков. Важность этой темы для практики несомненна. Одна из глав книги посвящена подробному обсуждению исследования связи между активностью различных лекарственных средств и структурой молекул. В ней рассматриваются результаты классификации психотропных агентов и снотворных веществ по их активности и возможность предсказания новых лекарственных веществ из этих классов. В заключительной главе в качестве примера обстоятельно изложены результаты анализа связи структуры органических соединений и их физико-химических свойств с воздействием на органы обоняния человека. Здесь затронуты еще не решенные вопросы теории запаха. Этот материал очень интересен для химиков и биологов, изучающих пахучие вещества, их действие на человеческие органы обоняния. Важность материала не уменьшается от того, что результаты исследования не являются окончательными или полностью достоверными. Положительным следует признать сам факт применения метода рас- * Джуре П., Айзенауэр Т. Распознавание образов в химии,— М.: Мир, 1977. Предисловие редактора перевода познавания образов к анализу сложнейших проблем биологии и химии. Такая постановка задачи в области химии биологически активных веществ получила уже достаточно широкое распространение и в Советском Союзе, что отражено в соответствующих публикациях*. А. Евсеев * Голендер В. Е., Розенблит А. Б. Вычислительные методы конструирования лекарств.- Рига: Зинатне, 1978; Авидон В. В., Аролович В. С, Козлов С. П., Пирузян Л. А., Хим. фарм. ж., № 5, 88 (1978).
ПРЕДИСЛОВИЕ Исследования в пограничной между биологией, медициной и химией области неуклонно увеличивают поток новой информации, меняющей наши представления о жизни. Новые разделы науки появляются на стыке уже ставших классическими дисциплин — биохимии, биофизики, микробиологии, медицинской химии и фармацевтических наук. Медицина превратилась в чрезвычайно многоотраслевую область исследования. Хотя биология органов и тканей в значительной степени выяснила характер взаимодействия биологических систем и химических препаратов, для достижения дальнейшего существенного прогресса требуется знание молекулярных механизмов этих процессов. В конечном счете молекулярный механизм химического и/или физического взаимодействия лекарств и других биологически активных веществ с биологическими системами должен подчиняться хорошо известным законам типа законов термодинамики и принципа микроскопической обратимости. Однако исключительная сложность этих взаимодействий и самих биологических систем, даже таких «простых», как бактерия, сводит на нет усилия, направленные на выяснение молекулярного механизма фундаментальных процессов. Таким образом, в большинстве случаев мы не знаем детального механизма действия биологически активных соединений. Поскольку выяснение молекулярного механизма фундаментальных взаимодействий биологически активных соединений с биологическими системами является, по-видимому, отдаленной целью исследований и в то же время существуют задачи, требующие безотлагательного решения, такие, как лечение специфических недугов, разработка обезболивающих и других симптоматических лекарственных средств, разработка эффективных и безопасных гербицидов и пестицидов, то представляется разумным пойти на некоторые компромиссы. Было разработано несколько методов исследования связи между молекулярной структурой и биологической активностью химических соединений. Обычно с помощью этих методов нельзя получить прямых сведений о механизме взаимодействия, обусловливающего активность, однако они позволяют решать важные, безотлагательные практические задачи. Достижения в области конструирования лекарств как раз и связаны с развитием этих методов. За последние десять лет резко возрос интерес к рациональным Предисловие 9 методам исследования связи между структурой и активностью. Был разработан и описан целый ряд методов исследования. Метод Ханша, основанный на соотношении линейности свободной энергии, возник в результате применения к задачам медицинской химии методов физической органической химии и методов многомерного статистического анализа. Квантовомеханические методы были применены к задачам исследования связи между структурой и активностью сразу же после появления соответствующей вычислительной техники. Наряду с этим получили дальнейшее развитие вычислительные методы систематизации и обработки химических и биологических данных в других областях. Появилась целая отрасль — обработка химической структурной информации и соответствующая ей специальная литература. Исследователи получили в свои руки техническое и программное обеспечение, достаточно экономичное и стандартизованное, чтобы им можно было пользоваться в повседневной научной работе. Были созданы и стали доступны исследоэателю-практику пакеты сложных вычислительных программ, реализующих как статистические, так и нестатистические и непараметрические методы анализа данных. В начале 70-х годов несколько вышеназванных разрозненных областей науки стали сближаться, поскольку оказалось, что методы исследования, применяемые в этих областях, взаимно дополняют друг друга. Таким образом были разработаны новые методы решения старых задач. Эта книга посвящена описанию результатов совместного использования приемов, заимствованных из нескольких областей с целью разработки новых методов исследования связи между химической структурой и биологической активностью. При исследовании связи между структурой и активностью приходится иметь дело с довольно большими объемами данных. Некоторые важные операции требуют почти непрерывного контроля со стороны исследователя для того, чтобы можно было гарантировать правильность их выполнения. В связи с этим, а также в связи с экономическими соображениями мы в первую очередь обращаем внимание на возможность использования лабораторных компьютеров, которыми может управлять сам исследователь. Кроме того, характер операций, необходимых для проведения исследования связи между структурой и активностью, задает общую структуру программного обеспечения. Соответствующая программная система должна быть модульной, так как она состоит из очень крупных блоков и всю систему в целом трудно реализовать на какой-либо одной из доступных ЭВМ. Система должна также обеспечивать быструю и гибкую обратную связь с исследователем, что связано с использованием графопостроителя и ряда вспомогательных программ. Она должна располагать большим ресурсом машинной памяти, т. е. магнитными лентами и дисками. Система должна быть достаточно гибкой, так чтобы ее можно было легко расширять, сокращать или переделывать. И наконец, она должна быть простой в обращении и пригодной для работы с крупными задачами.
10 Предисловие В этой книге мы описываем один из подходов к задаче установления связи между структурой и активностью и вычислительную систему, реализующую этот подход. Для разработки системного подхода к такой задаче методы обработки химической структурной информации были объединены с молекулярным моделированием и методами распознавания образов. Книга начинается с обсуждения методов исследования связи между структурой и активностью: метода Ханша, основанного на соотношении линейности свободной энергии и использующего в качестве независимых переменных физико-химические параметры, метода Фри — Вильсона и квантовомеханических методов. Затем рассматриваются принципы методов распознавания образов и результаты их применения в ряде химических и биологических исследований. Описываются методы обработки и хранения химической структурной информации, а также их использование для численного расчета молекулярных структурных дескрипторов. Рассматривается метод расчета геометрических дескрипторов, основанный на построении трехмерной модели молекулы с помощью метода молекулярной механики. В последующих главах описываются линейные дискриминантные функции и их использование совместно с методами расчета структурных дескрипторов при поиске одинаковых элементов в структурах молекул, обладающих близкой биологической активностью. Далее обсуждаются методы определения относительной значимости структурных признаков молекул для классификации соединений. Затем рассматривается автоматизированная система ADAPT (automatic data analysis using pattern recognition techniques), представляющая собой реализацию на ЭВМ вышеупомянутых методов анализа данных. Заключительные главы содержат описание приложения этих методов к исследованию стимуляторов центральной нервной системы - седативных агентов, транквилизаторов и ряда барбитуратов. В них также описано исследование химических коммуникантов, в том числе мускусных одорантов, стимуляторов тройничного нерва и других обонятельных агентов. Э. Стъюпер У. Брюггер П. Джуре Спринг-Хаус, Пенсильвания Юнион-Бич, Нью-Джерси Юниверсити-Парк, Пенсильвания Август 1978 г. Глава 1 ВВЕДЕНИЕ ИССЛЕДОВАНИЯ СВЯЗИ МЕЖДУ СТРУКТУРОЙ И АКТИВНОСТЬЮ Рациональный поиск соединений, обладающих заданным профилем биологического действия, требует привлечения сведений о связи молекулярной структуры с биологической активностью. Знание связи между структурой и активностью необходимо для конструирования лекарств, а также многих других видов биологически активных соединений, таких, как гербициды, пестициды, обонятельные и вкусовые стимуляторы. На этом пути лежит ключ к пониманию механизмов токсического, мутагенного или канцерогенного действия целого ряда химических соединений. В последнее десятилетие методы и технические средства поиска и конструирования биологически активных соединений испытали значительные изменения, достаточно полно отраженные в соответствующей литературе [1-6]. Можно выделить [3,6-8] два основных направления исследований: 1) поиск новых лекарственных средств и 2) усовершенствование имеющихся. Существуют следующие методы поиска новых лекарственных средств: 1. Выделение из природных источников - растений, животных и микроорганизмов. Таким образом, например, получают антибиотики, алкалоиды, стероиды и сердечные гликозиды. 2. Изучение средств народной медицины. 3. Исследование метаболитов и химических производных метаболитов известных лекарственных средств. 4. Фундаментальные исследования биохимических процессов. 5. Исследование побочных действий лекарственных средств, используемых в клинике или испытываемых в лаборатории. 6. Массовые биологические испытания химических соединений. 7. Синтез биологически активных органических соединений. Методы усовершенствования существующих лекарственных средств разработаны гораздо полнее методов поиска новых, что нашло отражение в обширной литературе (например, одна статья [9] содержит 392 ссылки и охватывает только работы, опубликованные до ноября 1974 г.). Лекарственные средства совершенствуют путем внесения изменений в их молекулярную структуру с целью устранения побочных эффектов, усиления активности и избирательности действия на те или иные виды живых организмов. Основная исходная посылка методов конструирования биологически
12 Глава 1 активных соединений заключается в том, что близкие по структуре соединения оказывают сходное действие. Согласно этому представлению, небольшие изменения в структуре должны сопровождаться и соответственно небольшими изменениями в биологической активности. Путем систематического варьирования структуры молекулы может быть получено соединение с требуемыми свойствами. К сожалению, количества возможных изменений даже небольших молекул выражаются астрономическими цифрами. Таким образом, прежде чем приступить к синтезу нового соединения исследователю, работающему в области медицинской химии, приходится перебирать огромное количество возможных вариантов. Задача усложняется еще и тем, что на самом деле характер лекарственного действия соединения определяется не только подобием структуры. Эффективность биологического действия складывается из электронных, стерических и транспортных свойств соединения. Структурные изменения по-разному влияют на каждый из этих факторов, так что структурное сходство часто бывает не очевидно. В любом случае модификация молекулярной структуры — единственный способ воздействия на факторы, определяющие активность соединения. Выбор направления структурной модификации может быть осуществлен с помощью теоретической модели. Существует несколько теоретических методов исследования связи между строением и биологической активностью молекулы. Их можно разбить на следующие основные группы: 1) полуэмпирические линейные соотношения, связывающие свободную энергию исследуемого процесса с физико- химическими параметрами соединения, так называемая экстратермодинамическая модель, предложенная Ханшем и сотр.; 2) аддитивная схема Фри —Вильсона; 3) квантовомеханические модели. Ниже следует краткое описание каждого из этих методов. МЕТОД ХАНША: СООТНОШЕНИЯ ЛИНЕЙНОСТИ СВОБОДНОЙ ЭНЕРГИИ Метод Ханша — мощь й инструмент оптимизации функции биологического действия химического соединения. Разнообразные применения этого метода описаны в многочисленных обзорах [1 — 23]. Основное содержание метода — эмпирическая модель биологической активности, основанная на линейной зависимости свободной энергии исследуемого процесса от физико-химических параметров соединения, рассматриваемых как независимые переменные. Поэтому метод Ханша также широко известен под наименованием «соотношения линейности свободной энергии». Метод основан на предположении о существовании корреляции между факторами, определяющими биологическую активность, и физико-химическими параметрами веществ в гомологических рядах химических соединений. Кроме того, оказывается, что все физико- химические факторы, связанные с транспортными свойствами и взаимо- Введение действиями активного центра, слагаются из трех составляющих - гидрофобной, электронной и стерической. Вклад каждой из этих составляющих характеризуется с помощью соответствующих констант заместителя, описывающих различие в свойствах между первым членом гомологического ряда и рассматриваемым соединением. Гидрофобность соединения описывается логарифмом коэффициента распределения (Р) соединения между водой и фазой, моделирующей липид, обычно нормальным октиловым спиртом. С помощью коэффициента распределения определяется параметр гидрофобное™ л, описывающий разницу между рассматриваемым соединением и первым членом гомологического ряда. Соотношение, связывающее коэффициент распределения и параметр гидрофобности, имеет вид K = \gPs-\gP0, 0-0 где Ps — коэффициент распределения замещенного соединения, Р0 — коэффициент распределения первого члена гомологического ряда. Электронные свойства описываются константами Гаммета или другими электронными параметрами заместителей. Стерические свойства характеризуются стерическими параметрами заместителей, например стерической константой Тафта Es. Целый ряд исследований был выполнен с помощью следующей линейной модели: lg— = ^iTc + per + fc2. (1.2) Здесь переменные л и а — параметры соединений из данного гомологического ряда, а константы /ci и к2 находятся посредством регрессной ного анализа. Величина С характеризует биологическую активность соединения и представляет собой молярную концентрацию вещества, необходимую для достижения заданного уровня биологического действия. Например, в качестве параметра биологической активности используются: величина LDS0, представляющая собой дозу, поражающую 50% экспериментальных организмов; ED50 — доза антагониста, снижающая на 50% действие стандартной дозы агониста; MIC — концентрация ингибитора, подавляющая рост исследуемого биологического объекта до минимального уровня; /50 — молярная концентрация ингибитора, уменьшающая скорость катализируемой ферментом реакции в два раза. В 1964 г. Ханш и Фуджита [24] путем сочетания двух гипотез с уравнением Гаммета [25] вывели соотношение, нашедшее наиболее широкое применение в исследованиях связи между структурой и активностью. Они постулировали, что скорость биологического отклика (БО) является произведением > трех множителей. В их число входят: А. — вероятность того, что биологически активная молекула достигнет в течение заданного интервала времени рецептора, С — внеклеточная
14 Глава I молярная концентрация биологически активного вещества и кх — скорость реакции биологически активного соединения с рецептором: „_, d (отклик) скорость БО = ~±— '- = АСкх. (1.3) df Произведение параметров Л и С получило наименование «эффективной концентрации» и представляет собой концентрацию вещества в зоне, прилегающей к рецептору. Вторая гипотеза заключается в предположении, что зависимость величины Л от параметра гидрофобности описывается функцией Гаусса: А=,ехр(-^^), (1.4) где а и Ь — постоянные. Подстановка последней формулы в предыдущую приводит к следующему соотношению: d (отклик) , / (л — лп)2 \ v -=Cfexaexp --—г^- . (1.5) • df —x--»r^ b Поскольку биологическое испытание соединения обычно заключается в варьировании его концентрации до достижения заданного уровня отклика, то дифференциальный член d (отклик)^ может быть заменен константой. Экспоненциальную зависимость можно упростить путем логарифмирования и приведения подобных членов Ig^r = - /ел2 + /с'лл0 - /с"л2, + lg/cx + к"'. (1.6) Использование уравнения Гаммета и объединение постоянных дает ^Тг = ~кк2 + /с'лл0 - к"к% + ра + к"". (1.7) Поскольку величина л0 относится к первому члену гомологического ряда, она является постоянной, так что окончательно получаем lgyr= -/сл2+/с'л + ра +/с". (1.8) Константы, входящие в это уравнение, рассчитывают путем регрессионного анализа .выборки соединений с известными свойствами. Только что мы попытались привести доводы в пользу применимости линейной модели. Однако конечной целью является построение «работающей» модели, и на практике получили распространение многие другие модели. Цель излагаемого подхода — получить параметры, характеризующие связь гидрофобных, электронных и стерических факторов с молекулярной структурой. Эти параметры используют для построения линейных моделей первого и второго порядка, описывающих наблюдаемые изменения активности соединений. Применимость Введение 15 этого эмпирического подхода следует из тех практических результатов по предсказанию эффективности биологического действия соединений, которые получаются с его помощью. В последующих разделах дается описание параметров, используемых в рассматриваемых моделях, метддов построения моделей и их приложений. Параметры гидрофобности В исследованиях связи между структурой и активностью в качестве параметра гидрофобности наиболее часто используются коэффициент распределения и связанный с ним посредством уравнения (1.1) параметр л. Использование lgP или л как параметров гидрофобности основано на предположении, что полярный растворитель может служить эталонной системой при исследовании взаимодействия активных молекул с липидными биофазами. При измерении параметров гидрофобности lgP или л в качестве растворителей обычно используются вода и м-октанол. В литературе приводилось много доводов в пользу м-октанола, однако главным из них является наличие большого числа экспериментальных данных, полученных для этого растворителя. В обзоре [26] приведена таблица, содержащая коэффициенты распределения для нескольких тысяч соединений; общее же число соединений, для которых измерен коэффициент распределения, превосходит 10000 [22]. Поскольку в обзоре [27] подробно обсуждены причины выбора м-октанола в качестве эталонной системы, то этот вопрос рассматриваться здесь не будет. Для многих систем на основании предположения об аддитивности вклада субструктурных фрагментов молекулы может быть проведен приближенный расчет величин lgP или л. Расчет параметров гидрофобности непосредственно из структуры молекулы был выполнен Нисом и Реккером [28 — 30]. Метод расчета основан на определении параметров гидрофобности / фрагментов молекулы, которые описывают вклад отдельных субструктур в суммарную липофильность молекулы. Таким образом, величина lg P рассчитывается по следующему соотношению: lgP = !>/,, №) где fj — параметр гидрофобности фрагмента, as — число фрагментов данного типа в структуре. Величины fj находят путем множественного регрессионного анализа представительной выборки молекул, для которых известны значения липофильности. После этого липофильность соединения, не представленного в обучающей выборке, может быть рассчитана путем суммирования значений / структурных фрагментов исследуемой молекулы. Еще одна аддитивная схема была предложена Лео и сотр. [31]. Было показано [32], что как метод Ниса и Реккера, так и метод Лео и сотр. основаны на одних и тех же допущениях. Существует также довольно сложный метод расчета коэффициентов распределения непосредственно из конформации молекулы, основанный
16 Глава I на построении молекулярно-механической модели соединения [}3\. С помощью этого метода было показано, что в соединениях с сильными внутримолекулярными взаимодействиями нельзя пренебрегать вкладом неаддитивных составляющих. К таким соединениям относятся гетероциклические, пространственно напряженные и конформационно неустойчивые молекулы. Поэтому экспериментальный метод определения коэффициента распределения является самым надежным. Член л2 первоначально был введен в соотношение линейности свободной энергии Ханшем и Фуджитой [24] в результате анализа экспериментальных данных. Впоследствии необходимость использования квадратичного члена была подтверждена двумя различными способами. Пеннистон и сотр. [34] представили доказательство, основанное на кинетической модели системы чередующихся водной и липидной фаз: Номер фазы Растворитель Н20 Липид Н20 1 Липид Нг0 Обозначим скорость перехода активной молекулы из любой водной фазы в соседнюю липидную фазу через к, скорость противоположного процесса через /. Тогда коэффициент распределения равен к/1. Концентрацию биологически активного вещества в i-й фазе обозначим через ,4;. Тогда л А ал^ = (М2-Ы1), (1-Ю) df dA- l*- = -2lA2i + к {A2i- ! + A2i+ t), df dA2i+l = _2kA2i + 1 + l(A2i + A2i + 2), ■(l + m)An-1+kA„-2 Для нечетного и, - (к + т) А„ _ ! + 1А„ _ 2 для четного и, —гя- = тАп- 1, df (1.11) (1.12) (1-13) (1.14) (1.15) где т — скорость реакции соединения с рецептором. Эта система дифференциальных уравнений была численно проинтегрирована. Поскольку отношение А1/А„ не зависит от абсолютной величины А°, то величина Л" была задана произвольно. Величины к и / были выбраны таким образом, чтобы их произведение равнялось единице. Численные решения были получены для различных значений Р. Введение 17 Таким образом была найдена зависимость lg С от lg Р, где С — концентрация в последней секции системы, изображенной на схеме. Зависимость получена для определенных моментов времени (через 10 ед. времени) после ввода вещества в первую секцию. Найденная зависимость приближенно описывается квадратичной функцией следующего вида; \g~ = k1\g2P + k2\gP + k3. (116) Учитывая простоту модели, точность такого описания можно считать вполне удовлетворительной. Дьерден и Тауненд [35] исследовали эту модель распределения более подробно. На конкретных примерах, заимствованных из литературы, они показали, что в некоторых случаях встречаются зависимости, отличные от квадратичной, и удовлетворяющие их теоретическим построениям. Мак-Фарланд [36] для той же модели чередующихся водных и липидных фаз предложил другой вывод, основанный на простых вероятностных соображениях. Он показал, что вероятность достижения рецептора молекулой биологически активного соединения является функцией коэффициента распределения к/1 и числа промежуточных фаз и, расположенных между местом ввода соединения и рецептором. Найденная им зависимость имеет следующую форму: вероятность = + . (1.17) При и, больших единицы, эта функция имеет максимум при к/1 = 1,00. При других значениях к/1 зависимость близка к квадратичной. Участие члена (lg P)2 в соотношении между структурой и активностью означает наличие в рассматриваемой совокупности соединений оптимального значения параметра гидрофобности lg P0. Оптимальное значение может быть найдено из d lg (l/C)/d lg P. В специальной литературе имеются указания на важность величины lg P0, в особенности для стимуляторов центральной нервной системы. Помимо коэффициента распределения существуют другие физико- химические параметры, с помощью которых могут быть описаны гидрофобные свойства соединений. Примером может служить хромато- графический параметр RM, равный \g(\/Rf—\), где Rf - отношение расстояния, пройденного соединением, к расстоянию, пройденному растворителем в хроматографическом эксперименте [37, 38]. Время удерживания соединения в экспериментах по жидкостной хроматографии можно связать со значением lg P системы н-октанол — вода [39, 40]. Таблицы параметров гидрофобности приведены в работах [5, 14]. 2 Э. Стьюпер
18 Глава 1 Электронные параметры Сначала для описания электронных свойств соединения был выбран параметр соотношения линейности свободной энергии Гаммета ст. Этот параметр заимствован из физической органической химии, где он используется для описания связи между химической реакционной способностью и структурой [24]. Первоначально с его помощью были описаны реакции ионизации замещенных бензойных кислот. Основное уравнение имеет вид lg-p-=pc, (1.18) где ст — константа заместителя. Параметр ст является мерой электроно- донорных или электроноакцепторных свойств заместителя. Параметр реакции р характеризует чувствительность константы скорости к изменениям параметра ст. Он является специфической характеристикой данной реакции и зависит от условий, в которых протекает реакция,— температуры, реагента и растворителя. В качестве стандартной реакции выбрана реакция ионизации бензойной кислоты в воде при стандартной температуре 25 °С; для этой реакции величина р условно принята равной единице. В уравнении Гаммета используются два вида параметров ст — для мета- и пара-заместителей. Водород выбран в качестве эталонного заместителя, для него величины стмета и стпара приняты равными нулю. Электроноакцепторные заместители имеют положительные значения ст, электронодонорные — отрицательные. Реакции, характеризующиеся положительными значениями параметра р, ускоряются под действием заместителей, уменьшающих электронную плотность на бензольном кольце, реакции с отрицательными значениями р ускоряются электронодонорными заместителями. Для описания других классов химических соединений используются различные модификации параметров Гаммета. К ним относятся: величины ст0, стт и стр, характеризующие орто-, мета- и пара-заместители соответственно; параметр ст~, характеризующий резонансные электроноакцепторные заместители; параметр ст*, применяемый для описания алифатических соединений (для —СН3 значение ст* принимается равным нулю). Электронный параметр заместителя можно разложить на две составляющие — индуктивную и резонансную, обозначенные Свейном и Лаптоном [41] символами F и R. В работе [42] представлены исправленные значения величин F и R, с помощью которых можно рассчитывать параметры ст. В соотношениях линейности свободной энергии использовались также и другие типы электронных параметров. Так, в таблице, приведенной в обзоре Перселла и сотр. [5], содержится более 30 экспериментальных и 20 теоретических квантовомеханических параметров, описанных в литературе. Список различных электронных параметров имеется также в обзоре Верлупа [14]. Введение 19 Стерические параметры Необходимо учитывать как внутримолекулярные, так и межмолекулярные стерические факторы. Чаще всего используется стерический параметр Es, введенный Тафтом [43] при исследовании корреляций между структурой алифатических эфиров и скоростью их гидролиза. Были также предложены различные модификации стерического параметра Тафта, например E'f и £f для орто/мета- и пара-заместителей соответственно, и исправленный стерический параметр Ecs. Обсуждению стерических параметров Es посвящена обзорная работа [44]; там же приведены численные значения стерических параметров ряда заместителей. Существуют и другие способы учета пространственных эффектов, использующие такие параметры, как молярный объем, радиус Ван-дер- Ваальса и межмолекулярное расстояние. Некоторые виды стерических параметров, применявшихся в исследованиях связи структуры и активности, рассмотрены в обзорной статье Перселла и сотр. [5]. Верлуп и сотр. продемонстрировали примеры успешного применения в исследованиях связи структуры и активности стерических параметров, рассчитанных с помощью радиусов Ван-дер-Ваальса [45]. Саймон предложил метод описания стерического соответствия молекул, основанный на понятии минимального стерического различия [46]. Некоторые другие параметры В исследованиях, связанных с соотношением линейности свободной энергии, был применен целый ряд других физико-химических параметров. Многие из этих параметров непосредственно дают информацию о молекулярной структуре соединения. К ним относятся, например, молекулярный вес и количество атомов определенного вида. В ряде исследований в качестве параметра использовалась молекулярная рефракция, характеризующая поляризуемость молекулы [22]. Некоторые из встречающихся в литературе типов параметров приведены в статье Перселла и сотр. [5]. В последнем обзоре Ханша рассмотрены параметры различных типов, спектроскопические константы и индикаторные переменные. Индикаторные параметры — это параметры, указывающие на наличие в молекуле некоторой субструктурной группы [21]. Проводились также исследования, в которых экспериментальные параметры использовались вместе с субструктурными и индикаторными [47]. Регрессионный анализ и статистические параметры [48 — 50] После того как выбрана система независимых переменных, можно приступить к процедуре регрессионного анализа, проводимой методом наименьших квадратов. Наиболее часто используются такие статисти- ->*
22 Глава 1 ризует качество аппроксимации исходных данных линией регрессии. Множественный корреляционный коэффициент I (уТ - у)2 ' '" ' (1.32) I Ы-у)2 где y = ±iyi. (i-зз) Критерий г2 характеризует ту долю суммы квадратов отклонений величин у, от их среднего значения, которая учитывается регрессионной моделью. Максимальное значение величины г2 — единица, минимальное — нуль. Величина г2 растет с увеличением количества регрессионных коэффициентов т. Одним из недостатков корреляционного коэффициента является его зависимость от абсолютных величин коэффициентов регрессии а, [52]. Для проверки значимости отличия параметров регрессии от нуля используется F-критерий. F-статистика рассчитывается следующим образом: F=Uyt-y)2m-ilt Z(y?-y,)2/(n-k) или m(l - г ) где к — количество регрессионных коэффициентов, к — т + 1. F-статистика представляет собой отношение корреляционных коэффициентов для двух разных степеней свободы. Далее с помощью статистической таблицы, входами в которую являются величины п, к и F, выясняется, превосходит ли величина F некоторое критическое значение, соответствующее принятому уровню значимости. Если не превосходит, то считается, что модель адекватна эксперименту на данном уровне значимости. F-критерий применим в том случае, когда экспериментальные ошибки определения независимой переменной распределены нормально. Применяется также статистический критерий, называемый «объясненной дисперсией»: L(yi-yd /fa- 1) Введение 23 Объясненная дисперсия характеризует ту долю суммарной дисперсии, оторая учитывается уравнением регрессии. Величина v зависит от числа степеней свободы уравнения регрессии. Малость величины v (если она меньше, например, 0,5) означает, что требуется увеличение количества регрессионных переменных. Стандартные отклонения регрессионных параметров рассчитываются по соотношению ^ = ^ ^ j где су — диагональные элементы матрицы С. Проверка значимости данного коэффициента регрессии осуществляется с помощью t-ста- тистики: tJ = -7L- (L38) S На основании таблиц распределения Стьюдента с п — к степенями свободы может быть рассчитан доверительный интервал для каждого коэффициента линейной регрессии: RH = aj±tsaj, (1.39) где s„ — стандартная ошибка определения параметра as, a t — функция доверительной вероятности, пик. Обычно регрессионный анализ осуществляется путем последовательного добавления независимых переменных и одновременной проверки характера изменения статистических критериев (метод прямого отбора). Цель такой процедуры — отыскание минимального числа переменных, достаточного для построения статистически значимой корреляционной зависимости. Автоматизированный вариант такой программы приведен в работе [53]. Метод работает таким образом, что на каждом шаге добавляется та переменная, которая обеспечивает максимальное улучшение качества модели. И так до тех пор, пока добавление новой переменной не перестанет давать существенного улучшения точности описания экспериментальной зависимости. Аналогичным образом на каждом шаге проводится проверка каждой переменной по отдельности и исключение ранее включенных в регрессию переменных. Вся процедура отбора переменных основывается на предположении, что переменные, идентифицированные по отдельности как наилучшие, и в совокупности будут образовывать наилучший набор переменных. Такое предположение не всегда оправдывается, особенно в тех случаях, когда между переменными имеется сильная связь. Появилось также много новых методов регрессионного анализа, например метод дерева регрессий, предложенный Фёрнивалем и Вильсоном [54] или метод гребневой оценки [55]. Фёрниваль и Вильсон предложили метод построения регрессии, в котором проверяются на адекватность все возможные подмножества исходного набора
24 Глава 1 независимых переменных. Такой подход дает гарантию того, что при исследовании биологически активных соединений методом Ханша не будет пропущена ни одна интересующая исследователя группа переменных. Используемые в настоящее время методы отбора переменных описаны в обзорной статье Хокинга [56]. В работе Леви [57] рассмотрено несколько более совершенных методов многопараметрической статистики, основанных на применении метода главных компонент. При использовании методов множественной линейной регрессии в исследованиях связи между структурой и активностью возникает целый ряд трудностей, которые проанализированы в работах [12, 58, 59]. Предложено пять критериев, позволяющих судить о том, какое из уравнений наилучшим образом описывает исследуемый процесс [60]. Исходный набор данных должен охватывать достаточное число соединений для того, чтобы можно было избежать корреляций, которые носят нестатистический характер. Одно из основных условий, обеспечивающих статистическую значимость модели, формулируется следующим приближенным правилом: набор исходных данных должен содержать пять-шесть соединений на одну степень свободы в уравнении регрессии. Каждый из физико-химических параметров, включенных в уравнение регрессии, должен изменяться в достаточно широком интервале значений. Не следует включать в выборку соединения, которые сильно отличаются от других соединений по какому-либо параметру, в то время как значения других параметров близки к средним выборочным. Такое соединение окажет неблагоприятное влияние на уравнение регрессии. Каждая введенная в модель переменная должна быть проверена на статистическую значимость. Следует также проявлять осторожность в отношении физико-химических параметров, полученных для систем, отличных от исследуемой системы. Необходимо учитывать возможность взаимной корреляции независимых переменных. Работа с такими переменными требует использования специальных методов. И наконец, результирующая качественная модель не должна противоречить всем другим представлениям о характере исследуемого процесса, полученным методами физической, органической и медицинской химии. Приложения Литература, посвященная применению метода Ханша, достаточно обширна. И здесь мы не имеем возможности даже перечислить все опубликованные к настоящему времени работы. Поэтому мы ограничимся указанием на обзоры, которые в свою очередь содержат ссылки на оригинальные публикации. В обзоре Тьюта [12] приведены примеры применения метода Ханша в исследованиях биологического действия пенициллинов, сульфаниламидов, соединений, вызывающих адренерги- ческую блокаду, и веществ, обладающих сладким вкусом. Верлуп [14] составил таблицы, содержащие ссылки на оригинальные работы, выпол- Введение 25 иные п0 следующим темам: проницаемость и явления переноса, гидрофобное связывание, ферментативные реакции, ингибирование ферментов, фармакологическая активность, хемотерапевтическое действие, гербицидное действие и управление ростом растений, пестицидное действие и др. Каммарата и Роджерс [13] указали на целый ряд частных соотношений, полученных при исследованиях клеточных систем, простых интактных организмов и животных. Данн [15] и Кремер [21] привели примеры из фармакологии и конструирования лекарств. Ханш [22] представил большое число примеров исследований простых белков, клеточных мембран, нервных потенциалов, взаимодействий лигандов и очищенных ферментов, органелл, вирусов и микроорганизмов, стимуляторов центральной нервной системы и местных анестезирующих агентов, противоопухолевых средств, а также примеров исследований окружающей среды. АДДИТИВНАЯ МОДЕЛЬ ФРИ - ВИЛЬСОНА В аддитивной модели предполагается, что биологический отклик соединения может быть представлен как сумма активностей заместителей плюс некая общая средняя активность Л« = Ц + 2>>.„ (140) j где а1р — вклад в общую активность j-ro заместителя, находящегося в рассматриваемой структуре в положении р, и Ах — стандартный биологический отклик г'-го соединения в исследуемом ряду соединений. Эта модель основана на предположении о том, что вклад данного заместителя, находящегося в структуре в данном положении, всегда одинаков независимо от того, в каком соединении присутствует рассматриваемый заместитель. Величины вкладов заместителей рассчитываются с помощью множественного линейного регрессионного анализа. Для построения линии регрессии необходима только информация о молекулярной структуре и биологической активности соединений, никакие физико-химические параметры не используются. Существуют три близких разновидности аддитивного метода: первоначальная модель, предложенная Фри и Вильсоном [61], БО = ц + ХС,,Х„, (1.41) i-j модифицированный вариант Каммараты [62] БО = ц„+£>,*,.,. (1.42) и еще одна модификация, предложенная Фуджитой и Бэном [63], БО = Цо + 5>Л- О'43) ц
26 Глава 1 В этих уравнениях БО - биологический отклик (активность) соединения, ц - средняя общая активность рассматриваемого ряда соединений, Gy — вклад в активность г'-го заместителя, находящегося в структуре в j-м положении, так что Х^ = 1, если г'-й заместитель действительно находится в j-м положении, в противном случае Xtj = 0; ау — величина вклада в активность г'-го заместителя, находящегося в j-м положении, определенная таким образом, что ан = 0; цн — наблюдаемая биологическая активность незамещенного соединения (все заместители — атомы Н); Цо ~ теоретически предсказанное значение биологической активности незамещенного соединения (все заместители — атомы Н). Детальное сравнение этих трех моделей проведено Кубиньи и Керханом [64]. Было показано, что модель Фри — Вильсона и соотношение линейности свободной энергии Ханша, содержащее только члены первого порядка lg-£=M+ po + k2Es + k3, (1.44) теоретически эквивалентны [62]. В работе [65] это продемонстрировано на конкретном примере. Методы Ханша и Фри — Вильсона можно объединить, и тогда получится одно соотношение типа lg-£T=X>j + M+ РО + Й, (1-45) где одни заместители представлены величинами д;, а другие — своими физико-химическими параметрами. Этот смешанный подход уже был упомянут выше в связи с введением в соотношение Ханша индикаторных переменных. Детальное обсуждение применимости этого смешанного подхода проведено Кубиньи [66], а сравнение двух указанных подходов — Крейгом [67]. При анализе данных методом Фри — Вильсона для каждого соединения составляется линейное уравнение и параметры alv рассчитываются методом наименьших квадратов. Здесь применяются те же статистические критерии, что и при анализе методом Ханша. Если рассчитанные статистические критерии являются удовлетворительными и тем самым обоснована применимость аддитивной схемы, то с помощью полученных таким образом параметров линейного соотношения можно восстановить величины биологической активности соединений, составляющих исходную выборку. При этом отдельные сильные отклонения от линейной зависимости могут быть сразу же идентифицированы. И наконец, наиболее важный результат состоит в том, что с помощью рассчитанных значений параметров можно предсказать активность соединений, образованных путем всевозможных сочетаний и перестановок исходных заместителей. Относительные вклады в биологическую активность различных заместителей, расположенных в соединении в различных положениях, могут быть упорядочены в соответствии с величинами параметров а!-р. Введение 27 Главный недостаток метода Фри — Вильсона заключается в том, что для описания всех заместителей требуется очень большое число переменных. К тому же иногда приходится иметь дело с вырожденными матрицами. Таким образом, при использовании метода Фри — Вильсона исследователю приходится выбирать одну из двух возможностей: либо испытывать большое количество производных, либо ограничивать количество заместителей и их положений в структуре. Результат выбора, очевидно, определяется спецификой конкретной задачи. По сравнению с методом Ханша или квантовомеханическими методами число исследований, проведенных с использованием метода фри — Вильсона, сравнительно невелико. Несколько его применений описано в статье Каммараты и Роджерса [13]. Данн [15] исследовал этим методом антималярийные препараты и вещества, ослабляющие перенапряжение. В своем обзоре Перселл и сотр. [5] приводят несколько примеров, взятых из литературы. Работы Кубиньи [64, 65] являются одними из последних публикаций, посвященных методу Фри — Вильсона. В этих работах сопоставлены методы Ханша и Фри — Вильсона для нескольких групп соединений, обладающих лекарственной активностью. Некоторые применения метода Фри — Вильсона описаны также в обзоре [67]. Квантовомеханические методы Связь структуры с активностью исследовалась также квантовомеханическими методами, главным образом методом молекулярных орби- талей. Обзорам последних работ, выполненных в этой области, посвящены публикации [68 — 75]. Квантовомеханические методы обычно используются для решения двух задач — расчета теоретических параметров, связанных с биологической активностью, и определения устойчивых конформаций биологически активных молекул. Обсуждение квантовомеханических методов исследования связи структуры и активности проводится в работах Кофмана и Коски [71] и Ричардса и Блэка [72]. В исследованиях связи структуры и активности применяются следующие квантовомеханические методы: простой метод Хюккеля (ХМО), учитывающий только тт-электроны и применяемый в исследованиях сопряженных компланарных молекулярных систем; расширенный метод Хюккеля (РМХ), который учитывает все валентные электроны молекулы и позволяет рассчитывать барьеры внутренних вращений; итерационный расширенный метод Хюккеля (ИРМХ); метод полного пренебрежения дифференциальным перекрыванием ППДП и его модификации (например, ППДП/2); метод частичного пренебрежения дифференциальным перекрыванием (ЧПДП); модифицированный ЧПДП ((М)ЧПДП) и его последние варианты (М)ЧПДП/2 и (М)ЧПДП/3; метод учета по теории возмущений конфигурационного взаимодействия локализованных орбиталей(ВКВЛО); расчеты ab-initio МОЛКАО-ССП,
28 Глава 1 выполненные путем сочетания метода самосогласованного поля и метода молекулярных орбиталей, полученных в виде линейных комбинаций атомных орбиталей. Превосходный обзор полуэмпирических методов дан в работе [76]. С помощью квантовомеханических методов рассчитывают параметры, характеризующие электронную структуру молекул. Таким образом определяют распределение электронной плотности на каждом атоме и между атомами. Могут быть рассчитаны относительные величины следующих физико-химических параметров: энергия резонанса, дипольный момент, потенциал ионизации, сродство к электрону, кон- формация молекулы, энергия наивысшей занятой молекулярной орби- тали (НЗМО), энергия низшей свободной молекулярной орбитали (НСМО), сверхделокализуемость и граничная электронная плотность. Энергия НЗМО связана с ионизационным потенциалом и тем самым со способностью молекулы отдавать электрон. Энергия НСМО связана со сродством к электрону, т. е. со способностью молекулы принимать электрон. Сверхделокализуемость характеризует энергию образования комплекса с другой молекулой. В случае электронодонорных реакций эта энергия тем больше, чем больше энергия НЗМО. В работе [5] указано более 20 теоретических показателей, которые могут быть использованы в качестве электронных параметров при построении моделей множественной линейной регрессии. Одно из важных приложений квантовомеханических методов — расчет возможных устойчивых конформаций. Конформации, отвечающие минимальной энергии, находят путем расчета зависимости энергии молекул от вращения связей при фиксированных значениях длин и углов связей. При этом нередко результат расчета зависит от того, каким методом он проведен и какие значения молекулярных параметров (например, длин и углов связей) использовались. Вероятно, трудно установить, какой из эмпирических или полуэмпирических методов наиболее точный. По-видимому, самый надежный способ использования методов МО — сравнение результатов расчета молекулярных орбиталей одним и тем же методом для ряда родственных соединений. Одно из возможных применений конформационного анализа заключается в следующем. С помощью одного из методов молекулярных орбиталей рассчитывают устойчивые конформации для каждого из исследуемых соединений, обладающих разной структурой, но одним и тем же типом фармакологической активности. Отыскивая фрагменты, имеющие сходное распределение зарядов, находят активный центр различных лекарственных соединений. С помощью этого метода Кир [77, 78] построил двумерные изображения рецепторов ацетилхолина, никотина, серотонина, гистамина, стероидов и а-адренергических агентов. С помощью квантовомеханических методов рассчитывают характеристики изолированных молекул, при этом взаимодействие молекул с растворителем не учитывается. Однако сольватационные эффекты Введение 29 могут оказывать сильное влияние на конформационную устойчивость некоторых биологически активных молекул. Проявляющиеся в газовой фазе внутримолекулярные взаимодействия могут отсутствовать в раст- коре. Например, внутримолекулярная водородная связь может разрушься в результате образования водородных связей с молекулами растворителя. Методами квантовой механики было исследовано множество биологически активных соединений. В обзоре Кира рассмотрены [68] исследования антималярийных агентов, анестезирующих средств, транквилизаторов, анальгетиков, соединений, снимающих переутомление, антикон- вульсантов, гербицидов, пестицидов, канцерогенных веществ и галлюциногенов, а также работы, в которых построены двумерные изображения фармакофоров. В обзоре Данна [15] приведено несколько примеров из области фармакологии. В обзорной работе Нили [69] описаны исследования ацетилхолина, производных глюкопирчанозы, нуклеозидов, аминокислот и пептидов, галлюциногенов, соединений, ослабляющих перенапряжение, и гербицидов. Грин и сотр. [70] обсуждают квантовомеханические исследования холинергических соединений, адренергетиков, допаминов, серотонинов, гистаминов, галлюциногенов, нейролептиков и других стимуляторов центральной нервной системы. Ричарде и Блэк [72] в своей обзорной статье описали конфор- мационные исследования некоторых индивидуальных соединений. Кристофферсен [73] опубликовал обзор, охватывающий более 300 работ, посвященных применению квантовомеханических методов приблизительно к 25 фармакологическим классам соединений: веществ, действующих на нервную, сердечно-сосудистую, эндокринную функцию, противоинфекционных агентов и др. В следующей статье Кристофферсен и Ангели [75] приводят обзор работ, выполненных в течение 1975 г. в области квантовомеханических исследований адренергетиков, анальгетиков, антибиотиков, противораковых агентов, аллергенов, холинерге- тиков, фермент-субстратных взаимодействий и других объектов. ПРИМЕНЕНИЯ МЕТОДОВ РАСПОЗНАВАНИЯ ОБРАЗОВ Методы распознавания образов, которые подробно описываются в последующих главах, применялись в ряде исследований в области конструирования лекарств, сельскохозяйственных препаратов и химических коммуникантов. Поскольку таких работ сравнительно немного, то ниже они все будут обсуждены. Имеется также обзор Киршнера и Ковальского [79], посвященный применению методов распознавания образов при конструировании лекарств. В работе Тинга и сотр. предпринята попытка установить корреляции между масс-спектрами и биологической активностью группы соединений, состоящей из 30 седативных агентов и 36 транквилизаторов [80]. Каждое соединение было представлено масс-спектральными интен- сивностями при 30 значениях отношения массы к заряду. Анализ
30 Глава 1 проведен с помощью нескольких методов распознавания образов. Все соединения с высокой степенью точности были классифицированы на два вышеуказанных класса. В двух статьях [81, 82], появившихся вслед за работой Тинга и сотр., обсуждался вопрос о независимости выборки исследованных Тингом соединений и достаточности ее объема. Тем самым анализировалась значимость полученных результатов. Из 66 исследованных соединений половина седативных агентов принадлежит к барбитуратам, а половина транквилизаторов — к фенотиа- зинам. В работе [83] также предпринята попытка выявить корреляции между масс-спектрами и типом биологической активности соединений. Была исследована группа соединений, состоящая из 16 обезболивающих и 16 противосудорожных средств. Каждое соединение было представлено масс-спектральными интенсивностями, соответствующими 262 значениям отношения массы к заряду. Далее количество признаков было сокращено с помощью метода главных компонент и нелинейного отображения. Исходная выборка была проанализирована с помощью метода ближайших соседей и линейного классификатора. В зависимости от вида использованных комбинаций методов отбора признаков и анализа данных доля успешно классифицированных соединений изменяется в пределах от 70 до 100%. Необходимо отметить, что вопрос о представительности выборки исследованных соединений с точки зрения разнообразия структур в рассматриваемом случае остался невыясненным. С помощью персептрона, предшественника линейной обучающейся машины, Гиллером и сотр. была проанализирована [84] группа соединений из 48 алкил- и алкоксиалкилзамещенных 1,3-диоксанов. Каждое соединение в соответствии с имеющимися у него заместителями было закодировано с использованием пяти простейших субструктурных элементов: Н, О, СН, СН2 и СН3. Исходная выборка была разбита на две подгруппы в соответствии с антагонизмом соединений по отношению к коразолу. Доля успешно классифицированных соединений обучающей выборки составила от 85 до 90%; доля правильных предсказаний, полученных для контрольной выборки, составила около 70 %. Мартин и сотр. [85] исследовали 20 ингибиторов моноаминоокси- дазы. Соединения характеризовались липофильностью и стерическими параметрами. С помощью дискриминантного анализа выборка была разделена на четыре группы (неактивные, малоактивные, умеренно активные и очень активные соединения) и на две группы (неактивные и малоактивные соединения, с одной стороны, и умеренно и очень активные, с другой). В работе [86] проанализирована та же группа соединений, что и в масс-спектральном исследовании [80]. С помощью линейной обучающейся машины, дискриминантной функции Фишера и ряда методов кластерного анализа соединения были классифицированы на две группы — седативные агенты и транквилизаторы. Данные проанализированы с помощью системы 46 субструктурных фрагментов, названных Введение 31 бобщенными атомами. Число признаков на одно соединение было еньшено до 16 с помощью вероятностных критериев Фишера. Таким образом была достигнута успешная классификация от 84 до 94% соединений. Ковальский и Бендер [87] исследовали связь между структурой и активностью противоопухолевых агентов. С помощью 20 структурных признаков была проанализирована группа из 200 соединений, испытанных на активность по отношению к твердой опухоли Аденокарци- нома-755 Национальным онкологическим институтом. Объекты были классифицированы с помощью трех методов распознавания образов, и получено примерно 90 % правильных прогнозов. Бинарная классификация проводилась в соответствии со свойствами соединения достигать некоторый порог активности. В статьях [88, 89] эта работа подверглась критике в отношении качества исходной группы данных и набора признаков, характеризующих исследованные соединения. Чу и сотр. [90] опубликовали результаты исследования противоопухолевых агентов. Группа из 138 соединений была охарактеризована с помощью 3 типов дескрипторов — атомно-центрированных фрагментов, фрагментов «гетеропутей» и структурных циклов. Каждое соединение было испытано на активность по отношению к эпендимобластоме мышей. Данные были разбиты на два класса в соответствии с наличием способности увеличивать продолжительность жизни не менее чем на 25% или отсутствием такой способности. Из первоначальных 421 признака был отобран 51 признак. При использовании метода ближайших соседей и линейной обучающейся машины достигнута классификация с 83 и 93 % успеха. Таким образом было предсказано 24 противоопухолевых агента. Стьюпер и Джуре [91] с помощью линейных обучающихся машин проанализировали группу из 140 транквилизаторов и 79 седативных агентов, представленных самыми разнообразными типами структур. Каждое соединение было охарактеризовано набором из 69 дескрипторов, и на этой основе вся выборка была разбита на два класса. Процедура отбора признаков позволила сократить число дескрипторов до 40, при этом свойство разделимости на 2 класса сохранилось. Испытания, проведенные на контрольной выборке, состоящей из соединений тех же структурных типов, что и соединения обучающей выборки, дали 90% правильных предсказаний. Более подробное описание этой работы содержится в гл. 4. Каммарата и Менон [92] применили несколько методов распознавания образов при анализе группы соединений, известных своими терапевтическими свойствами. Соединения были подобраны по структурному сходству и закодированы с помощью набора признаков, характеризующих типы субструктурных групп, присутствующих в определенных участках каждой молекулы. Матрица корреляций признаков была подвергнута процедуре факторного анализа, и наибольшие собственные векторы представлены для визуального анализа. Таким образом были
32 Глава 1 исследованы две группы веществ: 13 соединений, повышающих кровяное давление, и 43 соединения, обладающие антигистаминной, антихо- линергической, анальгетической. антидепрессивной, противопсихозной и антипаркинсонической активностью. Для второй группы соединений в качестве одного из признаков использовалась молекулярная рефракция. Аналогичное исследование было выполнено Меноном и Камма- ратой [93] на группе из 39 соединений, включающих а- и Р-адренер- гические агенты, холи.нергические агенты и стимуляторы центральной нервной системы. Данные были проанализированы методом главных компонент и представлены визуально. Авторы пришли к заключению, что такое представление трех главных компонент позволяет идентифицировать основные фармакологические группы. Стьюпер и сотр. [94, 95] опубликовали сообщение о разработке системы программ для исследования связи между структурой и активностью соединений методом распознавания образов. Эта система была названа ими ADAPT. С помощью системы ADAPT была исследована группа барбитуратов и предпринята попытка их классификации в соответствии с несколькими уровнями активности. Более подробное описание этой работы содержится в статье Стьюпера и Джурса [96]. Исходная выборка из 160 5,5'-дизамещенных барбитуратов с самыми разнообразными структурными типами ациклических заместителей была закодирована с помощью 46 численных дескрипторов, включающих фрагменты, субструктуры, дескрипторы окружения и показатели молекулярной связности. Были найдены линейные дискриминантные функции, разделяющие исходную выборку в соответствии с различными значениями длительности снотворного действия. Процедура отбора позволила выделить наиболее значимые молекулярные признаки. Достигнута прогнозирующая способность, близкая к 94%. Подробнее эта работа описана в гл. 6. До сих пор упоминались работы по классификации или прогнозу соединений с помощью методов распознавания образов. Были выполнены также работы, посвященные построению дескрипторов на основе молекулярных структур. Ниже рассмотрены некоторые из этих работ. Крамер и сотр. [97] опубликовали работу, посвященную кодированию соединений с помощью субструктурных групп методом так называемого «субструктурного анализа». Были исследованы 770 соединений с противоартритной и иммунорегуляторной активностью. Для каждого субструктурного фрагмента всех соединений был рассчитан ряд статистических характеристик. Было проведено 77 последовательных испытаний, в которых исходная выборка условно разбивалась на две подгруппы. В одну подгруппу включались 760 соединений, считавшихся известными, а в другую - остальные соединения, считавшиеся неизвестными. Для неизвестных соединений был осуществлен прогноз, основанный на вероятностных критериях. Адамсон и Баш [98-100] кодировали соединения с помощью Введение 33 субструктур, состоящих из атомно-центрированных фрагментов, т. е. центрального атома, связей, которые он образует, и отличных от водорода атомов, с которыми он связан. С использованием этих дескрипторов в работе [98] методом множественного регрессионного анализа были исследованы 79 пенициллинов. Во второй работе [99] 39 соединений местного анестезирующего действия были классифицированы путем расчета коэффициента подобия между парами структурных диаграмм с последующим применением кластерного анализа. В третьей работе [100] 39 соединений местного анестезирующего действия были исследованы методом регрессионного анализа с помощью фрагментов, взятых из матриц связей этих соединений. Количественные прогнозы минимальной блокирующей концентрации 39 соединений хорошо согласуются с наблюдаемыми величинами. Брюггер и сотр. [101] разработали комплекс программ для генерации структурных дескрипторов из матриц связей соединений. Были рассмотрены два основных типа дескрипторов — топологические и геометрические. Топологические дескрипторы в свою очередь подразделяются на фрагментные субструктурные дескрипторы, указывающие на наличие или отсутствие в соединении тех или иных четко определенных субструктур, и дескрипторы окружения, характеризующие ближайшее соседство данного атома. Геометрические дескрипторы рассчитывались из трехмерной модели молекулы, полученной путем минимизации энергии структуры. Эти дескрипторы характеризуют размер и форму молекулы. Дьердорф и Ковальский [102] описали метод расчета дескрипторов из трехмерных моделей молекул. Исследуемую молекулу ориентируют вдоль главных осей. Матрицу атомной информации преобразуют методом главных компонент, собственные векторы этой матрицы анализируют методом распознавания образов. Таким образом с помощью линейной дискриминантной функции были классифицированы как канцерогенные и неканцерогенные вещества 46 производных п-диме- тиламиноазобензола (с 80% успеха) и 39 производных бензантрацена (с 92% успеха). Основной недостаток этого метода состоит в том, что в процессе преобразования теряется физический смысл исходных признаков. Солцберг и Уилкинс [103, 104] заимствовали метод анализа молекулярной структуры из математического аппарата электронографии. Необходимые признаки рассчитываются путем преобразования координат атомов исследуемой молекулы. С помощью линейной дискриминантной функции была проанализирована группа веществ из 114 транквилизаторов и 72 седативных агентов. Была рассмотрена возможность отыскания обобщенного геометрического образа для класса соединений с определенным типом активности. Гунд [105] предложил метод поиска фармакофорных групп в трехмерных моделях молекул. На основе литературных данных был составлен каталог фармакофорных групп, и с его помощью проанализиро- 3 Э. Стьюпер -
34 Глава 1 ваны антилейкемические агенты, болеутоляющие средства и ингибиторы прокариотической рибосомной транспептидазы. Помимо анализа лекарственных средств была предпринята попытка исследования методом распознавания образов химических коммуникантов. Мак-Джилл и Ковальский [106] исследовали дескрипторы, характеризующие запах веществ. Группа из 47 соединений была проанализирована с помощью 43 дескрипторов, построенных на основе данных УФ-, ИК- и ЯМР-спектроскопии, расчетов по методу ППДП и данных других методов. Брюггер и Джуре [107] исследовали соединения, обладающие мускусным запахом. Исходная выборка из 60 мускусных и 240 немускусных одорантов была описана рассчитанными на ЭВМ структурными дескрипторами и затем проанализирована на линейной обучающейся машине. Было найдено 13 дескрипторов, которые оказались достаточными для классификации всех 300 соединений на две группы. Затем с высокой степенью точности был осуществлен прогноз на группе соединений, не включенных в обучающую выборку. Ханш и сотр. [108] применили кластерный анализ при конструировании лекарств. С помощью иерархической кластеризации были исследованы корреляции между 90 заместителями, каждый из которых был представлен набором физико-химических параметров. Таким образом было проверено несколько наборов физико-химических параметров. Это исследование было предпринято для разработки метода определения такой подгруппы заместителей, которая позволяет достаточно полно охарактеризовать все возможные структуры. Уайт и Левинсон [109] предложили новый метод кластерного анализа связи между химической структурой и биологической активностью соединений. Процедура кластеризации основана на вероятностной мере подобия, при построении которой используется только анализируемая выборка соединений. Метод был испытан на гомологической серии 38 соединений. Ходе и сотр. [ПО] с помощью эвристической статистической процедуры осуществили скрининг очень больших групп соединений с целью поиска эффективных противоопухолевых средств. Метод основан на принципах, подобных использованным ранее в работе Крамера и сотр. [97]. Путем сравнения средних групповых свойств соединений в контрольной и обучающей выборках был осуществлен прогноз, в результате чего контрольные соединения были упорядочены в соответствии с предсказанными величинами их активности. ЛИТЕРАТУРА 1. Ariens E. J., Drug Design, Vols. 1—7, Academic, New York, 1971 — 1976. 2. Burger A.t Medicinal Chemistry, Part 1, Wiley-Interscience, New York, 1970. Введение 35 т. Bloom В., Ullyot G. E. (Eds.), Drug Discovery, Advances in Chemistry Series, No. 108, American Chemical Society, Washington, D. C, 1971. 4 Valkenburg W. V. (Ed.), Biological Correlation — The Hansch Approach, Advances in Chemistry Series, No. 114, American Chemical Society, Washington, D. C, 1972. 5 Purcell W- P., Bass G. E., Clayton J. M., Strategy of Drug Design, Wiley- Interscience, New York, 1973. 6 Martin Y. C, Quantitative Drug Design. A Critical Introduction, Dekker, New ' York, 1978. 7 Ariens E. J., A General Introduction to the Field of Drug Design, in: Drug Design, Vol I., E. J. Aneus (Ed), Academic, New York, 1971. 8, Goldstein A., Aranow L., Kalman S. M., Principles of Drug Action: The Basis of Pharmacology, 2nd ed., Wiley, New York, 1974, pp. 741ff. 9. Science Information Services Department, Franklin Institute Research Laboratories, Structure — Activity Correlation Bibliography: With Subject and Author Index, PB-240 658/5 GA, March 1975. 10. Hansch C, A Quantitative Approach to Biochemical Structure — Activity Relationships, Ace. Chem. Res., 2, 232 (1969). 11. Hansch C, Quantitative Structure - Activity Relationships in Drug Design, in: Drug Design, Vol. I, E. J. Ariens (Ed.), Academic, New York, 1971. 12. Tute M. S., Principles and Practice of Hansch Analysis: A guide to Structure — Activity Correlation for the Medicinal Chemist, in: Advances in Drug Research, Vol. 6, N. J. Harper, A. G. Simmonds (Eds.), Academic, New York, 1971. 13. Cammarata A., Rogers K. S., The Interpretation of Drug Action through Linear Free Energy Relationshops, in: Advances in Linear Free Energy Relationships, N. R. Chapman, J. Shorter (Eds.), Plenum Press, New York, 1972. 14. Verloop A., The Use of Linear Free Energy Parameters and Other Experimental Constants in Structure — Activity Studies, in: Drug Design, Vol. 3, E. J. Ariens (Ed.), Academic, New York, 1972. 15. Dunn W. J., Quantitative Structure - Activity Relationships, in: Annual Reports in Medicinal Chemistry, Vol. 8, R. V. Heinzelman (Ed.), Academic, New York, 1973. 16. Goodford P. J., Prediction of Pharmacological Activity by the Method of Physicochemical — Activity Relationships, in: Advances in Pharmacology and Chemotherapy, Vol. 11, S. Garranttini et al. (Eds.), Academic, New York, 1973. 17. Hansch C, Quantitative Approaches to Pharmacological Structure — Activity Relationships, in: Structure — Activity Relationships, С J. Cavallito (Ed.), Per- gamon, Oxford, 1973. 18. Redl G., Cramer R. D., Berkoff С £., Quantitative Drug Design, Chem. Soc. Rev., 3, 273 (1974). 19. Hansch C, Enzyme Study as a source of strategy in Drug Design, Adv. Pharmacol. Chemother., 13, 45 (1975). 20. Wold S., Sjostrom M., Linear Free Energy Relationships as Tools for Investigating Chemical Similarity - Theory and Practice, in: Advances in Linear Free Energy Relationships, Vol. 2, N. B. Chapman. J. Shorter (Eds.), Plenum Press, New York, в печати. 21. Cramer R. D., Quantitative Drug Design, in: Annual Reports in Medicinal Chemistry, Vol. 11, F. H. Clarke (Ed.), Academic, New York, 1976. '2. Hansch C, Recent Advances in Biochemical QSAR, in: Advances in Linear 3*
36 Глава 1 Free Energy Relationships, Vol. 2, N. R. Chapman, J. Shorter (Eds.), Plenum Press, New York, в печати. 23. Martin Y. C, Advances in the Methodology of Quantitative Drug Design, in; Drug Design, Vol. VIII, E. J. Ariens (Ed.), Academic, New York, 1978. 24. Hansch C, Fujita Т., р-ст-л Analysis. A Method for the Correlation of Biological Activity and Chemical Structure, J. Am. Chem. Soc, 86, 1616 (1964). 25. Hammett L. P., Physical Organic Chemistry, McGraw-Hill, New York, 1940. 26. Leo A., Hansch C, Elkins D., Partition Coefficients and Their Uses, Chem. Rew., 71, 525 (1971). 27. Smith R. N., Hansch C, Ames M. A., Selection of a Reference Partitioning System for Drug Design Work, J. Pharm. Sci., 64, 599 (1975). 28. Nys G. G., Rekker R. F., Statistical Analysis of a Series of Partition Coefficients with Special Reference to the Predictability of Folding of Drug Molecules. The Introduction of Hydrophobic Fragmental Constants (F-Values), Eur. J. Med. Chem., 9, 521 (1973). 29. Nys G. C, Rekker R. F., The Concept of Hydrophobic Fragmental Constants (F-Values). II. Extension of Its Applicability to the Calculation of Aromatic and Heteroaromatic Structures., Eur. J. Med. Chem., 9, 361-375 (1974). 30. Rekker R. F., The Hydrophobic Fragmental Constant, Elsevier, Amsterdam, 1977. 31. Leo A., Jow P. Y. C, Silipo C, Hansch C, Calculation of Hydrophobic Constant (log P) from я and F Constants, J. Med. Chem., 18, 865 (1975). 32. Janssen L. H. M., Perrin J. H., Some Theoretical Observations on the Estimation of Partition Coefficients from л and f constants, Eur. J. Med. Chem., 11, 197 (1976). 33. Hopfinger A. J., Battershell R. £>., Application of SCAP to 'Drug Design. 1. Prediction of Octanol - Water Partition Coefficients Using Solvent-Dependent Conformational Analysis, J. Med. Chem., 19, 569 (1976). 34. Penniston J. Т., Beckett L., Bentley D. L., Hansch C, Passive Permeation of Organic Compounds through Biological Tissue: a Non-Steady-State Theory, Mol. Pharmacol., 5, 333 (1969). 35. Dearden J. C, Townend M. S., Digital Computer Simulation of the Drug Transport Process, paper presented at the Symposium on Chemical Structure — Biological Activity Relationships Quantitative Approaches, Suhl, G. D. R., October 1976. 36. McFariand J. W., On the Parabolic Relationship between Drug Potency and Hydrophobicity, J. Med. Chem., 13, 1192 (1970). 37. Biagi G. L., Barbara A. M., Gandolfi 0., Guerra M. C, Cantelli-Forty G., Rm Values of Steroids as an Expression of Their Lipophilic Character in Structure - Activity Studies, J. Med. Chem., 18, 873 (1975). 38. Brown D., Wordcock D.. Relationships between Hansch's parameters and Rm Values Determined on Polyamide Thin Layers, J. Chromatogr., 105, 33 (1975). 39. Carlson R. M., Carlson R. E., Kopperman H. L., Determination of Partition Coefficients by Liquid Chromatography, J. Chromatogr.. 107, 219 (1975). 40. McCall J. M., Liquid-Liquid Partition Coefficients by High-Pressure Liquid Chromatography, J. Med. Chem., 18, 549 (1975). 41. Swain C. G., Lupton E. C, Field and Resonance Components of Substituent Effects, J. Am. Chem. Soc. 90. 4328 (1960). 42. Hansch C, Leo A., Vnger S. #., Kim K. #., Nikaitani D.. Lien E. J., "Aromatic" Substituent Constants for Structure - Activity Correlations, J. Med. Chem., 16, 1207 (1973). 43. Taft R. W„ Jr., Separation of Polar, Steric, and Resonance Effects in Reactivity, Введение 37 ■ steric Effects in Organic Chemistry, M. S. Newman (Ed.), Wiley, New York, 1956. 44 Vnger S. H., Hansch C, Quantitative Models of Steric Effects, in: Progress in Physical Organic Chemistry, Vol. 12. A. Streitwieser, Jr., R. W. Taft (Eds.), Wiley-Interscience, New York, 1976. 45 Verloop A., Hoogenstraaten W., Tipker J., Development and Application of New Steric Substituent Parameters in Drug Design, in: Drug Design, Vol. VII, E. J. Ariens (Ed.), Academic, New York, 1976. 46. Simon Z., Specific Interactions, Intermodular Forces, Steric Requirements, and Molecular Size, Angew. Chem., 13, 719 (1974). 47. Silipo C, Hansch C, Correlation Analysis. Its Application to the Structure - Activity Relationship of Triazines Inhibiting Dihydrofolate Reductase, J. Am. Chem. Soc., 97, 6849 (1975). 48. Snedecor G. W., Cochran W. C, Statistical Methods, 6th ed., The Iowa State University Press, Ames, Iowa, 1967. 49 Draper N. R., Smith H., Applied Regression Analysis, Wiley, New York, 1966. 50. Lewi P. J., Computer Technology in Drug Design, in: Drug Design, Vol. VII, E. J. Ariens (Ed.), Academic, New York, 1976. 51. Craig P. N., Hansch C, MacFarland J. W., Martin Y. C, Puree 11 W. P., Zahradnik R., Minimal Statistical Data for Structure — Function Correlations, J. Med. Chem., 14, 447 (1971). 52. Davis W H., Jr., Pryor W. A., Measures of Goodness of Fit in Linear Free Energy Relationships, J. Chem. Ed., 53, 285 (1976). 53. Dixon W. J. (Ed.), BMD - Biomedical Computer Programs, 3rd ed., University of California Press, Berkeley, CA, 1973. 54. Furnival G. M., Wilson R. W., Jr., Regressions by Leaps and Bounds, Tech- nometrics, 16, 499 (1974). 55. Hoerl A. £., Kennard R. W., Ridge Regression: Biased Estimation for No- northogonal Problems, Technometrics, 12, 55 (1970). 56. Hocking R. R., The Analysis and Selection of Variables in Linear Regression, Biometrics, 32, 1 (1976). 57. Lewi P. J., The Use of Multivariate Statistics in Industial Pharmacology, in: Encyclopedia of Pharmacology and Therapeutics, 1977. 58. Craig P. N., Interdependence between Physical Properties and Selection of Substituent Groups for Correlation Studies, J. Med. Chem., 14, 680 (1971). 59. Topliss J. G., Costello R. J., Chance Correlations in Structure — Activity Studies Using Multiple Regression Analysis, J. Med. Chem., 15, 1066 (1972). 60. Unger S. H., Hansch C, On Model Building in Structure - Activity Relationships. A Reexamination of Adrenergic Blocking Activity of B-Halo-B-arylalkyla- mines, J. Med. Chem.. 16, 745 (1973). 61. Free S. M., Wilson J. W., A Mathematical Contribution to Structure - Activity Studies, J. Med. Chem., 7, 395 (1964). 62. Cammarata A., Interrelationship of the Regression Models Used for Structure — Activity Analysis, J. Med. Chem., 15, 573 (1972). 63. Fujita Т., Ban Т., Structure - Activity Study of PhenethylamineS as Substrates of Biosynthetic Enzymes of Sympathetic Transmitters, J. Med. Chem., 14, 148 ■ (1971). 64. Kubinyi H., Kchrhahn О. Н., Quantitative Structure - Activity Relationships. 3. A Comparison of Different Free-Wilson Models, J. Med. Chem., 19, 1040 (1976).
38 Глава 1 65. Kubinyi H., Kehrhahn 0. Я., Quantitative Structure — Activity Relationships. 1. The Modified Free-Wilson Approach, J. Med. Chem., 19, 579 (1976). 66. Kubinyi H., Quantitative Structure — Activity Relationships. 2. A Mixed Approach Based on Hansch and Free-Wilson Analysis, J. Med. Chem., 19, 587 (1976). 67. Craig P. N., Comparison of the Hansch and Free-Wilson Approaches to Structure - Activity Correlations, in: Biological Correlations — The Hansch Approach, Advances in Chemistry Series, No. 114, American Chemical Society, Washington, D. C, 1972. 68. Kier L. В., Molecular Orbital Theory in Drug Research, Academic, New York, 1971. 69. Neely W. В., The Use of Molecular Orbital Theory in Pharmacological Studies, in: A Guide to Molecular Pharmacology — Toxocology, Part II, R. M. Feathestone (Ed.), Dekker, New York, 1973. 70. Green J. />., Johnson C. L., Kang S., Application of Quantum Chemistry to Drugs and Their Interactions, Annu. Rev. Pharm., 14, 319 (1974). 71. Kaufman J. J., Kosk't W. S., Physicochemical, Quantum Chemical, and Other Theoretical Techniques for the Understanding of the Mechanism of Action of CNS Adents: Psychoactive Drugs, Narcotics, and Narcotic Antagonists and Anesthetics, ii>: Drug Design, Vol. V, E. J. Ariens (Ed.), Academic, New York, 1975. 72. Richards W G., Black M. £., Quantum Chemistry in Drug Research, in: Progress in Medicinal Chemistry, Vol. 11, G. P. Ellis, G. B. West (Eds.), American Elsevier, New York, 1975. 73. Christoffersen Л., Use of Quantum Chemistry in Development and Analysis of Anticancer Drugs, Cancer Chemother. Rep., Part 2, 4(4), 47 (1974). 74. Christoffersen R. £., Molecules of Pharmacological Interest, in: Quantum Mechanics of Molecular Conformations, B. Pullman (Ed.), Wiley, New York, 1976. 75. Christoffersen R. £., Angeli R. P., Quantum Pharmacology, in: The New World of Quantum Chemistry, B. Pullman, R. Parr (Eds.), D. Reidel Publ. Co., Dordrecht, Holland, 1976. 76. Fernandez-Alonso J. I., Organic Molecules. Studies by Semi-empirical Methods, in: Quantum Mechanics of Molecular Conformations, B. Pullman (Ed.), Wiley, New York, 1976. 77. Kier L. В., Reseptor Mapping Using Molecular Orbital Theory, in: Fundamental Concepts in Drug-Receptor Interactions, J. F. Danielli, J. F. Morgan, D. J. Triggle (Eds.), Academic, New York, 1970. 78. Kier L. В., Molecular Orbital Studies of Biological Molecule Conformations, in: Biological Correlations — The Hansch Approach, Advances in Chemistry Series, No. 114, American Chemical Society, Washington, D. C, 1972. 79. Kirchner G. L., Kowalski B. R., The Application of Pattern Recognition to Drug Design, in: Drug Design, Vol. VIII, E. J. Ariens (Ed.), Academic. New York, 1978. 80. Ting K. L., Lee R. С. Г., Milne G. W. A., Shapiro M„ Guarino A. M., The Applications of Artificial Intelligence: Relationships between Mass Spectra and Pharmacological Activity of Drugs, Science, 180, 417 (1973). 81. Clerc J. Т., Naegeli P., Seibl J., Artificial Intelligence, Chimia, 27, 639 (1973). 82. Perrin C. L., Testing of Computer-Assisted Methods for Classification of Pharmacological Activity, Science, 183, 551 (1974). 83. Abe H., Kumazawa S., Taji Т., Sasaki S., Applications of Computerized Pattern Введение 39 Recognition: A Survey of Correlations between Pharmacological Activities and Mass Spectra, Biomed. Mass Spectrosc, 3, 151 (1976). «4 Hitter S. A., Golender Y. £., Rosenblit А. В., Rastrigin L. A., Glaz А. В., Cybernetic Methods of Drug Design. I, Statement of the Problem — The Per- ceptron Approach, Сотр. Biomed. Res., 6, 411 (1973). «5 Martin Y. C, Holland J. В., Jarboe С. Н., Plotnikoff N„ Discriminant Analysis of the Relationship between Physical Properties and the Inhibition of Monoamine Oxidase by Aminotetralins and Aminoindans, J. Med. Chem., 17, 409 (1974). 86 Chu К. С, Use of Pattern Recognition to Determine the Pharmacological Activity of Some Organic Compounds, Anal. Chem., 46, 1181 (1974). 87. Kowalski B. R., Bender C. F., The Application of Pattern Recognition to Screening Prospective Anticancer Drugs. Adenocarcinoma 755 Biological Activity Test, J. Am. Chem. Soc, 96, 916 (1974). 88. Mathews R. J., A Comment on Structure — Activity Correlations Obtained Using Pattern Recognition Methods, J. Am. Chem. Soc, 97, 935 (1975). 89. Unger S. H., Discussion of Pattern Recognition, Cancer Chemother. Rep., Part. 2, 4, 45 (1974). 90. Chu K. C, Feldman R. J., Shapiro M. В., Hazard G. F., Jr., Geran R. /., Pattern Recognition and Structure — Activity Relationship Studies. Computer- Assisted Prediction of Antitumor Activity in Structurally Diverse Drugs in an Experimental Mouse Brain System, J. Med. Chem., 18, 539 (1975). 91. Stuper A. J., Jurs P. C, Classification of Psychotropic Drugs as Sedatives or Tranquilizers Using Pattern Recognition Techniques, J. Am. Chem. Soc, 97, 182 (1975). 92. Cammarata A., Menon G. K., Pattern Recognition. Classification of Therapeutic Agents According to Pharmacophores, J. Med. Chem., 19, 739 (1976). 93. Menon G. K., Cammarata A., Pattern Recognition II. Investigation of Structure - Activity Relationships, J. Pharm. Sci., 66, 304 (1977). 94. Stuper A. J., Jurs P. C, ADAPT: A Computer System for Automated Data Analysis Using Pattern Recognition Techniques, J. Chem. Infor. Сотр. Sci., 16, 99 (1976). 95. Stuper A. J., Brugger W. £., Jurs P. C, A Computer System for Structure — Activity Studies Using Chemical Structure Information Handling and Pattern Recognition Techniques, in: Chemometrics: Theory and Applications, B. R. Kowalski (Ed.), American Chemistry Society Symposium Series, No. 52, American Chemical Society, Washington, D. C, 1977. 96. Stuper A. J., Jurs P. C, Structure Activity Studies of Barbiturates Using Pattern Recognition Techniques, J. Pharm. Sci., 167, 745 (1978). 97. Cramer R. D. Ill, Red/ G., Berkoff С. Е., Substructural Analysis. A Novel Approach to the Problem of Drug Design, J. Med. Chem., 17, 533 (1974). 98. Adamson G. W.. Bush J. A., Method for Relating the Structure and Properties of Chemical Compounds, Nature, 248, 406 (1974). 99. Adamson G. W., Bush J. A., A Comparison of the Performance of Some Similarity and Dissimilarity Measures in the Automatic Classification of Chemical Structures, J. Chem. Inf. Сотр. Sci., 15, 55 (1975). 100. Adamson G. W., Bush J. A., Evaluation of an Empirical Structure - Activity Relationship for Property Prediction in a Structurally Diverse Group of Local Anesthetics, J. Chem. Soc. Perkin I, No. 2, 168 (1976). 101. Brugger W. £., Stuper A. J., Jurs P. C, Generation of Descriptors from Molecular Structures, J. Chem. Inf Сотр. Sci., 16, 105 (1976).
40 Глава 1 102 Dierdorf D. S., Kowalski B. R., Three Dimensional Molecular Structure - ' Biological Activity Correlations by Pattern Recognition, NTIS Report No. AD-785863/2GA, 1974. e Л . . _, . 103 Soltzberg L. J., Wilkins С L., Computer Recognition of Activity Class from Molecular Transforms, J. Am. Chem. Soc, 98, 4006 (1976). .,„.,. 104. Soltzberg L. J., Wilkins С L, Molecular Transforms. A Potential Tool for Structure - Activity Studies, J. Am. Chem. Soc, 99, 439 (1977). 105. Gund P., Three-Dimensional Pharmacophoric Pattern Searching, Mol. Subcell. Biol., 5, 117 (1977). r 0 „ . , ™ 106. McGill J. R., Kowalski B. R., Intrinsic Dimensionality of Smell, Anal. Chem., 107 trum^WE., Jurs P. C, Extraction of Important Molecular Features of ' Musk Compounds Using Pattern Recognition Techniques, J. Agr. Food Chem., 25 1158 (1977). ^ . „ t 108. Hansch C, Unger S. H., Forsythe А. В., Strategy m Drug Design. Cluster Analysis as an Aid in the Selection of Substituents, J. Med. Chem., 16, 1217 109 E' R. F., Lewinson T. M., Probabilistic Clustering for Attributes of Mixed Tvpe with Biopharmaceutical Applications, J. Am. Stat. Assoc, 72, 271 (19/7). 110 Hodes L., Hazard G. F., Geran R. I., Richman S., A Stat.stical-Heunst.c Method for Automated Selection of Drugs for Screening, J. Med. Chem., 20, 469 (1977). Глава 2 ПРИНЦИПЫ РАСПОЗНАВАНИЯ ОБРАЗОВ Одна из основных предпосылок методов конструирования лекарств — предположение о том, что соединения сходной структуры имеют сходные типы биологической активности. Очень трудно дать строгое определение понятия структурного сходства, о чем свидетельствует обилие и разнообразие параметров, используемых при выводе эмпирических соотношений, связывающих структуру соединений с их биологической активностью. До сих пор наиболее распространенным методом построения таких соотношений был регрессионный анализ. Целью этого подхода является построение эмпирических соотношений, связывающих различные сочетания физических, химических или структурных параметров с биологической реакцией соединения. Этот метод особенно эффективен при исследовании не слишком длинных гомологических рядов соединений. Часто требуется установить корреляции между структурой и активностью больших групп соединений, структуры которых сильно различаются. Для соединений, принадлежащих к разным структурным типам, не выполняются условия, необходимые для применения регрессионного анализа, т. е. те условия, которые соблюдаются в случае гомологических рядов. В таких случаях требуются другие методы классификации соединений, которые позволили бы сделать некоторые общие заключения о характере их действия. Такие методы особенно нужны для решения тех задач, в которых требуется определить, какие соединения из рассматриваемой совокупности обладают нужным действием. При решении вопроса о том, какое из данных соединений обладает требуемыми свойствами, обычно применяется интуитивный подход. Другими словами, делается предположение, основанное на накопленном ранее опыте. Такой подход представляется вполне естественным и разумным. Действительно, исследователь, имеющий дело с каким-либо классом соединений, часто приобретает способность интуитивно определять, какими характерными признаками должно обладать соединение для того, чтобы оно могло проявить те или иные полезные свойства. Однако успех интуитивного подхода обратно пропорционален количеству этих признаков и степени их взаимосвязи. Такой подход определенно выиграет при внесении в него некоторых элементов организации. И в этом помогают методы распознавания образов. Методам распознавания образов посвящено множество монографий
42 Глава 2 [1-17]. Этот факт, несомненно, является отражением широкой применимости методов распознавания. Применение методов распознавания образов к химическим задачам началось в середине 1960-х годов [18, 19] в связи с масс-спектральными исследованиями. После этого аналогичные работы стали проводиться во многих других областях химии. Работы, выполненные до 1975 г., перечислены в обзорах [20-23]. Несколько позже опубликованы работы, посвященные применению метода в масс-спектрометрии [24-26], инфракрасной спектроскопии [27, 28], ядерном магнитном резонансе [29-32], стационарно- электродной полярографии [33, 34], материаловедении и анализе многокомпонентных систем [35-37], а также при моделировании химических экспериментов [38-44]. Успех, достигнутый при использовании методов распознавания образов в этих областях для установления эмпирических правил управления химическими и физическими процессами, позволяет надеяться, что эти методы окажутся в равной степени эффективными в исследованиях связи структуры с активностью. Методы распознавания образов очень хорошо приспособлены для проведения самых разнообразных исследований, так как они обладают некоторыми важными свойствами. Одно из таких свойств заключается в том, что анализ экспериментальных данных не требует задания никакой функциональной формы. Более того, устанавливаются соотношения, позволяющие выявить сходство между разнородными группами данных. В сущности метод распознавания образов и представляет собой тот инструмент, который дает возможность определить, какие из свойств исследуемых объектов являются общими. После того как установлены указанные соотношения, с их помощью можно предсказывать свойства объектов, не входивших в исходную группу данных. Одна из интересных особенностей этих методов заключается в том, что они могут иметь дело с многомерными данными, т. е. данными, в которых для представления каждого объекта используется более трех параметров. К тому же этими методами можно анализировать данные, полученные из разных источников, а также данные, связи между которыми имеют разрывный характер. При соответствующем подходе методы распознавания образов дают возможность установить критерий отбора из исходного множества данных тех параметров, которые существенны для описания исследуемых свойств. Далее с помощью этого набора наиболее значимых признаков могут быть получены указания о направлении дальнейших исследований. Пусть, например, установлено, что с помощью 10 структурных параметров анализируемые соединения могут быть классифицированы в соответствии с известным для них свойством проявлять или не проявлять некоторое действие. Затем может быть выдвинута гипотеза о том, что некоторые еще не изученные соединения также обладают этим действием. После этого на основании результатов анализа, проведенного методом распознавания образов, эта гипотеза может быть проверена, т. е. указана вероятность того, что неизученное соединение будет проявлять тре- Принцнпы распознавания образов 43 буемое действие. С другой стороны, выделение 10 существенных параметров может способствовать более глубокому проникновению в природу исследуемого процесса. Эта возможность выделения из исходного набора данных наиболее информативных признаков делает методы распознавания образов эффективным инструментом исследования самых разнообразных систем. ОСНОВНЫЕ ПОНЯТИЯ МЕТОДОВ РАСПОЗНАВАНИЯ ОБРАЗОВ Прежде чем начать обсуждение методов распознавания образов, необходимо объяснить, что подразумевается под классификацией объекта или группы объектов. В процессе классификации формируется правило разделения группы объектов на несколько категорий, а при распознавании это классификационное правило используется для отнесения неизвестного объекта к одной из рассматриваемых категорий. Желательно, чтобы классификационное правило было сформировано с учетом свойств большой группы объектов. В этом случае можно надеяться, что при анализе неизвестных объектов с помощью этого правила будет получен надежный прогноз. Надежность процесса распознавания является сложной функцией метода классификации, а также количества и типа информации, использованной при формировании классификационного правила. В некотором смысле этот процесс аналогичен обычному, человеческому способу решения какой-либо задачи. Классификационное правило устанавливается в виде некоторой гипотезы, полученной в результате анализа экспериментальных данных. «Проверка правильности этой гипотезы проводится путем ее испытания на объектах, не включенных в группу данных, с помощью которых было получено классификационное правило. В случае удачных испытаний гипотеза считается правильной. В противном случае гипотеза отвергается и ищется новая. Разумеется, пределы применимости классификационного правила определяются той группой данных, на основании которых оно было установлено. С помощью этого классификационного правила могут быть достаточно точно охарактеризованы только такие объекты, свойства которых не сильно отличаются от свойств объектов исходной группы данных. Процесс классификации заключается не только в выработке классификационного правила и его дальнейшего применения для распознавания. Ниже на простом примере будут продемонстрированы основные особенности задачи распознавания образов. После того как будет охарактеризована вся процедура в целом, мы перейдем к более подробному описанию каждой ее стадии. В качестве примера построения классификационного правила рассмотрим следующую воображаемую задачу. Предположим, что мы хотим автоматизировать процесс идентификации аномальных клеток при анализе крови в клинической лаборатории. Попробуем составить опытный проект оптической воспринимающей системы, способной отли-
Глава 2 Данные измерении Лейкемические клетки Классификатор] \Принятие решения Нормальные клетки Неизвестные клетки Рис. 2.1. Схема оптической системы распознавания образов. чать лейкемические клетки от нормальных. Схема такой системы представлена на рис. 2.1. С помощью оптической камеры проводятся наблюдения различных клеток крови. Данные этих измерений затем поступают на устройство, которое отбирает необходимые признаки. Далее, отобранные признаки передаются классификатору, который с помощью эталонного набора образцов формирует классификационное правило. Теперь на основании этого правила может быть вынесено решение, к какому типу принадлежат клетки крови, предъявленные классификатору для распознавания. Попробуем представить себе, как может работать устройство, осуществляющее отбор признаков и классификацию. Прежде всего из множества характеристик, полученных в результате оптических измерений, необходимо выбрать те, которые наиболее пригодны для наших целей. Предположим, что исследователь обнаружил большую прозрачность лейкемических клеток по сравнению со здоровыми. Попробуем Принципы распознавания образов 45 I 1 Л * п_п_ Прозрачность Рис. 2.2. Гистограмма распределения клеток по степени прозрачности. сначала провести классификацию с помощью только одного этого признака. Будем считать, что если прозрачность клетки превосходит некоторый уровень Х0, то она относится к лейкемическим клеткам. Для определения значения этого уровня построим гистограмму распределения клеток каждого типа по степени прозрачности (рис. 2.2). Действительно, вид этой гистограммы указывает на то, что лейкемические клетки в среднем прозрачней нормальных. Однако, с другой стороны, невозможно подобрать такое значение Х0, которое гарантировало бы нам отсутствие неправильных классификаций. Поскольку надежность такой классификации слишком низка, необходимо искать дополнительные признаки, которые могли бы оказаться полезными при различении разных типов клеток. Предположим, что лейкемические клетки имеют более ярко выраженную клеточную структуру, чем нормальные. В этом случае можно настроить камеру на измерение контрастности образцов и таким образом получить характеристику структурированности для каждой клетки эталонного набора образцов. В результате получим двумерную диаграмму, показанную на рис. 2.3. Отметим, что при таком представлении каждый признак можно рассматривать как компоненту вектора, например X = [хь х2]. Группа данных изображается распределением точек в пространстве, так что каждая точка представляется соответствующим вектором. Теперь может быть сформулировано следующее классификационное правило: если вектор расположен выше линии АВ, то клетка считается нормальной, а если ниже, то лейкемической. Пока мы классифицировали только группу объектов, свойства которых нам известны. Если мы хотим проверить распознающую способность нашего классификатора, то это можно сделать путем
46 Глава 2 I J: Прозрачность Xt Рис. 2.3. Разделение образов клеток на два класса в пространстве 2 признаков — структурированности и прозрачности клеток. х нормальные клетки; О лейкемические клетки. Объект Пространство измерений (Пространстве признаков I К Датчик I Результаты I Предварит ель ные обработка и отбор признаков щ Классификатор Рис. 2.4. Общая схема распознающей системы. испытаний на объектах, не вошедших в ту группу, для которой было построено классификационное правило. Если исходная группа данных достаточно велика и мы можем быть уверены в том, что в ней представлены все имеющиеся виды нормальных и лейкемических клеток, то полученное с ее помощью классификационное правило будет носить общий характер. С другой стороны, очевидно, что с его помощью мы не сможем различить другие типы клеток, отличные от нормальных или лейкемических, поскольку клетки этих типов не включены в исходную группу данных. На рис. 2.4 показана общая схема распознающего устройства. распознавания образов 47 На вход системы поступает группа объектов, которые далее будут анализироваться на наличие того или иного свойства. Таким свойством может быть, например, присутствие в исследуемом соединении карбонильной группы. Для этого свойства может быть построено классификационное правило в виде функции, например, таких характеристик как способность поглощать свет в области 1700 см-1 или участие соединения в некоторых характерных реакциях [45]. Этой функции приписываются положительные значения, если имеется какой-либо из характерных признаков наличия в соединении карбонильной группы, в противном случае — отрицательные значения. Если исследуемое свойство является функцией многих переменных, в особенности, если эти переменные взаимосвязаны, то при проведении классификации неизбежно обращение к методам распознавания образов. Устройство, которое измеряет параметры, характеризующие исследуемые объекты, называется датчиком. Датчики, которые применяются в исследованиях связи между структурой и активностью, подробно рассматриваются в гл. 3. Существует много разных типов химических датчиков, например масс-спектрометры, фотометры, спектрометры ЯМР, вискозиметры. Параметры объектов, получаемые с помощью датчиков, называют признаками или дескрипторами. В результате работы датчиков исследуемому объекту сопоставляется вектор Х = XN компоненты которого являются числовыми результатами измерений параметров, характеризующих объект. Результат измерения параметров всех исследуемых объектов может быть представлен в виде матрицы. Для группы из М объектов, каждый из которых охарактеризован с помощью N параметров, получается следующая матрица XUX2\X31 •■■ ХМ\ х\гхггхъг ■ ■ ■ хмг х\ъхггхъъ ■■■ хмъ X1NX2NX3N---XMN
48 Глава 2 Такая матрица является одним из способов описания пространства измерений. Часто бывает удобно представлять эту матрицу геометрически, когда каждому объекту сопоставляется точка в N-мерном пространстве. Таким образом с помощью датчиков генерируется некоторое N-мерное распределение данных. Очевидно, пространство измерений может быть построено как на основании данных, полученных из одного источника, так и путем объединения измерений, полученных из разных источников. Если измерения проведены на одном датчике, то все компоненты вектора измерений имеют одинаковую размерность. Например, в том случае, когда датчиком является масс-спектрометр, все компоненты вектора измерений — интенсивности ионного тока при соответствующих значениях массовых чисел. Разнородные данные — результат работы нескольких датчиков. Как правило, они имеют разную размерность, различную природу и по- разному распределены. Способность работать с измерениями, полученными из разных источников, является одним из достоинств методов распознавания образов, поскольку заранее трудно определить, какие из признаков пространства измерений окажутся наиболее информативными. Ввиду сложности химических объектов часто возникает тенденция к чрезмерному расширению исходного набора признаков. Поэтому информация, содержащаяся в таких наборах, часто оказывается избыточной. Процедура, с помощью которой из пространства измерений отбираются наиболее информативные признаки, называется отбором признаков. Использование тех или иных конкретных методов отбора признаков зависит от того, на основании какого критерия судят об информативности признаков. Среди существующих методов можно упомянуть метод максимизации кластеризуемости, метод минимизации дивергенции и методы отбора наименьшего числа признаков, сохраняющего дисперсию распределения. Цель методов отбора признаков — добиться наибольшего эффекта наименьшим числом признаков. Сокращение количества необходимых признаков облегчает процедуру классификации и в некоторых случаях увеличивает надежность результатов. Под операцией классификации понимается процедура отнесения объектов к тому или иному классу согласно их расположению в пространстве признаков. Такая группировка объектов естественным образом вытекает из геометрической интерпретации пространства признаков. Если признаки содержат достаточное количество информации об исследуемом процессе, то можно предположить, что объекты с близкими свойствами будут группироваться в одной и той же ограниченной области N-мерного пространства. Обычно из исходного набора объектов выделяется их некоторая подгруппа, и на основании этой «обучающей выборки» строится классификационное правило. Качество полученного таким образом классификационного правила Принципы распознавания образов 49 тем может быть проверено путем испытаний на объектах, не включенных в обучающую выборку. Вся процедура распознавания образов складывается из трех последовательных операций: измерения, предварительной обработки и классификации. В результате применения этих операций последовательно формируются пространство измерений, пространство признаков и классификационное правило. Разделение всей процедуры распознавания образов на три стадии является несколько условным, поскольку приемы, используемые в одной из стадий, часто с успехом могут применяться и на других этапах обработки. Тем не менее мы будем придерживаться такого деления, так как оно поможет нам упорядочить различные приемы, которые используются в методе распознавания образов. В следующих разделах рассматриваются методы предварительной обработки и классификации. Измерение является весьма специфической процедурой и поэтому будет рассмотрено в отдельной главе. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА С помощью методов предварительной обработки проводится преобразование исходных данных. К методам предварительной обработки относятся: масштабирование, нормализация, преобразования кластеризации, отбор признаков, многомерный скейлинг и нелинейное отображение. Масштабирование и нормализация Для преобразования данных, полученных разными датчиками, к виду, удобному для обработки, необходимо выбрать масштаб и выполнить нормализацию. Эти преобразования особенно важны, когда данные получены из разных источников. В этом случае они могут отличаться на несколько порядков величины, так что большие по величине дескрипторы будут подавлять малые. Этот недостаток может быть устранен путем автоматического выбора масштаба. С помощью этого метода данные преобразуются таким образом, что среднее значение каждого признака становится равным нулю, а его стандартное отклонение — заданной величине S: xb_s(xu-xj>t (21) Xi = ^tx* (2-2) °} = jj-hxV-Xjf. (2.3) здесь Xtj — элементы матрицы, представляющей данные таким образом, 4 Э. Стьюпер
50 Глава 2 что каждый объект задается соответствующей строкой матрицы, a X'ij — элементы матрицы данных, полученные после преобразования масштаба. В результате выполнения процедуры автоматического масштабирования все объекты попадают внутрь гиперкуба. Преобразование масштаба меняет только размер области значений, при этом количество признаков остается прежним и сохраняются основные геометрические характеристики пространства признаков, относящиеся к кластеризации. При добавлении новых объектов к большим выборкам данных, как правило, требуется^ выполнить только преобразование (2.1), поскольку обычно величины Xt и Gj сильно не изменяются. После преобразования масштаба желательно таким образом преобразовать данные, чтобы измерения, дающие больший вклад в кластеризацию, имели соответственно большие веса. Одним из простейших методов такого преобразования является метод дисперсионного взвешивания. В результате этого преобразования новое пространство признаков X' получается из старого X с помощью следующих соотношений: К* = б Аь (2.4) I t Г?А Qk= -1—^ , (2.5) i *Н I(Xi4-Xj*)2 (2-6) Здесь L— количество классов; Р( — вероятность попадания объекта в г'-й класс (отношение числа элементов класса к числу элементов всего исходного множества данных); X\j — межклассовая дисперсия, рассчитанная с помощью всевозможных сочетаний пар объектов, не принадлежащих одному и тому же классу; Х\к — /с-я координата /-го элемента класса i; Х~ — внутриклассовая дисперсия, найденная с помощью всех парных комбинаций объектов, принадлежащих к одному и тому же классу; Qk — весовой фактор к-го признака. Чем больше величина Qk, тем важнее этот признак для классификации. Основным недостатком преобразования такого типа является то, что в результате его выполнения наилучшие индивидуальные признаки получают наибольшие веса. В то же время хорошо известно, что наилучшие признаки, идентифицированные по отдельности, необязательно образуют наилучший набор признаков. Следовательно, ценность такого способа ранжирования признаков может оказаться сомнительной. Как и в случае других методов, применимость рассмотренного преобразования зависит от специфики конкретной задачи. Принципы распознавания образов 51 Преобразования кластеризации Хотя процедуры типа масштабирования могут уменьшить эффект азнородности исходных данных, а в методе дисперсионного взвешивания признаки получают веса, соответствующие их вкладу в кластеризацию, 0ge эти операции изменяют исходные данные одинаково. Часто бывает необходимо так преобразовать исходные данные, чтобы был выделен какой-то один класс. Такие преобразования минимизируют внутриклассовое расстояние для данного конкретного класса, и поэтому процедура классификации облегчается. Преобразование кластеризации может быть осуществлено путем взвешивания компонент пространства признаков в соответствии с их вкладом в кластеризацию интересующего нас класса. Одним из методов осуществления такого преобразования является линейное преобразование X* = WX, (2.7) задающее переход от пространства X к пространству X*, в котором внутриклассовое расстояние исследуемого класса объектов минимально. Вывод такого преобразования сравнительно прост; он подробно изложен в работе [14]. Мы приведем здесь упрощенный вывод, который, однако, можно применять как один из методов предварительной обработки. Внутриклассовое расстояние для данного класса векторов-образов задается соотношением Д2 = 2£ак2, (2.8) k=l где N - размерность пространства и <зк — несмещенная дисперсия класса, рассчитанная по соотношению <тк2=^^1(4-4)2, (2.9) о'к — среднее значение координаты вектора-образа, рассчитанное по Уравнению 4 = ^-14, (2.Ю) л количество элементов класса, внутриклассовое расстояние которого минимизируется. Мы ищем матрицу преобразования W, минимизирующего внутриклассовое расстояние в новой системе координат, скольку нас интересует только масштабный фактор, то мы можем читать матрицу W диагональной. В этом случае внутриклассовое
52 Глава 2 расстояние в новой системе координат будет равно Ъ2 = 2 £КЛ2). (2.11) Обычно на процедуру минимизации накладываются следующие ограничения: случай 1 Е wkfe = 1, случай 2 N )с=1 В случае 1 матрица преобразования может быть рассчитана по соотношению . Щк = inH) (2.12) Заметим, что значение коэффициента wkk мало, когда дисперсия al велика. Интуитивно такое определение представляется удовлетворительным, поскольку признаки с большими значениями дисперсии дают малый вклад в кластеризацию, поэтому они должны иметь соответствующие веса. Наоборот, признаки с малыми значениями дисперсии дают большой вклад в кластеризацию и им следует приписать большие веса. В случае 2 матрица преобразования рассчитывается по уравнению I / JV \1/JV Здесь опять весовые факторы признаков обратно пропорциональны их стандартным отклонениям, и признаки, дающие наибольший вклад в кластеризацию, получают наибольшие веса. Ясно, что эти преобразования требуют применения только самых простых вычислений, поскольку матрица преобразования диагональная. Таким образом получается большая экономия машинного времени. К тому же поскольку преобразование линейное, оно не требует больших дополнительных расчетов при добавлении новых объектов. Рассмотренное преобразование касается только одного класса. Для минимизации внутриклассовых расстояний в нескольких классах нужно применить это преобразование к каждому классу в отдельности. Принципы распознавания образов 53 Отбор признаков Одним из недостатков методов предварительной обработки данных вляется то, что они учитывают все признаки, в том числе и те, которые могут не иметь отношения к рассматриваемой классификационной задаче. В результате мы попадаем в весьма неблагоприятную ситуацию, особенно в том случае, если несущественные признаки будут увеличивать ошибку процедуры классификации, не говоря уже о сложности и стоимости этих преобразований. Поскольку не все признаки существенны для решения рассматриваемой задачи, необходимо найти метод уменьшения их количества. Такой метод называется отбором признаков. Размерность пространства признаков можно уменьшить путем отбора тех признаков, которые, по убеждению исследователя, наиболее существенны для данной задачи. Этот отбор сводится к образованию отношений или комбинаций исходных признаков, к применению различных преобразований исходного набора данных и к использованию результатов классификации. Если отбор признаков проводится до процедуры классификации, его называют априорным, если после классификации — апостериорным. Последний тип отбора рассматривается в гл. 4. В литературе описано несколько априорных методов [46 — 50]. Общее назначение этих методов состоит в нахождении оптимального набора признаков. Однако определение понятия «оптимальность» зависит от характера применяемого метода. Одним из критериев оптимальности является выбор тех компонент, которые дают наибольший вклад в кластеризацию рассматриваемого класса. Эти компоненты могут быть получены с помощью следующего метода. Сначала мы подвергаем данные предварительной обработке с помощью преобразования кластеризации W, т. е. образуем новое пространство признаков X*, в котором внутриклассовое расстояние рассматриваемого класса минимально. Как показано выше, такое преобразование может быть задано соотношением X* = WX, (2.14) где матрица W рассчитывается из уравнений (2.12) или (2.13). Этому пространству признаков соответствует дисперсионная матрица С*, которая может быть получена из исходной дисперсионной матрицы путем следующего преобразования: С* = WCW (2.15) где W' — матрица, транспонированная к W. Далее мы можем найти преобразование А, которое диагонализует дисперсионную матрицу, сохраняя минимум внутриклассового расстояния. Таким образом мы осуществим переход в некоторое пространство X**, в котором вклад Различных компонент в кластеризацию становится очевидным.
54 Глава 2 Итак, мы построили новое пространство признаков, в котором можно оценить вклад каждого признака в способность рассматриваемого класса кластеризоваться. Поскольку признаки, имеющие большую величину дисперсии, дают меньший вклад в кластеризацию, этим признакам присваивается меньший ранг. Признаки, имеющие меньшие значения дисперсии, получают больший ранг. Далее можно выбрать п признаков высшего ранга, считая их наиболее существенными, а остальные отбросить. К сожалению, попытка провести преобразование кластеризации до диагонализации дисперсионной матрицы приводит к слишком громоздким выражениям для матрицы преобразования. Если же сначала диагонализовать дисперсионную матрицу, а потом провести преобразование кластеризации, то соотношения получаются довольно простыми. Следуя такой схеме, можно показать, что диагонализующее дисперсионную матрицу преобразование А имеет матрицу, строки которой являются собственными векторами исходной дисперсионной матрицы С. Поскольку матрица А ортогональная, то первоначальное взаимное расположение векторов-образов остается неизменным. Теперь можно провести преобразование W, максимизирующее способность интересующего нас класса кластеризоваться. Новое пространство, в котором вклад признаков в кластеризацию может быть ранжирован в соответствии с величинами их дисперсий. строится путем следующих операций: 1. Рассчитывается дисперсионная матрица С исходной выборки данных: 1 т — — су = Г I (х„ - A-,)(Xj, - A";), (2.16) т — 1 i = i Хк = — £ х1к. (2.17) т | = i 2. Отыскиваются собственные векторы матрицы С и из них, как из строк, формируется матрица А. 3. Диагонализированная дисперсионная матрица рассчитывается по соотношению С* = АСА-1. (2.18) 4. С помощью соотношений (2.9), (2.10) и (2.12) рассчитывается матрица W. 5. Рассчитывается дисперсионная матрица для дважды преобразованного пространства С** = WC*W (2.19) 6. Исходные данные преобразуются к новому представлению X** = WAX. (2.20) Принципы распознавания образов 55 В результате выполнения этих преобразований мы переходим в новое пространство, в котором интересующий нас класс имеет минимальное внутриклассовое расстояние, а дисперсионная матрица выборки данных яиагональна. Признаки, имеющие наименьшие значения дисперсии (диагональные элементы дисперсионной матрицы), считаются наиболее существенными для кластеризации. «Оптимальное» подмножество данных формируется из п признаков, имеющих наименьшие значения дисперсии. Наиболее трудный этап рассматриваемых преобразований — расчет собственных векторов для формирования матрицы А. В случае выборок не слишком большого объема эта задача может быть решена с помощью достаточно эффективного алгоритма. Главным недостатком рассматриваемого метода является искажение признаков исходного пространства, так как компоненты пространства X** представляют собой линейные комбинации компонент исходного пространства. В том случае, когда искомое соотношение не обязательно должно быть выражено через компоненты исходного пространства, описанный метод весьма эффективен при отборе признаков в достаточно представительной выборке данных. Добавление новых объектов не вносит больших осложнений, поскольку требуется лишь выполнение двух матричных перемножений векторов-образов добавленных объектов. Другое распространенное определение оптимальности положено в основу преобразования, осуществляющего переход к ортогональному базису меньшей размерности и вносящего при этом минимальное искажение в первоначальное распределение данных. Этот тип преобразования эквивалентен задаче отыскания такой комбинации вращений и проекций, которая уменьшает размерность исходного пространства и в то же время дает минимальные отклонения от исходного распределения. Одним из таких методов перехода к сокращенному базису является преобразование Карунена — Лоэва [15, 51, 52]. Преобразование Карунена — Лоэва является оптимальным в том смысле, что оно, с одной стороны, дает наилучшую аппроксимацию исходного распределения в пространстве меньшей размерности, а с другой стороны, вносит минимальное искажение в величину дисперсии. Преобразование Карунена — Лоэва состоит из последовательности следующих операций: 1. Рассчитывается автокорреляционная матрица векторов-образов обучающей выборки: Q = m 1 х А + т^7 ,?, ВД<+ - + Т^?,х^' <121> где Мк — количество элементов класса /с, Т — общее число классов, Хк;—j-й элемент класса к. Под обозначением XX' понимается следующее. Пусть имеется
56 Глава i n-мерныи вектор Х = *1 и транспонированный вектор Л = (Xj, X2, Х3, . . . , тогда XX' определяется соотношением XjAj AjA2 AjAj XX ' = Х]Х„ XjX2 X2X2 Х2Х3 ... Х2ХП Х1Х3 X2X3 X3X3 ... ХзХ„ Х]Х„ Х2Х„ Х3Х„ (2.22) Очевидно, £ХХ' представляет собой сумму всех таких матриц. Количество матриц равняется числу элементов в данном классе. Для расчета сумм не требуется формирование и запоминание всех матриц. Путем применения соответствующих приемов можно избежать хранения больших объемов промежуточной информации. 2. Рассчитываются собственные векторы и собственные значения матрицы Q. Собственные векторы нормируются. 3. Выбирают К собственных векторов, отвечающих К наибольшим собственным значениям матрицы Q. Эти векторы принимают в качестве базиса нового пространства. 4. Составляют матрицу А таким образом, что выбранные в п. 3 собственные векторы образуют ее строки. 5. Рассчитывают новые векторы-образы X* по соотношению X* = АХ. (2.23) Векторы X* представляют собой наилучшую аппроксимацию в К-мерном пространстве к исходным Л/-мерным векторам (К < N). Таким образом количество признаков, необходимых для описания рассматриваемых объектов, существенно уменьшается. Отметим, что при К = N отбора признаков не происходит и новое представление векторов-образов получается из старого вращением осей координат. Укажем на две особенности описываемой процедуры. Во-первых, в общем случае матрица Q определяется соотношением Принципы распознавания образов 57 Q= £р(ЩЕ{ХЖ}. (2.24) i=i Поэтому данное преобразование может применяться и в тех случаях, когда вероятности наблюдения классов W( не равны (описанная выше процедура основана на предположении, что эти вероятности равны). Во-вторых, при проведении разложения Карунена-Лоэва предполагается, что Е {Xj = 0, т. е. математические ожидания векторов-образов каждого класса равны нулю. Хотя это условие не всегда выполняется, преобразование все же может быть проведено. Очевидно, выборка, состоящая из элементов, имеющих сильно различающиеся математические ожидания, не может быть преобразована оптимальным образом. Однако и в этом случае результаты преобразования могут оказаться пригодными. Полученные в результате преобразования Карунена — Лоэва признаки являются линейными комбинациями исходных признаков. К сожалению, признаки, не имеющие отношения к исследуемому явлению, также подвергаются преобразованию. Поэтому необходимо следить за тем, -чтобы исходные данные содержали только наиболее существенные признаки. Преобразование Карунена — Лоэва не зависит от характера распределения данных. Однако если распределение известно или поддается какой-либо оценке, то эту информацию также можно- использовать в процедуре отбора признаков. Один из таких методов состоит в минимизации энтропии. Процедура основана на предположении о нормальности распределения данных и о равенстве дисперсионных матриц. Если это условие выполняется хотя бы приблизительно, то могут быть проведены следующие преобразования, минимизирующие энтропию (более подробное описание метода содержится в работах [14, 53]): 1. Оцениваем математические ожидания векторов-образов и их дисперсионную матрицу по соотношениям m = m' = -W £ х<; <2-25> i j=1 С = С, = -i- £ XfJX'y - т.-т;, (2.26) ivi ;=l где Nt — количество элементов в классе /, Xtj — j-й элемент /-го класса векторов-образов. Отметим, что размерность вектора X равна N. Матрицы XX' и mm' определяются соотношением (2.22). Поскольку предполагается, что дисперсионные матрицы всех классов одинаковы, достаточно рассчитать С, и т, только для одного класса.
58 Глава 2 2. Рассчитываются собственные значения и собственные векторы матрицы С. Собственные векторы нормируются. Поскольку дисперсионная матрица всегда симметрична (это следует из способа расчета XX' и mm'), всегда можно найти набор действительных, ортогональных собственных векторов. 3. Из набора собственных векторов отбираются векторы, соответствующие К наименьшим собственным значениям. Из них, как из строк, формируется матрица преобразования А. 4. Новые векторы-образы X* рассчитываются из соотношения X* = АХ. (2.27) Векторы X* являются К-мерным представлением исходных данных (К < N), минимизирующим энтропию системы. После минимизации энтропии наряду с понижением размерности пространства признаков улучшаются кластеризационные свойства системы. Успех этого метода зависит от того, с какой точностью данные подчиняются гипотезе о нормальности распределения и равенстве дисперсионных матриц. Существуют еще несколько методов отбора наиболее информативных признаков. Такие критерии, как дивергенция [14], [/-статистика [54], F-статистика [55], отношение Фишера [56], помогают выделить наиболее существенные дескрипторы. Некоторые из этих методов основаны на гипотезе о виде распределения данных. Если такая гипотеза ошибочна, то результаты статистического анализа могут оказаться ненадежными. Еще одно затруднение заключается в том, что для выбора наилучшего набора дескрипторов должны быть проверены все возможные комбинации исходного набора дескрипторов. Такая проверка практически трудноосуществима в случае наборов признаков, объем которых п превышает 20, поскольку число вычислительных итераций возрастает как п\. Это приводит к дальнейшему снижению ценности рассматриваемых процедур. Требуются такие методы отбора признаков, которые, с одной стороны, были бы близки к оптимальным, а, с другой, не были бы сопряжены с большими объемами вычислений. Часто необходимые сведения могут быть получены с помощью значительно более простых методов. Одним из таких методов является оценка прогнозирующей способности отдельных признаков. Прогнозирующие способности отдельных признаков могут быть рассчитаны с помощью следующего алгоритма: 1. Значения дескрипторов упорядочиваются по возрастанию. 2. Начиная с наименьшего значения, отмечают количество элементов на класс, превышающее и не достигающее этого значения. 3. Выбирают следующее по величине значение дескриптора и повторяют расчеты, выполняемые в п. 2, до тех пор, пока не будут перебраны все значения данного дескриптора. 4. Отмечают наибольший процент правильных предсказаний для всей выборки и для каждого класса. Принципы распознавання образов 59 Дескрипторы, дискриминирующая способность которых превосходит 90 %, могут оказаться малопригодными для анализа. Так бывает в том случае, когда дескриптор целиком или преимущественно сосредоточен в одном классе. Подобного рода неравномерное распределение может указывать на то, что анализируемая выборка недостаточно полно представляет классы. Аналогично дескрипторы с очень низкой прогнозирующей способностью либо не содержат никакой ценной информации, либо указывают на полимодальность распределения. Для того чтобы решить, какой из случаев на самом деле имеет место, необходимо привлечь какую-либо дополнительную информацию. Подобная процедура может быть проделана для всевозможных парных произведений дескрипторов. Значительное повышение прогнозирующей способности может явиться указанием на то, что такого рода комбинации имеют большую ценность, нежели составляющие их отдельные дескрипторы. В результате в каждом таком случае размерность пространства признаков может быть понижена на единицу. При отборе отдельных признаков полезно сопоставить значения различных статистических характеристик системы. Так, для каждого класса без труда могут быть рассчитаны выборочное среднее, стандартное отклонение, наибольшее значение, наименьшее значение и общее количество отличных от нуля значений. Таким образом можно составить представление об информативности анализируемых данных, а также решить вопрос о том, оправдано ли включение в систему данного дескриптора. Еще одним полезным критерием является коэффициент корреляции. Сильно коррелированные дескрипторы могут содержать в сущности одну и ту же информацию. Если несколько дескрипторов сильно коррелированы, то можно оставить какой-либо один из них при условии, что после такого отбора общее количество информации не изменится. Ценность изложенных методов зависит от природы анализируемой выборки. Если главной целью является классификация, то применимы методы типа преобразования Карунена — Лоэва. Если данные подчиняются хорошо известным распределениям, то наиболее существенные признаки могут быть выявлены с помощью статистических тестов. И наконец, в любом случае решение вопроса о включении данного признака в систему может быть произведено путем определения индивидуальных прогнозирующих способностей. В конечном счете о ценности проделанных преобразований предварительной обработки и отбора признаков можно будет судить только по результатам классификации.
60 Глава ;ч Многомерный скейлинг и нелинейное отображение Перед тем как перейти к более тщательному анализу, иногда полезно составить представление о структуре данных, т. е. об их геометрическом распределении в многомерном пространстве, образованном векторами-образами. Например, данные могут образовывать перекрывающиеся или неперекрывающиеся гиперсферы или гиперэллипсоиды. Точная картина распределения данных не поддается непосредственному изображению, поскольку наши геометрические представления ограничиваются пространством трех измерений. Тем не менее тщательный визуальный анализ дву- или трехмерных проекций из пространства более высокой размерности часто дает ценные сведения о многомерной структуре данных. Наличие представления о структуре анализируемых данных часто помогает решить вопрос, какой из методов классификации лучше всего применим в данном случае. Отсутствие такой структуры служит указанием на то, что используемые дескрипторы малоинформативны. Существуют два основных метода получения представлений низкой размерности: линейный и нелинейный. Простейший из линейных методов заключается в последовательном переборе компонент. Это, пожалуй, самое тривиальное из возможных представлений, и, очевидно, его главный недостаток заключается в том, что отдельные координаты плохо отображают совокупное поведение системы. Кроме того, этот метод не дает указаний об исключении малоинформативных признаков. Таким образом, рассматриваемый метод дает самое примитивное представление о структуре данных. Некоторым усовершенствованием является использование операций вращения при получении дву- или трехмерных проекций системы данных. Эти приемы обычно не дают особого преимущества по сравнению с простейшим методом, за исключением, может быть, некоторых частных случаев. Более сложным способом получения вращательно-проекционных дву- или трехмерных изображений является метод, основанный на модификации преобразования Карунена — Лоэва, осуществляющей наилучшую аппроксимацию исходных данных. Метод заключается в отыскании таких преобразований вращения и проекции в пространство более низкой размерности, которые вносят минимальные искажения в исходное распределение и величину дисперсии. В этом случае преобразованию подвергается не один класс, а вся выборка в целом. Преобразование осуществляется с помощью следующих операций: 1. Рассчитываются выборочные средние для каждого признака - 1 m xt = -zrl x«> (2-28) т i=i где т — количество векторов-образов. Принципы распознавании образов 61 2 рассчитываются элементы дисперсионной матрицы С ct,= -±Tiix«-Xd(Xj). (2.29) 3 Отыскиваются собственные векторы ик и собственные значения Хк дисперсионной матрицы. 4 К собственных векторов (К < 3), соответствующих наибольшим собственным значениям, выбираются в качестве осей координат нового пространства. В этом пространстве строится изображение исходной выборки данных. Доля исходной информации, сохраняющейся в процессе преобразования, может быть рассчитана по формуле 100 £ к, Р.= J=1 ■ (2-30) I* Этим же соотношением определяется процент исходной дисперсии, сохраняющейся в новом представлении. Малое значение Pv указывает на то, что существенная доля информации потеряна, и новое представление не является точным. Очень часто рассматриваемое преобразование приводит к тому, что множества векторов-образов, не пересекавшиеся в исходном пространстве, начинают пересекаться в пространстве меньшей размерности. Этот недостаток вызывает затруднения при объяснении структуры данных. Его можно преодолеть с помощью других, нелинейных методов понижения размерности. К ним относятся методы нелинейного отображения и многомерного скейлинга. Эти методы впервые описаны в работах Крускала [57, 58], Шеппарда [59] и Сэммона [60]. Имеется также обширная литература по применению этих методов [61 — 65]. Основная идея заключается в отыскании такой проекции в дву- или трехмерном пространстве, которая походила бы на исходное изображение. Можно использовать различные критерии сходства, однако чаще всего для этой цели используют расстояние. Обычно расстояние измеряют в евклидовой метрике, но в случае необходимости можно применить и другие метрики. Нашей целью является отыскание такого преобразования многомерного пространства в пространство двух или трех измерений, в результате которого новые расстояния dfj минимально отличались бы от первоначальных расстояний dtj. Ошибка такого преобразования будет измеряться разностью расстояний в новом и старом представлениях. Удобно описывать разность между новым и старым расстояниями с помощью такой функции критерия, которая была бы инвариантной по отношению к искажениям конфигурационных многогранников,
62 Глава 2 а также к растяжениям векторов. Существуют три функции квадратичной ошибки, относящиеся к этому типу: ,,__!_ у <uz4£. (2,3) Отметим, что эти три разновидности функции критерия характеризуют разные типы ошибок. Функция Ji выражает наибольшие ошибки, независимые от величины dtJ. Функция J2 описывает наибольшие относительные ошибки, независимые от величины \dfj — dtJ\. Тип функции J3 в некотором смысле является промежуточным между типами двух предыдущих функций, поскольку она характеризует максимальное произведение абсолютной и относительной ошибок. По мнению Сэммона [60], последняя функция является наиболее подходящей. Эти функции могут быть минимизированы любым из доступных методов. В случае евклидовой метрики градиенты функций критерия имеют вид v. — Ywe-^^ dk*j (2.34) у г =2 V dU /v У* У±_ П35) .ft akj ttkj V3=_^_y<_^L.I-_ZL) (2.36) ldtjJft d«J '« где y; — отображение в пространство меньшей размерности г'-го вектора- образа, a df) = ||у, -yj\\. Оптимальная конфигурация далее может быть найдена с помощью обычных методов градиентного спуска. Начальное приближение может быть задано либо путем случайного распределения точек в пространстве, либо с применением преобразования Карунена — Лоэва. К собственных векторов (К < 3), отвечающих наибольшим собственным значениям, могут быть взяты в качестве осей координат пространства, в котором задается начальное приближение оптимальной конфигурации. распознавания образов 63 Попутно для начальной конфигурации по соотношению (2.30) может быть рассчитан коэффициент сохранения дисперсии. Рассматриваемые методы также несвободны от недостатков. Так, •например, матрица расстояний состоит из N(N—l)/2 элементов. Поэтому, учитывая возможности различных ЭВМ, приходится ограничиваться выборками объемом от 250 до 450 объектов. Так же как и в случае других преобразований, нежелательно включение малоинформативных признаков, поскольку они содержат шумы, которые могут сильно исказить структуру исходных данных. Например, при отображении на пространство меньшей размерности может появиться перекрывание, отсутствовавшее в исходном представлении. Наконец, структура пространства признаков очень большой размерности (N > ~ 15) часто оказывается слишком сложной для того, чтобы его отображение на пространство двух или трех измерений не содержало существенных искажений. В этом случае в пространстве меньшей размерности может возникнуть сильное перекрывание, отсутствовавшее в исходом представлении. Помимо всего прочего многомерный скейлинг дает удобный метод визуального представления структуры данных. Это часто помогает подобрать наиболее подходящий к данному случаю метод классификации. Сфера применения методов скейлинга не ограничивается только предварительной обработкой. Если при нелинейном отображении не возникает существенных искажений исходных данных, классификация может быть проведена самим исследователем путем визуального анализа отображений на пространство низкой размерности. КЛАССИФИКАЦИЯ Процедуры, предшествующие классификации, осуществляют перевод информации в числовое представление. Попробуем выяснить, что дают эти преобразования. В основе методов распознавания образов лежит понятие измерения, с помощью которого получают информацию о свойствах исследуемых объектов. Например, путем измерения липофильности можно получить информацию о способности соединения взаимодействовать с биологической системой. Переводя эти измерения в векторное представление, можно получить некоторое распределение точек в многомерном пространстве, причем каждая точка соответствует элементу исследуемой выборки. Если проделанные измерения действительно имеют отношение к исследуемому свойству, то элементы, обладающие нужным свойством, будут преимущественно сосредоточиваться в одной области многомерного пространства, а элементы, не обладающие этим свойством, будут образовывать кластеры в другой области многомерного пространства. Эти области, вообще говоря, могут перекрываться. В том случае, когда перекрывание сильное, никакой информации об исследуемом свойстве получить нельзя. Представление о кластеризации объектов в пространстве информатив-
64 Глава 2 ных измерений является центральным в приложениях методов распознавания образов. Нахождение такого преобразования, с помощью которого можно кластеризовать исследуемую выборку и в результате получить классы объектов, обладающих заданным свойством, является общей целью процедур измерения, предварительной обработки и априорного отбора признаков. По существу, распознавание образов является методом выявления сходства между исследуемыми объектами. В результате классификации отыскиваются некоторые соотношения, характеризующие это сходство. Существует много различных методов классификации, однако в фармакологических приложениях преимущественно используются непараметрические методы. Для понимания основ непараметрических методов необходимо небольшое введение в теорию параметрических методов. Параметрические методы классификации Параметрические методы классификации основаны на байесовской статистике. Эти методы формируют классификационное правило непосредственно из вероятностного распределения данных. Вид вероятностного распределения данных зависит от типа и числа датчиков, методов предварительной обработки и отбора признаков. Цель классификации заключается в максимальном увеличении доли правильных классификаций путем построения функции, определяющей границы между различными классами. Существует несколько методов построения параметрической решающей функции. Способ построения такой функции иллюстрируется следующим простым примером. Классификатор может быть построен непосредственно из формулы Байеса P(X)P(WJX) = P(Wt)P(X/Wi). (2.37) В этом соотношении X — вектор-образ, компоненты которого получены в результате работы различных датчиков. Численные значения этих компонент определяют распределение данных в N-мерном пространстве. Функция Р(Х) описывает распределение данных независимо от того, к какому классу они принадлежат. Р (WJ — вероятность наблюдения класса W{. Р(ИУХ) — условная вероятность того, что вектор X принадлежит классу Wv P(X/W() — условная вероятность того, что из класса Wt будет выбран объект, описываемый вектором- образом X. С помощью этих условных вероятностей можно- построить дискриминантную функцию. Дискриминантная функция /(X) — это функция, с помощью которой производится отнесение каждого вектора- образа X к одному из классов W{. Оптимальной будет такая функция, которая приводит к наименьшему числу ошибочных классификаций. Вероятность того, что вектор X принадлежит классу Wh равна Принципы распознавания образов 65 _РРШ_. (238) м 1 P[X/Wk) Это соотношение вытекает непосредственно из формулы Байеса при условии, что априорные вероятности появления каждого класса равны. Очевидно, наибольшая из величин P(X/Wj) и будет выполнять роль решающей функции. Решающее правило может быть сформулировано следующим образом: вектор-образ принадлежит классу Wt, если P{X/W,)>P(XWJ),j¥>i, (2.39) или, в другой форме, PWWu>l,J*t. (2.40) P(X/Wj) Если эти вероятности равны, то X может быть отнесен как к классу Wb так и к классу Wj. Решающая функция может быть построена с помощью соотношения (2.40). Предположим, что каждый класс векторов-образов описывается нормальным распределением и дисперсионные матрицы всех классов одинаковы. В этом случае рМщ = \2«Аъ\112ар i-tx-no'cr'pt-m,; (2.41) где т, — математическое ожидание вектора-образа. Тогда отношение функций плотности будет определяться формулой -Ж^и ехр|- 1[(Х - mJ'C-^X - ш,) - (X - mjfC~\X - т,)]|<2.42) Поскольку матрица С симметрическая, то Х'С-' = С" LX, и соотношение (2.42) преобразуется к форме -^^=ехр P(X/W}) Р Х'С"' (ш,- - in,) - — (т( + щ/С"' (m, - m,) (2.43) Определив f»iX)~]n-pom> мы получим распознающую функцию /ц(X) = Х'С-1 (т, - т,) - у (т,. + т/С~' (т; - т,) = 0. (2.44) Для того чтобы классифицировать вектор X, нужно рассчитать значения Функции fi} (X) для всех i и J при i Ф j и отнести X к тому классу, Для которого величина Д,(Х) имеет наибольшее значение. Такая 5 Э. Стьюпер
66 Глава 2 решающая функция будет оптимальной при условии, что априорные вероятности появления различных классов и их дисперсионные матрицы равны, а распределения элементов этих классов нормальны. Заметим, что решающую функцию/У(Х) иначе можно представить как некую гиперплоскость. Если имеется всего два класса, классификационное правило выглядит следующим образом: Д(Х)>0 для XeWh Д(Х)<0 для XeWj. Ясно, что уравнение /;ДХ) = 0 определяет решающую поверхность, которая отделяет один класс от другого. Добавочные детали вероятностных выводов решающих функций содержатся в литературе, указанной ранее. Интересно, что в рассматриваемом случае оптимальная решающая функция линейна. С точки зрения непараметрического подхода в этом результате нет ничего удивительного. На рис. 2.5 изображены функции плотности для задачи классификации на два класса. Этот пример иллюстрирует одномерное распределение: по вертикальной оси откладывается число наблюдений, а по горизонтальной — значения компоненты вектора-образа. Отметим, что классификационная ошибка разделяющей поверхности в положении А пропорциональна сумме всех заштрихованных площадей, а ошибка решающей поверхности в положении В пропорциональна только площади, заштрихованной косой чертой. Легко видеть, что в рассматриваемой задаче функция, описывающая решающую поверхность В, является оптимальной. Никакая другая поверхность не дает более низкой вероятности неправильной классификации. Можно убедиться, что уравнения (2.43) и (2.44) действительно описывают эту поверхность. Зная форму распределения P(X/Wj), можно построить решающую функцию. Обычно параметрические решающие функции задают двумя различными соотношениями: f(\) = P{\/Wi)P{Wi), (2.45) /(Х) = Р(ИУХ). (2.46) Эти функции получают путем сочетания формулы Байеса с некоторыми формулами элементарной теории информации. Именно таким образом при некоторых специальных предположениях были получены описанные выше решающие функции. Другими словами, выведенное выше соотношение (2.44) является частным случаем формулы (2.45). Зная форму распределений P(\/Wt), P(Wt) или P(Wt/X), можно получить решающую функцию, оптимальную в смысле минимума неправильных классификаций. Обычно форма этих распределений неизвестна и оценивается приближенно. Многие из приближений функции распределения дают линейные или в крайнем случае квадратичные решающие функции. Принципы распознавания образов 67 В А рис. 2.5. Положение оптимальной и неоптимальиой разделяющих поверхностей по отношению к одномерным вероятностным распределениям. Таким образом, для получения оптимальной решающей функции параметрические методы, по существу, аппроксимируют функцию распределения данных. Если аппроксимация функции распределения недостаточно точна, то и решающая функция будет далека от оптимальной. Необходимость аппроксимации функции распределения является самым большим препятствием к использованию параметрических методов в многочисленных приложениях. Трудности связаны не только с выбором правильной функциональной формы, но также со сложностью расчетов и большими затратами машинного времени при восстановлении функций распределения по экспериментальным данным. Учитывая все эти трудности, приходится искать другие методы построения решающих функций. Можно предположить, что если аппроксимация функции распределения сопряжена с серьезными затруднениями, то решающая функция аппроксимируется легче. В этом случае возникает задача построения такой решающей функции, которая дает наилучшую аппроксимацию поверхности при условии, что последняя получена при использовании стандартного байесовского подхода. Классификаторы, строящие решающую функцию путем аппроксимации решающей поверхности, называются непараметрическими классификаторами. Обычно эти классификаторы формируют линейные решающие функции из условия минимума количества неправильных классификаций. Точность метода зависит от того, насколько полно экспериментальная выборка представляет истинное распределение. В гл. 4 обсуждаются возможности и ограничения нескольких типов непараметрических классификаторов. МЕТОДЫ КЛАСТЕРИЗАЦИИ Понятие о кластеризации — одно из наиболее привлекательных в классификационной задаче. Этот подход естественным образом возникает из геометрической интерпретации задачи. Смысл метода кластеризации ясен из приведенного выше примера, в котором мы искали границу, отделяющую кластер нормальных клеток от кластера аномальных клеток. Поскольку в этой задаче мы имели дело с системой низкой размерности, то достаточно было ограничиться 5*
68 Глава 2 визуальными методами построения разделяющей поверхности. Очевидно, визуальные методы применимы только в случае пространств, размер, ность которых не выше чем три. К тому же эти методы накладывают ряд ограничений, затрудняющих применение классификаторов в задачах распознавания. Следовательно, необходимо разработать систематический подход, позволяющий дать более строгое определение кластера. Есть несколько алгоритмов разделения множества исходных данньо на кластеры. В большинстве из этих алгоритмов при выполнена кластеризации в качестве меры близости объектов используютс» различные способы определения расстояний. Использование расстояние в качестве меры близости является естественным, если учесть, что исследуемые объекты изображаются точками в евклидовом пространстве. Однако критерии, основанные на том или ином способе определения расстояния, являются только одним из возможных способов определения кластеров. Хартиган [66] указал шесть типов алгоритмов кластеризации, отличающихся друг от друга способами выделения кластеров. Сортировка Объекты разделяются на кластеры в соответствии со значениями, которые принимает какой-либо существенный признак, характеризующий объекты. Затем внутри выделенных таким образом кластеров проводится дальнейшая сортировка путем анализа значении другого признака и т. д. Перегруппировка Задается некоторое начальное распределение объектов по кластерам. Далее объекты перемещают из одного кластера в другой в соответствии с каким-либо критерием, например величиной стандартного отклонения для данного кластера. Алгоритмы перегруппировки отличаются высокой скоростью, однако конечный результат иногда зависит от вида начального распределения. Объединение Сначала каждый объект исходной выборки данных выделяется в отдельный кластер. Далее отыскивается пара кластеров с наименьшим межкластерным расстоянием и объединяется в один кластер большего размера. Этот процесс продолжают до тех пор, пока не будет выполняться некоторое условие оптимальности или все объекты не окажутся в одном кластере. Для больших выборок, включающих более 1000 элементов, этот алгоритм неэкономичен, и определение оптимальных условий требует привлечения некоторых аппроксимаций. Принципы распознавания образов 6') Неизвестный объект Неизвестны! объект Х1 х, a S Рис. 2.6. а — неизвестный объект легко классифицируется по критерию минимума расстояния; 6 — классифицировать неизвестный объект по критерию минимума расстояния затруднительно. Разбиение Алгоритмы разбиения полностью противоположны алгоритмам объединения. В этих алгоритмах исходная выборка данных последовательно разбивается на все более мелкие кластеры в соответствии с некоторыми правилами (минимальный или максимальный размер, стандартное отклонение и т. д.). Трудности, возникающие при реализации этих алгоритмов, обычно связаны с выбором формы функций разбиения. Добавление Эти алгоритмы работают путем добавления элементов выборки в уже существующие кластеры. Ограниченность этих алгоритмов очевидна. Поиск Алгоритмы поиска обычно применяются к тем системам, для которых в результате математического анализа исключены многие из возможных способов разбиения на кластеры. С помощью этих алгоритмов производится такая оптимальная кластеризация системы, которая приводит к минимуму функции ошибок. Существует много различных алгоритмов, однако ни один из них не приспособлен для решения любой из возникающих задач. Некоторые алгоритмы, например алгоритм ISODATA Болла и Холла [67, 68], могут осуществлять процедуры добавления, поиска, объединения и разбиения. Такие алгоритмы имеют более широкую область приме-
70 Глава 2 нения, однако ни один из них не является универсальным. К тому же многие алгоритмы являются эвристическими по своей природе, и поэтому успех их реализации в конечном счете зависит от мастерства исследователя. И наконец, последний недостаток методов кластеризации заключается в том, что иногда возникают трудности с отнесением неизвестного объекта к одному из уже имеющихся классов. Эта ситуация иллюстрируется рис. 2.6. Ясно, что изображенный на рис. 2.6, а неизвестный объект следует отнести к ближайшему кластеру. Однако в случае, представленном на рис. 2.6, б, отнести неизвестный объект к какому-либо кластеру по принципу наименьшего расстояния затруднительно. Несмотря на недостатки, методы кластеризации могут оказаться полезными для упорядочения систем, которые на первый взгляд кажутся совершенно неупорядоченными. Отметим также, что методы кластеризации необязательно требуют предварительной группировки объектов исследуемой выборки на классы. Алгоритмы кластеризации могут использоваться для выделения классов в выборках, способ классификации которых неочевиден. Как показано выше, алгоритмы кластеризации, основанные на различных способах определения расстояния, могут использоваться для расчета критериев подобия, для выделения существенных признаков и для преобразования исходных данных к виду, более удобному для дискриминантного анализа. ЛИТЕРАТУРА 1. Andrews H. С, Introduction to Mathematical Techniques in Pattern Recognition, Wiley, New York, 1972. 2. Аркадьев А. Г., Браверман E. М., Обучение машины классификации объектов.- М.-. Наука, 1971. 3. Batchelor В. С, Practical Approach to Pattern Classification, Plenum, New York, 1974. 4. Becker P. W., An Introduction to the Design of Pattern Recognition Devices, Springer, New York, 1971. 5. Chen С. Н., Statistical Pattern Recognition, Hayden, New York, 1973. 6. Duda R. 0., Hart P. E., Pattern Classification and Scene Analysis, Wiley, New York, 1973. 7. Fu K. S., Syntactic Methods in Pattern Recognition, Academic, New York, 1972. 8. Fukanaga K., Introduction to Statistical Pattern Recognition, Academic, New York, 1972. 9. Meisel W., Computer-Oriented Approaches to Pattern Recognition, Academic, New York, 1972. 10. Minsky M„ Papert S., Perceptrons, MIT Press, Cambridge, 1969. 11. Nilsson N. J., Learning Machines, McGraw-Hill, New York, 1965. 12. Patrick E. A., Fundamentals of Pattern Recognition, Prentice-Hall, Englewood Cliffs, New Jersey, 1972. 13. Sebestyen G. S., Decision Processes in Pattern Recognition, Macmillan, New York, 1962. Принципы распознавания образов 71 14 Той J. Т., Gonzalez R. С, Pattern Recognition Principles, Addison-Wesley, ' New York, 1974. 15. Uhr L., Pattern Recognition, Learning and Thought, Prentice-Hall, Englewood ' Cliffs, New Jersey, 1973. 16. Ulltnan J. R., Pattern Recognition Techniques, Crane, Russak, and Co., New ' York, 1973. 17. Young T. Y., Calvert T. W., Classification, Estimation, and Pattern Recognition, Elsevier, New York, 1973. 18. Тальрозе В. Л., Разников В. В., Танцырев Г. Д., ДАН СССР, 159(1), 182 (1964). 19. Jurs P. С, Kowalski В. R., Isenhour T. L., Computerized Learning Machines Applied to Chemical Problems. Molecular Formula Determination from Low Resolution Mass Spectrometry, Anal. Chem., 41, 21 (1969). 20. Jurs P. C, Isenhour T. L., Chemical Applications of Pattern Recognition, Wiley-Interscience, New York, 1975. 21. Kowalski B. R., Bender С F., Solving Chemical Problems with Pattern Recognition, Naturwissenschaften, 62, 10 (1975). 22. Kowalski B. R., Measurement Analysis by Pattern Recognition, Anal. Chem., 47, 1152A (1975). 23. Jurs P. C, Proceedings of the Workshop on Chemical Applications of Pattern Recognition, Washington, D. C, May 1975. 24. Lam T. F., Wilkins С L., Brunner T. K., Soltzberg L. J., Kaberline S. L., Large- Scale Mass Spectral Analysis by Simplex Pattern Recognition, Anal. Chem., 48, 1768 (1976). 25. Rotter Я., Varmuza K., Computer-Aided Interpretation of Steroid Mass Spectra by Pattern Recognition Methods. Part 2. Influence of Mass Spectral Preprocessing on Classification by Distance Measurement to Centers of Gravity, Anal. Chim. Acta, 95, 25 (1977). 26. Lowry S. R., Isenhour T. L., Justice J. В., McLafferty F. W., Dayringer H. E., Venkataraghavan R., Comparison of Various K-Nearest Neighbor Voting Schemes with the Self-Training Interpretive and Retrieval System for Identifying Molecular Substructures from Mass Spectral Data, Anal. Chem., 49 1720 (1977). 27. Woodruff H. В., Ritter G. L., Lowry S. R., Isenhour T. L., Pattern Recognition Methods for the Classification of Binary Infrared Spectral Data, Appl. Spectrosc, 30, 213 (1976). 28. Woodruff H. В., Munk M. £., A Computerized Infrared Spectral Interpreter as a Tool in Structure Elucidation of Natural Products, J. Org. Chem., 42, 1761 (1977). 29. Brunner T. R., Wilkins С L., Williams R. C, McCombie P. J., Pattern Recognition Analysis of Carbon-13 Free Induction Decay Data, Anal. Chem., 47, 662 (1975). 30. Brunner T. R., Wilkins С L., Lam T. F., Soltzberg L. J., Kaberline S. L., Simplex Pattern Recognition Applied to Carbon-13 Nuclear Magnetic Resonance Spectrometry, Anal. Chem., 48, 1146 (1976). 31. Woodruff H. В., Snelling С R., Jr., Shelley С A., Munk M. £., Computer- Assisted Interpretation of Carbon-13 Nuclear Magnetic Resonance Spectra Applied to Structure Elucidation of Natural Products, Anal. Chem.. 49, 2075 (1977). 32. Sjostrom M., Edlund U., Analysis of 13-C NMR Data by Means of Pattern Recognition Methodology, J. Magn. Resonance. 25. 285 (1977). 33. Thomas Q. V., Perone S. P., Application of Pattern Recognition Techniques to the Interpretation of Severely Overlapped Voltammetric Data: Theoretical Studies, Anal. Chem., 49, 1369 (1977).
n Глава 2 34. Thomas Q. К, DePalma R. A., Perone S. P., Application of Pattern Recognition Techniques to the Interpretation of Severely Overlapped Voltammetric Data: Studies with Experimental Data, Anal. Chem., 49, 1376 (1977). 35. McGill J. R., Kowalski B. R., Recognizing Patterns in Trace Elements, Appl. Spectrosc, 31, 87 (1977). 36. Норке Р. К., The Application of Multivariate Analysis for Interpretation of the Chemical and Physical Analysis of Lake Sediments, J. Environ. Sci. Health All(6), 367 (1976). 37. Gaarenstroom P. D., Perone S. P., Moyers J. L., Application of Pattern Recognition and Factor Analysis for Characterization of Atmospheric Particulate Composition in Southwest Desert Atmosphere, Environ. Sci. Technol., 11, 795 (1977). 38. Briggs P. L., Press F., Pattern Recognition Applied to Uranium Prospecting, Nature, 268, 125 (1977). 39. Mattson J. S., Mattson C. S., Spencer M. J., Spencer F. W., Classification of Petroleum Pollutants by Linear Discriminant Function Analysis of Infrared Spectral Patterns, Anal. Chem., 49, 500 (1977). 40. Massart D. L., DeClerq H., Application of Numerical Taxonomy Techniques to the Choice of Optimal Sets of Solvents in Thin Layer Chromatography, Anal. Chem,, 46, 1988 (1974). 41. Eskes A., Dupuis F., Dijkstra A., DeClercq H., Massart D. L., Application of Information Theory and Numerical Taxonomy to the Selection of Gas-Liquid Chromatography Stationary Phases, Anal. Chem., 47, 2168 (1975). 42. Haken J. K., Wainwright M. S., Phuong N, D., The Nearest Neighbour Technique as a Means of Indicating Stationary Phase Selectivity, J. Chromatogr., 117, 23 (1976). 43. Lowry S. R., Ritter G. L., Woodruff H. В., Isenhour T. L„ Selected Liquid Phases for Multiple Column Gas Chromatography from Their Eigenvector Projections, J. Chromatogr. Sci., 14, 126 (1976). 44. Vandeginste B. G. M., Pattern Recognition as a Procedure for Selecting Analytical Methods for Solving Analytical Problems, A Preliminary Investigation, Anal. Lett., 10(9). 661 (1977). 45. Shriner R. L., Fuson R. C, Curtin D. Y., The Systematic Identification of Organic Compounds, Wiley, New York, 1967. 46. Ho Y.-C, Kashyap R. L., An Algorithm for Linear Inequalities and Its Application, IEEE Trans. Elect. Сотр., ЕС-14, 683 (1965). 47. Той J. T„ Computer and Information Sciences III. Proceedings of the Second Symposium on Computer and Information Science, Battelle Memorial Institute, August 22-24, 1966, Academic, New York, 1967. 48. Second International Joint Conference on Pattern Recognition, August 13-15, 1974, Copenhagen, Denmark, IEEE Cat. No. 74CH0885-4C. 49. Third International Joint Conference on Pattern Recognition, November 8-11, 1976, Coronado, California, IEEE Cat. No. 76CH1140-3C. 50. Von Emden M. H., An Analysis of Complexity, Mathematical Centre Tracts, Mathematisch Centrum, Amsterdam, 1971. 51. Mucciardy A. N., Gose E. £., A Comparison of Seventh Techniques for Choosing Subsets of Pattern Recognition Properties, IEEE Trans. Сотр., С-20 1023 (1971). 52. Andrews H. C. Multidimensional Rotations in Feature Selection, IEEE Trans. Сотр., С-20, 1045 (1971). 53. Той J. T, Heydorn R. P., Some Approaches to Optimum Feature Extraction, Computer and Information Science 11. Academic, New York, 1967, p. 57. распознавания образов 73 54 McCabe G. P., Computations for Variable Selection in Discriminant Analysis, ' Technometrics, 17, 103 (1975). 55 Bevington P. R., Data Reduction and Error Analysis for the Physical Sciences, ' McGraw-Hill, New York, 1969. 56 Fisher R. A., The Use of Multiple Measurements in Taxonomic Problems, Ann. ' Eugen,, 7, 178 (1936). 57. Kruskal J. В., Multidimensional Scaling by Optimizing Goodness of Fit to a Numeric Hypothesis, Psychometrika, 29, 1 (1964), 58. Kruskal J. В., Nonmetric Multidimensional Scaling: A Numerical Method, ' Psychometrika, 29, 115 (1964). 59. Sheppard R. N., The Analysis of Proximities: Multidimensional Scaling with an Unknown Distance Function, Psychometrika, 27, 125 (1962). 60 Sammon J. W., Jr., A Nonlinear Mapping for Data Structure Analysis, IEEE ' Trans. Сотр., С-18, 401 (1969). 61. Green P. £., Carmone E. J., Multidimensional Scaling and Related Techniques in Market Analysis, Allyn and Bacon, Boston, Massachusetts, 1970. 62. Green P. £., Rao V. R., Applied Multidimensional Scaling - A Comparison of Approaches and Algorithms, Holt Rinehaft and Wilson, New York, 1972. 63. Torgenson W. S., Theory and Methods of Scaling, Wiley, New York, 1958. 64. Coombs С. Н., A Theory of Data, Wiley, New York, 1964. 65. Young G., Householder A. S., Discussion of a Set of Points in Terms of Their Mutual Distances, Psychometrika, 3, 19 (1938). 66. Hartigan G. H., Clustering Algorithms, Wiley, New York, 1975. 67. Ball G. H., Hall J. P., ISODATA: A Novel Method of Data Analysis and Pattern Classification, NTIS Report AD699616, 1965. 68. Ball G. H., Hall J. P., ISODATA, An Iterative Method of Multivariate Analysis and Pattern Classification,'Proceedings of the IFIPS Congress, 1965.
Глава 3 ОБРАБОТКА ХИМИЧЕСКОЙ СТРУКТУРНОЙ ИНФОРМАЦИИ: РАСЧЕТ МОЛЕКУЛЯРНЫХ ДЕСКРИПТОРОВ Прежде чем приступить к исследованию связи между структурой и активностью, необходимо выбрать метод представления исходных данных. В методе Ханша для описания каждой молекулы используются параметры, характеризующие гидрофобные, электронные и сте- рические свойства этой молекулы. Однако такого рода характеристики известны только для ограниченного круга молекул. Поэтому значительные усилия были затрачены на поиски параметров, которые, с одной стороны, достаточно полно характеризуют исследуемые свойства, а с другой стороны, легко могут быть получены для любой химической структуры. В настоящей главе описаны различные способы извлечения молекулярных дескрипторов из химических структур, а также рассмотрены некоторые методы обработки химической структурной информации на ЭВМ. ПРИНЦИПЫ КОДИРОВАНИЯ МОЛЕКУЛЯРНЫХ СТРУКТУР Усилия, направленные на преодоление последствий информационного взрыва, происшедшего в химической литературе в течение последнего десятилетия, были сосредоточены на развитии вычислительных методов манипулирования химической структурной информацией. Естественно, что автоматизированные системы были ориентированы на работу со структурной информацией, заданной в традиционном для химии представлении в виде двумерных графических диаграмм. Поскольку такого рода представление плохо совместимо с языком цифровых ЭВМ. пришлось прибегнуть к другим способам кодирования молекулярных структур. Иерархия методов представления молекулярных структур приведена на рис. 3.1. В отдельных случаях оказываются полезными неполные методы представления. Однако с их помощью невозможно провести однозначное восстановление исходной молекулярной структуры. Наиболее известный способ такого представления - брутто-формула, в которой сохранена информация об атомном составе молекулы и утрачена расчет молекулярных дескрипторов 75 Двумерные структурные диаграммы Неоднозначные Однозначные представления представления Матрицы Линейные связей номенклатуры Рис. 3.1. Иерархия представлений молекулярной структуры. информация о ее структуре. Так, например, С4Н8 может обозначать циклобутан, 1-бутен или даже изобутен. Другой пример неполного представления молекулярной структуры - фрагментарный метод кодирования. При таком способе кодирования детально изображаются только части структуры, представляющие особый интерес, например функциональные группы или кольца. Методы подробного изображения химических структур дают полное представление о топологии молекулы и позволяют однозначно восстановить ее пространственную структуру. Важнейшие методы представления молекулярной топологии — линейная номенклатура и матрица связей. К сожалению, ни один из них не является универсальным, и в зависимости от ситуации используют тот или другой метод. В линейной номенклатуре химическая структура кодируется строкой символов. Например, циклогексанол в одной из линейных номенклатур кодируется как L6TJV, а в другой - как A6EQ. Осмысленная кодировка (или расшифровка) линейных обозначений должна опираться на строгую систему правил, которые, обычно, меняются от одной системы обозначений к другой. Важным свойством линейной номенклатуры является ее однозначность, поскольку правила кодирования могут быть выбраны таким образом, чтобы между структурой и ее кодом существовало взаимнооднозначное соответствие. При разработке конкретной системы обозначений приходится идти на некоторый разумный компромисс, позволяющий одновременно удовлетворить требованиям однозначности и лаконизма, а также простоты правил кодировки. Наиболее известными из линейных номенклатур являются системы Висвессера, Хейворда, Сколника, а также системы IUPAC и GREMAS. Ниже на примере системы Висвессера разбираются характерные особенности линейных номенклатур.
76 Глава 3 ЛИНЕЙНАЯ НОМЕНКЛАТУРА ВИСВЕССЕРА Самый распространенный из линейных методов кодировки предложен в 1953 г. Висвессером [1]. Наиболее полное описание линейной номенклатуры Висвессера (ЛНВ) содержится в монографии Смита [2]. Согласно правилам системы Висвессера, химическое соединение изображается строкой символов, каждый из которых кодирует определенный фрагмент структуры молекулы. Порядок следования символов также регламентирован правилами. Система отличается лаконизмом, так как большинство химических связей задается неявным образом, а крупные структурные фрагменты, например кольца, обычно кодируются с помощью небольшого числа символов. Алфавит ЛНВ включает 40 стандартных символов, которые имеются в большинстве печатающих устройств: b&- /0\23>...9ABC...XYZ, где 0 обозначает пробел. При выборе символа упор делается на функциональные группы. Так, например, кислород может быть закодирован одним из 4 способов: О кислород, не связанный с атомами Н, например кислород в эфирной группе; Q гидроксильная группа —ОН; V карбонильная группа С=0; W диоксо-группа, например —N02 или —S02— Азот также можно закодировать одним из 4 способов: Z -NH2 М -NH- N -N< I К -N-+ Углерод кодируют следующим образом: С углерод, не находящийся в точке разветвления цепи, соединенный двойной или тройной связью по меньшей мере с одним другим элементом, например углерод в нитрильной группе; Число неразветвленная цепь алкильных групп указанной длины; Y углерод в точке двойного разветвления; X углерод в точке тройного разветвления. Любой галоген кодируется буквой J, тогда как атомы брома, фтора, хлора и иода — символами Е, F, G и / соответственно. Символ U обозначает двойную связь, a UU — тройную. Атом водорода обозначается буквой Н, если он не входит в функциональную группу, для кодирования которой предусмотрен специальный символ. Процедура кодирования ациклических структур в ЛНВ сводится к применению следующих правил: 1. Отыскивается цепь атомов, содержащая максимальное число точек разветвления или максимальное число звеньев. расчет молекулярных дескрипторов 77 Таблица i.l Примеры кодирования структур в линейной номенклатуре Висвессера A. СН3—СН2—О—CH,—СН2-СН3 302 О II B. H2N—CH2—CH,—С—ОН Z2VQ О C. CH,--CH=N—NH—С—NH, ZVMNU2 NH2 CH,—NH, I / ' ' D. НО—CH,—CH-CH2—CH2—CH Z1Y1Q2YZ1Q \ сн2—он сн2—сн3 / Е. СН3—CH,—CH,—CH,—N 4N3 2 \ сн2—сн2—сн3 Примечания. А: символ 3 старше символа 2. В: символ Z старше символа Q. D: находят самую длинную цепь, содержащую две точки разветвления Y. Линейная запись начинается с символа концевой группы Z. После первой точки разветвления сначала указана ветвь 1Q, так как она не содержит разветвлений. Символ амперсенд можно опустить, так как Q является символом концевой группы. 2. Код найденной последовательности заносится в строку слева направо, начиная с последнего символа кода предыдущей части структуры. 3. Точка разветвления обозначается одним из вышеприведенных символов в зависимости от типа функциональной группы и характера разветвления. Символ амперсенд & применяется в качестве разделителя последовательностей кодов цепей, непосредственно примыкающих к точке разветвления, и указывает на завершение первой цепи начало второй. Если первая цепь завершается концевой группой, символ амперсенд может быть опущен. В табл. 3.1 приведены примеры кодирования пяти ациклических структур по системе Висвессера. Для циклических структур применяются свои специальные правила кодирования. Бензольное кольцо обозначается буквой R и как фрагмент структуры подчиняется всем остальным правилам кодирования. Обозначения карбоциклов начинаются с буквы L, гетероциклов — с буквы Т. Число, следующее за этими символами, указывает количество атомов в кольце. При переходе от простых колец к конденсированным,
78 Глава 3 к би- и трициклическим структурам правила кодирования усложняются и требуют специального рассмотрения. Более подробное обсуждение ПевиЛПРиИМрРаМИ А?ДИРТНИЯ СЛ°ЖНЫХ СТРУКТУР "Р^оДится в обзорах Девиса и Раша 3] и Линча с сотр. [4]. Полное описание этого метода можно найти в книге Смита [2]. Прочие линейные номенклатуры подобны системе Висвессера и отличаются от нее только алфавитом и правилами комбинирования символов Уже из данного нами краткого описания становится ясно, что линейные номенклатуры идеально приспособлены для ввода в ЭВМ Однако сам процесс кодирования структуры или расшифровки линейного такие 7Г,ЧаеТСЯ ТрУДОемкостью- Х°™ программы, обрабатывающие такие коды, уже имеются, но алгоритмы, на которых они построены vMerTL" ГР°М03ДКИ' что связано глав«ь.м образом с необходимостью hom^hkStT"0 К°ЛИЧеСТВа ПРаВИЛ' ЛеЖЗЩИХ В °СН0Ве ЛИН6ЙНЬ1Х МАТРИЦЫ СВЯЗЕЙ Матрица связей дает такое представление молекулярной структуры в котором каждый атом, каждая связь и тип связи кодируются по отдельности и всегда обозначаются явным образом. В отличие от линейных номенклатур правила составления матриц связей просты и легко применимы для кодирования структур любой сложности 1 лавная диагональ матрицы связей включает коды атомов структуры' элемент'мП атомов„ сопо"авляется свой код. Недиагональный элемент матрицы связей а„ содержит информацию о связи между /-м и у-м атомами и является кодом данного типа связи. Правила кодирования структур в виде матриц связей легко усвоить с помощью нижеследующего примера. помощью В табл. 3.2 приведена структурная формула кофеина и соответствующая ей матрица связей. Также приведены числовые коды различных типов атомов и химических связей. Последовательность нумерации атомов в структуре произвольна и соответствует последовательности расположения кодов атомов на главной диагонали матрицы связей. Атомы водорода не включены в табл. 3.2, так как их пас положение легко рассчитать с помощью правил валентности Равенство недиагонального элемента аи нулю означает отсутствие связи между 1-м и у-м атомами. } Использованные в рассмотренном примере числовые коды выбраны произвольно и не являются общепринятым стандартом. Впрочем это обстоятельство не создает дополнительных трудностей так как любая матрица связей легко может быть переведена в друг'ую кодировку с помощью несложной вычислительной процедуры Кстати системы линейной кодировки таким свойством не обладают В настоящее время разработаны методы унификации матричных представлении химических структур; к ним относятся, например, методы, Расчет молекулярных дескрипторов 79 Таблица 3.2 Пример кодирования структуры в виде матрицы связей О,, С,о 8.С I с Номер атома 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Тип атома с о N S F С1 Вг 1 Р 1 1 1 2 1 1 2 1 2 1 1 1 Числовые 1 2 3 4 5 6 7 8 9 1 3 1 1 КОДЫ 1 1 1 2 1 1. 1 1 3 3 1 1 1 2 2 3 1 1 1 1 Тип связи Простая Двойная Тройная 2 2 Ароматическая Делокали зо ванна Ионная 1 1 я 1 2 ? 1 Числовые коды 1 2 3 4 5 6
80 Глава 3 предложенные Глюком [5] и Морганом [6]. Построен алгоритм, позволяющий перейти от первоначальной, зависящей от произвольным образом выбранного порядка нумерации атомов в структуре матрицы связей к единственному инвариантному представлению. Такая каноническая форма матрицы связей может быть использована в качестве имени химического соединения. Возможность присвоения каждому соединению единственного имени важна для составления, хранения и упорядочения больших библиотек химических структур. Располагая таким уникальным именем, можно легко разыскать соединение по каталогу. Несмотря на возможность получения уникального имени почти для любой химической структуры, употребление этих имен не всегда рентабельно, поскольку при поиске структур в каталоге приходится сравнивать их матрицы связей поэлементно. В то же время службы, подобные Chemical Abstracts, успешно используют подобные алгоритмы кодировки и поиска, что дает значительную экономию времени. Матричное представление химической структуры допускает самые разнообразные формы хранения информации. Как уже упоминалось, матрица связей, согласно правилу ее построения, всегда симметрична относительно главной диагонали. Это означает, что находящиеся под главной диагональю элементы матрицы связей для последующей работы не нужны. Далее, путем надлежащей перенумерации атомов структуры и затем приведения матрицы к одномерному представлению можно добиться значительного уменьшения длины информационного массива. При хранении матриц связей в памяти ЭВМ дальнейшее уплотнение может быть достигнуто с помощью стандартных методов обработки линейных последовательностей данных в двоичном коде. КОДИРОВАНИЕ МОЛЕКУЛЯРНЫХ СТРУКТУР Процедура ввода структурных формул в ЭВМ и перевода их в машинное представление является наиболее медленным этапом во всех автоматизированных системах обработки химической структурной информации независимо от метода кодирования структуры. При эпизодической обработке небольшого числа структур вполне можно обойтись ручными методами. Однако при систематической работе с большими массивами данных такие методы оказываются неприемлемыми, поскольку они трудоемки и сопряжены с ошибками. Значительно более предпочтителен автоматизированный ввод, проводимый под контролем ЭВМ в режиме реального времени. При работе с автоматизированной системой ввода химик-оператор имеет дело только с привычной ему формой представления молекулярной структуры в виде графической диаграммы. В процессе ввода он постоянно имеет перед собой двумерное изображение структуры на экране дисплея, получает сигналы о совершенных ошибках и вносит необходимые коррективы и исправления исключительно с помощью изменений в экранном образе структуры. При этом он совершенно не соприкасается с процедурой перевода графи- Расчет молекулярных дескрипторов 81 ческого образа в машинное представление, поскольку эту работу проводит за него специальный алгоритм. Было реализовано несколько процедур подобного типа. При этом для кодирования структур использовались устройства типа RAND tablets, световых карандашей, соединенных с электронно-лучевыми трубками, и телевизионных камер, работающих под контролем ЭВМ. Одна из таких программ описана ниже. Программа UDRA W предназначена для ввода молекулярных структур с графического дисплея. Подобно другим графическим методам ввода, в данном случае для ввода С1.руктуры достаточно изобразить ее на экране; дальнейший перевод структуры в машинное представление осуществляется автоматически с помощью специального алгоритма. ПРОГРАММА UDRAW Программа UDRAW [7] была реализована на базе графического дисплея Тектроникс 4010-1 и стандартного пакета программ обработки графической информации Тектроникс PLOT-10. Указанный дисплей устроен таким образом, что любая точка на его экране может быть отмечена оператором с помощью светового индикатора-курсора. С помощью этого курсора пользователь может взаимодействовать с программой и рисовать на экране химические структурные диаграммы. Дисплей работает под управлением ЭЦВМ MODCOMP II с 16- разрядным машинным словом и памятью объемом 96К. Программа UDRAW написана на языке ФОРТРАН и не зависит от длины машинного слова. Программа занимает в машине объем памяти в 8,4К, при этом подпрограммы стандартного пакета PLOT-10 занимают дополнительно 4К памяти. На рис. 3.2 показана блок-схема программы UDRAW. В первом блоке программы формируются информационные массивы и указывается список директив. После ввода структурной диаграммы первой молекулы ее изображение высвечивается на экране дисплея. После этого оператор может либо модифицировать изображение введенной структуры, либо начать формирование нового информационного массива и ввод новой молекулы. Это свойство программы позволяет производить быструю кодировку массивов данных, описывающих молекулы сходной структуры. Рассмотрим, например, процедуру кодирования структуры акриловой кислоты. После входа в блок матрицы связей программы UDRAW на экране' дисплея появляется курсор. Затем оператор передвигает курсор с помощью специальной клавиши в то место экрана, в котором будет расположено изображение первого атома. Далее с помощью символа «пробел» изображается атом углерода, после чего нажимается клавиша RETURN. Вслед за этим на экране снова появляется курсор Для указания положения второго атома. После передвижения курсора в место расположения второго атома пользователь изображает следую- 6 Э. Стьюпер
82 Глава 3 Рис. 3.2. Блок-схема программы UDRAW. 3 — начало; 4 — повторный ввод структуры?; 5 — повторный ввод структуры; 6 — распределение памяти; 7-ввод структуры; «-ввод информации о структурных циклах; 9 - расчет стереохимии; 10 — изменение структуры; // — ввод дополнительных данных; 12 - запоминаиие полученной информации; 13 ~ ввод следующей структуры?; 14 — стоп. 83 расчет молекулярных дескрипторов яй атом углерода с помощью символов «Пробел» и RETURN. Затем Сжимаются клавиши 2 - RETURN, указывающие двойную углерод-угле- олную связь. Поскольку последний из введенных атомов участвует образовании следующей связи, курсор оставляют в прежнем положении и с помощью символа «Пробел» - RETURN обозначают этот атом как первый атом, с которым будет соединена вторая связь. Палее курсор передвигают на место расположения третьего атома £глеоода рассматриваемой молекулы; с помощью последовательности Символов «Пробел» - RETURN и 1 - RETURN указывается простая связь между атомами углерода 2 и 5. Для построения изображения двойной связи атома кислорода сначала, пока курсор находится в положении атома 3, нажимаются клавиши «Пробел» - RETURN. Затем после передвижения курсора атом кислорода изображается с помощью символа «О» - RETURN, а двойная связь - с помощью 2 - RETURN. Поскольку последний атом также связан с атомом 3, курсор сначала помещают в место расположения атома 3 и вводят символы «О» - RETURN. Таким образом указывают первый атом из пары атомов, образующих последнюю химическую связь. Далее курсор передвигают в место расположения последнего атома и с помощью клавиш «О» - RETURN и 1 - RETURN изображают кислород, соединенный простои связью с углеродом. Поскольку на этом ввод структуры заканчивается, нажимают клавиши «D» - RETURN, в результате чего процедура переходит к блоку директив программы UDRAW. Вслед за этим в рассматриваемом случае исполняется директива FINISH. В конце процедуры ввода на экране дисплея появляется изображение молекулярной структуры, ввод которой производился слева направо О / с=с—с \ После ввода молекулярной структуры процедура формирует химическую матрицу связей, в которой закодированы каждый атом, его связи и тип каждой связи. Координаты двумерного изображения структуры на экране запоминаются и переводятся в ангстремы в последнем блоке программы UDRAW. Типы атомов и связей, идентифицируемых программой UDRAW, приведены в табл. 3.2. Атомы изображаются с помощью символов, указанных в графе «Тип атома», за одним исключением - углерод изображается пробелом. Типы связей обозначаются числовыми кодами. Этот список обозначений при желании может быть легко изменен. Таким образом программа может быть приспособлена для ввода самых разнообразных молекулярных структур. Кроме процедуры формирования матрицы связей в программу входят блок извлечения информации о структурных циклах и блок расчета стереохимии двойных связей. Информация, полученная в этих 6*
84 Глава 3 программных модулях, может не понадобиться в системах обработки химических данных, однако она используется при построении моделей молекул и в программах поиска субструктур. Информация о структурных циклах может быть введена путем указания кольцевых атомов оператором с помощью курсора. Номера атомов каждого кольца и размеры колец запоминаются в специальных массивах. При желании вместо ручной процедуры может быть использован алгоритм автоматизированного поиска циклов. Программа расчета стереохимии двойных связей работает совершенно независимо от оператора и выполняется автоматически после ввода структуры. Этой программой производится поиск всех двойных связей, проверяется, не являются ли эти двойные связи концевыми, и затем рассчитывается стереохимия внутренних двойных связей. Для расчета стереохимии используются координаты, задаваемые на экранном изображении структуры. Поэтому оператор должен задать правильное представление молекулярной структуры на экране. Расчет стереохимии заключается в вычислении скалярного произведения векторов простых связей, образованных каждым атомом, участвующим в двойной связи. Если, например, пентен-2 введен как CI C4 V Л С2=СЗ С5 го связь, направленная от С2 к С1, может быть представлена вектором А, а связь, идущая от СЗ к С4 — вектором В. По определению скалярное произведение двух векторов равно А-В = |А||В| cos Э, где 0 — угол между этими векторами. Поскольку cos 9 отрицателен при 0 > 90 °, знак величины А • В/|А| |В| указывает на то, в какой конформации находится соединение — цис или транс. В рассматриваемом примере cos б больше нуля: следовательно, мы имеем дело с цис-формой. После ввода молекулярной структуры можно обратиться к блоку изменения структуры. При желании оператор может изменить тип любого атома или связи, а также вовсе исключить атом из структуры. Если информация о циклической структуре введена неправильно, ошибка легко может быть устранена. Двойные связи, изображенные в одной стереохимической конфигурации, могут быть заменены другим типом; для этого достаточно простого указания на ту связь, которая подлежит замене. Для проверки правильности произведенных изменений в любой момент на экране может быть получено изображение всей структуры. После задания директивы FINISH программа прежде всего проверяет, была ли введена информация о циклической структуре и стереохимии соединения. Если эта информация не введена, то происходит переход расчет молекулярных дескрипторов 85 соответствующим блокам и проводятся необходимые расчеты. После этого на основании экранного изображения рассчитываются координаты атомов соединения. Во время работы программы проводится автоматическая проверка правильности введенной информации. При обнаружении ошибки на терминале срабатывает звуковая сигнализация и программа возвращается к тому месту, где была допущена ошибка. После ввода данных вся поступившая информация высвечивается на экране дисплея в виде символов связей или чисел, характеризующих циклическую структуру соединения. Так обеспечивается постоянная обратная связь пользователя с системой, что исключает возможность ввода неправильной информации. Программа UDRA И'используется для ввода структурной информации в автоматизированной системе исследования связи между структурой и активностью химических соединений. Эта система описывается в последующих главах книги. С помощью программы UDRA W формируются крупные массивы структурных данных, подготавливаются структурные данные, необходимые для построения молекулярных моделей, а также вводятся субструктурные элементы, которые далее используются в субструктурном анализе. Программа UDRA W существует в автономном варианте и может быть получена из обменного фонда квантовохими- ческих программ [8]. ТОПОЛОГИЧЕСКИЕ ДЕСКРИПТОРЫ МОЛЕКУЛЯРНОЙ СТРУКТУРЫ Правильный выбор дескрипторов молекулярной структуры является самым важным этапом в исследованиях связи между структурой и активностью, поскольку от информативности выбранных дескрипторов зависит успех процедуры классификации исследуемых соединений. В некоторых случаях правильному выбору дескрипторов способствует наличие априорной модели исследуемого явления. В других случаях подбор дескрипторов может быть осуществлен с учетом имеющихся экспериментальных данных. Молекулярные дескрипторы могут быть либо рассчитаны на основании структурной информации, заключенной в матрице связей, либо получены экспериментально. Первый подход более привлекателен, так как с его помощью можно описать практически любую химическую структуру, как реально существующую в природе, так и гипотетическую. Дескрипторы, рассматриваемые в этом разделе, по своей природе могут быть квалифицированы как топологические. К топологическим дескрипторам относятся: дескрипторы фрагментов, кодирующие типы атомов и химических связей; субструктурные дескрипторы, указывающие на наличие или отсутствие в соединении тех или иных структурных групп; дескрипторы окружения, описывающие характер связи атомов с ближайшими соседями; дескрипторы связности, являющиеся показателями разветвленности структуры. Геометрические дескрипторы, которые рассматриваются в следующем разделе, описывают общую форму
86 Глава 3 и размер молекулы. Они рассчитываются путем построения трехмерной модели молекулы. Большинство названных дескрипторов может быть получено как с помощью линейных систем кодирования молекулярных структур, так и с помощью матриц связей. Разница заключается только в том, что использование линейных номенклатур сопряжено со значительным усложнением алгоритмов поисковых программ. Поэтому в дальнейшем мы будем иметь дело только с матричным представлением молекулярных структур. Дескрипторы фрагментов Самую общую характеристику химического состава соединения дают полные числа атомов и связей. Уточнение структуры дает спе цификация типов атомов и связей. Таблица 3.3 Атомные дескрипторы 1. Общее число атомов 6. Число атомов фтора 2. Число атомов углерода 7. Число атомов хлора 3. Число атомов кислорода 8. Число атомов брома 4. Число атомов азота 9. Число атомов иода 5. Число атомов серы 10. Число атомов фосфора Таблица 3.4 Дескрипторы свизей 1. Общее количество связей 2. Число простых связей 3. Число двойных связей 4. Число тройных связей 5. Число ароматических связей 6. Число делокализованных связей 7. Число ионных связей Количество атомов данного типа в соединении можно рассматривать как отдельный дескриптор. В табл. 3.3 представлены типы атомных дескрипторов, которые можно использовать в исследованиях органических соединений. Значения атомных дескрипторов легко рассчитываются с помощью главной диагонали матрицы связей. Благодаря тому, что типы атомов кодируются числами, алгоритм сортировки и расчета атомных дескрипторов тривиален. Аналогичная процедура применяется для расчета количества хими- расчет молекулярных дескрипторов 87 ческих связей данного типа. Типы связей, встречающиеся в большинстве молекул, приведены в табл. 3.4. Дескрипторы делокализованной связи и ионной связи, редко встречающихся в органических соединениях, введены для полноты описания. Тип связи определяется независимо от вида атомов, соединенных этой связью. Так, простой связи соответствует только один тип дескриптора фрагментов. Дескрипторы связи легко рассчитываются с помощью недиагональных элементов матрицы связей. Способы применения дескрипторов фрагментов зависят от характера рассматриваемой задачи. В одних случаях эти дескрипторы можно использовать по отдельности, в других — в виде различных комбинаций. Так, например, иногда важнее знать общее число атомов галогенов в соединении, чем количество атомов каждого галогена. Бывает так, что более информативным дескриптором оказывается отношение числа атомов кислорода к числу атомов углерода. Эти примеры показывают два возможных способа комбинирования дескрипторов фрагментов. В зависимости от характера конкретной задачи могут оказаться полезными и другие'их комбинации. Помимо сведений о количестве атомов и связей дескрипторы фрагментов неявным образом содержат в себе некоторую дополнительную информацию. Так, размер и масса молекулы непосредственно связаны с количеством атомов и связей в ней. Если полное число связей больше полного числа атомов или равно ему, то это указывает на наличие колец в структуре. Количество атомов водорода задается числом ненасыщенных связей и валентностью атомов, имеющихся в соединении. Использование только дескрипторов фрагментов, как правило, оказывается недостаточным, так как они содержат мало информации о структуре соединения. Поэтому дескрипторы фрагментов применяются главным образом в сочетании с дескрипторами других типов. Субструктурные дескрипторы Особую ценность представляют сведения о наличии или отсутствии в молекуле структурных (функциональных) групп. Если какая-либо подобная группа имеется в соединении, то соответствующему ей субструктурному дескриптору можно присвоить числовое значение, равное количеству групп данного типа в молекуле вещества. В случае отсутствия данной структурной группы дескриптор полагается равным нулю. Субструктурный анализ некоторой выборки химических соединений требует, во-первых, применения быстрого алгоритма поиска, а во- вторых, наличия подходящей библиотеки структурных групп. Вообще говоря, известны два типа алгоритмов поиска структурных групп в молекулярной структуре. Алгоритм прямого поиска, наиболее простой из них, осуществляет поэлементное сравнение матриц связей
88 Глава 3 структурной группы и химического соединения, проверяя все возможные комбинации и фиксируя совпадения [9]. Для структурных групп, состоящих из одного-двух атомов, прямой поиск достаточно эффективен. Однако при увеличении количества атомов в структурной группе число сочетаний и перестановок, проверяемых на совпадение, растет как факториал; соответственно возрастает и время ЭВМ, затрачиваемое на поиск. Повышение быстродействия может быть достигнуто путем предварительного разбиения атомов структуры на подгруппы в соответствии с какими-либо структурными признаками. Подобный способ резко уменьшает число возможных комбинаций, которые необходимо проверить. Основанный на этом приеме редукционный алгоритм сложнее алгоритма прямого поиска, но увеличение сложности полностью окупается уменьшением времени поиска. Ниже на простом примере разобран принцип работы редукционного алгоритма. Табл. 3.5 иллюстрирует поиск трех структурных фрагментов в одной структуре. Прежде всего все атомы разбиваются на подгруппы в соответствии с их типом и характером связи с ближайшими соседями. Затем проверяется соответствие типов атомов в структуре и структурном фрагменте. Если в структуре отсутствует тип атомов, имеющийся в структурном фрагменте, т. е. соответствующая подгруппа атомов структуры пуста, то поиск прекращается. В нашем примере такому предварительному отбору подлежит структурный фрагмент I, который содержит атом азота, отсутствующий в структуре. Для оставшихся двух структурных фрагментов поиск должен быть продолжен, после чего можно сделать окончательные выводы. На следующем этапе, который называется разбиением, осуществляется поиск общих элементов подгрупп атомов структуры и фрагмента путем определения их пересечения (логическое «И»). Для фрагмента III (табл. 3.5) эта операция выполняется путем поиска пересечения подгрупп, соответствующих строкам 2, 4 и 8. Получение отрицательного результата (пересечение — пустое множество) означает отсутствие фрагмента III в структуре. В случае фрагмента II процедура разбиения на подгруппы, соответствующие строкам 1, 4, 5 и 9 для атома а и строкам 2, 5 и 7 для атома Ъ, приводит к выделению двух новых подгрупп, которые приведены в нижней части табл. 3.5. Далее, после того как обнаружено взаимно-однозначное соответствие атома Ъ фрагмента и атома 3 структуры, остается выполнить соответствующее отнесение атома а. Окончательный результат достигается путем нахождения атома структуры, связанного с атомом 3, т. е. выяснения вопроса, какой из атомов структуры (2 или 6) соответствует атому а фрагмента. Редукционный алгоритм работает тем быстрее, чем представительнее выборка структурных свойств, положенных в основу разбиения атомов на подгруппы. Если требуется только узнать, присутствует ли данный фрагмент в структуре, то алгоритм срабатывает особенно быстро. Расчет молекулярных дескрипторов 89 I и \ 5- « In -?-0 в !pJ 5- ч1 о=о~ •1" ■х о- d а. Г 2 5» г CJ d 1 и а» а X X со а ZZ Ё •о to 5 "& ^ 1 ' •*■ ^Sk II is. Гч"! -a. JL та. is. т& та. 5» E 1 I u 2 1 •& S X A 4*4 ё ■s- -o- '~в- ~&. "&. та *а LO 3 d X E < 1 I 3 «r 6
90 Глава 3 Если же требуется узнать, какое количество фрагментов данного типа имеется в структуре, то поиск занимает больше времени. Разработано несколько алгоритмов субструктурного анализа, использующих редукционные методы поиска [10—12]. Для исследований связи между структурой и активностью мы воспользовались алгоритмом Суссенгута [10], модифицировав его с учетом большей специфичности, более широкого набора субструктурных типов и числового выражения результатов поиска. Изменения, внесенные нами в алгоритм Суссенгута, подробно рассмотрены в работе [13] и больше обсуждаться не будут. Задача создания библиотеки субструктур, пожалуй, является более сложной задачей, чем субструктурный поиск. Один из способов решения этой задачи заключается в систематическом переборе всевозможных сочетаний атомов и связей. Однако общее число комбинаций, получаемых в результате такого перебора, практически не поддается учету. Отбор же имеющих смысл комбинаций представляет собой чрезвычайно трудоемкий процесс. Таким образом метод систематического перебора оказывается неприемлемым. Более реалистичный подход — создание библиотеки субструктур, включающей функциональные группы и структурные фрагменты, наиболее распространенные в исследуемой выборке структур и по тем или иным причинам представляющиеся важными для анализа изучаемого свойства. Истинная информационная ценность любого субструктурного дескриптора в значительной степени определяется самим исследователем, составляющим библиотеку. В отдельных случаях наличие некоторых априорных сведений о природе исследуемого процесса помогает правильно выбрать субструктурные дескрипторы. Иногда число возможных субструктур оказывается слишком большим. В этом случае для исключения неинформативных дескрипторов лучше всего воспользоваться методом проб и ошибок. Вообще говоря, применение в анализе субструктурных дескрипторов представляется чрезвычайно важным, поскольку в них содержится такая структурная информация, которая отсутствует в дескрипторах фрагментов. Тем не менее эти два вида дескрипторов все еще не могут учесть значительную часть структурной информации. Дескрипторы окружения Фрагментные и субструктурные дескрипторы описывают составные части молекулы, но характер связи между этими частями они не отражают. Именно такую информацию несут дескрипторы окружения, описывающие окружение, в котором находится отдельный атомный фрагмент. Это описание проводится с помощью одного параметра, кодирующего типы атомов первых и вторых ближайших соседей и типы их связей с центральным фрагментом. В молекуле могут встречаться одинаковые фрагменты, но они необязательно входят в состав одинаковых функ- расчет молекулярных дескрипторов 91 ииональных групп. Например, в приведенных ниже структурах А и В фрагмент ^С= содержится один раз, а в структуре С-дважды. Очевидно, что этот фрагмент в каждом из трех указанных случаев имеет разное окружение. Будет ли эта разница отражена в дескрипторе, зависит от того, какой тип дескриптора окружения будет использован. О СНз СНз-С-О-СНз С=СН-СН СНз (А) (В) О СНз II / сн,—с-сн2—сн=с \ СНз (С) Существуют три вида дескрипторов окружения: простой, взвешенный и присоединенный. Простой дескриптор окружения рассчитывается суммированием числа связей с первыми и вторыми ближайшими соседями, исключая связи с атомами водорода. Например, первое ближайшее окружение фрагмента ^С— в структуре А состоит из атома углерода с одной простой связью, атома кислорода с одной двойной связью и атома кислорода с двумя простыми связями. Второе ближайшее окружение состоит из атома углерода с одной простой связью. Таким образом в разобранном примере простой дескриптор окружения принимает значение 5 (1 + 1+2+1 = 5). Взвешенный дескриптор рассчитывается с учетом типов связей ближайших соседей. Простой связи присваивается значение 1, двойной — 2, тройной — 3, ароматической — 4. Поэтому в рассматриваемом примере взвешенный дескриптор будет иметь значение 6 (двойная связь атома кислорода дает вклад, равный 2). В случае структуры В рассматриваемые дескрипторы равны 5 и 6, для структуры С— 12 и 15. При расчете присоединенного дескриптора окружения учитываются не только типы связей, но и типы атомов ближайшего окружения. Прежде всего каждому сорту атомов и типу связей присваивается числовое значение (см. табл. 3.2). Величина дескриптора рассчитывается путем суммирования произведений числового значения связи на числовые значения типов атомов, образующих связь. Поэтому простая связь углерод — углерод будет иметь значение 1, двойная связь углерода с кислородом — значение 4, простая связь углерода с кислородом —
92 Глава 3 значение 2. Путем суммирования величин, рассчитанных подобным образом для связей первого и второго ближайшего окружения, для структуры А получим значение присоединенного дескриптора 11 (/ — от простой связи углерод — углерод, 4 — от двойной связи углерода с кислородом, 4 - от двух простых связей углерода с кислородом и 1 — от простой связи углерод — углерод второго окружения); для структур В и С эти значения равны 6 и 17 соответственно. Поскольку обычно в структуре имеется несколько фрагментов, дескрипторы окружения описывают совокупный вклад всего окружения данного фрагмента. Это свойство делает их важным дополнением субструктурных дескрипторов: субструктурные дескрипторы указывают, сколько раз данный фрагмент встречается в структуре, а дескрипторы окружения характеризуют соседние с ним фрагменты. Анализ окружения фрагментов молекулы не требует создания специальной библиотеки дескрипторов окружения, так как опирается на библиотеки фрагментных и субструктурных дескрипторов. После того как искомый структурный фрагмент найден, дескрипторы окружения рассчитываются путем несложных вычислений с помощью матрицы связей исследуемой структуры. Характеристика окружения не ограничивается указанием типов атомов и связей, но также может включать электронные плотности, длины связей, электроотрицательности и другие физические характеристики. Эти факторы могут быть учтены путем приписывания типам связей и атомов соответствующих параметров. Таким образом может быть повышена информативность дескрипторов. Использование дескрипторов окружения может помочь обнаружить зависимости, не всегда различимые с первого взгляда. Так, в приведенном примере совершенно различные структуры А и В имеют одинаковые значения простого и взвешенного дескрипторов. Только при учете типов атомов ближайшего окружения вскрывается различие между рассматриваемыми фрагментами этих структур. Молекулярная связность Представление молекулы в виде матрицы связей — нечто большее, чем просто удобный способ кодирования ее структуры. Матрица связей непосредственно отображает топологию молекулы. С помощью матричного представления можно получать дескрипторы, относящиеся к некоторым фундаментальным физическим явлениям. Еще одним ценным топологическим дескриптором является показатель разветвленности, который впервые был предложен Рандичем [14] в качестве параметра, характеризующего разветвленность молекул углеводородов. Рандич обнаружил несколько интересных корреляций между показателем разветвленности и температурой кипения изомерных алканов, поверхностным натяжением некоторых насыщенных ациклических углеводородов, энтальпиями образования изомерных алканов, Расчет молекулярных дескрипторов 93 а также корреляции между параметрами уравнения Антуана, связывающего давление пара углеводородов с температурой. С помощью показателя разветвленности можно также получить параметр, аналогичный индексу разветвленности Ковача. Индекс Ковача выводят из набора экспериментальных времен удерживания нормальных алканов, используя их в качестве стандартов. Индекс исследуемого соединения определяют путем соотнесения его времени удерживания с временем удерживания ближайшего стандарта (в логарифмической шкале). Поэтому индекс Ковача является эмпирической величиной. Показатель разветвленности и индекс Ковача дают аналогичные корреляции, отличаясь только масштабным коэффициентом, равным 200 [13]. Показатель разветвленности был применен при исследовании связи между структурой и активностью Киром и сотр. Ими установлены важные корреляции между показателем разветвленности и поверхностным натяжением растворителя, поляризуемостью молекул, силой местного анестезирующего действия, растворимостью в воде, температурой кипения и коэффициентом распределения молекул. Кир и сотр. также отметили корреляции между показателем разветвленности и биологической активностью целого ряда молекул. Они предприняли попытку установить параболическую зависимость между показателем связности и биологической активностью. Совсем недавно Кир и Холл провели обобщение правил построения индексов связности [15]. Согласно этой работе, показатель разветвленности характеризует некоторые фундаментальные свойства молекулярной структуры. В этом нет ничего удивительного, поскольку такие молекулярные свойства, как температура кипения, зависимость давления пара от температуры, свободная энергия, теплота растворения, плотность, молекулярный объем и показатель преломления, зависят от молекулярной структуры. Показатель разветвленности, по-видимому, является некоторой интегральной характеристикой строения молекулы. Дескриптор связности рассчитывается непосредственно из матрицы связей [15]. Сначала каждому неводородному атому i сопоставляется величина Ц, соответствующая числу связанных с ним атомов за исключением атомов водорода. Тип связи учитывается путем прибавления единицы к величине L, на каждую л-связь, образованную атомом /. Следовательно, L= 2 для группы СН2=, L= 3 для группы СН= и L = 4 для группы R2C=. Эту поправку, как было установлено, необходимо вводить при исследовании связи между показателем разветвленности и коэффициентом распределения [15]. После приписывания каждому атому соответствующей величины для каждой связи структуры рассчитывается число, равное произведению значений L(, которые характеризуют атомы, соединенные этой связью. Далее каждой связи сопоставляется величина Ск, обратная корню квадратному из этого числа. Дескриптор связности рассчитывается как сумма величин Ск по всем связям молекулы. Поскольку число связей в циклическом соединении на единицу
94 Глава 3 больше, чем в соответствующем ациклическом изомере, то при наличии в молекуле колец необходимо вводить поправку. Эта поправка вводится путем вычитания из показателя разветвленности величины, равной среднему вкладу всех кольцевых связей. Исправленный таким образом показатель связности далее используется как самостоятельный дескриптор связности. Еще один показатель можно рассчитать, если учесть информацию о типе атомов, образующих каждую связь (аналогично расчету присоединенных дескрипторов окружения). Таким образом в дескрипторы связности помимо информации о разветвленности включается также информация об общей химической природе молекулы. Другие варианты показателя связности описаны Киром и Холлом [15]. Программы расчета дескрипторов связности просты, поскольку необходимая информация непосредственно извлекается из матрицы связей. Машинное время, затрачиваемое на расчет дескрипторов связности, незначительно. Хотя показатель разветвленности связан с целым рядом различных свойств, его ценность в исследовании связи между структурой и активностью несомненно зависит от характера конкретной задачи и от способа его применения. МОЛЕКУЛЯРНЫЕ МОДЕЛИ И ГЕОМЕТРИЧЕСКИЕ ДЕСКРИПТОРЫ Все рассмотренные до сих пор дескрипторы строились на основе матриц связей, отображающих двумерные структурные диаграммы молекул. Ввиду того что молекулы на самом деле обладают трехмерной структурой, представляется необходимым включить в описание дескрипторы, отражающие наличие у них трех измерений. К сожалению, установление пространственной конфигурации любой конкретной молекулы — задача непростая. Использование для этой цели рентгенографических данных неприемлемо, так как маловероятно, что такие данные имеются для всех молекул исследуемой выборки. Как правило, использование экспериментальных данных для получения интересующей нас структурной информации требует больших затрат труда и времени. Можно построить физическую модель пространственной структуры, однако наряду с чрезвычайной трудоемкостью такой процедуры получить геометрические параметры из этой модели было бы очень сложно. Таким образом, остается единственный подходящий способ — построение пространственной модели структуры на ЭВМ методами молекулярной механики. При расчете геометрии молекулы молекулярная механика пользуется исключительно законами классической механики. Строго говоря, подобные расчеты следует проводить на основании уравнения Шредингера. На практике этого не делают, так как такой расчет связан с непреодолимыми вычислительными трудностями. Упрощенные же квантово- механические методы в случае больших органических молекул не дают расчет молекулярных дескрипторов Функция энергии растяжения связи -Есвязи = Kcj2{L — L0)2 L,,(A) Тип связи ^-о(^) с—с с=с с=с с^с с-о с=о C-N C=N C=N C=-N С—S C=S С—F С—CI С—Br С—I С—P o-o N—О N=0 N-N 1,54 1,34 1,20 1,39 1,43 1,22 1,47 1,29 1,16 1,34 1,82 1,71 1,34 1,74 i;94 2,12 1,84 1,48 1,36 1,22 1,45 N=N N=N N—S N=S N—F N—CI N—Br N—1 S—О s=o s—s P—О p=o P—S P=S P—F P—CI P—Br P—N p-^N 1,25 1,10 1,78 1,66 1,36 1,79 1,88 2,07 1,43 1,66 2,05 1,61 1,72 1,86 2,14 1,54 2,04 2,18 1,84 1,56 /f(. = 311,9 для простых и ароматических связей и 500,0 для двойных и тройных связей; /.„ —средняя длина связи, L — наблюдаемая длина связи. требуемой точности. Возможно, что в будущем с их помощью будет достигнута необходимая точность. А пока для расчета геометрии молекул используются классические методы. Молекулы можно представлять как совокупность атомов, удерживаемых вместе упругими силами. Эти силы могут быть определены с помощью функции потенциальной энергии, аргументами которой являются координаты атомов. Минимизируя эту функцию, можно получить ненапряженную трехмерную модель молекулы, а затем рассчитать ее геометрические параметры. Было предложено много алгоритмов построения моделей молекул с помощью молекулярной механики [16 — 20]. Мы использовали программу MOLMEC, являющуюся модифицированной версией программы Випке и сотр. [21]. Эта программа, в частности, применялась нами для расчета геометрических дескрипторов при исследовании обонятельных стимуляторов.
96 Глава 3 Программа MOLMEC включает три части: ввод структуры, минимизацию напряжений и взаимодействие с исследователем. Раздел ввода устроен таким образом, что матрицу связей соединения можно либо считывать с дискового накопителя, либо получать в результате работы программы UDRAW. Поэтому программу MOLMEC можно использовать как для расчета модели отдельной молекулы, так и для обработки объемистых банков данных. Непосредственно после ввода структуры подключается раздел программы, обеспечивающий взаимодействие с пользователем, который таким образом получает возможность управлять процессом минимизации и контролировать результаты. Минимизация энергии осуществляется путем систематического изменения атомных координат до тех пор, пока не будет достигнут минимум. В программе MOLMEC минимизируется следующая функция: ■^напряж А;вязи т ^углов "•" Афучеиия т -С-несвяз т А-ибрид т Атереохим' Перед обсуждением каждого из членов суммы заметим, что в целях общности анализа Випке и сотр. выбрали некоторый минимальный набор параметров. Разумеется, что при этом частично пришлось пожертвовать точностью. Тем не менее в результате работы этой программы получаются достаточно хорошие модели для широкого круга химических соединений. Они вполне пригодны и для наших целей, так как используются в основном для расчета самых общих параметров, характеризующих форму молекул. Поэтому более точная -функция энергии не нужна. Первые два члена функции энергии отвечают растяжению и изгибу связей. Точная математическая форма этих членов приведена в табл. 3.6 и 3.7 соответственно. Как видно из таблиц, связи данного типа, соединяющие атомы данного сорта, описываются одним и тем же Таблица 3.7 Зависимость энергии от угла между связями: -Еуглов = -Ку/2(8 - 8„)2 Тип гибридизации 8() К. Sp* 109,5 80,1 Spi 120,0 100,0 Sp 180,0 150,0 Spi* 109,5 20,0 Ky — константа углового напряжения, 80 - средний угол связи, 6 — наблюдаемый угол связи. * Неуглеродные атомы с орбиталями, направленными по углам тетраэдра. расчет молекулярных дескрипторов 97 Таблица 3.8 ФуНКЦИЯ ЭНерГИИ кручеНИЯ. ^кручения Тип связи, относительно которой происходит кручение _А^В- 1,0 __А=В- 15,0 =А—В= 0,003 ^А=-В-= 15,0 A_B=C=D — E 15,0 ф — измеренный двугранный угол в градусах. 1,0 1,628 1,628 1,628 1,6 60 - Ф, Ф < 60 Ф (цис) 180 - Ф (транс) Ф (цис) 180 - Ф (транс) Ф 90 - Ф (угол ABDE) Таблица 3.9 ФуНКЦИЯ ЭНерГИИ НбСВЯЗаННЫХ aTOMOBI -^несвяз = KJ2(D - D0r Тип взаимодействия D0(k) С—С—С (1,3 не связаны) 2,52 С—С—гетероатом (1,3 не связаны) 2,25 Все остальные взаимодействия несвязан- 3,5 (плохие модели) ных атомов 3,0 (хорошие модели) ЕСЛИ D0 > D, ТО £Несвяз = 0 А"н= 28,76, Do-среднее межатомное расстояние, D - наблюдаемое межатомное расстояние, М = 2 для плохих моделей и М = 6 для хороших моделей. набором параметров независимо от того, в каком контексте они встречаются в структуре — будь это ациклическое соединение, кольцо или связь, находящаяся по соседству с ароматической системой. Аналогичным образом параметры функции изгиба связей носят обобщенный характер. Третий член функции энергии относится к кручению связей. Его форма представлена в табл. 3.8. Параметры функции кручения подобраны таким образом, чтобы обеспечить эффективный переход от заслоненной конформации к заторможенной. Член, соответствующий взаимодействию несвязанных атомов, носит самый общий характер и учитывает только отталкивание (табл. 3.9). Степень одночлена меняется в процессе минимизации от 2 до 6. Она принимается равной 2 на начальной стадии процесса минимизации, когда требуется обеспечить быстрый переход к более выгодной конфигурации. 7 Э. Стьюпер
98 Глава 3 На поздних стадиях минимизации используется одночлен 6-й степени, соответствующий модели твердых сфер. Гибридизационный член, показанный в табл. 3.10, обеспечивает правильную конфигурацию ближайшего окружения каждого атома. Последний член функции энергии дает возможность создать требуемую пространственную конфигурацию вокруг асимметрического атома. Форма этого члена приведена в табл. 3.11, где А, X, Y и Z - четыре атома, соединенные с асимметрическим центром С. Стереохи- мический член обеспечивает такое взаимное расположение атомов, которое задается пользователем при вводе структуры в ЭВМ. Вклад этого члена обычно невелик, но в отдельных случаях он может играть важную роль. Таблица 3.10 Функция энергии гибридизации: £™6рид = \0,0[(ASUM - ASUM0)/57,3]2 Если атом углерода имеет .^-гибридизацию, то: для четырехзамещенного углерода ASUM0 = 380°, a ASUM - сумма четырех наименьших углов вокруг атома углерода, причем ЕткЪтл = 0, если ASUM> > 380°; для трехзамещенного углерода ASUM0 = 330°, a ASUM - сумма трех углов, причем £^ибрид = 0, если ASUM < 330°. Если атом углерода имеет .$р2-гибридизацию, то ASUM0 = 330°, a ASUM - сумма трех наименьших углов вокруг атома углерода, причем Гибрид = 0. когда ASUM > ASUM0. Таблица 3.11 Стереохимический член: ^тереохим = 0,5 + 100 (А - 0,2)2 А I .А Минимизация функции энергии проводится с помощью какого- либо метода нелинейного программирования, например метода наискорейшего спуска. В программе MOLMEC используется адаптивный метод прямого поиска [22], так как он достаточно прост и не требует вычисления производных минимизируемой функции. В методе прямого поиска координаты каждого атома варьируются независимо до достижения положения минимального локального напряжения. После нескольких последовательных итераций достигается минимум функции энергии, соответствующий ненапряженной модели молекулы. расчет молекулярных дескрипторов 99 Количество машинного времени, необходимое для получения хорошей молекулярной модели, зависит от числа атомов в молекуле, начального напряжения и числа степеней свободы структуры, При моделировании малых молекул часто бывает достаточно одной итерации. Однако такой случай встречается редко. Обычно интересуются построением моделей больших молекул, когда требуется несколько итераций. Фактическое количество машинного времени, расходуемого на одну итерацию, ограничивается некоторым параметром, с помощью которого исследователь может следить за ходом процесса моделирования. Для ускорения процесса минимизации используется специальный прием, заключающийся в приписывании членам функции энергии различных весов и изменении этих весов по мере уменьшения Таблица 3.12 Веса, приписываемые компонентам функции энергии напряжения в последовательных стадиях работы программы построения модели молекулы Стадия Энергия/атом W (угол) W (связь) W (гибрид) W (крутильный) W (несвязанный) W (стерео) а Веса W используются = ЩГ) ■ -Енапряж (истинная I > 100 1,0 0,1 1,0 0,0 10,0 1,0 следующим о. II 50-100 1,0 0,2 1,0 2,0 3,0 1,0 образом: III 25-50 1,0 0,5 1,0 2,0 3,0 0,0 для стадии IV 2,5-25 1,0 1,0 0,0 1,0 1,0 0,0 I, например. V <2,5 1,0 1,0 0,0 1,0 1,0 0,0 ^напряяД*) = напряжения, приходящегося на один атом структуры. В табл. 3.12 приведены весовые факторы, использованные для каждого члена функции энергии. Блок управления с помощью графического взаимодействия системы MOLMEC содержит подпрограмму, позволяющую пользователю осуществлять вращение и ориентацию модели в желаемом направлении. Поскольку графическое изображение двумерное, вращение оказывается важным приемом для получения правильного представления о трехмерной структуре. Кроме того, подпрограммы взаимодействия помогают обнаружить атом, попавший в локальный минимум. После обнаружения такого атома пользователь может передвинуть его в другое положение с помощью команды MOVE. Если в результате такого передвижения структура исказилась, то следует еще раз пропустить модель через программу минимизации.
100 Глава 3 12 'В I W 'В Л- 4 6 17~J3 -Изопропиландростан г з /- Бипокамфан 8 7 1 -биадамантан Гексацикло[Ю,3,1,Ог-'° ,03' [О6''5,09' п]гексадекан Рис. 3.3. Соединения, использованные для проверки правильности работы программы построения модели молекулы. После построения ненапряженной модели параметры последней могут быть выданы на печать, а матрица координат атомов записана в память ЭВМ для проведения дальнейшей обработки. Имеется также полностью автоматизированный вариант программы MOLMEC, позволяющий обрабатывать большие банки данных без вмешательства исследователя. Программа включает процедуру ввода матрицы связей соединения, процедуру минимизации и процедуру записи матрицы координат во внешнюю память. Этот вариант позволяет получать вполне удовлетворительные модели. В нем также предусмотрен графический вывод модели, дающий возможность убедиться в том, что модель молекулы имеет правдоподобную конформацию. Для оценки точности построения молекулярных моделей нами были построены модели четырех соединений, для которых имеются надежные рентгенографические данные. Контрольные соединения показаны на рис. 3.3. Эти же молекулы были использованы в работе Алтоны и Фабера [19] для проверки других программ моделирования структуры молекул. Поэтому мы также смогли сопоставить результаты работы различных программ построения молекулярных моделей. Для первого контрольного соединения 17-(3-изопропиландростана среднее отклонение длин связей модели от экспериментальных значений составило 0,008 А, а максимальное отклонение — 0,022 А. Усреднение было проведено по 20 связям стероидной структуры. Связи между атомами 2 — 3 и 3 — 4 не учитывались, так как экспериментальные данные получены для соединения, замещенного в положении 3. Изопропильная группа также не рассматривалась, поскольку экспери- молекулярных дескрипторов 101 ментальные данные относятся к твердой фазе, в которой может происходить искажение конфигурации заместителя. Другие программы лают значения длин связей, незначительно отличающиеся от результатов программы MOLMEC. Что касается величин углов кручения, то здесь расхождение более сильное. Для углов кручения в кольцах А, В и С расчет дает отклонения от экспериментальных значений, равные 4 7 4,7, 5,9° соответственно. Эти отклонения значительно превосходят значения, полученные Алтоной и Фабером. Несомненно, что причиной плохого согласия с экспериментом величин углов кручения являются упрощения, сделанные для взаимодействия несвязанных атомов и для энергии кручения. Для получения более точных результатов эти члены должны быть изменены. В случае 1-биадамантана получены хорошие результаты для значений простых кольцевых связей (среднее отклонение от экспериментальных значений равно 0,008 А, максимальное отклонение — 0,011 А). Однако для простой связи, соединяющей два адамантановых фрагмента, это отклонение равно 0,035 А. Аналогичная тенденция наблюдается в случае 1-бипокамфана, за исключением того факта, что максимальное отклонение обнаружено для связи, соединяющей атомы 1 и 7 камфа- нового кольца. В двух последних случаях ошибку расчета можно полностью объяснить поведением члена, описывающего энергию взаимодействия несвязанных атомов. Примечательно, что другие программы построения молекулярных моделей, проверенные Алтоной и Фабером, наибольшую ошибку расчета также дают в случае этих двух соединений. Расчет модели последнего соединения дал результаты, сходные с вышеизложенными. Подводя итоги, можно отметить, что проделанный нами тест показывает, что программа Випке и сотр. дает вполне удовлетворительные модели для соединений, обладающих жесткой структурой. Результаты испытаний можно даже считать отличными, если учесть тот факт, что в функцию энергии были внесены значительные упрощения, а также факт, что результаты расчета соответствуют газовой фазе, а экспериментальные данные — твердой фазе. При сравнении этой программы с другими аналогичными программами никаких чрезмерных расхождений не обнаружено. Каждая программа имеет свои достоинства и недостатки. Конечно, для проведения термодинамических расчетов требуется более точная функция энергии, но для нашей цели — расчета геометрических дескрипторов на основе молекулярной модели — вполне достаточно описанной выше функции. Мы рассчитываем три основных типа геометрических дескрипторов. К первому типу относятся три главные оси инерции молекулы. Расчет этих величин проводится следующим образом: 1. Рассчитываются координаты центра масс молекулы 1 N "; =м~ X т'ха для J = 1. 2. 3. -* 1 = 1
102 Глава 3 где М — масса молекулы, т( — масса г'-го атома, N — количество атомов в молекуле, х,;- — у'-я координата г'-го атома. 2. Рассчитываются элементы тензора инерции молекулы R: 1 N rjk = jf Z mi (xu ~ uj) (x* ~ "*) Для J = 1, 2, 3; к = 1, 2, 3. 3. Тензор инерции диагонализуется, и таким образом определяются его собственные значения. Поскольку тензор инерции представляет собой симметрическую матрицу, его диагонализация проводится методом Якоби. Полученные собственные значения соответствуют трем главным осям инерции молекулы. Поскольку ориентация молекулы в пространстве произвольна, главные оси инерции должны быть упорядочены каким-либо способом. Упорядочение производится путем произвольного приписывания координаты X наибольшей оси, У— следующей по величине, Z — наименьшей оси. Используются также дескрипторы вида X/Y, X/Z и Y/Z. Далее все оси инерции умножаются на масштабный коэффициент, так как иначе ввиду их малой величины они могут сильно искажаться в процессе округления. Указанные шесть геометрических параметров использовались нами в качестве дескрипторов. Другой тип геометрических дескрипторов — вандерваальсовский объем молекулы. Для расчета этого дескриптора необходимо знать длины связей и вандерваальсовские радиусы атомов. Длины связей легко рассчитываются из молекулярной модели. В качестве радиусор Ван-дер-Ваальса использованы данные, опубликованные Бонди [23] Объем, занимаемый атомом, рассчитывается путем вычитания из объема сферы с радиусом Ван-дер-Ваальса объема области перекрывания сфер соседних атомов. Объем области перекрывания рассчитывается по стандартным формулам. Однако рассчитанный таким образом объем отличается от истинного, так как, во-первых, атомы несферичны. а во-вторых, использованные значения радиусов Ван-дер-Ваальса являются некоторыми усредненными величинами. В табл. 3.13 приведены значения радиусов Ван-дер-Ваальса, использованных в вычислениях. Общий молекулярный объем рассчитывается как сумма атомных вкладов. Вклад атомов водорода также учитывается. Для большей гибкости программы предусматривается возможность использования как стандартных значений длин связей, так и их значений, полученных из молекулярной модели. Поскольку при расчете ненапряженной конфигурации молекулы используются стандартные значения длин связей, то не вызывает удивления тот факт, что величины молекулярных объемов, полученные обоими методами, близки друг к другу. Расхождения могут возникать при расчете структур, содержащих кольца с пятью и менее атомами, так как такие структуры характе- молекулярных дескрипторов 103 оизуются большим напряжением. Молекулярные объемы выражаются в см3/моль- Молекулярный объем можно затем использовать в качестве геометрического дескриптора. Каждый геометрический дескриптор содержит некоторую информацию о молекуле. Главные оси инерции и их отношения характеризуют общую форму молекулы и могут оказаться очень полезными при исследовании систем, включающих взаимодействие с рецептором. Однако Таблица 3.13 Значения радиусов Ван-дер-Ваальса, использованные при расчете молекулярных объемов Тип атома Радиус (A) X-H (А'/атом Н) с— с= с= с--- о— о= N— N= N= N--^ S— s= F— CI— Br— I— P— 1,70 1,70 1,78 1,77 1,52 1,50 1,55 1,55 1,60 1,60 1,80 1,75 1,50 1,75 1,85 1,97 1,80 1,83 1,83 1,36 0,50 2,29 — 2,38 2,38 2,23 2,23 5,55 — — — — — 2,86 H- 1,20 H- 1,00 главные оси инерции не всегда правильно отражают истинную форму молекулы, так как их значения рассчитываются для молекулы в вакууме, а форма молекул, особенно содержащих длинные цепи атомов, зависит от окружения. С другой стороны, объем молекулы, по существу, является постоянной величиной. Он почти не меняется при изгибе молекулы. В конечном счете, так же как и в случае других дескрипторов, истинная ценность геометрических дескрипторов зависит от типа решаемой задачи.
104 Глава 3 ВЫВОДЫ Рассмотренные выше программы генерации молекулярных дескрипторов включают несколько методов извлечения информации из молекулярной структуры. Разные методы существенно различаются по степени сложности и дают структурную информацию разной природы. Дескрипторы фрагментов отражают элементный состав молекулы и легко рассчитываются непосредственно из матрицы связей. Хотя в дескрипторах фрагментов отсутствует информация о структуре молекулы, зато в них содержится информация о химической природе молекулы в целом. .Дескрипторы фрагментов несут информацию о ненасыщенности соединения и о наличии в нем определенных гетероатомов, что может оказаться полезным для некоторых приложений. Общей чертой дескрипторов окружения и субструктурных дескрипторов является то, что они содержат структурную информацию, утрачиваемую в процессе фрагментации. Однако они существенно различаются по объему вычислений, которые требуются для их расчета. Дескрипторы окружения рассчитываются путем простого перебора всех атомов и учета для каждого атома характера ближайшего окружения. Расчет субструктурных дескрипторов проводится с помощью более сложного алгоритма поиска, который манипулирует с фрагментами, содержащими несколько атомов. Мы считаем, что показатель связности молекулы является особенно информативным дескриптором. Расчет этого дескриптора сравнительно прост. Несмотря на сходство с взвешенным дескриптором окружения, показатель связности содержит информацию о молекуле в целом, а не об отдельном ее фрагменте. Его ценность подтверждается многочисленными корреляциями с разнообразными физическими свойствами. Наконец, имеются геометрические дескрипторы, содержащие много информации об общей форме молекулы и очень мало информации о ее химической природе. К сожалению, для расчета геометрических дескрипторов требуется построение трехмерной модели молекулы методом молекулярной механики с помощью довольно сложной программы. Это требует больших затрат труда и машинного времени. Однако после того как модель построена и координаты атомов рассчитаны, вычисление геометрических дескрипторов можно провести очень быстро. Как видно из проведенного обсуждения, существует много типов молекулярных дескрипторов. Выбор дескрипторов для решения какой- либо конкретной задачи- зависит от того, какое биологическое или физическое свойство исследуется. Кроме перечисленных выше можно использовать самые разнообразные типы дескрипторов. Дальнейший прогресс в исследованиях связи структуры и активности соединений связан с поисками новых путей адекватного описания молекулярной расчет молекулярных дескрипторов 105 структуры. Именно в этом направлении следует сосредоточить усилия для успешного решения данной проблемы. Следует ожидать, что будущем будут разработаны новые, более эффективные методы представления в виде набора числовых дескрипторов особенностей молекулярной структуры, существенных в исследованиях связи между структурой и активностью. ЛИТЕРАТУРА 1. Wiswesser W. J., A Line-Formula Chemical Notation, Thomas Y. Crowell Co., New York, 1954. 2. Smith E. G., The Wiswesser Line-Formula Chemical Notation, McGraw-Hill, New York, 1968. 3. Davis С. Я., Rush J. E., Information Retrieval and Documentation in Chemistry, Greenwood Press, Westport, Conn., 1974. 4. Lynch M. F., Harrison J. M., Town W. G., Computer Handling of Chemical Structure Information, Macdonald, London, 1971. 5. Gluck D. J., A Chemical Structure, Storage and Search System Designed at DuPont, J. Chem. Doc, 5, 43 (1965). 6. Morgan H. L., The Generation of a Unique Machine Description for Chemical Structures - A Technique Developed at Chemical Abstracts Service, J: Chem. Doc, 5. 107 (1965). 7. Brugger W. E., Jurs P. C, Molecular Structure Input Program Using a Storage Cathode Ray Tube Terminal, Anal. Chem., 47, 781 (1975). 8. Brugger W. E., Jurs P. C, UDRAW (Program No. 300), Quantum Chemistry Program Exchange, Department of Chemistry, Indiana University, Bloomington, Ind., 47401. 9. Ray L. C. Kirsch R. A., Finding Chemical Records by Digital Computers, Science, 126, 814 (1957). 10. Sussenguth E. H., A Graph-Theoretic Algorithm for Matching Chemical Structures, J. Chem. Doc, 5, 36 (1965). 11. Ming Т. К., Tauber S. Г., Chemical Structure and Substructure Search by Set Reduction, J. Chem. Doc. 11, 47 (1971). 12. Figeras J., Substructure Search by Set Reduction, J. Chem. Doc, 12, 237 (1972). 13. Zander G. S., Jurs P. C, Generation of Mass Spectra Using Pattern Recognition Techniques, Anal. Chem., 47, 1562 (1975). 14. Randic M., On Characterization of Molecular Branching, J. Am. Chem. Soc, 97, 6609 (1975). 15. Kier L. В., Hall L. Я., Molecular Connectivity in Chemistry and Drug Research, Academic, New York, 1976. 16. Williams J. £., Strang P. J., von Schleyer P. R., Physical Organic Chemistry: Quantitative Conformational Analysis; Calculation Methods, Ann. Rev. Phys. Chem., 19. 531 (1968). 17. Hopfinger A. J., Conformational Properties of Macromolecules, Academic, New York, 1973. 18. Engler E. M., Andose J. D., von Schleyer P. R., Critical Evaluation of Molecular Mechanics, J. Am. Chem. Soc, 95, 8005 (1973).
106 Глава 3 19. Altona С, Faber D. Я., Empirical Force Field Calculations. A Tool in Structural Organic Chemistry, Top. Curr. Chem., 45. 1 (1974). 20. Allinger N. L.. Calculation of Molecular Structure and Energy by Force-Field Methods, in: Adv. Phys. Org. Chem., Vol. 13, V. Gold (Ed.) Academic, New York, 1976. 21. Wipke W. Т., Dyott T. M.s Verbalis J. G., Abstracts, 161st National Meeting, American Chemical Society. Los Angeles, Calif., March 1971. 22. Buffa E. S., Taubert W. H., Production-Inventory Systems, Planning, and Control, R. D. Irwin, Inc., Homewood, 111., 1972. 23. Bondi A., Van der Waals Volumes and Radii, J. Phys Chem, 68 441 (1964). Глава 4 РАСПОЗНАВАНИЕ ОБРАЗОВ: ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ В гл. 2 было показано, что методы распознавания образов основаны на предположении, что «подобные» объекты будут группироваться в одной и той же ограниченной области пространства признаков. Целью анализа, проводимого методами распознавания образов, является построение дискриминантных функций, определяющих границы между такими областями. В гл. 2 рассматривались два метода построения дискриминантных функций — параметрический и непараметрический. В параметрических методах оптимальная дискриминантная функция формируется путем аппроксимации функции распределения исходных данных. При этом для построения классификационного правила используется формула Байеса. Многие параметрические методы основаны на предположении о нормальности распределения исходных данных. Это предположение позволяет сильно упростить расчеты. Часто используются и другие предположения, такие, как равенство дисперсионных матриц, равенство средних внутри одного класса, равенство функций потерь, равенство условных вероятностей событий в пределах данного класса и равенство априорных вероятностей наблюдения классов. Влияние подобного рода аппроксимаций на точность решающей функции в значительной степени зависит от характера конкретной задачи. В параметрических методах исходят из каких-либо предположений о форме решающей функции, а затем с помощью тех или иных математических приемов согласовывают эту функцию с экспериментальными данными. Чаще всего применяют линейную решающую функцию, так как она обеспечивает достаточную простоту расчетов и дает вполне удовлетворительные приближения. В непараметрических методах характер распределения экспериментальных данных также учитывается. Информация о распределении данных неявным образом используется при расчете оптимального положения решающей поверхности. Нужно иметь в виду, что оптимальность получаемых на основании формулы Байеса решающих функций весьма условна. Конечно, если значения параметров функций, входящих в соотношение Байеса, точно известны, то мы можем непосредственно рассчитать дискриминантную функцию, имеющую минимальную ошибку классификации. Однако на практике как параметрический, так и непараметрический методы дают лишь некоторые приближения к этому идеальному случаю. Параметрические методы дают приближенные результаты потому, что в их
108 Глава 4 основе лежат упрощающие предположения относительно статистических характеристик экспериментальных данных. Приближенность непараметрических методов обусловлена как упрощающими предположениями относительно формы дискриминантной функции, так и неточностью самой процедуры восстановления функций по экспериментальным данным. Возникает вопрос: какой же из методов наиболее эффективен в исследованиях связи структуры и активности? Мы считаем, что характеру решаемых в этой области задач лучше соответствуют непараметрические методы. Самое сильное возражение против параметрических методов вызывает предположение о нормальности распределения данных. Маловероятно, что полученные в рамках этого приближения дискриминантные функции будут близки к истинным. К тому же имеется ряд трудностей, связанных с оценкой величин типа P{W^ и Р(Х() непосредственно из данных биологических испытаний. Наиболее трудным в исследованиях связи между структурой и активностью является вопрос о том, какие вещества следует включать в подвыборку неактивных соединений. Эта задача несколько упрощается при исследовании соединений, образующих гомологические ряды. Поскольку активные соединения встречаются сравнительно редко, то оценить значения вышеупомянутых величин оказывается не так просто. Очевидно, что недопустимо принимать гипотезу о нормальности распределения данных только на- том основании, что это удобно для проведения вычислений. Особенно трудно найти ответы на следующие вопросы. Каким должно быть соотношение между количествами активных и неактивных соединений? Можно ли получить надежную оценку этой величины на основании исходной выборки данных? Какой объем должна иметь выборка для того, чтобы по ней можно было бы достаточно надежно восстановить функцию распределения данных? Сложность этих оценок затрудняет использование параметрических методов. Кроме того, нет никаких оснований ожидать, что функции распределения данных окажутся унимодальными. Полимодальные же распределения очень неудобно восстанавливав параметрически. Поэтому методы классификации, не зависящие гипотезы о виде функции распределения данных, по-видимому, являются более перспективными. Непараметрические методы являются гибким инструментом исследования связи структуры и активности. Линейные решающие функции очень удобны в обращении, и ошибки приближения решающей функции, по-видимому, меньше, чем ошибки, вызванные неправильными параметрическими приближениями функций распределения данных. Еще одна характерная черта непараметрических методов заключается в возможности приспособить их к изменениям структуры данных. Необходимость таких изменений может возникать в ходе решения задачи. В следующих разделах обсуждаются возможности, недостатки и приложения некоторых непараметрических методов дискриминантного анализа. распознавание образов: линейные дискримииаитиые функции 109 ЛИНЕЙНАЯ ОБУЧАЮЩАЯСЯ МАШИНА Одним из самых простых алгоритмов непараметрических методов распознавания является линейная обучающаяся машина. Линейная обучающаяся машина представляет собой итерационный алгоритм построения линейной решающей поверхности, основанный на процедуре исправления ошибки через обратную связь. Способы представления данных в матричной форме были описаны в гл. 2. Согласно этому представлению, каждому объекту выборки данных может быть сопоставлен вектор-образ в пространстве признаков. Если компоненты этих векторов достаточно информативны, вся выборка разбивается на два кластера, соответствующие наличию или отсутствию определенного свойства. Эти кластеры часто называют положительным и отрицательным классами. Цель заключается в построении поверхности, разделяющей выборку данных таким образом, что элементы положительного класса располагаются по одну сторону поверхности, а элементы отрицательного класса - по другую сторону поверхности. Поскольку линейная обучающаяся машина является непараметрическим классификатором, то в основе ее лежит предположение о том, что искомая линейная поверхность является оптимальной поверхностью, осуществляющей классификацию исследуемых объектов. Задача заключается в отыскании такого расположения линейной поверхности, которое обеспечивало бы достаточно надежную работу классификатора. Для этого нужно уметь определять, по какую сторону от плоскости находится данная точка. Это может быть осуществлено, во-первых, путем добав- ления к каждому элементу полной выборки данных еще одного дополнительного измерения и последующего расчета скалярного произведения каждого вектора-образа на вектор, перпендикулярный разделяющей плоскости. Рассмотрим следующий простой пример. Рис. 4.1. Пример линейно разделимого множества данных.
по Глава 4 На рис. 4.1 показана выборка данных в одномерном пространстве признаков, расширенном за счет добавления дополнительной компоненты. По оси у откладываются значения дескриптора, а по оси х — величина добавочной компоненты. Последняя величина обозначается символом DPO. Для ясности мы приводим при х = DPO распределение значений дескрипторов обоих классов. Отметим, что может быть построена плоскость, проходящая между этими классами и полностью отделяющая их друг от друга. Выборки, обладающие таким свойством, называются линейно разделимыми. Отметим также, что решающая плоскость и векторы А и В, представляющие рассматриваемые классы, .проходят через начало координат. Ясно, что если бы мы не добавили к нашей системе дополнительной компоненты, то не смогли бы найти плоскость, которая проходит через начало координат и одновременно делит выборку на два кластера. Вскоре будет показано, что эта способность плоскости одновременно проходить через начало координат и делить выборку на кластеры играет чрезвычайно важную роль. Ориентация решающей плоскости задается с помощью единичного весового вектора W, перпендикулярного к плоскости. Теперь вопрос о том, по какую сторону плоскости находится данный вектор-образ, может быть решен путем расчета величины его скалярного произведения с весовым вектором. Одна из форм скалярного произведения записывается следующим образом: W-A = |W||A|cos9. (4.1) Для того чтобы рассматриваемый элемент находился с той же стороны по отношению к поверхности, что и весовой вектор, необходимо, чтобы значение угла между его вектором-образом и весовым вектором лежало в интервале от 0 до 90°. Следовательно, величина скалярного произведения должна быть положительна. Наоборот, элементы, расположенные с противоположной по отношению к плоскости стороны, имеют отрицательные значения скалярного произведения, так как углы, которые составляют их векторы-образы с весовым вектором, лежат в интервале от 90 до 180°. Поскольку важно только условие, что векторы-образы положительного и отрицательного классов лежат по разные стороны от плоскости, начальная ориентация весового вектора не имеет значения. Следовательно, алгоритм построения весовых векторов, удовлетворяющих вышеуказанному условию, которое накладывается на величину скалярного произведения, будет тем самым находить и разделяющие плоскости. Если выполняется условие разделимости, то решающая поверхность может быть построена с помощью процедуры обучения. При обучении последовательно выбираются элементы выборки и рассчитывается скалярное произведение. Как только выясняется, что какой-либо элемент классифицирован неправильно, весовой вектор изменяется таким образом, чтобы рассматриваемый элемент классифицировался правильно. Эта процедура коррекции, получившая наименование отри- распознаваине образов: линейные дискрнминантные функции 111 дательной обратной связи, продолжается до тех пор, пока все элементы обучающей выборки не будут классифицированы правильно. Если сходимость не достигается после заданного числа исправлений, то процесс прекращается. В литературе подробно описано несколько методов коррекции через обратную связь, обеспечивающих сходимость процедуры обучения линейно разделимых множеств [1]. Один из самых простых и эффективных приемов заключается в том, что решающую плоскость перемещают вдоль перпендикуляра, опущенного из данной точки в многомерном пространстве на решающую плоскость так, что после исправления рассматриваемая точка находится на таком же расстоянии от решающей плоскости с правильной стороны, на каком раньше она находилась с неправильной стороны. Это преобразование весового вектора выполняется следующим образом. Если скалярное произведение W-X, = S, (4.2) имеет неправильный знак для классифицируемого вектора Х(, то необходимо найти такой новый весовой вектор, чтобы выполнялось соотношение W'-X, = S;= -S,. (4.3) Этот новый весовой вектор W мы будем строить путем прибавления к старому весовому вектору вектора X,, умноженного на некоторый коэффициент с: W = W + сХ(. (4.4) Объединяя соотношения (4.3) и (4.4), получим S', = W-X( = (W + cX,)X(. (4.5) Отсюда можно получить значение коэффициента Учитывая требование S' = — S, получим г = —^ (4-7) х,х, • После этого можно построить новый весовой вектор " 2S, W' = W- х,х(. Х(. (4-8) Обычно для построения весового вектора используется только часть исходной выборки, а с помощью оставшихся элементов осуществляется проверка прогнозирующей способности классификатора. Процедура
112 Глава 4 классификации заключается в расчете скалярного произведения весового вектора с каждым элементом контрольной выборки и применении следующего классификационного правила: 1. Если S,- > 0, то X; приписывают классу 1. 2. Если Sj < 0, то X,- приписывают классу 2. Часто рабочие характеристики классификатора могут быть улучшены путем введения порога d. В этом случае алгоритм коррекции через обратную связь работает с учетом условия a(St + d)<0, « = l Для класса 1, а = — 1 для класса 2. Введение порога способствует лучшему расположению плоскости между классами. В этом случае предсказание осуществляется с помощью следующего классификационного правила: 1. Если S; > d, то Xj относят к классу 1, 2. Если S; < — d, то Х( относят к классу 2. 3. Если — d < St4:d, то Xf не классифицируется. Линейная обучающаяся машина имеет несколько недостатков. В случае неразделимых множеств алгоритм не может оптимально провести процедуру разделения. Поэтому линейно неразделимые выборки нельзя обработать должным образом. Если выборка линейно разделима, то, вообще говоря, неизвестно, удастся ли построить разделяющую плоскость за разумный отрезок времени. Можно только гарантировать, что разделение в конце концов будет достигнуто. И наконец, алгоритм обратной связи отыскивает положение лишь одной из плоскостей, разделяющих выборку на два класса. На самом же деле таких плоскостей бесконечно много, и найденная плоскость может сильно отличаться от той, которая была бы построена при использовании параметрических методов. Несмотря на эти особенности, линейная обучающаяся машина представляет собой весьма эффективный метод построения линейной разделяющей поверхности. Этот метод отличается быстротой, удобством в обращении и, как правило, обладает превосходной дискриминирующей способностью. АЛГОРИТМ ГРАДИЕНТНОГО СПУСКА В МЕТОДЕ НАИМЕНЬШИХ КВАДРАТОВ Если в случае линейно разделимых выборок линейная обучающаяся машина достигает сходимости, то в случае неразделимых выборок вычислительный процесс будет продолжаться неограниченно долго. Следовательно, нужно искать методы построения решающей плоскости, свободные от этих недостатков. Если, например, задавать положение разделяющей плоскости путем минимизации или максимизации какой- либо критериальной функции, то можно было бы построить алгоритм Распознавание образов: линейные дискриминаитные функции 113 и в случае неразделимой выборки. Метод градиентного спуска представляет собой один из возможных подходов, который работает и в указанном случае. Этот метод основан на построении такой критериальной функции, которая достигает минимума при оптимальном расположении решающей плоскости. Конкретная реализация этого алгоритма зависит от вида критериальной функции. Например, минимизация критериальной функции вида F (W, X) = -1 (| W'X| - W'X) (4.9) по W приводит к алгоритму, аналогичному линейной обучающейся машине. Как было показано выше при рассмотрении линейной обучающейся машины, правильное положение разделяющей плоскости достигается путем рекурсивного изменения весового вектора. Эта процедура может быть выражена с помощью следуюцДего градиентного соотношения: " dF (W, X) W(/c + 1) = W(/c)-c dW (4.10) W = W (k) Отметим, что новый весовой вектор получается из старого путем добавления члена, содержащего градиент критериальной функции. В точке, определяемой соотношением dF/dW = 0, критериальная функция достигает минимума и дальнейшее изменение весового вектора не производится. Градиент критериальной функции (4.9) равен где f 1 для WX > 0, sgn(W, Х) = ^ (4.11) 1-1 для W'X<0. Подставляя это выражение в соотношение (4.10), получаем W (к + 1) = W (к) + у [X (к) - X (к) sgn (W, X (/с))], (4.12) или, учитывая определение функции sgn, W(/c + l)= W(/c) + cX(/c), (4.13) что совпадает с алгоритмом линейной обучающейся машины. Конечно, у нас еще нет способа разумного окончания процедуры в случае линейно неразделимых выборок. Однако последний пример показывает, как градиентный метод обобщает различные итерационные процедуры. 8 Э. Стьюпер
114 Глава а Алгоритм, пригодный для обработки неразделяемой выборки, может быть получен с помощью методов градиентного спуска и соответствующего выбора критериальных функций. Мы уже показали, чтс обучающаяся машина находит такую поверхность, для которой выполняется соотношение X-W>0. (4.14; Однако та же задача может быть сформулирована в виде соотношения X W=b, (4.15) где X — матрица признаков, строки которой соответствуют объектам, а столбцы — компонентам векторов-образов. Эта матрица расширена за счет добавления единичной компоненты к вектору-образу каждого объекта. Кроме того, все векторы-образы из отрицательного класса умножаются на — 1. Теперь можно ввести критериальную функцию 1 ёл 1 F(W, X, b) = ± > (W'X, - b,-)2 = - || XW - b||2, (4.16) где N — объем выборки, a || XW—b|| — абсолютная величина вектора XW — b. Очевидно, эта критериальная функция имеет минимум, когда удовлетворяется уравнение (4.15). Если мы будем минимизировать эту функцию по W и Ь, то получим алгоритм, который минимизирует сумму квадратичных ошибок. Процедура такого типа известна под наименованием алгоритма наименьшей среднеквадратичной ошибки (НСКО). Минимизация функции (4.16) приводит к классификационному алгоритму, который часто называют алгоритмом Хо — Кашьяпа. Градиент этой функции по W и b равен ^=X'(XW-b), (4.17) i£-=-(XW-b). (4.18) Для того чтобы минимизировать эту функцию по W, можно положить 3F/3W = 0, откуда получим W = (X'X)"1X'b=X*b. (4.19) Матрица X* называется обобщенной обратной или псевдообратной к матрице X. Здесь W — весовой вектор, обеспечивающий минимум ошибки для данного Ь. Однако этот вектор может не оказаться тем весовым вектором, который определяет разделяющую плоскость, поскольку разделимость множества зависит также от Ь. Уравнение (4.18) задает условия минимума по b при заданном W, и при этом должно удовлетворяться уравнение (4.17). Так как все Распознавание образов: линейные днскриминантные функции 115 компоненты вектора b должны быть положительными, его следует изменять только таким образом, чтобы это условие не нарушалось. Последнее можно обеспечить, выбирая новое значение b так, что b(k+ l) = b(/c) + 5b(/c), (4.20) где Щк) = 2с [XW(fc) - b(/c)], если XW(fc) -Ъ(к)> 0; 5b (к) = 0, если XV/(к) - Ъ(к) < 0. (4.21) В соотношениях (4.20) и (4.21) к — итерационный индекс, с — положительное корректирующее приращение, которое обычно берется равным 0,5. Уравнение (4.21) можно записать в следующей форме: 5Ь(к) = с [XW(к) - Ъ (к) + | XW(к) - Ъ {к) | ], (4.22) где выражение |XW(/c) — Ъ(к)\ определяет абсолютную величину каждой компоненты вектора XW(fe) — Ъ(к). Из (4.19) и (4.20) следует, что W(fc + 1) = X*b(fe + 1) = X* [b(fc) + 8b(fc)] = (423) = X*b(/c)+X*5b(/c)= W(/c) + X*5b(/c). Вводя вектор ошибок e(/c) = XW(/c)-b(/c), (4.24) получим следующий алгоритм: W(l) = X*b(l), b(l)>0; е(/с) = XW(/c) - b(/c); W(/c + 1) = X*b(/c + 1); Ъ(к + 1) = Ъ(к) + c[e(fc) + |e(fc)|]. (4.25) Здесь | e (/с) | — вектор, компонентами которого являются абсолютные значения компонент вектора е(/с). Интересной особенностью алгоритма Хо — Кашьяпа является наличие критерия разделимости, определяемого вектором ошибок. Отметим, что когда все компоненты вектора ошибок становятся отрицательными, дальнейшие изменения весового вектора и вектора b не производятся. Можно показать, что такое состояние достигается только для линейно неразделимых выборок. Существование такого состояния вовсе не означает, что его можно достигнуть за не слишком большое время. Поэтому необходимо иметь несколько способов окончания процедуры. Процедура естественным образом заканчивается, когда все компоненты вектора ошибок е становятся равными нулю. В этом случае Достигается минимум среднеквадратичной ошибки. В противном случае процедура может быть закончена после выполнения заранее заданного количества итераций. Основным недостатком алгоритма Хо — Кашьяпа является необходи- 8*
116 Глава 4 мость обращения матрицы X X. Однако эта операция выполняется всего один раз. Помимо этого, процесс может сходиться слишком медленно. Эти вычислительные трудности в какой-то мере компенсируются наличием критерия разделимости и существованием решения задачи НСКО для линейно неразделимых выборок. Рассмотренный алгоритм является только одним из многих градиентных методов НСКО. Вывод этого алгоритма был проведен для демонстрации пригодности процедуры градиентного спуска и метода НСКО для построения непараметрических классификаторов. Количество алгоритмов, которые можно построить таким способом, ограничивается только числом критериальных функций, которые возможны для описания исследуемой системы. Так, например, кроме функции (4.16), минимизирующей ошибку уравнения (4.15), можно минимизировать функцию Q= ilYi-F(Si)]2, (4.26) i= i где Yt равно +1 для элементов положительного класса и — 1 для элементов отрицательного класса. F (S,) - функция, зависящая от величины скалярного произведения. Эффективный алгоритм, использующий соотношение (4.26), можно построить, взяв в качестве функции F(S) гиперболический тангенс. Вывод этого алгоритма приведен в работе [2]. Очевидно, что с помощью методов градиентного спуска и НСКО можно построить много различных непараметрических алгоритмов. Эффективность этих методов в конечном счете зависит от справедливости допущений, касающихся формы решающей поверхности и критериальной функции, обеспечивающей правильное расположение решающей поверхности. КЛАССИФИКАЦИЯ ПО МЕТОДУ БЛИЖАЙШИХ СОСЕДЕЙ Не все непараметрические алгоритмы предназначены для построения разделяющей поверхности. Некоторые алгоритмы, к которым относится и метод ближайших соседей, классифицируют объекты на основании оценки величины условной вероятности класса P(Wt/X). Метод ближайших соседей дает ошибку, превышающую ошибку метода Байеса, однако ее значение никогда не превосходит удвоенной байесовской ошибки, а часто бывает значительно меньше последней величины. Ниже рассмотрены принципы работы алгоритма ближайших соседей. Более подробное описание можно найти в работах [3 — 8]. По правилу ближайших соседей неизвестный объект X относят к тому классу, к которому принадлежит большинство его ближайших соседей. Такое отнесение основано на предположении, что условная вероятность класса P(Wt/\) для рассматриваемого объекта равна спознавание образов: линейные дискрнминантиые функции 117 Рнс. 4.2. Пример задачи классификации по критерию минимума расстояния. / Класс \ , Класс •в, /Класс I условной вероятности для его ближайших соседей. Это предположение оправдывается в случае достаточно плотных выборок. Таким образом, правило ближайших соседей в тех случаях, когда классифицируемый элемент находится далеко от тех классов, к которым он не принадлежит, почти всегда приводит к тем же результатам, что и правило Байеса. Однако результаты двух подходов могут отличаться друг от друга тогда, когда вероятности принадлежности к разным классам близки. Подобная ситуация представлена на рис. 4.2, иллюстрирующем задачу трех классов с двумя неизвестными объектами Рх и Р2- Отнесение неизвестного объекта основано на подсчете количества ближайших соседей из данного класса. В качестве меры близости служит евклидово расстояние между неклассифицированной и классифицированной точками. Выбор класса осуществляется в соответствии с к ближайшими соседями неклассифицированного объекта. Ясно, что, согласно этому правилу, точка Рх должна быть отнесена к классу 1. Поскольку при измерении расстояний не учитываются вероятностные распределения классов, точка Р2 будет классифицирована с малой надежностью. При байесовской классификации эти распределения учитываются и, следовательно, вероятность ошибки уменьшается. При классификации методом ближайших соседей результаты, подобные байесовским, могут быть получены только случайно. На основании приведенных доводов можно заключить, что алгоритм ближайших соседей будет лучше всего работать в случае систем, которые либо имеют далеко отстоящие друг от друга распределения, либо представлены достаточно плотными выборками. Худшие результаты будут получаться либо в случае сильного перекрывания распределений, либо для разреженных выборок. На практике алгоритмы ближайших соседей работают вполне удовлетворительно. Для классификации можно использовать любое количество соседей. Однако во избежание образования связок оно Должно быть нечетным. Эти алгоритмы особенно эффективны тогда,
118 Глава 4 когда множество данных не разделяется с помощью линейной поверхности или когда число классов больше двух. Главный недостаток метода ближайших соседей заключается в необходимости расчета расстояний между всеми парами. Связанные с этим трудности особенно значительны для пространств высокой размерности или выборок большого объема. В случае пространств высокой размерности для достижения предела ошибки, характерной для байесовского классификатора, необходимы очень большие объемы выборок. Это требование связано с тем обстоятельством, что при уменьшении плотности элементов выборки предположение о равенстве величин P(W,/X) для ближайших соседей очень скоро перестает выполняться. Можно показать, что при увеличении числа соседей, используемых в процедуре классификации, сходимость ошибки к байесовскому уровню может быть как угодно медленной и даже не монотонной. Однако при этом предел ошибки никогда не будет превышать удвоенную величину байесовской ошибки. Как и для всех других непараметрических алгоритмов, успех классификации зависит от объема выборки, количества признаков, приходящихся на один объект, и распределения объектов в классах. ОГРАНИЧЕНИЯ, НАКЛАДЫВАЕМЫЕ НА НЕПАРАМЕТРИЧЕСКИЕ ЛИНЕЙНЫЕ КЛАССИФИКАТОРЫ Одно из условий успешного использования линейных дискрими- нантных функций заключается в возможности проводить осмысленное разбиение данных на классы с их помощью. Проведение успешной классификации подразумевает обнаружение некоторого соотношения между наблюдаемыми свойствами. Это условие может быть соблюдено только при выполнении определенных критериев. К таким критериям относится требование минимума отношения количества переменных к количеству исследуемых объектов, необходимого для установления искомой закономерности. В настоящем разделе приведены результаты исследования подобных критериев и рассмотрены параметры, характеризующие надежность получаемых из эмпирических данных зависимостей. Дихотомизационная способность дискриминантной функции характеризуется общим количеством бинарных разбиений выборки данных, которые может произвести эта функция. Дихотомизационная способность зависит от вида решающей функции. Количество бинарных разбиений, которые может произвести линейная функция, определяется соотношением D(N,n) = 2tcri, (4.27) к = 0 где С%~1 = (N — 1) !/(N — 1 — к) \к!, N — количество объектов, п — количе- образов: линейные дискриминантиые функции 119 ство переменных, к - индекс, характеризующий способ группировки данных. Обшее количество возможных дихотомий, независимых от характера распределения данных в и-мерном пространстве*, равно 2N. Любой классификатор, способный осуществить все 2N дихотомий независимо от характера распределения данных, не представляет никакой ценности, поскольку с его помощью нельзя выявить зависимость между признаками объектов и исследуемыми свойствами. Для такого, классификатора не выполняется главное условие, лежащее в основе работы распознающих систем. Линейный классификатор способен осуществить все возможные дихотомии в том случае, когда количество переменных превосходит количество объектов. В противном случае, как следует из соотношения (4.27), количество фактически реализуемых линейных дихотомий меньше обшего их числа. Поскольку количество линейных дихотомий зависит от N и п одновременно, то существует нижний предел отношения количества объектов к количеству переменных. Ниже этого предела результаты дискриминантного анализа теряют свою ценность. Для характеристики указанного предела полезно ввести величину вероятности того, что вариант дихотомии, выбранный случайно, окажется линейно реализуемым. Эта вероятность определяется соотношением количество линейно реализуемых дихотомий _ D (N, п) общее количество возможных дихотомий 2N Соотношение (4.28) определяет вероятность получения линейной дихотомии в виде функции общего количества объектов N и общего количества переменных п. Если объектов больше, чем переменных, то построение дихотомии всегда возможно независимо от того, существует ли она на самом деле, т. е. Р = 1. При увеличении количества объектов в расчете на одну переменную вероятность случайного нахождения такой дихотомии падает и величина Р уменьшается. * При работе линейных классификаторов перед процедурой обучения к пространству признаков обычно добавляется еще одна дополнительная координата. Поэтому в качестве характеристики соотношения величин N и п удобно ввести параметр X = N/(n + 1). График зависимости Р от X приведен на рис. 4.3. Отметим, что вероятность нахождения линейной зависимости все еще велика при значениях X, больших 1. Например, Р = 0,5 при X = 2. При этом при одних и тех же значениях X вероятность получения случайной классификации уменьшается при увеличении п. Эта функция является мерой вероятности получения случайной * Используется единственное предположение о том, что данные размещены хорошо. Это означает, что ни одно из подмножеств, состоящее из п + 1 точек, не лежит на (и - 1)-мерной гиперплоскости.
120 Глава 4 PQ6\- Рис. 4.3. Вероятность разделения случайных хорошо размещенных данных на классы в зависимости от X. Таблица 4.1 Результаты расчета дискрнминантиых функций для случайных выборок" Объем обучающей выборки 35 40 45 50 чество рок 20 20 30 40 X 1,67 1,90 2,14 2,38 Теоретическое р 0,885 0,625 0,325 0,126 Распре Количество обученных выборок 16 11 12 2 деление F 0,80 0,55 0,40 0,05 Гаусса ГТрогнозн- способ- ность 51,2 49,2 48,2 49,8 Равномерное распределение Количество обученных выборок 15 13 6 6 F 0,75 0,65 0,20 0,15 Прогнозирующая способность 50,1 51,5 48,7 47,8 а Исходные выборки содержали по 250 20-мерных векторов. В графе «Количество выборок» указано количество обучающих выборок, использованных для измерения Р. В графе «Количество обученных выборок» указано число выборок, которые удалось разделить. Р' — доля разделенных выборок. распознавание образов: линейные дискриминан1ные функции 121 классификации. Можно считать, что любое линейное дискриминантное авило, ПОЛуЧенное в той области, где величина Р заметно отличается от нуля, является случайным, т. е. его наличие не служит указанием на существование зависимости между экспериментальными данными. Чтобы показать важность случайных классификаций, были генерированы две выборки, целиком состоящие из случайных чисел. Первая выборка включает случайные числа, распределенные по закону Гаусса, а вторая выборка — равномерно распределенные случайные числа. Каждая выборка (250 точек) была разделена случайным образом на две равные части — обучающую и контрольную. Результаты линейной классификации, полученные при разных значениях X, приведены в табл. 4.1. Из таблицы видно, что вероятность проведения линейной классификации совпадает с вероятностью, определяемой соотношением (4.28). Интересно также отметить, что прогнозирующая способность, рассчитанная при испытаниях на контрольной выборке, имеет не более чем случайный характер. В табл. 4.2 приведена зависимость величины Р от п и X. Каждый столбец этой таблицы показывает изменение Р при увеличении п при постоянном X. Для того чтобы вероятность Р стала меньше 1% при п= 15, необходимо, чтобы X > 3,0. То есть для того, чтобы вероятность случайной классификации была меньше 1 %, необходимо, чтобы количество объектов N было равно (15+ 1)-3,0 = 48. Для тех выборок, у которых X мало, Р остается большой даже при больших п. Далее мы построили несколько выборок в пространстве 40 переменных. Каждая выборка состояла из 300 объектов и была разделена на два равных класса. Выборки были построены таким образом, что в каждой из них связь между объектами задавалась с помощью определенного числа переменных, называемых существенными переменными. Изъятие любой из существенных переменных нарушает связь между объектами, превращая выборку в набор случайных чисел. Если данные представлены только с помощью существенных переменных, то оба класса с необходимостью линейно разделимы. Если удаляется хотя бы одна из переменных, то свойство линейной разделимости пропадает. Способ построения таких выборок описан в работе [9]. В табл. 4.3 приведены результаты построения линейных дискрими- нантных функций, полученные с помощью линейной обучающейся машины. Обучающая и контрольная выборки были выбраны случайным образом. В каждой строке таблицы даны усредненные по пяти обучающим выборкам результаты с указанием количества существенных переменных, случайных переменных и значения параметра X. Из табл. 4.3 видно, что при любом значении X прогнозирующая способность не зависит от соотношения чисел существенных и несущественных переменных, пока общее количество переменных остается постоянным. В обучающих выборках со значениями X > 2,4 случайные корреляции вряд ли будут оказывать заметное влияние на величину
122 Глава 4 Таблица 4.2 Некоторые значения Р, вероятности разделения хорошо размешенных данных, как функции л и Ла 11 3 5 6 7 9 11 12 13 15 17 18 19 21 23 25 27 Р (2,25) 0,3633 0,3145 0,2706 0,2498 0,2257 0,2051 0,1871 а В скобках ука Влияние перераспределення Р (2,50) 0,2539 0,2120 0,1796 0,1537 0,1325 0,1147 0,0998 0,0871 0,0762 0,0668 0,0587 0,0517 Р (2,75) 0,1719 0,0460 0,0551 0,0330 0,0201 0,0124 0,0456 заны значения X. Р (3,00) 0,1130 0,0577 0,0307 0,0168 0,0093 0,0052 0,0030 Р (3,25) 0,0730 0,0216 0,0069 0,0023 0,0008 Р (3,50) 0,0461 0,0207 0,0096 0,0045 0,0022 0,0010 0,0005 0,0002 0,0001 случайных и существенных переменных прогнозирующей Количество переменных общее существенных случайных 40 0,976 способности2 Прогнозирующая способность 60 8< 100 1,46 1,95 2,44 150 3,66 Таблица 4.3 на величину 200 250 4,88 6,10 40 40 40 30 40 20 40 10 40 5 0 10 20 30 35 Средняя прогнозирующая способность Стандартное отклонение 47,4 49,0 48,5 50,6 51,9 49,6 1,62 49,4 50,3 48,2 51,0 52,6 50,3 1,66 53,5 53,5 52,8 53,9 58,0 54,3 2,08 58,2 56,8 59,2 59,3 61,7 59,0 1,80 72,8 73,6 76,0 69,6 73,3 73,9 2,29 80,4 81,2 85,0 80,2 81,0 81,6 1,97 83,2 82,8 85,2 80,8 85,6 83,5 1,95 а Приведенные значения прогнозирующей способности усреднены по пяти независимым процедурам обучения. В начале каждой колонки значений прогнозирующей способности указаны объемы обучающих выборок и результирующие значения X. Распознавание образов: линейные днскриминантные функции 123 прогнозирующей способности. В этих случаях прогнозирующая способность отражает полноту представления обучающей выборкой всей выборки в целом. Это подтверждают результаты, приведенные в табл. 4.4. В таблице представлены результаты построения дискриминантных функций для пяти случайных обучающих выборок. Если бы увеличение прогнозирующей способности классификаторов было связано с уменьшением вероятности случайных корреляций, тогда следовало бы ожидать, что выборка из 200 элементов теряла бы свою прогнозирующую Таблица 4.4 Влияние на величину прогнозирующей способности последовательного добавления к векторам-образам равномерно распределенных случайных переменных" Количество переменных Обучающая выборка Обучающая выборка объемом 100 объемом 200 общее 20 25 30 35 40 существенных 20 20 20 20 20 случайных 0 5 10 15 20 X 4,76 3,85 3,23 2,78 2,44 Прогнозирующая способность 76,6 77,0 68,2 63,4 59,2 к 9,52 7,24 6,46 5,56 4,88 Прогнозирующая способность 94,2 91,6 88,6 86,2 85,0 Значения, приведенные в каждой строке, получены усреднением по пяти случайным обучающим выборкам. Вся совокупность данных содержит 300 векторов. способность медленнее, чем выборка из 100 элементов. Одинаковое уменьшение прогнозирующей способности для обеих выборок можно считать указанием на то, что различие в прогнозирующих способностях выборок из 200 и из 100 элементов обусловлено тем обстоятельством, что выборка из 200 элементов более представительна, чем выборка из 100 элементов. Поскольку коэффициент корреляции между убыванием прогнозирующих способностей равен 0,98, то последний довод представляется наиболее правдоподобным. На основании этих наблюдений можно предположить, что меньшая прогнозирующая способность выборок с X < 2,4 (табл. 4.3) вызвана теми же эффектами. На самом деле при X < 2,4 на прогнозирующую способность начинают влиять случайные корреляции. Чтобы подтвердить это, с помощью вариационного метода отбора признаков [9] была предпринята попытка отобрать признаки, относящиеся к существенным переменным. Оказалось, что ни в одной из обучающих выборок с Л < 2,44 невозможно отличить существенные переменные от несущест-
124 Глава 4 венных. Напротив, при X > 2,44 с помощью процедуры отбора удалось выделить все существенные переменные. Этот факт показывает, что в выборках с низкими значениями X существуют зависимости, в которых несущественные переменные играют важную роль. В этом случае низкие значения прогнозирующей способности отражают раз- упорядочивающий вклад несущественных переменных в процедуру классификации. Надежность выявления зависимостей с помощью методов распознавания образов зависит от того, правильно ли используются эти методы. Основные условия правильного применения методов распознавания образов не зависят от вида дискриминантной функции и связаны с количеством объектов, которое требуется для выявления нетривиальной зависимости. Было показано, что, несмотря на реальность существования зависимости, попытки выявить ее при значениях X < 3,0 обречены на неудачу. В то же время при низких значениях X велика вероятность получения линейной дискриминантной функции для выборок, в которых на самом деле не содержится никакой информации. Невозможность выявления зависимости, действительно содержащейся в анализируемых данных, была показана с помощью процедуры отбора признаков, которая на основании результатов классификации находит наиболее значимые признаки. В результате применения такой процедуры к выборкам с очень малыми значениями X многие случайные переменные были идентифицированы как существенные. Этот результат показывает, что методы отбора признаков,' а также методы классификации нельзя применить в тех случаях, когда данные переопределены. Оказывается, что, располагая переопределенной выборкой, нельзя использовать результаты классификации для уменьшения количества признаков до величины, обеспечивающей приемлемое значение параметра X. Соблюдение указанных условий вовсе не гарантирует надежности полученной зависимости, а только снижает до приемлемого уровня вероятность получения случайной зависимости. Поэтому результаты работы любого классификатора должны быть проверены на объектах, которые не использовались для построения дискриминантной функции или в процедуре отбора признаков. Только успешный результат классификации неизвестных объектов может служить критерием применимости найденной дискриминантной функции. Сделаем некоторые выводы. Все вышеприведенные рассуждения основаны на предположении о том, что анализируемые данные размещены хорошо. Если это условие не выполнено, то рассмотренные выше ограничения становятся менее строгими. Действительно, плохо размещенные данные могут свидетельствовать в пользу линейного соотношения и при значениях X < 3,0. Однако вопрос о том. насколько сильно ослабевают в таких случаях ограничения, до конца не выяснен. Если отношение количества объектов к количеству образов: линейные дискриминантные функции 125 еменных не превосходит 3:1, то требуются дополнительные доказательства существования обнаруженной зависимости. Отсутствие достаточных доказательств ставит под сомнение любые результаты, полученные при значениях X < 3,0. В случае хорошо размещенных данных при значениях X < 3,0 непараметрический линейный классификатор не может различить содержащиеся в них зависимости. Результаты, полученные с помощью классификатора, работающего в подобных условиях, ненадежны, если только не представлены какие-либо дополнительные доказательства. ВАРИАЦИОННЫЙ МЕТОД ОТБОРА ПРИЗНАКОВ Под отбором признаков понимается метод понижения размерности пространства признаков, с помощью которого не существенные для распознавания дескрипторы отбрасываются, и сохраняются только те признаки, которые необходимы для разделения выборки на два класса. Если классы линейно разделимы, то пространство признаков должно остаться линейно разделимым и после отбора признаков. Если выборка линейно неразделима, то классификационная функция ошибки полученного пространства признаков не должна превышать функцию ошибки исходного пространства признаков. Наиболее хорошо разработаны статистические методы отбора признаков, основанные на использовании априорной информации о функциях плотности вероятности анализируемых классов. Такие методы часто связаны с диагонализацией, вращением и другими линейными преобразованиями. В задачах по исследованию связи между структурой и активностью очень часто нельзя сделать никаких предположений о распределении данных. Поэтому возникает необходимость использования непараметрических методов отбора признаков. Было описано несколько методов отбора, основанных скорее на интуитивных соображениях, чем на строгих математических выводах [10 — 12]. К непараметрическим методам отбора относится также и вариационный метод. В отличие от других методов он основан на модели построения решающей плоскости линейной обучающейся машиной. Вариационный метод отбора признаков идентифицирует существенные дескрипторы путем ранжирования их в соответствии с величинами относительных дисперсий компонент весового вектора, рассчитанными с помощью ряда обученных весовых векторов. Затем дескрипторы, соответствующие большим значениям относительной дисперсии, могут быть идентифицированы и отброшены в порядке их появления в упорядоченном списке. Процедура обучения ряда весовых векторов, с помощью которого формируется этот список, работает с учетом особенностей линейной обучающейся машины. Теория вариационного метода подробно обсуждается в следующем
126 Глава 4 Разрешенная область Рис. 4.4. Пример зависимости W„ от Х„. разделе. Следующие несколько параграфов посвящены изложению особенностей применения вариационного метода отбора признаков. Вспомним, что данные представляются в виде набора векторов, к которым добавлено дополнительное измерение для того, чтобы решающая плоскость проходила через начало координат. Первое условие применения вариационного метода заключается в оптимизации этой компоненты, которую мы обозначим символом х„. Во время обучения величине х„ обычно присваивается какое-либо подходящее значение, которое обеспечивает как хорошую прогнозирующую способность, так и высокую скорость обучения. Вариационный метод требует, чтобы величина х„ принадлежала определенной области значений. Для этого процесс обучения проводится со значением х„, меньшим или равным среднему от абсолютных значений всех компонент векторов выборки. Далее проводится обучение весовых векторов с последовательно возрастающими значениями величины х„, причем предыдущий весовой вектор используется в качестве начального приближения для последующего весового вектора. Обычно приращения величины х„ изменяются в интервале от 1 до 100. Затем строится график зависимости и-й компоненты весового вектора от последовательно возрастающих значений величины х„. Типичный вид такой зависимости показан на рис. 4.4. Часть кривой, имеющая наименьший наклон, называется областью разрешенных значений х„. Для успешной работы вариационного метода значение компоненты х„ должно принадлежать этой области. Второе условие заключается в обучении достаточного количества различных весовых векторов со значением х„, принадлежащим области разрешенных значений. Количество таких весовых векторов зависит от характера выборки. Как правило, рабочие характеристики вариационного метода улучшаются при увеличении количества используемых при анализе весовых векторов. образов: линейные днскриминантные функцнн 127 Реализация вариационного метода на основе линейной обучающейся машины описана в работе [9]. Применение вариационного метода отбора признаков в исследованиях лекарственных средств описано в гл. 6. Здесь же подробно рассмотрено только приложение вариационного метопа к искусственно сформированным выборкам с известными характеристиками. Эти данные представляют собой идеальную модель для демонстрации эффективности вариационного метода. Далее они называются данными DGEN. Было сформировано пять выборок DGEN, каждая из которых содержала 200 точек 50-мерного пространства. Выборки отличались друг от друга только количеством существенных координат, которые определяют свойство разделимости выборки на классы. Были построены выборки, содержащие 5, 15, 25, 35 и 45 существенных компонент. Каждая выборка была нормирована таким образом, что среднее значение каждой компоненты стало равным нулю, а стандартное отклонение 20. В результате получились линейно разделимые выборки с т существенными компонентами и с 50 — т несущественными компонентами. Исключение любой из существенных компонент приводит к потере свойства линейной разделимости, исключение же любого количества несущественных компонент не влияет на линейную разделимость выборки. Будут сопоставлены рабочие характеристики вариационного метода и одного из первых непараметрических методов отбора признаков по знаку компонент весовых векторов [10]. Последний был разработан на основе эмпирического наблюдения того факта, что во многих случаях знак несущественных компонент весовых векторов изменяется в ряду весовых векторов, рассчитанных с помощью начальных приближений, выбранных случайным образом. В вариационном методе также формируется набор весовых векторов и рассчитываются выборочные относительные дисперсии каждой компоненты. Расчет проводится по следующим формулам: Rj = ^-, (4-29) Щ П ^=-^hrZ(Wj'*~*j)2' (4'30) к = 1 Здесь j — индекс компоненты, к — индекс весового вектора, ws - выборочное среднее j-й компоненты весового вектора, п - количество обученных весовых векторов. Далее относительные дисперсии упорядочиваются по возрастанию. Компоненты, имеющие наименьшие относительные дисперсии, наиболее существенны для разделимости. Компоненты с наименьшими значениями Rj наименее существенны для разделимости. Компоненты исключаются
128 Глава 4 в порядке уменьшения величины Rj. Оставляются те компоненты, которые дают классификатору информацию, достаточную для разделения выборки на классы. Иногда возникает необходимость в неоднократном формировании упорядоченного списка относительных дисперсий. Обычно эта необходимость связана с теми случаями, когда при построении списка использовалось недостаточное количество весовых векторов или когда п-я компонента весового вектора изменяется в слишком широких пределах. Наилучшие результаты получаются тогда, когда относительная дисперсия п-тл компоненты принимает значения в пределах 10— 15% от нижней границы упорядоченного списка дисперсий. Чем больше значение х„, тем меньше дисперсия и-й компоненты весового вектора. Метод отбора по знаку компонент весовых векторов основан на том факте, что получаемые линейной обучающейся машиной весовые векторы являются функцией порядка, в котором данные предъявляются классификатору, начального приближения весового вектора и величины х„. Варьирование одного или нескольких этих параметров приводит к ряду различных весовых векторов, которые затем сравниваются по знаку. Отбор признаков методом знаков был проведен с прмощью 6 различных начальных приближений весового вектора: 1) w. = l/j/и для всех j; 2) Wj = — 1/уп для всех j; 3) vv,- = 1/yn для j = 1, 2, ..., п - 1 и w„ = - 1/yn; 4) wj = - 1/yn для j =1, 2, ..., ..., n — 1 и w„ = 1/yn; 5) Wj = 0 для) = 1, 2, ..., n — 1 и w„ = 1; 6) wj = 0 для j = 1, 2, ..., n - 1 и w„ = - 1. Выбор этих начальных приближений не является обязательным, можно было бы взять любые другие 6 начальных приближений. Процедура отбора признаков методом знаков заключалась в последовательном применении следующих операций. Строились два весовых вектора. Первый весовой вектор строился с помощью одного из трех начальных приближений (1, 3 или 6) при заданном исходном порядке следования элементов анализируемой выборки. Второй весовой вектор строился с помощью того же начального приближения и выборки, первоначальный порядок расположения элементов которой был изменен путем случайных перестановок. Затем сравнивались знаки соответствующих компонент двух весовых векторов, и компоненты, имеющие разные знаки, отбрасывались. Далее анализируемая выборка снова подвергалась процедуре отбора, заключающейся в случайном изменении порядка элементов выборки и последующем обучении весовых векторов. Этот процесс повторялся до тех пор, пока объем выборки не переставал уменьшаться и не были использованы все заданные начальные приближения весовых векторов. Результаты отбора представлены в верхней части табл. 4.5. Как видно из таблицы, процедура отбора методом знаков позволила исключить только часть несущественных компонент. р опознавание образов: линейные дискриминантные функции 129 Таблица 4.5 результаты отбора признаков, полученные с помощью модельных выборок Выборка Количество шагов Количество отобранных дескрипторов Начальное приближение весового вскт ора Метод знаков компонент весового вектора 4 2 4 4 1 3 2 1 4 4 2 3 1 1 1 — - - - - 35 38 38 39 44 41 31 44 40 45 46 46 49 50 50 5 15 25 35 45 Число ] обр Начальное 1024 1722 2332 1990 2513 1 3 6 1 3 6 1 3 6 1 3 6 1 3 6 коррекций череч атную связь Конечное 76 356 804 1099 2138 Вариационный метод Результаты применения вариационного метода отбора признаков к тем же пяти выборкам DGEN приведены в нижней части табл. 4.5. В каждом из пяти случаев были идентифицированы все существенные и исключены все несущественные компоненты. В последних двух колонках нижней части табл. 4.5 приведены количества коррекций через обратную связь, необходимые для построения разделяющей плоскости. Видно, что количество коррекций резко уменьшилось после исключения несущественных компонент. Во всех случаях сохранилась 100%-ная линейная разделимость данных на два класса. В табл. 4.6 приведен упорядоченный список относительных дисперсий, полученный с помощью вариационного метода. Результат был получен на первой выборке DGEN с помощью всего лишь трех весовых векторов, построенных с использованием начальных прибли- 9 Э. Стьюпер
130 Глава 4 Таблица 4.6 Результаты расчета дисперсий компонент модельной выборки Номер дескриптора 35 37 36 34 16 46 11 6 21 33 47 10 42 39 15 24 32 17 13 12 44 23 50 48 19 Рассчитанная дисперсия 9,6258 2,9912 1,0876 0,8762 0,7122 0,6876 0,5851 0,5024 0,4493 0,4034 0,3927 0,3924 0,3752 0,3673 0,3555 0,3037 0,2748 0,2689 0,2226 0,2209 0,2190 0,2043 0,1904 0,1824 0,1822 Номер дескриптора 7 25 41 .38 20 31 43 40 45 28 27 51 18 22 29 26 8 30 9 49 4 2 3 1 5 Рассчитанная дисперсия 0,1666 0,1526 0,1471 0,1456 0,1377 0,1318 0,1209 0,1073 0,1047 0,1003 0,0919 0,0860 0,0748 0,0674 0,0642 0,0612 0,0554 0,0542 0,0322 0,0210 0.0058 0,0051 0,0044 0,0025 0,0017 жений 1, 3 и 5. Эта выборка содержит пять существенных компонент, имеющих номера от 1 до 5, и 45 несущественных компонент, имеющих номера от 6 до 50. Как видно из таблицы, пять признаков, определяющих разделимость выборки, попали в самую нижнюю часть упорядоченного списка, в то время как все не существенные для разделимости признаки имеют большие значения относительных дисперсий. Таким образом показано, что вариационный метод дает лучшие результаты, чем методы отбора, использованные ранее. Результаты исследований, проведенных вариационным методом, обсуждаются в гл. 6 и 7. В следующем разделе дано подробное описание теории вариационного метода. зиаваине образов: лниейиые дискрнминантиые функции 131 Построение алгоритма вариационного метода Создание вариационного метода в значительной степени было бусловлено возможностью построения в пространстве низкой размер- ости модели процессов, происходящих в пространствах высокой размерности. Настоящий раздел посвящен рассмотрению таких моделей. В качестве примера на рис. 4.5 показана выборка с одной существенной координатой у и одной несущественной координатой х. Третья координата z добавлена для того, чтобы векторы-образы и разделяющая плоскость проходили через общее начало. Оба класса линейно разделимы. Начало координат находится в точке О. Через Ау обозначим минимальное расстояние по оси у между двумя классами. В отсутствие координаты х Ау представляет собой максимальный размер области пересечения разделяющей плоскости ОВС и оси у. Отметим, что для 100%-ной разделимости выборки на две группы достаточно одной координаты у. Отметим также, что добавление координаты х увеличивает размер области пересечения разделяющей плоскости с осью у до Ау'. Таким образом участие компоненты х имеет характер шумового эффекта, что приводит к расширению области, через которую может проходить плоскость, разделяющая выборку на два класса. После добавления компоненты х расположение разделяющей плоскости ограничивается следующими условиями: 1) разделяющая плоскость пересекает ось у только в области Ау'; 2) эта плоскость проходит между двумя классами, не соприкасаясь с ними; 3) она всегда проходит через начало координат; 4) при любых изменениях положения эта плоскость всегда обращена к данному классу одной и той же стороной. Аналогичные ограничения налагаются на единичный вектор, перпендикулярный разделяющей плоскости и проходящий через начало координат (весовой вектор). Этот вектор определяет положение разделяющей плоскости. Его построение проводится в процессе обучения. Весовой вектор имеет три компоненты: Wx, Wy, Wz. Нужно показать, что при изменении положения решающей поверхности, разделяющей выборку на классы 1 и 2, относительная дисперсия величины Wx (несущественная компонента) больше относительной дисперсии величины Wy (существенная компонента). Для этого необходимо рассмотреть влияние увеличения расстояния множества данных от начала координат на величину Wy. На рис. 4.6 показана проекция весового вектора W на координатную плоскость yz. Проекция весового вектора обозначена через Wp, Ч* - угол между Wp и осью z, 0 — угол между проекцией разделяющей плоскости В и осью z, Ф — угол между В и Wp. При правильной классификации данных разделяющая плоскость может проходить только через область Ау'. Абсолютное положение Ау' определяется конфигурацией множества данных, а вектор Wp постоянен при заданном наклоне Разделяющей поверхности к оси х (несущественная координата). Увели- 9*
132 Гла] ва 4 Рис. 4.5. Ориентация гиперплоскости, разделяющей выборку данных в пространстве с одной существенной и одной несущественной компонентой. Рис. 4.6. Иллюстрация зависимости между изменениями zt и Wp. чение расстояния Zj вызывает уменьшение величины 9, возрастание Ч* и, следовательно, возрастание Wy и уменьшение Wr. Определим А9 как изменение угла 9 при перемещении весового вектора в пределах области А/. Величины AWy и AWZ определяются аналогично. Поскольку величина Ау' постоянна, то возрастание Zj вызывает уменьшение А9. уменьшение AT и, следовательно, уменьшение величин AWy и AWZ. При увеличении Zj уменьшается допустимая вариация компоненты Wz, соответствующая допустимому изменению угла 9. При больших zx ознаванне образов: линейные днскрнминантные функции 133 ичина Wy не зависит от изменений 9. В этом случае единственный ве в изменение величины Wy могут давать только перемещения В ового вектора в координатной плоскости ху. Если относительная пиация величины Wx превосходит соответствующую относительную вариацию величины Wy, то тогда мы получаем способ, с помощью оторого можно отличить существенные компоненты от несущественных. Выборочные дисперсии (или вариации) Vx и Vy компонент Wx и Wy можно рассчитать по следующим формулам: R К Ry — — \Wy\ 1 " rnr V2 V (W , где \ x - ^ (wx.k " l к = 1 1 " rnr V2 - V (IV Д " " „ 1 L \Wy,k " l к = 1 n — число весовых векторов, a Wx и Wy — выборочные средние Wx и Wr Ниже будет показано, что для достаточно представительной выборки весовых векторов, покрывающей любую область, совместимую с геометрическими характеристиками анализируемых выборок, выполняется соотношение Rx > Ry, т. е. несущественные компоненты имеют больший разброс значений, чем существенные. На рис. 4.7 изображена проекция Wp весового вектора из и-мерного пространства образов (в данном случае 3-мерного) в (п — 1)-мерное пространство (координатную плоскость ху). Поскольку компонента z фиксирована, то в результате такой проекции получается вектор постоянной длины с компонентами Wx и Wy. В данном случае представляют интерес только изменения проекции весового вектора. Обозначая длину вектора Wp через В, получим выражения для компонент вектора: ^ = .8 sin ос, (4.31) Wy = Bcos<x, (4.32) где ос — угол между вектором Wp и осью у (существенная координата). Будем считать, что угол ос изменяется в интервале от 0 до оес. Если а непрерывно изменяется в этом интервале, то среднее значение любой компоненты равно величине математического ожидания, рассчитанной Для этого интервала. Математическое ожидание функции д(х) определяется по формуле „„ <0М>= I g(x)P(x)dx, (4.33) гДе Р (х) — плотность вероятности распределения величины х в области
134 Глава 4 / / I .J_. Рис. 4.7. Проекция весового вектора на координатную плоскость ху. определения функции д (х). В рассматриваемом случае 1 1 Р(ос Яг J doc c J о Величины математических ожиданий равны 1В (У^хУ = J В sin ос — doe = —(1-£os occ), ос, ос. (4.34) (4.35) ID <Wy> = fBcosoc— doe = — sin occ. У о ac occ (4.36) Дисперсия компонент x и у в том же интервале равна величине второго центрального момента a2 = J 0(x)2P(x)dx-<0(x)>2. - аэ Соответствующие моменты равны (4.37) "с 1 В2 и2 = \В2 sin2 a —doe- (Wxy2 = -^ -sm2ac (l-cosocc) 2 4 a. (4.38) 1 oe. ac I 2 4 a2= jB2cos2a —doc-<W;>2 = ^r (-^ + -Lsin2«c--LSm2 «„). (4.39) образов: линейные дискриминантные функции 135 Рис. 4.8. Зависимость отношения дисперсий от ас. Полученные теоретические значения дисперсий при бесконечно большом количестве весовых векторов совпадают с соответствующими выборочными значениями. Поэтому, полагая Wx <WX), <wyy, V2 y у можно воспользоваться ранее введенными выражениями для относительных дисперсий компонент К. (4.40) R, = ~ R„ IW, \w. График отношения Ry/Rx приведен на рис. 4.8. Отметим, что в интервалах 0 ^ оес < 90° и 270° < оес ^ 360° это отношение меньше 1. Если Угол оес принимает значения за пределами указанных интервалов, то происходит нарушение одного или нескольких ограничений, наложенных на разделяющую плоскость. Таким образом при достаточно большом количестве весовых векторов, когда значения Vx и Vу дают хорошие оценки соответствующих теоретических величин, выполняется неравенство Rx > Ry. В интервале углов —45° ^ оес ^ 45° это неравенство всегда справедливо для любого количества весовых векторов, поскольку в этом интервале величина i"Wx/dac\ всегда больше, чем соответствующая производная Wr В пре-
(6 У Глава 4 Рис. 4.9. Система координат для данных с одной существенной и двумя несущественными компонентами. делах этого интервала для получения оценки дисперсий может оказаться достаточно всего лишь трех весовых векторов. В интервале — л/2 < осс < л/2 математическое ожидание Wx равно О, тогда как математическое ожидание Wy равно 2В/л. Если область допустимых положений разделяющей плоскости, связанных с перемещениями вдоль несущественной координаты, симметрична относительно оси у\ то относительная дисперсия компоненты х стремится к бесконечности, в то время как дисперсия компоненты у остается сравнительно малой. Введение дополнительных несущественных компонент не оказывает влияния на эти соотношения. Это можно показать на примере 4-мерного множества данных, компоненты которого хь х2, у и г представляют две несущественные компоненты, одну существенную и одну дополнительную компоненту, обеспечивающую общее начало. Считая, что величина компоненты z оптимизирована согласно правилам, изложенным ранее, получим проекцию вдоль оси z из 4-мерного в 3-мерное пространство (рис. 4.9). Поскольку величина компоненты z велика, то можно считать ее постоянной практически для любого расположения разделяющей плоскости. Поэтому проекция г весового вектора имеет постоянную длину. Используя сферические координаты и считая, что угол 0 изменяется в интервале 0 ^ 0 < 9С, при данном значении угла ф получим соотношения Wy = rcosQ, (4.41) образов: линейные днскрнмннантные функции 137 Р(0) = Wx = /• cos ф sin 0, 1 1 Jd0 (4.42) (4.43) с 1 Г COS tt) <WX> = J [r cos ф sin 0] b"d9 = —^-^(l-cos0c 0 ^c "c (4.44) (Wy) = jrcos0 — d0 = -^sin0c. 0 "c 0c (4.45) a2 = \r2 cos2 ф sin2 0 — d0 - (Wx}2 = r2 cos2 ф — sin20c - —-(1 - cos I 4 0. (4.46) a2= J r2cos20— d0-<Wy>2 = ^ + Tsm20c--sm2i (4.47) Эта система соотношений отличается от двумерного случая наличием константы, содержащей угол ф. При ф = 0 эти соотношения совпадают с полученными для двумерного случая. Отметим, что в соотношении для относительной вариации зависимость от ф исчезает, поэтому это соотношение идентично двумерному случаю. Отсюда следует, что в пространстве более высокой размерности будут выполняться соотношения, аналогичные полученным в только что разобранных примерах. Эти соотношения отличаются лишь постоянными множителями. Мы не проводим соответствующих выкладок, поскольку двумерной модели вполне достаточно для нахождения таких параметров линейной обучающейся машины, оптимизация которых позволяет отобрать признаки, не существенные для процесса разделения. Окончательные выводы могут быть сформулированы следующим образом: 1) при увеличении расстояния от множества данных до начала координат изменения компонент весового вектора, соответствующих существенным признакам, намного меньше изменений в расположении поверхности, разделяющей выборку на два класса, и 2) вариации существенных компонент весового вектора отражают изменения несущественных компонент. Несущественные компоненты, однако, могут
138 Глава 4 изменяться сильнее, чем существенные. Поэтому расчет относительных дисперсий компонент весового вектора при больших значениях zt дает возможность выявить те признаки, в которых не содержится информация, связанная с разделимостью выборки на классы. ЛИТЕРАТУРА 1. Nilsson N, J., Learning Machines, McGraw-Hill, New York, 1965. 2. Jurs P. C, Isenhour T. L„ Chemical Application of Pattern Recognition, Wiley- Interscience, New York, 1975. 3. Loftsgarden D. O., Quesenberry С. Р., A Non-parametric Estimate of a Multivariate Density Function. Annu. Math. Stat., 36, 1049 (1965). 4. Hellmon M. E„ The Nearest Neighbor Classification Rule with a Reject Option, IEEE Trans. Syst. Sci., Cybem., SSC-6, 179 (1970). 5. Cover Т. M., Rates of Convergence of Nearest Neighbor Decision Procedures, Proc. Annu. Hawaii Conf. Systems Theory, Isr, 413, 1968. 6. Cover T. M., Hart P. £., Nearest Neighbor Pattern Classification, IEEE Trans Inf. Theory, IT-13, 21 (1967). 7. Wagner T. J., Convergence of the Nearest Neighbor Rule, IEEE Trans Inf Theory, IT-17, 566 (1971). 8. Hart P. E., The Condensed Nearest Neighbor Rule, IEEE Trans. Inf Theory IT-14, 515 (1968). 9. Zander G. S., Stuper A. J., Jurs P. C, Nonparametric Feature Selection in Pattern Recognition Applied to Chemical Problems, Anal. Chem., 47, 1085 (1975). 10. Jurs P. C, Mass Spectral Feature Selection and Structural Correlations Using Computerized Learning Machines, Anal. Chem., 42, 1633 (1970). 11. Preuss P. R., Jurs P. C, Pattern Recognition Techniques Applied to the Interpretation of Infrared Spectra, Anal. Chem., 46, 520 (1974). 12. Liddell R. W., Ill, Jurs P. C, Interpretation of Infrared Spectra Using Pattern Recognition Techniques, Appl. Spectrosc, 27, 371 (1973). Глава 5 ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ИССЛЕДОВАНИЙ СВЯЗИ МЕЖДУ СТРУКТУРОЙ И АКТИВНОСТЬЮ: СИСТЕМА ADAPT В предыдущих главах этой книги дано подробное описание различных методов, используемых в исследованиях связи между структурой и активностью с помощью ЭВМ. Однако для того чтобы все эти методы можно было систематически применять для решения практических задач, соответствующие им процедуры необходимо привести к удобной для использования форме. Данная глава посвящена описанию интерактивной, модульной системы программ, получившей наименование ADAPT и предназначенной для проведения исследований связи между структурой и активностью с помощью ЭВМ. На рис. 5.1 показано, какими функциональными возможностями должна обладать система, осуществляющая исследования связи между структурой и активностью с помощью методов распознавания образов. Как видно из рисунка, система представляет собой совокупность операций, взаимодействие между которыми осуществляется путем непрерывной передачи приведенной к стандартному виду информации. Однако на этой упрощенной схеме не представлено практическое осуществление указанных операций. Для практического применения методов обработки химической структурной информации и распознавания образов в исследованиях связи между структурой и активностью необходимо располагать рядом средств, с помощью которых можно было бы манипулировать анализируемыми данными. Ниже приведен список операций, которые расположены в последовательности, показывающей их взаимосвязь. 1. Ввод и хранение молекулярных структур. Ввод осуществляется путем построения изображения структуры на экране графического дисплея. Структуры хранятся на дисковых накопителях в виде матриц связей. Предусмотрены возможности для добавления, исключения, изменения и вызова структур из памяти. Аналогичным образом можно вводить и хранить субструктуры для дальнейшего использования их в программах субструктурного анализа. 2. Ввод и хранение списка номеров соединений обучающей и контрольной выборки. 3. Расчет на основании матриц связей соединений дескрипторов молекулярных структур. 4. Построение трехмерных моделей структур с помощью метода молекулярной механики.
140 Глава 5 _ Матрицы Ввод,запо- связей мина ни е и хранение структур т Выборка Формирование донных -^-дескрипторов Анализ методом "распознавания образов Построение трехмерной модели Рис. 5.1. Программное обеспечение, необходимое для проведения исследования связи между структурой и активностью. 5. Расчет геометрических дескрипторов молекулярных структур. 6. Формирование на основании различных молекулярных дескрипторов массива данных. 7. Анализ данных с помощью следующих методов параметрической и непараметрической статистики и распознавания образов: а) множественная линейная регрессия, б) байесовский дискриминантный анализ, в) линейная обучающаяся машина, г) классификация по количеству ближайших соседей. 8. Отбор признаков, т. е. нахождение существенных для классификации признаков. Применение системы, осуществляющей все указанные операции, не ограничивается только исследованиями связи молекулярной структуры с биологической активностью, а может быть самым общим. Если анализируемый массив данных состоит только из молекулярных структур, то необходимо выполнять все указанные операции. Если же анализируются числовые данные (например, масс-спектры), то операции 3, 4 и 5 не нужны и анализ начинается с операции 6. Независимо от происхождения анализируемых данных все они преобразуются в матрицу данных, каждая строка которой содержит все признаки данного объекта, а каждый столбец — значения данного признака для всех объектов. Предварительная обработка и отбор признаков выражаются в форме преобразований матрицы данных. Далее путем выполнения различных операций над полученной матрицей производится классификация и кластеризация данных. Одна из трудностей реализации методов распознавания образов заключается в разработке способов ввода, разметки, хранения и доступа к матрицам данных. Если все эти процедуры организованы с учетом только данной конкретной задачи, то может оказаться, что процедуры, успешно обрабатывающие какой-либо один тип данных, будут непригодны для анализа данных другого типа. Таким образом, одним из условий универсальности системы распознавания образов является наличие в ней не зависящей от вида данных системы управления массивами. Рис. 5.1 не отражает все многообразие задачи обработки данных. Система ADAPT 141 На самом деле данные должны быть не только введены, но также записаны в запоминающее устройство и помечены. Каждый объект должен быть идентифицирован, отнесен к некоторому классу и помечен соответствующим номером. Требуется, чтобы в случае необходимости данные можно было легко перенумеровывать. Легкость присвоения или изменения номеров объектов чрезвычайно важна для эффективного функционирования всей системы. Также важен учет природы вводимых данных. Так, представленные в числовой форме спектры и сложные молекулярные структуры требуют самых разных условий хранения. Поскольку операции, с помощью которых проводится обработка данных разной природы, могут сильно отличаться друг от друга, то система должна иметь развитую модульную структуру. Этим требованиям удовлетворяет система ADAPT Каждая процедура этой системы может работать независимо, получая всю необходимую информацию либо с дисковых накопителей, либо в результате взаимодействия с пользователем. Такая организация системы имеет ряд преимуществ, наиболее существенным из которых следует считать экономию памяти. Модульная структура, которую обеспечивает сочетание независимых процедур, значительно упрощает систему и при необходимости дает возможность включать в нее дополнительные алгоритмы. Таким образом, система в целом может удовлетворить любые требования пользователя, поскольку в действие могут быть введены все те процедуры, которые относятся к рассматриваемой задаче. К тому же эти процедуры не требуют больших затрат, поскольку их реализация не обязательно связана с использованием больших ЭВМ. И наконец, процедуры являются интерактивными в том смысле, что пользователь может сам выбрать метод обработки данных. Таким образом, система ADAPT является как бы основой, к которой можно подключить неограниченное количество процедур. Каждая процедура включает свой собственный и независимый набор операций, начиная от ввода данных и кончая выводом результатов. Главным достоинством системы является то, что пользователь имеет большой выбор способов обработки данных и может активно вмешиваться в вычислительный процесс. Взаимодействие с системой ADAPT осуществляется посредством электронно-лучевого терминала Тектроникс 4012. Данные хранятся в последовательно расположенных на дисковых накопителях массивах. Такая форма хранения обеспечивает легкий доступ и быстрое манипулирование данными. Составляющие систему ADAPT процедуры и обрабатываемые этими процедурами массивы данных занимают около Двух миллионов байтов машинной памяти. В настоящее время расчеты с применением системы ADAPT проводятся на 16-битовом компьютере MODCOMP П/25, который установлен на химическом факультете Пенсильванского университета.
142 Глава 5 SFILES -^ UDRAW ПК AW PUTSTR Ввод , изображении структур Вывод структур на экран GETSTR Массива структурной информации Рис. 5.2. Ввод, хранение и просмотр структур с помощью процедуры SFILES. СИСТЕМА УПРАВЛЕНИЯ МАССИВОМ СТРУКТУРНЫХ ДАННЫХ Основной вид информации, обрабатываемой системой ADAPT,— химические структуры. Процедура SFILES (рис. 5.2) управляет вводом, хранением, исправлением, просмотром и исключением химической структурной информации. Любая из этих операций может быть осуществлена пользователем в процессе взаимодействия с процедурой SFILES. Отдельные химические структуры вводятся в систему путем построения их изображения на экране электронно-лучевой трубки под контролем процедуры UDRAW. Информация, содержащаяся в двумерном изображении, преобразуется процедурой UDRA W в уплотненную матрицу связей, в которой закодированы типы атомов, типы и последовательность связей. Структурные циклы распознаются и помечаются автоматически процедурой FINDRG. Более подробное описание операций, выполняемых процедурой UDRAW, дано в гл. 3. Время ввода структур определяется исключительно скоростью построения изображений структур пользователем на экране электронно-лучевой трубки. Как только структура посредством процедуры UDRAW введена в процедуру SFILES, ей сразу же присваивается номер прямого доступа (НПД), и вся информация, заключенная в данной структуре, зашифровывается этим номером. После того как структура введена на дисковые накопители, она может быть подвергнута анализу с помощью процедуры SFILES. Любая из структур может быть автоматически повторно изображена на экране в той ориентации, в какой она была первоначально введена. При необходимости изображение может быть помечено в соответствии с типом атомов, нумерацией Система ADAPT 143 матрицы связей, информацией о содержании в структуре циклов и т. д. Накопленную информацию можно изменить или исключить с помощью директив процедуры SFILES. Ненужные структуры можно легко исключить из массива структур, а новые добавить. Последняя версия процедуры SFILES может обслуживать библиотеку, состоящую из 1000 структур и дополнительной сопутствующей информации. Размер массива структурных данных определяется исключительно доступным объемом машинной памяти. Для ускорения ввода структур в процедуре SFILES используются специальные структурные заготовки, которые могут быть вызваны на экран и далее дополнены до требуемой молекулярной структуры. Таким образом существенно облегчается ввод серий структурно подобных молекул. Система позволяет также строить трехмерные модели структурных каркасов. Моделирование структурных каркасов до их использования в построении сложных молекул дает большую экономию машинного времени, которое затрачивается на поиск конфигурации с минимальной энергией. В качестве дополнительной информации о каждой структуре можно использовать 20-буквенное имя и 4-буквенную метку, например порядковый номер структуры. Для того чтобы сделать процедуру SFILES машинно независимой, процедуры ввода и вывода включают специальные процедуры GETSTR и PUTSTR. Перенос процедуры SFILES на другую ЭВМ или установка дисковых накопителей другого типа требуют изменения только этих дополнительных процедур, играющих роль интерфейса. Вместе с библиотекой молекулярных структур процедура SFILES обслуживает также библиотеку, содержащую до 100 субструктур. Массивы субструктур обрабатываются с такой же легкостью, как и массивы структур. Обращение к массивам субструктур осуществляется посредством процедуры UDRAW. Процедура SFILES позволяет по желанию пользователя вызывать на экран дисплея из памяти машины нужную информацию о молекулярных структурах, а также различную справочную информацию. Например, можно вызвать полный список структур, снабженный номерами НПД, или выборочно вывести на экран структуры, имеющие данные метки. Все директивы вводятся в процедуру SFILES с экрана дисплея. РАСПРЕДЕЛЕНИЕ ДАННЫХ ПО КЛАССАМ Следующий за вводом и записью в память машины этап обработки данных - распределение их по классам. Все решаемые системой ADAPT задачи сводятся к задаче разбиения на два класса. В системе имеется процедура, с помощью которой можно быстро изменить распределение объектов по классам. Поэтому задачу разбиения данных на несколько классов можно свести к ряду задач разбиения на два класса.
144 Глава 5 Система ADAPT позволяет анализировать массивы, содержащие до 300 объектов. Для обработки данных формируется рабочий список объектов, состоящий из НПД соединений, структуры которых хранятся на дисковых накопителях. При формировании рабочего списка проводится отнесение объектов к одному из двух анализируемых классов. Распределение объектов по классам, зафиксированное в рабочем списке, может быть легко изменено. Поэтому одну и ту же выборку данных можно анализировать многократно, каждый раз с новым распределением объектов по классам. Это особенно удобно в тех случаях, когда исследуемое свойство носит количественный или полу. количественный характер и исследователь желает провести целую серию разбиений с разными уровнями отнесения объектов к положительному и отрицательному классам. Все рассмотренные выше процедуры обработки проходящего через систему ADAPT информационного потока носят интерактивный характер и протекают в режиме реального времени. Процесс формирования массива анализируемых данных легко направляется самим пользователем, а процесс обработки данных может быть прослежен путем их вывода на экран дисплея или на печатающее устройство. Любые изменения вносятся чрезвычайно просто. Время внесения изменений определяется скоростью задания исследователем новых параметров. Директивы управления формированием списков анализируемых соединений посылаются с экрана дисплея или с устройства ввода перфокарт. Карточный ввод удобен тем, что с его помощью формирование массива анализируемых данных можно провести буквально за несколько секунд. ФОРМИРОВАНИЕ ДЕСКРИПТОРОВ Система ADAPT имеет модульную структуру, вследствие чего процедуры формирования дескрипторов работают независимо и всегда может быть добавлена новая процедура. Система формирует дескрипторы двух основных типов — топологические и геометрические. Топологические дескрипторы формируются на основе матрицы связей соединения. Геометрические дескрипторы рассчитываются на основе предварительно построенной с помощью ЭВМ трехмерной модели молекулы. Каждая процедура формирования дескрипторов работает независимо, получая необходимую структурную информацию из массивов структурных данных. В результате формируется массив дескрипторов. Все дескрипторы накапливаются и хранятся в главном массиве дескрипторов. Каждому из них присваивается 4-буквенное имя и численный индикатор, с помощью которых в дальнейшем можно провести полную идентификацию содержимого дескрипторного массива. Дескрипторы представляют собой действительные или целые числа в зависимости от того, к какому типу они принадлежат. Каждая из Система ADAPT 145 процедур формирования дескрипторов может обрабатывать либо одновременно все соединения, входящие в рабочий список, либо каждое соединение по отдельности. Вспомогательная процедура DFILES осуществляет обслуживание массивов дескрипторов и взаимодействие с ними. С ее помощью можно просмотреть содержимое массива дескрипторов, выдать список сформированных к текущему моменту дескрипторов, исключить какой-либо дескриптор из накопителя, сформировать массивы тестовых дескрипторов и сохранить их для проведения испытаний, уплотнить главный массив дескрипторов и многое другое. Принципы, на которых основаны процедуры расчета дескрипторов, подробно изложены в гл. 3. В последующих разделах даются краткие описания всех применяемых в настоящее время процедур. DMFRAG: расчет молекулярных фрагментов Процедура DMFRAG рассчитывает количества следующих молекулярных фрагментов соединений: 1. Количество атомов в структуре. 2. Количество атомов углерода в структуре. 3. Количество атомов кислорода в структуре. 4. Количество атомов азота в структуре. 5. Количество атомов серы в структуре. 6. Количество атомов фтора в структуре. 7. Количество атомов хлора в структуре. 8. Количество атомов брома в структуре. 9. Количество атомов иода в структуре. 10. Количество атомов фосфора в структуре. Н. Количество связей в структуре. 12. Количество простых связей в структуре. 13. Количество двойных связей в структуре. 14. Количество тройных связей в структуре. 15. Молекулярный вес соединения. Дескрипторам фрагментов присваивается имя FRAG и приведенные в списке номера. DMSSS: поиск молекулярных субструктур Эта процедура рассчитывает дескрипторы с помощью алгоритма поиска субструктур. Необходимые субструктуры вводятся в ЭВМ и хранятся в виде массива субструктур с помощью процедуры SFILES. Значения их НПД передаются в процедуру DMSSS в процессе поиска субструктур. При необходимости субструктурный поиск может быть проведен с учетом информации о наличии в соединении структурных циклов. \MFLAG = 0, если информация о циклах используется; MFLAG — — 1, если эта информация не используется.) При желании в качестве дескриптора можно также рассчитать молекулярную связность субструктуры в '0 Э. Стьюпер
146 Глава s структуре. (МС = О, если молекулярную связность рассчитывать не нужно; МС—\ в противном случае.) Процедура поиска субструктур может как просто определить наличие или отсутствие рассматриваемого субструктурного фрагмента в структуре, так и рассчитать число таких фрагментов в структуре. При хранении массиву структурных дескрипторов придается список библиотечных номеров. Субструктурным дескрипторам присваиваются метки: SSS, когда дескриптор задает количество субструктур в структуре; ENVR, когда дескриптор характеризует молекулярную связность субструктуры в структуре. В качестве числовых индикаторов дескрипторов используются номера субструкту'р в рабочем списке — с положительным знаком для MFLAG = 0 и отрицательным знаком для MFLAG = — 1. DMCON: молекулярная связность Процедура DMCON рассчитывает дескрипторы молекулярной связности (М. С.) соединений. Рассчитываются шесть типов дескрипторов связности: 1. Дескриптор М. С. 1-го пути по всем связям структуры. 2. Дескриптор М. С. 1-го пути, исправленный с учетом наличия циклов. 3. Дескриптор М. С. 1-го пути, рассчитанный с учетом валентностей гетероатомов и исправленный с учетом циклов. 4. Дескриптор М. С. 2-го пути. 5. Дескриптор М. С. 3-го пути. 6. Дескриптор М. С. 4-го пути. Этим дескрипторам присваивается метка MOLC, и в качестве индикаторных величин используются значения номеров в вышеприведенном списке. DMVOL: молекулярный объем Эта процедура рассчитывает молекулярный объем соединения путем суммирования объемов сфер с радиусами Ван-дер-Ваальса и вычитания объемов областей перекрывания. По выбору исследователя расчет может быть выполнен с использованием либо координат трехмерной модели, либо табличных значений длин связи. Этим дескрипторам присваивается метка MOLV и индикаторный номер 1. DMGEO: молекулярная геометрия Эта процедура рассчитывает главные моменты инерции молекулы соединения. Их располагают в порядке убывания величины: наибольший момент обозначают через X, следующий по величине - Y, наименьший - Z. Также рассчитывают отношения X/Y, X/Z и Y/Z. Этим шести дескрипторам присваивается метка GEOM и значения индикаторных номеров с 1 по 6. Геометрические дескрипторы рассчитываются на основе Система ADAPT 147 хмерной модели молекулы, построенной путем минимизации энергии связей с помощью процедуры, описаннрй в гл. 3. В результате работы рассчитывающих дескрипторы процедур массив дескрипторов формируется для каждого соединения, входящего в рабочий список. Эти массивы дескрипторов, или их подмножества, далее можно подвергнуть анализу методом распознавания образов с помощью оставшихся процедур системы ADAPT. Помимо структурной информации система ADAPT может воспринимать информацию, заданную в обобщенной векторной форме. Ввод такой информации в систему ADAPT имитирует работу процедур расчета дескрипторов. Процедура внешнего ввода дескрипторов DEXTR позволяет вводить в систему уже рассчитанные дескрипторы. Эта процедура также выполняет ряд сервисных функций. Дескрипторы можно ввести как самостоятельный набор данных, который в дальнейшем будет использоваться, например, для проверки работы системы распознавания образов. В другом варианте ввода они включаются в массив дескрипторов, полученный в результате обработки рабочего списка соединений. По выбору пользователя дескрипторы можно вводить либо по одиночке, либо группами, соответствующими анализируемым соединениям, с помощью форматного или бесформатного ввода. Они могут быть действительными или целыми и в дальнейшем накапливаются и хранятся под именем EXTR. Внешние дескрипторы могут представлять собой заданную в числовом виде спектральную информацию, результаты физических измерений, данные, поступающие непосредственно с экспериментальных установок, или же являются дескрипторами, рассчитанными путем обработки рабочего списка соединений процедурами, отличными от процедур системы ADAPT. Например, если для каждого соединения, входящего в рабочий список, проведены физико-химические измерения, то они могут быть введены в систему ADAPT с помощью процедуры DEXTR и использованы в последующем анализе наряду с дескрипторами, рассчитанными внутри этой системы. Таким образом можно сформировать массив данных, содержащий информацию, полученную из самых разнообразных источников. С помощью двух вспомогательных процедур пользователь может либо проанализировать каждый дескриптор по отдельности, либо подвергнуть дескрипторы математическим преобразованиям. С помощью процедуры MATH дескриптор можно преобразовать, образуя от него экспоненциальную или логарифмическую функцию или извлекая из него квадратный корень. Над парой дескрипторов можно также провести операции сложения, вычитания, умножения или деления. Процедура ^ORCOF рассчитывает коэффициенты линейной регрессии между всеми парами дескрипторов и выдает результаты на печать. Путем совместного применения процедур MATH и CORCOF можно провести анализ зависимостей между парами (тройками и т. д.) дескрипторов. 10*
148 Глава S Итак, на расематриваемой стадии обработки набор данных состоит из рабочего списка соединений и ряда массивов дескрипторов, которые независимо хранятся на дисках. Для проведения дальнейшего анализа этих данных необходимо сформировать из них матрицу данных. АКТИВНАЯ ВЫБОРКА ДАННЫХ: ФОРМИРОВАНИЕ, ОТБОР ПРИЗНАКОВ И КЛАССИФИКАЦИЯ Первый шаг дальнейшего анализа заключается в формировании активной выборки из результатов измерений, которые исследователь считает наиболее значимыми. Эту операцию выполняет процедура COLATE. Процедура COLATE позволяет испытать целую серию подмножеств исходного набора дескрипторов с тем, чтобы выделить из них наилучшее. Сформированную таким образом активную выборку данных можно далее подвергнуть обработке самыми разнообразными методами распознавания образов. Процедура COLATE формирует активную выборку данных в виде набора дескрипторов. Каждая компонента дескриптора представляет собой значение дескриптора для данного элемента выборки. Эти компоненты расположены в последовательности, соответствующей порядку следования соединений в рабочем списке. В качестве примера рассмотрим выборку из 300 спектров, каждый из которых включает 100 пиков. Процедура COLATE формирует из этих данных матрицу размером 100 х 300. Строки матрицы соответствуют интенсивностям пиков в положениях, пронумерованных от 1 до 100. Столбцы, пронумерованные от 1 до 300, соответствуют разным спектрам. Такая форма представления данных очень удобна для обработки с помощью классификатора или какой-либо другой программы. Для этой цели формируются два массива, содержащие адреса строк и столбцов матрицы данных. В дальнейшем на основании результатов классификации и отбора признаков эти массивы могут быть переформированы и с их помощью указаны номера элементов и дескрипторов исходного набора данных, наиболее значимых для анализа. Таким образом получается активная выборка данных. В системе имеются сервисные процедуры, с помощью которых могут быть сформированы обучающая и контрольная выборки, изменено разделение объектов на классы и исключены незначимые дескрипторы. Многие из этих операций могут быть осуществлены просто путем переформирования массивов строк и столбцов матрицы данных. Такой прием сильно облегчает и ускоряет манипулирование элементами активной выборки данных. На этом этапе данные готовы для анализа. Система ADAPT включает в себя множество процедур, реализующих различные методы предварительной обработки и предварительного отбора признаков. Имеется также целый ряд процедур, с помощью которых рассчитываются коэффициенты корреляции, значение критерия Фишера, разде- Снстема ADAPT 149 яК)Щие способности отдельных дескрипторов и дескрипторов, взятых попарно, [/-статистика и другие величины. После предварительной обработки данные подвергаются дискрими- нантному анализу или анализу с помощью какого-нибудь другого метода классификации. Система ADAPT располагает всеми общепринятыми методами классификации: линейной обучающейся машиной, процедурой классификации по К ближайшим соседям, процедурой метода наименьших квадратов, алгоритмами кластеризации и т. д. Получаемые в результате работы процедур дискриминантного анализа весовые векторы далее можно использовать для отбора признаков вариационным методом. Отбор признаков позволяет выделить минимальный набор дескрипторов, с помощью которого может быть произведено линейное разбиение анализируемой выборки. Исследователь также имеет возможность провести отбор признаков путем простого просмотра результатов работы процедуры классификации. Система представляет исследователю массу возможностей для проявления изобретательности при извлечении осмысленной информации из больших выборок многомерных данных. ЗАКЛЮЧЕНИЕ В данной главе описана система ADAPT, с помощью которой удается разрешить две основные проблемы, возникающие в приложениях методов распознавания образов к химическим задачам. Первая проблема связана с управлением анализируемыми данными. Очевидно, что нельзя провести анализ данных, если нет эффективного метода их преобразования в удобную для обработки форму. Один из способов решения этой проблемы состоит в представлении данных в виде системы помеченных массивов с фиксированной структурой. Такая система в то же время является достаточно гибкой, так как позволяет вносить изменения путем расширения уже имеющихся массивов или путем добавления новых. Вторая проблема связана с использованием ограниченного набора заранее заданных процедур. Эта трудность преодолена путем создания модульной системы независимых процедур, взаимодействующей с системой управления массивами данных. Модульная структура позволяет легко расширять возможности системы. Присоединяемые к системе новые процедуры легко подключаются к обработке данных, так как последние уже приведены к удобной для обработки форме с помощью обслуживающих процедур. Использование независимых процедур также Дает возможность реализовать систему на сравнительно малых лабораторных ЭВМ. Это делает систему более дешевой и доступной. Можно надеяться, что с разработкой подобного рода вычислительной истемы будут преодолены трудности, возникающие в химических приложениях методов распознавания образов.
Глава 6 ИССЛЕДОВАНИЕ СВЯЗИ МЕЖДУ СТРУКТУРОЙ И БИОЛОГИЧЕСКОЙ АКТИВНОСТЬЮ В основе химических приложений методов распознавания образов лежат те же предпосылки, что и в основе метода Ханша. Метод Ханша, как известно, использует представление о том, что активность соединения определяется электронной структурой, стереохимией и липофильностью его молекул, Соединения, имеющие сходные комбинации "этих факторов, обладают близкой активностью. В качестве стандартных параметров, отображающих эти свойства молекул, используются константы, входящие в соотношение линейности свободной энергии, например показатель липофильности, константы Тафта и Гаммета. В большинстве исследований, проводимых методом распознавания образов, эти параметры не используются, поскольку, как правило, анализируются большие выборки соединений, а значения параметров бывают известны только для некоторых из них, В большинстве подобных исследований используются параметры, которые непосредственно рассчитываются из структурных формул соединений, Примеры таких параметров приведены в гл. 3. В настоящей главе и гл. 7 приведены примеры исследований, которые могут быть выполнены с помощью метода распознавания образов. В последние годы было проведено еще несколько подобных работ. Ханш и сотр. опубликовали обзор [1], в котором рассмотрены применения иерархических методов кластеризации для отбора констант заместителей. Тинг и сотр. [2] исследовали корреляции между масс-спектрами низкого разрешения 66 лекарственных веществ (седативных агентов и транквилизаторов) и их активностью. Ковальский и Бендер [3] и Чу с сотр. [4] в своих исследованиях связи структуры и биологической активности в качестве дескрипторов биологического действия использовали субструктурные параметры. Каммарата и Менон [5, 6] провели исследование ряда терапевтических препаратов. Имеются еще несколько работ, выполненных методом распознавания образов, в которых использованы структурные параметры [7, 8]. Рассматриваемые ниже исследования показывают, какую информацию можно извлечь, применяя методы распознавания образов. Исследование связи структуры и биологической активности 151 ПРИЛОЖЕНИЕ К ПСИХОТРОПНЫМ АГЕНТАМ В описываемом исследовании с помощью адаптивного бинарного классификатора проведено распознавание молекул лекарственных веществ, обладающих двумя типами активности — седативной и транкви- лизаторной. Распознавание проводится исключительно на основе информации, извлеченной из обычного двумерного представления структуры молекулы. В исследовании не использовались геометрические дескрипторы и дескрипторы физических свойств, за исключением молекулярного веса, хотя система ADAPT может работать и с этими дескрипторами. На основании результатов классификации делается вывод о том, какие параметры в наибольшей степени определяют данный тип активности. Выборка данных В рассматриваемом исследовании использована выборка из 219 лекарственных веществ, взятых из стандартного справочника [9]. В их число входят 140 транквилизаторов и 79 седативных агентов (табл. 6.1). В выборке представлено несколько родственных циклических структур: фенотиазины, индолы, бензодиазепины, барбитураты, гетероциклические бутирофеноны, гетероциклы с азотом, гетероциклы, не содержащие азот, и производные дифенилметана. Все исследованные типы соединений, а также количества соединений каждого типа указаны в табл. 6.2, У исследователей, работающих в области медицинской химии, нет единого мнения относительно классификации многих психотропных агентов, и поэтому нельзя провести точной классификации седативных агентов и транквилизаторов, Многие вещества, например гипотонические агенты и мышечные релаксанты, проявляют оба типа активности. Обычно среди транквилизаторов различают два подкласса - большие и малые транквилизаторы, а седативные агенты часто проявляют гипнотическое действие. В рассматриваемом исследовании использован метод классификации, основанный на информации, взятой из работы [9]. В этой работе психотропные агенты классифицированы на большие транквилизаторы (ТБ), малые транквилизаторы (ТМ), просто транквилизаторы (Т), седативные агенты (С), гипнотические агенты (Гил) и седативно-гипнотические агенты (Гип-Сед). Классификация была проведена по следующему правилу: 1) соединение классифицировалось как транквилизатор, если оно относится к типам ТБ, ТМ или Т; 2) если соединение принадлежит к типам Гип, Сед или Гип-Сед, то оно клас- сифицировалось как седативное; 3) если соединение обладает комбинацией типов активности, например (Т Сед), (Т Гип), (ТМ Сед), то оно классифицировалось как транквилизатор; 4) если имелось много различных классификаций соединения, то из них выбиралась преобладающая. Одно из достоинств метода распознавания образов заключается в возможности анализировать такие разнородные выборки данных.
Таблица 6. Соединения, составляющие анализируемую выборку Транквилизаторы 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 А 124 Ацепрометазин Бутаперазин Карфеназин СВ 1658 Хлорпроэтазин Хлорпромазин" СРО 12 Циклофеназин Диксиразин Флюорофенотиазин Флюфеназин Гептилпромазин KS^33 Мепазин Метиомепразин Метотримепразин Оксафлюмазин Р 1030 Периметазин Перфеназин" Феназин Пиперактазин Прохлорперазин Промазин Пропиопромазин R.P. 3300 R.P. 6696 SA 124 SKF 6333 Спикломазин Тиопропазат Тиоридазид Трифлюоперазин Трифлюпромазин Тримепразин Вин 13,645-5 Кломакран Клотиапин Цианотепин Доксепин G 22150 Люксапин Тримепрамин Бисгоморезерпин 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 Ацепромазин Ацетофеназин Бутирилпромазин СВ 1519 Хлоримипифенин Хлорпромазин Циба 17040 Циамепромазин Дихлорпромазин Этилизобутразин б Флюфеназин б Флюфеназинв Гомофеназин MD 5501 Мезоридазин Метофеназин Метоксипромазин Р 824 Перазин Перфеназин Феназин Пипамазин П иперидох лор-г Прометазин Пропиомазин Ридазин R.P. 4627 R.P. 9153 SAF 5657 Т 412 Тиэтилперазин Тиопроперизин TPN 12 Трифлюоперазин Трифлютримепразин Валероил-перазин Хлорпрогептадиен Клопентиксол Клотиксамид Десметил-доксепин Флюпентиксол ID 22 Трифлютепин Ксантиол Резерпедин связи структуры н биологической активности 153 Продолжение табл. 6.1 Транквилизаторы 91 93 95 97 99 101 103 105 107 109 111 113 115 117 119 121 123 125 127 129 131 133 135 137 139 Метил-18-кетор Раунескин Ресциннамин 8842 Раубазин Бензиндоперин 3-IAAR Милипертин PI 11 Димехром Хлоразепат Клоазепам СТ 5104 Диазепам Лоразепам Нитразепам Оксазепам Празепам RO-53027 Темазепам Ацеперон FR-33 Мисафлур Триоксазин Фенилтолоксамин 92 94 96 98 100 102 104 106 108 НО 112 114 116 118 120 122 124 126 128 130 132 134 136 138 140 Рауджемидин Реноксидин SU 5171 SU 10704 Ренанзерин DIM IN 399 Оксипертин Солпиэртин Бромазепам Хлордиазепоксид Клоксазолазепам Кипразепам Изохиназепон Медазепам Нитразепат Оксазолам RO5-2180 Сулазепам Тетразепам AHR 1900 Дифенхлоксазин Протипендил Каптодиам Цинтрламид Седативиые агенты 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 Профенамин Клоксипендил Каннабиоэрол Лоразепам Алфенал Апробарбитал Буталбитол Буталлилонал Циклопал Гептабарбитал Гексобарбитал Метабарбитал Метогекситал Пентобарбитал Пробарбитал Тальбутал Тиопентал 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 Прометазин Феногарман D-58S1 Аллобарбитал Амобарбитал Барбитал Бутетал Циклобарбитал Фебарбамат Гексэтал Мепобарбитал Метитурал Неальбарбитон Фенобарбитал Секобарбитал Тиамилал Васальгин
Глава б Продолжение табл. 6.1 Седативиые агенты 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 а > NSD 2023 Катапресан CHI 34 CHI 42 Дихлорметимон Этиназон Гомох лорцик ли зин LB 50160 Метаквалон Оксипенаил Талидомид Паральдегид Трицетамид RD 6020 Хлоральгидрат Этинамат Мепробамат Этхлорвииол Петрихлораль АЕС Бромизоваиум IPC Хлорэтат Сульфоксид. Деканоат, Энантат. г-Промаэин, 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 Таблица 6.2 Структурные классы, представленные в выборке соеднненнй Тип соединения Количество Количеств транк»нлнзатере» седатиных агенте» Фенотиазииы 73 2 Аналоги и изомеры фенотиазина 15 1 Индолы Резерпин и его производные 10 О Гарамин и его производные 1 1 Другие 9 О Производные каннабиса 0 1 Анилеридин CNI 21 CHI 38 Клометиазол ES 708 Глютэтимид К-2004 Меклоквалон Метиприлон Тетридин Этомоксан WB 4123 Каитамин CD 6030. Диспранол Мебутамат Нисубамат Метилпентинол Ацетилкарборомаль Карбромаль Эктилмочевина Валноктамид и следование связи структуры и биологической активности 155 Продолжение табл. 6.2 ——' Прочие гетероциклические иения Хром-производные Бенздиазепины Барбитураты Гетероциклические бутирофеноны Другие N-содержащие циклы соеди- гетеро- Производные бенздиоксана Не содержащие азота циклы Ароматические соединения гетеро- Производные дифенилметана Производные бензойной кислоты Прочие Алифатические соединения Гликоли Карбаматы Карбинолы Амиды и гидразины Прочие Количество транквилизаторов 1 21 0 3 4 0 0 2 0 1 0 0 0 1 0 140 Количество седативиых агентов 0 2 27 1 20 1 2 0 1 3 2 4 3 7 1 79 Успех бинарной классификации в исследованиях связи структуры и активности в значительной степени зависит от способа описания молекулярных структур. В рассматриваемом исследовании использовались три типа дескрипторов: бинарные и числовые дескрипторы фрагментов, бинарные субструктурные дескрипторы и топологические дескрипторы. В табл. 6. 3 приведено 69 использованных дескрипторов. Каждый дескриптор входит в состав по меньшей мере 10% структур, причем ни один из них в отдельности не содержит информации, достаточной для успешной классификации соединений, Некоторые из приведенных в таблице дескрипторов требуют пояснений, Дескриптор 15 (общая взвешенная длина связей) рассчитьшается суммированием следующих чисел: 4 (для каждой простой связи), 3 (для каждой ароматической связи), 2 (для каждой двойной связи) и 1 (для каждой тройной связи) - и делением результата на 2, Дескриптор 18 - бинарный дескриптор, показывающий, разветвлено ли ароматическое кольцо. Дескрипторы 20, 21, 22 и 38 - бинарные дескрипторы, указывающие на наличие или отсутствие соответствующих субструктур. Дескриптор 48 отличается от дескриптора 18 тем, что он является
156 Список дескрипторов" Глава 6 Таблица 6.3 1. Молекулярный вес 2. Число некольцевых атомов углерода 3. Число некольцевых атомов кислорода 4. Число некольцевых атомов азота 5. Число некольцевых атомов серы 6. Число атомов фтора 7. Число атомов хлора 8. Число атомов кислорода 9. Число атомов азота 10. Число атомов серы 11. Число атомов углерода 12. Число связей С = С 13. Число связей С — С 14. Число фенильных связей 15. Полная взвешенная длина связей 16. — С—О — О 17. ^С = 0 V ,„ Ароматическое уг 1». копьио ,<> ■:/ \ 19. N- / 20. "■О- 22. 23. /~\ -N N- \ 24. Кольцо S / 25. Кольца N / \ 26. Кольцо NCH2— \ 27. Кольцо О / О О II I II 28. —С—С—С— I О О II I II 29. —С—N—С О II . 30 —CN / \ 31. X—О—С—X, X Ф Н 32. X—О—С—С—X, Х^Н I I I I 33. X—С—С—ОН, Х^Н I I 34. —ОН \ / 35. С=С / \ О \ II / 36. N—С—N CHj 37. —N 38. / «J \ СН, Исследование связи структуры и биологической активности 157 Продолжение табл. 6.3 45. Самая длинная цепь неароматических атомов углерода 46. Концевая группа X—СН3, где X — неуглеродная цепь I I 47. Y—С—С—X. Х^Н: /( ")\1, заместитель в любом I—С— Y = Н им С Vs--'/ положении I Топологические дескрипторыг 48. Ароматическое 50. NH2— 1 52. -С- 1 \ 54. N— / \ 56. СН- / КОЛЬЦО 1 V ;С— у 58. СН3- 60. —СН2 62. —NH- 64. —О— 66. Аром 68. /С = ; С У а Дескрипторы с номерами 1-15, 45 и 46 являются числовыми дескрипторами; все остальные, до 47-го включительно, являются бинарными дескрипторами. Дескриптор имеет значение 1, если присутствует фрагмент СН3СС, значение 2, если присутствует фрагмент —ССС—, и значение 3, если имеются оба этих фрагмента. в Дескриптор имеет значение 1, если присутствует фрагмент СН3С, значение 2, если присутствует фрагмент —СС—, и значение 3, если имеются оба фрагмента. г Для каждого фрагмента рассчитывались топологические дескрипторы двух типов — простой и взвешенный. топологическим дескриптором. Дескриптор 41 отличается от 40, а 43 от 42 тем, что 41 и 43 являются бинарными субструктурными дескрипторами. Все остальные дескрипторы относятся к числовому типу. Таким образом исходная выборка соединений включает 219 структур, каждая из которых закодирована с помощью 69 дескрипторов. Предварительная обработка исходной выборки заключается в нормализации, масштабировании и вариационном взвешивании. Нормализация данных состоит в том, что каждая компонента умножается на такой коэффи-
158 Глава б циент, что средняя величина отличных от нуля компонент становится равной 20. Затем каждый дескриптор округляется до целой величины. Полученная в результате таких преобразований целая нормализованная выборка образует массив данных NDATA. Далее после масштабирования и вариационного взвешивания целой нормализованной выборки формируется массив данных NAVDATA. После масштабирования нормализованные данные умножаются на 20 и округляются. После вариационного взвешивания данные умножаются на 500 и округляются. Компоненте Х„ присваивается значение 20, так как эта величина обеспечивает большую скорость процесса обучения и высокую прогнозирующую способность. Корреляционные коэффициенты p(xk, xj) были рассчитаны для (692 — 69)/2 = 2346 пар дескрипторов. 24 корреляционных коэффициента (1%) имеют значения, большие 0,9; 11 коэффициентов учитывают корреляции между простым и взвешенным дескрипторами окружения. Значения 756 корреляционных коэффициентов (32%) находятся в интервале — 0,1 < р < 0,1. Среднее значение р для всех'2346 пар составляет 0,07. Результаты Процесс обучения проводился с 20 случайно выбранными множествами по 209 соединений в каждом (исходный набор включал 219 соединений). В результате было получено 20 выборок, состоящих из 209 известных и 10 неизвестных соединений. Каждая из выборок была использована для обучения двух бинарных классификаторов: один использовался для разделения транквилизаторов и нетранквилизаторов, другой — для разделения седативных и неседативных агентов. Наличие двух классификационных правил позволяет классифицировать выборки, содержащие соединения, которые не относятся ни к транквилизаторам, ни к седативным агентам, или соединения, проявляющие одновременно оба типа активности. В каждом случае после обучения классификатора на 209 соединениях было предсказано 10 неизвестных соединений. Общая прогнозирующая способность была рассчитана как средняя доля правильных классификаций 200 неизвестных соединений после 20 обучений. Поскольку в результате работы классификатора строится решающая поверхность, разделяющая два класса, то прогнозирующая способность классификатора в значительной степени зависит от количества элементов в каждом из двух классов обучающей выборки, близких к элементам противоположного класса. Способность классификатора предсказывать соединение, свойства которого только незначительно отличаются от свойств других соединений выборки, может быть определена с помощью следующей процедуры: последовательно отбирают все элементы выборки по одному, относя отобранные элементы к контрольной выборке, а оставшиеся элементы — к обучающей выборке. Эта процедура называется Исследование связи структуры и биологической активности 159 методом скользящего контроля [10, 11]. В рассматриваемой работе мы лрименили разновидность этого метода, когда отбирается не один, а Ю элементов выборки. Такая модификация по результатам близка к процедуре скользящего контроля, давая при этом большую экономию машинного времени. Рассчитанная таким способом средняя прогнозирующая способность приближенно характеризует вероятность правильного предсказания неизвестного соединения, которую может дать классификатор, обученный на выборке из 219 известных соединений. Прогнозирующая способность зависит от того, насколько полно обучающая выборка представляет свойства неизвестного соединения. Как и в любом процессе обучения, чем меньше исследуемое соединение отличается от соединений обучающей выборки, тем больше вероятность правильного предсказания. Таблица 6.4 Результаты обучении и предсказания, полученные с помощью массивов данных NDATA и NAVDATA Величина порога Z 0 0,5 NDATA Доля верных предсказаний при Z — 0 89,5 90,5 Доля верных предсказаний при Z > 0 92,0 Величина порога Z 0 0,5 1,0 1,5 2,0 NAVDATA Доля верных предсказании при Z = 0 86,0 87,5 89,0 87,8 88,3 Доля верных предсказании при Z > 0 90,0 90,0 90,5 90,0 Рассматриваемая процедура была повторена несколько раз с разными значениями порога. В табл. 6.4 приведены результаты таких испытаний при классификации на транквилизаторы и нетранквилизаторы. Из таблицы видно, что с увеличением порога повышается прогнозирующая способность классификатора. Массив NDATA, как правило, давал лучшие предсказания, чем массив NAVDATA, однако массив NAVDATA требовал меньше коррекций при обучении. Приведенные в табл. 6.4 результаты относятся к разным значениям порога Z. В каждом случае предсказания проводились при двух значениях Z — нулевом и том значении, которое использовалось при обучении. Вообще говоря, не все дескрипторы одинаково важны для обучения классификатора. Для того чтобы определить, какие из 69 дескрипторов наиболее существенны, были использованы два метода отбора признаков — отбор по знаку компонент весового вектора и вариационная процедура отбора.
160 Глава 6 В случае метода знаков прогнозирующая способность рассчитывалась со значением порога Z= 1,75 с помощью описанной выше процедуру 20-кратного деления исходной выборки на обучающую и контрольную в отношении 209: 10. Таким образом, сначала была рассчитана прогнозирующая способность для исходной системы дескрипторов. Затем на полной выборке соединений с помощью одного из начальных приближений, приведенных в табл. 6.5, был обучен первый весовой вектор. Таблица 6.5 Начальные приближения весового вектора 1. 2. 3. 4. 5. 6. 7. w W, wt wi w, w\ wl = = = = = = = 0. 0. 1. 1. 1: -1; -1, ; = 1.2 (n - 1); j = 1,2 (n - 1); ./= 1,2 (n- 1); j = 1,2 (я- 1); Wj = 0,;= 2,3,..., л Wj = 0,j = 2, 3,.. ,.n j = I, 2,....in - 1); wn = w„ = wn = w„ = % = Второй весовой вектор был обучен на выборке со случайно измененным порядком элементов. Если при сопоставлении двух весовых векторов знаки каких-либо компонент отличались друг от друга, то соответствующий дескриптор отбрасывался. Эта процедура повторялась до тех пор, пока дальнейшее исключение признаков становилось невозможным. Далее прогнозирующая способность рассчитьшалась с помощью той же процедуры, которая использовалась до отбора признаков. В табл. 6.6 приведены результаты семи независимых применений процедуры отбора признаков методом знаков компонент весового вектора для классификации соединений на транквилизаторы и нетранквилизаторы. В колонке «Количество непредсказанных соединений» указано общее количество неклассифицированных соединений во всех 20 испытаниях. Провести классификацию не удавалось тогда, когда соответствующие скалярные произведения попадали внутрь мертвой зоны, т. е.— Z < s < Z. Из таблицы видно, что во всех случаях прогнозирующая способность возрастала при исключении лишних дескрипторов. Обращает на себя внимание также тот факт, что после отбора признаков количество непредсказанных соединений уменьшается. Поскольку ни один из исходных 69 дескрипторов в отдельности не в состоянии обеспечить правильную классификацию всех соединений, то для разделения соединений на классы должна быть выделена некоторая группа признаков. Результаты процедуры отбора признаков методом знаков могут быть использованы для группировки дескрипторов в соответствии с их относительной значимостью для классификации. В табл. 6.7 дескрипторы сгруппированы в соответствии с тем, какое Исследование связи структуры и биологической активности 161 Таблица 6.6 результаты отбора признаков методом знаков компонент весового вектора, полученные с помощью семи случайных выборок 69 дискрипторов После отбора признаков Прогнозирующая способность 1. 85,08 2. 89,44 3. 86,00 4. 86,00 5. 85,89 6. 88,50 7. 86,00 Количество не- прелсказанных соединении 5 2 1 0 1 0 0 Среднее число коррекции через обратную связь 386 491 266 257 300 289 280 Прогнозирующая способность 88,94 92,00 90,00 87,00 91,44 90.Q0 87,50 Количес гво единений 2 1 0 0 1 0 0 Среднее число коррекций обратную 340 331 274 304 187 262 223 через связь Количество отобранных дескрипторов 40 40 38 44 35 40 34 Обучение и прогноз были проведены со значением Z— 1,75. Таблица 6.7 Результаты отбора признаков для семи случайных выборок Доля случаев, в которых был произведен отбор Номера отобранных дескрипторов 7/7 6/7 5/7 4/7 3/7 2/7 1/7 0/7 9, 49, 1, 57, 7, 2, 23, 56 3, 4, 17, 15, 22, 26, 37, 39, 42, 45, 48, 61 5, 6, 10, 24, 28, 31, 35, 52, 58, 60 11, 13, 20, 32, 47, 54, 59 12, 14, 18, 21, 25, 34 29, 31, 33, 44, 46. 51, 53, 8, 16, 27, 30, 38, 50, 55, 65 19, 34, 40, 41, 63, 66, 67 62, 68, 69 число раз они были сохранены в результате семи применений процедуры отбора признаков. 11 дескрипторов (16%) сохранялись во всех случаях, и только четыре дескриптора (6%) при всех применениях были исключены. Оставшиеся 54 дескриптора (78%) имеют промежуточную степень значимости. Конкретный способ применения процедуры отбора методом знаков определяет, какие дескрипторы будут отброшены, а какие сохранены '' Э. Стьюпер
162 Глава 6 Таблица 6.8 Результаты, полученные несколькими методами отбора признаков Метод отбора По знаку компонент весового вектора Вариационный Исходное количество дескрипторов 69 69 69 69 69 69 31 Конечное количество дескрипторов 38 44 34 40 40 31 23 Начальный весовой вектор 1 3 4 5 6 Начальное Начальнре Итерации значение 8 5 9 7 9 хп = 5; приращение = 300 значение x„ = 305; приращение = 300 Признаки, оставшиеся после процедуры отбора: 2, 7, 9, 10, 20, 22, 24, 26, 31, 32, 33, 37, 39, 42, 45, 46, 47, 48, 52, 55, 58, 61, 63 после отбора признаков. Как видно из табл. 6.8, для каждого из семи начальных приближений весового вектора получены разные значения прогнозирующей способности и исключены разные признаки. Такое поведение системы обусловлено существованием нескольких наборов дескрипторов, обеспечивающих линейную разделимость. Применяя метод знаков, можно было бы продолжать уточнять минимальный набор дескрипторов, например, путем многократного анализа группы дескрипторов промежуточной значимости. Мы, однако, этого не делаем и переходим к вариационному методу отбора признаков для того, чтобы сравнить результаты, полученные двумя методами отбора признаков. Процедура вариационного метода отбора признаков описана в гл. 4. В нижней части табл. 6.8 приведены результаты, полученные этим методом для рассматриваемой выборки данных. После первого применения вариационной процедуры размерность пространства признаков была понижена с 69 до 31, в результате второго применения — с 31 до 23. При этом разделимость данных на два класса полностью сохранялась. Как видно из табл. 6.8, вариационный метод является более эффективным методом отбора признаков по сравнению с методом знаков. связи структуры и биологической активности 163 Обсуждение результатов Проанализированная выборка состоит из довольно разнородных типов соединений, биологическое действие которых может быть связано же с разными частями организма. Несмотря на то что все рассмотренные соединения являются стимуляторами центральной нервной системы, маловероятно, что молекулярные механизмы их биологического действия сходны между собой. Однако существует много других факторов, определяющих связь между структурой и действием соединения. К ним относятся: растворимость и параметры, влияющие на растворимость, геометрические характеристики, электронные и другие свойства. Учитывая все эти факторы, можно, по-видимому, выделить какие-то общие черты, позволяющие отличить один класс соединений от другого. Поэтому основная задача заключается в выборе значимых дескрипторов и последующем эффективном отборе признаков. Как видно из табл. 6.7, любая однократная процедура отбора признаков позволяет уменьшить на 40% количество признаков, необходимых для разделения выборки данных на классы; при этом прогнозирующая способность сохраняется или увеличивается, а количество элементов выборки, попадающих в мертвую зону, уменьшается. Далее показано (табл. 6.8), что для установления связи между структурой и активностью в конечном счете требуется всего лишь 23 признака. Результаты анализа показывают, что в рассматриваемой задаче наиболее значимыми являются такие дескрипторы, как количество атомов азота, общая длина связей, а также некоторые фрагментные и топологические дескрипторы. Из этого вовсе не следует, что указанные параметры непосредственно связаны с седативным и транквилизаторным действием соединений. Однако полученные результаты указывают на то. что между соединениями каждого класса существует некоторое сходство, которое позволяет на основании структурных признаков приближенно охарактеризовать биологическое действие соединений. ИССЛЕДОВАНИЕ БАРБИТУРАТОВ Это исследование посвящено применению методов распознавания образов для классификации барбитуровых кислот по продолжительности их биологического действия. Как и в предыдущем исследовании, классификация проводится исключительно на основе информации, извлеченной из стандартного двумерного представления молекулярной структуры. Цель исследования — продемонстрировать применимость методов Распознавания образов для построения правил классификации соединений в соответствии с продолжительностью их действия. Одновременно показано, что с помощью этих методов можно выделять признаки, еобходимые для построения дискриминантной функции. Проведена Ченка надежности найденных классификационных правил.
164 Глава 6 Выборка данных Исследовалась выборка соединений из 160 5,5'-замещенных барбитуратов, взятых из стандартного справочника [12]. Молекулярные веса изученных соединений изменяются от 172 до 276, а продолжительность угнетающего действия — от 10 до 1600 мин. Биологические испытания соединений проводились на мышах, крысах и кроликах; вещества вводились животным либо в брюшную полость, либо под кожу. Список исследованных соединений приведен в табл. 6.9. Тот факт, что рассматриваемая выборка соединений, несмотря на различие методов биологических испытаний и биологических видов подопытных животных все же поддается анализу методом распознавания образов, характеризует одну из сильных сторон этого метода. Методы распознавания образов часто позволяют анализировать неполные, плохо определенные или несовершенные в каком-либо другом отношении выборки соединений, тогда как другие, более строгие методы требуют соответственно и более совершенных данных. Полученные результаты не дают рецептов для синтеза новых барбитуратов. Однако это исследование можно считать хорошим примером анализа данных с помощью методов распознавания образов. Все соединения были разбиты на классы в соответствии с длительностью угнетающего действия. Эти классы были сформированы путем деления длительности действия в минутах на 10 с последующим округлением до ближайшего целого. Поэтому соединение, длительность действия которого составляет 227 мин, попадает в класс 23, тогда как соединение с длительностью действия 223 мин попадает в класс 22. Соединения с длительностью действия больше 650 мин были отнесены к классу 65. Результирующее распределение соединений по 65 классам показано на рис. 6.1. Исследование проводилось с использованием 4 типов дескрипторов: численных дескрипторов фрагментов, субструктурных дескрипторов, дескрипторов окружения и дескрипторов молекулярной связности. Дескрипторы были рассчитаны с помощью программ, описанных в гл. 3. Исходный набор дескрипторов приведен в табл. 6.10. Дескрипторы связей, атомов и субструктурные дескрипторы не требуют комментариев. Дадим некоторые пояснения, касающиеся дескрипторов окружения и дескрипторов молекулярной связности. Дескриптор окружения указывает, каким образом различные части молекул связаны между собой, характеризуя ближайшее окружение одиночного атомного фрагмента. Это достигается путем объединения характеристик, относящихся к первым и вторым ближайшим соседям фрагмента и их связям, в один параметр. В настоящей работе использованы три типа дескрипторов окружения: простой дескриптор окружения, учитывающий только количество ближайших связей, взвешенный дескриптор окружения, учитывающий типы связей, и присоединенный дескриптор окружения, который учитывает как типы атомов, так и типы связей. Исследование связи структуры и биологической активности 165 Таблица 6.9 Соединения, образующие выборку данных Длительность о R' действия (мин) СН3- 1- (СНз)зССН- 580 2. СН3(СН2)5- 260 3. СН3(СН2)зСН(СН3)- 227 4. СН3(СН2)3СН(СН3СН2)СН2— 223 5. Н2С=С(СН3)— 60 6. СН3СН=С(СН3)— 120 7. СН3СН2НС=С(СН,>- 60 8. СН3НС=С(СН3СН2)— 60 9. СН3(СН2)2НС=С(СН3)— 60 10. (СН3)2СНО=С(СН3)— 36 11. СН3(СН2)3НС=С(СН3)- 24 12. CH3CH2SCH2— 330 13. CH3(CH2)3SCH2- 150 СН3СН2- 14. СН3СН2- 1400 15. СН3СН2СН2— 1140 16. СН3СН(СН3)- 1520 17. СН3СН2СН2СН2— 450 18. СН3СН(СН3)СН2— 540 19. СН3СН,СН(СН3)— 600 20. СН3СН2СН2СН2СН2— 220 21. СН3СН2СН(СН3)СН2— 190 22. (СН3)3ССН2- 200 23. СН3СН2СН(СН3СН2)— 300 24. СН3(СН2)5- 45 25. СН3(СН2)2СН(СН3)СН2- 210 26. СН3СН2С(СН3)2СН2- 60 27. СН3(СН2)3СН(СН3)~ 90 28. СН3СН2СН(СН3СН2)СН2— 300 29. СН3(СН2)6- 120 30. (СН3)2СНСН2СН(СН3)СН2- 54 31. (СН3)2СН(СН2)2СН(СН3)- 50 32. СН3СН2СН(СН3)СН2СН(СН3)— 74 33. СН3(СН2)2СН(СН3СН2СН2)- 81 34. СН3(СН2)2СН(СН3)СН2СН2СН2- 60 35. СН3СН2СН(СН3)СН2СН(СН3)СН2- 60 36. СН3(СН2)3СН(СН3СН2)СН2— 75 37. СН3(СН2)4СН(СН3СН2)- 60 38. СН3(СН2)5СН(СН3)- 150 39. СН3(СН2)2СН(СН3)СН(СН3СН2)СН2- 240 40. (СН3)2СН(СН2)2СН(СН3СН2)СН2- 120 41. Н2С=СН- 288 42. Н2С=С(СН3)- 150 43. СН3СН2НС=СН— 18
166 CH iCHiCHo — R Глава б Продолжение табл. б 9 Длительность действия (мин) 44. СН3НС=С(СНз)— 45. (СНз)2С=СН— 46. СН3(СН2)2НС=СН- 47. СН3СН2НС=С(СНз)- 48. (СН3)2СННС=СН— 49. СН3НС=С(СНзСН2)— 50. СН3(СН2)2НС=С(СН,)- 51. СНз(СН2)3НС=С(СНз)- 52. СН3СН2НС=С(СН3СН2СН2)- 53. Н2С=СНСН(СН3)— 54. Н,С=С(СН3)СН2— 55. СН3НС=СНСН, 56. СН3СН2ОСН(СНз)— ' 57. СНз(СН2)2ОСН(СН3)- 58. СН3(СН2)зОСН(СН3)— 59. (СН3)зССН2ОСН(СНз>— 60. СН3СН2ОС(Н2С)— 61. (СНз)3ССН2ОС(СН,)— 62. CH3(CH2)2SCH2— 63. (CH3),CHSCH2— 64. H2C=CHCH2SCH, 65. CH3(CH2)3SCH2—" 66. CH,(CH2)4SCH2— 67. (CHjljCCHjSCH,— CH3(CH2)2CH(CH,|SCH2- CH,(CH2)5SCH,— (CH,CH2)2CHCH2SCH2- ,.. CH.,CH2SCH(CH3CHCH3r- 72. CH3(CH2),SCH(CH3)- 73. СНз(СН2)з5СН(СН3СН2)- 74. CH3(CH2)4SCH(CH3)- 75. (CH3)3CCH2SCH(CH3)- 76. СНз(СН2)2СН(СНз)- 68 69 70. 71 77. CH3CH2CH2CH2CH2- 78. CH3CH2CH(CH3)CH2- 79. CH3(CH2)5- 80. CH3(CH2)6- 81. CH3HC=CH— 82. CH3CH2HC=CH— 83. (CH3)2CHHC=CH— 84. H2C=C(CH3)— 85. СН3НС=С(СН3)— 86. СН3СН2НС=С(СН3)— 87. СНзНС=С(СН3СН2)— 180 240 96 24 12 42 72 6 6 720 326 372 460 150 150 75 200 63 59 139 117 66 75 37 62 15 22 12 34 52 28 41 180 4 165 1 15 60 18 18 168 30 18 24 Исследование связи структуры и биологической активности 167 Продолжение табл. 6.9 R (СН312СН- СН3(СН2)з- н2с=сн- Н2С=СН(СН3)— СН3НС=С(СНз)— R 88. Н2С=СНСН(СН3)— 89. Н2С=С(СН3)СН2— 90. СН3НС=СНСН2— 91. СН3СН2ОСН(СН3)— 92. CH3CH2SCH2— 93. CH3(CH2)3SCH2— 94. CH3(CH2)3SCH(CH3)— 95. (CH3)2CHCH2SCH(CH3)— 96. (CH3)2CHCH2— 97. CH3HC=CH— 98. СН3СН2ИС=СН— 99. СН3(СН2)2НС=СН- 100. (СН3)2СННС=СН— 101. СН3СН2НС=С(СН3)— 102. СН3С=С(СН3СН2)— 103. Н2С=СНСН(СН3)— 104. СН3НС=СНСН2— 105. CH3CH2SCH2— 106. CH3(CH2)3SCH2— 107. СН3СН2СН(СН3)— 108. (СНз)зС— 109. СН3НС=СН— по. сн3сн2нс=сн 111. Н2С=С(СН3)— 112. СН2НС=С(СН3)— 113. Н2С=СНСН(СН3)— 114. СН3НС=СНСН2— 115. (СН3)2С=СНСН2— 116. СН3СН2ОСН(СН3)— 117. CH3CH2SCH2— 118. CH3(CH2)3SCH2— 119. СН3СН2СН2СН2— 120. (СНз)зССН— 121. Н2С=СНСН2 122. (СН3)2СНСН2— 123. СН3СН2СН2СН2СН2— 124. (СНз)зССН— 125. Н2С=СНСН2- Длительность действия (мин) 420 300 120 162 150 76 35 45 25 36 36 18 12 18 18 210 200 86 38 16 1 12 18 90 60 110 40 30 120 74 95 288 192 102 90 30 18 30 н2с=снсн. 126. СНз(СН2)3СН(СНз
168 Глава б Продолжение табл. 6.9 Длительность действия (мин) 127. Н2С—СНСН(СН3)— 128. СН3СН2ОСН(СН3)— 129. СН3СН2ОС(СН2)— 130. СН3(СН2)2ОСН(СН3)— 131. (СН3)3ССН2ОСН2— 132. Н2С=С(СН3)СН2— 133. CH3CH2SCH2— 134. CH3(CH2)2SCH2— 135. CH3(CH2)3SCH2- 136. CH3(CH2)3SCH(CH3)- 137. (CH3)2CHCH2— 138. (CH3)3CCH2— 139. Н2С=СНСН2— 140. (СН3)2СН— 141. СН3(СН2)2СН(СН3)— 456 300 300 204 900 380 164 117 123 34 162 96 880 720 150 сн,нс=снсн,- 142. (СН3)3ССН— 143. СН3(СН2)2СН(СН3)- 144. СН3СН2СН(СН3)- 145. (СН3)3СНСН2— CH3CH2SCH2— 153. (СН3)2СНСН2 — 154. СН3СН2СН(СН3)— 155. (СН3)3ССН2— 156. СН3(СН2)2СН(СН3> 40 66 120 45 (СН3)2С=СНСН2- СН3СН2ОСН(СН3)— СН3(СН2)2ОСН(СН3)- CH3SCH2— 146. (СН3)2С=СНСН2 147. CHjCH2CH(CH3)— 148. (СН3)3ССН2— 149. СН3(СН2)2СН(СН3)— 150. СН3СН2СН2СН(СН3)— 151. (СН3)2СНСН2— 70 120 102 108 300 108 143 81 61 8 35 CH3CH2SCH(CH3)— 157. СН3(СН2)5- 12 H2C=CHCH,SCH(CH3)— 158. (СН3)2СНСН2 28 CH3(CH2)3SCH2- 159. (СН3)2СНСН2— 160. СН3СН2СН(СН3) 78 69 связи структуры и биологической активности 169 ГТ" й -■ 12 -- '1 ю- 1 о - 4 - г - п ]ш 1 1-1 1г4[ п П iHf1 200 400 . п пп. 600 время действий, мин Рис. 6.1. Распределение барбитуратов по времени действия, представленное в виде гистограммы. Дескриптор молекулярной связности является мерой связности молекулы в целом. Понятие связности было разработано Рандичем [13] и использовано в исследованиях связи структуры и активности Киром и сотр. [14—17]. Был установлен ряд корреляций между молекулярной связностью и некоторыми физическими параметрами [18]. Способ расчета показателя связности непосредственно из матрицы связей молекулы описан в гл. 3. Мы использовали в качестве дескриптора простой показатель связности, т. е. показатель, исправленный с учетом структурных циклов, а также квадрат этого показателя. Поправка на цикл была сделана путем вычитания из простого показателя величины, равной среднему вкладу от всех связей, содержащихся в цикле. Затем дескрипторы были умножены на 10 и округлены до ближайшего целого. Анализируемая выборка состояла из 160 соединений, каждое из которых было закодировано 47 дескрипторами. Никакой отдельно взятый Дескриптор и никакая парная комбинация дескрипторов не содержат информации, достаточной для успешной классификации данных. Предварительная обработка данных состояла в масштабировании, после которого каждый дескриптор приобретал среднее значение «нуль» и стандартное отклонение 127. Это позволило округлить данные до ближайшего целого с пренебрежимо малой потерей точности (пересчет, произве-
170 Глава б Таблица 6.10 Дескрипторы молекулярной структуры Дескрипторы атомов и связей 1. Количество атомов 2. Количество связей 3. Количество атомов углерода 4. Количество атомов азота 5. Количество атомов кислорода 6. Количество простых связей 7. Количество двойных связей 8. Длина" Дескрипторы окружения Фрагменты Общий Циклический 9- 11. СН3— 1, 2, 3 12- 14. —СН2— 1, 2, 3 15- 17. —СН— 1, 2, 3 18-23. —С— 1, 2, 3 1, 2, 3 24-26. 0= 1, 2, 3 27-29. —НС= 1, 2, 3 30-35. С = 1, 2, 3 1, 2, 3 Субструктурные дескрипторы 36. СН3СН2— 37. — СН(СН3)СН2 — 38. СН3 — 39. —СН,— 40. —СН2СН2— 41. СН3СН2СН2 — 42. —СН— 43. — НС = Дескрипторы молекулярной связности" 44. МС1 45. МС2 46. МСЗ 47. МС4 а Длина = 4 х (число простых связей) + 2 х (число двойных связей). 1 — простой дескриптор окружения, 2 — взвешенный дескриптор окружения, 3 — присоединенный дескриптор окружения. в МС1 — простой показатель; МС2 — показатель, исправленный с учетом структурных циклов; МСЗ — квадрат простого показателя; МС4 — квадрат показателя, исправленного с учетом структурных циклов. денный после округления, дал стандартное отклонение 127 и среднее значение 0 ± 0,17). Для работы обучающейся машины требуется дополнительный, имеющий постоянное значение дескриптор. В настоящей работе этому дескриптору присваивалось значение 250, так как оно обеспечивало высокие скорость обучения и прогнозирующую способность. Более подробно этот параметр обсуждается в гл. 4. связи структуры и биологической активности 171 результаты Длительность угнетающего действия барбитуратов в значительной степени зависит от условий проведения испытаний соединений. Анали- зируемые в настоящей работе данные получены на разных животных и в разных лабораториях, поэтому данные могут иметь сильный разброс значений. Однако имеются группы соединений, подвергнутые совместной проверке, поэтому могут наблюдаться тенденции в изменении длительности действия, коррелирующие со структурными изменениями. С учетом неточности анализируемых данных классификатор может быть настроен на построение дискриминантной функции, которая будет отвечать на вопрос: превышает ли длительность действия соединения хмин? При обучении такого классификатора не должны использоваться соединения, длительность действия которых отличается от величины х менее чем на 30 мин. Используя описанное выше распределение соединений по классам, данные можно разбить на два кластера (с длительностью действия, большей или меньшей величины х) 61 способом так, чтобы между этими кластерами находилось еще три класса. Первоначальные исследования показали, что все 61 разбиение данных на кластеры возможны, если исключить из выборки соединения с номерами 5, 29, 38, 44, 121 и 150. Однако для иллюстрации метода здесь используются только три серии разбиений. Шесть соединений, исключенных из анализируемой выборки, рассматривались позднее. Рассмотрим указанные три серии разбиений. В серии I все объекты, принадлежащие классам с 1 по 10, отнесены к кластеру с малой длительностью действия; классы с 14 по 65 отнесены к кластеру с большой длительностью действия. В серии II классы с 1 по 20 отнесены к кластеру с малой длительностью, классы с 24 по 65 — к кластеру с большой длительностью. В серии III классы с 1 по 24 отнесены к кластеру с малой длительностью действия, классы с 28 по 65 — к кластеру с большой длительностью действия. На основании этих трех серий можно построить дискриминантные функции, с помощью которых соединения классифицируются в соответствии с тем, имеют ли они длительность действия меньше 100 мин, меньше 200 мин или меньше 240 мин. Один из методов проверки надежности этих дискриминантных Функций использует разделение на группы каждой из трех серий таким образом, что в каждой последующей группе увеличивается количество элементов контрольной выборки и уменьшается количество элементов обучающей выборки. С помощью этих групп можно оценить прогнозирующую способность и установить, какие из дескрипторов определяют способность дискриминантной функции отделять кластер продолжительного действия от кластера кратковременного действия. Если внутри каждой серии процедура отбора признаков приведет к существенно различающимся результатам и значениям прогно- 3иРУЮщей способности, то тем самым будет показано, что никаких кластеров в действительности не существует и связь между структурой и длительностью действия соединений не установлена.
172 Глава б В табл. 6.11 приведены результаты предсказаний и отбора признаков, полученные для системы дескрипторов с 1 по 43. В заголовке каждого столбца указана доля элементов (в %), отнесенных к контрольной выборке. Контрольные выборки были сформированы таким образом, чтобы оба кластера содержали одинаковое количество элементов. Оставшиеся элементы включали в обучающую выборку. Для каждой из указанных в заголовках столбцов групп было испытано 10 видов разделений выборки на обучающую и контрольную. Система, для которой была поЛучена наибольшая доля правильных предсказаний, использовалась для отбора признаков, ответственных за способность дискрими- нантной функции классифицировать данные. Отбор признаков производился с помощью вариационного метода, описанного в гл. 4. Дескрипторы, сохранившиеся после процедуры отбора, отмечены в таблице символом х . Прогнозирующая способность рассчитывалась до и после процедуры отбора признаков путем усреднения Таблица 6.11 Сравнение дескрипторов, отобранных в каждой серии Номер дескриптора 1 2 3 5 6 7 8 9 10 11 12 14 15 16 17 19 20 21 23 27 Полная X X X X X X Серия 1 10 15 X X X X X X X X X X X X X X 20 X X X X X Полная X X X X X X X X Серия 10 X X X X X X II 15 X X X X X X 20 X X X X X X Серия III Полная 10 15 X XXX X X X X X X X X X X X 20 X X > Исследование связя структуры и биологической активности 173 Продолжение табл. 6.11 -— дескриптора 28 30 32 33 34 35 36 37 38 39 40 41 42 43 Эталонная выборка3 Начальная Конечная Полная выборка6 Начальная Конечная Полная X X X X X - — — Серн* 10 X X X X X 100 100 i i 15 X X X X X 95,5 100 92,0 88,2 20 1 X X X X X X 96,6 100 89,0 92,7 91,8 92,4 Полная X X X X X _ - — — Серия 10 X X X X X 100 100 II 15 X X X X X X 100 100 91,9 90,4 94,4 93,0 20 Полная X X X X X X X 96,8 93,6 91,0 92,9 X X X X X X _ - — ' Серия 10 X X X X X X X ш 15 20 X X X X X X X X X X X X X X 100 95,4 96,9 100 95,4 96,9 91,3 93,3 93,4 95,0 95,4 95,3 а Прогнозирующая способность для эталонной выборки. 6 Прогнозирующая способность для 10 контрольных выборок внутри каждой из указанных в заголовке таблицы групп. по всем 10 выборкам. В первом столбце каждой серии приведены результаты отбора признаков, выполненного с помощью всей совокупности исходных данных. В графе, озаглавленной «Эталонная выборка», приведены результаты предсказания для той выборки, которая использовалась при отборе признаков. Элементы этой выборки ни в одной из серий не использовались для построения дискриминантной функции и, следовательно, представляют собой полностью неизвестные объекты. Отметим, что в рассмотренную систему не включались дескрипторы молекулярной связности (номера с 44 по 47). Они были намеренно опущены для того, чтобы сделать отношение количества соединений к количеству дескрипторов большим чем 3:1. Это условие является
174 Дескрипторы, отобранные в сериях I, II и III Глава б Таблица 6.12 Серия I Серия II Серия III Дескрипторы атомов и связей Дескрипторы атомов и связей Дескрипторы атомов и связей Количество атомов кислорода Количество атомов кислорода „ „ ,„„ у Г - Количество атомов кислорода Количество двойных связей Количество двойных связен Субструктурные Дескрипторы Субструктурные Дескрипторы Субструктурные Дескрип дескрипторы окружения дескрипторы окружения дескрипторы торы окружения3 СН3СН2 СН3 — (G,2) CH3CH2— CH3— (G,3) СН, -НС—(G,l) — НС—(G,l) -НС уС= (G,3) —НС= (CD —HC=(G,1) -НС—(G,2) -CH2CH2 HC=(G,1) >С= (C,l)—CH(,CH3)CH2—>C=(G,3) (С,3) (С,3) Молекулярная связность МС1 Молекулярная связность Л/С4 Средняя прогнозирующая способность 93,8% 92,9 % Молекулярная связность МС4 93,7 % а Символ G указывает, что дескриптор рассчитывался всякий раз, когда указанный фрагмент встречался в структуре. Символ С указывает, что дескриптор рассчитывался только для тех фрагментов, которые входят в состав структурных циклов. Число 1 указывает простой дескриптор окружения. Число 2 обозначает взвешенный дескриптор окружения. Число 3 обозначает присоединенный дескриптор окружения. необходимым для построения нетривильной дискриминантной функции [19]. Для того чтобы испытать дескрипторы с номерами от 44 по 47 последние объединялись с теми из первых 43 дескрипторов, которые остались после процедуры отбора признаков. Полученная система диск- рипторов снова подвергалась вариационному отбору. В табл. 6.12 показаны дескрипторы, окончательно отобранные в каждой из рассматриваемых серий. Наилучшую оценку прогнозирующей способности можно получить, если из исходной выборки отобрать одно соединение, а оставшиеся соединения отнести к обучающей выборке. Построенная с помощью обучающей выборки разделяющая поверхность используется для предсказания кластера, к которому принадлежит отобранное соединение. Этэ процедура повторяется для всех соединений исходной выборки. Прогнозирующая способность рассчитывается путем деления количества пра- ие связи структуры и биологической активности Таблица 6.13 Весовой вектор и масштабные коэффициенты для серии I Номер скрип гора 5 7 10 15 27 32 33 36 45 N+ 1 Среднее значение 3,907 3,527 18,376 8,457 5,527 112,648 45,994 1,333 63,752 250 Масштабный коэффициент 431,4560 220,8830 15,6835 13,7709 16,4919 11,4809 104,7780 158,7940 15,3582 Весовой вектор -0,2197 -0,4915 0,0441 -0,2994 0,4415 0,2787 0,2545 -0,1682 0,5009 0,0453 вильных предсказаний на общее число предсказаний. Считается, что для конечных выборок этот метод дает наименее смещенную оценку прогнозирующей способности. Близкую оценку можно получить с помощью аналогичной процедуры, но с использованием контрольных выборок большего объема. Приведенные в табл. 6.12 оценки прогнозирующей способности получены с использованием контрольных выборок из одного элемента. В табл. 6.13 приведены средние значения, масштабные коэффициенты и весовой вектор дискриминантной функции, полученной для серии I. В этой серии осуществлялось предсказание, имеет ли неизвестное соединение активность, меньшую 100 мин. Для этого производился расчет дескрипторов, 'приведенных в табл. 6.10, затем полученные значения масштабировались путем вычитания из каждого дескриптора его среднего значения, умножения результата на нормализующий коэффициент и округления до целого числа. В результате получался 9-компонент- ный вектор. После присваивания десятой компоненте значения 250 рассчитывалось скалярное произведение этого вектора и весового вектора. Если скалярное произведение положительно, то активность соединения меньше 100 мин. В качестве примера приводится расчет для производного барбитуровой кислоты с заместителями R = этил, R' = втор-петил. Это соединение не входит в исходную выборку и, следовательно, является неизвестным. Длительность его действия равна 180 мин [20]. Расчет дескрипторов в серии I дает вектор X = (3, 3, 19, 17, 0, 106, 47, 2, 71). После нормализации Х = (-41, -116, 9, 117, -91, -76, 105, 105, -42). Добавляя дополнительную компоненту и рассчитывая скалярное произведение, получаем величину —30,6. Поскольку скалярное произведение отрицательно, длительность действия больше 100 мин. Отметим, что с
176 Глава б помощью дискриминантных функций можно предсказывать активность неизвестных соединений, используя простые вычисления, которые подобны только что проведенным и могут быть выполнены при помощи настольного калькулятора (при условии, что дескрипторы рассчитываются вручную). Обсуждение Тот факт, что дискриминантные функции могут быть построены для такой разнородной совокупности данных, какой является только что исследованная выборка, показывает, что в структуре исследованных соединений действительно содержится информация о длительности угнетающего действия. Хотя вероятность того, что построенные дискриминантные функции отражают случайные корреляции, всегда существует проведенное исследование указывает на то, что в данном случае не они определяют поведение дискриминантных функций. Надежность устанавливаемых с помощью непараметрических методов дискриминантного анализа соотношений определяется дискриминирующей способностью классификатора. Дискриминирующая способность — это способность классификатора находить разделяющую дискри- минантную функцию. В каждой из исследованных нами выборок обучающаяся машина смогла найти дискриминантную функцию, отделяющую объекты с кратковременным действием от объектов с продолжительным действием. Если бы эта разделяющая способность была связана со случайными корреляциями, то с помощью признаков, отобранных для элементов обучающей выборки, невозможно было бы построить дискриминантную функцию для элементов контрольной выборки. Для каждой из обучающих выборок, приведенных в табл. 6.11, были отобраны близкие системы дескрипторов. Испытания показали, что с помощью этих дескрипторов можно найти дискриминантную функцию, которая способна разделять как элементы обучающей выборки, так и элементы контрольной выборки. Таким образом, в обеих выборках дискриминантные функции определяются одними и теми же структурными признаками. Прогнозирующая способность дискриминантной функции зависит от способа ее построения. Дискриминантная функция, построенная с помощью линейной обучающейся машины, совсем необязательно дает максимальную прогнозирующую способность. Для линейно разделимой обучающей выборки может существовать бесконечное множество разделяющих функций. Поэтому даже если дескрипторы, отобранные на обучающей выборке, можно использовать для построения дискриминантной функции для контрольной выборки, то все равно такая функция может оказаться неэффективной. Прогнозирующая способность показывает, насколько успешно дискриминантная функция будет классифицировать данные, не использовавшиеся при ее построении. Если дискриминантная функция определяется случайными корреляциями, то постро- связи структуры и биологической активности it «иная с помощью разных обучающих выборок функция будет давать Лцбо низкие, либо сильно различающиеся значения прогнозирующей способности. Приведенные в табл. 6.11 результаты исследований показывают, что уменьшение числа элементов, используемых для построения дискриминантной функции, существенно не снижает прогнозирующей способности. Полученные с помощью обучающейся машины дискриминантные (Ьункции имеют весьма общий характер. С их помощью можно разли чать не только сильно отличающиеся по структуре соединения, но также и члены гомологических рядов. Структуры 17, 20 и 24 образуют гомологический ряд с возрастающей длиной алкильной цепи. Тот факт, чте дискриминантные функции могут быть построены для всех 61 возмож- иото разбиения выборки данных, свидетельствует о том, что соединения такого ряда могут быть различены. Аналогично эти же дескрипторь моТут описывать ряд разветвлений, представленный соединениями 16 f 9 я 27. Успешно различаются структурные изомеры 24, 25 и 27, а также 53 и 54. В свете изложенного интересно было бы рассмотреть некоторые из тех шести соединений, которые не удалось описать с помощью эти? дескрипторов. Соединение 29 принадлежит ряду, образованному соединениями 14, 15, 17, 20 и 24, и длительность его действия, как можне было бы ожидать, должна быть меньше длительности действия соединения 24. Однако длительность действия соединения 29 отклоняете от ожидаемого значения и оказывается неожиданно высокой. Вероятно такая разница в активности может быть объяснена сильным изменением липофильных свойств, связанным с большим размером боковой цепи. Аналогичное явление наблюдается в случае соединения 38, которое принадлежит к ряду соединений 16, 19 и 27. Длительность действи* этого соединения также сильно отклоняется от ожидаемого значения Аналогичные соображения можно высказать в отношении соединений 5 и 44, длительность действия которых также сильно отклоняется от значений, предписываемых другими элементами выборки. Структуры 121 и 150 также не полностью представлены в исследуемой выборке, таг что нет ничего удивительного, что они всегда неправильно классифицируются. Способность быстро идентифицировать соединения, свойства кота рых сильно отличаются от свойств большинства других соединений исследуемой выборки, является достоинством рассматриваемого подхода. После идентификации эти различия в свойствах можно использовать для получения информации о механизме действия этих соединений. Использованные в анализе структурные параметры, по-видимому как-то связаны с наблюдаемыми свойствами барбитуратов. Отсутствие какого-либо доминирующего структурного признака указывает на отсутствие специфичности во взаимодействии соединений с рецептором. Отбог признаков показывает, что наибольшее влияние на длительность действш *2 Э. Стьюпер
178 Глава б барбитуратов оказывают такие характеристики, как длина цепи и степень разветвленности. Было высказано предположение о том, что от степени защищенности положения 5 барбитурового кольца зависят многие липо- фильные свойства [21]. Дескрипторы 32, 33 и 35 были включены в конечный набор признаков. Эти дескрипторы окружения описывают участок структуры, простирающийся до вторичного положения заместителей R и R', и поэтому могут быть связаны с защищенностью положения 5 барбитурового кольца. Аналогично дескрипторы молекулярной связности дают информацию о степени разветвленности структуры, которая в свою очередь может быть связана с липофильными свойствами. Хотя мы и не ставили перед собой цели построить дискриминант- ные функции, применимые для всех барбитуратов, тем не менее удалось предсказать активность соединения, имеющего заместители R = этил и R' = emop-пентил. Это соединение не было включено в первоначальную совокупность данных. Как правильно предсказано с помощью дискриминантной функции, приведенной в табл. 6.13, и дискриминантных функций, построенных для серий III и ГУ, длительность действия этого соединения лежит в области от 100 до 200 мин. Естественно возникает вопрос, нельзя ли использовать полученные с помощью метода распознавания образов параметры для построения соединения, обладающего специфической активностью. Как видно из табл. 6.14, прямого метода решения такой задачи не существует. В таблице приведены статистические характеристики признаков, полученные для серии I: средние значения и стандартные отклонения, а также наибольшее и наименьшее значения. Отметим, что хотя средние значения признаков, относящихся к двум классам, отличаются друг от друга, стандартные отклонения превосходят эту разницу. Следовательно, отдельные дескрипторы, хотя они и дают информацию о структуре, не могут служить единственными показателями активности. В случае дескрипторов атомов, связей и субструктурных дескрипторов их среднее значение может быть непосредственно связано со структурой молекулы. Однако средние значения дескрипторов окружения и молекулярной связности интерпретировать трудно или невозможно, так как их связь со структурой сложна. Ясно, что среднее значение является только мерой относительного вклада даннрго дескриптора в структуру и не может интерпретироваться как величина, указывающая на наличие данного уровня активности. Примером может служить дескриптор 5, число атомов кислорода в молекуле. Эта величина принимает значение от 3 до 4. Барбитуровое кольцо содержит три атома кислорода. Значение дескриптора, большее трех, указывает на наличие кислорода в боковой цепи. Тот факт, что в среднем класс соединений с более высокой активностью содержит несколько больше атомов кислорода, не может гарантировать, что добавление кислорода вызовет увеличение активности соединения. Влияние кислорода на активность зависит не только от его наличия, но также от его количества, расположения в молекуле и химического окружения. Исследование связи структуры и биологической активности 179 Поскольку структурные дескрипторы отражают общую композицию структуры, то, следовательно, они являются взаимно зависимыми. Изменения в композиции структуры обычно влияют на значения нескольких структурных дескрипторов одновременно. Наиболее заметно изменяются дескрипторы окружения и молекулярной связности. Однако и на содержание субструктур оказывают влияние даже небольшие изменения в структуре. Такие изменения влияют на положение вектора-образа Таблица 6.14 Статистические характеристики окончательного набора дескрипторов, отобранных в серии I Номер дескриптора 2 5 10 12 27 32 33 36 МС2 а Выше Среднее значение Соединения ниже порога2 3,52 3,04 19,91 8,56 6,50 114,96 46,16 1,37 66,24 порога нахо Соединения выше порога 3,54 3,18 16,19 8,34 4,15 109,35 45,77 1,28 Стандартное Соединения ниже порога 0,56 0,24 9,00 9,26 9,20 13,20 1,17 0,82 отклонение Соединения выше порога3 0,61 0,38 7,55 9,30 5,40 8,78 1,33 0,78 60,21 9,70 8,00 дятся 56 соединений, ниже порога — 90. Наибольшее значение 5 4 41 36 29 141 49 3 81 Наименьшее значение 3 3 0 0 0 102 43 0 42 в пространстве признаков и, следовательно, отражаются на результатах классификации. Построенную с помощью метода распознавания образов дискриминантную функцию можно представлять себе как преобразование, отображающее структуру в пространстве структурных признаков в область расположения одного из кластеров. Обратное отображение не может быть выполнено непосредственно. С другой стороны, структурные дескрипторы можно рассматривать как показатели электронных, стерических и липофильных свойств молекул. Ни один из дескрипторов не отражает всех этих свойств, но каждый дает свой вклад в их описание. Знание же одних этих свойств не позволяет осуществить построение активной молекулы. Хотя с помощью параметров, применяемых в анализе методом распознавания образов, нельзя непосредственно провести конструирование активной молекулы, однако их можно использовать для предсказания эффективности гипотетических структур. Поэтому метод распознавания образов может помочь в решении вопроса о том, какую из нескольких возможных структур активных молекул следует избрать для 12*
180 Глава б синтеза. Такая задача может быть решена, если имеются данные предыдущих испытаний, отражающие как успешные, так и неудачные попытки синтеза соединений, обладающих заданным типом активности. С помощью методов распознавания образов можно осуществить широкомасштабный предварительный скрининг гипотетических структур, Процедура расчета структурных параметров является достаточно быстродействующей для того, чтобы с ее помощью можно было описать несколько тысяч соединений и затем испытать их с помощью дискри- минантной функции, построенной на основании данных о соединениях с известной активностью. Те соединения, которые в результате дискри- минантного анализа оказались в группе наиболее активных, можно подвергнуть дальнейшим испытаниям. Полученные в наших исследованиях результаты свидетельствуют о том, что такие предсказания могут быть выполнены с большой степенью надежности. Конечная цель исследований по влиянию структурных изменений на биологическое действие заключается в создании новых, более эффективных веществ. При поиске новых соединений химик по традиции пользуется структурными формулами молекул. Об эффективности этого способа анализа свидетельствует количество новых активных соединений, найденных таким образом. В процессе поиска химик использует представления о связи структурных параметров со свойствами соединений. Сочетая этот традиционный подход с математическими методами анализа, можно значительно повысить эффективность поиска. ЛИТЕРАТУРА 1. Hansch С, Unger S., Forsythe А. В., Strategy in Drug Design. Cluster Analysis as an Aid in the Selection of Substituents, J. Med. Chem., 16, 1217 (1973). 2. Ting K. L. H., Lee R. С. Т., Milne G. W. A., Shapiro M., Guarino A. M., Applications of Artificial Intelligence: Relationships between Mass Spectra and Pharmacological Activity of Drugs, Science, 180, 417 (1973). 3. Kowalski B. R., Bender C. F., The Application of Pattern Recognition to Screening Prospective Anti-Cancer Drugs. Adenocarcinoma 755 Biological Activity Test, J. Am. Chem. Soc., %, 916 (1974). 4. Chu K. C, Feldmann R. J., Shapiro M. В., Hazard G. F., Jr., Geran R. I., Pattern Recognition and Structure - Activity Relationship Studies. Computer- Assisted Prediction of Anti-Tumor Activity in Structurally Diverse Drugs in an Experimental Mouse Brain Tumor System, J. Med. Chem., 18, 539 (1975). 5. Cammarata A., Menon G. K., Pattern Recognition. Classification of Therapeutic Agents According to Pharmacophores, J. Med. Chem., 19, 739 (1976). 6. Menon G. K., Cammarata A., Pattern Recognition II: Investigation of Structure - Activity Relationships, J. Pharm. Sci., 66, 304 (1977). 7. Darvas F., Application of the Sequential Simplex Method in Designing Drug Analogs, J. Med. Chem., 17, 799 (1974). 8. Hitter S. A., Golender V. C, Rosenblit А. В., Rastrigin L. A., Glaz А. В., Cybernetic Methods of Drug Design I. Statement of the Problem - The Perception Approach, Сотр. Biomed. Res., 6, 411 (1973). Исследование связи структуры и биологической активности 181 9 Vsdin E., Effron D. H., Psychotropic Drugs and Related Compounds 2nd ed., ' DHEW Pub. No. (HSM) 72-9074, 1972. 10. Lachenbrach P. A., Micke R. M., Estimation of Error Rates in Discriminant Analysis, Technometrics, 10, 1 (1968). 11. McCabe G. P., Computations for Variable Selection in Discriminant Analysis, Technometrics, 17, 103 (1975). 12. Blicke F. F., Cox R. H., Medicinal Chemistry, Vol. IV, Wiley-Interscience, New York, 1959. 13. Randk M., On Characterization of Molecular Branching, J. Am. Chem. Soc., ' 97, 6609 (1975). 14. Kier L. В., Hall L. H., Murray W. Т., Randk M., Molecular Connectivity I: Relationship to Nonspecific Local Anesthesia, J. Pharm. Sci., 64, 1971 (1975). 15. Hall L. H., Kier L. В., Murray W. Т., Molecular Connectivity II: Relationship to Water'Solubility and Boiling Point, J. Pharm. Sci., 64, 1974 (1975). 16. Murray W. Т., Hall L. H., Kier L. В., Molecular Connectivity III: Relationship to Partition Coefficients, J. Pharm. Sci., 64, 1978 (1975). 17. Murray W. Т., Kier L. В., Hall L. H., Molecular Connectivity 6. Examination of the Parabolic Relationship between Molecular Connectivity and Biological Activity, J. Med. Chem., 19, 573 (1976). 18. Kier L. В., Hall L. H., Molecular Connectivity in Chemistry and Drug Research, Academic, New York, 1976. 19. Stuper A. J., Jurs P. C, Reliability of Nonparametric Linear Classifiers, J. Chem. Inf. Сотр. Sci., 16, 238 (1976). 20. Swanson E. £., Fry W. E., The Pharmacological Relationship of Isometric Barbituric Acid Derivatives. J. Am. Pharm. Assoc, 29, 509 (1940). 21. Hansch C, Anderson S. M., The Structure - Activity Relationship in Barbiturates and Its Similarity to That in Other Narcotics, J. Med. Chem., 10, 745 (1967).
Глава 7 ИССЛЕДОВАНИЕ СВЯЗИ МЕЖДУ СТРУКТУРОЙ И АКТИВНОСТЬЮ ОБОНЯТЕЛЬНЫХ СТИМУЛЯТОРОВ Поскольку пять основных органов чувств для человека являются единственными средствами восприятия окружающей действительности, нет ничего удивительного в том, что изучению этих органов и воспринимаемых ощущений посвящено большое количество научных исследований. Три основных физических средства восприятия — зрение, слух и осязание — изучены достаточно хорошо. Этого нельзя сказать о химических средствах восприятия — вкусе и запахе. В прошлом, когда число экспериментальных работ, посвященных химическим способам восприятия, было весьма ограничено, высказывались в основном различные теоретические соображения об их механизме. Теперь же ситуация изменилась; обоняние и вкус стали предметом активных исследований. Настоящая глава посвящена исследованию связи между структурой и активностью пахучих соединений — одорантов. Хотя обоняние является сложным процессом, обычно считают, что оно складывается из следующих стадий: 1) взаимодействие молекул летучего соединения с рецепторами, находящимися в обонятельном эпителии, 2) передача нервных импульсов в обонятельную луковицу, 3) восприятие импульсов обонятельной луковицей, 4) передача обонятельной информации в высшие центры мозга, где она распознается и вырабатывается отклик. Для того чтобы установить детальный механизм этих процессов, необходимо предпринять исследования в различных областях науки. Химик может установить химический состав пахучего вещества, а также изучить те молекулярные свойства, которые существенны для обоняния. Для изучения взаимодействия молекул с рецептором требуется привлечение методов молекулярной биологии; задача физиологов и неврологов — исследовать нервную активность обонятельной луковицы и высших нервных центров. Только путем совместных исследований в этих областях науки может быть установлен механизм процесса обоняния. В этом вопросе существует еще много неясностей. В настоящей главе основное внимание обращается на структуру молекул и их существенные для обоняния свойства. Хотя, по-видимому, хеморецептор способен различать структуру молекул одорантов, до сих пор не получен ответ на вопрос: «Какие молекулярные характеристики определяют запах веществ?» Количество экспериментальных исследований в этой области весьма ограничено, теоретических же, напротив, выполнено очень много. Гвязь структуры и активности обонятельных стимуляторов 183 Один из методов решения задачи — подобрать одоранты, имеющие близкий запах, а затем выявить сходство в их молекулярной структуре. В последние несколько десятилетий таким способом были исследованы небольшие выборки данных и простые молекулярные свойства. К сожалению, ни в одном из этих исследований не удалось выявить свойства, определяющие запах соединений в больших и разнородных совокупностях обонятельных стимуляторов. Тем не менее возможно, что это удастся сделать путем сочетания различных молекулярных параметров. В этой главе обсуждаются исследования связи между структурой и активностью двух групп обонятельных стимуляторов. В первом исследовании рассмотрены вещества, обладающие мускусным запахом, во втором — вещества, воздействующие на тройничный нерв носовой полости. Однако, прежде чем перейти к описанию этих исследований, мы изложим основы обонятельного восприятия. ОСНОВЫ АНАТОМИИ И ФИЗИОЛОГИИ НОСА Человеческий нос является бифункциональным органом, который служит как для дыхания, так и для восприятия запахов. Он состоит из внешнего носового органа и носовой полости. Внешне нос является характерной принадлежностью лица, создающей его облик, но, по существу, его главное назначение заключается в создании входа в носовую полость, которая содержит дыхательные и обонятельные области. Большая часть носовой полости, включая три спиралевидные конические кости, содержит дыхательный эпителий, который очищает, согревает и увлажняет поступающий воздух [1]. В процессе нормального дыхания большая часть воздушного потока направляется в задние части носовой полости, а затем в легкие. Однако небольшой объем воздуха поступает в обонятельную область, которая расположена в верхней задней части носовой полости. При обнаружении запаха для облегчения его распознавания в эту область может быть направлена дополнительная порция воздуха. Обонятельная область человеческого носа состоит из двух участков желтой ткани, расположенных по обе стороны носовой полости, причем размер каждого участка около 6,5 см2. Обонятельный эпителий состоит из сенсорных обонятельных клеток и эпителиальной подложки. Эпителий полностью погружен в тонкий слой водянистой слизи, которую выделяют боуменовы железы. Желтый пигмент, цвет которого указывает на содержание каротиноида, находится непосредственно в клетках подложки. Хотя этот пигмент и может участвовать в механизме обоняния, данные о его специфической активности отсутствуют [2]. Обонятельные клетки представляют собой длинные, узкие биполярные нейроны, рассеянные в обонятельном эпителии. Именно они обусловливают чувство запаха. Эти клетки имеют форму колбочек, и их длина пРямо пропорциональна толщине эпителия. Обонятельные пузырьки, вырабатываемые обонятельными ресничками, свободно всплывают на
184 Глава 7 поверхность раздела между клеткой и слизью. Эти реснички выступают из поверхности ткани в покрывающий их слой слизистой оболочки Поэтому перед тем, как достигнуть обонятельных ресничек, молекулы одоранта должны раствориться в слое водянистой слизи. Хотя очевидная роль обонятельных ресничек заключается в увеличении площади поверхности рецептора, вопрос об их участии в процессе обоняния до сих пор остается предметом исследования [3]. Внутри обонятельных клеток содержатся очень тонкие, лишенные миелина нервные волокна. Каждая обонятельная клетка содержит одно нервное волокно, сохраняющее свою индивидуальность до тех пор, пока оно не достигнет обонятельной луковицы мозга. Эти нервные волокна все вместе составляют обонятельный, или первый черепной, нерв (ЧН I). Каждый нейрон имеет диаметр от 0,2 до 0,3 мкм и является одним из самых тонких нервных волокон человеческого тела. Поэтому очень трудно провести электрофизиологические измерения этого нерва. Обонятельный нерв является единственным нервом, с которым не связаны другие сенсорные или центробежные нервы [3]. Свободные окончания тройничного, или пятого черепного, нерва (ЧН V) также находятся внутри носовой полости. Тройничный нерв выполняет защитные функции, реагируя на химические раздражители, например пары аммиака и кислот; он влияет на секрецию слизистой оболочки, изменяет характер дыхания, вызывает набухание внутри- носовой ткани [4]. В последних разделах этой главы мы рассмотрим вещества, воздействующие на тройничный нерв, поэтому следует подробней осветить роль этого нерва в обонянии. Помимо обонятельного эпителия у низших животных и детей можно обнаружить топографически выделяющийся сенсорный участок, называемый органом Якобсона или сошниковым носовым эпителием. Однако у взрослых людей он находится в рудиментарном состоянии. У низших животных этот орган связан с нижней частью носовой полости через узкий канал и содержит рецепторные нейроны, нейриты которых заканчиваются в дополнительной обонятельной луковице. Сошниковые носовые сенсорные клетки очень похожи на обонятельные сенсорные клетки, за тем исключением, что у них отсутствуют реснички [4]. Хотя сошниковый носовой орган не участвует в обонянии у взрослых людей, тем не менее представление о функции этого органа помогло бы общему пониманию процесса обоняния. В настоящее время значительная часть исследований обоняния носит физиологический характер. Продвижение в этой области происходит очень медленно, сколько-нибудь существенные сдвиги случаются редко. Анатомия обонятельных органов изучена, но это не углубило понимание процесса обоняния. Была выполнена электрофизиологическая запись обонятельного нерва [4 — 6], но интерпретация полученных данных не привела к расшифровке обонятельного кода. Однако есть основания надеяться, что вскоре будут получены ответы на некоторые поставленные в настоящее время вопросы. Связь структуры и активности обонятельных стимуляторов 185 ТЕОРИИ ОБОНЯНИЯ Более 2000 лет назад Лукреций писал [7]: «Можно легко заключить, что вещества, вызывающие приятное ощущение (запах), состоят из гладких круглых частиц. Те же вещества, которые кажутся горькими и резкими, состоят из плотных заостренных частиц, которые, проникая в органы чувств, ранят ткани нашего организма». С тех пор появилось множество теорий обоняни я, большая часть которых возникла в последнее столетие. В настоящее время устаревшими считаются волновая и контактная теории. Волновая теория объясняет обоняние излучением, испускаемым молекулами одоранта, подобно воздействию видимого света на глаз. Теории этого типа недолго привлекали к себе внимание, поскольку вскоре было показано, что ощущение запаха возникает только за счет контакта молекул одоранта с обонятельной областью. В контактных теориях принимается во внимание контакт между молекулой одоранта и обонятельными рецепторами, но считается, что возбуждение рецептора вызывается химическими реакциями и внутримолекулярными колебаниями. Теории этого типа были популярны в начале 1900-х годов, однако в 1930-х годах они были опровергнуты полученными экспериментальными данными [8]. Единственные теории, которые в настоящее время признаются научной общественностью, — это теории «совокупного молекулярного» действия. В этих теориях запах объясняется свойствами молекулы в целом, а не функциональными группами или отдельными молекулярными характеристиками, как это делается в контактных теориях. В этих теориях учитываются одновременно колебательные, стереохими- ческие и геометрические свойства молекул. Поскольку в настоящее время эти теории являются предметом интенсивных обсуждений, они рассматриваются более подробно. Колебательная теория обоняния была предложена в 1937 г. Дайсоном, который предположил, что молекулы с колебательными частотами в диапазоне от 1400 до 3500 см-1 являются одорантами [9]. Эта теория в свое время вызвала большой интерес, однако вскоре от нее отказались, так как корреляции между инфракрасными спектрами соединений и их запахами не были подтверждены. В 1954 г. Райт снова обратился к колебательной теории, но внес в нее одно изменение: область активных частот была отнесена к далекой инфракрасной области (т. е. от 50 до 500 см"'), которая соответствует колебаниям молекулы в целом [10, 11]. Недавно теория Райта была проверена экспериментально методом длинноволновой инфракрасной спектроскопии. К сожалению, мало Данных подтверждает эту теорию, а большинство ее опровергает. Только в одной работе, где исследовались 47 мускусных и 109 немускусных одорантов, были получены статистически значимые корреляции [12]. При этом следует учесть тот факт, что дейтерирование
186 Глава 7 молекулы одоранта (которое изменяет спектры поглощения в далекой инфракрасной области) не оказывает влияния на запах соединения Несмотря на сильную критику как с экспериментальной, так и с теоретической стороны, не следует полностью игнорировать эту теорию. Стереохимическая теория обоняния, впервые предложенная Монкри- фом [8] и затем усовершенствованная Амуром и сотр. [13, 14], связывает запах с размером и формой молекул. Теория основана на представлении о «ключе и замочной скважине», хорошо знакомом по теории лекарственного и ферментативного действий. Вначале Мон- криф предположил, что существуют от 4 до 12 типов рецепторных центров, каждый из которых соответствует первичному запаху. Однако эта теория не была подтверждена экспериментом. Амур предпринял попытку определить количество различных рецепторных центров, а затем и размер каждого центра. На основании обширного литературного материала было проведено сопоставление молекулярных моделей различных одорантов с -близким запахом. Первоначально удалось выделить семь первичных типов запаха: камфарный, острый, эфирный, цветочный, мятный, мускусный и гнилостный. Однако оказалось, что эти классы запахов неодинаково зависят от размера и формы молекул. Эфирный, камфарный и мускусный запахи зависят главным образом от размера, а мятный и цветочный запахи связаны скорее с формой молекул. Оставшиеся два типа запахов, острый и гнилостный, зависят от электронной природы молекул, а не от их формы или размера. Тот факт, что два типа первичных запахов не зависят от размера и формы молекул, указывает на то, что могут существовать и другие факторы, важные для обонятельного процесса. Тем не менее эта теория, пожалуй, дает наиболее удачное объяснение природы запаха. И наконец, следует упомянуть теорию молекулярного профиля, предложенную Битсом в 1957 г., в которой при объяснении запаха учитываются как расположение функциональной группы, так и молекулярная структура. Согласно этой теории, функциональная группа ответственна за ориентацию молекулы на рецепторе, а форма молекулы определяет запах. Хотя в результате исследований было показано, что в некоторых случаях это представление оправдывается и с его помощью даже было разработано несколько новых одорантов, сама теория еще не доведена до такой степени совершенства, чтобы можно было указать правила расположения функциональных групп и определяющую запах форму молекул. Тем не менее с помощью теории молекулярного профиля удалось объяснить запахи некоторых классов одорантов. Все эти разнообразные теории запаха сходятся на том, что для проявления запаха вещество должно удовлетворять следующим двум требованиям. Во-первых, оно должно быть достаточно летучим для того, чтобы достигнуть обонятельной области носа. Во-вторых, оно должно быть растворимо в липидах и в воде для того, чтобы достигнуть обонятельных рецепторов. Кроме этих двух свойств разные Связь структуры и активности обонятельных стимуляторов 187 теории мало согласуются между собой при определении свойств, обусловливающих известные человеку запахи. Вот почему именно в этой области методы исследования связи между структурой и активностью могут оказаться особенно полезными. В первых исследованиях связи структуры и активности (ССА) обонятельных стимуляторов главным образом делались попытки отыскать связь между запахом соединения и каким-либо одним молекулярным свойством с помощью линейного регрессионного анализа. Хотя в отдельных случаях были получены статистически значимые результаты, возможность предсказания запаха для больших массивов данных ни разу показать не удалось. Даже попытка описать запах с помощью метода многомерного скейлинга в пространстве 25 физико- химических параметров привела к самым скромным результатам Метод Ханша широко используется в фармакологии для описания лекарственной активности веществ, однако в случае одорантов область его применения довольно ограничена. Метод Ханша был использован Бёленсом [17] для исследования некоторых веществ с запахом горького миндаля и мускуса. Было исследовано 16 одорантов. Оказалось, что во всех случаях наиболее существенным параметром является коэффициент распределения исследуемых веществ в системе 1-ок- танол/вода. Этот результат означает, что активность одорантов (в данном случае относительное качество одоранта по стандартной парфюмерной шкале) обусловлена главным образом их растворимостью. Структурные признаки в этом исследовании не рассматривались. Следовательно, до тех пор, пока не появится возможность количественного описания запаха, метод Ханша будет иметь ограниченное применение в исследованиях одорантов. Несмотря на то что имеется большое количество качественных данных для многих соединений, исследования ССА были проведены только для выборок небольшого объема с использованием простых корреляционных методов, включающих два или три параметра [18, 19]. Одна из причин того, что в рассматриваемой области проведено так мало качественных ССА-исследований, заключалась в отсутствии методов анализа данных такого типа. Однако теперь существует метод, пригодный для анализа как качественных, так и количественных данных. Это метод распознавания образов. Методы распознавания образов очень хорошо приспособлены для проведения качественных ССА-исследований. С помощью этих методов можно описать весьма разнородные по свойствам объекты, используя большое число разнообразных признаков. Методом распознавания образов можно анализировать объекты, свойства которых задаются только дискретным образом. И наконец, с помощью методов распознавания образов можно из большого количества признаков объекта отобрать те, которые наиболее существенны для описания анализируемого свойства.
188 Глава 7 Следовательно, основная задача заключается в выборе удачного набора признаков, способных описать исследуемое свойство. Разумеется при этом могут быть использованы и те параметры, которые обычно применяются в анализе методом Ханша. Однако эти параметры имеют экспериментальное происхождение, и определение их для такого широкого круга данных представляет значительные трудности. В конечном счете все физико-химические свойства соединений определяются молекулярной структурой, поэтому будем считать, что представление структуры в виде набора дескрипторов дает возможность отнести каждое соединение к классу, определяемому его биологической активностью. АНАЛИЗ МУСКУСНЫХ ОДОРАНТОВ Класс мускусных одорантов был выбран для первоначального исследования главным образом из-за того, что составляющие его соединения имеют характерный запах, который трудно спутать с каким- либо другим запахом. Следовательно, состоящая из одорантов этого типа выборка данных содержит сравнительно мало соединений, не поддающихся точной классификации. Такие четко определенные данные очень хорошо подходят для проверки эффективности методов распознавания образов в исследованиях ССА обонятельных стимуляторов. Однако класс мускусных одорантов выбран не только по этой причине. Начиная с 1950-х годов в парфюмерной промышленности проводятся широкие исследования по синтезу мускусных одорантов, которые смогли бы возместить недостаток природных соединений. Поэтому по мускусным одорантам существует обширный библиографический материал [15, 18, 20] в отличие от любого другого крупного класса одорантов. Более того, этот класс соединений интересен с точки зрения структуры, так как он содержит самые разные структурные типы, включая некоторые стероиды. Исследование ССА мускусных одорантов с помощью методов распознавания образов является заманчивым предприятием, сулящим быстрый успех. Исследовались 300 соединений, взятых из каталога одорантов, составленного Амуром [21]. 60 соединений были мускусными одоран- тами. В их число входили 23 макроциклических соединения, 19 полинитробензолов, 11 стероидов, 5 у-бутиролактонов и 2 соединения других структурных типов (некоторые структурные типы приведены на рис. 7.1). Хотя 16 соединений были отнесены Амуром к слабым мускусным одорантам или к одорантам с другими обонятельными обертонами [21], можно считать, что исследованная выборка соединений достаточно полно представляет мускусные одоранты (полный список исследованных нами мускусных одорантов приведен в приложении). Из других обонятельных классов были случайным образом выбраны 240 соединений: 49 камфарных, 44 цветочных, 32 эфирных, 41 мятный. 51 острый и 23 гнилостных одоранга. Эта группа соединений содержит Связь структуры и активности обонятельных стимуляторов 189 О NO, (нхАсн2)- о Циветон °2N Y П°2 Мускусный ксилол НО' Андростенол а- Гептил-У- 5утиролакгпон Рис. 7.1. Примеры структур мускусных одорантов. большое количество различных функциональных групп и структурных классов и поэтому является достаточно представительной выборкой немускусных одорантов. После ввода структур в память ЭВМ для каждого соединения был рассчитан ряд дескрипторов. Для получения информации о химической природе соединений были рассчитаны дескрипторы фрагментов: общее число атомов, связей, атомов углерода, кислорода, азота, число простых, двойных, тройных, ароматических связей и взвешенная сумма всех четырех типов связей. Из этого списка были исключены пять фрагментных дескрипторов, так как оказалось, что они принимают ненулевые значения только для нескольких соединений. Для получения информации о химической функциональности и структурном составе соединений был рассчитан ряд субструктуряых дескрипторов. Просмотр 46 дескрипторов, приведенных в табл. 7.1, показал, что только 41 дескриптор имеет отличные от нуля значения для не менее 10% соединений. Поскольку 10 субструктурных дескрипторов рассчитывались методами как общего, так и специфического поиска, то в результате был получен 51 субструктурный дескриптор. С помощью программы построения трехмерной модели молекулы MOLMEC были рассчитаны семь ранее описанных геометрических дескрипторов. Предполагалось, что эти характеризующие общую форму молекул Дескрипторы должны играть важную роль при отделении мускусных одорантов от немускусных, поскольку Амур получил неплохие корреляции аналогичных признаков с рассматриваемыми типами запахов. Расчет дескрипторов окружения и молекулярной связности был отложен До получения результатов для уже введенных 68 дескрипторов. На основании этих 68 дескрипторов были сформированы векто- Рььобразы соединений. Компоненты векторов были подвергнуты такой
190 Глава 7 предвари i ельной обработке, что среднее значение каждой компоненты стало равым нулю, а стандартное отклонение - единице. Затем все компоненты были умножены на 100 для того, чтобы при округлении не произошло потери информации. Прежде всего была предпринята попытка определения дискриминант- ной функции ДХ,), которая принимает значения ДХ,) > 0 для Х„ при- надлежащих классу мускусных одорантов, и ДХ,) < 0 для всех других соединений. С помощью процедуры обучения была найдена решающая плоскость, которая правильно классифицирует всю анализируемую совокупность данных. С использованием этой решающей плоскости было проведено несколько исследований для выделения таких дескрипторов, которые наиболее значимы для разделения. Вместо того чтобы производить отбор признаков из всех 68 компонент векторов-образов, было решено вначале испытать по отдель- Таблица 7.1 Субструктуриые дескрипторы3 I. IS) -С- I 2. (S) — С- I 3. (S) «С—С- I 4. (S) «С—С—С- 5. (S) 6 7 8 9 10. П. 12. (В) (В) (В) (В) (В) (В) (В) —с— 1 —с— —О— 1 —с— 1 1 с-с- 1 с-с- 1 -с-с- 13 14 15 16 17 18 19 20. 21. 22. 23. 24. 25. 26. 27. . (В) (В) |В| (G) (G) (G) -c= 1 -c=o 1 с—с—с 1 —с —о =0 (G) С—С— (G) |G|- (Gl- (G) = (G) - (G) ■- (G)' 1 Gl С ■-с- 1 -с— -с-с^ 1 1 1 1 1 -С"-"0<С---< -с- Связь структуры и активности обонятельных стимуляторов 191 Продолжение табл. 7.1 \1 \\ 37. (G) -С= 38. (G) -С—О- 39. (GI -С—С-С- I 40. (Gl —С—С—С- 28. 29. 30. 31. 32. 33. 34. 35. 36. (GI (GI (GI (G) (G) (G) -С- с-с 1 —с- —с- 1 —с- 1 -с- 1 1 (G) С-С (G) IG) —с- 1 —с- -с^- —с— -с— 1 -с— 1 1 -с— 1 -с— 1 1 -с= 1 -с= 41. 42. 43. 44. 45. (G) С- (G) С- (G|C- (G)- (G)- -с- 1 -с- 1 1 -с- 1 с— 0- -с— -с— 1 т 1 с—с— 1 с=о 46. (G) — С—С—С—С- а = ароматическая связь; * — атом находится в шестичленном кольце; S — был проведен специфический поиск; (G) — был проведен общий поиск; (В)— проведены оба типа поиска — специфический и общий. ности геометрические, фрагментные и субструктурные дескрипторы в отношении их способности разделять анализируемые данные. Было обнаружено, что ни фрагментные, ни геометрические дескрипторы не позволяют построить линейную дискриминантную функцию. Даже путем сочетания этих дескрипторов не удалось найти линейной разделяющей поверхности. Однако было найдено, что разделению мешают всего несколько соединений. При использовании только семи геометрических дескрипторов были неправильно классифицированы лишь 10 показанных на рис. 7.2 соединений. После присоединения к ним Ю фрагментных дескрипторов линейной разделимости мешали только три соединения, показанные в верхней части рис. 7.2. Поскольку эти соединения являются слабыми мускусными одорантами, нет ничего Удивительного в том, что они неправильно классифицируются. Можно было бы исключить эти соединения из выборки, и отбор признаков проводить на оставшихся. Вместо этого мы решили испытать большие наборы дескрипторов на всех соединениях. Для набора из 51 субструктурного дескриптора была найдена
192 Глава 7 Br. (СН2)6-СН, 2- бром-4-трет- 5ymu/i-5- оС-Гелтил-f- бутиролактон метоксигполуои (СН2)7-СН3 ](-Октил-#-бутиролакто н (СН2), (СН2)6 Опт' Фенилу ксусная кислота О он (СН2(6—,СНд Циклотетрадеканон Додекаметилен- карбонат О. О. О (СН2)5—(СН2)5 Ангидрид додекан- дикарбоновой кислоты Норгексагидрофарнезол „ОН S. А ^s^ Диизоами/гтрисульфид Р—О^ Этиловый Эфир бисдипро- пиламида фосфорной кислоты Рис. 7.2. Соединения, классифицированные неправильно при использовании только геометрических дескрипторов. линейная дискриминантная функция, правильно классифицирующая все соединения. Для расчета прогнозирующей способности этих дескрипторов вся выборка данных была разделена на обучающую и контрольную выборки. Случайным образом было сформировано 80 таких выборок. Количество соединений, включенных в эти выборки из каждого класса одорантов, указано в табл. 7.2. С помощью каждой из обучающих выборок была построена решающая плоскость, которая затем использовалась для классификации элементов соответствующих контрольных выборок. Средняя прогнозирующая способность рассчитывалась на основании результатов, полученных для 20 случайным образом построенных выборок для каждой группы распределений. Приведенные в табл. 7.3 результаты получены для набора из 51 субструктурного дескриптора. В каждой группе обучающая выборка, которая дала наиболее Связь структуры и активности обонятельных стимуляторов 193 Таблица 7.2 Распределение мускусных одорантов между обучающей н контрольной выборками Группа А В С D Обучающая Мускусные 50 48 45 42 выборка Немускусные 200 192 180 168 Контрольная Мускусные 10 12 15 18 выборка Немускусные 40 48 60 72 Количество выборок 20 20 20 20 высокую прогнозирующую способность, использовалась далее для отбора признаков. В табл. 7.3 также указаны количества дескрипторов, оставшихся после процедуры отбора, и соответствующие им средние прогнозирующие способности. В каждом случае в среднем было исключено около двух третей первоначально взятых 51 дескриптора, при этом средняя прогнозирующая способность немного возросла. Во всех случаях полная выборка соединений осталась линейно разделимой и при уменьшенном наборе дескрипторов. Оставшиеся после отбора признаков субструктурные дескрипторы и группы, в которых эти дескрипторы оказались значимыми, указаны в табл. 7.4. Как видно из таблицы, наблюдается значительное перекрывание групп дескрипторов, причем более одной трети из этих 27 дескрипторов, выделенных в результате процедуры отбора признаков, являются значимыми по крайней мере для трех четвертей групп. Поскольку 24 из 51 субструктурного дескриптора всегда исключались процедурой отбора признаков, был сделан вывод, что они несущественны для разделения анализируемых данных. Поэтому они не использовались в дальнейшем. Таблица 7.3 Значения прогнозирующей способности, полученные с помощью только субструктурных дескрипторов Начальная Конечная Конечное Группа прогнозирующая прогнозирующая количество способность способность дескрипторов 14 15 16 14 Векторы-образы построены с помощью 51 субструктурного дескриптора. А В С D 95,1 94,6 94,6 94,6 96,2 95,3 95,8 95,1 13 Э. Стьюпер
194 Глава 7 Таблица 7.< Субструктурные дескрипторы, оставшиеся после процедуры отбора признаков Субструктура 1. —С 2. С^- 3. —С— 4. —С— 5. —О— 6. —О I 7. -=ОС 8. С—С ■У % II 9. —С— | 10. —С— 1 п. —с—с 12. =-00 1 13. —С— 1 14. —С—С 1 Тип 1 G — общий поиск, поискаа S G G S S S G G S S S G G G * * * * * * * * * S — специф Группа А В С D * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * - Субструктура Тип по 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. ический поиск, _ —с—с—с- 1 с—с—с 1 —с—о— 1 1 -^-оо* —с—с— II —с— —с—с—с- II _с_с_ —о— 1 с—с—с 1 II —с—с 1 —с—с— 1 1 —с—с—с с- — ароматическая а - G G G G S G G G G S G G G связь. Группа А В С D * * * * * * * * * * * * * * * * Далее, оставшиеся 27 субструктурных дескрипторов были объединены с 10 фрагментными и семью геометрическими дескрипторами и на их основании сформированы 44-мерные векторы-образы соединений. Так же как и в предыдущем исследовании, были построены 80 пар обучающих и контрольных выборок, рассчитаны значения средней прогнозирующей способности и с помощью обучающей выборки, давшей наиболее высокий процент правильных предсказаний, в каждой группе проведен отбор признаков. Полученные результаты приведены в табл. 7.5. Из таблицы видно, что в каждой группе удалось исклю- структуры и активности обонятельных стимуляторов 195 чить около двух третей из первоначальных 44 дескрипторов, при этом прогнозирующая способность осталась прежней. В табл. 7.6 перечислены дескрипторы, оставшиеся после процедуры отбора признаков. (Номера субструктурных дескрипторов, указанные в этой таблице, соответствуют порядковым номерам дескрипторов в табл. 7.4.) Как видно из таблицы, некоторые из субструктурных дескрипторов, выделенных в результате предыдущего анализа, оказались замененными Таблица 7.5 Исследования прогнозирующей способности с помощью 44 объединенных дескрипторов Начальная прогио- Конечная прогнози- Группа зирующая способ- руюшая способ- Конечное число Конечные 13 11 v' иостьа ность дескрипторов дескрипторов" дескрипторов А В С D 95,3 96,1 95,6 95,7 96,6 95,9 96,4 97,1 16 .15 15 14 97,5 97,6 96,8 97,8 96,4 96,8 96,6 96,7 Каждый вектор-образ состоял из 27 субструктуриых, семи геометрических и 10 фрагментных дескрипторов. 6 Использованы 13 дескрипторов из табл. 7.7. в Использованы дескрипторы из табл. 7.7, за исключением дескрипторов 2 и 5. фрагментными и геометрическими дескрипторами; в результате такой замены прогнозирующая способность увеличилась в каждой из групп (ср. с результатами, приведенными в табл. 7.3 и 7.5). Хотя выделенные для каждой группы дескрипторы уже теперь можно использовать для предсказания неизвестных одорантов, все- таки лучше сначала построить классификатор на основе всей совокупности анализируемых данных. После того как отбор признаков был выполнен для всех 300 соединений, из 44 исходных дескрипторов осталось 13 дескрипторов, приведенных в табл. 7.7. Можно было бы без ущерба для линейной разделимости исключить указанные в табл. 7.7 дескрипторы 2 и 5, однако при этом уменьшилась бы величина прогнозирующей способности в каждой из групп, что означает потерю некоторой информации (ср. две последние колонки табл. 7.5). В табл. 7.7 также приведены значения прогнозирующей способности каждого отдельного дескриптора при классификации всей совокупности данных. Эти значения следует сравнить с величиной 80%, соответствующей доле правильных предсказаний при классификации всех соединений как немускусных одорантов. Наилучшим отдельным дескриптором оказалась метиленовая группа (дескриптор 9 из табл. 7.7), что является отра- *ением того факта, что макроциклические мускусные одоранты содержат большое количество таких субструктурных групп. 13*
196 Глава 7 Таблица 7.6 Дескрипторы из объединенной системы 44 дескрипторов, оставшиеся после процедуры отбора Остался в группе Дескриптор А В С D !. Количество атомов кислорода 2. Субструктура 3 3. Субструктура 9 4. Субструктура 5 5. Ось инерции X 6. Количество простых связей 7. Количество двойных связей 8. Субструктура 1 9. Субструктура 8 10. Субструктура 15 !!. Субструктура 27 12. Количество ароматических связей !3. Субструктура 6 14. Субструктура 18 !5. Субструктура !3 16. Субструктура 23 !7. Ось инерции Y 18. Количество атомов углерода !9. Субструктура 2 20. Субструктура 12 21. Субструктура 21 22. Субструктура 26 23. Субструктура 25 24. Субструктура !6 25. Субструктура 17 26. Отношение ось А7ось Z 27. Отношение ось F/ось Z а Номера субструктур соответствуют их порядковым номерам в табл. 7.4. Для дальнейших испытаний прогнозирующей способности перечисленных в табл. 7.7 дескрипторов классификатору были предъявлены девять ранее не использованных мускусных одорантов. Показанные на рис. 7.3 структурные формулы одорантов были введены в систему ADAPT, и для каждого соединения были построены векторы-образы, включающие только 13 наилучших дескрипторов. После предварительной обработки неизвестные соединения были классифицированы с помощью бинарного классификатора, обученного на полной выборке, включающей все 300 соединений. Все девять соединений были правильно классифицированы как мускусные одоранты. Правильная классификация пяти нитросоединений и одного макроцикла не вызывает Связь структуры и активности обонятельных стимуляторов 197 Таблица 7.7 П дескрипторов, оставшихся после процедуры отбора признаков, проведенной для всей совокупности данных* , Доля правильных j, № п/п i. чо/ Дескриптор классификации, /а 1. 84,3 Общее количество атомов кислорода 2. 82,3 Общее количество двойных связей 3. 80,0 Общее количество ароматических связей 4. 86,7 Наибольшая главная ось 5. 80,0 Наименьшая главная ось I 6. 80,0 .С. .С. ■У "<•(• х" I . 7. 80,0 С—С—С I 8. 86,0 ^С-С^ 9. 90,3 —С— 10. 80,7 —С II П. 80,0 —С— 12. 80,0 -О- I 13. 83,0 —С— ili ароматическая связь. удивления, так как в обучающей выборке содержатся структурно- подобные соединения. Однако интересно то, что оставшиеся три соединения, которые принадлежат к структурным типам, отсутствующим в обучающей выборке, также были классифицированы правильно. Таким образом, классификатор смог распознать новые типы мускусных одорантов на основании структурных параметров мускусных одорантов, принадлежащих к другим структурным типам. Следовательно, эти параметры отражают молекулярные свойства, общие для всех мускусных одорантов.
198 Глава 7 Мускус-69 Целестопцд Версапид Мускус альсра ж>Ьт: Мускусный тибетин NO,' "Y" NO Мускус амЗретта Оу-(СН2)"^ О— (СН2):—О N0, /1с/77/7а/770« Рис. 7.3. Структурные формулы девяти контрольных мускусных одорантов. О' Мускусный кетон Общий структурный элемент мускусных одорантов Ярко выраженное сходство структур стероидов и макроциклических мускусных одорантов известно давно. Это сходство иллюстрирует рис. 7.4, на котором изображены структуры циветона (макроцикли- ческий мускусный одорант) и андростенола (сильный стероидный мускусный одорант). Интересно, что оба этих соединения имеют одинаковое количество периферийных атомов. Другие макроциклические кетоны, лактоны и карбонаты, имеющие от 15 до 17 атомов в кольце. также обладают мускусным запахом [8]. Сходство запахов этих ДВУХ классов соединений лучше всего можно объяснить способностью макроциклических соединений принимать структурную конформацию, подобную конформации жесткой структуры стероида. Однако мускусный запах полинитробензолов, а также запах других синтетических бензольныХ Связь структуры и активности обонятельных стимуляторов 199 Андростенол Циветон Рис. 7.4. Сравнение структур стероида и макроциклического мускусного одоранта. N02 В С Рис. 7.5. Общие структурные элементы стероидных и полинитробензольных мускусных одорантов. мускусных одорантов не может быть объяснен с помощью этой модели периферийных атомов. Поверхностное сравнение полинитробензольных и стероидных мускусных одорантов не позволяет выявить какое-либо структурное сходство, не считая простых фрагментов типа метильной или гидроксильной групп. Однако более внимательное рассмотрение этих двух классов соединений дало возможность выделить общий структурный элемент, который показан на рис 7.5. Как можно видеть, обе субструктуры идентичны, за исключением трех углерод-углеродных связей. Когда были построены и сопоставлены физические модели этих субструктур, оказалось, что пространственные конфигурации участков, включающих группы А, В и С, очень близки. Проверка 11 стероидных и 19 полинитробензольных мускусных одорантов показала, что только три нитробензольных соединения не содержат этот субструктурный элемент. Полученная информация указывает на то, что эти субструктурные
200 Девять наилучших дескрипторов" 1. Количество атомов кислорода 2. Количес1во арома1Ических связей 3. Ось инерции X 4. Ось инерции Z 5 — С— 6. —О— II 7. —С— I I! I: 8. С—С—С^С— 9. С—С—С—( — — ароматическая связь группы должны быть значимыми признаками при классификации одорантов на мускусные и немускусные. Для проверки этого соображения обе субструктуры были объединены с 13 дескрипторами, перечисленными в табл. 7.7, и с их помощью проанализирована ранее исследованная выборка соединений. После вариационной процедуры отбора признаков из первоначальных 15 дескрипторов осталось только девять (табл. 7.8). Причем оба новых субструктурных дескриптора сохранились после отбора признаков. В табл. 7.9 прогнозирующие способности этих 9 дескрипторов сопоставлены с прогнозирующими способностями, полученными для прежнего «наилучшего» набора из 13 дескрипторов, приведенных в табл. 7.7. Можно видеть, что для трех из четырех групп результаты несколько улучшились. Это показывает, что при переходе к девяти дескрипторам не происходит потери информации. Для дальнейшей проверки прог нозирующей способности этих дескрип торов была сформирована контрольная выборка, составленная из ране не использовавшихся мускусных и немускусных одорантов. В эт; выборку включены 120 немускусных одорантов, взятых из катален: Амура [21]. Ни одно из этих 120 соединений ранее не использовалось нами для исследования. Среди них имеются одоранты, обладающие камфарным, цветочным, мятным и острым запахами. В выборку был! включены также 121 новый мускусный одорант, взятые из работь Вуда [20]. Из этих соединений 31 принадлежит к классу полижи робензолов, а остальные 90 - к бициклическим и трициклически». ароматическим соединениям. Глава 7 Таб. шиа 7 $ Связь структуры и активности обонятельных стимуля,«оров 201 Таблица 7.9 Сравнение прогнозирующих способностей различных наборов дескрипторов Контрольная выборка А В С D 15 дескришоров 97.6 97,7 96,7 97,2 13 дескрипторов 97,5 97,6 96,8 97,8 9 дескрипторов 97,8 97,9 97,3 97,2 а Дескрипторы и'! табл. 7.7 плюс 2 субструктуры, показанные на рис. 7.5. Только дескрипторы из табл. 7.7. в Дескрипторы из табл. 7.8. Эти 241 соединение были классифицированы на мускусные и немускусные одоранты с помощью двух весовых векторов, обученных на ранее исследованной выборке из 300 соединений. Первый весовой вектор построен на основании 13 дескрипторов, указанных в табл. 7.7, второй весовой вектор — на основании девяти дескрипторов, перечисленных в табл. 7.8. Результаты классификации, полученные для этих двух весовых векторов, приведены в табл. 7.10. При классификации немускусных одорантов оба весовых вектора неправильно классифицировали одни и те же три соединения, структуры которых показаны на рис. 7.6. Сравнение этих структур с дескрипторами, приведенными в табл. 7.7 и 7.8, показывает, что три одоранта действительно обладают структурными характеристиками, которые свойственны мускусным одорантам. Наиболее очевидна причина неправильной классификации макроциклического соединения: оно содержит в кольце 12 атомов вместо 15, 16 или 17 кольцевых атомов, которые содержит большинство макроциклических мускусных одорантов. Причина неправильной классификации, по-видимому, заключается не в дескрипторах, а в недостаточной представительности обучающей выборки. Таблица 7.10 Результаты прогноза, полученные с помощью двух весовых векторов, обученных при классификации мускусных одорантов Девять компонент Тринадцать компонент Правильные Мускусные одоранты 111-121 91,7% 109/121 90,1% классификации Немускусные 117/120 117/120 одоранты 97,5 % 97,5 %
202 Глава 7 сно ое- н -Амилкори чный альдегид —О I О (СН2)9 Нонаметиленкарбонат Рис. 7.6. Три немускусных одоранта, неправильно классифицированные двумя весовыми векторами. Единственный способ повышения прогнозирующей способности в данном случае состоит в добавлении к обучающей выборке соединений, более полно представляющих структуры немускусных одорантов. Оба весовых вектора неправильно классифицировали почти одно и то же число мускусных одорантов. Однако во всех случаях, кроме трех, соединение, неправильно классифицированное одним весовым вектором, другим весовым вектором классифицировалось правильно. На рис. 7.7 показаны три соединения, неправильно классифицированные обоими весовыми векторами. Во всех трех случаях соединения действительно не содержат те молекулярные дескрипторы, на основе которых были построены весовые векторы, однако они содержат близкие к ним структурные признаки. Например, два трициклических „О L JL Ж JO 1а,4а,5,9-Тетрагидрогалаксолид /а, 4а, 5,10-Те/прагидромускус-д9 С НО 2,4,6- Тршзопрапилдензпльдегид Рис. 7.7. Три мускусных одоранта, неправильно классифицированные обоими весовыми векторами. Связь структуры и активности обонятельных стимуляторов 203 мускусных одоранта на самом деле содержат структурные элементы, показанные на рис. 7.5, однако в них вместо одной из простых связей содержится двойная связь. Бензольное соединение также содержит этот субструктурный элемент, если не считать наличия дополнительной метильной группы. Хотя человеческий мозг может распознать подобие этих структур, использованная в настоящем исследовании система дескрипторов не является настолько гибкой, чтобы учесть такие тонкие различия. Тем не менее следует отметить, что эти три соединения классифицированы как слабые мускусные одоранты, содержащие амбровый и древесный обертоны [20]. При анализе 121 нового мускусного одоранта было найдено, что только 10 из этих соединений не содержат ни одну из субструктур, показанных на рис. 7.5. Именно эти 10 соединений и были неправильно классифицированы весовым вектором, включающим соответствующие два субструктурных дескриптора (см. табл. 7.8). Более того, при просмотре 435 немускусных одорантов были обнаружены всего 5 стероидных соединений с можжевеловым запахом, которые содержали указанные две субструктуры. Присутствие этих субструктур не является обязательным условием наличия мускусного запаха. Однако тот факт, что они содержатся в 78 % всех мускусных одорантов, исследованных в настоящей работе, указывает на то, что эти субструктурные элементы являются довольно характерным признаком соединений с мускусным запахом. Было бы интересно проверить запахи соединений, содержащих эти субструктурные элементы. В настоящем исследовании показано, что с помощью методов распознавания образов можно из некоторого набора параметров выбрать признаки, наиболее важные для данного класса одорантов, а также предсказать, будет ли неизвестное соединение обладать мускусным запахом. Однако достигнутые успехи нельзя полностью отнести на счет использованного метода. Важным фактором является также выбор анализируемых данных и дескрипторов. Мускусные одоранты были выбраны для этих первоначальных исследований по той причине, что они обладают чрезвычайно характерным запахом. Результаты настоящих исследований полностью подтверждают представление о том, что мускусные одоранты можно легко отличить от других одорантов. Возможность классифицировать все мускусные одоранты, за исключением трех слабых мускусных одорантов, с помощью только фраг- ментных и геометрических дескрипторов, показывает, что для отделения мускусных одорантов от немускусных требуется только информация о форме молекул и их химическом составе. Поэтому нет ничего удивительного в том, что с помощью только субструктурных дескрипторов удалось достичь линейной разделимости выборки данных, поскольку в этих дескрипторах содержится как химическая, так и структурная информация. Как и следовало ожидать, наилучший для
204 Глава 7 предсказания мускусных одорантов набор дескрипторов включает все три типа дескрипторов (см. табл. 7.8). Хотя эти девять дескрипторов дали наиболее высокий процент правильных предсказаний и с их помощью удалось правильно классифицировать все неизвестные мускусные одоранты, за исключением 10 соединений, тем не менее этот набор дескрипторов не следует считать оптимальным, так как он был получен в результате эвристического поиска на ограниченном множестве молекулярных дескрипторов. Этот вывод подтверждается тем фактом, что в результате анализа удалось заменить шесть дескрипторов на два субструктурных дескриптора. Хотя действительная роль этих девяти дескрипторов в процессе обоняния остается невыясненной, тот факт, что они принадлежат к двум категориям (т.е. отражают химический состав и геометрическую форму), показывает, что процесс ощущения мускусного запаха может состоять из двух стадий. Например, химический состав может характеризовать способность молекулы переходить из газовой фазы сквозь слизистую оболочку к рецепторному центру, а геометрическая форма молекулы определяет ее соответствие этому центру. Однако для подтверждения нашего предположения требуются дополнительные экспериментальные исследования. Проведенные нами исследования показали, что методы распознавания образов весьма эффективны при выявлении признаков, общих для больших групп соединений с запахом одного и того же типа. В случае мускусных одорантов важным, но не единственным фактором, позволяющим осуществлять успешное предсказание, является форма молекул. Как показано выше, для успешной классификации мускусных одорантов достаточно использовать всего несколько дескрипторов. Правильная классификация 111 неизвестных мускусных одорантов показывает, что использованные для классификации дескрипторы отражают молекулярные свойства, общие мускусным одорантам. Этот вывод подкрепляется также правильным предсказанием новых структурных типов. В настоящей работе предметом исследования в основном были мускусные одоранты. Однако с помощью тех же самых методов могут быть исследованы и другие обонятельные классы. Этой теме и посвящен следующий раздел. АНАЛИЗ СТИМУЛЯТОРОВ ТРОЙНИЧНОГО НЕРВА Строение внутриносовой нервной системы играет важную роль в управлении вводом летучих химических веществ в дыхательную систему человека. Как уже отмечалось в предыдущем разделе, внутри носовой полости существуют две отдельные нервные системы. Обонятельный нерв ответствен за обнаружение и восприятие широкого диапазона концентраций различных паров и передачу информации в высшие отделы мозга, что приводит к ощущению запаха. Свободные Связь структуры и активности обонятельных стимуляторов 205 окончания тройничного нерва (ЧН V) также распределены в слизистой оболочке носа и частично ответственны за обнаружение газообразных химических раздражителей. Однако в отличие от обонятельного нерва тройничный имеет центробежные ответвления, которые могут влиять на секрецию слизистой оболочки, характер дыхания и набухание внутриносовых тканей, что в свою очередь воздействует на поток воздуха в верхних и нижних дыхательных путях (см. обзор [4]). Все эти реакции, по-видимому, носят защитный характер, так как продолжительное воздействие некоторых стимуляторов тройничного нерва может вызвать серьезное расстройство функций человеческого организма [22 — 24]. В условиях очень высокого загрязнения воздуха химические стимуляторы тройничного нерва могут вызвать замедление или даже прекращение дыхания [4, 25 — 29]. В недавнем исследовании [29] было установлено, что многие летучие вещества, обычно применяемые при изучении обонятельной функции, могут вызывать ощущения даже у пациентов, которые не проявляют обонятельной функции. Эти так называемые аносмики обычно испытывают ощущения типа жжения, холода, тепла или боли. Какое именно из ощущений будет испытано, зависит от вида химического вещества и его концентрации. Вещества, которые могут восприниматься аносмиками, отличаются от невоспринимаемых ими веществ и некоторыми физико-химическими параметрами, включая молекулярный вес, растворимость в воде и липидах, температуру кипения и дипольный момент [29]. Однако неясно, какие именно параметры ответственны за возникновение ощущений у аносмиков. Поскольку ответвления тройничного нерва в носовой полости участвуют как в обнаружении потенциально опасных паров, так и во взаимодействии с обонятельной системой в процессе восприятия одо- ранта [30], установление природы вызываемых этой системой чувственных реакций, а также определение молекулярных свойств, ответственных за взаимодействие, важно для полного понимания механизма обоняния. Этот вопрос особенно важен для теоретиков обоняния, пытающихся найти «чисто обонятельные» стимуляторы [4]. Нами было предпринято экспериментальное исследование нервной системы носа. Были получены количественные данные по чувственным реакциям людей на раздражение носового тройничного нерва вдыхаемыми парами 47 различных химических соединений. Экспериментальные измерения заключались в получении психометрических оценок интенсивности раздражения и таких ощущений, как приятность, холод, тепло, а также в получении субъективной оценки опасности, связанной с частым вдыханием исследуемого вещества. Опыты были проведены с тремя группами испытуемых: 1) аносмики, У которых отсутствует обонятельная (ЧН I) нервная функция, но сохраняются функции тройничного нерва (ЧН V); 2) нормальные индивиды, получившие задание обращать внимание только на ощущения в носовой полости, связанные с реакцией тройничного нерва
206 Глава 7 (группа испытуемых, «ориентированных на тройничный нерв»); 3) нормальные индивиды, получившие задание оценивать все связанные с восприятием запаха ощущения. Цель нашего исследования заключалась в отыскании физико-химических или структурных молекулярных параметров, на основании которых можно было бы предсказать реакцию тройничного нерва носовой полости на исследуемое соединение, т.е. предсказать ощущения, испытываемые аносмиками. Исследования были проведены методами регрессионного и дискриминант- ного анализа в сочетании с методами распознавания образов. Процедура экспериментального исследования тройничного нерва носовой полости Испытуемые, среди которых 15 аносмиков и 30 нормальных индивидов, были разбиты на три группы. У семи мужчин-аносмиков наблюдалось врожденное отсутствие обонятельных луковиц и ресничек [31, 32]. У аносмиков, двух мужчин и двух женщий, с детства отсутствовала способность восприятия запаха; психофизические исследования показали отсутствие у них функции ЧН I. Один мужчина- аносмик потерял ощущение запаха после операции на передней части головного мозга. Другой мужчина стал аносмиком из-за неисправности противогаза во время боевых учений в период второй мировой войны после пребывания в атмосфере фосгена и слезоточивого газа. Одна женщина-аносмик потеряла чувство запаха в детстве в результате травмы черепа. Другая женщина-аносмик потеряла чувство запаха в результате осложнения после гриппа. Все эти 15 индивидов составили группу аносмиков. 30 нормальных индивидов были разделены на 2 группы. «Ориентированная на тройничный нерв» группа нормальных индивидов состояла из 7 мужчин и 8 женщин. Нормальная экспериментальная группа состояла из 8 мужчин и 7 женщин. Все 30 индивидов, составивших эти две группы, при психофизических исследованиях проявили нормальное обонятельное восприятие [29]. 47 химических соединений, использованных в нашем эксперименте в качестве стимуляторов, были выбраны таким образом, чтобы ни одно из них не превосходило среднего уровня токсичности при вдыхании, оцененного по системе Сакса [33]. Эти соединения включают разнообразные химические структуры, а также гомологический ряд алифатических кислот (исследованные соединения приведены в табл. 7.11). Все соединения имеют четко различимый нормальными индивидами запах, и многие из этих веществ ранее исследовались на обонятельные реакции [16, 34 — 37]. Все вещества имели самую высокую коммерческую степень чистоты (поставщики: Фишер Сайнтифик и Истман Кодак); степень чистоты большинства соединений, определенная методом газовой хроматографии, превышала 99 %. Некоторые вещества были дополнительно очищены для удаления примесей, которые могли бы помешать эксперименту. Таблица 7.11 Данные по обнаружению раздражения и его интенсивности, полученные для группы аносмиков Соединение Интенсивность wimpy л>.ъппп 0/15 0/15 1/15 1/15 2/15 3/15 3/15 3/15 5/15 2/15 5/15 6/15 7/15 5/15' 7/15 9/15 9/15 8/15 13/15 13/15 12/15 14/15 9/15 13/15 13/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 Средняя 0,00 0,00 0,13 0,13 0,13 0,27 0,27 0,53 0,53 0,60 0,87 0,93 0,93 1,00 1,40 1,60 1,93 2,73 2,80 2,80 2,87 3,53 3,93 4,00 4,00 5,00 5,57 6,07 6,14 6,67 6,67 6,71 6,73 6,73 6,87 7,33 7,53 7,67 7,73 7,80 7,87 7,87 8,13 8,40 8,47 8,53 8,73 Отклонение 0,00 0,00 0,50 0,50 0,34 0,57 0,57 1,20 1,02 1,54 1,45 1,44 1,39 1,86 2,12 1,86 2,21 2,86 1,80 1,87 2,25 2,09 3,68 2,37 2,10 2,16 1,29 1,24 0,92 1,19 1,30 0,80 1,00 1,24 2,00 1,08 1,02 1,14 0,93 1,38 1,09 0,96 1,15 0,61 0,72 0,88 0,57 1. Декановая кислота 2. Ванилин 3. Фенилэтиловый спирт 4. Эвгенол 5. Кумарин 6. Нонан 7. Октан 8. Индол 9. а-Терпинеол 10. Гераниол 11. Гептановая кислота 12. Лимонен 13. Гексановая кислота 14. Гептан 15. Бензилацетат 16. Метилсалицилат 17. (З-Ионон 18. Анетол 19. Гептиловый спирт 20. Гваякол 21. Цитраль 22. Камфара 23. 4-Метилвалериановая кислота 24. Линалул 25. н-Бутиловый эфир 26. Валериановая кислота 27. 2,4-Пентандион 28. Фурфураль 29. Ментол 30. Изоамилацетат 31. н-Бутиловый спирт 32. Ацетальдоксим 33. 2-Гептанон 34. Изовалериановая кислота 35. Этилбензол 36. н-Бутилацетат 37. Этилацетат 38. Метанол 39. Бензальдегид 40. Циклогексанон 41. Толуол 42. Масляная кислота 43. Ацеталь 44. Этилметилкетон 45. Пиридин 46. Ацетон 47. Пропионовая кислота
208 Глава 7 Каждое из 47 соединений было предложено испытуемым в виде чистого вещества, помещенного в стеклянную нюхательную склянку объемом 200 мл и с диаметром отверстия 5 см. Сначала испытуемому давали понюхать (в течение примерно 3 с) либо исследуемое вещество, либо эквивалентное количество контрольного вещества, в данном случае пропиленгликоль. Сразу же вслед за этим испытуемому предлагался противоположный раздражитель (т.е. либо одорант, либо пропиленгликоль). Испытуемый должен был установить, какая из двух проб вызывает более сильные ощущения в носу. Испытуемых предупредили, что сначала не следует вдыхать пары слишком энергично, чтобы установить наличие или отсутствие ощущений в носу. Если четко выраженных ощущений не было, то испытуемому разрешалось сделать более энергичный вдох. Такая процедура гарантировала, что испытуемый будет вдыхать только небольшие количества вещества типа пиридина, которые вызывают кашель и спазмы. Эта процедура также позволяет уменьшить перепады давления, возникающие в носу при вдыхании паров чистого вещества. В тех случаях, когда испытуемый не был уверен в своих ощущениях, проводилось шесть таких испытаний. Если ни одна из предлагаемых аносмику склянок не вызывала носовых ощущений, то ему предлагалось попробовать на выбор ту или иную склянку. Если испытуемый аносмик начинал реагировать после пятого из шести испытаний, то считалось, что раздражитель опознан. У нормальных индивидов соответствующие носовые ощущения обычно возникали уже в первом испытании. В каждом отдельном эксперименте участвовало не более трех испытуемых. Каждому испытуемому предлагалось дать оценку своим ощущениям — интенсивности запаха, его приятности, холодности, теплоте и предполагаемой опасности — в единицах девятибалльной шкалы, крайние положения которой определялись следующими характеристиками: «слабый — сильный»; «приятный — неприятный»; «холодный — теплый»; «опасный — безопасный». Среднее деление этой шкалы определялось как «ни то, ни другое» для каждого ощущения. Для- контроля над возможным смещением положения приблизительно половина испытуемых проверялась с помощью шкалы, один конец которой (например, «очень приятный») сопоставлялся с правым краем страницы с изображением этой шкалы, а другие испытуемые проверялись с помощью шкалы, имеющей противоположную ориентацию (т.е. «очень приятный» сопоставлялся с левым краем страницы). Реакции испытуемых отмечались на шкале согласно их словесным отзывам. Каждый одорант оценивался испытуемым по всем ощущениям, и только после этого переходили к испытанию следующего раздражителя. Порядок предъявления шкал ощущений и химических раздражителей случайным образом варьировался от испытуемого к испытуемому. Время между двумя испытаниями составляло не менее 45 с. Среднюю оценку интенсивности раздражения, данную группой ано- Связь структуры и активности обонятельных стимуляторов 209 смиков, можно считать количественной мерой взаимодействия стимулятора с тройничным нервом. Данные такого рода идеально подходят для регрессионного анализа. Количественные измерения можно также использовать для разделения данных на две отдельные группы; последнее может быть осуществлено с помощью дискриминантных функций. Эти функции могут быть рассчитаны либо с помощью многомерного статистического анализа, либо методами распознавания образов. В нашем исследовании тройничного нерва оба подхода были реализованы посредством трех разных методов численного анализа. Регрессионный анализ был выполнен с помощью программы последовательного линейного регрессионного анализа (BMD02R). В этой программе для приближения линейной зависимости к экспериментальным значениям используется метод наименьших квадратов. Для проведения дискриминантного анализа применялся как параметрический, так и непараметрический метод. Параметрический анализ был проведен с использованием программы последовательного дискриминантного анализа (BMD07M) [38]. В этой программе для расчета функции, разделяющей данные на две различные группы, используются корреляции между независимыми переменными. Непараметрический анализ был выполнен с помощью описанной ранее линейной обучающейся машины. Молекулярные дескрипторы, использованные в наших исследованиях, могут быть разделены на две категории: 1) «легкодоступные» обыкновенному исследователю, 2) «рассчитанные с помощью ЭВМ». К первой категории относятся физические параметры, имеющиеся в опубликованных таблицах экспериментальных данных, и параметры, которые легко рассчитываются на основании молекулярных формул соединений. В наших исследованиях в качестве легкодоступных дескрипторов были использованы молекулярный вес, давление пара, температура кипения, количество атомов кислорода, количество ароматических циклов и время удерживания в хроматографической колонке (неподвижная фаза — полиэтиленгликоль с молекулярным весом 20М). Некоторые параметры (например, дипольный момент и растворимость в воде) не были использованы, так как либо не для всех соединений имеются соответствующие литературные данные, либо эти характеристики были определены не при одинаковых экспериментальных условиях. В то время как указанные шесть параметров несут информацию о физических свойствах и химической природе молекулы, «рассчитанные с помощью ЭВМ» дескрипторы содержат информацию о структуре соединений. В эту вторую категорию параметров входят описанные ранее дескрипторы фрагментов, субструктур, окружения, Молекулярной связности и геометрические дескрипторы. Всего в нашей Работе использовалось более 100 дескрипторов, однако в следующем Разделе представлены только те дескрипторы, которые оказались сУЩественными для разделения данных. 14 Э. Стьюпер
210 Глава 7 50 40 \- * | JO 8 I | 20 I. 0 — D - О о _-* A fo 1 Группа аносмиков Группа испытуемых, „ ориентированных на тройничный нерв" Группа нормальных индивидов о о •— о j о ^ *"'0 о °» о JL_—г-» .«'О о о о . о о J>* *-°"""^ □ ■ D 0„ DD D D D = °а Ъ D _ 1 1 £ if ° 1 1 „ОО* ° П£? D°On f сР /о ОП fj/ -□^^ ь ъ го а 1 1 Рис. 7.8. 723456789 Интенсивность раздражения Сравнение средних интенсивностеи раздражения для трех групп испытуемых. Результаты исследований стимуляторов тройничного нерва В табл. 7.11 представлены: количества аносмиков, вдыхавших различные вещества, оценки средних интенсивностеи раздражения и соответствующие стандартные отклонения. Соединения в таблице расположены сверху вниз в порядке возрастания средней интенсивности раздражения. Значения средних интенсивностеи рассчитаны на основании оценок, сделанных всеми испытуемыми; если испытуемый не ощущал действия раздражителя, то его числовой оценке присваивалось значение «нуль». Из табл. 7.11 видно, что большинство из 47 стимуляторов оказали действие по крайней мере на некоторых индивидов, у которых отсутствует обонятельная нервная функция. Действительно, 45 из 47 соединений (96 %) подействовали по меньшей мере на одного аносмика. На рис. 7.8 представлены значения средних интенсивностеи раздражения носовой полости химическими веществами, полученные для трех групп испытуемых. Как и следовало ожидать, средние оценки интенсивностеи, данные группами аносмиков и испытуемых, «ориентированных на тройничный нерв», значительно ниже оценок, данных нормальными индивидами. Однако они очень похожи для всех соединений. Другая интересная тенденция заключается в том, что оценки Связь структуры и активности обонительных стимуляторов 211 Таблица 7.12 Линейные корреляционные коэффициенты психометрических характеристик Приятность Холодность Безопасность" Аносмики (среднее по 45 стимуляторам) 0,396 0,59а — -0,90 0,91 0,54 Интенсивность —0,84 Приятность — Холодность Безопасность _ Испытуемые, ориентированные на тройничный нерв (среднее по 47 стимуляторам) Интенсивность -0,71 -0,36в -0,70 Приятность - 0,63" 0,86 Холодность — 0 54 Безопасность _ Нормальные индивиды (среднее по 47 стимуляторам) Интенсивность —0,65 —0,466 -0,82 Приятность — 0,81а 0,92 Холодность — 0 72 Безопасность _ р < 0,001. р < 0,01. d < 0,05. интенсивностеи высокоактивных стимуляторов одинаковы для всех трех групп. Другие психометрические показатели, полученные в этом эксперименте, сильно коррелируют друг с другом и интенсивностью раздражения. В табл. 7.12 приведены значения линейных коэффициентов корреляции между четырьмя психометрическими показателями. Как видно из таблицы, во всех экспериментальных группах наблюдаются одинаковые тенденции. Так, приятность ощущения и предположительная опасность имеют отрицательную корреляцию с интенсивностью раздражения тройничного нерва и положительную корреляцию друг с другом. Слабую корреляцию между степенью холодности и другими ощущениями можно объяснить тем, что большинство соединений получило Оценки, близкие к нейтральным, и только некоторые из них были охарактеризованы как явно холодные или теплые. Была предпринята попытка построить уравнение множественной линейной регрессии, предсказывающее среднюю интенсивность раздражения для группы аносмиков. Сначала были проверены пять легко- 14*
212 Глава 7 доступных дескрипторов — молекулярный вес, давление пара, температура кипения, количество атомов кислорода и количество ароматических циклов. Значение коэффициента множественной линейной корреляции г, рассчитанное для этих пяти переменных, оказалось слишком малым (г = 0,74, s = 2,20) для того, чтобы эту зависимость можно было бы считать значимой. Таблица 7.13 Субструктуриые дескрипторы, использованные при анализе раздражителей тройничного нерва I —ОН 2. 3. 4. 5. 6. 7. 8. 9. 10. —О— О II -с— 1 —с — о II —с—о— 1 —с— II —с— с—с—с- —с— —с Для повышения значимости линейная регрессия была построена с помощью 10 субструктурных дескрипторов, характеризующих либо разветвленность молекулы, либо наличие функциональных групп (табл. 7.13). Выбор пал именно на этот набор дескрипторов из-за того, что они были выделены как значимые в предварительном исследовании, проведенном методом распознавания образов. Хотя эти субструктурные дескрипторы по отдельности не сильно коррелировали с интенсивностью раздражения (все коэффициенты корреляции < 0.40), уравнение регрессии, составленное с помощью пяти из этих дескрипторов, описывало экспериментальные данные лучше, чем уравнение регрессии, составленное с помощью пяти легкодоступных дескрипторов (г = 0,83, 5=1,85 для субструктур 1, 3, 4, 7 и 9 (табл. 7.13), использованных в качестве независимых переменных). Добавление других пяти субструктурных дескрипторов лишь незначительно повысило значение коэффициента множественной корреляции (г = 0,84, Связь структуры и активности обонятельных стимуляторов 213 s =1,85). Возможно, это связано с увеличением количества степеней свободы в результате включения в уравнение новых независимых переменных. Некоторое улучшение было достигнуто путем объединения пяти легкодоступных дескрипторов и 10 субструктурных дескрипторов: для 11 независимых переменных было получено г = 0,89, 5=1,64. Эти Таблица 7.14 Данные по интенсивности раздражения и физические константы для ряда алифатических кислот Кислота Декановая Гептановая Гексановая 4-метил-валери- ановая Валериановая Изовалериано- вая Масляная Пропионовая Химическая формула ^10^20^2 с7н14о2 с6н12о2 с6н12о2 С5Н10°2 С5Н10°2 с4н8о2 с3н6о2 Рассчитанные значения IgPa 3,92 2,33 1,81 1,69 1,28 1,16 0,75 0,23 Температура кипения 269 . 222 205 200 185 174 162 140 Время удерживания в хро- матографи ческой колонке 15,88 12,79 11,74 11,34 10,68 10,09 9,59 8,67 Средняя интенсивность (аносмики) 0,00 0,87 0,93 3,93 5,00 6,73 7,87 8,73 Корреляции с Линейные интенсивностью Спирмана -0,88 -1,00 -0,91 -1,00 -0,89 -1,00 а Эти значения lgP коэффициентов распределения веществ между 1-октанолом и водой рассчитаны методом, предложенным Реккером и Нисом [39]. Рассчитанные величины превосходно согласуются с имеющимися в литературе экспериментальными данными. значения были рассчитаны с помощью указанных дескрипторов, за исключением температуры кипения, количества ароматических циклов и дескрипторов 5 и 6, приведенных в табл. 7.13, так как эти переменные оказались статистически незначимыми. Хотя количество переменных было увеличено в два раза, желаемой степени аппроксимации данных по интенсивности раздражения все же не удалось достигнуть. Попытки улучшить регрессионную зависимость с помощью других рассчитанных на ЭВМ или легкодоступных дескрипторов не привели к успеху. Причина неудачи регрессионного анализа может быть связана как с неадекватностью описания свойств такого широкого круга
214 Глава 7 структур с помощью использованных молекулярных параметров так и с большой ошибкой в экспериментальных данных, что отражено в значениях стандартных отклонений. Анализ гомологического ряда алифатических кислот, в котором функциональность молекул остается неизменной, показал, что основной причиной указанной неудачи по видимому, является ошибка в экспериментальных значениях интенсив" ности раздражения. В табл. 7.14 алифатические кислоты расположены в порядке возрастания интенсивности раздражения аносмиков. В таблице также приведены значения трех физических характеристик, содержащих информацию о растворимости, и коэффициенты корреляции между этими характеристиками и экспериментальной интенсивностью раздражения. Поскольку в этом ряду функциональность кислот неизменна то интенсивности раздражения должны сильно коррелировать с параметрами, характеризующими растворимость. Хотя во всех трех случаях получен максимально высокий корреляционный коэффициент ран- гово-порядковой статистики Спирмана, значения множественного линейного коэффициента корреляции находятся в тех же пределах, что и значения г для наилучшего уравнения регрессии. Это показывает что экспериментальный разброс (и, следовательно, потенциальная ошибка) психометрических данных по интенсивности раздражения, по- видимому, ограничивает величину г. Поэтому вместо того, чтобы продолжать поиск более точного уравнения регрессии, мы с помощью дискриминантного анализа попытались по интенсивности раздражения разделить 47 соединений на четыре класса. Для облегчения задачи разделения соединений на группы данные по интенсивности раздражения аносмиков были представлены графически (рис. 7.9). Данные были разделены на группы с тремя граничными значениями интенсивности раздражения 2,3, 4,5 и 7,1, указанными на рис. 7.9 вертикальными линиями. Эти граничные значения соответствуют областям низкой, средней и высокой интенсивности раздражения соответственно. Они были выбраны потому, что в этих положениях находятся естественные промежутки между экспериментальными данными и выборка данных из 47 элементов с помощью дискриминантного анализа может быть эффективно разделена на ограниченное число классов. Задача построения дискриминантной функции для каждого из порогов интенсивности была представлена в виде трех отдельных бинарных задач, а не как одна задача разделения на четыре класса. Сравним результаты, полученные при построении дискриминантных функций с использованием разных наборов признаков. Для каждого порога интенсивности были испытаны пять легкодоступных и 10 субструктурных дескрипторов, примененных в регрессионном анализе. Дескрипторы испытывались сначала по отдельности, а затем совместно. Из данных, представленных в' табл. 7.15, видно, что, как и при регрессионном анализе, наилучшие результаты получаются при сочетании двух различных типов дескрипторов. Связь структуры и активности обонятельных стимуляторов 215 / 2 3 4 5 6 7 8 9 Интенсивность раздражения Рис. 7.9. Разделение соединений на классы в соответствии с интенсивностью раздражения аносмиков. Для порогового значения высокой интенсивности при испытании пяти легкодоступных дескрипторов наименьшее число неправильных классификаций было получено с помощью одного только молекулярного веса. Добавление любого из оставшихся четырех дескрипторов не улучшало разделения. Использование 10 субструктурных дескрипторов на этой границе интенсивности дало лишь незначительное улучшение. Однако, когда для расчета дискриминантной функции привлекались 14 из 15 дескрипторов (субструктура 2 была исключена, потому что она оказалась статистически незначимой), только 3 соединения (с номерами 27, 36 и 42 в табл. 7.11) были классифицированы неправильно. Для порогового значения низкой интенсивности объединенная дискриминантная функция правильно классифицировала 45 из 47 соединений; только, соединения 24 и 25, приведенные в табл. 7.11, были классифицированы неправильно. Эта дискриминантная функция была построена с использованием тех же 11 дескрипторов, что и объединенное уравнение регрессии, исключая замену субструктуры 9 на субструктуру 5. Причина этой замены не выяснена. При пороговом значении средней интенсивности было неправильно классифицировано только соединение 23 — 4-метилвалериановая кислота. Дискриминантная функция была рассчитана с помощью пяти пере-
I 216 Пороги интенсивности Средний Нижний Верхний Результаты линейного дискриминантом) Системы дескрипторов Легкодоступные Субструктуры Объединенная Легкодоступные Субструктуры Объединенная Легкодоступные Субструктуры Объединенная Число имеющихся дескрипторов 5 10 15 5 10 15 5 10 15 Число использованных 4 8 5 5 6 11 1 9 14 анализа Глава 7 Таб.шца 7. IS Число правильных классификаций ниже порога 22/3 22/3 24/1 11/6 15/2 17/0 33/2 33/2 24/1 выше порога 1/21 1/21 0/22 5/25 3/27 2/28 5/7 3/9 2/10 менных: молекулярного веса и субструктур 1, 3, 6 и 8. После того, как это соединение было условно отнесено к другому классу, всю выборку удалось классифицировать правильно с помощью тех же пяти переменных. Неправильная классификация 4-метилвалериано- вой кислоты неудивительна, так как стандартное отклонение ее интенсивности равно 3,68. Поэтому оно, вероятно, действительно принадлежит классу с высокой интенсивностью. Результаты дискриминантного анализа показали, что вся выборка данных может быть, разделена на классы высокой и низкой интен- сивностей. Однако, как и ожидалось, на каждом уровне интенсивности не удалось достичь полной разделимости. Вместо того, чтобы и далее проверять методом дискриминантного анализа различные наборы дескрипторов, мы с помощью линейной обучающейся машины испытали дескрипторы, использованные в дискриминантном анализе, а такжч другие дескрипторы, которые можно рассчитать, используя наш; автоматизированную систему. Для оценки прогнозирующей способности любого набора дескрипторов, использованных в данной работе, случайным образом было сформировано по 20 обучающих и контрольных выборок для каждого порога интенсивности. Каждая контрольная выборка содержала 4 соединения, случайно выбранные из всего множества данных. Оставшиеся 43 соединения использовались для расчета дискриминантной функции. В случае порога низкой интенсивности каждая контрольная выборка содержала один элемент из класса низкой интенсивности и три элемента из класса более высокой интенсивности. Это отношение Связь структуры и активности обонятельных стимуляторов 217 было изменено на обратное для порога высокой интенсивности (т. е. три элемента брали из класса ниже порога и один элемент — из класса выше порога). В случае порога средней интенсивности было взято по два элемента из каждого класса. Затем с помощью каждой обучающей выборки были рассчитаны весовые векторы, которые далее использовались для классификации элементов соответствующих контрольных выборок. Результаты, полученные для 20 конт- Таблица 7.16 Результаты анализа раздражителей тройничного нерва методом распознавания образов Пороги интенсивности Нижний Средний Верхний а Дескриг Системы дескрипторов Легкодоступные Субструктуры Объединенная А» Легкодоступные Субструктуры Объединенная 5й Легкодоступные Субструктуры Объединенная торы указаны в табл. Число имеющихся дескрипторов 5 10 . 15 12 5 10 15 13 5 10 15 11 7.17. Линейная разделимость Нет Есть » » Нет Есть » » Нет » Есть » Число оставшихся дескрипторов _ 9 12 12 - 7 6 13 - - 10 11 Средняя прогнозирующая способность _ 78,8 78,8 83,8 - 86,3 86,3 92,5 - - 76,7 86,3 рольных выборок, были затем усреднены, и таким образом рассчитан средний процент правильных предсказаний (прогнозирующая способность). Первыми были испытаны легкодоступные и субструктурные дескрипторы, которые использовались выше при регрессионном и дискриминантном анализе. Это было сделано для сравнения параметрических и непараметрических методов. С помощью одних легкодоступных дескрипторов ни на одном пороге интенсивности не удалось достичь линейной разделимости. Однако, используя субструктурные дескрипторы, удалось разделить данные на порогах низкой и средней интенсивности, но не удалось на пороге высокой интенсивности. Результаты этих анализов представлены в табл. 7.16, где прогнозирующие способности являются средними значениями, рассчитанными с помощью 20 контрольных выборок, описанных выше. При испытании объединенного набора дескрипторов худшие результаты были получены для порога высокой интенсивности. Хотя линейная разделимость была достигнута при использовании только
218 Глава 7 10 дескрипторов (давление пара и субструктуры 4, 5, 6 и 9 не включались в набор дескрипторов), значение прогнозирующей способности всего лишь на 1,7% превышало 75%, т.е. величину, которая получилась бы, если все элементы контрольной выборки классифицировались бы как элементы, принадлежащие классу самой высокой интенсивности. В случае порога низкой интенсивности для получения линейной разделимости необходимы почти все 15 дескрипторов. Исключены были только температура кипения и субструктуры 5 и 6. Однако значение прогнозирующей способности получилось низким по сравнению со значением 75 %, которое получилось бы при правильном предсказании элементов большего по объему класса. Те пять дескрипторов, которые оказались лучшими при дискриминантом анализе (молекулярный вес, субструктуры 1, 3, 6 и 8), не смогли обеспечить разделение выборки на пороге средней интенсивности с помощью линейной обучающейся машины. Однако линейная разделимость была достигнута при добавлении к набору дескрипторов давления пара. Значение прогнозирующей способности на этом пороге значительно превышает величину 50%, которая получилась бы при случайном угадывании. Эти результаты ясно показывают, что с помощью линейной обучающейся машины можно достичь большего эффекта, чем в случае параметрического линейного дискриминантного анализа, поскольку в первом случае линейная разделимость достигнута для всех порогов интенсивности. В этом нет ничего удивительного, так как переменные, использованные в этих исследованиях, не были независимыми, а их дисперсионные матрицы — равными, что является нарушением условия, необходимого для правильной работы параметрической программы BMD01M. Однако прогнозирующая способность различных классификаторов может быть увеличена путем использования различных наборов дескрипторов. В случае порогов низкой и средней интенсивности удалось добиться увеличения прогнозирующей способности на 1—2% путем добавления и исключения из объединенной системы дескрипторов некоторых дескрипторов, рассчитанных на ЭВМ (т. е. дескрипторов фрагментов, окружения, молекулярной связности и геометрических дескрипторов). Однако при добавлении времени удерживания в хроматографической колонке прогнозирующая способность для этих порогов возросла до величин, приведенных в табл. 7.16. Использованные в каждом случае дескрипторы перечислены в табл. 7.17. Для порога высокой интенсивности рассчитанные на ЭВМ дескрипторы из группы С (табл. 7.17) увеличили значение прогнозирующей способности на 9,6 % по сравнению с величиной, полученной с помощью исследованной ранее объединенной системы дескрипторов. Приведенные в табл. 7.17 наборы дескрипторов нельзя считать оптимальными, так как они получены в результате эвристического поиска. Несомненно, существуют другие системы дескрипторов, которые могут быть получены путем систематического комбинирования имею- Связь структуры и активности обонятельных стимуляторов 219 Таблица 7.17 Дескрипторы, оказавшиеся наиболее значимыми при анализе раздражителей тройничного иерва методом распознавания образов Дескрипторы группы 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. И. 12. А Число атомов углерода Наибольшая ось инерции (X) Средняя ось инерции (У) Отношение оси X к оси Y Давление пара Время удерживания в хроматографической колонке Молекулярный вес Окружение —С— Окружение —О — Субструктура —С = Субструктура =С= Субструктура С —С —С — 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. И. 12. 13. в Число атомов углерода Наибольшая ось инерции Давление пара Время удерживания в хроматографической колонке Молекулярный вес Окружение. — О— Окружение —С— Окружение —ОН Окружение —С — Окружение —С — | Субструктура — С — Субструктура — С— 1 Субструктура —с=о 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.' И. с Число атомов углерода Число простых связей Число ароматических связей Наибольшая ось инерции Средняя ось инерции Молекулярный вес Окружение —ОН Окружение —С— 1 Субструктура —О — Субструктура =С= 1 Субструктура С—С—С щихся дескрипторов, но время, необходимое для проведения таких вычислений, вероятно, делает такую процедуру практически невыгодной. Поэтому приведенные в табл. 7.17 дескрипторы являются лучшими из тех, которые были использованы в нашем исследовании. Построенные нами классификаторы разделяют обонятельные стимуляторы на несколько различных классов. Естественно было бы испытать эти классификаторы на других одорантах. С этой целью была проанализирована выборка из 495 одорантов, информация о которых уже имеется в накопителях ЭВМ. Хотя было бы наиболее удобно использовать дескрипторы из табл. 7.17, однако трудности, связанные с получением значений давления пара и времен удерживания в хроматографической колонке для 495 соединений, делают такой путь неприемлемым. Поэтому вместо
220 Глава 7 Таблица 7.18 Дескрипторы, использованные для прогноза обонятельных агентов Нижний порог Средний порог Верхний порог 1. Число атомов углерода 2. Наибольшая ось инерции 3. Число простых связей 4. Число ароматических связей 5. Молекулярный вес 6. Средняя ось инерции 7. Окружение —О — 8. Окружение —С — 9. Окружение —ОН 10. Окружение —С— И. Субструктура —О— 12. Субструктура 13. Субструктура С—С—С— этого для каждого из порогов интенсивности были выбраны наборы дескрипторов, приведенные в табл. 7.18. С их помощью была получена линейная разделимость для всех порогов интенсивности, но при этом пришлось пожертвовать прогнозирующей способностью (нижний порог — 75 %, средний порог —81,3 %, верхний порог — 82,5 %). Тем не менее исследование было доведено до конца. После того как для каждого из порогов интенсивности на выборке раздражителей тройничного нерва был обучен весовой вектор, выборка одорантов была классифицирована с помощью этих весовых векторов на четыре класса активности. На рис. 7.10 показана блок-схема процедуры классификации одорантов. Результаты классифи- 1. Число атомов углерода 2. Наибольшая ось инерции 3. Число простых связей 4. Число ароматических связей 5. Молекулярный вес 6. Окружение —С — 7. Окружение —О — 8. Окружение —С — II 9. Субструктура —О — 10. Субструктура —С= 11. Субструктура 12. Субструктура с=о 13. Субструктура С—С—С— 1. Число атомов углерода 2. Наибольшая ось инерции 3. Число простых связей 4. Число ароматических связей 5. Молекулярный вес 6. Окружение —С — 7. Окружение —О— 8. Окружение —С — 9. Окружение —ОН 10. Окружение —С— И. Субструктура—С — 12. Субструктура — С = 0 13. Субструктура = С=- Связь структуры и активности обонятельных стимуляторов 221 Рис. 7.10. Схема классификации обонятельных стимуляторов на группы по интенсивности раздражения тройничного нерва. 1 — начало; 2 — классификатор среднего порога; 3 - классификатор нижнего порога; 4 — классификатор верхнего порога; 5 - низкая активность; 6 — средне-ннзкая активность; 7 - средне-высокая активность; 8 — высокая активность. кации приведены в табл. 7.19. Хотя для отнесения соединения к одной из четырех групп достаточно двух классификаторов, всегда проводились испытания с помощью третьего классификатора для того, чтобы убедиться в совпадении результатов третьей классификации и первых двух (например, если и средний, и верхний классификаторы предсказали, что соединение находится выше порога, то нижний классификатор также должен отнести это соединение к группе, находящейся выше порога). Доля противоречивых предсказаний для каждого вида запаха указана в последней колонке табл. 7.19. Нет ничего неожиданного в том, что имеется так много противоречивых предсказаний, так как для обучения были использованы малое количество соединений и не самый лучший набор дескрипторов. В табл. 7.19 семь первичных запахов расположены в соответствии с предсказанными значениями интенсивности раздражения тройничного нерва. Как видно из таблицы, наиболее приятные запахи, мускусный и цветочный, сразу же попали в группу низкой интенсивности раздражения тройничного нерва, тогда как самые неприятные одоранты были отнесены к классу активных раздражителей тройничного нерва. Такая же закономерность была установлена при исследовании 47 стимуляторов тройничного нерва (см. табл. 7.12). Что касается результатов классификации каждого запаха, то лишь мускусные одоранты были целиком отнесены к одному классу. В этом нет ничего удивительного, поскольку, как уже было установлено ранее, мускусные одоранты можно отделить от других одорантов, исполь-
222 Глава 7 Таблица 7.19 Результаты классификации раздражителей тройничного иерва Тип запаха Мускусный Цветочный Камфарный Мятный Острый Гнилостный Эфирный Миндальный Ароматический Анисовый Лимонный Кедровый Чесночный Тухлый Низкий 59 34 27 17 18 3 4 7 7 8 5 5 0 1 Классы Средне- низкий 1 7 30 8 1 1 1 4 5 1 0 0 3 0 активности Средне- высокий 0 14 13 26 12 6 1 7 1 0 1 0 1 3 Высокий 0 9 15 10 55 13 36 4 9 1 0 0 2 0 Доля противоречивых предсказаний, 60,9 37,5 34,5 29,5 29,1 17,4 33,3 45,4 18,2 90,0 0,0 0,0 16,7 0,0 зуя небольшое количество дескрипторов. Поэтому может оказаться, что дальнейшее разделение оставшихся одорантов вызывет определенные трудности. Обсуждение результатов исследования стимуляторов тройничного нерва Результаты настоящего исследования показывают, что многие летучие химические соединения, вызывающие ощущение запаха у нормальных индивидов, могут также вызывать внутриносовые раздражения у индивидов, не имеющих обонятельной нервной функции. Кроме того, результаты исследования показывают, что психометрические оценки интенсивности раздражения, приятности и опасности стимулятора систематически коррелируют друг с другом, причем более интенсивные стимуляторы оцениваются как более опасные и неприятные. Средние оценки интенсивности раздражения, данные аносмиками и индивидами, нацеленными на восприятие тройничным нервом, близки (см. рис. 7.8), но не одинаковы. Оценки интенсивности, данные индивидами, ориентированными на тройничный нерв, выше оценок аносмиков для менее интенсивных стимуляторов и ниже для более интенсивных стимуляторов. Причина такого различия неиз- Связь структуры и активности обонительных стимулиторов 223 вестна, и для его объяснения можно было бы предложить следующую гипотезу. По-видимому, параметры физиологического отклика тройничного нерва нормальных индивидов и аносмиков одинаковы, но обе группы по-разному реагируют на сигнал, поступающий от тройничного нерва. Вероятно, задача различения сигнала, поступающего от тройничного нерва, и обонятельного сигнала в случае слабых стимуляторов вызывает определенные трудности у нормальных индивидов, побуждая некоторых испытуемых относить обонятельные качества стимуляторов к функции тройничного нерва. Возможно также, что при низких концентрациях такие индивиды более чувствительны к условиям эксперимента [41], что приводит их к переоценке интенсивности раздражения тройничного нерва. Что касается более интенсивных стимуляторов, то сравнительно мало тренированные нормальные индивиды могут просто оказаться подавленными обилием раздражителей и, следовательно, стать неспособными различить истинный характер сигнала, поступающего .от тройничного нерва. Если это объяснение правильно, то дополнительная практика или обучение должны выровнять разницу между показаниями обеих групп. Важно отметить, что цель настоящего эксперимента заключалась не в том, чтобы установить относительный порядок химических соединений на непрерывной шкале степени раздражения тройничного нерва. Наша цель заключалась, вообще говоря, в том, чтобы упорядочить химические раздражители согласно реакции испытуемого на «естественную» нюхательную процедуру, когда испытуемым вдыхается вещество в максимальной концентрации. Таким образом, мы разыскивали один из способов классификации раздражающих свойств стимуляторов тройничного нерва. Долгое время обсуждался вопрос о существовании «чисто обонятельных» стимуляторов [4]. Результаты проведенного исследования показывают, что в условиях нашего эксперимента, когда пары чистого вещества непосредственно поступают в носовые отверстия испытуемого, только немногие стимуляторы действуют как чисто обонятельные. Надо полагать, что даже «чистый воздух» может вызывать некоторое раздражение тройничного нерва в зависимости от его температуры и скорости потока. Однако результаты классификации контрольной выборки одорантов показывают, что если «чисто обонятельные» стимуляторы существуют, то их следует искать среди мускусных одорантов. Хотя, вероятно, давление пара каким-то образом влияет на степень химического раздражения тройничного нерва, вряд ли оно обусловливает ту разницу в интенсивностях раздражения этого нерва различными химическими веществами, которая зарегистрирована в наших исследованиях. Если бы это было так, то между интенсивностью раздражения и давлением пара наблюдалась бы сильная корреляция. На самом же деле линейный коэффициент корреляции мал (0.39). Температура кипения, время удерживания вещества в хроматографи- ческой колонке и значение молекулярного веса сильнее связаны с ин-
224 Глава 7 тенсивностью раздражения, чем давление пара (коэффициенты корреляции равны —0,60, —0,58 и —0,70 соответственно). Вероятно, изменение условий вдыхания различных химических стимуляторов заметно влияет на концентрацию стимуляторов в эпителиальной области носа. Действительно, если при вдыхании стимулятора испытуемый придерживается какой-либо сознательной стратегии, то, по-видимому, поступление в носовую полость сильно летучих веществ снижается, а менее летучих увеличивается. Этот процесс похож на реакцию зрачка глаза на внешние раздражители. Хотя с помощью регрессионного анализа не удалось получить адекватное описание экспериментальной интенсивности раздражения, результаты дискриминантного анализа и анализа методом распознавания образов ясно показывают, что исследованная выборка по интенсивности действия может быть разделена на несколько групп с помощью всего лишь нескольких молекулярных параметров. Наилучшие разультаты дал непараметрический метод распознавания образов! с помощью которого удалось полностью разделить выборку на всех порогах интенсивности. Из многих молекулярных параметров, испытанных в нашем исследовании, в отдельности ни один не годится для описания интенсив- ностей раздражения всех 47 соединений. Более того, оказалось, что для разных порогов интенсивности наилучшие результаты были получены с разными наборами молекулярных параметров. Из дескрипторов, приведенных в табл. 7.13, в табл. 7.17 были включены только молекулярный вес, количество атомов углерода, наибольшая ось инерции и субструктура 4. Сходство остальных дескрипторов связано с тем, что они содержат информацию о структурной композиции молекул и их физических свойствах. Эти результаты и малый объем выборки не позволяют установить точный набор дескрипторов, необходимых для предсказания интенсивности раздражения тройничного нерва. Несмотря на это, однако, была выявлена интересная закономерность. В любом случае способность классификатора различать соединения высокой и низкой интенсивности на каждом из порогов повышалась, когда к легкодоступным дескрипторам, содержащим главным образом информацию о физических свойствах молекул, добавлялась информация о типе имеющихся в соединении функциональных групп. Эта закономерность подтверждает гипотезу о двухстадий- ном механизме возбуждения тройничного нерва: 1) перенос молекул из воздуха через слизистую оболочку к нервным окончаниям, 2) взаимодействие молекул с нервными окончаниями. Способность молекулы достигать нервных окончаний характеризуется такими параметрами, как растворимость в воде, растворимость в липидах, давление пара. время удерживания в хроматографической колонке. Этот вывод подтверждается для ряда алифатических кислот, приведенного в табл. 7.14, в котором наблюдаются сильные корреляции между экспериментальной интенсивностью раздражения и этими физическими свойствами. Связь структуры и активности обонятельных стимуляторов 225 Но поскольку разные молекулы могут обладать одинаковой способностью достигать окончаний тройничного нерва (например, иметь близкие значения параметров растворимости), то разница в величинах экспериментальной интенсивности раздражения у этих соединений будет обусловлена другими молекулярными свойствами. Эти данные указывают на то, что присутствующие в молекуле функциональные группы могут быть важным фактором. Однако этот вывод нуждается в дальнейшей проверке на выборках соединений большего объема. Есть основания надеяться, что вскоре будут выявлены все специфические факторы, обусловливающие каждую из стадий процесса. Настоящее исследование и исследование мускусных одорантов показали эффективность методов распознавания образов в исследованиях связи структуры и активности. В обоих случаях анализировалось большое количество дескрипторов, а в итоге каждого исследования удалось выделить подмножество наиболее значимых дескрипторов. В результате этих исследований были обнаружены новые структурные соотношения. Полученная информация позволит дать ответы на некоторые вопросы, что несомненно приведет к выдвижению новых гипотез. ЛИТЕРАТУРА 1. Hollinshead W. Я., Textbook of Anatomy, Harper and Row, New York, 1974. 2. Moulton D. G., The Olfactory Pigment, in: Handbook of Sensory Physiology, Vol. IV, Chemical Senses, Part 1, Olfaction, L. M. Beidler (Ed.), Springer- Verlag, Berlin, 1971. 3. Graziadei P. P. C, The Olfactory Mucosa of Vertebrates, in: Handbook of Sensory Physiology, Vol. IV, Chemical Senses, Part 1, Olfaction, L. M. Beidler (Ed.), Springer-Verlag, Berlin, 1971. 4. Tucker D., Nonolfactory Responses from the Nasal Cavity, Jacobson's Organ and the Trigeminal System, in: Handbook of Sensory Physiology, Vol. IV, Chemical Senses, Part 1, Olfaction, L. M. Beidler (Ed.), Springer-Verlag, Berlin, 1971. 5. Ottoson £>., The Electro-Olfactogram, in: Handbook of Sensory Physiology, Vol. IV, Chemical Sense, Part 1, Olfaction, L. M. Beidler (Ed.), Springer- Vertag, Berlin, 1971. 6. Gesteland R. C, Neural Coding in Olfactory Receptor Cells, in: Handbook of Sensory Physiology, Vol. IV, Chemical Sense, Part 1, Olfaction, L. M. Beidler (Ed.), Springer-Verlag, Berlin, 1971. 7. Lucretius T. C, The Nature of the Universe, 47 ВС, transl. by Latham, Penguin Books, London, 1951. 8. Moncrieff R. W., The Chemical Senses, 2nd. ed., Leonard Hill Ltd., London, 1951. 9. Dyson G. M., Raman Effect and Concept of Odour, Perfumery Essent. Oil. Rec., 28, 13 (1937). 10. Wright R. H., Odour and Molecular Vibration. I. Quantum and Thermodynamic Considerations, J. Appl. Chem., 4, 611 (1954). 11. Wright R. H., Serenius R. S. £., Odour and Molecular Vibration. II. Raman Spectra of Substances with the Nitrobenzene Odour, J. Appl. Chem., 4, 615 (1954). 15 Э. Стьюпер
226 Глава 7 12. Wright R. H., Burgess R. E., Musk Odour and Far Infrared Vibration, Nature (Lond.), 224, 1033 (1969). 13. Amoore J. £., The Stereochemical Specificities of Human Olfactory Receptors, Perfumery Essent. Oil Rec, 43, 321 (1952). 14. Amoore J. £., Johnston J. W., Jr., Martin Rubin, The Stereochemical Theory of Odor, Sci. Am., 210, 42 (1964). 15. Beets M. G. J., in: Molecular Structure and Organoleptic Quality, S. С I. Monograph No. 1, Society of Chemistry and Industry, London, 1957. 16. Schiffman S. S., Physicochemical Correlates of Olfactory Quality, Science, 185, 112 (1974). 17. Boelens H., Molecular Structure and Olfactive Properties, in: Structure — Activity Relationships in Chemoreception, G. Benz (Ed.), Information Retrieval Ltd., London, 1976. 18. Theimer E. Т., Davies J. Т., Olfaction, Musk Odor, and Molecular Properties, J. Agr. Food Chem., 15, 6 (1967). 19. Dravniek A., Laffort P., Physico-Chemical Basis of Quantitative and Qualitative Odor Discrimination in Humans, in: Olfaction and Taste IV, D. Schneider (Ed.), Wissens-Verlag-MBH, Stuttgart, Germany, 1972. 20. Wood T. F., The Givandan, nine papers, January 1968 to April 1970. 21. Amoore J. E., Molecular Basis of Odor, Charles С Thomas, Springfield, 111., 1970. 22. Kulle T. J., Cooper P. G., Effects of Formaldehyde and Ozone on the Trigeminal Nasal Sensory System, Arch. Environ. Med., 30, 237 (1975). 23. Murphy S. D., Davis H. V., Zaratzian V. L., Biochemical Effects in Rats from Irritating Air Contaminants, Toxicol. Appl. Pharmacol., 6, 520 (1964). 24. Salem H., Cullumbine H., Inhalation Toxicities of Some Aldehydes, Toxicol. Appl. Pharmacol., 2, 183 (1960). 25. Allen W. F., Effect on Respiration, Blood Pressure, and Carotid Pulse of Various Inhaled and Insufflated Vapors When Stimulating One Cranial Nerve and Various Combinations of Cranial Nerves, Am J. Physiol., 87, 319 (1928). 26. Allen W F., Effect of Various Inhaled Vapors on Respiration and Blood Pressure in Anesthetized, Unanesthetized, Sleeping, and Anosmic Subjects, Am. J. Physiol., 88, 620 (1929). 27. Allen W. F., Olfactory and Trigeminal Conditioned Reflexes in Dogs, Am. J. Physiol., 118, 532 (1937). 28. Cain W. S., Contribution of the Trigeminal Nerve to Perceived Odor Magnitude, Ann. N. Y. Acad. Sci., 237, 28 (1974). 29. Doty R. L., Intranasal Trigeminal Detection of Chemical Vapors by Humans, Physiol. Behav., 14, 855 (1975). 30. Cain W. S., Olfaction and the Common Chemical Sense: Some Psychophysical Contrasts, Sensory Processes, 1, 57 (1976). 31. Kallman J. F., Schonfeld W. A., Barrera S. E., Genetic Aspects of Primary Eunuchoidism, Am. J. Ment. Defic, 48, 203 (1944). 32. Stevens S. S., Galanter E. H., Ratio and Category Scales for a Dozen Perceptual Continua, J. Exp. Psychol., 54, 337 (1957). 33. Sax N. /., Dangerous Properties of Industrial Materias, Reynold, New York, 1966. 34. Berglund B. U., Berglund U., Ekman G., Engen Т., Individual Phychophysical Functions for 28 Odorants, Percept. Psychophys., 9, 379 (1971). 35. Doty R. L., An Examination of Relationships berween the Pleasantness, Intensity, and Concentration of 10 Odorous Stimuli, Percept. Psychophys., 17, 492 (1975). Связь структуры и активности обонятельных стимуляторов 227 36. Епдеп Т., Lindstrom С. О., Psychophysical Scales of the Odor Intensity of Amyl Acetate, Scand. J. Psychol., 4, 23 (1963). 37. Moskowitz H. R., Dravneiks A., Gerbers C, Odor Intensity and Pleasantness of Butanol, J. Exp. Psychol.. 103, 216 (1974). 38. Dixon W J. (Ed.), BMD Biomedical Computer Programs, University of California Press, Los Angeles, Calif., 1973. 39. Nys G. G., Rekker R. F., Statistical Analysis of a Series of Partition Coefficients with Special Reference to the Predictability of Folding of Drug Molecules. Introduction of Hydrophobic Fragmental Constants (/ values), Chim. Ther., 8, 521 (1973). 40. Leo A., Hansch C, Elkins D., Partition Coefficients and Their Uses, Chem. Rev., 71, 525 (1971). 41. Orne M. Т., On the Social Psychology of the Psychological Experiment: With Particular Reference to Demand Characteristics and Their Implications, Am. Psychol., 17, 776 (1962). 15*
Приложение СПИСОК МУСКУСНЫХ ОДОРАНТОВ 1. Аллопрегнан-За-ол 2. Андростан-За-ол 3. Андростан-ЗР-ол 4. Д16-Андростен-Зос-ол 5. 2-Бром-4-тре/и-бутил-5-метокситолуол 6. 2-Бром-4,6-динитро-1,3-диметил-5-/ирет-бутилбензол ' 7. Циклогептадеканон 8. Д9-Циклогептадецен-1-он (циветон) 9. Циклогексадеканон 10. Циклооктадеканон 11. Циклопентадеканон (экзальтон) 12. Циклотетрадеканон 13. Декаметиленмалонат 14. Декаметиленоксалат 15. 4,6-Динитро-2-азидо-1,3-диметил-5-трет-бутилбензол 16. 3,5-Динитро-2,4-диметил-6-/прет-бутилацетофенон 17. 3,5-Динитро-2,4-диметил-6-тр«т-бутилбензальдегид 18. 3,5-Динитро-2,6-диметил-4-трет-бутилбензонитрил 19. 2,4-Динитро-3,5-диметил-6-фтор-трет-бутилбензол 20. 2,6-Динитро-3,5-диметил-4-фтор-трет-бутилбензол 21. 3,5-Динитро-2-метил-4-метоксиацетофенон 22. 4,6-Динитро-2,3,5-триметил-трет-бутилбензол 23. Додекаметиленкарбонат 24. Ангидрид додекандикарбоновой кислоты 25. ос-Додецил-у-бутиролактон 26. Этиленундекандиоат 27. Д16-Этиохолен-30-ол 28. ос-Геранил-у-бутиролактон 29. ос-Гептил-у-бутиролактон 30. Гексадекаметиленимин 31. Ангидрид гексадекандикарбоновой кислоты 32. Гексадеканолактон 33. Д7-Гексадеканолактон (амбреттолид) 34. D-Гомоандростан-За-ол 35. З-Метиландростан-За-ол 36. 3-Метиландростая-ЗР-ол Список мускусных одорантов 37. 17-Метиландростан-За-ол 38. 17-Метиландростан-ЗР-ол 39. З-Метилциклопентадеканон (мускон) 40. 1-Метилциклопентадекан-2-он 41. 1-Метилциклопентадекан-4-он 42. /4-Норандростан-2а-ол 43. у-Октил-у-бутиролактон 44. Пентадеканолактон 45. Фенилуксусная кислота 46. а-Родинил-у-бутиролактон 47. Тетрадекаметиленкарбонат 48. Тетрадеканолактон 49. Тридекаметиленкарбонат 50. Тридеканолактон 51. 2,4,6-Тринитро-3,5-диметил-трет-бутилбензол 52. 2,4,6-Тринитро-3-метил-5-бром-тре/и-бутилбензол 53. 2,4,6-Тринитро-З-метил-трет-бутилбензол 54. 2,4,6-Тринитро-3-метил-5-хлор-тре/и-бутилбензол 55. 2,4,6-Тринитро-3-метил-1,5-ди-трет-бутилбензол 56. 2,4,6-Тринитро-3-метил-5-фтор-трет-бутилбензол 57. 2,4,6-Тринитро-1 -метил-3-м-гексилбензол 58. 2,4,6-Тринитро-3-метил-5-иод-трет-бутилбензол 59. 2,4,6-Тринитро-З-метилизопропилбензол 60. Ундекаметиленоксалат
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Агенты седативные 30, 31, 33, 150, 151, 153-154 противоопухолевые 31 Алгоритм наименьшей среднеквадратичной ошибки 114 Хо — Кашъяпа 114—116 Алгоритмы кластеризации 68-70. См. также Кластеризация непараметрические 116 Байеса формула 64 Барбитураты, классификация по продолжительности действия 32, 163, 164, 165-168 Биологическая активность 13 Биологический отклик 25-26 скорость 13 Вектор весовой ПО, 111, 113, 114, 125, 126, 127, 128, 135, 136, 137, 138. См. также Обучение весовых векторов образ 47, 54 - 56,64,65,109 -111, 114 ошибок 115 собственный 54, 56, 58, 61 Весовой фактор признака 50 Висвессера линейная номенклатура 76-78 Внутриклассовое расстояние 51 — 52 Выборка линейно разделимая ПО обучающая 48 Гаммета уравнение 18 Гидрофобность 13 параметр 13, 14, 15 Дескрипторы геометрические 33, 85 — 86, 94-103, 104 окружения 33, 65, 90-92, 104, 164, 170, 174 связности 85, 92-94, 104, 169, 170, 174 субструктурные 33, 85, 87-90, 170, 174, 190-191, 194 топологические 33, 85, 135, 137 фрагментов 33, 85, 86-87, 104, 135-137 Дисперсия внутриклассовая 50 межклассовая 50 несмещенная 51 объясненная 22 — 23 относительная 127-128, 133, 135 Дихотомизационная способность 118 — 119 Ингибиторы моноаминооксидазы 30 Инерция главные оси 101-103 диагонализация тензора 102 Карунена — Лоэва преобразование 55 — 57 Классификатор 45, 64, 111, 112 дискриминирующая способность 176 непараметрический 67 - линейный 118-119 Предметный указатель 231 Классификационное правило 43 — 46, 48-49, 112 Классификация объектов 43 — 46, 48, 63-64 по методу ближайших соседей 117 Кластеризация 34, 53-55, 63-64, 150 преобразование 49, 51, 53 — 54 Ковача индекс 93 Кодирование молекулярных структур 74-75 Коррекция через обратную связь ПО— 111 Коэффициент множественный корреляционный 22, 212-214 распределения 13, 15—16 Критерий разделимости 115 F 22 Линейная обучающаяся машина 109 — 112 Липофильность 15 Масштабирование 49 — 50 Математическое ожидание 133, 134, 136 Матрица дисперсионная 53 — 54 — диагонализация 54 признаков 47 связей 78-80 Метод дисперсионного взвешивания 50 отбора признаков вариационный 125 — — по знаку компонент весового вектора 128 скользящего контроля 158 — 159 Ханша 12, 26-27 Методы квантовомеханические 27 — 29 классификации непараметрические 109, 116, 118 — параметрические 64 — 67 кластеризации иерархические 150 построения дискриминантных функций 107-108 представления молекулярных структур 74-75 распознавания образов 41—43 унификации матричных представлений химических структур 78, 80 Минимизация потенциальной энергии молекулы 95-101 энтропии 57 — 58 Многомерный скейлинг 60 — 63 Нелинейное отображение 60—63 Номер прямого доступа (НПД) 142 — 144 Нормализация 49 — 50 Обучение весовых векторов 126 Одоранты, классификация мускусные 34, 188 немускусные 34, 188—189 Отбор признаков 44-45, 48, 125, 128 апостериорный 53 априорный 53 — 59 переменные существенные 121, 123, 124 Параметры Гаммета 18 индикаторные 19 регрессии 21 стерические 19 физико-химические 19, 20, 47 электронные 18 Показатель разветвленности 92 — 93 Предварительная обработка данных 49 Прогнозирующая способность 58 — 59, 174, 176-177 Программа последовательного дискриминант- ного анализа BMDQ1M 209, 218 — линейного регрессионного анализа BMD02R 209 MOLMEC 95, 96, 98, 99, 100, 101, 189 UDRAW&1-S5, 96
232 Предметный указатель Пространство измерений 48, 49 признаков 48, 49 Процедура распознавания образов 49 COLA ТЕ 148 CORCOF 147 DEXTR 147 DFILES 145 DMCON 146 DMFRAG 145 DMGEO 146 DMSSS 145 DM VOL 146 FINDRG 142 GETSTR 143 МЛГН 147 . PUTSTR 143 SF/LES 142-143 Ранжирование признаков 54 Регрессия стандартное отклонение линии 21 уравнение 20 Решающая поверхность 66 Решающее правило 65 Регрессионные коэффициенты 20, 21 Регрессионный анализ 19, 23 — 24 переменные зависимые 20, 21 — независимые 20, 21 Система ADAPT 32, 139-149 Соотношения линейности свободной энергии 12, 18, 19 Существенные признаки 55 Тафта стерическая константа 13 Транквилизаторы 30, 31, 33, 150-153 Трехмерная модель молекулы построение 94-103 Функция дискриминантная 64, 177, 179 критериальная 112-114 — минимизация 113 решающая 64 — 67 Фри — Вильсона аддитивная модель 25-27 Хорошо размещенные данные 119, 124, 125. См. также Классификатор непараметрический линейный Эффективная концентрация 14. См. также Биологическая активность ( СОДЕРЖАНИЕ Предисловие редактора перевода 5 Предисловие 8 Глава 1 ВВЕДЕНИЕ 11 Исследования связи между структурой и активностью 11 Метод Ханша: соотношения линейности свободной энергии ... 12 Параметры гидрофобности 15 Электронные параметры 18 Стерические параметры 19 Некоторые другие параметры 19 Регрессионный анализ и статистические параметры 19 Приложения 24 Аддитивная модель Фри — Вильсона 25 Квантовомеханические методы 27 Применения методов распознавания образов 29 Литература 34 Глава 2 ПРИНЦИПЫ РАСПОЗНАВАНИЯ ОБРАЗОВ 41 Основные понятия методов распознавания образов 43 Предварительная обработка 49 Масштабирование и нормализация 49 Преобразования кластеризации 51 Отбор признаков 53 Многомерный скейлинг и нелинейное отображение 60 Классификация 63 Параметрические методы классификации 64 Методы кластеризации 67 Литература 70 Глава 3 ОБРАБОТКА ХИМИЧЕСКОЙ СТРУКТУРНОЙ ИНФОРМАЦИИ: РАСЧЕТ МОЛЕКУЛЯРНЫХ ДЕСКРИПТОРОВ 74 Принципы кодирования молекулярных структур 74 Линейная номенклатура Висвессера 76
234 Содержание Матрицы связей 78 Кодирование молекулярных структур 80 Программа UDRAW 81 Топологические дескрипторы молекулярной структуры 85 Дескрипторы фрагментов 86 Субструктурные дескрипторы 87 Дескрипторы окружения 90 Молекулярная связность 92 Молекулярные модели и геометрические дескрипторы 94 Выводы 104 Литература 105 Глава 4 РАСПОЗНАВАНИЕ ОБРАЗОВ: ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ 107 Линейная обучающаяся машина 109 Алгоритм градиентного спуска в методе наименьших квадратов . . . 112 Классификация по методу ближайших соседей 116 Ограничения, накладываемые на непараметрические линейные классификаторы 118 Вариационный метод отбора признаков 125 Построение алгоритма вариационного метода 131 Литература 138 Глава 5 ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ИССЛЕДОВАНИЙ СВЯЗИ МЕЖДУ СТРУКТУРОЙ И АКТИВНОСТЬЮ: СИСТЕМА ADAPT .... 139 Система управления массивом структурных данных 142 Распределение данных по классам 143 Формирование дескрипторов 144 DMFRAG: расчет молекулярных фрагментов 145 DMSSS: поиск молекулярных субструктур 145 DMCON: молекулярная связность 146 DMVOL: молекулярный объем 146 DMGEO: молекулярная геометрия 146 Активная выборка данных: формирование, отбор признаков и классификация 148 Заключение 149 Глава 6 ИССЛЕДОВАНИЕ СВЯЗИ МЕЖДУ СТРУКТУРОЙ И БИОЛОГИЧЕСКОЙ АКТИВНОСТЬЮ 150 Приложение к психотропным агентам 151 Выборка данных 151 Результаты 158 Обсуждение результатов 163 Содержание 235 Исследование барбитуратов ^63 Выборка данных jg* Результаты .... Обсуждение ,п. Литература ' jgQ Глава 7 ИССЛЕДОВАНИЕ СВЯЗИ МЕЖДУ СТРУКТУРОЙ И АКТИВНОСТЬЮ ОБОНЯТЕЛЬНЫХ СТИМУЛЯТОРОВ 182 Основы анатомии и физиологии носа jg3 Теория обоняния «g* Анализ мускусных одорантов '.'.'.'' 188 Общий структурный элемент мускусных одорантов ...... 198 Анализ стимуляторов тройничного нерва ' 204 Процедура экспериментального исследования тройничного нерва носовой полости 206 Результаты исследований стимуляторов тройничного нерва . 210 Обсуждение результатов исследований стимуляторов тройничного нерва 222 Литература ' __* Приложение СПИСОК МУСКУСНЫХ ОДОРАНТОВ 228 Предметный указатель 230
УВАЖАЕМЫЙ ЧИТАТЕЛЬ! Ваши замечания о содержании книги, ее оформлении, качестве перевода и другие просим присылать по адресу: 129820, Москва И-110, ГСП, 1-й Рижский пер., д. 2, издательство «Мир». Эндрю Стьюпер, Уильям Брюгтер, Питер Джуре «МАШИННЫЙ АНАЛИЗ СВЯЗИ ХИМИЧЕСКОЙ СТРУКТУРЫ И БИОЛОГИЧЕСКОЙ АКТИВНОСТИ» Научный редактор Шемятеяков А. Г. Мл. научный редактор Землячёва И. И. Художник В. И. Шаповалов Художественный редактор М. Н. Кузьмина Технический редактор 3. И. Резник, Е. В. Яшук Корректор А. Я. Шехтер ИБ № 2645 Сдано в набор 13.08-81. Подписано к печати 17.04.82. Формат 60 х 90'/i6- Бумага офсетная № 2 Гарнитура тайме Печать офсетная. Объем 7,50 бум. л. Усл. печ. л. 15,00 Усл. кр.-отт. 15,00. УЧ.-ИЗД. л. 14,86. Изд. № 3/1329. Тираж 3000 экз. Зак.48Л Цена 2 р. 50 к. ИЗДАТЕЛЬСТВО «МИР» Москва, 1-й Рижский пер., 2. Тульская типография Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли, г. Тула, проспект Ленина, 109.
ИЗДАТЕЛЬСТВО «МИР» выпускает в свет в 1983 году книги по химии Джонсон К. Численные методы в химии: Пер. с англ. — 25 л., 4 р. 10 к. В книге систематизированы данные о внедрении различных средств вычислительной техники в практику химических исследований, применению математических методов и ЭВМ для решения современных проблем химии и химической технологии. Приведено около 50 программ на языке Фортран, результаты расчетов по программам иллюстрируются примерами прикладных задач химии. Для химиков различных специальностей, применяющих вычислительные методы в практической работе. Может использоваться как учебное пособие для студентов химических и химико- технологических вузов. Заблаговременно оформляйте заказы на интересующие Вас книги. Заказы принимают магазины, распространяющие научно- техническую литературу. Своевременно сданный заказ гарантирует приобретение нужных Вам книг. Молекулярные взаимодействия: Пер. с англ./Под ред. Г. Ратайчака, У. Орвилл-Томаса, 38 л., 6 р. Книга посвящена исследованиям природы и проявлений межмолекулярных взаимодействий — проблеме, актуальной для химии, биологии, физики и пограничных между ними областей. Особый интерес вызывают вопросы кинетики мицеллообразо- вания в поверхностно-активных веществах, свойства молекулярных комплексов в электронновозбужденных состояниях, структурные аспекты образования водородной связи в пептидах и белках. Один из редакторов издания — У. Орвилл-Томас — известный английский физикохимик, знакомый советскому читателю по ранее издававшимся трудам, в частности, по книге «Внутреннее вращение молекул» (М.: Мир, 1977). Для научных работников, изучающих строение вещества, физикохимиков, биофизиков. Заблаговременно оформляйте заказы на интересующие Вас книги. Заказы принимают магазины, распространяющие научно- техническую литературу. Своевременно сданный заказ гарантирует приобретение нужных Вам книг.