автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Компьютерная генерация химических структур для поиска соединения с заданными свойствами

кандидата химических наук
Ломова, Ольга Анатольевна
город
Черноголовка
год
1993
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Компьютерная генерация химических структур для поиска соединения с заданными свойствами»

Автореферат диссертации по теме "Компьютерная генерация химических структур для поиска соединения с заданными свойствами"

fi о од

российская академия наук

институт физиологически активных беееств

На правах рукописи

ЛОМОВА Ольга Анатольевна

КОМПЬЮТЕРНАЯ ГЕНЕРАЦИЯ ХИМИЧЕСКИХ СТРУКТУР ДЛЯ ПОИСКА СОЕДИНЕНИЯ С ЗАДАННЫМИ СВОИСТЗАМИ

С05.13.16-применение вычислительной техники, математического моделирования, математических методов в научных исследованиях Св отрасли химических наук?

Автореферат диссертации на соискание ученой степени кандидата химических наук

Черноголовка - '1993

Работа выполнена в Институте физиологически активных веществ РАН.

Научные руководители:

академик РАН кандидат химических наук, старший научный сотрудник

Научный консультант:

научный сотрудник

Официальные оппоненты: доктор химических наук,

профессор кандидат химических наук,

научный сотрудник

Ведущая организация:

Тверской государственный университет

Защита состоится №СГ1993 г. в часов на

заседании специализированного ученого советаКООЗ. 67.01 в Институте физиологически активных веществ РАН по адресу: 14243£, Московская обл. , п. Черноголовка.

С диссертацией можно ознакомиться в библиотеке Института физиологически активных веществ РАН.

Автореферат разослан ОлтлР^ 1993г.

Ученый секретарь специализированного совета канхидат химических наук

\

Н.С. Зефиров

B.А.Палюлин

C. С. Трач

В.В.Самошин Д.Е. Пушников

^¡йл^У^

Киреева Е. Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.

Актуальность темы. В последнее время наблюдается повышенный интерес к проблеме компьютерного дизайна органических структур с заранее заданными свойствами. Поиск и анализ количественной связи структура - свойство СКССС) и структура - активность СКССА) становится широко развиваемой областью химии.

Решение задачи нахождения структур с заданной активностью можно условно разделить на два этапа. На первом этапе по группе соединений с известным значением активности Собучающая выборка) строится количественная модель "структура - активность". На втором этапе построенная модель используется для предсказания свойств новых структуркоторые должны удовлетворять области прогностичнос-ти модели. Для этого новые структуры можно представлять в виде комбинаций фрагментов, входящих в структуры обучающей выборки. Получение таких комбинаций - это комбинаторный процесс, требующий больших временных затрат, что делает актуальной задачу разработки специальных компьютерных программ, называемых структурными генераторами. Генератор структур - это компьютерная программа, позволяющая получать из заданных структурных фрагментов все возможные молекулярные структуры путем комбинирования и слияния вместе этих фрагментов всеми различными способами с учетом заданных ограничений. Выделив нужные фрагменты из соединений обучающей выборки, с помощью программы генерации можно быстро создать большое число новых потенциально активных структур, на основании полученных моделей спрогнозировать их активность и отобрать из всего множества сгенерированных структур небольшое подмножество соединений с нужным значением активности по всем регрессионным уравнениям. Таким збразом, генерация структур является важным этапом в процессе тоиска структур с заданной активностью.

Цель работы. Целью работы явилось создание компьютерной хрограммы генерации структур ациклическим способом для целей КССА.

В связи с этим были поставлены следующие задачи:

- разработка метода ациклической генерации структур, содер-сащих один и тот же остов;

- математическое обоснование корректности использования предложенного метода для решения задачи эффективной, исчерпывающей и ■еизбыточной генерации структур;

- создание компьютерной программы, реализующей разработанный

1

алгоритм генерации;

- иллюстрация работы генератора на конкретных выборках "структура - биологическая активность" с целью поиска потенциально актизных структур.

Методы исследования. Предлагаемый в работе алгоритм генерации структур был реализован на языке TURBO PASCAL 6.0; соответствующая компьютерная программа генерации ориентирована на персональные компьютеры типа IBM PC/AT. Для иллюстрации работы генератора был испатьзован программный комплекс "ЭММА", разработанный на химическом факультете МГУ Сухачевым Д.В., Палюлиным В. А., Баскиным И. И., Петелиным Д.Е. под руководством академика Н. С. Зефирова.

Научная новизна работы заключается в следующем:

- предложен метод генерации структур с заданным центральным фрагкентом Состовом), заместители которого получаются путем ациклического комбинирования исходных микрофрагментов между собой с учетом структурных ограничений;

- математически доказана корректность решения поставленной задата Сполнота и неизбыточность генерации);

- разработана компьютерная программа "GOLD", эффективно реализующая предложенный метод генерации структур;

- с помощью разработанной программы предложены структуры новых потенциально активных соединений - триазиндионов Сантикокцидная активность), барбитуратов (гипнотическая активность), фенилалкил-аминав (галлюциногенная активность).

Практическая значимость работы состоит в создании компьютерной программы генерации структур "GOLD", которая может использоваться для существенного повышения эффективности создания новых веществ с заданными свойствами. Программа "GOLD" уже применяется в МГУ им. М. В.Ьмоносова, в ИФАВ РАН, в НИИШП.

Апробация. Результаты работы доложены на межвузовской конференции "Молекулярные графы в химических исследованиях" (Калинин, 1990г. ), на I Всесоюзной конференции по теоретической органической химии (Волгоград, 1991г.), на IX Всесоюзной конференции "Химическая информатика" (Черноголовка, 1992), на семинаре академика Н. С. Зефирова в ИОХ РАН (Москва, 1991), на семинаре в ВИНИШ (Москва, 1992). ^

Публикации. По теме диссертации опубликовано 6 работ.

Структура и объем диссертации. Диссертация изложена на ! Ь / страницах машинописного текста и состоит из введения, трех глав,

2

выводов и списка литературы С ¡1} наименований).

содержание работы

Первая глава диссертационной работы содержит описание более двадцати программ генерации структур. Среди них такие известные генераторы как CONGEN, GENOA, CHEMICS, STRGEN, ASSEMBLE, COCOA, GEN, MOLGRAPH, ISOGEN, МАИСС и др. В обзоре выделены основные требования, которым должен удовлетворять "хороший" алгоритм генерации: исчерпываемость, неизбыточность и эффективность. Каждая представленная программа рассматривается с точки зрения соответствия этим требованиям.

Во второй главе диссертации изложен новый метод генерации структур для целей КССА и описана программа, реализующая этот метод.

В разделе 2.1 формулируется постановка исследуемой задачи генерации.

Предположим, что все структуры в выборке, используемой при установлении КССА, содержат один и тот же остов - центральный фрагмент С ЦФ), который представляет собой отдельный атом или группу атомов. Для каждой свободной валентности ЦФ можно выделить множество элементарных фрагментов (ЭФ) - фрагментов произвольной сложности. Задача генерации состоит в получении полного множества структур, содержащих заданный ЦФ с заместителями, сконструированными из выделенных микрофрагментов. Данную задачу целесообразно разбить на две подзадачи:

1) конструирование полного множества заместителей из заданного набора ЭФ для каждого свободного положения в ЦФ;

2) получение конечных структур путем присоединения сконструированных заместителей к соответствующему положению ЦФ.

При разработке алгоритма генерации были выделены две основные проблемы:

1. Проблема генерации неизоморфных структур. Эта проблема возникает в связи с возможной симметрией ЦФ, а также собственной симметрией некоторых ЭФ.

2. Проблема "разумного" ограничения конечного числа сгенерированных структур. Поскольку число возможных комбинаций ЭФ резко возрастает с увеличением их количества, то возникает необходимость задавать ограничения на комбинации исходных ЭФ, учитывая осо-

3

бенности искомых структур.

Разделы 2.2 - 2.4 посвящены решению первой подзадачи -конструированию множества заместителей из набора ЭФ.

Для того, чтобы конечные структуры не выходили за рамки узкого класса структур из обучающей выборки, в нашем генераторе разрешены только ациклические комбинации исходных ЭФ. Поэтому все заместители, сгенерированные из ЭФ, мы назвали ациклическими составными фрагментами САСФ). В связи с ациклическим характером комбинирования ЭФ, каждый АСФ можно представить в виде дерева: ЭФ первого уровня всегда содержит свободную валентность АСФ и не менее одной валентности, связанной с ЭФ второго уровня, и т.д. По этой причине удобнее всего разделять все свободные валентности ЭФ на два класса. Первый класс содержит единственную свободную валентность, связывающую данный ЭФ с ЭФ предыдущего уровня С или с ЦФ), второй класс содержит одну или более валентностей, связанных с, ЭФ следующего уровня. Свободные валентности первого класса мы назвали выходящими валентностями, а второго класса - входящими валентностями. Конструирование любого заместителя производится путем замены одной входящей и одной выходящей валентности одинаковой кратности на химическую связь.

Раздел 2.5 содержит вводную информацию, необходимую для последующего изложения алгоритма генерации: классификацию фрагментов, их численные характеристики и основные операции над фрагментами.

Классификация фрагментов проводилась по числу входящих и выходящих валентностей. Фрагменты, которые не содержат входящих валентностей, были названы терминальными СI-фрагментами); фрагменты, которые содержат ровно одну входящую валентность - линейными С1 - фрагментами}; фрагменты, которые содержат две и более входящих валентностей - разветвленными СЬ - фрагментами). Фрагменты типов 1-, 1-, Ь- всегда содержат единственную выходящую валентность. ЦФ С без выходящих валентностей и с одной и более входящими валентностями) рассматривался как особый тип фрагментов (с - фрагмент) .

Дальнейшая классификация фрагментов проводилась с учетом кратности входящих и выходящих валентностей. Таким образом,

множества фрагментов ^^ и Ь^, 1=1,3, содержат, соответственно, терминальные и разветвленные фрагменты с кратностью 1 выходящей

4

валентности, а множество фрагментов ''(1^=173) содержит

линейные фрагменты с кратностью выходящих и входящих валентностей 1 и ,], соответственно.

Были введены некоторые численные характеристики ЭФ и АСФ. Первая характеристика - степень р фрагмента определялась как количество входящих валентностей в ЭФ или АСФ (р=0 для терминальных фрагментов, р=1 для линейных фрагментов, р*2 для разветвленных фрагментов; кратности валентностей не учитываются). Для ввода следующих численных характеристик был определен узел с выходящей валентностью как корень или первый уровень; соответствующий ЭФ рассматривался как корневой или как ЭФ первого уровня. Высота л любого ЭФ или АСФ - это общее число узлов в самом длинном пути, связывающем корень с узлом максимального уровня С Л=1 для элементарных 1-, 1- и Ь-фрагментовЗ. Ранг г фрагмента - максимальное число разветвленных узлов в пути; все пути-, связывающие корень с терминальными узлами, должны при этом учитываться. Заметим, что г=0 для неразветвленных 1-, 1-фрагментов. Наконец, дисперсия ь фрагмента определялась как максимальное число смежных узлов валентности 2. Любой заместитель можно рассматривать как элементарный фрагмент или как составной I-фрагмент с допустимыми значениями параметров л, г, а.

Пусть х - это либо 1-, либо Ь-фрагмент, а у^ С 1=1 ,р) - это идентичные или неидентичные 1-, 1- или Ь-фрагменты. Тогда операция комбинирования фрагмента х степени р>0 с упорядоченной последовательностью . . ,ур) определена, если кратность каждой входящей Сперенумерованной по 13 валентности фрагмента х совпадает

с кратностью единственной выходящей- валентности соответствующего-

фрагмента у^, 1=ГГр. Эту операцию будем обозначать как х&СУ1,у2,..,урУ

В нашем алгоритме были использованы следующие три операции комбинирования фрагментов:

1) Комбинация 116(123. В результате операции комбинирования двух элементарных или составных фрагментов и 1^ получается единственный составной фрагмент 1=1^&С1^^ • Входящей валентностью результирующего фрагмента 1 является входящая валентность фрагмента 12, а выходящей валентностью фрагмента 1 - выходящая, валентность фрагмента 1^.

2) Комбинация ^а(^). Операция комбинирования элементарных или составных фрагментов и Ц приводит к созданию единственного составного фрагмента с выходящей валентностью фрагмента

• Новая химическая связь возникает вследствие слияния входящей валентности и выходящей валентности Ц .

3) Комбинация ь^-^,^,..,^). Пусть р=р(Ьр, тогда новые химические связи образуются слиянием р пар валентностей, т.е. ¿-ая входящая валентность фрагмента Ь^ сливается с единственной выходящей валентностью фрагмента 1^,1=ГГр. В каждой паре валентности должны быть одной кратности. Результирующий терминальный фрагмент 1=Ь^&СЦ .. Др) всегда содержит единственную выходящую валентность, принадлежащую фрагменту Ь^.

В разделе 2.3 изложен алгоритм генерации составных терминальных фрагментов.

пусть т(1) = -а'1'}, и(1)| = р., т<2) = а(г)>, !Т(г)1 = и 1 - 11 У, 1Т I = р^ - отдельные множества, состоящие из элементарных или составных 1-фрагментов с кратностями выходящих валентностей 1,2 и 3, соответственно. Аналогично, В11' = -СЬ11'), 1В(1)1 = В'г) = {Ь(г>>, 1В(г,1 = Чг, В(3> = СЬ13)>, 1В13)1 = <73 множества заданных Ь-фрагментов с кратностями выходящих валентностей 1,2,3; общее число входящих валентностей /-ого

фрагмента 1=173, j=ГГg~, обозначается как рС ;Л.

Девять множеств Ь"-" = <11И>>, 1Ь"Л1 = вводятся

аналогичным образом. Множество Ь11^ содержит л^ фрагментов с

кратностями выходящих валентностей, равными Ш=1,3), и с

кратностями входящих валентностей ,)^=Г73). Процесс генерации проводится в три этапа.

На первом этапе генерируются 1-фрагменты с дисперсией ¡^М СМ - заданное максимальное значение й ) путем комбинирования между собой всех линейных ЭФ (операция 1,й{1_ЭЗ. Полученные составные 1-фрагменты формируют соответствующие множества Ь ^ ,

На втором этапе полученные составные 1-фрагменты комбинируются с терминальными ЭФ (операция ^ак^)) и дописываются в множества

Т(1>, 1=1,а. (Первоначально эти множества содержат только ЭФ.)

На третьем этапе терминальные фрагменты из множеств Т11',

6

1=Г75 комбинируются с разветвленными ЭФ из соответствующих множеств

В11' (операция ь,6(1, 1=1,3, и затем полученные

I-фрагменты "расширяются" с помощью 1-фрагментов из множеств Ь и ,

1^=175. Эта процедура повторяется последовательно для формирования 1-фрагментов с г=1, г=2,..,г=К (И - заданное максимальное значение гтах). Все вновь сформированные I-фрагменты добавляются в

соответствующие множества Та), 1=1,6. Заметим, что этот алгоритм генерирует терминальные АСФ с высотой Ьтах= (М+1ХН+1); кроме того, для всех сгенерированных фрагментов дисперсия а ранг г^И.

Главная особенность алгоритма состоит в том, что для получения

неидентичных АСФ достаточно на третьем этапе генерации при выполнении операции комбинирования ь.аи,г) учитывать симметрию

1 1 « р

только ЭФ из множеств В11', 1=175. Симметрия промежуточных I-фрагментов будет учитываться автоматически.

В разделе 2. 4 описан способ учета симметрии разветвленных ЭФ. Для того, чтобы охарактеризовать симметрию фрагмента, было введено понятие фрагментарного грэфз. х=1Д,Ь, для каждого типа фрагментов как совокупности множеств вершин и ребер всех кратностей. В отличие от симметрии обычного фрагмента, симметрия соответствующего фрагментарного графа может быть строго охарактеризована его группой автоморфизмов АиКСх), х=1,1,Ь. Эта группа состоит из подстановок симметрической группы Я1=1У1 + 1У 1 + 1У"1, которые сохраняют все смежности графа и метки вершин, где V - множество вершин графа, соответствующих атомам, а УЧУ") - множество входящих (выходящих) вершин, соответствующих окончаниям входящих (выходящих) валентностей фрагмента (см. рис.1). Было показано, что для учета симметрии фрагмента в процессе генерации достаточно рассмотреть ограниченные действия групп автоморфизмов на множества V'. Однако для избежания появления дублирующих подстановок в ограниченных группах автоморфизмов были использованы группы подстановок Н=(Ь|С), полученные путем удаления всех дублей. Пример фрагментарного графа с группой подстановок Н изображен на рис.1. Очевидно, что группа Н не может быть сконструирована для графа так как множество V' является пустым в этом случае. Кроме того, группа Н является идентичной группой для любого графа (IV'1=1).

V = {V8,Vg)

v" = <v7>

Aut(G^) = {(1){2)(3)(4)(5)(6){7)(8)(9); (1)(26)(35)(4)(7)(89)} Н(су = {(8) О); (89))

Рисунок 1. Фрагментарный граф с группой подстановок Н.

Для каждой композиции графа G^, соответствующего Ь-фрагменту степени р с р графами G+ , i=l.р, т.е. для каждого фрагментарного

графа G^&C ,G^ ,,.., G^ ), можно определить конечное отображение 12 р

ф = V' —> Т, которое является отображением множества вершин V' ClV'l=p) графа Gb на заданное множество Т = Т(1) \J Т(2> I; Т(3\ где Hi = р^ + pg + pg. Пусть Ф = -СФ: V'=>T) - это множество, состоящее из всех допустимых отображений. Мощность 1Ф1 этого

множества зависит от мощности р^ множеств Та>, i=l,3, и от числа вершин в V'. Если определить действие групп подстановок Н на множестве V', то можно построить индуцированную группу Г, действующую на множестве отображений Ф. Порядок новой группы подстановок Г={^} идентичен порядку группы Н, а степень группы Г равна 1Ф1. Группа Г распределяет Ф на несколько эквивалентных классов, которые называют орбитами или транзитивными множествами. Таким образом, для решения задачи получения неизоморфных структур в результате выполнения операции комбинирования bjfeitj ,t2,.. ,tp) достаточно выбрать представителей орбит группы Г, действующей на Ф. Для этого необходимо ввести линейный порядок на множестве Т. Это возможно, так как внутренним представлением фрагментов в программе является их коды в линейной нотации Висвессера СЛНВ), которые можно сравнивать лексикографически. Таким образом, для каждой орбиты Г всегда можно выбрать одно отображение ф с минимальным кодом, это отображение будет каноническим представителем всей орбиты.

Из этого следует, что коды всех сгенерированных отображений необходимо сравнивать с их образами, полученными в результате действия подстановок группы Н, соответствующих фиксированному b-фрагмент'у. Любое отображение с кодом, которое переводится

некоторой подстановкой л^ в меньший код, является эквивалентным ранее сгенерированному отображение и, следовательно, его необходимо отбросить.

Можно выделить три случая, когда нет необходимости строго определять группы Н:

1) Если группа Н Ь-фрагмента является идентичной группой Е, то каждое отображение ф - У'=>Т формирует отдельную орбиту; в этом случае все упорядоченные последовательности являются неэквивалентными Сем. рис. 2а).

2) Если группа Н является симметрической группой (л - это степень р Ь-фрагмента), тогда канонические представители легко определяются. В этом случае все компоненты упорядоченных последовательностей должны быть ранжированы в неубывающем порядке Срис. 26).

3) Если группа Н является прямой суммой двух и более симметрических гоупп Б , каждая из которых действует на свое собственное

подмножество V] а V, которое содержит т- вершин С V V' = V';

1 1 ,* 1

^ = е°ли 1г,р, тогда компоненты соответствующих под-

множеств должны быть ранжированы в неубывающем порядке. На рис. 2в представлен пример, в котором Н = Бд Ф^; группа действует на подмножество ^^Лд}, группа 52 - на

а)

6)

2 *

с Т

в)

2 *

С 3 I

С 4

Г

Рисунок 2. Возможные типы симметрии разветвленного фрагмента.

В разделе 2.5 излагается решение второй подзадачи - получение конечных структур.

Пусть задан ЦФ с р входящими валентностями и множество заместителей Т = ТП1У Т|2) I/ Т1Э), сконструированных по алгоритму, описанному выше. Тогда операция комбинирования сб^,^,..,! ) означает, что каждая из р перенумерованных входящих валентностей с-фрагмента вместе, с выходящей валентностью соответствующего I-фрагмента образует новую химическую связь; р пар входящих и

9

2

выходящих валентностей должны состоять из валентностей одной и той же кратности (для каждой пары). Эта операция, очевидно, очень похожа на операцию комбинирования b6{t1,t2,..It.p), но результатом ее являются конечные структуры.

Способ учета симметрии ЦФ очень похож на тот, что был использован для учета симметрии разветвленного фрагмента. Симметрия с-фрагментарного графа также может быть охарактеризована его группой автоморфизмов H=<hjc>. Однако при построении комбинаций для cfcitj.tg,.. ,tp) существуют особые проблемы, требующие дополнительного обсуждения. Если задать к симметричным положениям с-фрагмента различные наборы заместителей, тогда эти положения необходимо рассматривать как различающиеся. Это искусственное помечение изменяет ограниченные группы автоморфизмов, что позволяет корректно решить задачу генерации.

Раздел 2.6 посвящен использованию линейной нотации Висвессера СЛНЗЗ в алгоритме и программе генерации.

Раздел 2.7 содержит описание компьютерной реализации алгоритма. Алгоритм генерации был реализован на ЭВМ типа IBM PC/AT. Соответствующая компьютерная программа GOLD состоит из следующих блоков:

1. Блок формирования входных данных для генерации.

С помощью этого блока пользователь может в диалоговом режиме выбирать множества ЭФ всех типов, представленных в графическом виде, а также задавать необходимые ограничения. Выбор всех фрагментов осуществляется из заранее сформированного разработчиками исходного множества. Каждый фрагмент из этого множества представлен в двух вариантах: в виде матрицы смежности и в виде модифицированного кода ЛНВ. Для каждого разветвленного ЭФ вводится информация об ограниченных группах автоморфизмов. Матрица смежности необходима для графического представления фрагмента, а код ЛНВ используется непосредственно в процессе генерации. Это исходное множество можно легко модифицировать.

В текущей версии программы используются два типа ограничений на генерацию. Ограничения первого типа можно условно назвать глобальными. Для каждого "положения" ЦФ пользователь может ввести следующие характеристики генерируемых заместителей: 1) максимальное число разветвленных фрагментов в АСФ; 2) максимальная длина линейной цепочки ' Смаксимальное число смежйых линейных ЭФ) в АСФ; 3) длина максимального пути в АСФ.

10

Ограничения второго типа Слокальные) вводятся для указания запрещенных комбинаций для любых пар . различающихся, а также идентичных ЭФ. С помощью этих ограничений можно запретить генерацию структур, содержащих нежелательные химические связи. Кроме того, для каждого конкретного элементарного линейного фрагмента пользователь может ввести максимально допустимое число вхождений этого фрагмента в любую линейную цепочку, а для элементарного разветвленного фрагмента - в любой АСФ.

2. Блок автоматической генерации структур.

Генерация структур проходит в автоматическом режиме в два этапа. На первом этапе генерируются заместители для всех свободных положений ЦФ И' выдается априорное число, конечного'. множества сгенерированных структур без учета симметрии С оценка сверху). Пользователь может инициализировать процесс присоединения сгенерированных заместителей к ЦФ или прервать процесс генерации. Сгенерированные структуры записываются в текстовый файл в кодах ЛНВ. Средняя скорость генерации - 50 структур в минуту.

3. Блок раскодирования и визуализации сгенерированных структур.

Этот блок предназначен для просмотра и записи в файл в виде матрицы смежности результатов генерации.

С помощью одного из пунктов главного меню генератора осуществляется прямой выход в блок прогнозирования активностей сгенерированных структур программного комплекса "ЭММА".

На основании моделей, построенных с помощью программного комплекса "ЭММА" , для сгенерированных раскодированных структур из заданного пользователем диапазона номеров вычисляется значение нужной активности.,Более того, пользователь мржет ввести значения минимальной и максимальной активностей, и все структуры, обладающие активностью, не попадающей в заданный диапазон, будут автоматически отброшены программой.

В третьей главе диссертации продемонстрированы результаты использования генератора "GOLD" для поиска новых потенциально активных соединений ряда триазиндионов, обладающих антикокцидной активностью, а также барбитуратов С гипнотическая активность) и фенилалкиламинов (галлюциногенная активность). Поиск перспективных структур проводился в три этапа с использованием комплекса "ЭММА" и генератора "GOLD". На первом этапе были, получены регрессионные уравнения (РУ), описывающие заданные активности. На втором этапе

И

были сгенерированы новые соединения (содержащие общий фрагмент, присутствующий в обучающей выборке) с помощью генератора "GOLD". На третьем этапе для каждой сгенерированной структуры было вычислено значение заданной активности по полученным регрессионным уравнениям и отобраны соединения с максимальным значением активности.

Нами были проанализированы данные о гипнотической активности барбитуратов, представляющей собой отрицательный логарифм минимальной эффективной дозы Смол/кг), полученной в результате испытаний на кроликах [Gupta S. Р. //слега.fiev.,1989,V. 89,N. 8,Р.1772]. Для этого была использована выборка из 15 соединений, 13 из которых составили обучающую выборку и 2 - контрольную. С помощью программного комплекса "ЭММА" были построены регрессионные уравнения,' из множества которых были отобраны наиболее устойчивые с помощью скользящего контроля С критерий - "cross-validation г" - cvr) и прогноза для контрольной выборки. Затем из них с учетом коэффициента корреляции г, стандартного отклонения s и критерия Фишера F были выбраны следующие регрессионные уравнения:

logC 1/С) =0.235 ELUM0 + 0.051 TIC^ 1.012 CD

n=13, r=0.956, s=0.15, F=54, cvr=0.941 где ЕцЖ) ~ энергия низшей свободной молекулярной орбитали, вычисленная по методу Хюккеля;

TICj - информационный топологический индекс. logCl/O =0. 018 SVdW + 2.41 MaxpLlM) - 0.36 MaxS^O - 1.557 C2) n=13, r=0.954, s=0.17, F=30, cvr=0.900 где - Ван-дер-Ваальсова поверхность молекулы;

MaxpLUM0~ максимальный квадрат коэффициента вклада атомной орбитали в низшую свободную молекулярную орбиталь С метод Хюккеля).

MaxS^CC) - максимальное из электротопологических состояний атомов углерода.

logC1/С)=0.344 Na+ 0.525 Frl + 0.256 Fr2 - 3.097 СЗ)

n=13, г=0.970, s=0.14, F=47, cvr=0.892 logCl/O=0.274 Na+ 0.105 Fr3 + 0.472 Frl - 1.950 (4) n=13, r=0.958, s=0.16, F=33, cvr=0.902 где Na - число неводородных атомов в молекуле;

Fri - количество фрагментов данного вида в молекуле: Frl - четыре атома углерода,

г-

связанные следующим образом: -C-C<^Z

Гг2 - четьфе атома углерода,

связанные следующим образом: ,, ,, с-

с=

ГгЗ - цепочка из пяти атомов углерода и одного атома азота, связанных простыми связями : -С-С-С-С-Н-С-;

В качестве входных данных для генерации барбитуратов был задан ЦФ с четырьмя свободными валентностями, четыре списка ЭФ, соответствующих свободным валентностям Своего 16 ЭФ) и списки структурных ограничений. Всего было сгенерировано 480 структур.

Для всех сгенерированных структур с помощью блока "Прогноза-тор" комплекса "ЭММА" было последовательно рассчитано значение активности по каждому из построенных регрессионных уравнений. Далее, из 480 структур была выбрана 21 структура с прогнозом активности по всем РУ С1-4), превышающим максимальную активность в обучающей выборке С4.74) Сем. табл.1).

Таблица 1. Пример сгенерированных барбитуратов СЗ из 21) с прогнозом активности по уравнениям С1-4), превышающим значение 4.74.

о

N X R1 R2 R3 прогноз LOG(.l/C) CI) C2) СЗТ С4Г

1 0 CHg CH^CHg CHC CHg) CgHgjCi^CHg 5.044 5.686 5.004 5.137

2 0 CHg CH^CI^CHg CHCCHg)CgHgCHg 5.146 5.694 5.004 5.137

3 S CHg CHgCI^CHg 1-cyclohexenyl 5.184 5.285 5.016 5.293

Для установления связи между структурой фенилалкиламинов и их галлюциногенной активностью была использована выборка из 26 соединений С24 соединения в обучающей выборке и 2 - в контрольной). Галлюциногенная активность измерялась в мескалиновых единицах С ME) [Gupta S.P.//chem.Rev.,1989,V. 89,N. 8,P.1788]. Мескалин [3,4,5-Стри-метоксифенил)этиламин]- это сильный галлюциноген, который используется как эталонное соединение. ME представляет собой отношение эффективной дозы мескалина к дозе исследуемого вещестза, вызывающей тот же эффект. После анализа полученных регрессионных уравнений были отобраны следующие:

1п(МШ=14.137 - 0.278 Sw + 1.542 Рг1 - 0.265 ¥гг + 3.508 С5) п=24, г=0.973, 5=0.38, Г=83, с\т=0.960

где 6х^с - валентный индекс связности шестого порядка; Би - индекс, основанный на локальных инвариантах вершин молекулярных графов; Р^ - количество фрагментов данного вида в молекуле:

Рг1 - СН3-СН2- Рг2 -

1пСШ)=10.291 6х^с- 10.051 I Сх1-х,)/Нь - 0.953 М + 0.681 Рг2 +

связи С1,и

+ 2.369 С 6)

п=24, г=0.967, 5=0.43, Р=68, суг=0.949 где 6х^с - валентный индекс связности шестого порядка;

Е схгх(з/ль

связи С1 j!^ средняя разность электроотрицательностей для

соседних атомов С ^ - число связей, х^ - электроотрицательность атома 13; Гг.! - количество фрагментов следующего вида в молекуле:

М - -СН2-СН2- Гг2

1пСМШ=11.467 0.748 М - 0.869 Рг2 + 0.468 РгЗ - 0.174, Гг4, -

- 1.784 С7)

п=24, г=0.972, 5=0.40, Р=62, с\т=0.953

где - валентный индекс связности шестого порядка;

Рг ^ - количество фрагментов данного вида в молекуле:

т - ж- Гг2 - -аи-сн2-

ЕгЗ -

• - означает любой атом, который может быть связан с заместителем или водородным атомом.

Анализ выборки фенилалкиламинов показал, что необходимо задать четыре различных ЦФ для генерации новых соединений, которые были бы подобны соединениям из обучающей выборки. Таким образом, было сформулировано 4 задачи для генерации (четыре ЦФ и, соответственно, 20, 7, 7, 7 ЭФЭ. Всего в результате генерации было 'получено 1224 структуры, из ' которых было отобрано 13 структур с прогнозом

14

активности, превышающим максимальное значение активности в обучающей выборке (5. 99) по всем трем моделям (5-7) (см. табл.2).

Таблица 2. Пример сгенерированных фенилалкиламинов (3 из 13) с прогнозом активности по уравнениям (5-7), превышающим значение 5.99.

х

снт.

N К X прогноз 1п(МШ (5) (6) С7)

1 2,6-(0СН3)-4-Вг сн3 7.421 6.284 6.421

2 2,3,6-(0СН3)3-4-Вг сн3 7.052 6.533 6.491

3 2,3-С 0СН3) 2-4-Вг -Б-О^Нд сн3 7.646 6.740 6.554

Наиболее полно возможности разработанного нами генератора продемонстрированы на примере триазиндионов (2-замещенных 1,2,4-триазин-3,5(2Н,4Ю-дионов). Для этого были использованы ранее опубликованные регрессионные уравнения (обозн. далее (8),(9),С10)), которые были получены в результате исследования количественной связи между структурой триазиндионов и их антикокцидной активностью [Зефиров Н.С., Петелин Д.Е. , Палюлин В.А., Макфарланд Дж. У.//ДАН,1992,т. 324. ,N.5. , С.1019].

Для генерации триазиндионов были заданы следующие входные данные:

Центральный фрагмент:

о

щ . С1 *2

Микрофрагменты:

для положения

терминальные: -С1; ~СН3; -СГд; -Н; для положения Р^:

терминальные: -С1; -Вг; -Г; -СГ^; -Н ; :

гл -о N ;

т

линейные: -БС^—, -2-; -СН2~; —СН^

разветвленные:

.01 101 10

а

1 1 3 1 2 1 1 1 1

2 -21 (цифрами обозначены точки присоединения (см. Главу 23);

для описания симметрии двух разветвленных фрагментов были

введены ограниченные группы автоморфизмов (см. Главу 2):

101 н=^;"г> Л1=(1)(Э(3) , А1=С 1)(2)

1 2 3 л =(13) (2) 1 2 л =(12)

2 2

Для избежания генерации- нежелательных структур были также

введены запреты на следующие связи:

СП

-ЪО^- с микрофрагментами: -3-; —СН^ ; -С1;

-СТу, -¥■ -Вг;

Я*

-Б - с микрофрагментами: -202"; —Сг^ ; —С1; -С^-

-СГ3; -Е; -Вг;

я

-СН2" с микрофрагментами: -2-; —СН^ ; -С1; ~202~;

-СГ-; -Г; -Вг;

С&

—СН^ с микрофрагментами: -2-; -202-; ~СГ3; -Вг;

1 1 3 2

А

-СН2-; -С1; -1

с микрофрагмалаьи: -0 N \_!

-3%-; -Б-.

\ с микрофрагметгаш: v; гл -0 N \_/

-ЗЗр-; -Б-;

1

с микрофрагметгами: с микрофрагмалаш: с микрофрагмопада

гл -О N

-сн^

г~\

-О N

-3^-; -Б-; 43^-;

-О N

яг

-б-

Максимальное число разветвленных фрагментов в любом сгенерированном заместителе было положено равным 1 С тем самым автоматически были запрещены все связи разветвленных фрагментов между собой). Кроме того, для положения 1?2 было запрещено непосредственное присоединение микрофрагментов

-С1; -Вг; -Г; -СГо; -о~м ,

о

а для терминального микрофрагмента -Н разрешено его присоединение только к ЦФ.

Таблица 3. Пример сгенерированных триазиндионов с прогнозом активности по уравнениям, превышающим значение 3.61.

о

-ч . С1

в»

прогноз ЬодС1/МЕС) (8) С9) (10)

N И

1

1 2

3

4

5

снссюс6н2-

3,5-СС1)2-4-Вг

СГ3 БС6Н2-3,5-СС1)2-4-Г сг-СГ-

С1

СН2С6Н2-3,4-с С1)2-5-Вг

5С6Н2-3,4-СВг)2-5-С1

5С6Н2-3-СГ3-4-Вг-5-С1

4.382 4.382 4.382 4.382 4.382

4.433 4.542 4.148 4.177 4.541

4.203 4.245 4.167 4.175 4.251

2

В результате генерации было получено 1520 новых структур, из которых 148 - с прогнозом активности, превышающим значение 3.61 (максимальная активность в трех обучающих выборках) по всем трем регрессионным уравнениям (в качестве примера 5 из 148 перспективных для синтеза структур приведены в табл.3).

Таким образом, с помощью генератора "GOLD" можно легко создать обширную базу соединений, обладающих структурными особенностями, полученными на основании анализа обучающей выборки. Удобная система ввода ограничений на генерацию, которой обладает программа "GOLD", позволяет легко варьировать количество и степень сходства генерируемых структур. Разработанный в диссертационной работе метод генерации дает возможность свести к минимуму генерацию "ненужных" структур, что значительно экономит время в дальнейшем, когда из базы сгенерированных соединений с помощью программного комплекса "ЭММА" отбираются структуры наиболее перспективных соединений для последующего их синтеза.

Основные результаты и выводы.

1. Предложен новый метод генерации структур с заданным центральным фрагментом, заместители которого, в свою очередь, генерируются путем ациклического комбинирования исходных микрофрагментов между собой с учетом заданных ограничений (глобальных и локальных). Глобальные ограничения определяют характеристики генерируемых заместителей в целом, а локальные вводятся для указания запрещенных комбинаций для любых пар различающихся и идентичных микрофрагментов.

2. С помощью теории графов и теории групп подстановок доказана корректность решения поставленной задачи генерации.

3. Разработана компьютерная программа "GOLD", эффективно реализующая предложенный метод генерации структур. Программа позволяет в диалоговом режиме формировать входные данные для генерации, автоматически генерировать структуры с выдачей априорной оценки конечного числа сгенерированных структур, записывать в файл в кодах ЛНВ, раскодировать из ЛНВ в матрицы смежности с последующей записью в файл и просматривать результаты генерации.

4. С помощью разработанной программы получены структуры новых потенциально активных соединений: для гипнотической активности барбитуратов, галлюциногенной активности фенилалкиламинов и антикокцидной активности триазиндионов. Множество сгенерированных

18

соединений обработано с помощью программного комплекса "ЭММА". На основании регрессионных уравнений отобраны для последующего синтеза соединения, прогноз активности которых ' превысил максимальное значение активности в обучающей выборке по всем моделям.

Основные результаты диссертационной работы изложены в следующих публикациях:

1. Lomova O.A. , Sukhachev D.V. , Kumskov M.I. , Palyulin V. A. , Tratch S.S., Zefirov N. S. The Generation of Molecular Graphs for QSAR Studies by the Acyclic Fragment Combining. //Commun. Math. Chem. -1992. - N. 27. - P.153-174.

2. Tratch S.S. , Lomova O.A., Palyulin V.A., Sukhachev D.V. , Zefirov N.S. Generation of Molecular Graphs for QSAR Studies: An Approach . Based on Acyclic Fragment Combinations. //J. Chem.Inf. Comput.Sei. - 1992. - Vol.32. - P.130-139.

3. Кумсков M. И. , Сухачев Д. В., Палюлин В.А., Ломова O.A. Быстрая генерация MX - графов на основе базовых структур в коде Висвессера. //Межвузовская конференция "Молекулярные графы в химических исследованиях": Тез. докл. - Калинин, 1991. - С. 54-55.

4. Ломова O.A., Палюлин В.А., Сухачев Д. В., Зефиров Н.С. Генерация структур для целей QSAR. //I Всесоюзная конференция по теоретической органической химии: Тез.докл. - Волгоград, 1991. -с. 555.

5. Китова И. И. , Ломова 0.А., Сапегин А.М., Раевский 0.Е., Зефиров Н.С., Кузнецов С.0., Блинова В.Г., Финн В.К. Направленное конструирование биологически активных веществ на основе исследования связи структура - активность. //IX Всесоюзная конференция "Химическая информатика": Тез. докл. - Черноголовка, 1992. - с.170.

6. Ломова O.A., Палюлин В. А., Сухачев Д.В., Зефиров Н.С. Применение генератора GOLD для поиска биологически активных соединений. //IX Всесоюзная конференция "Химическая информатика": Тез.докл. - Черноголовка, 1992. - с.206.