автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Методология прогнозирования свойств химических соединений и ее программная реализация

доктора физико-математических наук
Кумсков, Михаил Иванович
город
Москва
год
1997
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Методология прогнозирования свойств химических соединений и ее программная реализация»

Автореферат диссертации по теме "Методология прогнозирования свойств химических соединений и ее программная реализация"



£

)

На правах рукописи

Кумсков Михаил Иванович

МЕТОДОЛОГИЯ ПРОГНОЗИРОВАНИЯ СВОЙСТВ ХИМИЧЕСКИХ СОЕДИНЕНИЙ И ЕЕ ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

05.13.17. - теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора физико-математических наук

Москва-1997

Работа выполнена в Институте Органической Химии им. Н.Д.Зелинского Российской Академии Наук

Официальные оппоненты: . - ■ ■ ч. г

доктор физико-математических наук, Рязанов В.В.

доктор химических наук, профессор Шляпочников В.А.

доктор физико-математических паук, профессор Сотников А.Н.

Ведущая организация: Факультет Вычислительной

Математики и Кибернетики МГУ

Защита состоится ^^¿М 1997г., в " час. на заседании диссертационного совета Д 002.32.06 при Вычислительном Центре РАН по адресу: Москва, улица Вавилова,40, ВЦ РАН

С диссертацией можно ознакомиться в библиотеке ВЦ РАН

Olef ¿dp1, 1997Г.

Автореферат разослан

Ученый секретарь диссертационного совета

кандидат физико-математических наук^^^ Швартин С.М.

Актуальность проблемы. В настоящее время наблюдается быстрый рост числа фактографических баз данных (БД), содержащих структурные объекты: географические карты, изображения, химические структуры. С помощью глобальной сети INTERNET пользователи имеют оперативный доступ к таким структурным БД (СБД). На основе локальных и удаленных СБД строятся информационные приложения анализа данных и принятия решений, включая системы классификации и распознавания структурных объектов. Такие объекты представляются^" СБД как простые помеченные графы. Использование алгоритмов классификации требует проведени "векторизации" структурных объектов, т.е. построени ■ векторов признаков по графам, хранящимся в СБД. Выбор признаков (инвариантов помеченных графов) во многом зависит от прикладной задачи и является ключевым этапом для успешного решения задач распознования структур СБД. При переходе от одной прикладной задачи к другой способ векторизации графов в СБД, как правило, существенно меняется. Такая ситуация типична при распознавании изображений и при прогнозировании свойств химических веществ. Задача выбора "хорошего" описания структурных объектов является самостоятельной и весьма важной задачей, обеспечивающей в конечном счете успех или неудачу решения задачи распознавания в цепом. Так, при анализе изображений задача выбора описания решается в рамках дескриптивного подхода к распознавани изображений.

В работе впервые предложена общая методика поиска адекватных описаний структурных объектов для задачи распознавания на примере анализа структур молекулярных графов. Разработка методов поиска количественных корреляций "структура-свойство" (QSAR - "Quantitative Structure-Activity Relationship") является молодым и быстро развивающимся научным направлением теоретической химии. QSAR-моделирование позволяет проводить обобщение дорогостоящих экспериментальных данных, накапливаемых в компьютерных СБД, и принимать решения о том, в каком направлении следует планировать синтез новых соединений. Как правило, при построении QSAR-моделей используется заранее предопределенный химиком-экспертом набор дескрипторов, которые ориентированы на анализ конкретного свойства. Выбор описания молекул в виде вектора признаков является ключевым моментом QSAR-моделирования. Адекватный выбор признаков позволяет содержательно проводить оценку и интерпретацию QSAR-моделей.

В работе развит новый подход к проведению QSAR моделирования, основанный на аналогии между изображениями и молекулярными графами. Признаковые пространства, в которых проводится описание молекул СБД -структурные спектры помеченных графов, - формируются автоматически с последовательным усложнением детализации описания и уровня представления молекул. Тип признакового пространства определяется уровнем сложности представления структуры. Структура молекулы (как и структура изображения) может быть представлена на нескольких уровнях: топологическом, пленарном, пространственном. Заранее не известно, на каком уровне следует описывать молекулы для анализа конфетного свойства. Выбор уровня представления молекул и адаптация признаков для

конкретного свойства проводится динамически в процессе построения и селекции С^АР? моделей. Существенно чти увеличение предсказательной силы бЭАР? зависимостей проводится не за счет использования специальных моделей классификации (нечеткие множества, нейронные сети, иерархические классификаторы) и не за счет усложнения вида функциональной зависимости, а на основе постепенной детализации описаний структур, которые последовательно представляются на различных уровнях.

Диссертация выполнена в соответствии с планом-научных работ Института Органической Химии РАН по теме 43: "Разработка алгебраических и теоретико-графовых моделей для решения структурных задач органической химии" (номер государственной регистрации О188О0О6ОЗО), а также в рамках следующих проектов Российского фонда фундаментальных исследований: 93-012-1045: "Унифицированные математические модели и программно-инструментальные системы для прогнозирования новых органических соединений с заданными свойствами"; 94-01-00041: "Инструментальная система формирования баз знаний о зависимостях "структура-свойство" органических соединений на основе символьногр представления фрагментов молекулярных графов"; 96-01-01598: "Распознавание пространственных форм молекул биологически активных соединений с целью компьютерного предсказания свойств новых веществ"; 97-07-90307: "Селекция метрик для поиска подобных молекул в структурных фактографических БД с использованием знаний "структура-свойство".

Цель работы. Целью работы является разработка унифицированной методологии для решения задач классификации структурных объектов (на примере ОБА^задачи оценки свойств химических соединений) на основе поиска адекватного описания объектов в виде структурных спектров; воплощение разработанного подхода в программном комплексе для ПЭВМ и тестирование методологии путем построения прогностичных ОБАЯ-моделей на основе обучающих СБД, содержащих данные как о физико-химических, так и биологических свойствах химических веществ.

В работе были поставлены следующие задачи:

1. Провести обзор существующих подходов к построению математических моделей прогнозирования свойств химических соединений с точки зрения используемых методов описания молекул и методов поиска ОБАИ-зависимостей.

2. Формализовать построение векторного описания молекул на основе определения примитивов и процедур индуктивного порождения дескрипторов. Исследовать свойства структурных спектров как инструмента описания молекул для решения задач распознавания.

3. Разработать алгоритмы для анализа структур помеченных графов и для поиска элементов структурных спектров, адекватных для описания исследуемого свойства.

4. Формализовать основные этапы ОБАГ^-моделирования, определить функциональную организацию программной системы. Разработать иерархию объектов (структуры данных и методы) основных программных компонент системы.

5. Провести вычислительные эксперименты - построить СЗБАЯ-модели для различных химических классов веществ и различных свойств, оценить прогнозирующее качество СЗБАР-моделей и сравнить полученные результаты с известными литературными данными.

Научная новизна работы:

1. Впервые предложена общая методология построения ОБАЯ-зависи-мостей на основу поиска признаковых пространств, , адекватных для описания заданного свойства молекул. Основу методики составляют:

• Концепция многоуровневого представления молек. . графов как структурных объектов, описывающих форму молекул;

• Экспертная классификация локальных свойств структуры - определение примитивов описания - "особых точек" формы (базовых фрагментов молекулы);

• Индуктивное порождение символьных структурных спектров, формируемых на основе выбранных примитивов;

• Селекция элементов символьных структурных спектров на основе использования эволюционных алгоритмов - метода группового учета аргументов (МГУА), - для построения семейств ОБАР? уравнений, образующих ОБАЯ -модель.

2. Впервые разработана база знаний "структура-свойство", запросом к которой является молекулярный граф. База знаний надстраивается над структурной СБД и служит для идентификации структур, допустимых для ОБАЯ-оценки заданного свойства химических соединений.

3. Создана библиотека объектов для быстрого макетирования программных ОБАЯ-систем. На этой основе разработана система В1ВЮСШ и ее расширенная версия - система СЬетАсЮ. Системы позволяют проводить полный цикл работ по ОБАИ-моделированию, включая решение обратной ОБАЯ-задачи.

4. Исследована прогностическая устойчивость ОБАЯ-моделей, построенных на различных типах структурных спектров для ряда физико-химических и биологических свойств. Показано, что найденые ОБАЯ-модели не уступают, а в ряде случаев и превосходят по точности известные зависимости.

Практическая ценность результатов.

• Предложенная методология может быть применена для решения задач классификации произвольных структурных объектов, задаваемых помеченными графами.

• Системы В1ВЮСМ и С11етАс1с1 позволяют автоматизировать построение и селекцию расчетных схем многих физико-химических свойств органических соединений.

• Системы В1ВЮОЫ и СКетАсМ используются в научных институтах РАН и РАМН для построения зависимостей "структура-свойство" и поиска новых соединений с заданным профилем свойств.

• Найденные прогностически устойчивые ОЗАЯ-модели, хранящиеся в базе знаний системы, могут использоваться для проведения внеэксперимен-тального скрининга новых органических соединений.

Апробация работы. Результаты работы докладывались на 8-ой Всесоюгной конференции "Использование ЭВМ в спектроскопии молекул и химических исследованиях" (Новосибирск, 1989); на Межвузовской конференции "Молекулярные графы в химических исследованиях" (Калинин, 1990); на Всесоюзной школе-семинаре "Статистический' и дискретный анализ данных и экспертные оценки" (Одесса, 1991); на 1-ой Всесоюзной конференции по теоретической органической химии ВАТОХ (Волгоград, 1991); на 9-ой Всесоюзной конференции "Химическая информатика" (Черноголовка, 1992); на 1-ой Международной конференции "Химия, технология и применение фторсодержащих соединений в промышленности" (Санкт-Петербург, 1994); на 2-ом Российском конгрессе "Человек и лекарство" (Москва, 1995); на 21-ом Международном семинаре по пиротехнике (Москва, 1995); на 2-ой Всероссийской конференции "Распознавание образов и обработка изображений" (РОАИ-2-95, Ульяновск, 1995); на Координационном совещании сещии "Информатика" Научного совета по комплексной проблеме "Кибернетика" РАН (Ульяновск, 1995); на 7-ой Всероссийской конференции "Математические методы распознавания образов" (Пущино, 1995); на 5-ом Международном симпозиуме по молекулярным аспектам химиотерапии (Гданьск, 1995); на 9-ом Европейском симпозиуме по органической химии (Варшава, 1995); на Первом съезде фармакологов Украины (Полтава, 1995); на 4-ом Открытом германо-российском семинаре "Распо:навание образов и понимание изображений" (Валдай, 1996); на Первой международной конференции по применению эволюционных вычислений и их приложениям (ЕуСА'96, Москва, 1996); на 4-ой Международной конференции "Распознавание образов и обработка сигналов" (РГОР'97, Минск, 1997); на научных семинарах академика Н.С.Зефирова (Москва, 1988-1997); на научных семинарах по теории графов профессора А.А.Зыкова (Одесса, 1990, 1991, 1993); на научно-исследовательском семшаре академика Ю.И.Журавлева в Вычислительном центре РАН (1994); на научных семинарах профессора Ю.Г.Папулова на кафедре физической химии Тверского госуниверситета (Тверь, 1993-1995); на научно-исследовательском семинаре академика Н.С.Бахвалова на кафедре вычислительной математики механико-математического факультета МГУ (1994, 1997); на научно-исследовательском семинаре профессора М.Р.Шура-Бура "Автоматизация программирования" на факультете Вычислительной математики и кибернетики МГУ (1994,1995,1997);

Публикации. Результаты диссертации опубликованы в 65-и работах, включая 23 публикации в научных журналах, 12 - в трудах конференций, 26 тезисов докладов на конференциях, 4 работы депонировано в ВИНИТИ.

Структура и объем диссертации. Работа состоит из введения, шести глав, заключения, списка литературы и двух приложений. Объем работы 256 страниц, библиография содержит 368 наименований.

Во введении обосновывается актуальность создания унифицированной методологии поиска описаний структурных объектов для задач распознавания образов, а также актуальность разработки программных систем поиска новых соединений с заданными свойствами на основе построения ОБАЯ-зависимостей.

В первой главе дается обзор современных подходов к установлению взаимосвязи "структура-активность" с использованием вычислительной техники. Описаны классические подходы для прогнозирования свойств веществ: аддитивные схемы, метод Ханша, метод Фри-Вильсона. Проведена классификация топологических индексов, используемых в ОБАР-моделировании. Рассмотрены известные ОБА** системы с точки зрения: (1) способа описания молекул в виде вектора признаков и (2) вида классифицирующей функции. Описаны ЗО-ОЗАЯ-методы для анализа биологической активности, включая метод СоМРА, молекулярный докин, и методы структурного подобия молекул.

Вторая глава посвящена описанию методов формирования структурных дескрипторов молекулярных графов.

Существует глубокая аналогия между распознаванием (классификацией) молекулярных структур и распознаванием изображений, которая основана на незаданности стандартного описания исследуемых структурных объектов. Известно, что задача распознавание со стандартной информацией и задача распознавания изображений различны в столь значительной мере, что последняя не допускает непосредственного использования методов и средств классической теории распознавания, и требует разработки специального направления теории распознавания, предназначенного для работы с изображениями. Теория распознавания изображений развивается в рамках дескриптивного подхода в виде дескриптивной теории распознавания изображений. При этом в процессе распознавания участвуют иерархия формализованных описаний и представлений изображений.

ОЭАР-задачу прогнозирования свойств органических соединений можно рассматривать как особый случай задачи распознавания образов с учителем. Пусть задана обучающая СБД 75, которая содержит N объектов и представляет собой список пар 75={(Х1,С1),(Х2,С2),...,(Хм_,См)}, где ¡-й объект представлен в виде вектора-строки Хр(Х,1,Х,2.....С-, - внешний признак, задающий принадлежность ¡-го объекта к одному из классов. Требуется построить классифицирующую функцию Р такую, что на объектах обучающей СБД ее значения приближают внешнюю классификацию, заданную учителем:

Р(Х0 = С! + е,; £е^->гшп; М,..., Ы; (2.1)

Уравнение (2.1 ) используется для классификации новых объектов, не принадлежащих обучающей СБД. Особенности химической интерпретации общей постановки задачи распознавания состоят в следующем:

• внешний признак С, задающий классы обучающей СБД, может быть действительным числом, определяющим свойство химического соединения;

• объекты обучающей СБД представляют собой простые графы, имеющие метки на ребрах и вершинах (молекулярно-химические графы);

• заранее не задано векторное представление молекулярных структур;

• классифицирующая функция Р(Х1,Х2,...,ХК) традиционно имеет линейный вид: ЖХ^.....Хк) = Ь0 + Ь^ + Ь2Х2+ ... + ЬКХК; (2.2)

Определение. Молвкулярно-химический граф (М-граф) С=(У(0),Е(0)) -это помеченный граф, вершины которого (множество \/(0)) интерпретируются как атомы, а ребра (множество Е(6)) - как валентные связи, соединяющие пары атомов.

М-графы имеют следующие особенности: (1) метка вершины есть имя атома согласно периодической таблице; (2) метка ребера обозначает тип химических связей - одинарная, двойная, тройная, ароматическая; (3) атом водорода не считается вершиной М-графа ("водород-стерт"); (4) степень вершин не превосходит шести; (5) атом может иметь заряд, величина и знак которого являются атрибутом вершины; (6) каждой вершине приписаны три действительных числа (Х,У,г) - атрибуты положения атома в некоторой декартовой системе координат. При этом длина ребра приблизительно равна условной единице (т.е. отсутствуют "длинные" связи).

Два М-графа в! и изоморфны (С, ~ вг), если существует взаимно однозначное соответствие их вершин такое, что сохраняется соответствие ребер, а метки соответствующих вершин совпадают. Совпадение атрибутов вершин является необязательным.

Определение. Будем представлять М-граф Б вектором признаков следующим образом. Пусть задан список связных ациклических фрагментов М-графов Н-{ Н) }, }=1,...,1.. Тогда структурным дескриптором назовем пару (И^ Х^, где ^ - число повторений фрагмента Ц в графе в. Фрагмент ^ входит в граф С, если существует такой подграф СсС, что ^-С. Вектор-строку (Х1,Х2,...,Х1.) назовем структурным спектром графа в относительно Н и обозначим его Бв^Н)- Будем кодировать фрагменты с помощью модифицированной линейной нотации Висвессера (\Л/1_Ы), которая является канонической системой представления М-графов. Для связных ациклических графов определяет выбор начального атома и правила обхода дерева графа. Модифицированный Ш.Ы-код фрагмента Лу-. ЩЩ -есть символьная строка, составленная из меток LA/- атомов фрагмента Л;, записываемых в порядке обхода Лу-. \Л/1_Г^-код по построению обладает важным свойством:

» (2.3)

т.е. коды фрагментов совпадают тогда и только тогда, если фрагменты изоморфны.

Формула (2.3) позволяет, представлять список фрагментов Н в виде списка строк-кодов и работать только с этими строками. Для построения структурных спектров М-графов необходимо задать список Н структурных фрагментов. Назовем к-фрагментом ациклический фрагмент, состоящий из к атомов. Путем исчерпывающего перечисления в М-графе в всех его к-фрагментов сформируем список Нь[6]. Индуктивным структурным к-спектром 18в(к,С) назовем структурный спектр графа Б, построенный относительно Нк[0]: 133(к,С) = 5Б(С| Щв]).

Маркирование атомов. Присвоим каждому атому У| М-графа новую символьную метку 1Л>, которую будем составлять из символьных маркеров ОД (?/ ... . Каждый маркер характеризует определенное локальное или

глобальное свойство атома (положение в графе, заряд, валентность и т.д.). Предложен общий метод конструирования маркера <3 на основе экспертного задания функции локального свойства ф(у), вычисляемой на атомах М-графа. Метод основан на применении операции £ разбиения области значений функции <р(у) на непересекающиеся интервалы, каждому из которых приписано символьное значение маркера С?. Пара (<р, £) задает экспертную классификацию атомов. В качестве функции (р определения маркера могут выступать формальные топологические свойства атома, его заряд, локальные стерические свойства.

Алгоритм формирования матрицы "молекула-признак" (08АЙ-матрицы).

Шаг 1. Экспертом задаются: (1) к - сложность фрагмента; (2) маркеры О1, О2,... определяемые соответствующими парами (фч, ), (ф2, )» —

Шаг 2. Проводится маркирование атомов: по обучающей СБД { <3| } формируется новая СБД, М-графы { в0,} которой содержат маркированные атомы, т.е. вершинам М-графа присваиваются новые метки: —>■ в®;

Шаг 3. Формируются индуктивные структурные к-спектры: 0°, 15Б(к, С0, )= 33(0°, | Нк [С0,]) М,...,Ы;

Шаг 4. Формируется Н(к) - список всех к-фрагментов, встречающихся в графах {С0,}: Н(к) = II НК [С0,]; М=| Н(к) |;

Шаг 5. Для каждого графа в | формируется структурный спектр относительно Н(к): в0, вв^ | Н(к))= (Х11,Ха,...,Хш) ¡=1,...,Ы;

Вектор сторока (Х|1,Х|2,...,ХМ) будет являться ¡-ой строкой матрицы X "молекула-признак", описывающей обучающую СБД. Вектор-столбец Х1 определяет повторение ¿-ого к-фрагмента в графах обучающей СБД.

Пусть граф в0 получен из графа 6 О-маркированием его атомов 0,=(<р,д): С в® и пусть фрагмент Нра е 1БЗ(к, в0 ). Рассмотрим операцию До стирания маркера О в коде фрагмента Тогда справедливы:

Лемма 2.1. Существует фрагмент И;е155(к,С), такой что А0^[Ьра])=\Л/[Ь]], т.е. код \Л/[Из] фрагмента ^ совпадает с кодом W[hpa] после стирания <5-маркера.

Лемма 2.2. Пусть { Ир0 }, р=1,...,Р; - множество фрагментов из ^(к^0) таких, что Ла0Л/[Ьрб])=\М[|1|], где Ь, е 18Б(к,С), тогда Бр^.р Х[Ьра], где ХОД - число повторений фрагмента ^ в фафе в.

Лемма 2.3. Для каждого фрагмента 133(к,С) существует множество фрагментов {йЛс 133{к,С°), такое что

До^Нр6]^^]; р=1,...,Р и Х[^]= 2р=1,р Х[Ир°], (2.4)

Таким образом, проведение О-маркирования атомов в графе в приводит к "расщеплению" его индуктивного структурного спектра. Будем называть множество фрагментов {Ир0}, удовлетворяющее условиям (2.4), множеством расщепления фрагмента по маркеру 0=(<р,|) и обозначим его как |д[ И;, (<р,$)]

Теорема 2.1.(о расщеплении столбцов). Пусть по обучающей СБД {0|} лостоены две матрицы "молекула-фрагмент": матрица Хиа основе 18в(к,6{), и матрица Х° на основе 153(к,С°), ¡=1,...,Ы. Тогда каждый вектор-столбец Х)«Х1НД матрицы X равен сумме вектор-столбцов Хра=Х[Ьр°] матрицы : £р=1,р) Х[ЬР°], где Ир° (<?,£)]; Р=1.:.,Р,; Р)= |ц[ ЧМ1

Теорема о расщеплении столбцов позволяет проводить построение МГУА-схем автоматического поиска обобщений . ¿¡-маркера и формирования фрагментов, адаптированных для описания исследуемого свойства С.

Несвязные фрагменты и их представление. Построение структурных дескрипторов, описывающих несвязные фрагменты, проводится в два этапа. Вначале в молекулах перечисляются все "примитивы описания" -"базовые фрагменты" или "особые точки". Затем формируются символьные коды (дескрипторы), описывающие взаимное распопожение примитивов в молекуле относительно друг друга. Общая схема такова:

(1) Молекула последовательно рассматривается как топологический, планарный или трехмерный объект;

(2) На каждом уровне представления в молекуле определяются "примитивы описания" в виде экспертных алгоритмических правил;

(3) Каждый примитив задается своими (пленарными или пространственными) координатами и своим кодом (типом). Класс (код) примитива определяется на основании правил, заданных экспертом;

(4) Для всех перечисленных примитивов строится матрица расстояний 0={ йу >, где а,, - (топологическое или евклидово) расстояние между ¡-ым и ]-ым примитивами;

(5) Выбирается разбиение расстояний на интервалы и строится матрица Р={ рц}, где рц - номер интервала, в который попало расстояние с1ц;

(6) Перечисляются все пары примитивов и составляется список несвязных фрагментов Н в виде: "(УУ^ДОг.Р)"; (2.5)

где Ш, и \Л/2 - коды примитивов, входящих в пару; Р - номер интервала; Х["0Л/1^21Р)И] - число повторений фрагмента в молекуле - яв-

ляется структурным дескриптором для несвязного фрагмента. Символьная запись дескриптора - "^^г.Р)", - есть код несвязного фрагмента. Обобщая свойство (2.3) будем полагать, что два несвязных фрагмента равны, если совпадают их коды.

Выбор примитивов описания проводится одним из следующих способов:

• Маркированные атомы (1-фрагменты).

• Цепочки маркированных атомов (к-фрагменты, к>1).

• Особые точки, не связанные непосредственно с атомами. Эти точки выбираются в пространстве, окружающем молекулу. Они могут быть расположены на молекулярных поверхностях различного вида.

Структурные дескрипторы второго уровня. Пусть примитивы описания заданы к-фрагментами и пусть построен список записей, следующего вида:

(ОД, X) = ПУУ|,ДО), Р)'\ X) где X - число повторений в молекуле такой подструктуры, которая состоит из двух к-фрагментов и имеет УУ-код: УУ[2]="( щ, Щ, Р)" Назовем такой список

индуктивным структурным спектром второго уровня и обозначим его символом !332(к,С). Пару ( "(У^ , , Р)'\ X ) назовем структурным дескриптором второго уровня.

Построим 1332(к,С) для каждой молекулы обучающей СБД (вершинам которых уже присвоены символьные метки):

б^^^С,), ¡=1.....Ы;

Объединим все индуктивные структурные спектры второго уровня 1332(к,С;) и сформируе общий (для всех молекул СБД) список \л/-кодов всех пар к-фрагментов, встречающихся в графах СБД: Н2(к) ~ и (ЗЭДк, ),; Каждый

фрагмент получает порядковый номер}, ¡=1.....М. М-\Нг(к)\;

Для каждого графа О-, СБД сформируем структурный спектр относительно этого общего списка несвязных фрагментов Н2(к):

С, I Нг(к)) = (ХМ,Х12.....Х,м) Л/;

Вектор строка (Х^Х^,...,^) является ¡-ой строкой матрицы X "молекула-признак", описывающей граф Gi обучающей СБД в ограничениях, заданных экспертом. Вектор-столбец XI определяет повторение ]-ого несвязного фрагмента в графах обучающей СБД (]=1,...,М; М=| Н2(к) |).

Описанное построение индуктивного структурного спектра второго уровня 1332(к,С) и соответствующей ему матрицы X "молекула-признак" позволяет сделать следующее важное заключение: Теорема 2.1 о расщеплении справедливо для 1332(к, О) и для соответсвующей матрицы X "молекула-признак".

Структурные дескрипторы (я+1) уровня (я>2) можно определить индуктивно следующим образом. Пусть примитивы заданы к-фрагментами и пусть построен индуктивный структурный спектр я-ого уровня 133ч(к,С). Сформируем список записей: (ДО^-И], X) = ( "(W[q]i, , Р[ч])", X), где X - число повторений в молекуле такой подструктуры, которая состоит из к-фрагмента с кодом и структурн дескриптора я-ого уровня, который имеет код W[q]¡. Отношение в М-графе между к-фрагментом и структурным дескриптора я-ого уровня задается отношением Р[я]. Назовем этот список индуктивным структурным спектром (я-И)-ого уровня и обозначим его символом 133ч+1(к,С). Пару (УУ[я+1], X ) назовем структурным дескриптором (я+1)-ого уровня.

Алгоритмы анализа структур молекулярных графов. Для формирования маркеров атомов должен быть проведен предварительный "синтаксический" анализ М-графа. Необходимо выделить такие его структурные особенности как: кольца, кольцевые системы, мостики, ациклы, функциональные группы, а также определить такие характеристики атомов и ребер как: цикличность, ароматичность, вычислить дистанции и эксцентриситеты вершин. Необходимо также реализовать алгоритмы изоморфного сравнения М-графов и поиска изоморфного вхождения подграфов. Разработаны и запрограммированы следующие алгоритмы:

1. волновой алгоритм разметки вершин графа,

2. вычисление матрицы топологических расстояний графа,

3. вычисление эксцентриситета и дистанции вершин,

4. определение связности графа и выделение связной компоненты,

5. отметка кольцевых ребер и кольцевых атомов,

6. поиск колец и кольцевых систем,

7. определение ароматичности колец,

8. определение изоморфного вхождения подграфа в граф,

Ниже приведено описание двух алгоритмов: волнового алгоритма и алгоритма вычисления матрицы расстояний графа. ';

Для перечисления в М-графе цепочек заданной длины используется "волновой" алгоритм. Пусть все вершины графа в момент Т=0 имеют целочисленную А-метку, равную нулю. Зададим'.(стартовый) s-атом, его А-метка в начальный момент времени (t=1) равна 1. "Волна" распространяется по атомам, имеющим нулевые А-метки: в момент времени Т=2 волна достигает соседей стартового атома и переводит их А-метки в состояние 2, затем (Т=3) - соседей этих соседей и переводит их А-метки в состояние 3 и т.д.

Алгоритм Волна ( G,s, А );

Вход: G - МХ-граф: G = ( V(G), E(G)); s - стартовый атом, se V(G).

Выход: А - список числовых меток атомов.

Локальные данные: F, FN - списки атомов.

{Инициализация} for v-atom: (v from V(G)) do A(v) := 0; F := (J; FN := [ l; t := 1;

{"Поджог" стартового атома:} A(s) := t; F := F + |s]; while (F <> [ ]) do begin for v-atom: (v from F) do for u-atom: ((u,v) from E(G))do if A(u) = 0 then begin A(u) := t+1; FN := FN + [uj end; t:=t+l; F:= FN; FN:=H

end; {Конец Алгоритма Волна};

Утверждение 2.1. Пусть s - стартовый атом и проведена волновая разметка графа. Тогда значение (A(j)-1) равно элементу d(s,j) матрицы (топологических) расстояний графа.

Это утверждение позволяет записать алгоритм вычисления матрицы расстояний D. Необходимо n-кратно применить волновой алгоритм к каждому атому графа.

Алгоритм Матрицарасстояний ( G, D ), Вход: G - МХ-граф: G = (V(G), E(G)); Выход: D - n*n матрица расстоянии. Локальные данные: А - список числовых меток атомов, for i:=l to n do begin Волна(С, vs, A);

for j:=l to n do d{i,j] := A|j] -1;

end;

Описанный в параграфе минимальный алгоритмический набор для работы с М-графами служит основой для реализации алгоритмов вычислений разнообразных маркеров атомов.

В третьей главе рассматриваются эволюционные алгоритмы для построения QSAR-уравнений.

Результатом построения структурного спектра обучающей СБД является (Ы.М)-матрица "молекула-фрагмент" X (где N - количество структур, М - число структурных дескрипторов). Возникает проблема "информационного взрыва". Так, число различных 6-фрагментов может превышать тысячу. В этом случае, коэффициенты bj в формуле (2.2) не могут быть непосредственно рассчитаны стандартными статистическими методами. Построение QSAR-уравнений проводится с помощью эволюционного алгоритма - метода группового учета аргументов (МГУА), примененного к регрессионным линейным моделям. Использование МГУА позволяет не только отбирать значимые переменные в ходе построения QSAR-уравне-ний, но также дает во можность выполнять функциональные преобразования дескрипторов в ходе расчетов.

Метод Гоуппового Учета Аргументов. Пусть необходимо провести QSAR-моделирование свойства С и построить функцию от к переменных:

F(X„X2.....ХК) = Ьо + + Ь2*Х2 +...+ Ьк*Х„;

Е = (С - F(X1lX2,...,Xk)); fi: (Е,Е) min. где переменные Х1,Х2|...)Хк следует отбирать из большого набора дескрипторов Xi,X2,...,XM (т.е. среди столбцов QSAR матрицы "молекула-фрагмент"; М» к), на основе критерия £2. Будем строить модель F шаг за шагом (которые назовем селскциями).

Первая селекция. Строятся регрессионные уравнения с двумя переменными: Р[1] = F(X,, Щ = b0 + b,*Xj + b2*Xj; 1 < i < j < М. где Х( и Xj- столбцы QSAR-матрицы. Общее число таких уравнений равно Z1=M*(M-1)/2. Согласно оптимизационному критерию О, отбираются налуч-шие Qi уравнений {Р[1]} , которые будут принимать участие во второ! селекции (Q1«Z1). Результатом первой селекции являются:

1. набор вектор-столбцов {P[1]q, q=1,...,Q1} и

2. список записей параметров для каждого q-oro столбца: (q: i, j, b0l b1t b2).

Вторая селекция. Переменные X| добавляются к уравнениям, отобранным на первом шаге, с использованием функции от двух переменных:

Р[2] = F(Xj, P[1]q ) = b0 + b^Xi + b2*P[1], ; i = 1.....M; q = 1.....Qi

где X| - i-ый столбец QSAR-матрицы и P[1]q - q-ый столбец, отобранный на первой селекции. Общее число построенных уравнений равно Z2=M*Qi. Согласно критерию Q, отбираются .лучшие Q2 уравнения {Р[2]> (Q2«Z2). Результ второй селекции

1. набор вектор-столбцов {Р[2]р, p=1,...,Q2) и

2. список записей параметров для каждого р-ого столбца: (р: i, q, b0, b1t b2).

(к+1)-ая селекция. Строятся уравнения:

Р1к+1]=Р(Х|1Р1к]ч)=Ь0+Ь1*Х1+Ь2*Р[к]ч; ¡=1.....М; Ч=1.....Ок.

где X; - ¡-ый столбец ОЭАЯ-матрицы и Р[к], - я-ый столбец из столбцов, отобранных на к-ой селекции. Общее число построенных уравнений равно гк1=М*0|(. Согласно критерию О, система отбирает налучшие 0*1 уравнения {Р[к+1]>.

Если "открыть скобки" в уравнениях, полученных-;йа к-ой селекции, и подставить в них исходные переменные Х|, то получим семейство целевых уравнений: Р(Х„Х2.....Хк)ч=(Ь0+Ь1*Х1+Ь2*Х2+...+Ьк*Хк)ч; 1.....Ок.

В ходе построения ОБАЯ-уравнений проводится следующая модификации МГУА алгоритма. На первой селекции могут быть сформированы и отобраны новые признаки: 2'.¡= фС|). Система оптимизирует линейную функцию Р одной переменной. Реализованный в системе набор функций одного переменного f2,.■., позволяет вычислять следующие новые дескрипторы { 2'.р: р=1,..., т}:

X,: С = (Ь0 + Ь,*Х,) + Е, = Р[П, * Е,; / = 1,...,М

= С = (Ь0 + Ь1*г1) + Е11 = Р[1Ь + Еи;

= С = (Ь0 + Ь/г2) + Е2) = Р[1Ь + Еч; ] = 1,...,М

= ЫХ,): С = (Ь0 + Ь^) + Ет] = р[1]т +■ Ет); / = 1,...,М

где С - векгор-столбец заданного свойства. Каждый столбец Р[Ц, Р[1Ь, —. Р[Цт независимо участвует в формировании списка налучших 61 уравнений на основе критерия селекции £2. Используется дополнительный критерий селекции: взаимная корреляция между любыми двумя отбираемыми столбцами не должна превышать порог Тг, заданный экспертом (например, Тг= 0.93-0.97 ). Вторая, третья, четвертая и последующие селекции проводятся аналогично, как было описано выше.

Поиск сложных фрагментов, адекватных свойству.

Определение. Введем разбиение структурного спектра на подмножества фрагментов: {р,,/^,...^} = р,®р2®..<&рч. Каждое такое подмножество

фрагментов р/ назовем обобщенным фрагментом. Обобщенный фрагмент Р1 задается множеством фрагментов его составляющих:

к

Утверждение 3.1. Пусть задан обобщенный фрагмент р = У/; .

. -

Тогда вектор-столбец Х[р], соответствующий числу повторений обобщенного фрагмента р в обучающей выборке, равен сумме соответствующих

_ к _ * _

столбцов матрицы X: = £ х) = £ хц,]

м

Утверждение 3.2. Выберем в QSAR-матрице X набор столбцов с номерами

_ к _ _ (iiJz—Jk) и суммируем их: X, = х^. Тогда вектор-столбец Xt будет

указывать число повторений "обобщенного" фрагмента р в обучающей

t

выборке, где обобщение задается формулой /» = U/A.

I-1

Утверждение 3.2,позволяет построить МГУА-схему автоматического поиска обобщений фрагментов, адаптированных для заданного свойства Y М-графов.

1-я селекция построения "обобщения фрагментов". По матрице X построим М*(М-1)/2 функций:

5? = FIXА. Хк) + г = Ь„ + Ь, - (XА + Xh) + е , Ф = (е,е) = X е,1 -» min,

1=1

которые упорядочим по возрастанию критерия £1. Отберем лучшие Q, уравнений с учетом критерия максимальной попарной коррелированности векторов с порогом Rrfl). На основе отобранных уравнений сформируем новые столбцы признаки: S,(l) = Хл (i) + xh (/), 1=1,... ,Q,

где Xh (l) и Xh (/) - вектор-столбцы, вошедшие в /-ое отобранное уравнение.

(к+1)-я селекция "обобщения фрагментов".

Пусть на к-й селекции получено О* столбцов-признаков:

{S(k)t},l=1,...,Qk; Corr(S(k)i,S(k)q) < RT(k), 1< I<<J<Q/,-

Построим (QSM) уравнений:

у = F(Xj,S(k),)5(fc),) +1, Ф = (£,£)min

Упорядочим уравнения по возрастанию критерия £1 и отберем Q*+i первых уравнений с учетом критерия максимальной попарной коррелированности с порогом Ry{k+1). На основе отобранных уравнений сформируем столбцы-признаки:

J(fc + l), = Xh(l)+S<ik)gi, 1=1,...,QW, где Хл(1) и S(k)b - вектор-столбцы, вошедшие в 1-е отобранное уравнение. Критерием остановки является проведение заданного числа селекций К. "Раскроем скобки" для столбцов-признаков {S(k)i}, 1=1,...,Qk, полученных на к-ой селекции. Для фиксированного I имеем:

X'(l) = S(k), = Xh{l) + S(k- l)?i =... (3.1)

= Xji+Xh +S(k-2)tj =...= Xh + Xh+...+Xht, l=1,...,Qk

Согласно утверждению 3.2, сумма (3.1) соответствует обобщенному фраг-

*+i

менту p = Согласно МГУА-построению "обобщенный фрагмент" р

?=1

наиболее адекватен (для заданного исходного списка фрагментов) аппроксимации вектора-свойства Y. Для каждого / (1=1,...,Qk) будет получено отдельное "обобщение" р/, котор будут соответствовать вектора-столбцы: Г(1),Г(2),...,х'(/),...Г(&) (3.2)

Присоединим столбцы (3.2) к столбцам исходной матрицы X и для этой объединенной матрицы X (Nx(M+Q/J) найдем решение QSAR-задачи МГУА-методом.

Определение. Одновременное присутствие в структурном спектре М-графа G двух неэквивалентных фрагментов f( и f2 назовем 2-составным фрагментом F[2] = /, ® /2. Одновременное присутствие в структурном спектре М-графа к неэквивалентных фрагментов f1tfi,...,fk назовем к-составным фрагментом F[k] = /, ®/2®...®/t.

Утверждение 3.3. Пусть задан k-составной фрагмент f=F[k] = f, ®/2®...®/4. Тогда вектор-столбец X[f], соответствующий числу повторений составного фрагмента f в обучающей выборке равен поэлементному произведению соответствующих столбцов матрицы X:

(x[fl)l=(xi®x2e..jsxt)l =П(хД ■i=1.....N

м

где (a)l обозначает ¡-ую компоненту вектора а.

Утверждение 3.4. Выберем в QSAR-матрице X набор столбцов с номерами thJzi—Jk) и поэлементно перемножим их: х, = Xh ® xh®...®xJr. Тогда вектор-столбец X, будет указывать число повторений к-составного фрагмента f в обучающей выборке, где f= F[k] = fk®fh®...®f]t. Утверждение 3.4 позволяют построить схему автоматического поиска составных фрагментов, адаптированных для некоторого свойства С.

Описанный метод поиска описаний М-графов позволяет автоматически генерировать наборы дескрипторов для различных химических классов веществ. За счет экспертного выбора правил маркирования атомов и поиска соответствующих структурных дескрипторов М-графов МГУА алгоритм дает вазможность создавать наборы дескрипторов адекватно описывающих исследуемое свойство. Представление результатов поиска в виде канонически закодированных фрагментов и наборов правил для генерации их кодов позволяет хранить результаты поиска в виде QSAR-базы знаний

Генерация М-графов с использованием эволюционных алгоритмов.

Построение QSAR-моделей предполагает их использование для нахождения структур, которые можно назвать "активными в рамках построенной модели прогноза". QSAR-модель, получив на вход такую структуру, выдаст высокое значение ее активности. Решение "обратной QSAR-задачи" может быть сведено к скринингу (просеиванию через математическую модель) химических соединений из заданных классов. Сложность задачи генерации состоит в том, что соединения, поступающие на скрининг, должны удовлетворять двум противоречивым условиям. С одной стороны, ограниченные вычислительные ресурсы заставляют сужать множество структур, подаваемых на вход QSAR-модели. В то же время, желательно получать соединения не только уже известных классов, но и принципиально новые.

Предложен алгоритм генерации молекулярных графов, образующих цепочку минимальной длины в метрическом пространстве помеченных графов между стартовым и целевым М-графами. Выберем из обучающей СБД два М-графа и вт, обладающих заданными значениями исследуемого свойства. Будем строить последовательность графов вь такую, что

а, = с5,<1(а7,с„)=о; <см,ст)<<о11ст), ¡=Т^; (з.з)

где с1(С1,С2) - расстояние между фафами в^вг в выбранной метрике. Последовательность {в,} можно получить с использованием эволюционного алгоритма. Введем на М-графах следующие элементарные операции: добавить/убрать атом/ребро, переименовать атом, изменить кратность связи, переставить местами заместители. Пусть на 1-ом шаге сформировано К графов-претендентов {Б^}. Обработку каждого к-го графа (к = 1,К) назовем ветвью. Применим к графу одну из возможных элементарных операций. Получим граф-претендент 6'м следующего шага. При выполнении условия (3.3) добавим его в список 1-Ск(|') претендентов к-й ветви. Формирование списка 1_Ск будем проводить до исчерпания возможности применения элементарных операций к различным структурным элементам

(атомам и ребрам) графа После обработки всех ветвей сформируем

*

общий список претендентов: Г.С([) = ЦШ'Й

к=I

Из 1X3(0 отберем К "лучших" (в смысле близости к Св) графов Э^Д каждый из которых породит "ветвь" (¡+1) шага (селекции). Для построения графов (¡+2)-ой селекции повторим эту процедуру для каждого графа С1+1. Условие (3.3) гарантирует "сходимость" последовательности к вв. Таким образом, задача генерации М-графов сводится к построению метрик (в рамках данной ОБАЯ-модели), адекватных исследуемому свойству. Описаны элементарные преобразования графов, с помощью которых формируются графы-потомки (к-И)-ой селекции путем преобразования графов-родителей к-ой селекции. Графовая метрика определяется на структурном спектре графов обучающей СБД и имеет классический вид (евклидова, прямоугольная и др.). Для тонкого различения фрагментов используется символьное маркирование атомов в графах, которое влияет на определение эквивалентност фрагментов.

Выбор метрик М-графов с помощью генетического алгоритма.

Описан метод селекции метрик М-графов на основе генетического алгоритма. Метрики вводятся на признаках в пространстве большой размерности, где признаком является число вхождений в данный молекулярный граф фрагментов заданной сложности. Сформируем матрицу "молекула-признак" Х=(Х„.), /=1.....N1; у=1.....М; где Хгчисло повторений/-го

фрагмента в /-ой молекуле, Ы-число молекул, М-число дескрипторов (фрагментов). Будем использ; евклидову метрику

М 2

^(ОьОг) = (л™ -х®) и станем проводить перебор различных

м

вариантов метрики с помощью генетического алгоритма. Для каждого варианта метрики проводится кластеризация молекул СБД (например, с помощью алгоритма к-средних). Качество полученного разбиения молекул обучающей СБД (кластерная структура) оценивается с точки зрения ее адекватности классификации молекул по данному свойству. На каждой селекции отбираются лучшие метрики, которые будут участвовать в генерации новых вариантов.

"Ген", определяющий текущую метрику, представляет собой вектор ууеЯ*', где и^- весовой коэффициент /-го дескриптора в метрике. На начальном этапе формируется случайное семейство метрик, состоящее из О генов. Для каждого гена-родителя формируются новые метрики (потомки). Из полученных потомков отбираются 6 "лучших" (согласно критерию ,отбора).

Формированы потомков. (1) "Мутация"; проводится изменение параметров родителя в одном компоненте (в нашем случае - это изменение одного из весовых коэффициентов): иг 1 (к+1)= и/\ (к) + Л \л/ , где к - номер

текущего шага. Частота мутаций и их величина являются параметрами алгоритма.

(2) "Кроссовер": для двух данных генов-родителей формируются два гена-потомка, содержащие часть гена одного родителя, а часть - другого. Сформируем случайный двоичный вектор Ь=(Ь,,—,ЬИ); Ь1 е{0,1}; ]=1,...,М. Если то тогда первый потомок получает у'-ую компоненту первого

родителя; если Ь, =0, то - /-ую компоненту второго родителя,.

Критерий отбора. Информационная мера Шеннона. Пусть заданное свойство разбивает все множество молекул на "активные" и "неактивные", и в текущей метрике проведена кластеризация объектов. Пусть построено к

к

кластеров, каждый из которых состоит из д,- графов (¡=1...к), где X £ = ^ -

г 1-1 '

Пусть в /-ом кластере имеется а/ "активных" и Ь, "неактивных" молекул, a¡ + Ь/ - <7/ .Тогда качество /-го кластера определим функцией: Ф, = -р-, *1од(р1) -9/ *1од(я/), где р,- = а( /д,; д¡=Ь/д,. Критерий качества всего кластерного

к

разбиения СБД определим как Ф(к)=^щ*Ф,, где IV, - весовой

1=1

коэффициент: IV, = д, /Л/. Именно эту функцию Ф(к) и выберем в качестве критерия отбора ген. веского алгоритма, ценивающая функция Ф(к) достигает максимального_значения, равного единице, в том и только в том случае, когда в каждом кластере присутствует ровно половина объектов первой группы и половина - второй (р; = д/ = 0.5). Минимальное значение функции Ф(к), равное нулю, достигается, если в каждом кластере находятся объекты одного класса (успешная кластеризация СБД). Эту функцию будем минимизировать, подбирая весовые коэффициенты и^ в ходе генетического алгоритма.

В четвертой главе рассматриваются принципы построение систем, структуры данных и программные объекты, реализующие описанные выше алгоритмы. Описаны две программные ОЗАЯ-системы В1ВЮОЫ и СЬетАсМ. В основу построения систем были положены три принципа:

(1) Система строиться на базе небольших программных модулей, которые могут выполняться как независимые программы, обмениваясь данными через внешние файлы.

(2) В системе вводятся стандарты на основные типы файлов:- коммуникационные форматы;

(3) Программные модули строятся на основе объектов.

Рассмотрены общие принципы организации программной системы,

предназначенной для проведения полного цикла работ по прогнозированию свойств химических соединений и поиску новых соединений с заданными свойствами. При построении таких систем явно выделяются два этапа их использования: "экспертный" и"пользовательский" этапы.

На экспертном этапе пользователь управляет выполнением следующих шагов: (1) формирование обучающей выборки; (2) задание способов векторизации структур (описание М-графов набором дескрипторов); (3) построение функции оценки свойства; (4) проверка найденной функции на прогностичность; (5) объединение ОБАЯ-уравнений, формирование ОЭАЯ базы знаний.

Кольца, атомы, ребра

Молекулярная структура в]

Структурная (обучающая) база данных (СБД) ТС=(С;,С;)

Рисунок 1. Основные структуры данных системы прогнозирования свойств химических соединений. _

Пользовательский этап работы системы состоит в применении ОЗАИ-моделей для предсказания свойств новых структур и поиска соединений с заданными свойствами на основе решения обратной ОБАЯ-задачи. Система, реализующая полный цикл ОБАИ-моделирования - это

программный комплекс, объединяющий в себе экспертный и пользовательский этапы.

Основные типы данных, используемые при конструировании ОЭАЯ-системы, представлены на рисунке 1. К ним относятся: "молекулярная структура", "обучающая выборка (база данных)", "матрица информативных признаков", "ОБАЯ-уравнение", "ОЗАР^-модель".

С этими данными работают следующие основные программные модули: графический редактор структур; /редактор обучающей СБД; дескрипторные модули; модуль, объединяющий признаки в ОБАЯ-матрицу; модуль первичного отбора информативных признаков; модуль МГУА-построения ОБАЯ-уравнений; модуль проведения "скользящего контроля"; сервисные модули, включая интерфейсный модуль. Рассмотрено представление М-графа в виде объекта, надстроенного над объектами стандартной библиотеки объектов языка 1игЬо-РА5СА1..

Описана организация программной системы В1ВКЗОМ, ориентированной на выполнение "экспертного" этапа ОБАЯ-моделирования. Под управлением эксперта система В1ВЮОМ:

• проводит описание М-графа в виде индуктивного структурного спектра (на основе цепочек маркированных атомов);

• вычисляет - топологические индексы для их использования в качестве "дополнительных" дескрипторов;

• строит (ЗБАЯ-модели методом группового учета аргументов в автомаическом режиме;

• проводит анализ качества полученных ОБАЯ-моделей методом "скользящего контроля";

• строит в диалоговом режиме ОЗАР*-уравнения методом регрессионного анализа (множественная линейная регрессия и пошаговая регрессия).

Рисунок. 2. Пример графического представления в системе В1ВЮОЫ

построенного ОЗАК-уравнения.

В системе реализован оригинальный графический интерфейс, позволяющий легко анализировать построенные ОБАЯ-уравнения (см. рис.2). В состав системы входит 23 модуля общим объемом более 1 МЬ. Система В1ВЮОЫ эксплуатируется в течение последних четырех лет в Институте Органической Химии РАН и в других организациях РАН и РАМН.

Система СЬетАсМ представляет собой развитие системы В1ВЮОЫ. Основной акцент в ней сделан на организацию пользовательского этапа. Для решения-"обратной ОБАЯ-задачи" в систему' включен графический редактор-генератор М-графов (рис.3). В экспертную часть системы включен редактор обучающей выборки, позволяющий в графическом виДе вводить М-графы вместе со значениями их свойства. В системах СИетас1с1 и В1ВЮОЫ реализованы (как базовые) следующие маркеры атомов: р-маркер учета числа соседних атомов (значения: 0,1,2,3,4,5,6), Ь-маркер учета химических связей атома (V - все связи одинарные, "сГ - есть двойная, "V/" -две двойных, "я" - три двойных, Т - тройная, "а" - ароматическая) и г-маркер учета кольцевого положения атома ("с" - ациклический атом, "т" -ациклический, но есть сосед в кольце, "п" - ациклический, но есть сосед в ароматике, "в" - "циклический с заместителем", "г" - циклический, "а" - в ароматическом кольце). Символьный маркер атома определялся как "ЫЫрЬг" (5 символов) или <Имя атома><р-маркер><Ь-маркер><г-маркер> где NN (2 символа) - имя атома; Если маркер не используется ("выключен"), то вместо него ставится символ "*".

Реализованный в СЬетАсМ метод генерации М-графов, основан на использовании фрагмента-"ядра" и комбинаторного перебора фрагментов-заместителей. Пользователь "рисует граф-основу" и указывает, в какие ее

Рисунок 3. Пример задания в редакторе-генераторе фрагмента-'ядра" для генерации М-графов, и результат коллективного прогноза по ОЗАК-модели для отдельного соединения.______

положения должны быть присоединены фрагменты-заместители. Задается список этих заместителей для каждого из указанных положений. Программа генерирует все сочетания заместителей из заданных списков, присоединяя их к основе." В списках заместителей могут рекурсивно присутствовать генерируемые группы Во время работы генератор автоматически отслеживает появление изоморфных М-графов, на основе создания временной СБД, хранящей уже сгенерированные М-графы.

Результат работы генератора является список М-графов, который подается на вход "прогнозных фильтров". Каждый прогнозный фильтр

включает в себя МГУА-семейство ОБА^моделей и допустимый диапазон оценки свойства. Сгенерированная химическая структура проходит через фильтр на дальнейшую обработку только в том случае, если предсказанное значение ее свойства лежит в заданном диапазоне.

Организация базы знаний (БЗ), надстраиваемой над СБД. Для практического применения построенных ОБАК-моделей при решении обратной задачи требуется обеспр^мть их сохранение в некотором стандартном виде. Описано представление С^ХЯ-моделей в виде базы знаний. Особенности базы знаний состоят в следующем:

1. Запросом к системе является М-граф (структурная формула молекулы).

2. Ответом системы является оценка свойства молекулы или отказ.

3. Базой фактов являются библиотеки фрагментов с весовыми коэффициентами для оценки свойства.

4. Правила в базе знаний представлены (для каждой библиотеки фрагментов) условиями для маркирования структурных примитивов в М-графе-запросе и условиями для кодирования фрагментов и их сравнения с фрагментами библиотек БЗ.

5. Механизм вывода состоит в последовательном применении условий, хранящихся в БЗ, к М-графу - запросу.

База знаний системы прогнозирования содержит следующую информацию по каиздой ОЭА^модели: список ОБАЯ-уравнений для оценки свойства, библиотека структурных фрагментов, таблицы для вычисления окончательной оценки, правила вычисления ошибки оценки свойства, правила фильтрации входных М-графов.

фильтр уравнение 1 I I уравнение 2 уравнение п<

правила "голосования"

правила генерации и кодирования атомных цепочек

список фрагментов с весовыми коэффициентами

Рисунок 4. Организация ККСС-базы знаний.

В пятой главе приведены практические результаты прогнозирования физико-химических свойств веществ, которые получены с помощью созданных, программных систем и иллюстрирующие эффективность методики автоматического выбора адекватного описания структур для ОБАГ^-задач. Выбор признакового пространства осуществляется путем многократных вычислительных экспериментов и верификаций ОБАР?-уравнений, построенных на структурных' спектрах разной сложности. Для каждого признакового пространства находились {методом скользящего контроля) и сохранялись прогностически устойчивые ОБАЯ-модели.

Скользящий контроль ("сгозз^аИс^аНоп"): из обучающей СБД размера N удаляется одна структура, строится ОБАЯ-уравнение для выборки из (N-1) соединения, проводится прогноз свойства для исключенной структуры,. Таким образом, для всех соединений обучающей СБД формируется вектор ошибки прогноза свойства, для которого по стандартной формуле вычиотяются параметры: Сг.Я - множественный коэффициент корреляции, Р - значение "критерия Фишера".

Ставилась цель автоматически построить аналоги расчетных схем физико-химически» свойств; веществ с использованием связных к-фрагментов. Исследовались различные варианты "базовой" маркировки атомов и ее влияние на прогностичность получаемых ОБАН моделей. Для каждого свойства описаны сводные результаты вычислительных экспериментов и их сравнение с литературными данными. Ниже приводятся данные по лучшей полученной ОБА1Ч модели для каждого свойства.

Свойства алканов. Оценка свойств алканов выполнена как тестовый расчет. Использовалась обучающая СБД из 74-х соединений. Оценивались: температура кипения, молекулярный объем, молекулярная рефракция, энтропия испарения, критическая температура, критическое давление, поверхностное натяжение и температура плавления. Результаты расчетов объединены в Таблице.

Таблица 1. Параметры ОЗАИ-моделей

(Скользящий Контроль) для

Свойство к Э ?

Темп. кип. 3 0.982 6.29 1291.79

Мол.объем. 4 0.998 0.683 10823

Мол. рефр. 2 0.9998 0.058 271389

Энтр. исп. 5 0.9994 0.176 12562

Крит.темп. 3 0.959 11.74 415

Крит.давл. 4 0.946 1.03 307

Пов.натяж. 6 0.969 0.352 324

Темп.плав. 7 0.574 23.67 1.21

Применялась следующая схема расчетов, направленная на поиск оптимальной для данного свойства маркировки атомов и длины цепочки. Для каждого свойства проводилось четыре группы расчетов:

•с отключенной маркировкой (маркировка обозначена как***), •с включенным р- маркером (обозначение -X**), •с включенными р- и Ь- маркерами (обозначение -XX*), и •со всеми включенными маркерами (обозначение -XXX).

Для каждого типа маркировки проводились расчеты с варьированием максимальной длин атомных цепочек от 1 до 4. Критерием остановки селекции на каждом этапе расчета служило максимальное количество предикторов в модели (оно задавалось как (N/5), где N - число соединений в СБД) и минимальный порог изменения R2 от i-ой селекции к (¡+1)-й (0.005). После завершения процесса селекции проводилась процедура скользящего контроля для всех уравнений последней селекции. По значению R2cv, полученному на скользящем контроле, отбиралась лучшая кодировка -и максимальная длина цепочки. Из"'Нескольких вариантов лучших кодировок и длин, имеющих одинаковый R2, выбирался самый простой вариант (минимальная длина и простейшая кодировка). С использованием лучшей для данного свойства кодировкой и максимальной длиной цепочки проводились расчеты^ подтверждающие, что выбранная модель действительно является лучшей по критерию R2cv (cross-validation). Для этого проводилось построение моделей с числом дескрипторов от 1 до заданного числа. Затем строились приведенные в работе графики зависимости R2 и r2cv от числа К дескрипторов в модели.

Коэффициенты QSAR-уравнений приведены в виде:

4.-0.443 (0.021) F(X)=X Н 1"С 4**С 4**С 4**Н 1" где "4." - номер переменной; "-0.443" - значение весового коэффициента ty; "(0.021)" - отклонение весового коэффициента bj; "F(X)=X" - указывает, какое функциональное преобразование было выполнено над вектором дескриптора (если "F(X)=X" - то преобразование значения дескриптора не проводилось); "Н 1**С 4**С 4**С4**Н 1**" - код цепочки "Н-С-С-С-Н" с р-маркером (b-маркер и г-маркер "выключены" и на их месте - символ "*"). Параметр "_LENk" (k=1,2,...) обозначает общее число цепочек длины к.

• Энтальпия образования веществ разных химических классов. "Скользящий контроль": N=525, К=11, R cv =0.948, F=858.4 Лучшая QSAR-модель (маркировка XXX, длина цепочек <=4):

21.123 21.290 11.624 13.473 -8.591 5.751

(0.206) CONST (0.152) F(X)= X (0.095) F(X)= X (0.079)) F(X)= X (0.106) F(X)= X (0.078) F(X)= X

С Idc C2dc C2ds C3ss

С 3ssC 3ssC 3ss

7. -33.831

8. -36.173

9. -29.022

10. -28.776

11. -26.867

12. 21.015

(0.089) (0.077) (0.068) (0.084) (0.136) (0.132)

Fpq= X F(X)= X F(X)= X F(X)= X F(X)= X F(X)= X

O 1dc O 1sc O 2sc О 2ss LHN1 LEN2

• Поляризуемость молекул.

"Скользящий контроль": N=293, К=4, R2cv =0.972,5=1.37, Р=2575.63 Лучшая QSAR-мoдeлb (кодировка XX*, длина цепочек = 1):

1. 0.6696(0.024)

2. -1.7991 (0.008)

3. 3.3434 (0.027)

CONST F(K)= X F(X)= X

F 1s* 11s*

4. -1.7945(0.017)

5. 1.7026 ( 0.002)

F(X)= X F(X)= X

Old* LEN1

• Температура кипения для фуранов/тетрафуранов и тиофенов

"Скользящий контроль": N=343, К=10, R2cv =0.897, 3=18.38, Р=293.12. Лучшая QSAR-мoдeли (кодировка XXX, длина цепочек <=2):

1. 37.631 ( 0.53) CONST

2. 30.649(0.16)

3. 3.720(0.07)

4. -25.749 ( 0.43)

5. -38.970 ( 0.67)

6. 28.147(0.45)

F(X)= X F(X)= X F(X)= X F(X)= X F(X)= X

BR1sc С 2ar

С 3dcO 2sc С 3dsC 4ss С 3dsO Idc

7. 36.499 ( 0.28)

8. 42.346 ( 0.69)

9. -32.057 ( 0.25)

10. 22.111(0.11) 11. -5.245(0.07)

F(X)= X F(X)= X F(X)= X F(X)= X F(X)= X

01dc О 1sc 0 2ss _LEM2 LEN3

• Липофильность замещенных бензолов. "Скользящий контроль": N=172, К=9, ^„=0.926, 5=0.334, Р=229.56 Лучшая <аЗАК-модель (кодировка XX*, длина цепочек <=2):

1. -0.9201 (0.046) СО^Т

2. 0.9775 {0.007) Р(Х)= X С1б*

3. 0.8552 (0.016) Р(Х)= X С 1в*С 2э*

4. -0.7339 (0.017) Р(х)»' х с 1з*с за*

5. 0.5039 (0.009) Р(Х)= X С 2а*

6. -0.5416 (0.011) Р(Х)= X сгэ*

7. 1.1488 (0.018) Р(Х)= X С28*С2в*

8. 1.1931 ( 0.008) Р(Х)= X СИз*

9. -0.4362 (0.009) Р(Х)= X (Мб*

10. -0.4913 {0.008) Р(Х)= X.....0 25*

• Температура плавления нитросоединений. "Скользящий контроль": N=225, К=20, =0!б79,8=48.35, Р=21.71 Коэффициенты лучшей ОЭАК-модели (кодировка XXX, длина цепочек <=2):

1. 23.698(1.03) СО^Т

2. -60.612 ( 3.27) Р(Х)= X ВК1вс

3. -32.646 (1.84) Я(Х)= X С15сС2эс

4. -34.756 ( 1.41) Р(Х)= X С 1зсС Зэс

5. -6.746 (0.23) Я(Х)= X С 2зсС 2зс

6. 45.000 ( 0.91) Р(Х)= X О 2зсМ 2эс

7. 43.396 ( 3.22) Р(Х)= X С ЗавЫ 1вс

8. -48.935 ( 1.30) Р(Х)= X С ЗаэЫ Зге

9. 93.016 ( 0.99) Р(Х)= X С Зс)сМ 15С

10. -55.999 (0.78)Р(Х)= X С ЗзсМ Зэс

11. -32.058 (2.13)Р(Х)= X С ЗязМ Заде

12. 70.791 (4.85)Р(Х)= X С 4всС 4эс

13. .16.021 ( 0.26)Р(Х)= X С 4эсЫ Зле

14. -155.591(20.80Р(Х)= X С 4ssN Зwc

15. -61.847 (1.67) Р(Х)= X СИ5С

16. 31.732 (1.42) ЦХ)= X М 2атН 2аг

17. -75.233 ( 5.30) Р(Х)= X N 2с1сЫ 2с1с

18. 14.204 (0.86) Р(Х)= X N Звс

19. 32.293 (0.33) Р(Х)= X N Зле

20. -18.658 (0.21) Р(Х)= X О 2вС

21. 3.849(0.03) И(Х)= X

• Чувствительность к удару нитросоединений. "Скользящий контроль": N=155, К=18, И2Су =0.689, Р=16.9, 3=0.667. Коэффициенты лучшей ОБАК-модели (кодировка X", длина цепочек <= 4):

1. 4.0500 ( 0.033) СОЫЭТ

2. 0.2881 (0.012) Р(Х)= X

3. 0.4239 ( 0.020) Р(Х)= X

4. 0.6244 { 0.023) Р(Х)= X

5. 0.9032 ( 0.146) Я(Х)= X

6. 0.3313 ( 0.022) Р(Х)= X

7. 0.2905 ( 0.007) Р(Х)= X

8. -0.4638 (0.030) Р(Х)= X Э. 0.2312 (0.023) Р(Х)= X

С 1"

С 1~С 3-С 3«*С 2" С 1**С 4"С 2**0 2" С 1**М 3**0 1" С 1"0 2**С 3**С 3" С 2"

С 2**С 2"0 2**М 3** С 2"С 3**С 3**01"

11. 0.8630 (0.034) Р(Х)= X С 2**М 2"

12. 0.9130 ( 0.032) Р(Х)= X С 2"М 2"И 3"С 3"

13. -2.0912 (0.148) Р(Х)= X С 2**К1 3"Ы 2**М 2"

14. 0.1415 ( 0.005) Р(Х)= X СЗ"

15. 0.6939 ( 0.017) Р(Х)= X N 1"

16. 1.7171 < 0.278) Р(Х)= X N 2"Ы 2**С 3"0 1"

17. -0.3881 (0.007) Р(Х)= X N 3"

18. 0.2806 (0.014) Р(Х)= X N 3"Ы 3"

19. -0.2222 ( 0.004) Р(Х)= X 01"ЫЗ**0 2**

10. 0.2042 (0.012) Р(Х)= X С 2**С 4"

• Хроматографическая подвижность антрациклиновых антибиотиков

ряда даунорубицина. "Скользящий контроль": N=87, К=16, =0.936, 8=0.058, Р=64.79 Коэффициенты лучшей ОвАЯ-модели (кодировка XXX, длина цепочек <= 3):

1. -0.09515 ( 0.0194) СО^Т

2. 0.10244 ( 0.0032) Р(Х)= X

3. -0.12667 ( 0.0074) Р(Х)= X

4. 0.03460 ( 0.0019) Р(Х)= X

5. -0.15394 ( 0.0033) Р(Х)= X С ПсЫ 35С

6. -0.10090 ( 0.0087) Р(Х)= X С2<1с0 2&с

7. 0.03170 ( 0.0029) Р(Х)= X С2зсС2®с

8. 0.10683(0.0074) Р(Х)= X С 2гсСМ5с

9. 0.02607 ( 0.0009) Р(Х)= X

С15СС Зе)сО 1с1с С 1всС ЗзсС Зс1с С 1!сС 4$сО 2бс

С 25$

10. 0.13975 ( 0.0032) Р(Х)= X

11. 0.07789(0.0015) Р(Х)= X

12. -0.11099 ( 0.0033) Р(Х)= X

13. -0.17616(0.0036) Р(Х)= X

14. 0.39010 ( 0.0058) Р(Х)= X

15. -0.07167 ( 0.0033) Р(Х)= X

16. -0.17347 ( 0.0105) Р(Х)= X

17. -0.06381(0.0020) Р(Х)= X

С 255С 2550 258 С Заз N 1эс

N 2а гС 2эгМ Заз N 2&сС 3£)сЫ 2$с N 2зсС Зс1сО 1(1с N255 015С

Анализ большой СБД по липофильности. Обучающая СБД содержала 3695 химических структур с значениями 1.одР. Экспериментальная ошибка определения 1-одР, как правило, составляет ± 0.1 - ± 0.3 единиц шкалы 1-одР.

Результаты корреляций экспериментальных значений LogP от расчитанных при помощи построенной QSAR-модели приведены ниже.

1) При использовании всех соединений СБД получен результат:

LogPexp = 0.0751 (± 0.0090) + 0.9482 (± 0.0035) LogPcaic N=3695, R=0.9759, S=0.3658

2) При исключении из расчетов "выпадающих точек" получен результат:

LogPeXp = °-0290 0.0052) + 0.9888 (± 0.0021) LogPca/c N=3601, R=0.9922, S=0.2088, где N - количество точек, R - коэффициент корреляции, S - стандартное отклонение. QSAR-модель дает для 90% соединений из СБД отклонение предсказанного значения от экспериментального не более 0.1, что практически является ошибкой эксперимента измерения LogP. Тестирован"? QSAR-модели показало сохранение прогностичных характеристик на уровне

экспериментальной ошибки измерения LogP.

В шестой главе рассмотрено прогнозирование биологических свойств веществ. Для предсказания биологических свойств важную роль играет учет пространственного строения молекул. Подготовка обучающих СБД к поиску QSAR-зависимостей состояла в расчете геометрии молекул с помощью программ молекулярной механики с использованием силового поля NIM2 с учетом внутримолекулярных водородных связей.

Был проведен поиск QSAR-зависимостей на дескрипторах вида ( 2.5), когда примитивами являлись 1-фрагменты (атомы) и 2-фрагменты (пара "атом-атом"). Таким образом, сформировалось 6 видов дескрипторов: три "топологических" вида: ААТ, ABT, ВВТ; три "геометрических" вида: AAG, ABG, BBG; Символы G и Т указывают на тип использованного расстояния между примитивами описания (геометрического или топологического), а символы А и В - на использование в качестве базовых фрагментов атомов и связей соответственно. QSAR расчеты проводились по каждому типу дескрипторов отдельно.

Антикокцидная активность. Обучающая выборка содержала 54 соединения - производные 1,2,4-триазина, подавляющих развитие кокцидий Eimeria Tanella у домашней птицы. Коррелируемым параметром являлся логарифм минимальк, эффективн ~ концентрации (In Е эф).

Таблица 2. Результаты построения QSAR зависимостей (К=10) для антикокцидной активности. Приведены модели с лучшим значением R^cv.

Тип дескрипторов R2 4 ( !

AAG 0.890 0.857

ABG 0.895 0.856

BBG 0.892 0.844

ААТ 0.899 0.843

АВТ 0.872 0.784

ВВТ 0.897 0.831

Полученные результаты сопоставимы с известными литературными данными и свидетельствуют, что данное биологическое свойство хорошо

описывается на топологическом уровне: переход к геометрическим дескрипторам не привел к существенному улучшению качества модели.

Анти-ВИЧ активность. Обучающая СБД содержала 45 структур, 19 из которых проявляют анти-ВИЧ активность.

Таблица 3. Результаты для прогнозирования анти-ВИЧ активности на геометрических дескрипторах.__■____

К-число дескрипторов Дескрипторы типа AAG Дескрипторы типа ABG Дескрипторы типа BBG

& R2cv R2 R2cv R2 R2cv

1 0.41 0.34 0.62 0.58 0.51 0.40

2 0.56 0.35 0.71 0.63 0.77 0.72

3 0.63 0.45 0.76 0.69 0.82 0.79

4 0.70 0.48 0.79 0.71 0.82 0.79

5 0.74 0.57 0.81 0.75 0.86 0.77

б 0.77 0.61« 0.82 0.75 0.87 0.82

7 0.80 0.64 0.84 0.76 0.88 0.82*

а 0.82 0.63 0.86 0.80* 0.89 0.76

9 0.84 0.66 0.87 0.80 0.90 0.80

Таблица 4. Результаты для прогнозирования анти-ВИЧ активности на топологических дескрипторах.___

К - ЧИСЛО дескрипторов Дескрипторы типа ААТ Дескрипторы типа АВТ Дескрипторы типа ВВТ

R* Cr.R2 R2 Cr.R2 Я2 Cr.R2

1 0.54 0.44 0.56 0.51 0.56 0.51

2 0.66 0.45 0.64 0.50 0.78 0.76

3 0.70 0.47 0.68 0.59 0.83 0.81

4 0.73 0.52 0.71 0.51 0.85 0.83*

5 0.76 0.52 0.74 0.57 0.87 0.82

6 0.78 0.55* 0.77 0.62* 0.89 0.83

7 0.79 0.51 0.78 0.60 0.89 0.83

8 0.81 0.49 0.80 0.52 0.90 0.83

9 0.82 0.48 0.82 0.36 0.91 0.84

Топологические дескрипторы вида ААТ и АВТ, как и ожидалось, обладают слабой прогностичной способностью. Неожиданным результатом являются высокие прогностические качества модели, содержащей всего 4 топологических дескриптора вида ВВТ.

Мускусный запах. Была использована обучающая СБД, содержащая 110 соединений, из которых 35 обладают ярко выраженным мускусным запахом, а остальные лишены его. Оптимизация геометрии выполнялась в два этапа: начальная оптимизация - методами молекулярной механики с использованием силового поля ММХ\ конечная оптимизация - методами квантовой химии с использованием гамильтониана АМ1.

Для построения дескрипторов были исследованы 6 типов особых точек, с каждым из которых производилась своя серия вычислений:

•центры атомов молекулы с приписанными им именами ( серия вычислений /);

•центры атомов молекулы с приписанными им величинами зарядов без имен элементов. Использовались заряды атомных остовов и формальные заряды (т.е. такие условные заряды на атомах, на основании которых электростатическое поле, создаваемое молекулой, может быть аппроксимировано наилучшим образом) (серии вычислений II,IV);

•центры атомов с приписанными им именами и величинами зарядов (заряды атомных остовов и формальные заряды ( серии вычислений III, V));

•точки на "поверхности электростатического потенциала", в которых молекулярный электростатический потенциал (МЭП) имеет локальные экстремумы; каждой точке приписано значение МЭП (серия вычислений VI).

"Поверхность электростатического потенциала" была определена как покрывающая поверхность с заданными на ней значениями МЭП. (Покрывающая поверхность - это геометрическое место точек, созданных центром шарика-зонда при прокатывании его по поверхности Ван-дер-Ваальса). Путем проведения ряда вычислительных экспериментов было найдено, что оптимальное значение радиуса шарика зонда лежит в пределах 1.4-1.6А. Для формирования покрывающих поверхностей была использована величина радиуса 1.5А.

Диапазоны значений зарядов атомных остовов и формальных зарядов были разделены на интервалы в зависимости от частоты встречаемости этих величин в обучающей выборке. Диапазоны значений расстояний между особыми точками были разделены на интервалы со средним шагом 0.2А. При классификации полагалось, что вещество обладает запахом, если С>0.5, в противном случае полагалось отсутствие запаха.

На основании полученных ОБАЯ-моделей были найдены такие сочетания особых точек, которые присутствуют в структурах веществ, обладающих мускусным запахом, и отсутствуют в структурах, лишенных его. Также была найдена система особых точек, расположенных на поверхности электростатического потенциала, которая не встречается в молекулах, не обладающих запахом, но присутствует в тех структурах, которые им обладают. Эта система представляет собой треугольник со следующими параметрами: а-{-510, -180)Дж/моль, Ь=(-690, -360)Дж/моль, с=(+220, +350)Дж/моль; (аЬ)=(3.85,5.90)А, (аЬ)=(6.2,7.4)А, (ас)=(7.0, 8.0)А.

Рисунок 4(а). Мускусный запах

Зависимость R2 - от числа дескрипторов, входящих в QSAR модель, для серий вычислений I-VI.

Рисунок 4(b). Мускусный запах

Зависимость R2cv от числа дескрипторов, входящих в QSAR модель, для серий вычислений I-VI. Кривые построены с использованием метода скользящего контроля. •

Психотропная активность. Была использована обучающая СБД, содержащая 47 соединений, из которых 9 обладают ярко выраженной активностью, 26 соединений неактивны, а оставшиеся 12 соединений обладают промежуточной активностью. Соединения были разделены на три класса: класс "1" - высокая активность, класс "О" - низкая активность, класс "2" - средняя активность. Методика вычислений была аналогична той, что использовалась для анализа мускусного запаха.

Чие«« дескрипторов в модели

Число дескрипторов • модели

Рисунок 5(а). Психотропная активность

Зависимость R2 - от числа дескрипторов, входящих в QSAR модель, для серий вычислений I-VI.

Рисунок 5(Ь). Психотропная активность Зависимость RzCv- от числа дескрипторов, входящих в QSAR модель, для

серий вычислений I-VI. Кривые построены с использованием метода скользящего контроля.

Была найдена система особых точек, расположенных на поверхности электростатического потенциала, которая не встречается в неактивных молекулах, но присутствует в активных структурах. Эта система представляет собой треугольник с параметрами: а,Ь=(+215, +405)Дж/моль, с=(-545, -435)Дж/моль; {аЬ)=(9.3,10.1)А, (ас),(Ьс)=(8.3, 8.9)А.

Полученные СЗБАЯ-модели VI серии вычислений были использованы для прогнозирования психотропной активности экспериментально не исследованных соединений. Была использована выборка, состоящая из 21 соединения. Результаты прогноза были сопоставлены с данными экспериментальных измерений активности. Для всех 4-х экспериментально исследованных соединений результаты прогноза полностью совпали с данными эксперимента.

Заключение содержит основные выводы работы, в нем сформулированы возможные пути развития метода построения ОБА^ уравнений на основе структурных спектров и МГУА. В приложении 1 приведены полные таблицы "свойство-расчет - отклонение" для описанных в 5-ой главе ОБАР*-моделей. В приложении 2 описан пользовательский интерфейс системы В1ВЮСЖ

Выводы.

1. Впервые разработана и успешно применена на практике методология поиска адекватных описаний структурных объектов для представления в ЭВМ молекулярных структур при решении (ЗБАВ задачи.

2. Предложена и реализована методика поиска и символьного представления знаний о ОБАЯ-зависимостях.

3. Сформулированы принципы функциональной организации ОБАЯ систем для проведения полного цикла работ по прогнозированию свойств органических веществ на основе автоматического порождения и селекции структурных спектров молекул.

4. Разработаны библиотеки объектов для создания ОБАЯ систем, в которых реализованы алгоритмы анализа и символьной разметки молекулярных графов, алгоритмы автоматической генерации структурных спектров различной сложности, алгоритмы отбора значимых дескрипторов, алгоритмы формирования ОБАЯ-моделей на основе МГУА, алгоритмы проверки прогностичности ОБА^моделей, алгоритмы оценки свойств на основе интерпретации (ЗБАЯ-моделей и ряд других.

5. На основе созданных библиотек объектов разработаны две программных ОБАР системы: В!ВЮОЫ и СИетАсН которые позволяют автоматически строить ОБАК-модели и проводить поиск новых структур, обладающих заданными свойствами путем комьютерной генерации и скрининга молекулярных графов.

6. В результате вычислительных экспериментов найдены признаковые пространства, в которых адекватно описываются молекулы, обладающие заданным свойством. На этой основе построены прогностичные ОБАВ-зависимости для ряда физико-химических и биологических свойств веществ разных химических классов. Показано, что для биологической активности хорошие модели могут быть получены на топологическом уровне, что позволяет существенно упростить решение обратной ОБАЯ-задачи.

Основные результаты диссертации опубликованы в работах:

I. Кумсков М.И., Ломова O.A. Домашева Д.В. Лизунов А.К. Алгоритм преобразования таблицы связности атомов в линейную нотацию Висвессера в диалоговом режиме / Тезисы докл. 7-ой Всесоюзн. конф. "Использование вычислительных машин в спектроскопии молекул и химических исследованиях", Новосибирск, 1989, с.173т174.

!. Кумсков М.И,, .Лизунов А.К .Волновой алгоритм нахождения кольцевых структур молекулы по таблице связности атомов / Тезисы докл. 7-ой Всесоюзн. конф. "Использование вычислительных машин в спеюроскопии молекул и химических исследованиях", Новосибирск, 1989, с.214-215.

$. Зефиров Н.С., Сапегин А.М, Лалюлин В.А., Кумсков М.И., Раевский O.A. "ИСТРА": интерактивная программная система компьютерного дизайна физиологически активных веществ 1 Тезисы докл. 7-ой Всесоюзн. конф. "Использование вычислительных машин в спектроскопии молекул и химических исследованиях", -Новосибирск, 1989, с.228-229.

к Кумсков М.И., Сухачев Д.В., Палюлин В.А., Ломова O.A. Быстрая генерация М-графов на основе базовых структур в коде Висвессера / Тезисы докл. межвуз. конф. "Молекулярн. графы в химических исследованиях", Калинин, 1990, с.54-55.

¡. Кумсков М.И., Федоров А.Ю., Крехнов Б.В. Программа предварительного отбора М-графов для прогнозирования их свойств./ Тезисы докл. межвуз. конф. "Молекулярные графы в химических исследованиях", - Калинин, 1990, с.56-57.

>. Кумсков М.И., Пономарева Л.А., Зефиров Н.С Выбор алфавита структурных дескрипторов органических соединений при поиске зависимостей "структура-активность" I Материалы 4-ой Всесоюзной школы-семинара "Статистический и дискретный анализ данных и экспертные оценки", - Одесса,1991, с.90-92.

'. Митюшев Д.Ф., Кумсков М.И., Зефиров Н.С. Программа нахождения по молекулярному графу дескрипторов "тип химической структуры" в задаче "структура-активность" ! Материалы 4-ой Всесоюзной школы-семинара "Статистический и дискретный анализ данных и экспертные оценки", - Одесса, 1991, с.315-317.

I. Пономарева Л.А., Кумсков М.И., Зефиров Н.С. Формирование моделей ККСА на основе большого числа структурных дескрипторов. (Метод группового учета аргументов) / Тезисы докл. 1-ой Всесоюзной конф. по теоретич. органической химии - ВАТОХ, Волгоград„1991, с.545.

I. Кумсков М.И., Пономарева В.А., Зефиров Н.С. "Окраска" структурных дескрипторов органических соединений при поиске зависимостей "структура-активность" / Тезисы докл. 1-ой Всесоюзной конф. по теоретич. органической химии - ВАТОХ, Волгоград, 1991, с.550.

0. Зефиров М.И., Кумсков М.И., Пономарева Л.А., Митюшев Д.Ф., Смоленский Е.А. Самоорганизация моделей - новое направление поиска зависимостей "структура-свойство" / Материалы 9-ой Всесоюзной конф. "Химическая информатииа",,-Черноголовка, 1992, с.159-160.

1. Пономарева Л.А„ Смоленский Е.А., Кумсков М.И., Митюшев Д.Ф., Зефиров Н.С. Формирование структурных дескрипторов молекулярных графов. / Материалы 9-ой Всесоюзной конф. "Химическая информатика", - Черноголовка, 1992, с.96-97.

2. Пономарева Л.А., Олсуфьева E.H., Преображенская М.Н., Кумсков М.И., Зефиров Н.С. Прогнозирование хроматографической подвижности антрациклиновых антибиотиков / Тезисы докл. 9-ой Всесоюзной конф. "Химическая информатика", - Черноголовка, 1992, с.98.

13. Пономарева Л.А., Олсуфьева E.H., Преображенская М.Н., Кумсков М.И., Зефиров Н.С. Модель расчета хроматографической подвижности антрациклиновых антибиотиков ряда даунорубицина и его полусинтетических аналогов I Хим. Фарм. Ж, 1993, п.8, с.36-40.

14. Кумсков М.И., Пономарева Л.А., Смоленский Е.А., Митюшев Д.Ф. Зефиров Н.С. Метод автоматического формирования структурных дескрипторов органических соединений I Изв. РАН, Серия Химич., 1994, т.8, с.1391-1394.

15. Кумсков М.И., Смоленский E.Ä:, Пономарева Л.А., Митюшев Д.Ф., Зефиров Н.С. Системы структурных дескрипторов для решения задачи "структура-свойство I ДАН, 1994, т.336, п.1, с.64-66.

16. Митюшев Д.Ф., Кумсков М.И. Алгоритмы обработки и анализа молекулярно-химических графов. /Деп. в ВИНИТИ, ИОХ РАН, п. 288-В95 от 01.02.1995.

17. Кумсков М.И., Пономарева Л.А., Захарова М.В. Новый подход к решению задачи QSAR для органических соединений / Журн. Общей Химии, 1995, т.65, вып.2, с.285-286.

18. Митюшев Д.Ф., Кумсков М.И. Организация пользовательского интерфейса в программах поиска зависимостей "структура-свойство" химических соединений / Деп. в ВИНИТИ, ИОХ РАН, Л.289-В95 от 01.02.1995.

19. Кумсков М.И. Перспективы использования программной системы BIBIGON для предсказания физико-химических свойств фторсодержащих органических соединений./Журн. Орг. Химии, 1995, т.31, Вып.10, с.1495-1498.

20. Зырянов И.Л., Кумсков М.И., Свитанько И.В. Задача выбора "точек представления" молекулярного электростатического потенциала при поиске зависимостей "структура-биологическая активность" I Деп. в ВИНИТИ, ИОХ РАН, п. 2626-В-45 от 21.10.1995.

21. Макеев Г.М., Кумсков М.И. Распознавание пространственных форм молекул биологически активных веществ I Тезисы докл. 2-ой Всероссийской конф. "Распознавание образов и анализ изображений. Новые информационные технологии", - Ульяновск, 1995, часть 3, с. 152-154

22. Митюшев Д.Ф., Кумсков М.И., Петраускас A.A. Комплексная программная система для прогнозирования свойств химических соединений на ПЭВМ I Тезисы докл. 2-ой Всероссийской конф. "Распознавание образов и анализ изображений. Новые информационные технологии", - Ульяновск, 1995, часть 4, с. 136-138.

23. Макеев Г.М., Кумсков М.И. Гибкая методика построения дескрипторов трехмерных структур I Ren. в ВИНИТИ, ИОХ РАН, П.287-В95 от 01.02.1995.

24. Кумсков М.И., Митюшев Д.Ф., Петраускас A.A. Формирование баз знаний "структура-свойство" химических веществ на основе анализа структурных спектров молекулярно-химических графов соединений на ПЭВМ / Тезисы докл. 2-ой Всероссийской конф. "Распознавание образов и анализ изображений. Новые информационные технологии", - Ульяновск, 1995, часть 3, с.137-139.

25. Кумсков М.И., Митюшев Д.Ф. Экспертное формирование метрик при распознавании молекулярно-химических графов. Непараметрическое оценивание свойств веществ / Тезисы докл. 2-ой Всероссийской конф. "Распознавание образов и анализ изображений. Новые информационные технологии", - Ульяновск, 1995, часть 3, с. 135-136.

26. Кумсков М.И., Митюшев Д.Ф. Решение обратной задачи распознавания молекулярно-химических графов на основе построения минимальных путей в пространстве помеченных графов I Тезисы докл. 2-ой Всероссийской конф.

"Распознавание образов и анализ изображений. Новые информационные технологии", - Ульяновск, 1995, часть 3, с. 132-134.

7. Кумсков М.И., Митгошев Д.Ф., Пономарева Л.А., Пешкова С.Э. Метод и программная система дня автоматизированной экспресс оценки физико-химических и специальных свойств ВВ. / Материалы 21-ого Международного Семинара по Пиротехнике, М, 1995, с.496-508.

8. Макеев Г.М., Кумсков М.И. Распознавание пространственных форм молекул .1биологически активных веществ с целью-классификации их свойств / Тезисы докл. 7-ой Всероссийской Конф. "Математические методы распознавания образов", - Пущино,.1995, с.122-124.

9. Кумсков М.И., Зырянов И.Л., Макеев Г.М. Учет локальных особенностей пространственных форм молекул с целью классификации их биологических свойств на основе структурных спектров / Тезисы докл. 7-ой Всероссийской Конф. "Математические методы распознавания образов", - Пущино, 1995, с.116-117.

0. Пономарева Л.А., Митюшез Д.Ф., Кумсков М.И., Пешкова С.Э., Макеев Г.М. Программа BIBIGON. Классификация свойств химических веществ на основе поиска обощенных структурных фрагментов молекул. I Тезисы докл. 7-ой Всероссийской Конф. "Математические методы распознавания образов", -Пущино, 1995, с.142-143.

1. Пешкова С.Э., Кумсков М.И., Маслова Л.К. Прогнозирование чувствительности к удару нитросоединений на основе структурных дескрипторов молекул I Тезисы докл. 7-ой Всероссийской Конф. "Математические методы распознавания образов", - Пущино, 1995, с.137-138.

2. Пешкова С.Э., Кумсков М.И., Резчикова К.И. Построение зависимостей "структура-свойство" для энергии активации высокоэнергетичных нитросоединений в конденсированной фазе с помощью структурных дескрипторов / Тезисы докл. 7-й Всероссийской Конф. "Математические методы распознавания образов", - Пущино, 1995, с.138-140.

3. Апрышко Г.Н., Решетникова В.В, Лесная Н.А., Герасимова Г.К., Кумсков М.И., Маслова Л.К, Пономарева Л.А. Прогнозирование цитотоксической активности химических соединений с помощью компьютерной системы BIBIGON / Тезисы докл. 2-ого Национального конгресса "Человек и лекарство", - М„ 1995, с.57-58.

t. Кумсков М.И., Митюшев Д.Ф. Применение метода группового учета аргументов для построения коллективных оценок свойств органических соединений на основе индуктивного перебора их "структурных спектров". / Проблемы управления и информатики, 199S, №4, с.127-149.

э. Кумсков М.И., Пешкова С.Э., Пономарева Л.А., Резчикова К.И. Оценка энергии активации термического распада нитросоединений в газовой фазе на основе структурных дескрипторов / Изв. РАН, Сер. Химич., 1996, №8, с.1-4.

5. Ворона Д., Незнахин А., Кумсков М.И. Классификация молекулярных графов на основе построения информативного признакового пространствa/Proc. Fourth Intern Conf. "Pattern Récognition and Information Processing" (PRIP'97), Minsk, Belarus, 1997, v.2, p.300-304.

î. Чернобаев A.A., Кумсков М.И. Программа-генератор для решения обратной задачи распознавания молекулярных графов / Proc. Fourth International Conf. "Pattern Récognition and Information Processing" (PRIP'97), Minsk, Belarus, 1997,v.2, p.311-315.

38. Юрченко Т.А., Ворона Н.Д., Кумсков М.И. Селекция метрик для классификации свойств химических соединений с помощью эволюционного алгоритма I Ргос. Fourth International Conf. "Pattern Recognition and Information Processing" (PRIP'97), Minsk, Belarus, 1997,v.2, p.321-325.

39. Lomova O.A., Sukhachev D.V., Kumskov M.I., Palyulin V.A., Tratch S.S., Zefirov N.S. The generation of molecular graphs for QSAR studies by the acyclic fragment combining I Comm. in Mathem. Chemistry (MATCH), 1992, n.27, p.153-174.

40. Svitan'ko t.V.,'Kumskov M.I., Zyryanov I.L., Suslov I.A." Я.'method for describing the molecular electrostatic potential in determing structure-activity relationship I Mendeleev Commun.,n.5,1994, p.161-162.

41. Kumskov M.I., Apryshko G.N., Gerasimova G.K., Maslova L.K The prediction of the cytotoxic activity of fluorine containing compounds on personal computer I Abstracts of the 1st Intern. Conf. "Chemistry and Application Fluorine Containing Compounds in the Industry" (CTAF'94), S.Peterburg, 1994, c.116.

42. Kumskov M.I. The use of BIBIGON system for prediction of properties of fluorine containing compounds on microcomputers I Abstracts of the 1st Intern. Conf. "Chemistry and Application Fluorine Containing Compounds in the Industry" (CTAF'94), S.Peterburg, 1994, c.114.

43. Apryshko G.N., Reshetnikova V.V., Gerasimova G.K., Kumskov M.I., Maslova L.K., Zefirov N.S. The prediction of the cytotoxic activity of chemicals with the computerized BIBIGON system / Abstacts of the 5th Intern. Symp. on Molecular Aspects of Chemotherapy. - Gdan'sk, Poland, 1995, p.47.

44. Svitan'ko I.V., Kumskov M.I., Zyryanov I.L. Molecular electrostatic potential method in determination of structure-activity relationship / Abstracts of the 9th European Symp. on organic chemistry. - Warszawa, Poland, 1995, p.256.

45. Kumskov M.I., Mityushev D.F., Oshchepkov E.N., Kolovanov E.A Computer-Aided Extraction and Application of Knowledge about Structure-Property Relationship in Factographical Chemical-Structure Data Bases I Pattern Recognition and Image Analysis, 1995, v.5, n.4, p.589-601.

46. Kumskov M.I., Zyryanov I.L., Svitan'ko I.V. A New Method for Representing Spatial Electronic Structures of Molecules in the Problem of Structure-Biological Activity Relationship / Pattern Recognition and Image Analysis, 1995, v.5, n.3, p.477-484.

47. Kumskov M.I. Information Models of Image Analysis Using "External World" as a Memory to Store the Objects under Study.l Pattern Recognition and Image Analysis, 1996, v.6, n.1, p.199.

48. Svitan'ko I.V., Zyryanov I.L., Kumskov M.I., Khmel'nitskii L.I., Suvorova L.I., Kravchenko A.N., Markova T.B., Lebedev O.V., Orekhova G.A., Belova S.I The surface molecular potential method for calculating the structure-activity relationship for psychotropic compounds I Mendeleev Commun., 1995, n.2, p.49-51

49. Kumskov M.I., Mityushev D.F. Solving the Inverse Problem of Molecular Graph Recognition by Constucting Minimal Paths in a Labeled Graph Space / Pattern Recognition and Image Analysis, 1996, v.6, n.2, p.277-278.

50. Kumskov M.I., Mityushev D.F., Petrauskas A.A. Generation of Structure-Property Chemical Substance Knowledge Bases from Analysis of Structural Spectra of Molecular Graphs / Pattern Recognition and Image Analysis, 1996, v.6, n.2, p.280-281.

51. Kumskov M.I., Mityushev D.F., Petrauskas A.A. A Comprehensive Software System to Predict Properties of Chemical Compounds on a Personal Computer I Pattern Recognition and Image Analysis, 1996, v.6, n.2, p.412-413.

2. Makeev G.M., Kumskov M.I. Recognition of Molecules of Biologically Active Substance / Pattern Recognition and Image Analysis, 1996, v.6, n.2, p.291-292.

3. Kumskov M.I., Mityushev D.F. Expert Generation of Metrics in Recognition of Molecular Graphs: Nonparametric Estimation of Properties of Substances I Pattern Recognition and Image Analysis, 1996, v.6, n.2, p.279.

4. Makeev G.M., Kumskov M.I. The Relationship between the Stnjcturo and Anti-AIDS Activity of Polyhydroxypiperidines and Poly hydroxy pyrrolidines I Mendeleev Commun., 1996, n.1,p.27-29.

5. Yurchenko T.A., Kumskov M.I., Vorona D.G. Metric Selection for Properties of Chemical Compounds Classification with the Help of Genetic Algorithm / Extended Abstracts of the 4-th Open German-Russian Workshop "Pattern Recognition and Image Understanding", Valday, Russia, 1996, p.153-156.

6. Chernobaev AI.A., Kumskov M.I., Mityushev D.F. The Computer Generation of Marked Molecular Graphs Using Evolutionary Programming and Graph's Metrics / Extended Abstracts of the 4-th Open German-Russian Workshop "Pattern Recognition and Image Understanding", Valday, Russia, 1996, p.35-39.

7. Kumskov M.I., Sen'ko O.V., Peshkova S.E., Ponomareva L.A. The Use of Two Stochastic Approximation Models for the Search of Quantitative Structure Activity Relationships (QSAR) / Extended Abstracts of the 4-th Open German-Russian Workshop "Pattern Recognition and Image Understanding", Valday, Russia, 1996,

8. Kumskov M.I., Chernobaev A.A., Mityushev D.F.77ie Generation of Marked Molecular Graphs Using Evolutionary Programming and Graph's Metrics./ Proc. 1st Intern. Conf. on Evolutionary Computation and Its Application (EvCA'96), Moscow, 1996, p.321-329

9. Kumskov M.I. The QSAR Model Construction for Molecular Structure Classification on the Base of Feature's Spaces Searching and Selection / Proc. 1st Intern. Conf. on Evolutionary Computation and Its Application (EvCA'96), Moscow, 1996.

0. Kumskov M.I. The construction quantitative "structure-activity" relationship (QSAR) by search of structural descriptor's spaces, which are adequate to the studied property. I Proc. of QSAR Satellite Symp. of National Congress of Pharmacologist of Ukraine (Poltava, 27-29 Sept. 1995), Poltava, 1996, p.46-50.

1. Kumskov M.I., Zefirov N.S, The program implementation of evolution method for building the property adapted index of organic compounds for the QSAR-task solution. / Proc. of QSAR Satellite Symp. of National Congress of Pharmacologist of Ukraine (Poltava, 27-29 Sept. 1995), Poltava, 1996, p.51-54.

2. Kumskov M.I., Mityushev D.F. Group Method of Data Handling (GMDH) as Applied to Collective Property Estimation of Organic Compounds by an Inductive Search of Their Structural Spectra. / Pattern Recognition and Image Analysis, 1996, v.6, n.3,497-509.

3. Makeev G.M., Kumskov M.I., Svitan'ko I.V., Zyryanov I.L. Recognition of Spatial Molecular Shapes of Biologically Active Substances for Classification of Their Properties./ Pattern Recognition and Image Analysis, 1996, v.6, n.4. p.795-808.

4. Mityushev D.F., Kumskov M.I. An Integrated Software System to Predict Properties of Chemical Compounds on a Personal Computer.! Pattern Recognition and Image Analysis, 1996, v.6, n.4. p.809-822.

5. Kumskov M.I., Chernobaev A.A., Mityushev D.F. The Generation of Labeled Molecular Graphs Using Metrics and Evolutionary ProgrammingI Pattern Recognition and Image Analysis, 1997, v.7, n.1. p.70-75.

Текст работы Кумсков, Михаил Иванович, диссертация по теме Теоретические основы информатики

РОССИЙСКАЯ АКАДЕМИЯ НАУК Институт Органической Химии имени Н.Д.Зелинского

Кумсков Михаил Иванович

МЕТОДОЛОГИЯ ПРОГНОЗИРОВАНИЯ СВОЙСТВ ХИМИЧЕСКИХ СОЕДИНЕНИЙ И ЕЕ ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

05.13.17 - теоретические основы информатики

Диссертация на соискание ученой степени доктора физико-математических наук

На правах рукописи

Москва-1997

Содержание

Введение............................................................................................................6

Глава 1. Методы и программы установления зависимостей структура-свойство химических веществ............................................................................14

1.1 Квантовохимические методы............................................................15

1.2 Анализа пространственных соответствий в системе "рецептор-лиганд"..............................................................................................................20

1.3 Построение ОБАК-моделей - количественных корреляций "структура - биологическая активность".........................................................25

1.3.1 Параметрическое описание молекул.........................................29

1.3.2 ОБАК-анализ трехмерных молекул...........................................30

1.3.3 Трехмерные дескрипторы молекул............................................34

1.3.4 Подструктурыые молекулярные дескрипторы...........................37

1.4 Построение количественных корреляций "структура- физико-химическое свойство"......................................................................................45

1.4.1 Аддитивные подходы оценки физико-химических свойств веществ.........................................................................................................45

1.4.2 Теоретико-графовые индексы молекулярных структур............48

1.4.3 Использование мер подобия молекул.......................................55

1.5 Выводы...............................................................................................56

Глава 2. Формирование структурных дескрипторов молекулярных графов.58

2.1 Задача построения количественных корреляций "структура-свойство" как задача распознавания образов...............................................60

2.2 Структурные дескрипторы и структурные спектры..........................68

2.2.1 Формирование матрицы "молекула-признак" (ОЗАРЗ-матрииьОЛ

2.2.2 Маркирование атомов.................................................................72

2.2.3 Свойства структурных спектров маркированных графов.........81

2.3 Несвязные фрагменты и их представление.....................................83

2.3.1 Примитивы описания молекулярных графов............................83

2.3.2 Кодирование несвязных фрагментов.........................................84

2.4 Алгоритмы анализа структур молекулярных графов......................87

2.4.1 "Волновой" алгоритм и матрица расстояний графа.................88

2.4.2 Связность графа..........................................................................90

2.4.3 Алгоритмы работы с кольцевыми системами М-графа............92

2.5 Выводы.............................................................................................100

Глава 3. Применение эволюционных алгоритмов для решения ОЗА^задачЮ1

3.1 Метод Группового Учета Аргументов (МГУА)................................101

3.1.1 Общая схема МГУА...................................................................102

3.1.2 Модифицированная схема построения семейств ОБАР-уравнений...................................................................................................105

3.2 МГУА-поиск сложных фрагментов, адекватных свойству.............109

3.2.1 Обобщенные фрагменты М-графов.........................................109

3.2.2 Составные фрагменты М-графов.............................................111

3.2.3 Относительные фрагменты М-графа.......................................113

3.3 Генерация молекулярных графов с использованием эволюционных алгоритмов.....................................................................................................115

3.3.1 Переборное решение обратной ОБАК-задачи.......................115

3.3.2 Схема эволюционной генерации молекулярных графов........116

3.3.3 Алгоритм эволюционной генерации.........................................117

3.4 Выбор метрик М-графов с помощью генетического алгоритма.... 122

3.4.1 Схема отбора метрики..............................................................122

3.4.2 Генетический алгоритм.............................................................123

3.5 Выводы.............................................................................................127

Глава 4. Программная система для конструирования 08А1Ч-моделей. ...128

4.1 Основные типы данных и программные модули ОБАР-системы. 128

4.2 Объектно-ориентированый подход к представлению структур данных в ОБАК-системе...............................................................................133

4.2.1 Компьютерное представление М-графа..................................133

4.2.2 Компьютерное представление представление обучающей БД. 139

4.2.3 Компьютерное представление МГУА-данных.........................141

4.3 Программная система В1ВЮОМ......................................................142

4.3.1 Базовые маркеры атомов.........................................................143

4.3.2 Работа пользователя с системой.............................................144

4.4 Программная система СЬетАсМ - развитие системы В1ВЮ(Ж ..149

4.4.1 Редактор обучающей выборки химических структур..............149

4.4.2 Массовая генерация и селекции графов как метод решения обратной ОвАК-задачи.............................................................................151

4.4.3 Проблема отказа от прогноза свойства сгенерированной структуры....................................................................................................153

4.5 Организация базы знаний, надстраиваемой над структурными БД. 155

4.6 Выводы.............................................................................................158

Глава 5. Прогнозирование физико-химических свойств веществ.............159

5.1 Свойства алканов.............................................................................160

5.2 Энтальпия образования веществ разных химических классов. ...171

5.3 Поляризуемость молекул................................................................173

5.4 Температура кипения для фуранов/тетрафуранов и тиофенов...175

5.5 Липофильность замещенных бензолов..........................................177

5.6 Чувствительность к удару нитросоединений.................................179

5.7 Температура плавления нитросоединений....................................181

5.8 Хроматографическая подвижность антрациклиновых антибиотиков ряда даунорубицина......................................................................................182

5.9 Анализ большой СБД по липофильности.......................................184

5.10 Анализ большой СБД по 13С спектрам.........................................187

5.11 Выводы...........................................................................................190

Глава 6. Прогнозирование биологической активности..............................191

6.1 Использование трехмерного представления молекул..................191

6.1.1 Антибактериальная активность триазинов.............................191

6.1.2 Анти-ВИЧ активность................................................................195

6.2 Использование поверхности электростатического потенциала для

формирования структурных дескрипторов..................................................198

6.2.1 Общая схема формирования дескрипторов, описывающих особенности пространственной формы молекул...................................200

6.2.2 Мускусный запах........................................................................207

6.2.3 Психотропная активность.........................................................212

6.3 Выводы.............................................................................................216

7. Заключение....................................................................................................217

8. Литература.....................................................................................................226

Введение

Задача нахождения зависимостей (количественных корреляций) "структура-свойство" химических соединений привлекает в последнее время повышенное внимание в связи с развитием вычислительной техники, дешевых накопителей большого объема и соответственно быстрым ростом структурных химических баз данных (СБД). Широкое распространение компьютерных коммуникаций в сети INTERNET привело к оснащению рабочих мест химиков-исследователей мощными персональными ЭВМ, которые имеют оперативный доступ к фактографическим структурным базам данных (СБД), содержащим сведения о свойствах и структурную химическую информацию Возникает естественное желание использовать уже имеющиеся данные "структура молекулы - проявляемые свойства" для проведения обобщений с тем, чтобы иметь возможность целенаправленно проводить внеэкспериментальный поиск новых соединений, обладающих заданным набором свойств. Такой поиск новых веществ является актуальным во многих прикладных химических исследованиях, включая ограническую химию, агрохимию, медицинскую химию и фармакологию.

Разработка методов поиска количественных корреляций "структура-свойство" (QSAR) химических соединений (QSAR - "Quatitative Structure-Activity Relationship") выделилась в отдельное научное направление. QSAR-модели используются для предварительной внеэкспериментальной оценки свойств новых соединений. QSAR-моделирование позволяет проводить формализацию и обобщение дорогостоящих экспериментальных данных, накапливаемых в компьютерных СБД, получать ответы на вопросы о том, в каком направлении следует планировать синтез новых соединений. В настоящее время существует ряд отечественных и зарубежных QSAR систем. Как правило, они используют заранее предопределенный и фиксированный набор молекулярных дескрипторов (или дескрипторных центров), на основании которых строятся сложные (составные) признаки и проводится поиск QSAR зависимостей. Вычисляемые признаки ориентированы разработчиками системы на конкретный вид свойства. Ключевым аспектом проведения QSAR-моделирования является выбор

описания молекул в виде вектора признаков. Адекватный выбор признаков позволяет содержательно проводить оценку найденных ОБАК-моделей.

В работе развивается принципиально новый подход к ОБА[Ч моделированию. Признаковые пространства, в которых проводится описание молекул СБД, формируются автоматически под управлением эксперта-химика с последовательным усложнением детализации описания и уровня представления молекул. Тип признакового пространства определяется уровнем сложности представления структуры в ЭВМ. Структура молекулы может быть представлена на нескольких уровнях детализации: на топологическом, на двумерно-топологическом (с указанием планарной проекции атомов), в трехмерном виде в минимальной энергетической конформации, в трехмерном виде с дополнительным расчетом пространственных электростатических потенциалов. Заранее не известно, на каком уровне следует проводить описание молекул (находящихся в СБД только в виде таблиц связи атомов) для ОБАК-анализа конкретного свойства. Выбор уровня представления молекул и адаптация признаков для конкретного свойства проводится экспертом в процессе построения и селекции ОБАК моделей. Таким образом, увеличение предсказательной силы ОБАРЧ зависимостей проводится не за счет использования специальных классификационных моделей (нечеткие множества, нейронные сети, иерархические классификаторы) или усложнения вида функциональной ОБА1Ч зависимости, а на основе постепенной детализации описаний молекул, которые последовательно представляются на различных уровнях.

Известно, что топологические и информационные индексы молекулярных графов могут быть представлены в виде функций от их структурных дескрипторов. Они являются универсальными и легко интерпре тируемыми признаками химических соединений. Это дало возможность широко использовать их в аддитивных схемах расчета. Построение аддитивных схем расчета физико-химических свойств веществ является нетривиальной проблемой. Поэтому весьма актуальна автоматизация решения этой задачи и исследование границ применения ОБА1Ч-мрделей, построенных на структурных дескрипторах различных типов.

Работа выполнена в соответствии с планом научных работ Института Органической Химии РАН по теме 43: "Разработка алгебраических и теоретико-графовых моделей для решения структурных задач органической химии" (номер государственной регистрации 01880006030), а также в рамках следующих проектов Российского фонда фундаментальных исследований (РФФИ):

93-012-1045: "Унифицированные математические модели и программно-инструментальные системы для прогнозирования новых органических соединений с заданными свойствами";

94-01-00041: "Инструментальная система формирования баз знаний о зависимостях "структура-свойство" органических соединений на основе символьного представления фрагментов молекулярных графов";

96-01-01598: "Распознавание пространственных форм молекул биологически активных соединений с целью компьютерного предсказания свойств новых веществ".

97-07-90307: "Селекция метрик для поиска подобных молекул в структурных фактографических БД с использованием знаний "структура-свойство".

Целью работы является разработка унифицированной методологии для решения ОБАК-задач прогнозирования свойств химических соединений на основе поиска адекватного представления молекул в виде структурных спектров и использования эволюционного программирования, а также построение на этой основе семейств прогностичных ОвАР-моделей для ряда физико-химических и биологически свойств.

В работе были поставлены следующие задачи:

1.Провести анализ существующих программных ОЭАК систем с точки зрения используемых методов описания молекул и методов поиска ОЗАР-зависимостей.

2.Обосновать использование структурных спектров в качестве единообразного способа описания молекул для решения ОБАР-задач.

3.Провести формализацию основных этапов компьютерного ОЭА1Ч-моделирования и определить функциональную организацию программной

системы. Разработать структуры данных для представления в ЭВМ ее основных объектов.

4.Разработать алгоритмы и программы анализа структур молекулярных графов и автоматического формирования структурных спектров молекул органических соединений различных классов.

5.Разработать эволюционные алгоритмы и программы для поиска структурных спектров, адекватных для исследуемого свойства, и для построения семейств ОБАК-уравнений.

6.В рамках разработанной ОБАК-системы провести вычислительные эксперименты по поиску зависимостей "структура-свойство" для различных химических классов веществ и различных свойств, сравнить полученные результаты с известными литературными данными.

Научная новизна работы состоит в следующем.

1.Впервые предложена и практически исследована общая методика построения ОЗАР-зависимостей на основе поиска адекватных признаковых пространств молекул, автоматически порождаемых под управлением эксперта. Основу методики составляют:

•Концепция многоуровневого представления молекулы как структурного объекта;

•Экспертная классификация локальных свойств атомов и определение "особых точек" (или базовых фрагментов) - примитивов описания молекул;

•Автоматическое индуктивное порождение структурных спектров заданной сложности на основе выбранных примитивов молекул;

•Использование эволюционных алгоритмов - метода группового учета аргументов (МГУА), - для выбора типа структурного спектра, адекватно характеризующего свойство молекул, и для построения семейств ОЗА1Ч зависимостей, образующих модель.

2.Впервые разработана и программно реализована методика ОЗАГЧ-оценки свойств органических соединений на основе формирования базы знаний "структура-свойство", запросом к которой является молекулярный граф.

3.Создан объектно-ориентированный программный инструментарий для быстрого конструирования программных QSAR-систем для ПЭВМ типа IBM PC. На его основе разработана система BIBIGON и ее расширенная версия -система ChemAdd. Системы позволяют проводить на ЭВМ полный цикл работ по QSAR-моделированию.

4.Выполнено систематическое исследование прогностической устойчивости QSAR-моделей, посторенных на различных типах структурных спектров для ряда физико-химических и биологических свойств. Найденые QSAR-модели не уступают, а в ряде случаев и превосходят по точности известные QSAR зависимости.

Практическая ценность результатов. QSAR-системы BIBIGON и ChemAdd позволяют автоматизировать построение и селекцию аддитивных схем расчета многих физико-химических свойств органических соединений.

QSAR-системы BIBIGON и ChemAdd используются в научных институтах РАН и РАМН для проведения ОЗАРмоделирования и поиска новых соединений с заданным профилем свойств.

Разработанный программный инструментарий может быть использован для быстрого создания прототипов программ анализа молекулярных графов, вычисления специализированных маркеров атомов, автоматического формирования новых индуктивных структурных спектров, для построения и тестирования соответствующих QSAR-зависимостей.

Найденные прогностически устойчивые QSAR-модели, хранящиеся в базе знаний системы, могут использоваться для проведения внеэксперимен-тального скрининга новых органических соединений и предсказания их свойств.

Апробация работы. Результаты работы докладывались:

•на 8-ой Всесоюзной конференции "Использование ЭВМ в спектроскопии молекул и химических исследованиях" (Новосибирск, 1989);

•на Всесоюзной научной конференции "Оценка фармакологической активности химических соединений. Принципы и подходы" (Купав на;1989);

•на Межвузовской конференции "Молекулярные графы в химических исследованиях" (Калинин, 1990);

•на Всесоюзной школе-семинаре "Статистический и дискретный анализ данных и экспертные оценки" (Одесса, 1991);

•на 1-ой Всесоюзной конференции по теоретической органической химии ВАТОХ (Волгоград, 1991);

•на 9-ой Всесоюзной конференции "Химическая информатика" (Черноголовка, 1992);

•на 1-ой Международной конференции "Химия, технология и применение фторсодержащих соедин�