автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Программная система прогнозирования свойств химических соединений

кандидата физико-математических наук
Митюшев, Дмитрий Феликсович
город
Москва
год
1998
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Программная система прогнозирования свойств химических соединений»

Текст работы Митюшев, Дмитрий Феликсович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

^ 1 ^ , ; ; / / I

/

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М.В. ЛОМОНОСОВА

На правах рукописи

Митюшев Дмитрий Феликсович

ПРОГРАММНАЯ СИСТЕМА ПРОГНОЗИРОВАНИЯ СВОЙСТВ ХИМИЧЕСКИХ СОЕДИНЕНИЙ.

специальность 05.13.11 -математическое и программное обеспечение вычислительных машин,

комплексов, систем и сетей

ДИССЕРТАЦИЯ на соискание ученой степени кандидата физико-математических наук.

Москва - 1998г.

Содержание работы.

Введение............................................................................................4

Глава 1. Классификация методов и программных систем установления взаимосвязи "структура-свойство" химических веществ........................8

§1. Классификация подходов к установлению взаимосвязи

"структура-активность".............................................................................8

Квантовомеханические методы..............................................................9

Классические подходы ККСС.............................................................10

§2. ККСС-задача как задача распознавания образов...........................14

§3. Программные ККСС-системы..........................................................16

OASIS (Optimised Approach based on Structural Indices Set)..............16

Multi-CASE (Multiple Computer Automated Structure Evaluation

program)..................................................................................................17

Фрагментарный код суперпозиции подструктур (ФКСП)................18

§4. Общие принципы организации программной ККСС системы.....19

§5. Описание М-графов на основе топологических и теоретико-

информационных индексов.....................................................................21

Топологические индексы......................................................................21

Теоретико-информационные индексы................................................24

§6. Эволюционные алгоритмы в ККСС-моделировании.....................25

Глава 2. Автоматическое построение наиболее адекватного описания М-графов на основе структурного спектра обучающей выборки...........27

§1. Описание М-графов "структурными спектрами"...........................27

§2. Обобщенные фрагменты М-графов..................................................33

§3. Составные фрагменты М-графов......................................................36

§4. Относительные фрагменты М-графов..............................................38

Глава 3. Агоритмы анализа М-графов................................................39

§1. "Волновой" алгоритм и матрица расстояний М-графов................41

§2. Связность М-графа............................................................................44

§3. Алгоритмы работы с кольцевыми системами М-графов................46

§4. Определение изоморфизма М-графов............................................54

§5. Визуализация М-графов....................................................................57

Глава 4. Программный инструментарий для конструирования ККСС-систем..............................................................................................59

§1. Основные типы данных и программные модули ККСС-системы. 59 §2. Объектно-ориентированый подход к представлению структур

данных в ККСС-системе.........................................................................63

ОО-представление М-графов...............................................................63

ОО-представление обучающей выборки М-графов...........................70

ОО-представление МГУА-данных.......................................................72

§3. Программная система BIBIGON MATCH.......................................73

§4. Программная система ChemAdd - развитие системы BIBIGON

MATCH......................................................................................................78

Редактор обучающей выборки химических структур........................79

§5. Программа ChemStat - инструмент для первичного анализа выборок химических структур.................................................................81

Глава 5. Практические результаты, полученные при использовании

созданных ККСС-систем...................................................................83

Температура кипения для фуранов/тетрафуранов и теофенов.........85

Температура плавления нитросоединений..........................................86

Энтальпия образования веществ разных химических классов.........87

Хроматографическая подвижность антрациклиновых антибиотиков

ряда даунорубицина..............................................................................88

Липофильность замещенных бензолов...............................................89

Поляризуемость молекул......................................................................90

Чувствительность к удару (Н50)............................................................91

Антивирусная активность триазинов..................................................92

Глава 6. Решение "обратной" ККСС-задачи.......................................94

§1. Массовая генерация и отбор М-графов, как метод решения

обратной ККСС-задачи...........................................................................94

§2. Проблема отказа от прогноза............................................................96

§3. Организация ККСС баз знаний, надстраиваемых над существующими фактографическими базами данных..........................98

Заключение.....................................................................................102

Список литературы..........................................................................103

Приложение. Пользовательский интерфейс системы BIBIGON..........109

Функциональные возможности системы.............................................109

Структура "МЕНЮ"...............................................................................111

Последовательность работы с системой:...........................................112

Раздел главного меню- "USE"............................................................114

Раздел главного меню - "DATABASE"..............................................115

Раздел главного меню - "WORK".......................................................116

Раздел меню "work" - By_Steps...........................................................119

Раздел главного меню - "VIEW".........................................................120

Раздел главного меню - "REPORT"...................................................121

Раздел главного меню - "PROJECT"..................................................123

Раздел главного меню - "SETUP"......................................................124

Раздел меню "SETUP" - FITTING VALUES....................................126

Раздел меню "SETUP" - CHAINS......................................................126

Раздел меню "SETUP" - ESTIMATES...............................................129

Раздел меню "SETUP" - MAKING FILES.......................................131

Раздел главного меню - "HELP"........................................................132

Раздел главного меню - "EXIT"..........................................................132

Введение.

Быстрое развитие органической химии, особенно в области синтеза структур органических соединений, привело к тому, что в настоящее время насчитывается уже более 10 миллионов соединений, описанных в литературе. Этот объем экспериментальных данных продолжает расти одновременно с накоплением информации о физико-химических и биологических свойствах новых веществ. Использование вычислительной техники для ведения библиографических и фактографических баз данных сняло проблему "информационного взрыва" в химии, возникшую в 70-е годы [1, 2]. Однако информация, введенная в ЭВМ, как раньше, так и в настоящее время, представляет из себя большую картотеку относительно разрозненных фактов. В то же время направленный синтез органических соединений, обладающих заданными свойствами, продолжает оставаться недостаточно эффективным. Для целенаправленного синтеза желательно установление максимально достоверных зависимостей между строением химических соединений и их свойствами, определение механизмов их действия. В связи с этим для химика-исследователя продолжает оставаться актуальным вопрос о том, каким будет спектр свойств нового химического соединения, структура которого известна?

Центральной проблемой теоретической химии является нахождение зависимостей между структурой органических соединений и проявляемыми ими свойствами. Для ее решения широко используется вычислительная техника, оснащенная программным обеспечением, позволяющим находить количественные корреляции "структура-свойство" (ККСС) [3-10]. Для построения в ЭВМ ККСС-моделей используютразличные методы описания молекул. Эти методы включают в себя вычисление топологических индексов, теоретико-информационных индексов, наборов структурных фрагментов различных типов ит.п. [7,8,11]. Важным аспектом создаваемых ККСС-моделей является задача выбора оптимального набора признаков (дескрипторов) молекул для расчета данного свойства, а также задача

содержательной интерпретации параметров получаемых ККСС-моделей [12,13].

В настоящее время при описании структур молекул принято использовать наборы заранее заданных дескрипторов, индексов, структурных фрагментов, формакофоров, дескрипторных центров и т.п. Наборы признаков могут дополняться, если в ходе решения ККСС-задачи выясняется, что реализованный в программе набор признаков недостаточно адекватно описывает исследуемое свойство. Как правило, набор признаков молекул, используемый для расчета одного свойства, например, температуры кипения, существенно отличается от набора, по которому проводят вычисления другого свойства, например, липофильности веществ. Выбор признаков, адекватных данному свойству, является одной из важных проблем, возникающих при решении ККСС-задач. Для этого, например, в программе можно иметь большой и постоянно расширяемый список параметров молекул и использовать их для решения ККСС-задач [8].

Программное обеспечение, используемое для решения ККСС-задач, можно условно разделить на два типа: модули для получения описания молекул в виде набора чисел - дескрипторов, и стандартные пакеты статистического анализа, использующие полученные описания структур из выборки для построения количественных корреляций. Результаты построений используются для оценки свойств отдельных соединений.

В настоящей работе разработан оригинальный подход:

1) к построению программных систем для проведения ККСС-моделирования,

2) к решению проблемы адекватного выбора признаков молекул для оценки заданного свойства веществ,

3) к представлению полученных ККСС-зависимостей в виде базы знаний, надстраиваемой над базой данных химических веществ, использовавшейся в построении ККСС.

Целью работы является (1) разработка алгоритмов и создание программного инструментария, позволяющего выполнять оперативное макетирование различных вариантов программ описания и ККСС-анализа обучающих выборок химических структур, (2) создание на основе этого инструментария программной системы, реализующей метод автоматического поиска описаний структур органических соединений, адекватных исследуемому свойству. В соответствии с целями в работе поставлены и решены следующие задачи:

1. Сформулированы общие принципы организации и функционирования системы для проведения полного цикла работ по прогнозированию свойств химических веществ.

2. Разработаны алгоритмы и соответствующие программные объекты для работы с основными структурами данных системы: помеченными молекулярными графами, базами данных химических структур (БДХС), ККСС-моделями, списками дескрипторов.

3. Разработан на этой основе программный комплекс для проведения полного цикла моделирования зависимостей "структура-свойство".

4. Проведена проверка работоспособности системы при решении ККСС-задач на БДХС различных химических классов.

Результаты работы содержатся в 24 публикациях. Полученные результаты докладывались на Всесоюзной школе-семинаре "Статистический и дискретный анализ данных и экспертные оценки" (Одесса, 1991), на 9-ой Всесоюзной конференции "Химическая информатика", (Черноголовка, 1992), на семинаре по теории графов (под руководством профессора А.А.Зыкова, 1991, 1993), на 2-й Всероссийской конференции "Распознавание образов и анализ изображений. Новые информационные технологии" (РОАИ-2, Ульяновск, 1995), на 7-й конференции "Математические методы в распознавании образов" (ММРО-7, Пущино, 1995), на семинаре "Автоматизация программирования" (под руководством проф. М.Р.Шура-Бура, 1995), на семинаре "Компьютерная химия" (под руководством академика Н.С.Зефирова, 1993-1995), на семинаре

"Распознавание образов и обработка изображений (под руководством академика Ю.Н.Журавлева и И.Б.Гуревича, 1995).

Работа состоит из введения, шести глав, заключения, списка литературы и приложения.

В первой главе дан обзор современных подходов к установлению взаимосвязи "структура-активность" с использованием вычислительной техники. Сформулирована общая постановка задачи установления количественных корреляций "структура-свойство" (ККСС) как специальный случай задачи распознавания образов. Рассмотрена функциональная организация и собенности нескольких программных ККСС-систем, а также общие принципы организации программной системы, предназначенной для проведения полного цикла работ по прогнозированию свойств химических соединений и поиску новых соединений с заданными свойствами. Проведена классификация существующих способов описания молекулярных химических графов (М-графов) на основе топологических и теоретико-информационных индексов, а так же с использованием подструктур молекулярного графа. Рассмотрена общая схема ККСС-адаптации эволюционного метода отбора набора адекватных дескрипторов - метода группового учета аргументов (МГУА).

Вторая глава - центральная глава работы. Она посвящена решению задачи выбора набора дескрипторов для описания молекулярных графов обучающей выборки, наиболее адекватного исследуемому свойству.

В третьей главе рассмотрены алгоритмы анализа М-графов и их реализации.

В четвертой главе рассмотрены принципы построения ККСС-систем, структуры данных и программные объекты, реализующие описанные выше алгоритмы и методики, а также две программные ККСС-системы В1ВЮОК и ОгетАсШ, реализованные в рамках созданных библиотек объектов.

В пятой главе приведены практические результаты, полученные при использовании созданных программных систем и иллюстрирующие эффективность методики автоматического выбора адекватного описания структур для ККСС-задач.

В шестой главе рассмотрено решение "обратной ККСС-задачи", т.е. задачи поиска химических веществ, обладающих заданными свойствами, на основе массовой генерации и селекции М-графов.

Заключение содержит основные выводы работы, в нем сформулированы возможные пути развития метода построения ККСС-уравнений на основе структурных спектров и МГУА в применении к задаче построения ККСС-зависимостей.

В приложении подробно описан пользовательский интерфейс системы В1ВГС(Ж

Глава 1. Классификация методов и программных систем установления взаимосвязи "структура-свойство" химических веществ.

§1. Классификация подходов к установлению взаимосвязи "структура-активность ".

Все многообразие современных подходов к установлению взаимосвязи "структура-активность" с использованием вычислительной техники можно условно отнести к одной из трех категорий:

1. Подходы, основанные на квантово-химических расчетах, на решении и оптимизации систем волновых уравнений. Достоверность таких расчетов не всегда удовлетворительна, к тому же огромные затраты машинного времени не позволяют выполнять их для сложных систем, представляющих практический интерес.

2. Классический подход ККСС (количественные корреляции структура-свойство - С^АЕ.) - поиск различий в структуре соединений, влияющих на изменение значений исследуемого

свойства. Эмпирические ККСС-зависимости часто дают практически пригодные результаты при прогнозировании свойств веществ. 3. Подходы, основанные на трехмерном моделировании поведения исследуемого соединения (системы "рецептор-лиганд"). Такой подход требует достоверных теоретических знаний о способах взаимодействия фермента и субстрата. [32-36]

Квантовомеханические методы.

Квантовомеханические методы обычно используют для решения двух задач - расчета теоретических параметров молекул, таких как потенциалы ионизации, индексы реакционной способности, теплоты образования, поверхности потенциальной энергии и переходных состояний [43], и определение устойчивых конформаций молекул [1419]. В исследованиях связи "структура - активность" применяются следующие методы [20, 43]:

a) простой метод Хюккеля

b) расширенный метод Хюккеля

c) итерационный расширенный метод Хюккеля

(1) метод полного пренебрежения дифференциальными

перекрываниями и его модификации е) метод частичного пренебрежения дифференциальными

перекрываниями (ЧППД) 1) модифицированный ЧППД

g) метод учета по теории возмущений конфигурационного взаимодействия локализованных орбиталей

С помощью квантовоэлектронных методов рассчитываются параметры, характеризующие электронную структуру молекулы. Исходя из этих параметров, можно определить некоторые свойства молекулы: способнось молекулы отдавать электрон, или принимать его, энергию образования комплекса с другой молекулой, термодинамические параметры, реакционную способность и т.п.

Одно из важных приложений квантовомеханических методов -это расчет возможных устойчивых конформаций. Устойчивые конформации (т.е. отвечающие наименьшей энергии) находятся путем рассчета зависимости энергии молекул от вращения связей при фиксированных значениях длин и углов связей.

Методами квантовой механики было исследовано множество биологически активных соединений: антималярийные агенты, анестезирующие средства, транквилизаторы, анальгетики, гербициды, пестициды и т.д.

Однако, при применении квантовохимических методов всегда надо помнить о приближенном характере таких рассчетов. При вычислении разных параметров молекул приходится пользоваться различными квантовохимическими методами, и лишь при рациональном и обоснованном их в�