автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Программный комплекс для прогнозирования свойств сложных органических соединений на основе анализа неоднозначных зависимостей "структура-свойство"

кандидата технических наук
Боридко, Владимир Станиславович
город
Москва
год
2000
специальность ВАК РФ
05.13.16
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Программный комплекс для прогнозирования свойств сложных органических соединений на основе анализа неоднозначных зависимостей "структура-свойство"»

Автореферат диссертации по теме "Программный комплекс для прогнозирования свойств сложных органических соединений на основе анализа неоднозначных зависимостей "структура-свойство""

На правах рукописи

ОД

Боридко Владимир Станиславович

1 з т 1зез

рограммный комплекс для прогнозирования свойств сложных кшческих соединений на основе анализа неоднозначных [симостей «структура-свойство»

.13.16 Применение вычислительной техники, математического моделирования и латическнх методов в научных исследованиях (химическая технология)

Автореферат диссертации на соискание ученой степени

кандидата технических наук

Москва - 2000

Работа выполнена в Московской государственной академии тонкой химической технологии им.М.В .Ломоносова (МИТХТ)

Научный руководитель - к.т.н., доцент Бурляева Е.В.

Официальные оппоненты -д.ф.-м.н., профессор Карташов Э.М.,

д.х.н., профессор Пономарев Г.В. Ведущая организация - Институт биоорганической химии им. М.М.Шемякина и Ю.А.Овчинникова РАН

Защита состоится 27 июня 2000 г в 14 часов на заседании диссертационного совета 063.41.02 в Московской государственной академии тонкой химической технолог им.М.В.Ломоносова по адресу Москва, проспект Вернадского, 86

С диссертацией можно ознакомиться в библиотеке МИТ (Москва, Малая Пироговская, 1)

Реферат разослан 26 мая 2000 г.

Ученый секретарь диссертационного совета, кандидат технических наук

Бурляева Е.В.

ГОЛЫ „ А АС. Ш

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

дуальность темы

той из наиболее актуальных проблем в области химической и биотехнологии остается авленный синтез химических соединений, позволяющий значительно сократить лость исследований и ускорить путь от ряда структур соединений к целевому >ственному препарату. Прогнозирование таких свойств новых, еще не ¡зированных химических соединений, как токсичность, физиологическая и экологическая активность и т.п., как правило, выполняется на базе гипотез о :имости между свойствами веществ и особенностями структуры их молекул. Такие гезы могут быть сформированы специалистами-химиками на основе выявления низмов взаимодействия химических соединений, связанных с проявлениями пируемого свойства, однако этот путь, в свою очередь, требует долгих и гостоящих исследований. Альтернативный подход на протяжении ряда лет развивается гыке исследований в области химической технологии и прикладной математики и н с анализом сведений об уже синтезированных и исследованных молекулах шений того же класса. Наибольшее распространение получили методы, основанные на ое двумерной структуры молекулы, в частности, на выделении отдельных ггурных элементов молекулы. Развитие методов, связанных с расчетом параметров лерной структуры молекул, тормозилось в первую очередь недостаточной мощностью ггв вычислительной техники. Выполнение таких расчетов за приемлемое время стало эжным совсем недавно. Кроме того, исследование трехмерной структуры молекул ■ет рассмотрения всего множества пространственных структур, соответствующих й и той же двумерной структуре, что приводит к неоднозначной зависимости между ветрами, описывающими исследуемые молекулы, и свойствами соответствующих шений.

диссертационной работе предложены и реализованы методы построения гипотез о инно-следственных зависимостях между множеством энергетически приемлемых верных структур молекул сложных органических соединений и свойствами этих шений.

:лью работы является разработка программных средств для прогнозирования свойств не синтезированных органических соединений на основе построения гипотез о

неоднозначных причинно-следственных зависимостях между множеством энергетичео приемлемых трехмерных структур молекул и свойствами соответствующих соединений.

В этом плане ставятся и решаются следующие задачи:

• анализ методов формирования множества энергетически приемлемых трехмернь структур молекул и расчета структурных и квантово-химических параметров там структур (индексов);

• разработка алгоритмов отбора значимых индексов с учетом неоднозначное] зависимости «структура-свойство»;

• разработка методики построения гипотез об интервальной зависимости значеш исследуемого свойства от значений отобранных индексов;

• разработка программного комплекса, реализующего предложенную методш прогнозирования интервальных значений свойств сложных органических соединени:

• реализация и внедрение разработанного программного комплекса.

Методы исследования

В основу выполненных в работе исследований положены методы решения зад; условной оптимизации, парной линейной регресс™, анализа энергетических характерисп трехмерных структур молекул, расчета структурных и квантово-химических параметре молекул.

Научная новизна

В диссертационной работе автором получены следующие научные результаты:

• разработаны алгоритмы отбора значимых индексов для исследования неоднозначнь зависимостей "структура-свойство" для сложных конформационно-лабильнь органических соединений;

• разработана методика прогнозирования интервала количественных значеш исследуемого свойства на основе множества значений индексов;

• разработаны алгоритмы реализации предложенной методики с использование стандартных оптимизационных программ.

Практическая значимость

Практическая значимость полученных в работе результатов заключается в следующем:

разработан и реализован программный комплекс анализа неоднозначных зависимостей "структура - свойство" для сложных конформационно-лабильных органических соединений;

выполнено прогнозирование биологической активности анти-ВИЧ препаратов -производных тетрагидроимидазобензодиазипенона и

фенилэтилтиазолилтиомочевины;

выполнено прогнозирование степени адсорбции и максимума поглощения тиамонометинцианинов;

сформированы гипотезы о хроматографической подвижности порфиринов.

сследования порфиринов выполнены в рамках Международной программы по шию фотосенсибилизаторов для фотодинамической терапии рака совместно с итутом Биомедицинской химии РАМН.

пробация работы

сновные результаты работы докладывались и обсуждались на международной научной >еренции "Математические методы в технике и технологиях - 12", Великий Новгород, , международной научной конференции «Process Control-99», Словакия, Братислава, , международной научной конференции «СПИД, рак и родственные проблемы», Санкт-рбург, 2000.

(зработанный программный комплекс награжден дипломом научно-практической авки «Информационные технологи в науке», Москва, ВВЦ, 2000.

убликации

олученные в работе результаты изложены в 6 опубликованных работах. груктура и объем диссертации

иссертация состоит из введения, 4 глав, заключения и списка литературы.

СОДЕРЖАНИЕ РАБОТЫ

э введении обоснована актуальность темы диссертации, сформулированы цель и вные задачи исследования, дана общая характеристика работы.

первой главе выполнен анализ проблемы прогнозирования свойств сложных кических соединений. Рассмотрены различные способы представления сведений о

структуре органических соединений, показано, что при анализе свойств биологическ активных соединений необходим учет трехмерной структуры исследуемых соединени: Обоснован выбор параметров для описания трехмерной структуры молекулы, называемы далее индексами. Выполнен анализ различных способов описания зависимости "структура свойство". Наибольшее внимание уделено традиционным функциональным способа описания зависимости, показано, почему построение таких моделей при анализе сложны биохимических взаимодействий, как правило, невозможно.

В работе рассмотрена проблема неоднозначности зависимости между множество значений индексов, соответствующих различным трехмерным структурам одной и той и молекулы, и единственным значением, характеризующим исследуемое свойсте соответствующего соединения. Показано, что при анализе биохимических взаимодействи невозможен выбор единственного структурного представителя, отвечающего : исследуемое свойство. Рассмотрены примеры из области фармакологии, токсикологи! фототехники.

Таким образом, на основе анализа методов выявления и анализа зависимости "структура - свойство" для сложных органических соединений поставлена зада1 разработки методов, математических моделей и программных средств для построеш гипотез о взаимосвязи между набором значений индексов, характеризующих трехмерну структуру молекулы, и единственным значением, количественно описывшощи исследуемое свойство соединения.

Во второй главе выполнено математическое обоснование алгоритмов формирован! гипотез о неоднозначных зависимостях "структура - свойство".

Вначале рассмотрены алгоритмы отбора значимых индексов. Исходными даннык являются численные значения свойств и индексов. При этом каждому соединени соответствует свое значение свойства и множество значений индексов. Каждое значеш индекса рассчитано для соответствующей энергетически приемлемой трехмерж структуры (конформера). Количество конформеров у каждого соединения может бы различным. Общее число различных индексов, рассчитываемых для каждого конформер одинаково для всех рассматриваемых соединений. Результатом отбора является наб< индексов, от которых предположительно зависит исследуемое свойство (такие индекс называют значимыми). Предполагается, что как значения свойства, так и значения индекс! нормированы.

эоцедура отбора значимых индексов сводится к последовательному исследованию :имости значений свойства от набора значений отдельных индексов. Такая ;имость наглядно представлена с помощью графика, по оси X которого отложены :ния свойства, а по оси У - значения индекса, причем на графике выделены точки, 1етствук>щие минимальным и максимальным значениям индекса для одного значения ггва (рис.1).

Ай 1

0,8 0,6 0,4 0,2 0

■ • - • — « —•-•- -•-•

0,2

I I

0,4

"о!ёГ

0,8

1

!п

Рисунок 1. Неоднозначная зависимость значений свойств от значения индекса работе показано, что если удается провести строго монотонную кривую, отделяющую имальные значения от минимальных, то зависимость между свойством и индексом :тся однозначной. Предложены различные способы построения такой кривой, ваемой разделительной линией. Наиболее простая разделительная линия задается ой

1(А) = а + Ь*А,

е I - значение индекса, А - значение свойства, однако можно использовать и другие тонные функции. В работе предложено и обосновано построение разделительной и в виде экспоненциальной функции

1(А) = а + Ь* Асехр(с1* А) метим, что при с=1 и с!=0, эта зависимость соответствует прямой.

[ким образом, критерий выбора значимого индекса формализуется следующим )ом: значимым считается индекс, для которого можно подобрать такие параметры :лительной линии 1(А), при которых значения I не меньше минимальных и не больше имальных значений индекса для всех исследуемых соединений.

Процедуру формального выбора значимого индекса можно рассматривать как зада' параметрической оптимизации при наличии ограничений. Введем следующие обозначени:

i=l,2,...,n - порядковые номера исследуемых соединений,

Mj - множество максимальных значений индекса, ¡=1,2,...,п

mi - множество минимальных значений индекса, i=l,2,...,n

I(Ai) - искомая функциональная зависимость (разделительная линия).

Ограничения формулируются следующим образом:

для любого i

М;-1(А;) > О 1(А;)-т|>0 (1) В работе рассмотрены различные целевые функции для решения задач оптимизаци показано, что для линейной разделительной линии наиболее предпочтителен выб< целевой функции, линейной по параметрам а и b (в этом случае задача сводится к зада линейного программирования, которая может быть решена стандартным симплекс методом), и построен ряд таких целевых функций. В частности, при выборе целев< функции в виде

£ (Mi - а - Ь* АО -S (а + Ь*А; - => min (2)

разделительная линия будет представлять собой прямую, проходящую на минимальш расстоянии как от минимумов, так и от максимумов (пример линейной разделителыи линии приведен на рис.2).

Рис.2. Пример линейной разделительной линии

том случае, если разделительная линия представляет собой экспоненциальную цию, необходимо решать нелинейную задачу оптимизации. В работе приведены олее распространенные методы решения подобных задач. Поскольку все поисковые цы оптимизации чувствительны к выбору начальных приближений, приведена и яована вычислительная процедура для подбора начальных приближений.

работе доказана корректность построения линейной и экспоненциальной ¡лительных линий.

шее рассмотрено построение алгоритмов для прогнозирования интервала чественных значений исследуемого свойства на основе интервала значений эанных индексов.

работе показано, что разделительная линия может быть использована для позирования интервала значений свойства на основе интервала значений индексов, ко длина полученного интервала будет слишком велика, что существенно ограничивает гическую ценность прогноза. Для уточнения прогноза использована двухлинейная ль, состоящая из двух прямых с одинаковым наклоном к оси X - мажоранты и ранты. Мажоранта является верхней границей максимальных значений индекса, ранта - нижней границей минимальных значений. В работе доказано, что применение нинейной модели позволяет существенно уменьшить длину интервала прогнозируемых мшй свойства и, таким образом, позволяет получить более точный прогноз. Параметры :ранты и миноранты предложено рассчитывать, решая задачу параметрической мизации при наличии ограничений:

£ (Ш;- а2 - Ь*А;) + Е (а, + Ь*А1 - М^ => пип (3)

при условиях

т;-а2-Ь*А;>0

а, + Ь*А| - М, > 0 (4)

)скольку целевая функция линейна по параметрам, эта задача представляет собой

[у линейного программирования, которая может быть решена симплекс - методом.

метод не очень чувствителен к выбору начальных приближений, но, с целью зения получения решения, лучше назначить их не нулевыми, а выбрать значения, ченные в результате решения оптимизационной задачи парной линейной регрессии гительно максимумов

£ (М,- а1„ач - Ь1„ач *А, )2 => гпт

и относительно минимумов

Е (mi - а2„ач - Ь2„а, *А; f min.

инач = max { bi„a4, Ь2вач }•

Существенно, что двухлинейная модель может быть использована для прогнозирован!

и тогда, когда разделительная линия будет нелинейной.

Результирующая гипотеза формируется в виде конъюнкции построенных гипотез.

Для прогнозирования интервала значений свойства нового, не входящего в исходны набор, соединения, необходимо для каждого отобранного индекса найти границ интервалов значений свойств и построить пересечение этих интервалов. Выбир; максимальное из всего множества минимальных значений и минимальное из множесп максимальных значений, получим прогноз в виде интервала значений исследуемо1 свойства

В третьей главе рассмотрена разработка программного комплекса для прогнозирован! интервала численных значений исследуемого свойства на основе предложеннь: алгоритмов. Комплекс должен обеспечивать:

• отбор энергетически приемлемых трехмерных структур молекул (конформеров);

• расчет структурных и квантово-химических параметров конформеров;

• отбор значимых индексов;

• построение гипотез об интервальной зависимости значений исследуемого свойства < значений отобранных индексов;

• тестирование полученной гипотезы методом скользящего контроля;

• построение интервалов значений свойства для соединений, не входящих в исходнь набор.

Функциональная схема комплекса приведена на рис.3. Исходными данными являет! набор двумерных структур молекул, причем для каждой структуры должно быть извесп численное значение исследуемого свойства (такие данные могут быть получены, наприме из литературных источников, описывающих результаты экспериментов).

Комплекс реализован в среде Windows (версии 98 и выше) в виде набо] взаимосвязанных макросов MS Excel (версии 7.0 и выше) на языке Visual Basic f Applications. Для построения трехмерных структур молекул и расчета значений индекс«

ьзуются программы HyperChem и Морас. Работа этих программ также ствляется под управлением макросов MS Excel.

Функциональная схема программного комплекса

Данные о 2D структуре и активности набора соединений

HyperChem 5.0

Построение 3D структуры

:1_ 95/98 экрос ХЛэиаВаБЮ 5.0

:троение математических моделей зависимости "структура-свойство"

ыбор значимых индексов остроение мат. моделей энерация гипотез о зависимости груктура-свойство роверка адекватности гипотез етодом скользящего контроля

Предсказание свойств еще не лнтезированных соединений

МОРАС 7.0

. Оптимизация 3D структуры Расчет квантово-химических параметров

■нок 3. Функциональная схема профаммного комплекса

Данные о двумерной структуре молекул фиксируются в формате HyperChem. Генера! набора трехмерных структур, соответствующих заданной двумерной структу осуществляется с помощью HyperChem под управлением макроса MS Excel. В рам> макроса задаются параметры генерации, в частности, начальные значения и шаг повор< двугранных углов. Результаты генерации записываются в книгу MS Excel; каждый Л1 этой книги описывает конформер. Трехмерная структура конформера задается с помощ координат атомов.

Анализ энергетических характеристик построенных структур, нахождс! энергетически выгодных трехмерных структур и расчет индексов осуществляется в paMi программы Морас. Задание на оптимизацию трехмерной структуры по энергетическс критерию формируется в рамках макроса MS Excel. Задача нахождения энергетичес выгодных трехмерных структур является задачей условной многомерной оптимизацш может быть решена только численно. Ее решение требует больших затрат вычислительн ресурсов. Методы задания целевой функции основаны на моделях внутримолекулярн межатомных и межэлектронных взаимодействий, используемых при расчете энер! молекулы. После фиксации энергетически приемлемой структуры осуществляется рас структурных и квантово-химических индексов. Координаты атомов оптимизирован! структуры и значения индексов также фиксируются в книге MS Excel, каждый лист kotoj описывает конформер.

Отбор энергетически приемлемых конформеров реализован в виде отделыи макроса MS Excel, параметром которого является значение энергетического порога умолчанию 5 ккал/моль). Трехмерные структуры, энергия образования которых превыш сумму минимальной энергии и энергетического порога, не учитываются при формировав гипотез.

Полученные результаты - значения индексов для всех энергетически приемлем конформеров всех соединений из исследуемого набора - нормируются и ингегрируютс помощью специального макроса MS Excel. Обобщенные данные фиксируются в книге Excel. Полученные данные являются исходными данными для отбора значимых индексо)

При отборе значимых индексов для каждого исследуемого индекса генерируе отдельный лист книги MS Excel, на этот лист автоматически переносятся данн относящиеся только к заданному индексу. В рамках макроса MS Excel осуществляется попыток построения разделительной линии. Первоначально выполняется попы

)ить разделительную линию в виде прямой, удовлетворяющей ограничениям (1) с 1ью целевой функции (2). Для решения этой задачи используется надстройка "Поиск ия", входящая в состав MS Excel. В том случае, если удается построить такую ю, индекс считается значимым; в противном случае выполняется подбор начальных ижений и попытка подбора параметров разделительной линии в виде шнциальной функции. При подборе начальных приближений и подборе параметров юнциальной зависимости также используется надстройка "Поиск решения". В том , если удается построить разделительную линию, индекс считается значимым; в шом случае предполагается, что исследуемое свойство не зависит от заданного :а и лист книги MS Excel, соответствующий этому индексу, удаляется. Результаты i значимых индексов фиксируются в книге MS Excel. Каждый лист полученной книги кит данные о значимом индексе. Эти данные являются исходными данными для >ения гипотез о зависимости "структура - свойство".

1остроение гипотез осуществляется для каждого значимого индекса и сводится к зу параметров мажоранты и миноранты с помощью целевой функции (3) при гчениях (4). Результаты подбора фиксируются на листе книги MS Excel, тствующем исследуемому индексу.

Тестирование построенных гипотез осуществляется по методике скользящего >ля. При этом последовательно рассматриваются наборы соединений, полученные брасывании одного из соединений исходного набора. Для каждого из таких наборов ся гипотезы и выполняется прогнозирование интервалов значений исследуемого ва отброшенного соединения. В том случае, если известные значения свойств нот в полученные интервалы, гипотезу можно считать приемлемой; в противном необходим анализ и модификация отдельных гипотез.

входными данными для прогнозирования интервалов значений исследуемого ва нового соединения или группы соединений являются двумерные структуры их »'л. Эти структуры необходимо зафиксировать в формате HyperChem. Построение и изация соответствующих трехмерных структуры и расчет индексов выполняются с (ью тех же макросов, которые используются для исходного набора соединений, енные результаты в виде файла MS Excel являются исходными данными для макроса >зирования. С помощью этого макроса отбираются данные, соответствующие 1ым индексам, на основе гипотез рассчитываются границы интервалов значений

свойства для отдельных индексов и выполняется построение обобщенного интерва Результаты прогнозирования фиксируются в книге MS Excel. Эта книга включает в о листы, соответствующие отдельным значимым индексам, и лист с обобщенны результатами. Отметим, что с помощью макроса прогнозирования возможно nocrpoi прогнозы не только для одного нового соединения, но и для целого набора соединений.

В четвертой главе описаны результаты применения реализованного программ» комплекса для трех различных групп сложных органических соединений:

• анти-ВИЧ препаратов - производных тетрагидроимидазобензодиазипенона фенилэтилтиазолилтиомочевины;

• спектральных сенсибилизаторов - тиамонометинцианинов;

• препаратов, используемых при фотодинамической терапии рака - порфиринов.

В первом случае изучалась 50% ингибирующая концентрация ненуклеозида ингибиторов обратной транскриптазы. Для анализа были отобраны выборки, состоящие 32 производных тетрагидроимидазобензодиазипенона (ТИБО) и 51 производи фенилэтилтиазолилтиомочевины (РЕТТ). При отборе энергетически приемле\ конформеров использовался порог 10 ккал/моль, что обусловлено высо] конформационной гибкостью молекул исследованных соединений. Результаты отб значимых индексов показали, что исследуемая активность производных ТИБО зависи первую очередь от донорно-акцепторных свойств атомов азота и серы, некоторых ато! ароматического ядра (эти атомы выделены на рис.4), а также планарности молеку Производные РЕТТ по химической структуре отличаются от производных ТИБО налич1 циклопропильного заместителя, существенно ограничивающего конформациош подвижность молекулы. Отбор значимых индексов для этих соединений дал результа похожие на результаты, полученные для производных ТИБО. Оказалось, что исследуе: активность для производных РЕТТ зависит от донорно-акцепторных свойств атомов аз и серы и алифатических атомов углерода (рис.5). Полученные результаты согласуютс экспериментальными наблюдениями и позволяют специалистам сделать предположена механизмах взаимодействия исследованных соединений с обратной транскриптазой частности, важная роль донорно-акцепторных свойств атомов азота позвох предположить, что связывание с обратной транскриптазой происходит путем образова донорно-акцепторной связи или протонирования атома азота свободной кислотной груп

либо аминокислоты, оказывающейся после встраивания рядом с отобранными

[и.

СН3

к 4. Структурная формула молекулы ТИБО (выделены активные атомы).

к 5. Структурная формула молекулы РЕТТ (выделены активные атомы) о втором случае исследована зависимость степени адсорбции (процентного ;ния адсорбированного красителя на поверхности хлорида серебра) и максимуме (ения тиамонометинцианинов. Исследовались 32 соединения. Результаты отбора ых индексов показали, что максимум поглощения зависит от отрицательности, разности энергий граничных молекулярных орбиталей, объемной зуемости и энергии высшей занятой молекулярной орбитали; адсорбционная ность зависит от донорных и акцепторных свойств атома серы, а также от локальной энной плотности на атоме серы.

Для исследований адсорбционной способности тиамонометинцианинов поверхности микрокристаллов хлорида серебра было использовано два типа дани процентное отношение адсорбированного красителя на чистом хлориде серебра и хлор серебра к которому добавили, в качестве модификатора поверхности, роданид ка. Результаты исследований показали, что и в первом, и во втором случае адсорбции способность зависит от одних и тех же индексов, хотя во втором случае эта зависиме выражена меньше.

Анализ данных при построении гипотез об адсорбционной способнс тиамонометинцианинов показал, что для того чтобы корректно описывать адсорбцион: способность необходимо разбить исследуемые соединения на две группы, отличакшц заместителями у бензтиазольного атома азота Адсорбционная способность сульфопропильных тиамонометинцианинов зависит, главным образом от доно{ акцепторных свойств и локализованной электронной плотности на ВЗМО тиазолы атома серы. Все эти индексы связаны с зарядом на этом атоме. Таким образом, увеличе положительного заряда на атомах серы вызывает увеличение адсорбционной способност

Во третьем случае исследована зависимость хроматографической подвижш производных порфиринов от структуры молекул. Хроматографическая подвижш используется как возможный показатель липофильньности молекулы в целом липофильность молекулы определяет ее способность удерживаться в клеточной мембр что для фотодинамической терапии рака является одним из основных требовш Молекулы порфиринов являются очень крупными объектами, кроме того, наш большого числа разных заместителей приводит к возможности существования о1 большого числа конформеров. Поэтому в работе для моделирования были использов лишь 9 веществ с известными хроматографическими подвижностями в сист «хлороформ-вода».

Проведенные в работе исследования показали, что введение различных заместил в структуру порфиринов приводит к значительным изменениям в электронных свой с атомов порфиринового скелета, что, в свою очередь, отражается на подвижности, а зн; и липофильности молекул. Выяснилось, что хроматографическая подвижность зависи зарядов и поляризуемости атомов, выделенных на рис.6.

Н3С

Н3С

'исунок 6. Структурная формула молекулы порфирина. (выделены активные атомы).

ВЫВОДЫ

В работе получены следующие основные результаты:

• разработаны алгоритмы значимых индексов для исследования неоднознач! зависимостей "структура -свойство" для сложных конформационно-лабилы органических соединений;

• разработана методика прогнозирования интервала количественных значе] исследуемого свойства на основе множества значений отобранных индексов;

• разработан и реализован программный комплекс для прогнозирования свой сложных конформационно-лабильных органических соединений на основе анал неоднозначных зависимостей "структура - свойство";

• выполнено прогнозирование биологической активности анти-ВИЧ препарато производных тетрагидроимидазобензодиазипенона фенилэтилтиазолилтиомочевины;

• выполнено прогнозирование степени адсорбции и максимума поглоще тиамонометинцианинов;

• выполнено прогнозирование хроматографической подвижности порфиринов.

эликации по теме диссертации:

Биглов P.P., Боридко B.C., Бурляева Е.В., Тархов А.Е. Исследование физико-[еских и фотографических свойств тиамонометинцианинов, Сб. "Системы, методы отки и анализа данных", НПО "Кибернетика" АН РУз, Ташкент, 1997, с.225-230

>иглов P.P., Боридко B.C., Бурляев В В., Мухина О.В. Компьютерное моделирование о-химических и фотографических свойств полиметиновых красителей Сб. ботка и анализ данных" НПО "Кибернетика" АН РУз, Ташкент, 1998, с. 148-152

Биглов P.P., Боридко B.C., Бурляева Е.В. Формирование гипотез о зависимости ггура - свойство" для сложных органических соединений на основе методов тивного логического программирования. Материалы международной научной ренции "Математические методы в технике и технологиях -12", том 5, с. 21-22

/.V. Burljaev, V.S. Boridko. The "structure-activity" research for polymethine dyes with ive logic programming Proceedings of the 4-th scientific- technical conference "Process >1-99", vol.1, pp. 290-291

Юркевич A.M., Бурляев В В., Боридко B.C., Разливинская C.B. Компьютерное ирование на примере анти-ВИЧ активности производных ТИБО. Ученые записки (Т, вып. 1., МИТХТ, 2000, стр.39-42

Биглов P.P., Боридко B.C., Бурляева Е.В. Комплексная интервальная модель для < аз алия количественной активности сложных органических соединений. Русский л «ВИЧ/СПИД и родственные проблемы», т.4, № 1, 2000, стр.67-68.

Оглавление автор диссертации — кандидата технических наук Боридко, Владимир Станиславович

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ МЕТОДОВ ИССЛЕДОВАНИЯ ЗАВИСИМОСТЕЙ "СТРУКТУРА -СВОЙСТВО" ДЛЯ СЛОЖНЫХ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ.

1.1 Традиционные методы исследования зависимостей «структура-свойство».

1.2 Исследования зависимостей «структура-свойство» для конформационно гибких соединений.

1.3 Математические методы построения моделей зависимости "структура - свойство".

1.4 Прогнозирование свойств сложных органических соединений на основе исследования неоднозначных зависимостей "структура - свойство".

КРАТКИЕ ВЫВОДЫ.

ГЛАВА 2. АЛГОРИТМЫ ФОРМИРОВАНИЯ ГИПОТЕЗ О НЕОДНОЗНАЧНЫХ ЗАВИСИМОСТЯХ "СТРУКТУРА - СВОЙСТВО".

2.1 Алгоритмы выбора значимых индексов.

2.2 Построение гипотез об интервалах значений активности нового вещества.

2.3 Методика прогнозирования свойств сложных органических соединений на основе установления неоднозначных зависимостей «структура-свойство».

КРАТКИЕ ВЫВОДЫ.

ГЛАВА 3. ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ПРОГНОЗИРОВАНИЯ СВОЙСТВ СЛОЖНЫХ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ НА ОСНОВЕ УСТАНОВЛЕНИЯ НЕОДНОЗНАЧНЫХ ЗАВИСИМОСТЕЙ «СТРУКТУРА-СВОЙСТВО».

3.1 Назначение и архитектура комплекса. Выбор среды реализации.

3.2 Фиксация двумерной структуры молекул отобранных соединений. Генерация трехмерных структур исследуемых молекул.

3.3 Оптимизация трехмерных структур молекул отобранных соединений по энергетическим критериям. Расчет индексов.

3.4 Выбор энергетически приемлемых конформеров. Подготовка данных для формирования гипотез.

3.5 Выбор значимых индексов.

3.6 Построение гипотез о зависимости «структура - свойство». Тестирование гипотез методом скользящего контроля.

КРАТКИЕ ВЫВОДЫ.

ГЛАВА 4. ПРИМЕНЕНИЕ ПРОГРАММНОГО КОМПЛЕКСА ДЛЯ ПРОГНОЗИРОВАНИЕ ИНТЕРВАЛОВ ЗНАЧЕНИЙ СВОЙСТВ СЛОЖНЫХ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ.

4.1 Прогнозирование анти-ВИЧ активности ненуклеозидных ингибиторов обратной транскриптазы.

4.2 Прогнозирование хроматографической активности производных порфирина.

4.3 Прогнозирование степени адсорбции и максимума поглощения тиамонометинцианинов . 55 КРАТКИЕ ВЫВОДЫ.

Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Боридко, Владимир Станиславович

Одной из наиболее актуальных проблем в области химической и биотехнологии остается направленный синтез химических соединений, позволяющий значительно сократить стоимость исследований и ускорить путь от ряда структур соединений к целевому лекарственному препарату. Прогнозирование таких свойств новых, еще не синтезированных химических соединений, как токсичность, физиологическая и фармакологическая активность и т.п., как правило, выполняется на базе гипотез о зависимости между свойствами веществ и особенностями структуры их молекул. Такие гипотезы могут быть сформированы специалистами-химиками на основе выявления механизмов взаимодействия химических соединений, связанных с проявлениями анализируемого свойства, однако этот путь, в свою очередь, требует долгих и дорогостоящих исследований. Альтернативный подход на протяжении ряда лет развивается на стыке исследований в области химической технологии и прикладной математики и связан с анализом сведений об уже синтезированных и исследованных молекулах соединений того же класса. Наибольшее распространение получили методы, основанные на анализе двумерной структуры молекулы, в частности, на выделении отдельных структурных элементов молекулы. Развитие методов, связанных с расчетом параметров трехмерной структуры молекул, тормозилось в первую очередь недостаточной мощностью средств вычислительной техники. Выполнение таких расчетов за приемлемое время стало возможным совсем недавно. Кроме того, исследование трехмерной структуры молекул требует рассмотрения всего множества пространственных структур, соответствующих одной и той же двумерной структуре, что приводит к неоднозначной зависимости между параметрами, описывающими исследуемые молекулы, и свойствами соответствующих соединений.

В диссертационной работе предложены и реализованы методы построения гипотез о причинно-следственных зависимостях между множеством энергетически приемлемых трехмерных структур молекул сложных органических соединений и свойствами этих соединений.

Целью работы является разработка программных средств для прогнозирования свойств еще не синтезированных органических соединений на основе построения гипотез о неоднозначных причинно-следственных зависимостях между множеством энергетически приемлемых трехмерных структур молекул и свойствами соответствующих соединений.

В этом плане ставятся и решаются следующие задачи:

• анализ методов формирования множества энергетически приемлемых трехмерных структур молекул и расчета структурных и квантово-химических параметров таких структур (индексов);

• разработка алгоритмов отбора значимых индексов с учетом неоднозначности зависимости «структура-свойство»;

• разработка методики построения гипотез об интервальной зависимости значений исследуемого свойства от значений отобранных индексов;

• разработка программного комплекса, реализующего предложенную методику прогнозирования интервальных значений свойств сложных органических соединений;

• реализация и внедрение разработанного программного комплекса.

В основу выполненных в работе исследований положены методы решения задач условной оптимизации, парной линейной регрессии, анализа энергетических характеристик трехмерных структур молекул, расчета структурных и квантово-химических параметров молекул.

В диссертационной работе автором получены следующие научные результаты:

• разработаны алгоритмы отбора значимых индексов для исследования неоднозначных зависимостей "структура-свойство" для сложных конформационно-лабильных органических соединений;

• разработана методика прогнозирования интервала количественных значений исследуемого свойства на основе множества значений индексов;

• разработаны алгоритмы реализации предложенной методики с использованием стандартных оптимизационных программ.

Практическая значимость полученных в работе результатов заключается в следующем:

• разработан и реализован программный комплекс анализа неоднозначных зависимостей "структура - свойство" для сложных конформационно-лабильных органических соединений;

• выполнено прогнозирование биологической активности анти-ВИЧ препаратов -производных тетрагидроимидазобензодиазипенона и фенилэтилтиазолилтиомочевины;

• выполнено прогнозирование степени адсорбции и максимума поглощения тиамонометинцианинов;

• сформированы гипотезы о хроматографической подвижности порфиринов.

Исследования порфиринов выполнены в рамках Международной программы по созданию фотосенсибилизаторов для фотодинамической терапии рака совместно с институтом Биомедицинской химии РАМН.

Основные результаты работы докладывались и обсуждались на международной научной конференции "Математические методы в технике и технологиях - 12", Великий Новгород, 1999, международной научной конференции «Process Control-99», Словакия, Братислава, 1999, международной научной конференции «СПИД, рак и родственные проблемы», Санкт-Петербург, 2000.

Разработанный программный комплекс награжден дипломом научно-практической выставки «Информационные технологи в науке», Москва, ВВЦ, 2000.

Полученные в работе результаты изложены в 6 опубликованных работах.

Заключение диссертация на тему "Программный комплекс для прогнозирования свойств сложных органических соединений на основе анализа неоднозначных зависимостей "структура-свойство""

КРАТКИЕ ВЫВОДЫ

В главе получены следующие результаты:

• выполнено прогнозирование биологической активности анти-ВИЧ препаратов -производных тетрагидроимидазобензодиазипенона и фенилэтилтиазолилтиомочевины;

• выпо лнено прогнозирование степени адсорбции и максимума поглощения тиамонометинцианинов;

• выполнено прогнозирование хроматографической подвижности порфиринов.

ЗАКЛЮЧЕНИЕ

В работе получены следующие основные результаты:

• разработаны алгоритмы значимых индексов для исследования неоднозначных зависимостей "структура -свойство" для сложных конформационно-лабильных органических соединений;

• разработана методика прогнозирования интервала количественных значений исследуемого свойства на основе множества значений отобранных индексов;

• разработан и реализован программный комплекс для прогнозирования свойств сложных конформационно-лабильных органических соединений на основе анализа неоднозначных зависимостей "структура - свойство";

• выполнено прогнозирование биологической активности анти-ВИЧ препаратов -производных тетрагидроимидазобензодиазипенона и фенилэтилтиазолилтиомочевины;

• выполнено прогнозирование степени адсорбции и максимума поглощения тиамонометинцианинов;

• выполнено прогнозирование хроматографической подвижности порфиринов.

Библиография Боридко, Владимир Станиславович, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)

1. Cohen N.C., Blaney J.M., Humblet С., Gund P., Barry D.C., Molecular Modeling Software and Methods for Medicinal Chemistry, J. Med. Chem., 33 (1990) № 3, pp 883-894.

2. Karelson M., Lobanov V.S., Quantum-Chemical Descriptors in QSAR/QSPR Studies, Chem. Rev., 96 (1996), pp 1027-1043.

3. Кларк Т.; Компьютерная химия, М.: Мир, 1990.

4. Cohen N.C., Blaney J.M., Humblet С., Gund Р., Валу D.C., Molecular Modeling Software and Methods for Medicinal Chemistry, J. Med. Chem., 33 (1990) № 3, pp 883-894.

5. Gordeeva E.V., Katrizky A.R.; Rapid Conversion of Graphs to Three-Dimensional Representation Using the MOLGEO Program, J. Chem. Inf. Comput. Sci., 33 (1993), № 1, pp 102-111.

6. Мекенян О.Г., Тархов A.E. Швец В.И. Учет конформационной гибкости молекул в исследованиях зависимостей «структура свойство» / Вопросы медицинской химии, т.43, вып.З стр.127-138

7. Havel T.F., The Sampling Properties of Some Distance Geometry Algorithms Applied to Unconstrained Polypeptide Chains: A Study of 1830 Independently Computed Conformations., Biopolymers, 29 (1990), pp 1565-1585.

8. Carsky P., Urban M., Ab inito calculations, Lecture Notes in Chemistry, Springer-Verlag, Berlin, 16 (1980).

9. Gruber C., Buss V., Quantum-mechanically calculated properties for the development of quantitative structure-activity relationships (QSAR's). pKa-Values of phenols and aromatic and aliphatic carboxilic acids, Chemosphere, 19, (1989), p 1595

10. Caitier A., Rivali J.-L., Electronic Descriptors in Quantitative Structure-Activity Relationships., Chemom. Intell. Lab. Sys., 1 (1987), p 335

11. Methods in Computational Molecular Physics, Diercksen G.H.F., Wilson S., Eds., D. Reidel Publ. Co., Dordrecht, 1983.

12. Supercomputer Simulations In Quantum Chemistry, Lecture Notes In Chemistry, Springer-Verlag, Berlin, 16 (1980).

13. Filimonov D.A., Poroikov V.V. Design of Bioactive Compounds for Industrial Use, Oxford : Bio. Sci. Publishers, (1996), pp 47-56.

14. Marshall G.R. Binding site modelling of unknown receptors In 3D QSAR in Drug Design : Theory, Methods and Applications; H. Kubinyi, 1993 Escom: Leiden p. 80-116.

15. Тархоз A.E., Швец В.И. Мекенян О.Г. Исследование зависимостей «структура -свойство» для производных ретиналя с учетом их конформационной гибкости /Годишник на висшия химико-технологичен институт гр.Бургас, 1992, т.27, 1997, стр.85-90

16. О.Н. Понаморева, В.Д. Румянцева, А.Ф. Миронов, А.В. Чудинов, Биоорг. химия, 1995,21,4, 296-300.

17. A.F. Mironov, V.D. Rumyantseva, O.N. Ponamoreva, Mend. Commun.,1998,187-188.

18. В.Д. Румянцева, А.Ф. Миронов. Заявка на изобретение №96/103464, БИ №13 от 10.05.98.

19. Т. Wijesekera, D. Dupre, M.S. Cader, D. Dolphin, Bull. Sos. Chim. Fr., 1996,133, 765.

20. P. Hoffmann, A. Robert, B. Meunier, Bull. Sos. Chim. Fr., 1992,129,85-97.

21. Azzouni K., Morin-Allory L. // Chromatography, 1995, vol. 40, p 690.26. 3D QSAR in Drug Design. Theory, Methods and Applications. // Ed. by H. Kubinyi, ESCOM, Leiden, 1993.

22. Silverman B.D., Piatt D.E. Comparative molecular moment analysis (CoMMA): 3D-QSAR without molecular superposition. Journal of Medical Chemistry, 1996, 39, pp.2129-2140

23. Spence RA, et al. Mechanism of inhibition of HIV-1 reverse transcriptase by nonnucleoside inhibitors. Science. 1995 ;267(5200) pp:988-993.

24. Биглов P.P., Боридко B.C., Бурляева E.B., Тархов A.E. Исследование физико-химических и фотографических свойств тиамонометинцианинов, Сб. "Системы, методы обработки и анализа данных", НПО "Кибернетика" АН РУз, Ташкент, 1997, с.225-230

25. Биглов P.P., Боридко B.C., Бурляев В.В., Мухина О.В. Компьютерное моделирование физико-химических и фотографических свойств полиметиновых красителей Сб. "Обработка и анализ данных" НПО "Кибернетика" АН РУз, Ташкент, 1998, с. 148-152

26. V.V. Burljaev, V.S. Boridko. The "structure-activity" research for polymethine dyes with inductive logic programming Proceedings of the 4-th scientific- technical conference "Process Control-99", vol.1, pp. 290-291

27. Биглов P.P., Боридко B.C., Бурляева Е.В. Комплексная интервальная модель для предсказания количественной активности сложных органических соединений. Русский журнал «ВИЧ/СПИД и родственные проблемы», т.4, № 1,2000, стр.67-68.

28. Юркевич A.M., Бурляев В.В., Боридко B.C., Разливинская С.В. Компьютерное моделирование на примере анти-ВИЧ активности производных ТИБО. Ученые записки МИТХТ, вып.1., МИТХТ, 2000, стр.39-42

29. Авдеева В.И., Шапиро Б.И. Агрегация тиамонометинцианинов в растворе. Тез. Док. IV симпозиума "Физика и химия полиметиновых красителей". М., 1996, 9496.

30. Karelson М., Lobanov V.S., Quantum-Chemical Descriptors in QSAR/QSPR Studies // Chem. Rev., 1996, vol. 96, pp 1027-1043.

31. Hanson S.J., Drastal G.A., Rivest R.L. Computational Learning Theory and Natural Learning Systems. Vol. 1. A Bradford book, 1994

32. De Clercq E Perspectives of non-nucleoside reverse transcriptase inhibitors (NNRTIs) in the therapy of HIV-1 infection. Farmaco. 1999; 54(1-2) pp:26-45.

33. Di Santo R, et al. 1,2,5-Benzothiadiazepine and pyirolo2,l-d.-[l,2,5]benzothiadiazepine derivatives with specific anti-human immunodeficiency virus type 1 activity. Antivir Chem Chemother. 1998 pp:127-137.

34. Redl G., Cramer R.D.III., Berkoff C.E. // Chem. Soc. Rev., 1974, vol. 3, pp 273-279.

35. Goto H., Osawa E., Corner Flapping: a Simple and Fast Algorithm for Exhaustive Generation of Ring Conformations. // J. Am. Chem. Soc., 1989, vol. 111,24, pp 8950.

36. Дашевский В.Г.; Конформационный анализ органических молекул // М.: Химия, 1982, С. 53-109

37. Allinger N.L., Rahman М., Lii J.-H.; A Molecular Mechanics Force Field (MM3) for alcohols and ethers // J. Am. Chem. Soc., 1990, vol. Ill, 23, p 8293.

38. Dewax M.J.S., Thiel W„ Ground states of molecules. 38. The MNDO method. Approximations and parametrizations // J. Am. Chem. Soc., 1977, vol. 99, p 4899.

39. Pople J.A., Beveridge D.L., Dobosh P.A., Approximate Self-Consistent Molecular Orbital Theory. V. Intermediate Neglect Of Differential Overlap // J. Chem. Phys., 1967, vol. 47, p 2026

40. Pople J.A., Segal G.A., Approximate Self-Consistent Molecular Orbital Theory. Ill;

41. CNDO Results for AB2 and AB3 systems // J. Chem. Phys., 1966, vol. 44, p 3289.

42. Bingham R.C., Dewar M.J.S., Lo D.H., Ground states of molecules. XXVI. MINDO/3 improved version of the MINDO semiempirical SCF-MO method // J. Am. Chem. Soc., 1975, vol. 97, p 1285.

43. Dewar M.J.S., Zoeblisch E.G., Healy E.F., Stewart J.J.P., Development and use of quantum mechanical molecular models. 76. AMI: A new general purpose quantum mechanical molecular model // J. Am. Chem. Soc., 1985, vol. 107, p 3902.

44. Stewar: J J.P., Optimization Of Parameters for Semiempirical Methods. I. Method // J. Comput. Chem., 1989, vol. 10, p 209.

45. Химические приложения топологии и теории графов: Пер. с англ. под ред. Р. Кинга. // М.: Мир, 1987 560 с.

46. Gutman I., Ruscic В., Trinajstic N., Wilcox C.F., // J. Chem. Phys., 1975, vol. 62, p 3339.

47. Wiener H. // J. Amer. Chem. Soc., 1947, vol. 69, 47, p 2636; J. Chem. Phys., 1947, vol. 151, p 766; J. Chem. Phys., 1948, vol. 52, p 425,1082.

48. Hosoya H. // Bull. Chem. Soc. Japan, 1971, vol. 44, p 2332.

49. Randic M. // J. Am. Chem. Soc., 1975, vol. 97, p 6609.

50. Bonchev D., Trinajstic N. // J. Chem. Phys., 1977, vol. 67, p 4517.

51. Nakayama A., Hagiwara K., Hashimoto S., Shimoda S. // Quant. Struct.-Act. Relat., 1993, vol. 12, p 251.

52. Fukui K., Yonezawa Т., Nagata C., Interrelations of quantum-mechanical quantities concerning chemical reactivity of conjugated molecules. // J. Chem. Phys., 1957, vol. 27, 1247.

53. Veith G.D., Mekenyan O.G., Synergism Between QSAR Modeling and Physico-chemical Principles. // Quant. Struct.-Act. Relat., 1995, vol. 4, pp 155-165.

54. Martin Y.C., Lin C.T., Hetti C., DeLazzer J., // J. Med. Chem., 1995, vol 38, pp 30093015

55. Salt D.W., Yildiz N., Livingstone D.J., Tinsley C.J., The Use of Artificial Neural Networks in QSAR// Pestic. Sci., 1992, vol. 36, pp 161-170.

56. Ghoshal N., Mukhopadhayay S.N., Ghoshal Т.К., Achari В., Quantitative structure-activity relationships studies using artificial neural networks // Indian J. Chem., 1993, vol. 32b, pp 1045-1050.

57. Takahashi Y., Miyashita Y., et al., Discriminative Structural Analysis using Pattern Recognition Technique in the Structure-Taste Problem of Perillartines // J. Pharm. Sci., 1984, vol. 73, №6, pp 737-741.

58. Marshall GR,1993 Binding site modelling of unknown receptors In 3D QSAR in Drug Design: Theory, Methods and Applications; H. Kubinyi, Ed., Escom: Leiden pp. 80-116.

59. Marshall G.R. Binding site modeling of unknown receptors. // In 3D QSAR in Drug Design: Theory, Methods and Applications; H. Kubinyi, Ed., Escom: Leiden, 1993 pp. 80-116.

60. King R.D., Muggleton S., Sterberg M.J.E. Relating chemical activity to structure: an examination of ILP success/New Generation Computers, 1995, pp.269-80

61. Sternberg M.J.E. et al. Modelling the structure and funcyion of enzymes by machine learning. Faraday Discussions, 1993, pp. 438-442

62. Burljaeva E., Razlivinskaya S., Tarkhov A. Prognosis of anti-HIV activity of TIBO deriatives with inductive logic programming Procedeening of 12-th conference "Process Control'99", 1999, vol.1, pp. 292-294

63. Разливинская C.B., Тархов A.E. Применение индуктивного логического программирования для прогнозирования анти-ВИЧ активности ТИБО. В сб. трудов 12-й международной конференции «Математические методы в технике и технологиях». Новгород, 1999, с.22-24.