автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений
Автореферат диссертации по теме "Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений"
На правах рукописи
Бурляева Елена Валерьевна
ИНФОРМАЦИОННО-МЕТОДОЛОГИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ПРИ ПРОГНОЗИРОВАНИИ АКТИВНОСТИ КОНФОРМАЦИОННО-ГИБКИХ ОРГАНИЧЕСКИХ СОЕДИНЕНИЙ
05.13.01 - Системный анализ, управление и обработка информации (химическая технология)
АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук
Москва 2004 г.
Работа выполнена в Московской государственной академии тонкой химической технологии им М В Ломоносова (МИТХТ)
Официальные оппоненты - д-р техн наук, профессор Егоров Александр Федорович
д-р техн наук, профессор Филаретов Геннадий Федорович д-р хим наук, профессор Василенко Иван Александрович Ведущая организация - Институт химии растворов РАН
Защита состоится 30,05 в часов на заседании диссертационного совета Д 212120 08 при Московской государственной академии тонкой химической технологии им М В Ломоносова по адресу Москва, проспект Вернадского, 86
С диссертацией можно ознакомиться в библиотеке МИТХТ (Москва, Малая Пироговская, 1)
Реферат разослан
■Кузин Р Е
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы
Одной из важнейших задач компьютерной химии > является предсказание физических, химических и биологических свойств химических соединений. Такое прогнозирование позволяет проводить дорогостоящие экспериментальные исследования более прицельно и оценивать возможность использования соединения в качестве основы для создания лекарственного препарата на ранних стадиях его изучения. В основе исследований лежит предположение о том, что структура соединения определяет свойства, проявляемые этим соединением. Гипотезы о взаимосвязи структуры молекулы соединения и его свойствами могут быть предложены специалистами-химиками на основе выявления механизмов взаимодействия химических соединений, связанных с проявлениями анализируемого свойства, однако этот путь, в свою очередь, требует долгих и дорогостоящих исследований. Альтернативный подход на протяжении ряда лет развивается на стыке исследований в области химической технологии и прикладной математики и связан с анализом сведений об уже синтезированных и исследованных молекулах соединений того же класса. Эту область исследований кратко называют изучением зависимостей «структура- активность» (structure-activity relationships, SAR).
В тех случаях, когда зависимость между параметрами, описывающими структурную формулу, и исследуемой активностью установить не удается, возникает необходимость исследования квантово-химических параметров, характеризующих трехмерную структуру молекулы. Молекула исследуемого соединения часто является конформационно гибкой - одной и той же структурной формуле соответствует множество трехмерных структур — конформеров. В этом случае перед исследователем возникает проблема отбора конформеров, параметры которых будут учитываться при формировании зависимостей «структура — активность». Прежде всего, отобранные конформеры должны быть энергетически устойчивыми, т.е. существовать при нормальных условиях. Сформировать критерии, позволяющие выбрать один из конформеров в качестве структурного представителя всего множества конформеров, как правило, не удается - для этого необходимы долгие и дорогостоящие исследования -особенностей взаимодействия, в процессе которого молекула проявляет интересующую исследователя активность. Более того, когда взаимодействие многостадийно, на каждой * стадии молекула может существовать в виде различных конформеров, поэтому возникает необходимость рассмотрения параметров нескольких различных конформеров. Зависимость «структура - активность» оказывается неоднозначной -
одному соединению, характеризующемуся некоторым значением активности, соответствует несколько различных значений одного и того же параметра, полученных для различных конформеров этого соединения.
Таким образом, учет конформационной гибкости* молекул приводит к неоднозначности зависимости между параметрами, описывающими пространственную структуру молекулы, и активностью. При этом прогноз активности может быть представлен либо качественно (наличие/отсутствие активности), либо в виде интервала возможных значений активности. Возникает задача разработки математических методов, методик, моделей данных и программных средств для прогнозирования активности конформационно-гибких соединений на основе неоднозначных зависимостей «структура- активность».
Целью работы является разработка информационно-методологического обеспечения поддержки принятия решений при прогнозировании активности конформационно-гибких соединений на основе исследования системных связей между пространственной структурой молекул конформационно-гибких органических соединений и активностью этих соединений.
Для достижения этой цели необходимо последовательное решение следующих
задач:
• анализ, структуризация и формализация процедуры принятия решений при прогнозировании активности конформационно-гибких соединений;
• выявление и формализация иерархии данных, используемых в процессе прогнозирования, а также особенностей накопления этих данных на различных этапах прогнозирования;
• разработка специализированных математических методов для выявления и анализа неоднозначных зависимостей «структура- активность»;
• разработка методик формирования гипотез и построения прогнозов активности с учетом неоднозначности зависимостей «структура-активность»;
• формальное декларативное описание процедуры поддержки принятия решений при прогнозировании активности конформационно-гибких соединений;
• разработка структуры системы поддержки принятия решений (СППР);
• реализация СППР в виде программного комплекса;
• применение СППР для решения различных задач прогнозирования активности.
Научная новизна
• с помощью методов структурного системного анализа выполнена структуризация и формализация процедуры принятия решения при прогнозировании активности конформационно-гибких соединений;
• разработано информационное обеспечение СППР, включающее концептуальную, эпистемологическую и логическую модели данных;
• на основе методов интервального анализа разработан метод комплексных интервальных моделей для выявления неоднозначных зависимостей «структура-свойство»;
• разработаны методики прогнозирования исследуемой активности на основе гипотез о неоднозначных причинно-следственных зависимостях между квантово-химическими параметрами молекул и исследуемой активностью;
• построено формальное декларативное описание процедуры прогнозирования активности конформационно-гибких соединений;
• разработана архитектура распределенной системы вычислений квантово-химических параметров молекул с учетом их конформационной гибкости.
Практическая значимость
Разработан и прошел расширенные практические испытания программный комплекс, реализующий СППР, обеспечивающий повышение эффективности исследований на ранних стадиях создания базовых структур для лекарственных препаратов. При помощи этой системы:
• выполнено прогнозирование биологической активности производных тетрагидроимидазобензодиазипенона и фенилэтилтиазолилтиомочевины, позволившее из 20 тестовых соединений отобрать 4 наиболее перспективные базовые структуры для анти-ВИЧ препаратов;
• выполнено прогнозирование противотуберкулезной активности производных дитиакарбаминовой кислоты, позволившее из 21 тестового соединения отобрать 5 наиболее перспективных базовых структур для противотуберкулезных препаратов;
• выполнено прогнозирование максимума поглощения производных хлорофилла, позволившее из 6 тестовых соединений отобрать 2 наиболее перспективные базовые структуры препаратов для фотодинамической терапии рака.
Применение СППР позволяет отбросить заведомо неактивные соединения и сократить время, затрачиваемое на проведение экспериментальных исследований, от 1,5 до 4 раз, стоимость исследований - от 3 до 6 раз.
СППР использована при преподавании дисциплины «Интеллектуальные системы в химической технологии и биотехнологии» в МИТХТ им. М.В. Ломоносова для магистров, обучающихся по программе «Информационные системы в химической технологии и биотехнологии».
Методы исследования
Структуризация и формализация процедуры принятия решения при прогнозировании активности конформационно-гибких соединений выполнена на основе методов структурного системного анализа. Для выявления и анализа неоднозначных зависимостей использованы методы интервального анализа. Формальное декларативное описание процедуры прогнозирования активности конформационно-гибких соединений построено с помощью методов программирования в ограничениях.
Апробация работы
Основные положения и результаты работы докладывались на:
• 2-й международной конференции по проблемам управления (Москва, 2003);
• российских национальных конгрессах «Человек и лекарство» (Москва, 2001,2002);
• международных научных конференциях «Системные проблемы качества, математического моделирования, информационных, электронных и лазерных технологий» (Сочи, 2001, 2002);
• международных научно-технических конференциях «Наукоемкие химические технологии» (Ярославль, 2001, Уфа, 2002);
• международных научно-технических конференциях «Математические методы в технике и технологиях» (Тула, 1998, Новгород, 2000, Смоленск, 2001, Тамбов, 2002);
• международных научно-технических конференциях «Process Control» (Пардубице, Чехия, 1998,2000,2002; Братислава, Словакия, 1999, 2001, 2003);
• III съезде Российского биохимического общества (Санкт-Петербург, 2002),
• международной научной конференции "Quantitative Structure Activity Relationships in Environmental Sciences" (Бургас, Болгария, 2000);
• международной научной конференции "The Darmstaedter Molecular Modelling» (Эрланген, Германия, 2003);
Публикации
Полученные в работе результаты изложены в 51 опубликованных работах, в том числе 7 статьях в журналах, рекомендованных ВАК РФ.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, сформулированы цель и основные задачи исследования, дана общая характеристика работы.
Первая глава посвящена постановке задачи прогнозирования свойств конформационно-гибких соединений на основе выявления взаимосвязей между параметрами, описывающими структуру молекулы, и интересующими исследователя свойствами соединений. Построение гипотез о взаимосвязи между структурой и свойствами исследуемых соединений сводится к выявлению общей закономерности на основе ряда примеров ее проявления. Эта задача относится к классу задач индуктивного вывода. Основные проблемы, связанные с построением гипотез, связаны с тем, что исследуемая зависимость между структурными параметрами и проявляемыми соединением свойствами является косвенной и сильно зашумлена, причем ошибки могут быть вызваны как случайными, так и систематическими факторами. Полученные в процессе прогнозирования гипотезы о зависимости «структура — свойство» часто представляют для исследователя самостоятельную ценность, поскольку позволяют выдвинуть предположения о механизмах проявления интересующего исследователя свойства.
Основным результатом прогнозирования являются оценки значений активности, соединений тестовой выборки. Выбор способа оценки активности — качественная или количественная оценка — основан, в первую очередь, на возможности получения таких значений в экспериментах. Однако иногда даже в тех случаях, когда возможно получение численных значений активности из эксперимента, удается построить лишь качественный прогноз интересующей исследователя активности. При формировании количественных прогнозов, наряду с точечной оценкой значения активности, требуется оценить и погрешность найденного значения.
Поскольку выбор способа описания структуры молекулы оказывает непосредственное влияние на способы построения гипотез и прогнозирования активности, далее в первой главе рассмотрены эти способы.
При декомпозиции молекулы обычно используют иерархию «часть-целое» -молекулу разделяют на отдельные атомы или группы атомов. Такой способ декомпозиции применяется для описания структурной формулы в виде плоского графа - вершины графа описывают отдельные атомы, а дуги графа — химические связи. Альтернативным способом описания структуры графа является использование так называемых индикаторных переменных. Эти переменные принимают одно из значений {истина; ложь} в зависимости от того, присутствует ли в структуре молекулы тот или
иной фрагмент. В том случае, если молекулу описывают с помощью численных характеристик, иерархия «часть-целое» может быть использована для описания характеристик отдельных атомов.
Общепринятая классификация параметров основана на том, какие особенности структуры молекул они описывают; так, выделяют топологические, физико-химические и квантово-химические параметры. В работе рассмотрены основные особенности параметров различных типов. Наиболее известные в России исследования в области прогнозирования зависимостей «структура - активность» основаны на описаниях молекул в виде структурных формул. Так, программный комплекс PASS (Prediction of Activity Spectra for Substances), разработанный в НИИ биомедицинской химии им. В.Н. Ореховича РАМН обеспечивает прогнозирование большого количества вероятных видов биологической активности по индикаторным переменным, описывающим структурную формулу химического вещества. Биологическая активность определяется качественным образом (наличие/отсутствие). Обучающая выборка пополняется новой информацией о биологически активных веществах, отбираемой как из публикаций В научно-технической литературе, так и из многочисленных баз данных. Программный комплекс NASA WIN, разработанный на химическом факультете МГУ им. М.В. Ломоносова, обеспечивает количественное прогнозирование физико-химических свойств и биологической активности на основе топологических параметров.
В тех случаях, когда зависимость между параметрами, описывающими структурную формулу, и исследуемой активностью установить не удается, возникает необходимость исследования квантово-химических параметров, характеризующих трехмерную структуру молекулы. Однако в этом случае необходимо учитывать, что трехмерная структура молекулы не остается постоянной, поскольку энергия, необходимая на изменения двугранных углов в пространственной структуре молекулы, обычно очень мала. Возникает необходимость рассмотрения параметров целой группы энергетически устойчивых структур, причем значения параметров для этих структур могут изменяться довольно существенно. Учет трехмерной структуры молекул обуславливает необходимость использования иерархии «объект- состояние». В данном случае структурная формула представляет собой объект, а конформеры - различные состояния этого объекта.
Учет конформационной гибкости исследуемых соединений предполагает применение вычислительно сложных методов как для расчета параметров молекулы, так и для формирования гипотез и прогнозов активности. Таким образом, возникает
необходимость компьютерной поддержки всей процедуры прогнозирования активности от описания исходных данных до формирования прогнозов. Обеспечение такой поддержки предлагается реализовать за счет разработки системы поддержки принятия решений (СППР) при прогнозировании активности конформационно-гибких соединений.
Основной задачей такой системы обеспечение лица, принимающего решение (ЛПР), прогнозами, на основании которых оно принимает решение о проведении экспериментальной проверки активности наиболее перспективных соединений с целью создания базовых структур для новых лекарственных препаратов. Особенностью разрабатываемой СППР является ориентация не на поддержку управления технологическим или организационным объектом, а на поддержку принятия решений в процессе научных исследований. ЛПР * является не руководитель, а специалист-исследователь.
Методологическое обеспечение процедуры принятия решения включает в себя разработку структурированных описаний этапов формирования прогнозов на основе формальных методов выявления и анализа неоднозначных зависимостей «структура — активность». Информационное обеспечение этой процедуры состоит в выявлении источников информации и информационных связей между отдельными этапами процедуры прогнозирования и построении концептуальной, эпистемологической и логической моделей данных с учетом накопления данных в процессе прогнозирования.
Таким образом, в первой главе поставлена задача разработки информационно-методологического обеспечения прогнозирования активности конформационно-гибких соединений, включающая в себя создание формальных методов, моделей данных, методик и программных средств.
Во второй главе представлено структурированное описание процедуры, прогнозирования активности конформационно-гибких органических соединений с помощью методов системного анализа. Рассмотрены основные положения и принципы методологии системного анализа, сформулированные В.В. Кафаровым. В качестве инструмента структуризации процедуры принятия решений, установления информационных связей между отдельными этапами этой процедуры и указания управляющих воздействий исследователя использовались методы структурного системного анализа. В рамках этих методов описание предметной области строится в виде иерархической структуры, которая отражает различные уровни абстракции с ограниченным числом компонентов на каждом из уровней. Основным элементом является диаграмма, состоящая из функциональных блоков и соединяющих их дуг.
Различают 4 роли дуг: интерфейс ввода/вывода, управляющее воздействие и механизм реализации функции. Роль дуги задается ее расположением относительно функционального блока Методы структурного системного анализа позволяют удобно описать иерархическую декомпозицию «этап-подэтап» сверху вниз, поскольку обеспечивают пошаговую детализацию диаграмм. Каждый компонент описания может быть декомпозирован на другой диаграмме.
В начале разработки вся процедура принятия решения при прогнозировании активности представлена в виде простейшего компонента - одного блока и дуг, изображающих интерфейсы с внешними объектами На следующем этапе системного анализа выполнена детализация исходного функционального блока на отдельной диаграмме. Выделены этапы принятия решения, каждому из которых ставится в соответствие функциональный блок, и с помощью дуг описываются информационные и управляющие связи между этапами. Каждый этап, в свою очередь, далее декомпозируется на ряд подэтапов более низкого уровня абстракции.
Традиционно выделяют 3 этапа процедуры принятия решения при прогнозировании активности:
• Описание структуры молекулы;
• Формирование гипотез о зависимостях, между структурой соединения и активностью;
• Прогнозирование активности соединений.
Каждому этапу процедуры принятия решения, в соответствии с принципом единства функционально-целевых и причинно-следственных отношений, предложенным Л А. Серафимовым, ставится в соответствие подсистема СППР. На диаграмме, представляющей детализированное описание процедуры принятия решения при прогнозировании активности (рис.1), выделено 3 функциональных блока, соответствующих ее этапам. Помимо дуг, наследуемых от родительской диаграммы, детализированная диаграмма включает в себя дуги, описывающие взаимодействие отдельных этапов: передачу данных между этапами и обратные связи, описывающие передачу управления между этапами. В частности, после того, как будет сформирован набор гипотез, исследователь анализирует их семантику, и, возможно, вносит изменения в предложенный набор гипотез либо возвращается к этапу описания структур молекул.
Детализация структурных описаний каждого из этапов принятия решений при прогнозировании активности связана с учетом конформационной гибкости исследуемых соединений.
На этапе описания структур молекул учет конформационной гибкости приводит к необходимости расчета параметров трехмерной структуры молекулы. Если топологические параметры могут быть рассчитаны непосредственно на основе структурных формул исследуемых соединений, то для расчета параметров, характеризующих трехмерную структуру молекул, исследователю необходимо сформировать набор конформеров, рассчитать квантово-химические параметры для каждого из них и выбрать энергетически приемлемые конформеры - структуры, которые, по мнению исследователя, могут существовать при нормальных условиях. Таким образом, учет конформационной гибкости молекул приводит к существенному усложнению первого этапа методики прогнозирования активности - описанию структуры молекул исследуемых соединений. Структурная диаграмма, характеризующая этот этап, включает в себя функциональные блоки, задающие описание подэтапов описания структуры молекул, и дуги, описывающие передачу данных и управления между блоками.
Дальнейшая детализация этого этапа связана с описанием этапа получения набора конформеров. Структурная диаграмма, приведенная на рис.2, описывает этап получения набора конформеров с помощью систематического поиска.
параметры генерации
структуры
молекул г
соединений
ГЕНЕРАЦИЯ
КОНФОРМА-
ЦИЙ
параметры оптимизации
структура конформаций
> г
ОПТИМИЗАЦИЯ КОНФОРМАЦИЙ
> к
изменения параметров
ПРОВЕРКА ПОЛНОТЫ НАБОРА КОНФОРМЕ РОВ
структура конфор-меров
метод расчета энергии молекулы
метод двойного пересчета
Рис.2. Структурная диаграмма, детализирующая диаграмму формирования набора конформеров
На следующем этапе - этапе формирования гипотез учет конформационной гибкости молекул приводит к тому, что зависимость «структура - активность» оказывается существенно неоднозначной — одному значению активности соответствует несколько значений параметра, рассчитанных для различных конформеров. При формировании гипотез вначале выполняется поиск значимых параметров - параметров, для которых можно предположить существование причинно-следственной зависимости между параметром и активностью, а затем для таких параметров строят гипотезы. Ряд коэффициентов, полученных на этапе отбора значимых параметров, используется при построении гипотез. Проверка набора гипотез, в первую очередь, сводится к построению прогноза активности тех соединений, по которым были построены гипотезы (соединений обучающей выборки). Окончательное решение о составе итогового набора гипотез принимает исследователь.
Детализация структурной диаграммы, описывающей этап формирования гипотез, выполнена с учетом неоднозначности зависимости «структура - активность». Существенной особенностью детализированной диаграммы является обратная связь, описывающая влияние результатов проверки полученного набора гипотез на формирование набора значимых параметров и набора гипотез.
В этой же главе выполнено построение моделей данных, начиная с наиболее высокого, концептуального уровня. Структурные диаграммы, используемые при детализации функций, не позволяют формально описать иерархию данных. Поэтому для разработки концептуальной модели данных были использованы диаграммы «сущность — связь». Основными элементами диаграмм являются сущности и связи. Под сущностью понимается произвольное множество реальных или абстрактных объектов, каждый из которых обладает одинаковыми свойствами и характеристиками. На диаграмме сущности изображаются с помощью прямоугольников, внутри которых указано наименование сущности. Связь определяется как отношение или некоторая ассоциация между отдельными сущностями. Графически связи изображаются в форме ромба, внутри которого находится наименование связи.
Как правило, при построении концептуальной модели данных предполагается, что все описываемые в ней сущности и связи находятся на одном уровне абстракции. Такой подход особенно удобен при переходе от концептуальной модели к логической реляционной модели данных. Однако при описании динамических систем, в которых представления пользователя и соответствующие им модели данных существенно пополняются по мере функционирования системы, приходится использовать несколько уровней абстракции.
В работе выполнено построение концептуальной модели данных для принятия решений при прогнозировании активности. Далее выполнено расширение этой модели с учетом конформационной гибкости исследуемых соединений. Итоговая модель включает в себя 4 уровня абстракции (рис.3). Наиболее высокий уровень абстракции включает сущности и взаимосвязи, которые остаются неизменными в течение всего процесса прогнозирования. Следующий уровень содержит описание взаимосвязи между структурной формулой и конформерами. Необходимость выделения отдельного уровня абстракции связана с тем, что набор конформеров, характеризующих соединение, может изменяться в процессе исследований. Следующий уровень представляет взаимосвязь между конформерами и параметрами их описания. Низший уровень абстракции составляют экземпляры сущностей «активность» и «параметр».
На основе концептуальной модели была разработана эпистемологическая модель данных. Целью построения эпистемологической модели данных является учет изменений изучаемой предметной области или представлений исследователя о ней. Для учета динамики предметной области используется специальный параметр, называемый точкой соотнесения.
УРОВЕНЬ 1
N N УРОВЕНЬ 4 /
НАЗВАНИЕ ВЕЩЕСТВА ЗНАЧЕНИЕ АКТИВНОСТИ /
А Б С Т Р А Г И Р О В А Н И Е
Рис.3 Концептуальная модель данных, построенная с учетом конформационной гибкости исследуемых соединений. Наименования связей на диаграмме «сущность-связь»: О - описывает X - характеризует 3 - имеет значение И - идентифицируется С - имеет состояние
В зависимости от особенностей предметной области этот параметр можно интерпретировать как момент времени, мнение того или иного эксперта, геометрических координат, конфигурацию базы данных или этап исследований. При описании накопления данных в процессе прогнозирования наиболее важным является выявление динамики изменений представлений исследователя о решаемой проблеме, поэтому в качестве точки соотнесения выбран этап принятия решения, а точнее - этап процедуры прогнозирования. При таком подходе точки соотнесения представляются как последовательность дискретных объектов.
Анализ исходных данных и результатов для каждого из этих этапов показывает, что результаты, полученные после выполнения одного из этапов, являются исходными данными для следующего этапа. Существенной особенностью приобретения знаний в рамках предложенной методики является инкрементальное накопление данных.
Таким образом, во второй главе выполнено построение формального структурированного описания процедуры принятия решений при прогнозировании-активности с учетом конформационной гибкости исследуемых соединений, а также концептуальной и эпистемологической модели данных.
В третьей главе описан, метод комплексных интервальных моделей, обеспечивающий выявление и анализ неоднозначных зависимостей на основе методов интервального анализа. Показано, что учет конформационной гибкости приводит к существенной неоднозначности зависимости между множеством значений параметров, рассчитанных для различных конформеров одного и того же соединения, и единственным значением активности. Для анализа таких зависимостей предложено использование методов интервального анализа.
Методология нестатистического оценивания, позволяющая задавать неопределенности с помощью интервалов (областей) допустимых значений была впервые предложена Л.В. Канторовичем. Развитие этой методологии привело к выделению интервального анализа в самостоятельную область прикладной математики. Интервальный анализ позволяет оперировать недоопределенными значениями, являющимися оценкой реального значения на основе доступной в данный момент информации. Эта оценка представляется как интервал допустимых или возможных значений. Применение интервального анализа обладает целым рядом преимуществ по сравнению со статистическими методами:
• не требуется знание вероятностных характеристик неопределенных факторов, которые редко бывают точно известны на практике;
• при интервальном подходе получают строгие оценки для самих искомых величин, а не для вероятностей или математических ожиданий, что имеет большое значение при наличии малого числа замеров параметров и одной или нескольких реализаций;
• статистические характеристики не могут гарантировать определенный исход одного конкретного опыта;
• во всех случаях даются гарантированные двусторонние аппроксимации искомых решений.
Метод комплексных интервальных моделей основан на использовании интервальных оценок квантово-химических параметров органических соединений. Использование интервальных методов позволяет выявлять и анализировать неоднозначные зависимости «структура - активность». Вместо рассмотрения набора отдельных значений квантово-химического параметра осуществляется переход к рассмотрению непрерывного интервала, расположенного между минимальным и максимальным значениями параметра, полученными для данного соединения. Предполагается, что такой интервал задает область значений исследуемого параметра. Существенно, что при переходе от набора значений к интервалу значений ни одно из рассчитанных значений параметра не отбрасывается.
На этапе выявления значимых параметров проверяется существование причинно-следственных зависимостей между значениями отдельных квантово-химических параметров и активностью соединения. Для формального определения значимого параметра введем следующие обозначения:
A(i) - численное значение активности i-ro соединения, входящего в обучающую выборку. В том случае, если активность задана качественно, в
противном случае
I(i,kj) - численное значение j-ro параметра для k-го конформера i-ro соединения (l(i,kj)e[0;l]);
- максимальное значение j-ro параметра, вычисленное по всем конформерам i-ro соединения;
- минимальное значение j-ro параметра, вычисленное по всем конформерам i-ro соединения.
В том случае, если активность задана качественно, обозначим границы интервала значений j-ro параметра, рассчитанные отдельно для всех активных соединений и для всех неактивных соединений: min i AOHnio (ImaxO j)) = i'maxCj); max j AW-trae (Imin(i j)) = l'ran(j);
min j AOHalse (Imax(ij)) = I°m«x(j);
min i A(i)-falsc (Imm(iJ)) = I°mm(j)-
Если пересечение интервалов значений активных соединений пусто (интервала P'm!D(j);l'max(i)] не существует, поскольку i'mmO)'5' l'max(i))> то исследуемый параметр является незначимым, поскольку нельзя выделить общую для всех активных соединений область значений этого параметра. Аналогично, в том случае, если параметр является значимым, должна существовать область значений, общая для всех неактивных соединений
Далее выполняется анализ взаимного положения интервалов, рассчитанных по всем активным соединениям и по всем неактивным. Если эти интервалы не пересекаются, параметр считается значимым, поскольку в зависимости от значений этого параметра соединения могут быть разделены на активные и неактивные. Если интервалы пересекаются, исследуемый параметр считается незначимым, поскольку активные и неактивные соединения могут иметь одинаковые значения этого параметра. Формально приведенные выше рассуждения записываются в виде условий, наложенных на значения границ общих интервалов для активных и неактивных соединений.
Определение
Параметр j назовем значимым параметром, если:
1) I°nim(j) I°n>a>i(j) (пересечение интервалов значений j-ro параметра для всех неактивных соединений не пусто)
2) l'mm(j) l'maxG) (пересечение интервалов значений j-ro параметра для всех активных соединений не пусто)
3) либо (I тах nun max (D), либо mm i max 0»
(пересечение интервалов значений j-ro параметра для всех активных соединений не пересекается с пересечением интервалов для всех неактивных соединений).
При исследовании количественной активности соединений отбор значимых параметров базируется на построении разделительной линии. Разделительная линия представляет собой строго монотонную кривую, отделяющую максимальные значения параметра, вычисленные отдельно для каждого соединения, от минимальных. Если такую линию можно провести, предполагается, что существует причинно-следственная связь между значениями параметра и значениями активности. В противном случае зависимость между значениями параметра и значениями активности оказывается
неоднозначной и непригодной для прогнозирования; такие зависимости исключаются из дальнейшего рассмотрения. Определение
Если для ]-го параметра существует функция ЩА) такая, что выполняются следующие ограничения:
1) для V 1 1ЦА(0) <= 1тах(д) (1ЦА) ниже всех максимумов);
2) для V 1 1ЦА(0) >= 1т,„(у) (1ЦА) выше всех минимумов);
3) либо (для V ¡1, ¡2 таких, что ¡¡>¡2 (монотонность 1ЦА))
то ]-й параметр назовем значимым, а ЩА) назовем разделительной линией для ]-го параметра.
В том случае, если активность задана качественно, каждая гипотеза представляет собой набор решающих правил вида «если значения параметра находятся в заданном интервале, то соединение имеет заданную активность». Для каждого значимого параметра определяют 3 интервала значений:
• Область активных соединений - общий интервал значений параметра, который включают в себя интервалы, рассчитанные для всех активных соединений;
• Область неактивных соединений - общий интервал значений параметра, который включают в себя интервалы, рассчитанные для всех активных соединений;
• Область неопределенности - интервал между областью активных соединений и областью неактивных.
Определение
Пусть ] - значимый параметр. Назовем гипотезой разбиение области значений параметра! на 3 интервала:
1) [ЛшпО); 1°тахШ] - область неактивных соединений;
2) [11пш(Ш 1'тах0)] - область активных соединений;
3) если (1°т„0) < 1'т,п(0), ТО Р°т.хО); 1'п,,п(])] - область неопределенности; если (1°тах 1'тш(Ш. то [('тахО); 1°тт0)] - область неопределенности.
Если активность задана численно, гипотеза представляет собой линейную интервальную функцию, состоящую из двух прямых с одинаковым наклоном -мажоранты и миноранты. Мажоранта является верхней границей максимальных значений параметра, миноранта - нижней границей минимальных значений (рис.4).
Паоамето
Мажоранта
Миноранта
Активность —►
Рис.4 Формирование гипотез для соединений, активность которых задана количественно
Определение
Пусть ММ(А) и mm(A) — функции, удовлетворяющие следующим ограничениям:
1) ММ(А) = аА+Ь1 (мажоранта и миноранта тш(А)= аА+Ьг линейны и параллельны)
2) для V1 ММ(А(0) >= 1щах(<О) (мажоранта не ниже всех
Тогда функции ММ(А) и mm(A) образуют гипотезу о зависимости активности от ¡-го параметра.
При прогнозировании качественной активности интервал значений параметра, полученный для исследуемого соединения, сопоставляется с областями активных соединений и неактивных соединений. Если этот интервал пересекается с областью активных соединений и не пересекается с областью неактивных, то предполагается, что исследуемое соединение будет активно. Напротив, если этот интервал пересекается с областью неактивных соединений и не пересекается с областью активных, то предполагается, что исследуемого соединение будет неактивно. В том случае, если интервал значений значимого параметра, рассчитанный для исследуемого соединения, не пересекается ни с одной из этих областей или пересекается и с той, и с другой
4)
¿(ММ(ДО)7)) + ¿(/„.0,7) - тт(А( /))) => тш
3) для V I тт(А(0) <= 1т,„(У)
максимумов);
(миноранта не выше всех минимумов);
(мажоранта - верхняя граница
максимумов, миноранта нижняя граница минимумов)
областью, гипотезу об активности соединения по данному параметру построить нельзя - прогноз не определен,
Пусть I(s,kj) - значение j-ro параметра для к-го состояния соединения s. Для каждого значимого параметра найдем Imax(sj) и Im,„(s j).
(область неактивных соединений левее области активных) если (Imm(s j)> I°mB(j))& (Im,n(s j)< I'maxO)). Aj(s) = true если (W(sj)<r mm max (sj)>I°„m(j)).Ai(s) = false
в остальных случаях значение Aj(s)=unknown
(активность соединения s предсказать нельзя)
(область неактивных соединений правее области активных) если (Imax(s j)< I°m,n(j))&(Ux(s j) > I'mmO)). AJ(s) = true
если (Im,„(s j)> l'miK(j))&(Im.n(s j)< I0m»x(j)), A'(s) = false
в остальных случаях значение AJ(s)=unknown
(активность соединения s предсказать нельзя)
Интегрированный прогноз по всем значимым параметрам строится с использованием операции нестрогой конъюнкции. Эта операция представляет собой обобщение операции конъюнкции для 3-х значной логики (со значениями «истина» (true), «ложь» (false), «не определено» (unknown)). Конъюнкцию назовем нестрогой, поскольку конъюнкция истинного высказывания с неопределенным дает истинное высказывание.
Определение
Пусть высказывания А и В могут принимать одно из 3-х значений истинности {true, false, unknown}. Значения истинности высказывания, образованного из А и В с помощью операции нестрогой конъюнкции (П А,В), задаются таблицей истинности, представленной в табл. 1.
Таблица 1. Таблица значений истинности для нестрогой конъюнкции
True False Unknown -
True True Unknown True
False Unknown False False
Unknown True False Unknown
Определение
Прогноз активности соединения s формируется из прогнозов активности этого соединения, полученных по всем значимым параметрам, с помощью операции нестрогой конъюнкции:
A(s)=ri(AJ(s))
Для прогнозирования интервала численных значений активности границы интервала значений параметра, рассчитанные для исследуемого соединения, подставляются в уравнения мажоранты и миноранты. Далее исследуется интервал значений активности, рассчитанных по всем значимым параметрам. Если этот интервал не пуст, то он и рассматривается как прогноз. В противном случае в рамках сформулированных гипотез построить прогноз значения активности соединения s
невозможно
Определение
Ai(sj) удовлетворяет условию MM(A[(s j)) = Imax(s j); A2(sj) удовлетворяет условию mm(A2(sj)) = Im,„(sj). Обозначим Amax(sj) = max{Ai(sj),A2(sj)};
Если rnaxj(Amm(sj)) < minJ(Amax(sj))>
то A(s)e[maxJ(Amln(sj)),minJ(Amax(sj))];
в противном случае значение A(s) предсказать нельзя.
На основе метода комплексных интервальных моделей разработана методика прогнозирования активности конформационно-гибких соединений, представленная на рис.5, а также модификации этой методики с учетом способа описания активности исследуемых соединений.
Таким образом, в третьей главе разработан метод комплексных интервальных моделей, обеспечивающий выявление и анализ неоднозначных зависимостей «структура - активность». На основе этого метода разработаны методики формирования гипотез прогнозирования активности конформационно-гибких соединений.
Рис 5 Методика прогнозирования активности с учетом конформационной гибкости соединений
В четвертой главе выполнено формальное описание процедуры прогнозирования активности конформационно-гибких соединений с помощью системы ограничений Это описание обеспечивает корректность перехода от математических методов выявления и анализа неоднозначных зависимостей «структура - активность» к реализации системы поддержки принятия решений Программирование в ограничениях (constraint programming) основано на декларативном подходе, при котором решение задачи рассматривается как объект, а не как процесс, в отличие от традиционного императивного программирования
Целью методов программирования в ограничениях является формирование такого описания проблемной области, которое обеспечивает построение средствами вычислительной системы решения тех задач, для которых имеются все необходимые данные, и выработка корректной, но неполной информации о решении в остальных случаях Программирование в ограничениях требует только описания задачи, но не заставляет разработчика определять алгоритм ее решения Задача представляется как неупорядоченная совокупность отношений, которые соответствуют взаимосвязям, существующим между переменными задачи Эти отношения, называемые общим термином "ограничения", могут иметь вид уравнений, неравенств, логических выражений и т п Ключевые идеи такого подхода высказывались еще Ю И Журавлевым и Э Тыугу, однако термин "программирование в ограничениях" был предложен У. Монтанари, Е Фредером и А Макверсом
Использование декларативного подхода к описанию задачи сближает программирование в ограничениях с логическим программированием Системы логического программирования в ограничениях часто выделяют в отдельный класс В таких системах исследователю предоставляется возможность самому определять ограничения с помощью предикатов, описывающих взаимосвязи объектов предметной области К наиболее известным системам, реализующим идеи программирования в ограничениях, можно отнести Prolog III, CLP(RI), CHIP, ФЛЭНГ. Как правило, язык ПРОЛОГ расширяется за счет возможности описания и разрешения численных и интервальных ограничений
Формальное описание решения задачи прогнозирования активности конформационно-гибких соединений построено с помощью методов логического программирования в ограничениях Построенное описание решения задачи прогнозирования используется как промежуточный этап между построением обобщенных описаний СППР и реализацией СППР в конкретной вычислительной
среде. При описании, системы ограничений использован обобщенный ПРОЛОГ-подобный язык.
Для описания объектов предметной области использованы переменные, описания которых приведены в таблице 2.
Таблица 2. Описания переменных, использованных в системе ограничений
Наименование Область значений Семантика
Compound Множество исследуемых соединений Название соединения
Parameter Множество параметров, используемых для описания структуры соединения Название параметра
Conformer Множество конформеров соединения Номер конформера
Parameter_value Действительное число в интервале [0,1] Значение параметра
Activity_yalue Либо действительное число в интервале [0,1], либо {true, false} Значение активности
Области значений переменных Compound, Parameter, Conformer заданы с помощью перечисления. Взаимосвязь между соединением и проявляемой им активностью фиксируется с помощью предиката Activity(Compound, Activity_value). Взаимосвязь между соединением, конформером этого соединения и значением параметра фиксируется с помощью предиката Parameter_val(Compound, Conformer, Parameter, Parameter_value).
Границы интервала значений параметра, рассчитанного по всем конформерам данного соединения, описываются с помощью предиката Borders_compound. Его аргументами являются следующие переменные Compound и Parameter, а также 2 переменные, задающие границы интервала Left_Border и Right_Border. Поскольку границы интервала представляют собой минимальное и максимальное значение параметра, области значений последних двух переменных совпадают с областью значений переменной Parameter_value.
Нахождение границ основано на использовании функций Maximum и Minimum, значением которых являются, соответственно, минимальное и максимальное значения из набора значений, являющегося аргументом функции. Для нахождения всех значений переменной, участвующей в заданном отношении и удовлетворяющей заданным условиям, используется функция Find_all. Реализация функций Maximum, Minimum и Find_all возложена на вычислительную систему и не рассматривается при формировании системы ограничений. Далее такие предикаты для краткости будем называть встроенными.
Borders_compound(Compound, Parameter, Left_Border, Right_Border) :-
Left_Border=Minimim(Find_all(Parameter_value,
Parameter_val(Compound, any,
Parameter, Parameter_value),
all))
and
Right_Border=Maximim(Find_all(Parameter_value,
Parameter_val(Compound, any,
Parameter, Parameter_value),
all)).
В работе выполнено построение системы ограничений как для соединений, активность которых задана численно, так и для соединений, активность которых задана с помощью значений истинности. Далее приведена система ограничений для соединений с численными значениями активности.
Для проверки значимости параметра в том случае, если активность задана численно, выполняется построение разделительной линии. Разделительная линия задается с помощью предиката Separate. Его аргументами являются следующие переменные Activity_value и Sep_value. Последняя описывает значение параметра, рассчитанное с помощью разделительной линии.
Для проверки монотонности зависимости используются встроенные предикаты Rise и Fall. Предикат Rise истинен в том случае, если его аргумент монотонно возрастает, предикат Fall - если убывает.
Предикат Descriptor_num истинен, если его аргумент является значимым параметром.
Descriptor_num (Parameter):-
(for any Compound
Borders_compound(Compound, Parameter, Left_Border, Right_Border) and
Activity(Compound, Activity_value) and
Separate(Activity_value, Sep_value) and
Sep_value <= Right_Border and
Sep_value >= Left_Border)
and
(Rise (Separate(Activity_value, Sep_value)) or Fall (Separate(Activity_value, Sep_value))).
Гипотеза о взаимосвязи значений параметра и активности представляет собой интервальную линейную функцию. Параметры этой функции задаются переменными Angle, Koefl, Koef2. При построении гипотезы используется операция минимизации, которая реализуется с помощью встроенного предиката Minimize. Его аргументами являются минимизируемая формула и список параметров минимизации (список параметров заключен в квадратные скобки). Описание гипотезы выполняется с помощью предиката Hypothesis. Гипотезы формируются только для значимых параметров, поэтому в описании предиката Hypothesis используется предикат Descriptor_num.
Hypothesis (Parameter, Angle, Koefl, Koe£2)> Descriptor_num (Parameter) and (for any Compound
Borders_compound(Compound, Parameter, Left_Border, Right_Border) and Activity(Compound, Activity_value) and (Angle* Activity_value + Koefl) > = Right_Border and (Angle* Activity_value + Koef2) < = Left_Border) and
Minimize ((Sum_all (Angle* Activity_yalue +Koefl - Right_Border)+ Sum_all (Left_Border- Angle* Activity_value +Koef2)), [Angle, Koefl, Koef2]). При численном прогнозировании активности прогноз представляет собой интервал значений активности. Вначале рассчитываются интервалы по отдельным значимым параметрам (границы прогнозируемого интервала обозначены переменными Actmax, Actmin).
Prognosis_num (Compound, Parameter, Actmax, Actmin) Descriptor_num (Parameter, Angle, Koefl, Koe£2) and
Borders_compound(Compound, Parameter, Left_Border, Right_Border) and Left_Border=Angle*Actl+Koefl and Right_Border=Angle*Act2+Koef2) and Actmax=Maximum([Actl,Act2]) and Actmin=Minimum([Actl,Act2]).
Затем формируется интегрированный прогноз. В том случае, если этот предикат истинен, значения переменных Actmax, Actmin зададут границы прогнозируемого интервала активности. В том случае, если этот предикат ложен, прогноз активности для соединения Compound по имеющемуся набору гипотез построить нельзя.
Comp_Prognosis_num (Compound, Actmax, Actmin):-
Minimum (Find_alI(Actmax, Prognosis_num (Compound, any .Actmax, any), All)
<
Maximum (Find_all(Actmax, Prognosis_num (Compound, any ,Actmax, any), All).
Построение системы ограничений из приведенных выше предикатов выполняется конъюнктивно. Отдельные предикаты (например, предикаты, описывающие проверку значимости параметра и построение гипотезы) связаны отношением частичного порядка. Это свойство позволяет производить разрешение системы ограничений поэтапно, причем отдельные этапы могут быть разнесены по времени. Каждое ограничение соответствует отдельному этапу решения, задачи прогнозирования активности. Удовлетворение ограничения соответствует переходу к следующему этапу, при этом означенные переменные представляют собой исходные данные для этого этапа. Откаты при разрешении системы ограничений позволяют своевременно вносить необходимые уточнения и изменения, корректировать гипотезу, осуществлять необходимые возвраты. Таким образом, разрешение * системы ограничений соответствует прохождению полного цикла работы СППР.
Таким образом, в четвертой главе выполнено построение формального описания функционирования. СППР с помощью методов программирования в ограничениях, сформулированы, ограничения, соответствующие отдельным этапам процедуры поддержки - принятия решения и особенности разрешения полученной системы ограничений.
В пятой главе описан программный комплекс, реализующий СППР.
Основными задачами, решаемыми в рамках комплекса, являются:
• Формирование описаний конформационно-гибких соединений,
• Формирование гипотез о неоднозначных причинно-следственных зависимостях
«структура-активность»,
•1 Прогнозирование активности тестовых соединений.
Последние две задачи могут быть решены в рамках программного комплекса для соединений, активность которых задана как качественно, так и численно.
Исходными, данными для комплекса являются« качественные значения-активности соединений из обучающей выборки и сведения о двумерной структуре молекул этих соединений. Данные обо всех исследуемых соединениях объединяются в проект. Результатом работы комплекса являются гипотезы о зависимости "структура -активность", построенные для соединений обучающей выборки, и прогнозы значений исследуемой активности для соединений тестовой выборки.-
При реализации программного комплекса основное внимание уделялось удобству его настройки на изучаемую проблему. Исследователь, являющийся пользователем программного комплекса, должен иметь возможность использовать специфические параметры, существенные именно для реализуемого проекта, а при необходимости - и иные процедуры построения гипотез, например, статистические, причем расширение комплекса не должно быть сопряжено с написанием программ. Помимо этого требования, при выборе среды реализации учитывались ее доступность для широкого круга пользователей, удобство анализа и визуализации больших объемов числовых данных, удобство интеграции с другими программными средствами В качестве базовой среды реализации СППР был выбран MS Excel. Подсистемы формирования гипотез и прогнозирования активности реализованы в виде модулей, написанных на языке Visual Basic for Applications (VBA), данные и результаты расчетов хранятся в рабочих книгах MS Excel.
На этапе формирования описаний структур молекул необходим интерфейс, обеспечивающий построение и визуализацию конформаций. При разработке комплекса было принято решение не реализовывать этот интерфейс заново, а использовать для этих целей широко известную программу HyperChem, организовав управление этой программой из VBA-модуля. Вначале аналогично решение было принято и при реализации расчетов квантово-химических параметров. Для этих целей была выбрана программа МОР АС. Однако выяснилось, что выполнение этих расчетов является узким местом всей системы, поскольку требует продолжительного времени. Поэтому для реализации этих расчетов была создана система распределенных вычислений, позволяющая выполнять расчеты параллельно на нескольких персональных компьютерах, объединенных в сеть.
Структура программного комплекса приведена на рис. 6. Каждая подсистема комплекса реализует соответствующий этап прогнозирования активности конформационно-гибких соединений. Помимо подсистем, реализующих основные задачи комплекса, СППР включает в себя ряд модулей, обеспечивающих преобразования данных при их передаче от одной подсистемы к другой. Кроме того, в состав СППР включен ряд модулей, обеспечивающих визуализацию данных и результатов для пользователя.
Рассмотрим функционирование отдельных подсистем СППР более подробно.
Основными задачами, выполняемыми в рамках подсистемы формирования описания соединений, являются:
• Генерация полного набора конформеров для исследуемых соединений;
ФОРМИРОВАНИЕ ОП
ИСАНИИ СОЕДИНЕНИИ
Генерация конформаций
Проверка полноты набора конформаций * Оптимизация конформаций
Формирование описаний активности Формирование описаний структуры
Распределенная информ. система
Подготовка данных
ФОРМИРОВАНИЕ ГИПОТЕЗ
Проверка значимости параметров (чиспакг)
Построение интервальных гипотез
Проверка значимости параметров (кач. акт.)
Проверка гипотез
Подготовка данных
1Г ПРОГНОЗИРОВАНИЕ
Прогнозирование числ.значений* активности
Прогнозирование качеств, значений активности
Рис б Структура СППР
• Расчет структурных и квантово-химических параметров конформеров,
• Формирование описаний структур молекул соединений и их активности
Генерация конформаций выполняется для каждого исследуемого соединения с помощью УБЛ-модуля, под управлением которого работает программа ИурегСЬеш Целью генерации является получение набора конформаций Исходными данными для генерации конформаций являются структурные формулы исследуемых соединений Перевод структурных формул в электронный формат осуществляет исследователь, используя графический интерфейс программы ИурегСЬеш Результатом выполнения генерации является набор конформаций Количество конформаций зависит от количества вращаемых связей и величин углов поворота
Для проверки полноты набора конформеров необходимо выполнить повторную генерацию конформаций, изменив параметры генерации, оптимизировать полученные структуры и сопоставить наборы конформеров Для выполнения процедуры сопоставления структур конформеров исследователю необходимо задать критерий сходства - насколько могут отличаться координаты отдельных атомов трехмерной структуры молекулы Процедура сопоставления основана на механизмах перебора, поэтому является вычислительно сложной и требует больших затрат ресурсов компьютера
Следующие этапы позволяют окончательно сформировать описание соединения Модуль Отбор выполняет отбор энергетически приемлемых конформеров, модуль Границы выполняет вычисление границ интервалов квантово-химических параметров
Модуль Идентификация атомов обеспечивает возможность указания одинаковых имен атомов в различных молекулах При идентификации атомов исследователь может использовать структурную формулу соединения Для визуализации структурной формулы используется интерфейс программы ИурегСЬеш Исследователь имеет возможность изменять имена атомов либо непосредственно в окне Идентификация атомов, либо в окне ИурегСЬеш Переименование названия параметров, описывающих молекулу, с учетом заданных исследователем имен атомов, выполняется по команде исследователя
Значения активности соединений тестовой выборки могут быть занесены исследователем на специально предназначенный для этого лист файла описания проекта
Как было отмечено выше, применение традиционного персонального компьютера для выполнения квантово-химических расчетов при большом количестве исходных данных - трехмерных структур исходной молекулы требует чрезмерно
больших затрат времени. Возникает необходимость проведения вычислений параллельно на нескольких персональных компьютерах, объединенных в сеть. Эффективное управление ресурсами персональных компьютеров в этом случае может быть обеспечено только при использовании распределенной информационной системы (РИС), обеспечивающей передачу данных и организацию вычислений в сети.
РИС является подсистемой СППР. Архитектура РИС приведена на рис. 7. Задачами системы является диспетчеризация данных, управление запуском программы расчетов квантово-химических параметров молекул и обработка полученных результатов.
В качестве стандартной программы для оптимизации трехмерных структур молекул и расчета квантово-химических параметров молекул выбрана программа МОРАС. Это широко известная, многократно апробированная, свободно распространяемая программа. Программа осуществляет оптимизацию геометрии исходной структуры по энергетическому критерию с помощью методов молекулярной механики или полуэмипических методов расчета общей энергии молекулы.
Архитектура РИС построена по технологии «клиент - сервер». Реализация этой технологии выполнена на основе свободно распространяемого SQL-сервера MySQL, считающегося самым быстрым SQL сервером. Работу с транзакциями и автоматическое восстановление таблиц- в случае сбоя обеспечивает встраивающаяся в MySQL технология innodb. Клиент и сервер обмениваются данными, используя протокол HTTP и интерфейс CGI. Программы написаны таким образом, что клиентской части не требуется постоянной связи с сервером баз данных. В качестве HTTP сервера используется русская версия Apache, обеспечивающая корректную работу с различными кодировками кириллицы. Веб-интерфейс для базы данных реализован на языке PHP (PHP: Hypertext Preprocessor), который создан специально для web-программирования и имеет встроенный интерфейс к базе данных (БД) MySQL. Управление программой МОРАС, взаимодействие с сервером HTTP и БД и экспорт исходных данных в MySQL на клиентских компьютерах осуществляется с помощью программ на языке Perl. Все использованные программные средства являются бесплатными, что позволяет организовать распределенную обработку информации без дополнительных финансовых затрат.
База данных РИС состоит из 5 таблиц. Таблица "Соединение" хранит данные об исследуемых соединениях. Таблица "Конформер" описывает отдельные конформеры, а после окончания расчетов в нее заносятся данные о квантово-химических параметрах, характеризующих конформер в целом. Таблица "Исходные данные" содержит
трехмерные координаты атомов исходных структур, а таблица "Результаты" -координаты и квантово-химические параметры отдельных атомов В таблице "Очередь" хранятся данные о том, когда и какой компьютер получил задание на расчет параметров данного конформера, а также о том, когда расчет был завершен
Экспорт данных осуществляет программа заполнения базы данных. Программа диспетчеризации данных обращается к серверу БД, запрашивая' данные о необработанных конформерах. В том случае, если таких данных нет, программа повторяет запрос через промежуток времени, задаваемый в файле конфигурации. В противном случае программа диспетчеризации формирует файл - задание для программы МОРАС, запускает МОРАС и ожидает окончания ее работы. При возникновении ошибки программа диспетчеризации отправляет исследователю отчет об ошибке по электронной почте. По окончании работы МОРАС программа диспетчеризации заполняет таблицы "Конформер", "Результаты" и "Очередь". Исследователь осуществляет контроль за состоянием расчетов, используя «теЬ-интерфейс базы данных.
Модуль подготовки данных к формированию гипотез не относится ни к одной из подсистем СППР. После того, как закончены расчеты для отдельных соединений, исследователь принимает окончательное решение о том, какие соединения будут включены в обучающую выборку при построении гипотез. Подготовка к формированию гипотез состоит в нормировании значений параметров и активности и созданию структур данных, удобных для построения гипотез.
Подсистема формирования гипотез обеспечивает отбор значимых параметров, построение и проверку гипотез. Методы формирования гипотез существенно различны для соединений, активность которых задана численно или качественно. Рассмотрим вначале соединения с численными значениями активности.
Формальная проверка значимости выполняется для каждого параметра, описание которого включено в книгу описаний гипотез. При проверке значимости по данным, находящимся на листе описаний параметра, выполняется попытка построения разделительной линии. В том случае, если удается построить линейную разделительную линию, подбор параметров нелинейной линии не производится. Найденные параметры, сообщение о результатах поиска разделительной линии и окончательные результаты формальной проверки значимости фиксируются на том же листе. Для визуализации разделительных линий выполняется построение диаграмм, включающих границы интервалов значений параметра и разделительные линии.
При выполнении формальной проверки значимости параметров для соединений с активностью, заданной с помощью значений истинности, рассчитываются границы интервалов, представляющих собой пересечения интервалов нормированных значений параметров. Для проверки значимости определяется взаимное положение этих границ.
РОСЦНЛЦИОНАЛЬНАИ
библиотека
СПетербгрг
оэ 100 «ГГ
Окончательный набор значимых параметров формирует исследователь на основе результатов формальной проверки значимости. Процедура установления значимости выполняется для каждого параметра, включенного в книгу описаний гипотез.
Формирование гипотез выполняется для каждого значимого и возможно значимого параметра. В том случае, если активность соединений задана с помощью значений истинности, границы интервалов, задающие гипотезу, уже находятся на листе гипотез после выполнения процедуры формальной проверки значимости.
В том случае, если активность соединений задана численно, при формировании гипотез выполняется построение мажоранты и миноранты. Результаты фиксируются на том же листе. Для визуализации мажоранты и миноранты выполняется построение диаграмм, включающих границы интервалов значений параметра, мажоранту и миноранту. Для проверки прогностических возможностей полученных гипотез после построения гипотез выполняется прогнозирование активности соединений тестовой выборки - рассчитывается интервал предполагаемых значений активности. По результатам формирования гипотез исследователь может изменить разбиение параметров на значимые и незначимые. В этом случае он должен повторно выполнить процедуру принятия решения о значимости параметра, изменив свою оценку параметра.
При подготовке к прогнозированию активности необходимо сформировать описания соединений тестовой, выборки, используя те же процедуры, что и для соединений обучающей выборки. Подсистема прогнозирования активности включает в себя 2 модуля, ориентированных на прогнозирование численных и качественных значений активности.
При прогнозировании численных значений активности выполняется расчет границ прогнозируемого интервала значений активности и длины интервала прогноза для каждого тестового соединения. Если интегрированный прогноз не определен, то в строку длина записывается значение ошибка. Как правило, исследователя интересуют ненормированные значения активности, для формирования которых используется отдельный модуль. В том случае, если имеются данные об активности тестовых соединений, выполняется проверка правильности прогноза
При прогнозировании качественных значений активности выполняется сопоставление гипотез и интервалов значений параметра, рассчитанных для тестовых соединений. Значением результата прогноза по одному значимому параметру может быть либо ИСТИНА (соединение активно), либо ЛОЖЬ (соединение неактивно), либо
ошибка (прогноз не определен). Как и в случае численного прогноза, результат прогнозирования может быть сопоставлен с экспериментально определенными значениями активности в том случае, если эти значения известны.
Таким образом, в пятой главе описана реализация СППР в виде программного комплекса.
В шестой главе описано применение разработанных методов прогнозирования активности. Основные сведения о результатах применения сведены в табл.3.
Таблица 3. Применение разработанных методов прогнозирования активности
Группа соединений производные Т1ВО производные РЕТТ производные дитиокарбами-новой кислоты производные хлорина
Перспективы применения соединений анти-ВИЧ препараты анти-ВИЧ препараты противотуберкулезные препараты терапия рака
Способ описания активности количеств. количеств. качеств. качеств.
Общее количество соединений 48 51 32 14
Обучающая выборка 20 15 30 18 8
Тестовая выборка 7 13 12 9 14 6
Средняя длина интервалов, рассчитанных методом скользящего контроля 25 17 18
Средняя длина интервалов, рассчитанных для соединений тестовой выборки 27 21 20 35
Количество неактивных соединений тестовой выборки 6 5 4 6 9 4
Количество активных соединений тестовой выборки 1 3 4 1 3 2
Примечание: Для соединений, активность которых задана качественно, средняя длина интервала прогноза не может быть рассчитана
Первое применение связано с прогнозированием анти-ВИЧ активности ряда ненуклеозидных ингибиторов обратной транскриптазы. Ненуклеозидные ингибиторы обратной транскриптазы (NN^1$) появились как анти-ВИЧ-препараты сравнительно недавно. По сравнению с аналогами нуклеозидов, NN^1$ существенно менее токсичны, гораздо более химически устойчивы и не подвергаются такой быстрой биологической деградации и выводу из организма. В настоящее время проводятся активные поиски новых NN^1$, а также исследования клинической активности комплексных препаратов на основе аналогов нуклеозидов и NN^1$.
Задачей исследований являлось прогнозирование 50% ингибирующей концентрации ряда NN^1$ - производных тетрагидроимидазобензодиазипенона (Т1ВО) и фенилэтилтиазолилтиомочевины (РЕТТ). Исследования выполнялись совместно с кафедрой Биотехнологии Московской государственной академии тонкой химической технологии, в качестве экспертов выступали сотрудники кафедры.
Для исследований использовались взятые из литературы данные о структуре и 50% ингибирующей концентрации (1С50). В качестве активности рассматривались значения обратного логарифма 1С50
Результаты отбора значимых параметров для производных Т1ВО показали, что исследуемая активность зависит в первую очередь от донорно-акцепторных свойств атомов азота и серы (кислорода) и некоторых атомов ароматического ядра. Полученные прогнозы оказались правильными как для соединений обучающей выборки (при проверке гипотез методом скользящего контроля), так и для соединений тестовой выборки (см. табл.4).
Таблица 4. Результаты прогнозирования нормализованных значений активности соединений первой тестовой выборки производных Т1ВО
N вещества эксп. акт. левая граница интервала прогноза правая граница интервала прогноза длина интервала
р-1 0,061 -0,326 0,109 0,435
р-Н 0,475 0,323 0,561 0,238 ■
р-Ш 0,337 0,261 0,340 0,079
р-1У -0,006 -0,318 0,022 0,340
р-У 0,378 0,337 0,592 0,255
рЛП 0,053 -0,013 0,139 0,152
р-УИ 0,823 0,684 1,097 0,413
Поскольку полученные прогнозы оказались достаточно грубыми, было принято решение рассматривать только соединения, содержащие атом серы, при этом обучающая и тестовая выборки были дополнены. В результате были сформированы новые гипотезы, причем количество значимых параметров увеличилось. Однако ряд параметров был исключен из числа значимых по результатам проверки гипотез методом скользящего контроля, и еще ряд параметров - по решению эксперта. При проверке итогового набора гипотез методом скользящего контроля прогнозы оказались правильными и более точными, чем прогнозы, построенные по первому набору гипотез (см. табл.5).
Таблица 5. Результаты прогнозирования нормализованных значений активности соединений второй тестовой выборки производных Т1ВО
N в-ва эксп. акт. левая граница интервала прогноза правая граница интервала прогноза длина интервала
И 0,402 0,358 0,554 0,196
Ш 0,760 0,693 0,897 0,204
Ы 0,753 0,631 0,782 0,151
Ь-П 0,669 0,588 0,711 0,123
Ь-Ш 0,762 0,699 0,975 0,276
МУ 0,762 0,623 0,903 0,280
Ь-У 1,076 0,975 1,310 0,335
И-У1 0,455 0,387 0,515 0,128
Ь-УП 0,847 0,781 0,962 0,181
р-И 0,403 0,316 0,528 0,212
р-1П 0,261 0,119 0,294 0,175
р-У 0,302 0,288 0,522 0,234
р-У1 0,762 0,623 0,871 0,248
Использование данных рентгеноструктурного анализа о положении молекулы Т1ВО в ингибитор-связывающем «кармане» фермента позволило уточнить гипотезы о взаимосвязи «структура-активность» и улучшить качество прогнозов путем отбора «активных» конформеров.
Для анализа прогностических возможностей, наряду с методом комплексных интервальных моделей, для построения гипотез о зависимости «структура -
активность» использовались традиционные методы регрессионного анализа. При проведении регрессионного анализа в качестве структурного представителя каждого вещества рассматривался «активный» конформер, рассчитанная теплота образования которого минимальна. Исследование взаимной зависимости параметров с помощью корреляционной матрицы показало, что параметры сильно закоррелированы. Тем не менее, был отобран набор регрессоров, коэффициент корреляции между которыми не превысил 0,4. Далее были построены все возможные одно-, двух- и трехпараметрические модели на основе выбранного набора регрессоров, для каждой модели проверялась адекватность и значимость коэффициентов. Наилучшей оказалась трехпараметическая модель. Однако ее прогностические возможности оказались неприемлемыми: для 3 соединений обучающей выборки и 5 соединений тестовой выборки прогнозы оказались неправильными.
При исследовании производных РЕТТ в качестве тестовых выборок использовались 2 группы соединений, одна из которых включала соединения, структурно похожие на соединения обучающей выборки, а вторая отличалась наличием фиксирующего циклопропильного мостика, который снижает конформационную гибкость молекулы. Все полученные прогнозы оказались правильными (в табл. 6 приведены результаты прогнозирования для соединений второй тестовой выборки).
Таблица 6. Результаты прогнозирования нормализованных значений активности соединений второй тестовой выборки производных РЕТТ
N в-ва норм, акт. левая граница интервала прогноза правая граница интервала прогноза длина интервала
га-1 0,065 0,005 0,194 0,189
ш-П 0,261 0,196 0,435 0,239
т-Ш 0,022 -0,005 0,218 0,223
т-Р/ 0,283 0,217 0,311 0,094
т-У 0,000 -0,009 0,183 0,192
т-У1 0,043 -0,006 0,117 0,123
тЛШ 0,000 -0,015 0,092 0,107
т-УШ 0,022 0 0,214 0,214
т-1Х 0,217 0,113 0,376 0,263
Производные РЕТТ по химической структуре отличаются от производных TIBO, однако, в число значимых вошли параметры, похожие на параметры, признанные значимыми для производных TIBO. Полученные результаты позволили экспертам сделать предположения об одинаковости механизмов взаимодействия исследованных соединений с амно кислотными остатками фермента обратной транскриптазы.
Второе применение связано с исследованием противотуберкулезной активности производных дитиокарбаминовой кислоты. Поиск новых противотуберкулезных препаратов является необходимым условием в борьбе с туберкулезной инфекцией, поскольку несмотря на имеющийся в здравоохранении набор противотуберкулезных средств, эффективность их применения снижается из-за быстрого приобретения лекарственной устойчивости микобактерий туберкулеза к наиболее активным противотуберкулезным препаратам. Исследования производных дитиокарбаминовой кислоты проводились совместно с отделом медицинской химии Государственного научного центра по антибиотикам (ГНЦА), в качестве экспертов выступали сотрудники этого отдела. Объектом исследований являлась антимикробная активность синтезированных в ГНЦА производных дитиокарбаминовой кислоты. Активность измерялась качественно - определялась способность исследованных соединений подавлять рост микобактерий на твердой среде.
Поскольку количество конформаций у всех исследуемых соединений достаточно велико, проверка полноты набора конформаций выполнялась не методом половинного деления, а методом изменения начального значения угла поворота
Результаты прогнозирования активности соединений тестовой выборки сведены в табл.7.
Следующей задачей являлось прогнозирование максимума поглощения ряда производных хлорина. В настоящее время в ряду производных хлорина ведется активный поиск новых фотосенсибилизаторов для фотодинамической терапии рака, оптимизировать химический синтез в ряду производных хлорина Исследования выполнялись совместно с кафедрой химии и технологии тонкого органического синтеза МИТХТ им. М.В. Ломоносова.
Конформационное разнообразие производных хлорина обуславливается различным положением в пространстве заместителей. Проведенный анализ показал, что различные конформеры имеют существенно различные значения квантово-химических параметров. При генерации конформаций предполагалось, что ядро молекулы имеет плоскую структуру. В результате удалось выявить зависимости между максимумом поглощения и такими параметрами, как разность между энергиями
высшей занятой и низшей свободной молекулярной орбиталей, а также донорно-акцепторными свойствами ряда атомов.
Таблица 7. Прогнозирование активности производных диатиокарбаминовой кислоты
№ соед. Эксп. акт. Электроотрицательность РВЗНСМО Заряд атома Итоговый прогноз
Т_1 Неактивно Не определено Не определено Неактивно Неактивно
т_п Неактивно Неактивно Неактивно Неактивно Неактивно
т_ш Неактивно Неактивно Неактивно Неактивно Неактивно
Т_ГУ Неактивно Не определено Не определено Неактивно Неактивно
т_у Неактивно Не определено Не определено Неактивно Неактивно
Т_У1 Неактивно Неактивно Неактивно Неактивно Неактивно
Т_УН Неактивно Неактивно Неактивно Неактивно Неактивно
Т_УШ Неактивно Неактивно Неактивно Неактивно Неактивно
Т_1Х Неактивно Неактивно Неактивно Неактивно Неактивно
т_х Активно Активно Активно Активно Активно
Т_Х1 Активно Не определено Не определено Не определено Не определено
т_хп Активно Активно Активно Активно Активно
т_хш Активно Активно Активно Не определено Активно
Т_Х1У Активно Не определено Не определено Не определено Не определено
Таким образом, в шестой главе представлены результаты расширенных практических испытаний СППР. Результаты применения СППР и сравнения полученных результатов с результатами, полученными с помощью статистических методов, подтверждают прогностические возможности реализованных в виде СППР методик прогнозирования активности конформационно-гибких соединений. Применение СППР позволяет отбросить заведомо неактивные соединения и сократить время, затрачиваемое на проведение экспериментальных исследований, не менее чем в 3 раза, стоимость исследований - не менее, чем в 6 раз.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
• с помощью методов системного анализа выполнены анализ, структуризация и формализация процедуры принятия решений при прогнозировании активности конформационно-гибких соединений;
• разработано информационное обеспечение СППР, включающее концептуальную, эпистемологическую и логическую модели данных;
• на основе методов интервального анализа разработан метод комплексных интервальных моделей для выявления неоднозначных зависимостей «структура-активность»;
• разработана методика прогнозирования исследуемой активности на основе гипотез о причинно-следственных зависимостях между квантово-химическими параметрами молекул и исследуемой активностью;
• построено формальное декларативное описание процедуры прогнозирования активности конформационно-гибких соединений,
• разработана и реализована система поддержки принятия решений при прогнозировании активности конформационно-гибких соединений, обеспечивающая повышение эффективности исследований на ранних стадиях создания базовых структур для лекарственных препаратов;
• разработана архитектура распределенной системы вычислений квантово-химических параметров молекул с учетом их конформационной гибкости;
• проведены расширенные практические испытания СППР:
• выполнено прогнозирование биологической активности производных тетрагидроимидазобензодиазипенона и фенилэтилтиазолилтиомочевины, позволившее из 13 тестовых соединений отобрать 3 наиболее перспективные базовые структуры для анти-ВИЧ препаратов;
• выполнено прогнозирование противотуберкулезной активности производных дитиакарбаминовой кислоты, позволившее из 21 тестового соединения отобрать 5 наиболее перспективных базовых структур для противотуберкулезных препаратов;
• выполнено прогнозирование максимума поглощения производных хлорофилла, позволившее из 6 тестовых соединений отобрать 2 наиболее перспективные базовые структуры препаратов для фотодинамической терапии рака.
• Применение СППР позволяет отбросить заведомо неактивные соединения и сократить время, затрачиваемое на проведение экспериментальных исследований, от 1,5 до 4 раз, стоимость исследований - от 3 до 6 раз.
Публикации по теме диссертации
1. Бурляева Е.В., Тархов А.Е., Бурляев В.В., Швец В.И. Моделирование сродства полихлоргидроксибифенилов к эстрогенному рецептору методом комплексных интервальных моделей // Вопросы биологической, медицинской и фармацевтической химии, № 3,2001, с.44-50
2. Бурляева Е.В., Тархов А.Е., Бурляев В.В., Юркевич A.M., Швец В.И. Использование комплексных интервальных моделей на примере прогнозирования ингибирующей активности ненуклеозидных ингибиторов обратной транскриптазы // Вопросы медицинской химии, вып. 2, т. 48, Москва, 2002, с. 219-230
3. Бурляева Е.В., Гаврилов А.В. Система управления принятием решений при выборе перспективных сложных органических соединений // Приборы и системы. Управление, контроль, диагностика, №11,2002, с.9-13
4. Бурляева Е.В., Гаврилов А.В. Применение методов констрейнт-программирования для принятия решений при выборе перспективных сложных органических соединений // Приборы и системы. Управление, контроль, диагностика, № 3, 2003, с.14-17
5. Бурляева Е.В., Комардин П.В., Юркевич A.M., Швец В.И. Уточнение прогноза активности ингибиторов ВИЧ с учетом их конформации в активном центре фермента // Химико-фармацевтический журнал, № 9,2003, с.31-35
6. Бурляева Е.В., Берлин М.Э. Автоматизированная система распределенных вычислений параметров сложных органических соединений // Приборы и системы. Управление, контроль, диагностика, № 12,2003, с.7-10
7. Бурляева Е.В. Информационная система прогнозирования ингибирующей активности ненуклеозидных ингибиторов обратной транскриптазы // Биомедицинские технологии и радиоэлектроника, № 6,2003, с.28-33
8. Бурляева Е.В., Ралев Н., Швырев А.В. Инструментальный комплекс для разработки объектно-ориентированных интеллектуальных систем // Сб. тезисов докладов международной научно-технической конференции "Нечеткая логика, интеллектуальные системы и технологии", Изд-во Владимирского гос. университета, Владимир, 1997
9. Бурляева Е.В., Ралев Н., Швырев А.В. Индуктивный вывод в объектно-ориентированных интеллектуальных системах // Сб. тезисов докладов международной научно-технической конференции "Нечеткая логика,
интеллектуальные системы и технологии", Изд-во Владимирского гос. университета, Владимир, 1997
10. Бурляева Е.В., Биглов P.P., Боридко В С, Тархов А.Е. Исследование физико-химических и фотографических свойств тиамонометинцианинов // Сб. "Системы, методы обработки и анализа данных", НПО "Кибернетика" АН РУз, Ташкент, 1997, с.225-230
П.Бурляева Е.В., Ралев Н. Разработка объектно-ориентированных интеллектуальных систем средствами индуктивного логического программирования // Сб. "Системы, методы обработки и анализа данных", НПО "Кибернетика" АН РУз, Ташкент, 1997, с.234-238
12. Бурляева Е.В., Биглов P.P., Тархов А.Е. Исследование зависимостей "структура-свойство" для производных ретиналя с помощью методов индуктивного логического программирования // Сб. "Системы, методы обработки и анализа данных", НПО "Кибернетика" АН РУз, Ташкент, 1997
13. Burljaeva E.V., Biglov R.R. Inductive logic programming for «structure-activity» research for complex organic compounds // Proceedings of the 3-th scientific - technical conference "Process Control-98", vol.1, pp. 39-41
14. Бурляева Е.В., Биглов P.P., Боридко B.C. Формирование гипотез о зависимости "структура - свойство" для сложных органических соединений на основе методов индуктивного логического программирования // Материалы международной научной конференции "Математические методы в технике и технологиях - 12", том 5, с. 21-22
15. Бурляева Е.В., Тархов А.Е. Разливинская СВ. Исследование механизмов противоопухолевого действия производных ретиноевой кислоты с использованием методов индуктивного логического программирования // Сб. "Обработка и анализ данных" НПО "Кибернетика" АН РУз, Ташкент, 1998, с. 138-142
16. Burljaeva E.V., Biglov R.R. A method for prediction of quantitative activity of complex organic compounds based on inductive logic programming // Proceedings of 12-th conference "Process Control'99", Slovak University of Technology, Bratislava, Slovak Republic, 1999, vol.1, pp.288-289.
17. Burljaeva E.V., Razlivinskaya S.V., Tarkhov A.E. Prognosis of anti-HIV activity of TIBO deriatives with inductive logic programming // Proceedings of 12-th conference "Process
Control'99", Slovak University of Technology, Bratislava, Slovak Republic, 1999, vol 1, pp 292-293
18 Бурляева Е В , Разливинская С В, Андрианов Д Е Моделирование неоднозначных зависимостей "структура - свойство" для сложных органических соединений //Компьютерные технологии обработки и анализа данных Ташкент НПО "Кибернетика" АН РУз, 2000г - с 135-139
19 Бурляева Е В, Разливинская С В Прогнозирование ВИЧ-активности производных тиомочевины // Материалы международной научной конференции "Математические методы в технике и технологиях - ММТТ 2000", том 5, с 182-183
20 Бурляева Е В, Юркевич А М, Тархов А Е Оценка прогностических возможностей индуктивного логического программирования для исследований NNRTI // Русский журнал «ВИЧ/СПИ,Ц и родственные проблемы», т 4, № 1,2000, стр 66-67
21 Бурляева ЕВ, Биглов Р.Р., Бурляев В В Комплексная интервальная модель для предсказания количественной активности сложных органических соединений // Русский журнал «ВИЧ/СПИЦ и родственные проблемы», т 4, № 1,2000, стр 67-68
22 Burljaeva Е V, Bondko V S , Tarkhov A E Program Pack for Prediction of Properties for Complex Organic Compounds // Proceedings of 4-th International conference "Process Control'2000", University of Pardubice, Pardubice, Czech Republic, 2000, pp 190-191
23 Shvets VI, Burljaev V V, Burljaeva E V, Tarkhov A E Study of polychlormated hydroxybiphenyl estrogen receptor binding affinity // Book of abstracts 9-th International Workshop on Quantitative Structure Activity Relationships in Environmental Sciences, Bourgas, Bulgaria, 2000 ,p 23
24 Burljaeva E V, Biglov R R, Burljaev V V Formal approach to 3D-QSAR based on inductive logic programming // Book of abstracts 9-th International Workshop on Quantitative Structure Activity Relationships in Environmental Sciences, Bourgas, Bulgaria, 2000,p 53
25 Бурляева Е В, Швец В И, Юркевич А М, Тархов А Е Метод комплексных интервальных моделей для прогнозирования свойств ненуклеозидных ингибиторов обратной транскриптазы // Тезисы докладов VIII Российского национального конгресса «Человек и лекарство», Москва, 2001, с 639
26 Бурляева Е В, Тархов А Е, Биглов Р Р Изучение взаимодействия полихлоргидроксибифенилов с эстрогенным рецептором // Ученые записки МИТХТ Вып 2Изд МИТХТим Ломоносова, 2000, с 71-73
27. Бурляева Е.В., Разливинская СВ. Метод интервальных моделей для прогнозирования свойств биологически активных соединений // Сборник трудов 14 международной научной конференции «Математические методы в технике и технологиях», том 5, с. 73. Смоленск, 2001.
28. Burljaeva E.V., Biglov R.R., Burliaev V.V., Tarkhov A.E. Extremal identification tasks of "Structure- Property" systems for complex organic compounds // Summary Volume "Proceedings of the international conference Process Control 2001", Slovak republic, 2001, p.79.
29. Бурляева Е.В. Применение методов констрейнт-программированя для решения задач интервального анализа // "Системные проблемы качества, математического моделирования, информационных, электронных и лазерных технологий", Материалы международной конференции, Москва-Сочи, 2001, с. 109-110
30. Бурляева Е.В., Биглов P.P., Разливинская СВ. Интервальный анализ зависимости "структура-свойство" для сложных органических соединений"// "Системные проблемы качества, математического моделирования, информационных, электронных и лазерных технологий", Материалы международной конференции, Москва-Сочи, 2001, с.110-111
31. Бурляева Е.В., Разливинская СВ. Принятие решений при выборе наиболее перспективных ненуклеозидных ингибиторов обратной транскриптазы // Тезисы докладов 7-й международной научно-технической конференции «Наукоемкие химические технологии 2001», Ярославль, Изд-во ЯГТУ, 2001, с. 90-91
32. Бурляева Е.В., Юркевич А.М., Комардин П.В. Использование ненуклеозидных ингибиторов обратной транскриптазы в качестве анти_ВИЧ препаратов // Тезисы докладов 7-й международной научно-технической конференции «Наукоемкие химические технологии 2001», Ярославль, Изд-во ЯГТУ, 2001, с. 102
33. Бурляева Е.В., Морозова Я.В., Кошелев - СВ. Применение комплексных интервальных моделей для установления связи "структура-свойство" сложных органических соединений // Сб. статей "Компьютерные и информационные технологии обработки и анализа данных", ИПЦ МИ ВлГУ, г. Муром, 2001, с.130-131
34. Бурляева Е.В., Морозова Я.В., Разливинская СВ., Жизняков А.Л. Системный подход к исследованию зависимостей "структура-свойство" сложных органических соединений // Сб. статей "Компьютерные и информационные технологии обработки и анализа данных", ИПЦ МИ ВлГУ, г. Муром, 2001, с. 132-134.
35. Burljaeva E.V., Gavrilov A., Saevsky A. The Structured Objects Unification by Constraints Net Satisfaction // Proceedings ofthe 3-th International Workshop "Computer Science and Informational Technologies", Ufa State Aviation Technical University, 2001, vol.1, pp. 17-23
36. Burljaeva E.V., Biglov R.R. Using Properties of the Problem. for Lower Bound Computing in the Branch and Bound Method//. Proceedings of the International Carpathian Control Conference ICCC'2001, Krynica, Poland, 2001, p.441-446
37. Бурляева Е.В., Комардин П.В., Юркевич A.M., Швец В.И. Уточнение прогноза активности ненуклеозидных ингибиторов обратной транскриптазы на основе учета конформационных особенностей их молекул // Тезисы докладов IX Российского национального конгресса "Человек и лекарство", Москва, 2002, с.590.
38. Бурляева Е.В., Бурляев В.В., Разливинская СВ., Юркевич А.М., Швец В.И. Анализ прогностических возможностей метода комплексных интервальных моделей на примере ненуклеозидных ингибиторов обратной транскриптазы // Тезисы докладов IX Российского национального конгресса "Человек и лекарство", Москва, 2002, с.590.
39. Бурляева Е.В., Разливинская СВ. Выбор наиболее перспективных ненуклеозидных ингибиторов обратной транскриптазы // Тезисы. докладов 8-ой международной научно-технической конференции "Наукоемкие химические технологии 2002", Уфа,
2002, с.79.
40. Бурляева Е.В., Разливинская СВ. Система поддержки принятия решений для выбора перспективных органических соединений. Материалы международной конференции «Системные проблемы качества, математического моделирования, информационных, электронных и лазерных технологий», часть 1, Москва-Сочи, 2002, с.64-70.
41. Бурляева Е.В., Комардин П.В., Разливинская СВ. Система поддержки принятия решений о выборе перспективных сложных органических соединений // Сборник трудов XV международной научной > конференции "Математические методы в технике и технологиях", Тамбов, том 5,2002, с.55.
42. Бурляева Е.В., Бурляев В.В., Юркевич A.M., Швец В И. Прогнозирование активности ингибиторов обратной транскриптазы ВИЧ с учетом конформационной гибкости их молекул // Тезисы научных докладов III съезда биохимического общества, С-Пб, 2002, с. 140-141
43 Burljaeva E V, Biglov R R, Razlmnskaya S V The interval analysis of the "structure-activity" relations for the complex organic compounds // Proceedings of the 5-th international scientific technical conference "Process Control - 2002", Czech Republic, Pardubice, 2002, pp 47-48
44 Burljaeva E V, Razhvinskaya S V The application of constraint programming to interval analysis // Proceedings of the 5-th international scientific technical conference "Process Control - 2002", Czech Republic, Pardubice, 2002, pp 49-50
45 Berlin M E, Burljaeva E V The usage of the constraint programming tools for interval analysis task // "Proceedings of the international conference Process Control 2003", Slovak republic, pp 31-32
46 Burljaeva E V, Biglov R R, Razhvinskaya S V The development of decision-making support system for drug design // "Proceedings of the international conference Process Control 2003", Slovak republic, pp 34-36
47 Бурляева Е В , Берлин М Э Распределенная информационная система расчетов квантово-химических параметров конформационно-гибких органических соединений // Сборник трудов 16 международной научной конференции «Математические методы в технике и технологиях», Санкт-Петербург, 2003, с 113-114
48 Бурляева Е В, Разливинская СВ. Система поддержки принятия решений при выборе перспективных сложных органических соединений // Сборник трудов 16 международной научной конференции «Математические методы в технике и технологиях», Санкт-Петербург, 2003, с 115-117
49 Burljaeva E V, Berlin M E The application of interval analysis methods for 3D-QSAR problems // The Darmstaedter Molecular Modelling Workshop in Erlangen, 2003, pp 60-61
50 Burljaeva E V, Razhvinskaya S V The decision-making support system for drug design // The Darmstaedter Molecular Modelling Workshop in Erlangen, 2003, p 62
51 Бурляева Е В, Комардин П В, Юркевич А М Моделирование активности ингибиторов вируса иммунодефицита человека методами интервального анализа // Доклады IV международной научно-практической конференции «Участие молодых ученых, инженеров и педагогов в разработке и реализации инновационных технологий», Москва, 2003, с 217-219
Подписано в печать 20 03 2004 Печ офсетн Бум офсета Формат 69x90 1 16 Уч изд п 32. Тираж 100 экз Заказ № 2$ 119571, Москва, Проспект Вернадского, 86
Издательско-полиграфический центр МИТХТ им М В Ломоносова
Оглавление автор диссертации — доктора технических наук Бурляева, Елена Валерьевна
Введение.
Глава 1. Особенности принятия решений при прогнозировании активности конформационно-гибких органических соединений.
1.1 Задача прогнозирования свойств органических соединений.
1.2.Методы описания структуры органического соединения.
1.3 Методы формирования гипотез о зависимости между структурой молекулы и ее свойствами.
1.4 Принятие решений при прогнозировании активности конформационно-гибких соединений.
Краткие выводы.
Глава 2. Системный подход к поддержке принятия решений при прогнозировании активности конформационно-гибких соединений.
2.1 Основные принципы системного анализа.
2.2 Описание процедуры прогнозирования активности с помощью методов структурного системного анализа.
2.3 Учет информационной гибкости соединений при дальнейшей детализации диаграмм структурного системного анализа.
2.4 Концептуальная модель данных.
2.5 Эпистемологическая модель данных.
Краткие выводы.
Глава 3. Метод комплексных интервальных моделей для прогнозирования активности конформационно-гибких соединений.
3.1 Методы интервального анализа.
3.2 Формальное определение значимости параметров.
3.3 Формальное построение гипотез.
3.4. Формальное определение прогнозов активности конформационно-гибких соединений.
3.5 Методика прогнозирования активности конформационно-гибких соединений с учетом неоднозначности зависимости "структура — активность".
Краткие выводы.—
Глава 4. Прототип системы поддержки принятия решений при прогнозировании активности конформационно-гибких соединений в виде системы ограничений.
4.1 Методы программирования в ограничениях.
4.2 Применение методов программирования в ограничениях для прогнозирования активности.
4.3 Прогнозирование качественных значений активности.
4.4 Прогнозирование численных значений активности.
4.5 Совместное разрешение системы ограничений.
Краткие выводы.
Глава 5. Система поддержки принятия решений при прогнозировании активности конформационно-гибких соединений.
5.1 Архитектура и особенности функционирования СППР.
5.2 Подсистема формирования описаний соединений.
5.2.1 Генерация конформаций.
5.2.2 Проверка полноты набора конформеров.—
5.2.3 Отбор энергетически приемлемых конформеров.
5.2.4 Расчет границ интервалов значений параметров.
5.2.5 Идентификация атомов в молекуле соединения.
5.2.6 Ввод значений активности.
5.2.7 Подготовка к формированию гипотез.
5.3 Подсистема распределенных вычислений при оптимизации структуры молекул.
5.4 Подсистема установления значимости параметров.
5.4.1 Формальная проверка значимости параметров для соединений, активность которых задана численно.
5.4.2 Формальная проверка значимости параметров для соединений, активность которых задана качественно.
5.4.3 Принятие решения о значимости параметра.
5.4.4 Формирование гипотез.
5.5 Прогнозирование активности соединений тестовой выборки
5.5.1 Подготовка к прогнозированию активности.
5.5.2 Прогнозирование численных значений активности.117"
5.5.3 Прогнозирование качественных значений активности.
Краткие выводы.г.
Глава 6. Применение СППР для прогнозировании активности конформационно-гибких соединений.
6.1 Прогнозирование ингибирующей активности ненуклеозидных ингибиторов обратной транскриптазы.
6.1.1 Общие положения.
6.1.2 Прогнозирование 50% ингибирующей концентрации производных тетрагидроимидазобензодиазипенона.
6.1.3 Уточнение гипотез на основе кристаллографических данных.
6.1.4 Построение и оценка прогностической способности регрессионных моделей.
6.1.5 Прогнозирование 50% ингибирующей концентрации производных фенилэтиларилтиомочевины.
6.2 Прогнозирование противотуберкулезной активности производных дитиокарбаминовой кислоты
6.3 Прогнозирование свойств ряда производных хлорофилла.
6.4 Прогнозирование сродства полихлоргидроксибифенилов к эстрогенному рецептору.
Краткие выводы.
Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Бурляева, Елена Валерьевна
Одной из важнейших задач компьютерной химии является предсказание физических, химических и биологических свойств химических соединений. Такое прогнозирование позволяет проводить дорогостоящие экспериментальные исследования более прицельно и оценивать возможность использования соединения в качестве основы для создания: лекарственного препарата на ранних: стадиях его изучения. В основе исследований лежит предположение о том, что структура соединения определяет свойства,. проявляемые этим соединением. Гипотезы о взаимосвязи; структуры молекулы соединения и его свойствами могут быть предложены специалистами-химиками на основе выявления механизмов взаимодействия химических соединений, связанных с проявлениями анализируемого свойства, однако этот путь, в свою очередь, требует долгих и дорогостоящих исследований. Альтернативный подход на протяжении ряда лет развивается на стыке исследований в области химической технологии и прикладной математики и связан с анализом сведений об уже синтезированных и исследованных молекулах соединений того же класса. Эту область исследований кратко называют изучением зависимостей «структура — активность» (structure-activity relationships, SAR).
В тех случаях, когда зависимость между параметрами, описывающими структурную формулу молекулы, и исследуемой активностью установить не удается, возникает необходимость исследования квантово-химических параметров, характеризующих трехмерную структуру молекулы. Молекула исследуемого соединения часто является конформационно гибкой - одной и той же структурной формуле соответствует множество трехмерных структур — конформеров. В этом случае перед исследователем возникает проблема отбора конформеров, параметры которых будут учитываться при формировании зависимостей «структура — активность». Прежде всего, отобранные конформеры должны быть энергетически устойчивыми, т.е. существовать при нормальных условиях. Сформировать критерии, позволяющие выбрать один из конформеров в качестве структурного представителя всего множества конформеров, как правило, не удается — для этого необходимы долгие и дорогостоящие исследования особенностей взаимодействия, в процессе которого молекула проявляет интересующую исследователя активность. Более того, когда взаимодействие многостадийно, на каждой стадии молекула может существовать в виде различных конформеров, поэтому возникает необходимость рассмотрения параметров нескольких различных конформеров. Зависимость «структура - активность» оказывается неоднозначной - одному соединению, характеризующемуся некоторым значением активности, соответствует несколько различных значений одного и того же параметра,. полученных для различных конформеров этого соединения^
Таким образом, учет конформационной гибкости молекул приводит к неоднозначности зависимости между параметрами, описывающими пространственную структуру молекулы, и активностью. При этом прогноз активности может быть ч представлен либо качественно (наличие/отсутствие активности), либо в виде интервала возможных значений активности. Возникает задача разработки математических методов, методик, моделей данных и программных средств для прогнозирования активности конформационно-гибких соединений на основе неоднозначных зависимостей «структура — активность».
Целью работы является разработка информационно-методологического обеспечения поддержки принятия решений при прогнозировании активности конформационно-гибких соединений на основе исследования системных связей между пространственной структурой молекул конформационно-гибких органических соединений и активностью этих соединений.
Для достижения этой цели необходимо последовательное решение следующих задач::
• анализ, структуризация и формализация процедуры принятия решений при прогнозировании активности конформационно-гибких соединений;
• выявление и формализация иерархии' данных, используемых в процессе прогнозирования, а также особенностей накопления этих данных на различных этапах прогнозирования;
• разработка специализированных математических методов для выявления и анализа неоднозначных зависимостей «структура - активность»;
• разработка методик формирования гипотез и построения прогнозов активности с учетом неоднозначности зависимостей «структура-активность»;
• формальное декларативное описание процедуры поддержки принятия решений при прогнозировании активности конформационно-гибких соединений;
• разработка структуры системы поддержки принятия решений (СППР);
• реализация СППР в виде программного комплекса;
• применение СППР для решения различных задач прогнозирования активности.
Научная новизна
• с помощью методов структурного системного анализа впервые выполнено построение формального иерархического структурированного описания процедуры принятия решения при прогнозировании активности конформационно-гибких соединений;
• разработано информационное обеспечение системы поддержки принятия решений (СППР), включающее концептуальную, эпистемологическую и логическую модели данных; при разработке эпистемологической модели данных впервые описано изменение представлений исследователя о решаемой проблеме в процессе прогнозирования активности;
• впервые разработан математический метод комплексных интервальных моделей для выявления неоднозначных зависимостей «структура-свойство», представляющий собой расширение методов интервального анализа для решения задач индуктивного вывода и распознавания образов;
• впервые разработаны комплексные методики прогнозирования качественных и интервальных значений активности, поддерживающие все этапы процедуры принятия решений, с учетом неоднозначности причинно-следственных зависимостей между квантово-химическими параметрами молекул и исследуемой активностью;
• построен прототип системы поддержки принятия решений при прогнозировании активности конформационно-гибких соединений * в виде системы констрейнтов, представляющий собой формальное декларативное описание процедуры принятия решений при прогнозировании активности;
• разработан метод распределения вычислений квантово-химических параметров молекул, обеспечивающий эффективное управление: персональными компьютерами, подключенными к сети Интернет.
Практическая значимость
Разработан и прошел расширенные практические испытания программный комплекс, реализующий: СППР, обеспечивающей значительное повышение эффективности исследований на, ранних стадиях создания базовых структур для лекарственных препаратов. Принципиальными отличиями системы от отечественных и зарубежных аналогов являются использование оригинальной методики получения интервальных и качественных прогнозов активности, поддержка принятия решений на всех этапах прогнозирования активности исследуемых соединений. Включенная в состав СППР распределенная информационная система расчетов квантово-химических параметров молекул обеспечивает ускорение вычислений в 3 раза и освобождение исследователя от рутинных операций за счет эффективного управления персональными компьютерами, объединенными в сеть.Интернет.-Расширенные-испытания,методики» прогнозирования активности и программного комплекса были проведены:
1. В отделе медицинской химии Государственного научного центра по антибиотикам выполнялось прогнозирование противотуберкулезной активности производных дитиакарбаминовой кислоты.
2. На кафедре Биотехнологии МИТХТ им.М.В. Ломоносова в рамках исследований по гранту РФФИ № 97-03-032897а выполнялось прогнозирование анти-ВИЧ активности производных тетрагидроимидазобензодиазипенона и фенилэтилтиазолилтиомочевины.
3. На кафедре Химии и технологии биологически активных соединений МИТХТ им. М.В. Ломоносова в рамках исследований по грантам ИНТ АС № 01-0461 и РФФИ № 01-03-032543 выполнено прогнозирование максимума поглощения производных хлорофилла.
Оценка результатов прогнозирования показала, что СППР позволяет сократить время, затрачиваемое на проведение экспериментальных исследований, в 1,5 - 3 раза, стоимость исследований — не менее чем в 3 раза.
СППР использована при преподавании дисциплины «Интеллектуальные системы в химической технологии и биотехнологии» в МИТХТ им. М.В. Ломоносова для магистров, обучающихся по программе «Информационные системы в химической технологии и биотехнологии».
Методы исследования
Структуризация и формализация процедуры принятия решения при прогнозировании активности конформационно-гибких соединений выполнена на основе методов структурного системного анализа. Для выявления и анализа неоднозначных зависимостей использованы методы интервального анализа. Формальное декларативное описание процедуры прогнозирования активности конформационно-гибкйх соединений построено с помощью методов программирования в ограничениях.
Структура диссертации
Диссертация состоит из введения, 6 глав и заключения.
Заключение диссертация на тему "Информационно-методологическое обеспечение поддержки принятия решений при прогнозировании активности конформационно-гибких органических соединений"
Заключение
В диссертационной работе получены следующие результаты: с помощью методов системного анализа выполнены анализ, структуризация и формализация процедуры принятия решений при прогнозировании активности конформационно-гибких соединений; разработано информационное обеспечение СППР, включающее концептуальную, эпистемологическую и логическую модели данных; на основе методов интервального анализа разработан метод комплексных; интервальных моделей для выявления; неоднозначных зависимостей «структура-активность»; разработана методика прогнозирования исследуемой активности на основе гипотез о причинно-следственных зависимостях между квантово-химическими параметрами молекул и исследуемой активностью; построено формальное декларативное описание процедуры прогнозирования активности конформационно-гибких соединений; разработана и реализована. система поддержки принятия решений при прогнозировании активности конформационно-гибких соединений, обеспечивающая повышение эффективности исследований на ранних стадиях создания базовых структур для лекарственных препаратов; разработана архитектура распределенной системы вычислений квантово-химических параметров молекул с учетом их конформационной гибкости; проведены расширенные практические испытания СППР:
1. В отделе медицинской химии Государственного научного центра по антибиотикам (ГНЦА) в период с мая 2002 г. по май 2003 г. Выполнялось прогнозирование противотуберкулезной активности производных дитиакарбаминовой кислоты. На основе полученных прогнозов из 21 тестового соединения удалось отобрать 5 наиболее перспективных базовых структур для противотуберкулезных препаратов. Оценка результатов прогнозирования показала, что СППР позволяет сократить время, затрачиваемое на проведение экспериментальных исследований, не менее, чем в 1,5 раза, стоимость исследований - не менее чем в 3 раза. 2. На кафедре Биотехнологии МИТХТ им.М.В. Ломоносова в рамках исследований по гранту Миннауки РФ № 97-03-32-897а в период с февраля 2000 г. по декабрь 2003 г. Выполнялось прогнозирование биологической активности производных тетрагидроимидазобензодиазипенона и фенилэтилтиазолилтиомочевины, позволившее из 20 тестовых соединений отобрать 4 наиболее перспективные базовые структуры для анти-ВИЧ препаратов. Удалось сократить время, затрачиваемое на проведение экспериментальных исследований, не менее, чем в 3 раза, стоимость исследований не менее, чем в 5 раз.
3. На кафедре Химии и технологии биологически активных соединений МИТХТ им. М.В. Ломоносова в рамках исследований по грантам ИНТАС № 01-0461 и РФФИ № 01-03-032543 выполнено прогнозирование максимума поглощения производных хлорофилла, позволившее из 6 соединений отобрать 2 наиболее перспективные базовые структуры препаратов для фотодинамической терапии рака. Удалось сократить время, затрачиваемое на проведение экспериментальных исследований, не менее, чем в 2 раза, стоимость исследований - не менее, чем в 3 раза.
Библиография Бурляева, Елена Валерьевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Голевдер В. Е., Розенблит А. Б7, Журнал ВХО им. Д.И. Менделеева, 25,' 1980, №1, с. 28-35.
2. Поройков В.В. Компьютерное предсказание биологической активности веществ: пределы возможного // Химия в России, 1999, № 2, с.8-12
3. Lagunin А., Stepanchikova А.,. Filimonov D., Poroikov V. PASS: prediction of activity spectra for biologically active substances // Bioinformatics, 2000, 16 (8), pp. 747-748.
4. Tratch S. S., Stankevich M. I., Zefirov N. S., Combinatorial model and algorithms in chemistry. The expanded Wiener number - a novel topological index // Journal of Computational Chemistry, 1990,11, (8), pp. 899-908.
5. Химические приложения топологии и теории графов: Пер. с англ. под ред. Р. Кинга. - М.: Мир, 1987 - 560 с.
6. B.M. Татаевский. Классическая теория строения молекул и квантовая механика, М., Химия, 1973.
7. Gruber С, Buss V., Quantum-mechanically calculated properties for the development of quantitative structure-activity relationships (QSAR's) . pKa-Values of phenols and aromatic and aliphatic carboxilic acids // Chemosphere, 19, (1989), p. 1595
8. Wiener H. Quantitative description of molecular structure // Journal of American Chemical Society, 69, (1947), №17, p. 2636
9. Bonchev D., Trinajstic N., Modified Wiener number // Journal of Chemical Physics, 67,1977, p. 4517.
10. Tratch S. S., Stankevich M. I., Zefirov N, S., Combinatorial model and algorithms in chemistry. The expanded Wiener number - a novel topological index // Journal of Computational Chemistry, 1990,11, (8), pp. 899-908.
11. Zefirov N.S., Baskinl. I., Palyulin V. A., SYMBEQ program and its application in computer-assisted reaction design // Journal of Chemical Information and Computer Science, 1994,34, (4), pp. 994-999.
12. Leo A.J., Calculating log Poet from Structures. // Chemical Review, № 4 (93), 1993, pp. 120-146.
13. Cartier A., Rivali J.-L. Electronic Descriptors in Quantitative Structure-Activity Relationships // Chemometrical Intelligence Laboratory Systems, U 1987»p^35_-
14. Barnard J.M. Recent development in the chemical structure handling // Perspectives of Informational Management, 1,1998, pp. 133-168
15. Sadowski J., Gasteiger J. Three Dimensional Structure Generation: Automation // Chemical Reviews, 7,1993, pp. 2567-2581
16. Goto H., Osawa E. Conflex // Journal of American Chemical Society, 111, 1989, pp. 8950-8951
17. Metropolis N., Rosenbluth A.W., Rosenbluth M.N. et al. Equation of State Calculations by Fast Computing Machines // Journal of Chemical Physics, 21, 1953, pp.1087-1092
18. Lybrand T.P. Computer Simulations of Biomolecular Systems Using Molecular Dynamics and Free Energy Perturbation Methods // Review s^ in Computational Chemistry, vol.1, VCH, New-York, USA, 1990, pp. 295-320
19. Klirkpatrick, S., Gelatt, С D., and Vecchi, M. P. Optimization by simulated aimealing // Science, 220,1983, pp. 671-680.
20. Бурштейн К.Я., Шорьп'ин П.П. Квантовохимические расчеты в органической химии и молекулярной спектроскопии.- М:. Наука, 1989.-104 с.
21. Цирельсон В.Г., Бобров М.Ф., Апостолова Е.С., Михайлюк А.И. Лекции по квантовой химии. РХТУ, 1998. -350 с.
22. Pople J.А., Segal G.A., Approximate Self-Consistent Molecular Orbital Theory. 1П. CNDO Results for AB2 and AB3 systems. // Journal of Chemical Physics, 44, 1966, p. 3289.
23. Pople J.A., Beveridge D.L., Dobosh P.A., Approximate Self-Consistent Molecular Orbital Theory. V Intermediate Neglect Of Differential Overlap // Journal of Chemical Physics, 47,1967, p. 2026
24. Pople J. A., Segal G. A. Neglect of Diatomic Differential Overlap // Journal of Chemical Physics, 43,1965, p. 136
25. Bingham R.C., Dewar M. J.S., Lo D.H., Ground states of molecules. XXVI. MINDO/3 improved version of the MINDO semiempirical SCF-MO method. // Journal of American Chemical Society, 97,1975, p. 1285.
26. Dewar M.J.S., Thiel W., Ground states of molecules. 38. The MNDO method. Approximations and parametrizations // Journal of American Chemical Society, 99, 1977, p. 4899.
27. Dewar M.J.S., Zoeblisch E.G., Healy E.F., Stewart J.J.P., Development and use of quantum mechanical molecular models. AMI: A new general purpose quantum mechanical molecular model, 107,1985, p 3902.
28. Stewart J.J.P. Optimization of parameters for semiempirical methods // Journal of Computational Chemistry, V. 12., № 3,1991. - pp . 320-341.
29. Hehre W. J., Radom L, Schleyer. P. v.R., Pople J. Ab Initio Molecular Orbital Theory A.; Wiley, 1986.
30. Кларк Т. Компьютерная химия: Пер. с англ.-М.: Мир, 1990.-383 с.. 32 ©Hypercube, 1996-2003, vyww.hvper.com
31. L.A. Curtiss, et. al., Gaussian-2 theory for molecular energies for first- and second- row compounds // Journal of Chemical Physics, 94,1991, p. 7221. 34 ©Gaussian inc., 1982-2003, www.gaussian.com
32. Stewart J.J.P. Mopac: a semiempirical molecular orbital program // Journal of Computer Aided Molecular Design. V. 4, № 1,1990, pp. 1-105.
33. Cizek J., On The Correlation Problem in Atomic and Molecular Systems Calculations of Wavefunction Components and Ursell-Type Expansion Using Quantum Field Theoretical Methods // Journal of Chemical Physics, 45 (1966), p. 4256.
34. Anzali S., Bamickel G., Cezaime В., Kjoig M., Filimonov D., Poroikov V. Discriminating between drugs and nondrugs by Prediction of Activity Spectra for Substances (PASS) //. Journal of Medical Chemistry, 2001,4 (15), pp. 2432-2437
35. Renxiao Wang, Ying Gao, Liang Liu, and Luhua Lai All-Orientation Search and All- Placement Search in Comparative Molecular Field Analysis // Journal of Molecular Modeling, 4, pp. 276-283.
36. Cramer R.D., Patterson D.E., Bunce J.D. Comparative molecular field analysis. Effect of shape on binding of steroids to carrier proteins // Journal of American Chemical Society, 110,1988,pp.5959-5967
37. Good A.C., So S.S., Richards W.G. Structure-activity relationships from molecular similarity matrices // Journal of Medical Chemistry, 36,1993, pp.433-438.
38. Баскин i И. И., Палюлин В. А., Зефиров И. Применение искусственных нейронных сетей в химических и биохимических исследованиях. Вестник Московского Университета. Химия. 1999, том 40, № 5, с. 323
39. Mekenyan O.G., Karabunarliev S.H., Ivanov J.M., Dimitrov D.N., A New Application of evolutionary Algorithms // Journal of Computational Chemistry, 18, 1998, pp.173-187.
40. Bradbury S.P., Ankley G.T. The role of ligand flexibility in predicting biological activity // Environmental Toxical Chemistry, 17,1998, pp. 15-25
41. Marshall G.R., Binding site modelling of unknown receptors In 3D QSAR in Drug Design: Theory, Methods and Applications; H. Kubinyi, Ed., Escom: Leiden, 1993, pp. 80-116
42. Mekenyan O.G., Bradbury S.P., Ankley G.T. New Developments in a Hazard Identification Algorithm for Hormone Receptor Ligands: COREPA. Quantitative Structure-Activity Relationships in Environmental Sciences, 7,2000, pp.141-158.
43. Mekenyan O.G., Schultz T.W., Veith G.D. Dynamic QSAR: A new search for active conformations and significant stereoelectronic induces. Quantitative Structure Activity Research, 13,1994, pp.302-307S
44. Ларичев О.И., Мошкович E.M. Качественные методы принятия решений. - М., Наука. Физматлит. 1996.
45. Еот i S.B. The decision support systems research: reference disciplines and a cumulative tradition. - The International Journal of Management Science, 23, 5, October 1995, p. 511-523.
46. Трахтенгерц Э.А. Компьютерная поддержка принятия решения. - М., Изд-во «Синтег», 1998.376 с.
47. Моисеев Н.Н. Предисловие к книге Орловского А. Проблемы принятия решений при нечеткой исходной информации. - М., Наука. 1981.
48. Ларичев О.И. Объективные модели и субъективные решения. - М., Наука. 1987.
49. Slovic Р., Fichhoff В., Lichtenstein S. Behaviorial decision theory. - Annual Psychology Rev. vol. 28,1997.
50. Приобретение знаний. - М., Мир, 1990,304 с.
51. Мешалкин В.П. Экспертные системы в химической технологии. - М.: Химия, 1995.368 с.
52. Бурляева Е.В., Гаврилов А.В. Система управления принятием решений при выборе перспективных сложных органических соединений // Приборы и системы. Управление, контроль, диагностика, № 11,2002
53. Кафаров В.В., Дорохов И.Н. Системный анализ процессов химической технологии. -М., Наука, 1976, 500 с.
54. Калянов Г.Н. CASE. Структурный системный анализ (автоматизация и применение). - М.: ЛОРИ, 1996,242 с.
55. Марка Д.А., МакГоуэн К. Методология структурного анализа и проектирования. - М.: Метатехнология, 1993
56. Гэйн К., Сарсон Т. Структурный системный анализ средства и методы. В 2-х частях. Пер. с англ. под ред. А. В. Козлинского. - М.: Эйтекс, 1993 г.
57. Дэвид А. Марка, Клемент Мак-Гоуэн. Методология структурного анализа и проектирования. Пер. с англ. Москва, 1993 г., с, 240
58. Поройков В.В., Филимонов Д.А. Компьютерный прогноз биологической активности химических соединений как основа для поиска и оптимизации базовых структур новых лекарств. В сб.: Азотистые гетероциклы и алкалоиды. М., Иридиум-пресс, 2001, т.1, с.123-129.
59. Тимофеев B.C., Серафимов Л.А. Принципы технологии основного органического и нефтехимического синтеза: Учебное пособие. — М., Высшая школа, 2003. 536 с.
60. Тыугу Э.Х. Концептуальное программирование. М. Наука, 1984. 69^ Chen Р^ The Entity-Relationship Model - Toward a Unified View of Data. ACM Transactions on database Systems, v.l, № 1,1976
61. Barker R. CASE Method. Entity-Relationship Modeling. Copyright Oracle Corporation UK Limited, Addison-Wesley Publishing Co, 1990.
62. Пржиялковский B.B. Абстракции в проектировании баз данных // Системы управления базами данных, №1-2,1998, с. 90-97.
63. Смит Дж., Смит Д.. Принципы концептуального проектирования баз данных. В сб.: Требования и спецификации в разработке программ. /Пер. с англ. под ред. В.Н. Агафонова. - М.: Мир, 1984, с. 165-198
64. Клир Дж. Системология. Автоматизация решения системных задач: Пер. С англ.. - М.: Радио и связь, 1990. - 544 с.
65. Канторович Л.В. О некоторых новых подходах к вычислительным методам и обработке наблюдений. // Сибирский математический журнал, т.З, № 5, 1962, 701-709.
66. Калмыков А., Шокин Ю.И., Юлдашев З.Х. Методы интервального анализа.- Новосибирск: Наука, 1986.
67. А.С.Нариньяни. Модель или алгоритм: новая парадигма информационной технологии.// Информационные технологии, № 4, М., 1997.
68. Шокин И.Ю. Интервальный анализ. Новосибирск: Наука, 1981,112 с.
69. Мооге R.E. А survey of interval methods for differential equations. "Proceedings of 23-rd IEEE Conference in Decision Making and Control, Las Vegas, Nev., 1984, v.3", New York, 1984, p.1529-1535.
70. Аленфельд Г., Херцбергер Ю. Введение в интервальные вычисления М: Мир, 1987,360 с.
71. Джаныбеков Б.С., Шарый СП. Оптимальное внешнее оценивание множеств решений интервальных линейных уравнений. // Труды Пятой международной конференции "Перспективы систем информатики", Новосибирск, 2003, с.57-60.
72. Перцев- Н.В. Построение областей притяжения устойчивых решений дифференциальных уравнений. // Труды Пятой международной конференции "Перспективы систем информатики", Новосибирск, 2003, с.71-72.
73. Волоцкая Е.О. Метод интервальных функций для одной модели экономического равновесия. Сборник трудов Казанского государственного университета, 2001, с. 102-106
74. Быков В.И., Добронец Б.С. К интервальному анализу уравнений химической кинетики // Математические проблемы химической кинетики, Новосибирск, Наука, 1989, с.226-232
75. Гузеев В.В., Суханов В.А., Белов В.М. Математической обеспечение интервального метода в аналитической химии // Математические методы и ЭВМ в аналитической химии. М., Наука, 1986, с.5-9
76. Мазур В.А., Боппсов Л.З. Применение методов математического программирования в термодинамике флюидных систем. // Математические задачи химической термодинамики. Новосибирск, Наука, 1985, с.109-118
77. Бурляева Е.В., Биглов P.P., Бурляев В.В. Комплексная интервальная модель для предсказания количественной активности сложных органических соединений // Русский журнал «ВИЧ/СПИД и родственные проблемы», т.4, № 1, 2000, стр. 67-
78. Бурляева Е.В., Тархов А.Е., Бурляев В.В., Швец В.И. Моделирование сродства полихлоргидроксибифенилов к.эстрогенному рецептору методом комплексных интервальных моделей // Вопросы биологической, медицинской и фармацевтической химии, № 3,2001, с.44-50
79. Burljaeva E.V., Berlin М.Е. The application of interval analysis methods for 3D- QSAR problems // The Darmstaedter Molecular Modelling Workshop in Erlangen, 2003, pp.60-61
80. Нариньяни А.С. Модель или алгоритм: новая парадигма информационной технологии. //Информационные технологии, № 4, М., 1997
81. Журавлев Ю.И. Избранные научные труды. - Изд. Магистр, 1999
82. Тыугу Э.Х. Концептуальное программирование. М. Наука, 1984.
83. Montanari U. Networks of Constraints: Fmidamental Properties and Applications to Picture Processing . Inform. Sci. —V.7,1974.
84. Freuder E., Mackworth A. Constraint-Based Reasoning. MIT Press, 1994.
85. Программирование в ограничениях: обзор и классификация подходов и методов // Системная информатика. Вьш. 4.. Методы теоретического и системного программирования. Новосибирск: Наука, 1995. с. 160-192.
86. Нариньяни А.С., Телерман В.В., Ушаков Д.М., Швецов И.Е. Программирование в ограничениях и недоопределенные модели // Информационные технологии. — 1998.-N 7.-С. 13-22.
87. Cohnerauer А. An introduction to Prolog III. Commimications of the ACM, 33(7), July 1990.-p. 69-90.
88. JafFar J., Michayov S., Stuckey P., Yap R. The CLP(R) language and system. ACM Transactions on Programming Languages and Systems, 14(3), July. 1992. — p. 339 — 395.
89. Benhamou F., McAUester D., Van Hentenryck P. CLP(Intervals) Revisited. Proceedings of ILPS'94, Ithaca, New York, 1994. - p. 124 - 138.
90. A.B. Манцивода. Программирование в ограничениях на Флэнге. Системная информатика, Вьш.4, Наука, Новосибирск, 1995, с.118-159.
91. Бзфляева Е.В., Ралев Н. Разработка объектно-ориентированных интеллектуальных систем средствами индуктивного логического программирования // Сб. "Системы, методы обработки и анализа данных", НПО "Кибернетика" АН РУз, Ташкент, 1997, с.234-238
92. Stewart J.J.P. Mopac: a semiempirical molecular orbital program // Journal of Computer Aided Molecular Design. V. 4, № 1,1990, pp. 1-105.
93. Бурляева E.B., Гаврилов A.B. Система управления принятием решений при выборе перспективных сложных органических соединений // Приборы и системы. Управление, контроль, диагностика, f^e 11,2002
94. Уэллс Э., Хешбаргер Microsoft Excel. Разработка приложений. СПб, БХВ- Санкт-Петербург» 1998,624 с^ -
95. Kohlstaedt L.A., Wang J., Friedman J.M. at all Crystal Structure at 3,5 A Resolution of nrV-l Reverse Transcriptase Complexed with an Inhibitor // Science, 1992, 256, pp. 1783-1790.
96. Ren J., Esnouf R., Hopkins A. at all The structure of HIV-1 reverse transcriptase complexed with 9-cloro-TIBO: lessons for inhibitor design// Structure, 1995, 3, pp. 915-926.
97. Silverman B.D., Piatt D.E. Comparative Molecular Moment Analysis: 3D-QSAR without Molecular Superposition // Journal of Medicinal Chemistry, 1996, vol.39, J^ » ll,pp.2129-2140.
98. Kukla M.J., Breslin H.J., Diamond С J. et al. (1991) Journal of Medicinal Chemistry, vol.34,3187.
99. Бурляева E.B. Информационная система прогнозирования ингибирующей активности ненуклеозидных ингибиторов обратной транскриптазы // Биомедицинские технологии и радиоэлектроника, № 6,2003, с.28-33
100. Hopkins А., Ren J., Tanaka Н. at all Design of MKS-442 (Emivirine) Analogues with Improved Activity Against Drug-Resistant HFV Mutants// Journal of Medicinal Chemistry, 1999, vol. 42, pp.4500-4505.
101. Бурляева E.B., Комардин П.В., Юркевич A.M., Швец В.И. Уточнение прогноза активности ингибиторов ВИЧ с учетом их конформации в активном центре фермента // Химико-фармацевтический журнал, № 9,2003, с.31-35
102. Бурляев В.В., Бурляева Е.В., Разливинская СВ., Юркевич А.М., Швец В.И. Анализ прогностических возможностей метода комплексных интервальных моделей // Тезисы докладов DC Российского национального конгресса "Человек и лекарство", Москва, 2002, с.590.
103. Бурляева E.B., Разливинская СВ. Прогнозирование ВИЧ-активности производных тиомочевины // Материалы международной научной конференции "Математргческие методы в технике и технологиях — ММТТ 2000", том 5, с. 182-
104. Бурляева Е.В., Юркевич A.M., Тархов А.Е. Оценка прогностических возможностей индуктивного логического программирования для исследований NNRTI // Русский журнал «ВИЧ/СПИД и родственные проблемы», т.4, № 1, 2000, стр. 66-67
105. Кораблев М.В., Евец М.А, Гербицидная активность производных дитиокарбаминовой кислотышрименение в сельском хозяйстве.. Фармакология. и токсикология, 1977, № 5, с.603-612
106. Тарахтий Э.Ф., Сидорова Л.П., Жигальский О.А., Чупахин О.Н. Антихолестериновая активность новых солей дитиокарбаминовых кислот // Химико-фармацевтический журнал, N 1,1998. с. 17-21
107. Сорокина О.Б., Алексеев В.Г.; Новый бифункциональный комплексов с дитиокарбаматными группировками. Сборник научных трудов "Учёные записки Тверского государственного университета". Т.4. Тверь, 1998, с.28-31
108. Граник В.Г, Макаров В.А. Синтез и свойства производных тиокарбаминовых кислот. Успехи химии, 11,1998, с.1013-1032
109. ЮркевичА.М., Бурляев В.В., БоридкоВ.С, Разливинская СВ. Компьютерное моделирование противотуберкулезной активности производных дитиокарбаминовой кислоты // Ученые записки МИТХТ, вьш. 1., МИТХТ, 2000, с. 39-42
110. Пухликова Н.А., Гаель В.И., Кузьмицкий В.А. Влияние структуры модификаций в ряду природных хлорофиллов на их спектральные характеристики. //Ученые записки МИТХТ им. М.В. Ломоносова, вьш. 4., М, ИПЦ МИТХТ, с.12-17
111. Mironov A.F., Grin М.А., Nochovny S.A., Toukach F.V. Novel cycloimides in the chlorophyll-a series // Mendeleev communications, № 4,2003
112. Бурляева E.B., Тархов A.E., Бурляев B.B., Швец В.И. Моделирование сродства полихлоргидроксибифенилов к эстрогенному рецептору методом комплексных интервальных моделей // Вопросы биологической, медицинской и фармацевтической химии, № 3,2001, с.44-50.
-
Похожие работы
- Интегрированная система управления объектами метаданных при прогнозировании активности органических соединений
- Интеллектуальная система поддержки принятия решений по управлению качеством атмосферного воздуха на химических предприятиях
- Программный комплекс для прогнозирования свойств сложных органических соединений на основе анализа неоднозначных зависимостей "структура-свойство"
- Математические модели и алгоритмы в исследованиях связи между структурой и свойствами органических соединений
- Анализ и синтез химических структур и органических веществ на основе теории нечетких множеств
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность