автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Алгоритмические и программные средства анализа данных о биотрансформациях и результирующем эффекте от введения в организм двух химических соединений

кандидата технических наук
Матвеев, Андрей Анатольевич
город
Москва
год
2003
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритмические и программные средства анализа данных о биотрансформациях и результирующем эффекте от введения в организм двух химических соединений»

Оглавление автор диссертации — кандидата технических наук Матвеев, Андрей Анатольевич

ВВЕДЕНИЕ.

ГЛАВА I. Интеллектуальный анализ данных и проблема прогнозирования путей биотрансформации

1.1 Прогнозирование путей биотрансформации.

1.1.1 Основные понятия и задачи предметной области.

1.1.2 Модель активности реакционных центров.

1.2 Существующие решения.

1.3 Об интеллектуальном анализе данных.

1.4 Средства интеллектуального анализа данных.

1.5 ДСМ-метод как средство интеллектуального анализа данных.

1.5.1 ДСМ-рассуждения.

1.5.2 Представление данных и знаний в виде открытой эмпирической теории для применения ДСМ-рассуждений.

1.6 Выводы.

ГЛАВА II. Архитектура интеллектуальной системы типа ДСМ для решения задач прогнозирования биотрансформаций

2.1 Общая архитектура ИнтС-ДСМ.

2.2 Интегрированная среда поддержки исследователя, анализирующего данные о путях биотрансформаций.

2.2.1 Редактор метаболических сетей.

2.2.2 Редактор химических соединений.

2.2.3 Компонент генерации отчетов о проведенных экспериментах

2.2.4 Компоненты 2Э- и ЗБ- визуализации структур химических соединений.

2.2.5 Модуль биотрансформационного преобразования.

2.2.6 Модуль, реализующий стратегию построения метаболической сети.

2.2.7 Модуль настройки ДСМ-решателя на предметную область.

2.2.8 Модуль поддержки эксперимента.

2.2.9 Модуль взаимодействия с ДСМ-решателем.

2.2.10 Подсистема связи с Базой Данных / Базой Знаний.

2.3 Принцип работы системы.

2.4 Выводы.

ГЛАВА III. Алгоритмические и программные средства

3.1 Алгоритм шага трансформации.

3.2 Алгоритм поиска подграфа в графе.

3.2.1 Основные этапы работы программы, реализующей алгоритм поиска подграфа в графе.

3.2.2 Принцип работы алгоритма.

3.2.3 Поиск всех вложений подграфа G" в граф G.

3.2.4 Пример нахождения вложения подграфа G' в граф G.

3.3 Алгоритм замены подграфа G" на подграф G" в графе G.

3.3.1 Представление трансформации в системе.

3.3.2 Принцип работы алгоритма.

3.4. Алгоритм построения метаболической сети.

3.5 Программная реализация.

3.5.1. Редактор метаболических сетей.

3.5.2 Модуль биотрансформационного преобразования.

3.5.3 Модуль настройки ДСМ-решателя на предметную область.

3.5.4 Компонент для работы с файлами формата MDL MOL.

3.5.5 Компонент 20-отображения структур химических соединений.

3.6 Выводы.

ГЛАВА IV. Интеллектуальная система анализа данных о результирующем эффекте от введения в организм двух химических соедине

4.1 О результирующем эффекте от введения в организм двух химических соединений.

4.2 Использование ДСМ-метода для прогноза результирующего эффекта воздействия на организм нескольких веществ.

4.3 Архитектура ИнтС-ДСМ для решения задачи прогноза результирующего эффекта от введения в организм двух химических соединений.

4.4 Принцип работы системы.

4.5. Программная реализация.

4.5.1 БД SYNERGISM.

4.5.2 Модуль настройки ДСМ-решателя на предметную область. 118 4.5.2Программный комплекс SYNERGEXP.

4.6 Выводы.

ГЛАВА V. Экспериментальное подтверждение адекватности предложенного подхода к решению задач прогнозирования путей биотрансформаций и результирующего эффекта от введения в организм двух химических соединений: компьютерные эксперименты

5.1 Порождение необходимых и достаточных условий прохождения биотрансформационных преобразований.

5.2 Прогноз результирующего эффекта от введения в организм двух химических соединений.

5.3 Выводы.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Матвеев, Андрей Анатольевич

В связи с техногенным характером современной цивилизации (в частности, в связи с применением химических веществ как в быту, так и в сфере производства) в окружающую человека среду попадает все большее число биологически активных соединений. Также большое их количество синтезируется в лабораториях, занимающимися исследованиями в области биохимии. Определение опасности этих веществ для организма человека или, наоборот, возможности их применения в качестве лекарственных средств требует решения задачи прогнозирования путей биотрансформации этих веществ.

Прогноз путей биотрансформации особенно важен при исследовании антипродуктивных свойств (канцерогенности, мутагенности, токсичности) веществ, так как зачастую именно в процессе биотрансформации вводимые в организм нейтральные вещества приобретают эти свойства (непрямые канцерогены, непрямые мутагены) [1-4]. Также важно рассматривать результирующий эффект воздействия на организм нескольких веществ, так как возможно попадание в организм одновременно или последовательно двух или более химических веществ [5]. Это особенно необходимо при моделировании ситуации введения нескольких лекарственных препаратов.

Раздел биохимии, связанный с исследованиями процесса биотрансформации, а также результирующего эффекта воздействия на организм нескольких веществ, является в основном экспериментальной наукой со слабо формализованными знаниями [6-19]. Поэтому и до настоящего времени основным средством прогноза путей биотрансформации веществ является эксперимент.

При проведении эксперимента очень трудно, а порой просто невозможно, провести всесторонний анализ данных, полученных даже с привлечением опытнейших экспертов. Эксперту всегда свойственна некоторая субъективность, причиной которой служит его личный опыт. Конечно, наработанный опыт и эвристики оказывают незаменимую услугу эксперту в его исследованиях, но не исключено, что из-за некоторого предпочтения (личного фактора) эксперт может пойти по ложному пути или рассмотреть не все возможности. Эксперту нужен объективный помощник, способный обрабатывать большие массивы данных. Таким помощником являются интеллектуальные системы (ИС), помогающие эксперту в сборе и анализе данных [20]. Под анализом в данном случае понимается не только систематизирование данных, но выявление закономерностей и прогнозирование, т.е. выдвижение гипотез, являющиеся важным аспектом интеллектуального анализа данных [21-26]. Так, интеллектуальный анализ данных по биотрансформациям позволяет делать прогноз метаболических путей, на основании которого можно построить метаболическую сеть, а анализ данных о взаимном влиянии веществ друг на друга - прогноз их комбинированного эффекта. У экспертов возникает особая потребность в интеллектуальных системах, которые не только помогали бы им в моделировании биохимических процессов, но и тем самым снижали бы временные и материальные затраты на проведение экспериментов.

Целью диссертационных исследований являлось создание интеллектуальной системы для прогноза биотрансформации веществ в живом организме и результирующего эффекта от введения в организм двух химических соединений.

Выбор данной цели привел к постановке следующих задач:

1. Создание архитектуры интеллектуальной системы анализа данных о биотрансформациях и результирующем эффекте от введения в организм двух химических соединений.

2. Разработка алгоритмических и программных средств для этой интеллектуальной системы.

3. Решение средствами интеллектуальной системы задач прогнозирования путей биотрансформаций и результирующего эффекта от введения в организм двух химических соединений.

Актуальность работы определяется необходимостью решения класса задач «структура химического соединения - биологическая активность» (QSAR- Qualitative Structure-Activity Relationship) и таких задач, как прогнозирование фармакологического действия лекарственных препаратов. Разработанная интеллектуальная система является помощником эксперта, принимающего решения относительно путей биотрансформаций и результирующего эффекта от введения в организм двух химических соединений. Эксперту необходимо усилить логические возможности исследования (генерирование гипотез, установление сходства и различия фактов и гипотез и т.д.). Результатом исследования является партнерская интеллектуальная система, работа с которой позволяет, сократив общее количество экспериментов, проводить их более направленно, что ведет к сокращению временных и материальных затрат.

Разработанная в диссертации система прогнозирования путей биотрансформаций и результирующего эффекта от введения в организм двух химических соединений является интеллектуальной системой типа ДСМ (ИнтС-ДСМ) [21,26,28].

Интеллектуальные системы типа ДСМ основаны на ДСМ-методе автоматического порождения гипотез (АПГ), реализующем автоматизированные правдоподобные рассуждения (порождение гипотез о причинах свойств, вывод по аналогии, процедуры объяснения начального состояния БД).

ИнтС-ДСМ представляет собой интерактивную систему, в которой на базе развитого логико-математического обеспечения, реализующего ДСМ-метод АПГ, осуществляется интеллектуальный анализ данных из БД с неполной информацией (БДНИ). ИнтС-ДСМ применяются для прогнозирования свойств структурированных объектов в БДНИ для задач фармакологии, медицины, технической диагностики и социологии.

В процессе работы над диссертацией автором получены следующие научные результаты:

1. Задачи прогноза путей биотрансформаций и результирующего эффекта от введения в организм двух химических соединений сведены к классу задач, решаемых ДСМ-методом.

2. Предложена архитектура интеллектуальной системы анализа данных о биотрансформациях и результирующем эффекте от введения в организм двух химических соединений.

3. Разработана схема БД для хранения экспериментальных данных и полученных на их основе знаний о данных предметных областях.

4. Разработаны алгоритмические и программные средства для этой системы.

5. Реализована экспериментальная версия интеллектуальной системы на основе универсального ДСМ-решателя, настроенного с помощью разработанных средств на решение нового типа задач. Настройка состоит в:

- использовании аксиом, характеризующих новую предметную область.

- определении понятия объекта

- учете знания о предметной области и определении операции сходства, разности, объединения и отношения вложения, входящих в решающие предикаты ДСМ-метода.

6. Созданы программные средства для интеграции интеллектуальной системы и ее базы данных (базы фактов и базы знаний) с документографическими и технологическими базами ВИНИТИ.

При разработке ИнтС-ДСМ использовались:

- принципы представления в ИнтС-ДСМ знаний о биотрансформациях, предложенные в диссертации Фабрикантовой Е.Ф. [29];

- принципы представления в ИнтС-ДСМ знаний о результирующем эффекте от введения в организм двух химических соединений, предложенные в диссертации Панкратовой Е.С. [30];

- версия решателя задач для ИнтС-ДСМ, представленная в диссертации Панкратова Д.В. [31];

- версия ФКСП-кодировщика структур химических соединений, разработанная в ходе диссертационных исследований Добрыниным ДА. [32];

Следующие особенности работы определяют ее научную новизну:

1. Создана интеллектуальная система анализа данных о биотрансформациях, использующая логико-комбинаторные средства порождения гипотез.

2. Разработаны алгоритмические и программные средства для анализа данных о результирующем эффекте от введения в организм двух химических соединений.

Практическая значимость работы состоит в создании интеллектуальной партнерской системы для анализа экспериментальных данных, позволяющей осуществлять:

1. внеэкспериментальный прогноз биологической активности не только самих химических соединений, но и их метаболитов;

2. внеэкспериментальный прогноз результирующего действия двух химических соединений, что особенно необходимо при синтезе новых лекарственных препаратов.

Также разработаны средства включения в технологическую цепочку ВИНИТИ, что позволяет использовать интеллектуальную систему для извлечения знаний из баз экспериментальных данных, пополняемых из литературных источников (реферируемых текстов).

Компьютерный прогноз биотрансформации и результирующего эффекта от введения в организм двух химических соединений позволит целенаправленно готовить медико-биологические эксперименты, сократить их число, заменить натурный эксперимент компьютерным.

Структура работы.

Диссертация состоит из введения, пяти глав и заключения.

Заключение диссертация на тему "Алгоритмические и программные средства анализа данных о биотрансформациях и результирующем эффекте от введения в организм двух химических соединений"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ИЗЛОЖЕНЫ В СЛЕДУЮЩИХ

ПУБЛИКАЦИЯХ:

1. Матвеев A.A., Фабрикантова Е.Ф. Алгоритмические и программные средства прогнозирования метаболизма // НТИ. Сер.2. - 2002. - № 6. С. 26-34.

2. Матвеев A.A. Алгоритм построения метаболической сети. // НТИ. Сер.2. - 2002. - № 6. С. 34-45.

3. Матвеев A.A. Архитектура и программные средства интеллектуальной системы по биотрансформации химических веществ. // Материалы Конференции НТИ-2002, Москва, ВИНИТИ, С. 437-439.

4. Блинова В.Г., Матвеев A.A., Панкратова Е.С. Об алгоритмических и программных средствах интеллектуального анализа данных о результирующем эффекте от введения в организм двух химических соединений // НТИ. Сер.2. 2003 (В печати)

АПРОБАЦИЯ РАБОТЫ

Результаты диссертационной работы были доложены на следующих конференциях:

1. 5-ая Международная конференция НТИ-2000,"Информационное общество. Информационные ресурсы и технологии. Телекоммуникации", Москва, ВИНИТИ, Ноябрь 22-24, 2000.

2. Симпозиум "Биоинформатика и компьютерное конструирование лекарств", VIII Российский национальный конгресс "Человек и лекарство", Москва, Апрель 4-5, 2001.

3. 8-ая национальная конференция по искусственному интеллекту с международным участием КИИ-2002, Коломна, Октябрь 7-12, 2002

4. 6-ая Международная конференция НТИ-2002,"Информационное общество. Интеллектуальная обработка информации. Информационные технологии", Москва, ВИНИТИ, Октябрь 16-18, 2002

ЗАКЛЮЧЕНИЕ

В результате работы автора над диссертацией были созданы алгоритмические и программные средства решения задачи прогнозирования путей биотрансформации на основе интеллектуального анализа данных. Интеллектуальная система, в которой реализованы эти средства, использует не статистические, а логико-комбинаторные методы, которые позволяют, используя представление знаний о необходимых условиях прохождения биотрансформационных преобразований, выделять достаточные условия.

Разработан графический редактор метаболических сетей (МС), в который встроена возможность автоматического построения МС с использованием заданных необходимых и получаемых в результате индуктивного (машинного) обучения достаточных условий биотрансформаций. При автоматическом построении МС используется программно реализованный алгоритм «шага» биотрансформации. Также разработан компонент, генерирующий отчеты о результатах индуктивного обучения на фактах из БД. В отчетах содержится информация как о выявленных причинно-следственных зависимостях, так и о результатах прогноза, сделанного на их основе.

Дальнейшее развитие системы видится в использовании данных о ферментах, добавлении новых логических и квантово-химических методов, усовершенствовании интерфейса и архитектуры.

Создана экспериментальная версия интеллектуальной системы для прогноза результирующего эффекта от введения в организм двух химических соединений, не имеющая известных аналогов. Результаты прогноза, произведенного с помощью этой системы, одобрены экспертами и подтверждены экспериментальными данными.

Дальнейшее развитие системы заключается в переходе к решению задач прогноза результирующего эффекта смесей, состоящих из более чем 2 химических соединений. Также предполагается усовершенствование архитектуры и интерфейса.

Данная система, как и система прогноза путей биотрансформации, является интеллектуальной системой, основанной на ДСМ-методе автоматического порождения гипотез. Две эти системы можно рассматривать как две части одной большой системы «Рабочее место фармаколога и биохимика», поддерживающей научные исследования, реализуя интеллектуальный анализ данных, в т.ч. порождение гипотез. С одной стороны, эти системы используют один и тот же ДСМ-решатель, настраиваемый на решение разных задач, а с другой стороны, решаемые этими системами задачи связаны, поскольку при изучении воздействия веществ на организм необходимо одновременно учитывать как возможность образования (в процессе биотрансформаций вещества) реакционно-способных метаболитов, так результирующий эффект воздействия на организм нескольких веществ (которыми могут являться те же метаболиты).

Также разработаны средства интеграции интеллектуальной системы и ее базы данных (базы фактов и базы знаний) с документо-графическими и технологическими базами ВИНИТИ. Включение в технологическую цепочку ВИНИТИ позволяет использовать интеллектуальную систему для извлечения знаний из баз экспериментальных данных, пополняемых из литературных источников (реферируемых текстов).

Библиография Матвеев, Андрей Анатольевич, диссертация по теме Теоретические основы информатики

1. Блинова В.Г. О результатах применения ДСМ-метода порождения гипотез в задачах анализа связи "структура химического соединения - биологическая активность" // НТИ. Сер.2. - 1995. -№5.-С. 17-24.

2. Панкратова Е.С. Применение ДСМ-метода для прогнозирования канцерогенности веществ // II Всесоюзная конференция "Искусственный интеллект 90".Минск, Октябрь 22-25, 1990, Труды конф. Т. 3.

3. V.G. Blinova, D.A. Dobrynin, V.K. Finn, S.O. Kuznetsov, and

4. E.S. Pankratova. Predictive Toxicology by Means of the JSM-Method //th

5. Proc. of the Workshop on Predictive Toxicology Challegnge at the 5 Conference on Data Mining and Knowledge Discovery (PKDD'01 ).Freiburg (Germany), 2001, September 7.

6. Панкратова Е.С. Применение ДСМ-метода к задаче распознавания прямых и непрямых канцерогенов // НТИ. Сер. 2. 1993. -№3. С. 14-16.

7. Панкратова Е.С. Задача прогнозирования результирующего эффекта от введения в организм двух химических веществ и ее решение средствами ДСМ-системы // НТИ. Сер. 2. 1995. - № 5.

8. Ковалев И. Е., Полевая О. Ю. Биохимические основы иммунитета к низкомолекулярным химическим соединениям.- М.: Наука, 1985.

9. Schutz Н. Benzodiazepines: A Handbook. N.Y., Berlin, Heidelberg: Springer-Verlag, 1982.

10. Testa В., Jenner P. Drug Metabolism: Chemical and Biochemical Aspects. N.Y.: Marcel Dekker, 1976.

11. Pfeifer S., Borchert H.-H. Pharmakokinetic und Biotransformation. Berlin: VEB Verlag Volk und Gesundheit, 1980. 144 p.

12. Парк Деннис В. Биохимия чужеродных соединений. М. Медицина, 1973. - 288 с.

13. Лакин К.М., Крылов Ю.Ф. Биотрансформация лекарственных веществ. М.: Медицина, 1981. - 344 с.

14. Арчаков А.И. Микросомальное окисление. М.: Наука, 1975.-326 с.

15. Головенко Н.Я. Механизмы реакций метаболизма ксенобиотиков в биологических мембранах. Киев: Наукова думка, 1981. - 220 с.

16. Холодов Л.Е., Яковлев В.П. Клиническая фармакокинети-ка. -М.: Медицина, 1985.

17. Spann M.L., Chu К.С., Wipke W.T, Ouchi G. Use of Computerized Methods to Predict Metabolic Pathways and Metabolites. // J. Environ. Pathol. Toxicol. 1978. № 2. - P. 123.

18. Darvas F. METABOLEXPERT: An expert system for predicting metabolism of substances // QSAR in Environmental Toxicology.Vol II / Ed. K.L.E. Kaiser.- Dordrecht, Holland: D. Reidel Publising Co., 1987. -P.71-81.

19. Darvas F. Predicting metabolic pathways by logic programming // J. Mol. Graph. 1988.- Vol. 6, № 6. - P. 80-86.

20. Klopman G., Dimayuga M., Talafous J. МЕТА 1. A Program for the Evaluation of Metabolic Transformation of Chemicals // J. of Chemical Information and Computer Sciences. 1994. - Vol. 34, № 6. -P. 1320-1325.

21. J. Talafous, Sayre L.M., Mieyal J.J., Klopman G. META 2. A Dictionary Model of Mammalian Metabolism // ibid. P. 1326-1333.

22. Гергей Т., Финн В.К. Об интеллектуальных системах // Экспертные системы: состояние и перспективы / Под ред. Д.А. Поспелова. М.: Наука, 1989. - С. 9-20.

23. Финн В.К. Об интеллектуальных системах типа ДСМ для наук о жизни и социальном поведении. Сер.2. 2002. - №6. - С. 1-4.

24. Deitterich Т., Michalski R. A comparative review of selected methods for learning from examples // Machine learning: an artificial intelligence approach / Eds. R.S. Michalski et al.- Berlin: Springer, 1984.

25. Zytkov J. Automated Discovery Systems Perspective on Knowledge // First Summer School for Theory Knowledge. August 2224, 1997. Warsaw-Madralin, Poland, 1997.

26. Piatetsky-Shapiro G., Frawley W. Knowledge discovery in Databases // Menlo Park, Calif.: AAAJ Press 1991.

27. Advances in Knowledge Discovery and Data Mining // Eds. U. M. Fayyad, G. Piatetsky-Shapiro at al. Menlo Park, Calif.: AAAJ Press /The MIT Press. 1996.

28. Финн В.К. Об особенностях ДСМ-метода как средства интеллектуального анализа данных // НТИ. Сер. 2. 2001. - № 5. - С. 1-4.

29. Дюк. В, Самойленко A. Data Mining. СПб. «Питер» 2001

30. Финн В.К. Синтез познавательных процедур и проблема индукции // НТИ. Сер.2. 1999. - №1-2. - С. 8-44.

31. Фабрикантова Е.Ф. Разработка средств представления знаний и архитектуры интеллектуальной системы для прогнозирования путей биотрансформации. Автореферат диссертации на соискание ученой степени к.т.н. М. 2002

32. Панкратова Е.С. Разработка представлений данных, знаний и алгоритмических средств прогнозирования канцерогенности химических веществ. Автореферат диссертации на соискание ученой степени к.т.н. М. 1997

33. Панкратов Д.В. Логические и программные средства качественного анализа социологических данных. Автореферат диссертации на соискание ученой степени к.т.н. М. 2001

34. Блинова В.Г., Добрынин А.А. Языки представления химических структур в интеллектуальных системах для конструирования лекарств // НТИ. Сер. 2. 2000. - № 6. - С. 14-21.

35. Klopman, G., Tu, M., Talafous, J. META 3. A Genetic Algorithm for Metabolic Transform Priorities Optimization // J. of Chemical Information and Computer Sciences. 1997. - Vol. 37, № 6. - P. 329334.

36. Випке B.T., Хан M.A. Аналогии и рассуждения при построении моделей // Искусственный интеллект: применение в химии: Пер. с англ. / Под ред. Т. Пирса, Б. Хони. М.: Мир, 1988. -430 с.

37. Джексон П. Введение в экспертные системы / Пер. с англ.: -Уч.пос. М.: Издательский дом "Вильяме", 2001. - 624 с.

38. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384 с.

39. Гусакова С.М., Финн В.К. Сходство и правдоподобный вывод // Известия АН СССР. Сер. Техническая кибернетика. 1987. -№ 5. С. 42-63.

40. Финн В.К. О декларативном, процедурном и понятийном знании в интеллектуальных системах типа ДСМ // 4-я Международная конференция НТИ-99 "Интеграция. Информационные технологии Телекоммуникации", Март 17-19, 1999. Материалы конференции. С.3-4.

41. Путрин A.B. Система процедур ДСМ-метода автоматического порождения гипотез и ее реализации. Автореферат диссертации на соискание ученой степени к.т.н. М.: 2000.

42. MDL Information System, Inc. CTfile Formats, USA CA, San Leandro, 1990

43. J.D.Holliday M.F.Lynch Computer Storage and Retrieval of Generic Chemical Structures in Patents, J.Chem.Inf.Comput.Sci. 1995,35,1-7

44. Малпас Дж. Реляционный Язык ПРОЛОГ и его применение М. Наука 1990

45. Бондарев К.Л. Фабрикантова Е.Ф. Разработка СУБД для регистрации и хранения данных об экспериментах в области физиологической активности веществ и их биотрансформации // НТИ. Сер.2. 2002. - №6. - С. 45-51.

46. РОССИЙСКАЯ ГОСУДАРСТВЕН.I Ai"! БЕБЛШТО "