автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Разработка средств управления данными для интеллектуальной системы по биотрансформации

кандидата технических наук
Бондарев, Кирилл Леонидович
город
Москва
год
2003
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Разработка средств управления данными для интеллектуальной системы по биотрансформации»

Оглавление автор диссертации — кандидата технических наук Бондарев, Кирилл Леонидович

Оглавление.

Список иллюстраций.

Введение.

Цели.

Задачи.

Глава I. Цели создания системы. Проектирование.

1.1 Цели создания системы.

1.2 Проектирование.

1.3 Выбор средств разработки.

1.4 Выводы.

Глава II. Программная реализация MetaChem Data System.

2.1 Архитектура серверной части.

2.2 Управление данными.

2.3 Архитектура клиентской части.

2.3.1 Объектная модель интерфейса. Иерархия классов.

2.3.2 Навигация.

2.3.3 Настройки. Взаимодействие с химическими редакторами и редактором метаболических сетей.

2.4 Обмен данными с системой построения метаболических сетей и интеллектуальной системой прогнозирования путей метаболизма.

2.5 Выводы.

Глава III. Система поиска данных.

3.1 Поиск по шаблону.

3.2 Конструктор запросов.

3.3 Поиск химических структур.

3.4 Выводы.

Глава IV. Интеграция с документографической системой.

4.1 Алгоритм взаимодействия.

4.2 Серверная часть блока интеграции.

4.3 Управление поступлением сообщения в интерфейсе.

4.4 Выводы.

Введение 2003 год, диссертация по документальной информации, Бондарев, Кирилл Леонидович

Целью диссертационных исследований являлось создание модуля интеллектуальной системы типа ДСМ (ИнтС-ДСМ) прогноза путей биотрансформации1 [1]. Спроектирована система MetaChem Data System (MCDS), которая представляет собой комбинацию базы данных и системы управления данными. Она разрабатывалась как модуль ИнтС-ДСМ, который позволял бы хранить и структурировать необходимые для построения ИнтС-ДСМ рассуждений факты, и базу данных которого ИнтС-ДСМ могла бы самостоятельно пополнять результатами, полученными в процессе функционирования системы.

При этом требовалось, чтобы модуль был способен выступать в роли автономного приложения (автоматизированного рабочего места исследователя) для регистрации, структурирования, хранения и поиска данных по экспериментам в области биологической активности и метаболизма. Дело в том, что в настоящее время исследования в двух основных областях фармакологии - биотрансформация веществ в организме и их биологическая активность (канцерогенность, мутагенность, токсичность) - зачастую ведутся отдельно друг от друга, хотя, на самом деле, они являются очень тесно связанными. Такое разделение часто не позволяет должным образом использовать результаты, полученные в ходе изучения соединений на обладание определенными свойствами, в экспериментах из смежной области. Кроме того, раздельно хранятся и данные, полученные в ходе экспериментальных исследований.

ИнтС-ДСМ позволяет прогнозировать именно биотрансформацию, как составляющую процесса метаболизма. Тем не менее, в данной работе иногда будет использоваться термин «метаболизм» для обозначения биотрансформационных преобразований химических веществ.

Задачи

Для достижения этих целей были поставлены следующие задачи:

1. спроектировать базу фактов для интеллектуальной системы прогнозирования биотрансформации чужеродных веществ в организме;

2. разработать на основе базы фактов систему управления данными для интеллектуальной системы прогнозирования биотрансформации;

3. дополнить структуру базы фактов с целью обеспечить обратное взаимодействие с интеллектуальной системой: получение от ИнтС знаний, являющихся результатом ее работы;

4. расширить структуру базы фактов до полноценной базы данных для регистрации и хранения экспериментальных данных по исследованиям в области биологической активности, биотрансформации и метаболизма;

5. создать на основе базы данных автоматизированное рабочее место исследователя-фармаколога с развитой подсистемой поиска и поддержкой взаимодействия с редакторами химических структур и метаболических сетей;

6. разработать механизм взаимодействия с документальной системой, содержащей информацию из периодических изданий, в целях расширения сферы пополнения базы фактами, необходимыми для работы ИнтС.

Решение каждой из поставленных задач описывается в данной работе.

Применение ДСМ-метода автоматического порождения гипотез для решения различных естественнонаучных задач имеет уже многолетнюю историю (о ДСМ-методе см., например, [2-4]). Основные результаты были получены именно при решении задач фармакологии и медицины - изучение зависимости «структура химического соединения - биологическая активность» (Qualitative Structure-Activity Relationship, QSAR) [5], установления канцерогенности [6, 7] и токсичности [8] химических соединений. Для решения каждой из этих задач в качестве средства интеллектуального анализа данных (ИАД) использовались правдоподобные рассуждения типа ДСМ [2-4], и была создана отдельная версия интеллектуальной системы. Архитектура данной ИнтС была предложена Е.Ф. Фабрикантовой [22-25], реализация осуществлена А.А. Матвеевым [23, 25], ДСМ-решатель, являющийся ядром системы, спроектирован А.В. Путриным [1].

Однако, данная ИнтС, модулем которой является разработанная система и механизмы, на которых она основана, не может эффективно функционировать в реальных условиях и порождать адекватные и полезные гипотезы в отсутствии собственной базы знаний. Неавтоматизированное предоставление информации ядру ИнтС - ДСМ-решателю [1] - и ее подсистемам позволяет ей работать только в экспериментальном режиме из-за больших объемов данных, которые необходимы для получения полезных результатов, их сложной структуры и трудоемкости процесса. Для работы ИнтС в реальных условиях необходимо не просто пассивное хранилище данных, но и некая активная «прослойка» - автоматическая система управления данными, способная реагировать на вызовы и запросы ИнтС, предоставляя ей необходимые данные и обеспечивая пополнение самой базы за счет выводов ИнтС.

В качестве автоматизированного рабочего места исследователя система позволит объединить данные, полученные в ходе биохимических экспериментов, обеспечить их надежное, безопасное хранение в единой структурированной форме, простоту доступа к данным, как эксперта, так и вспомогательных систем; предоставит возможность оператору заносить новые экспериментальные данные уже в строго структурированном виде.

Разработанная подсистема поиска данных упростит пользователю, работающему с клиентской частью приложения, доступ к хранящейся в базе информации. Возможности поиска, которые предлагает система, достаточно разнообразны и способны удовлетворить основные потребности пользователей с разным уровнем компьютерной подготовки. Осуществляется поиск по шаблону с ограниченным переменным набором условий. Реализован принципиально новый конструктор запросов (демонстрационная версия), который значительно расширяет возможности поиска, обеспеченные шаблонным поиском. Блок поиска по фрагменту химической структуры позволяет искать не только записи базы данных, но и вхождения некоторого химического соединения в структуры веществ, содержащихся в базе.

Технология взаимодействия с редакторами химических структур, которая реализована в программном обеспечении, практически не зависит от особенностей конкретного редактора, позволяет использовать их неограниченное количество посредством регистрации типов файлов и установления их ассоциаций с редакторами. Эта особенность расширяет возможности пользователя системы, не ограничивая его использованием файлов химической структуры конкретного типа и, следовательно, применением соответствующего редактора.

Предложенный механизм взаимодействия с документографиче-ской системой позволит совместно использовать функции обеих систем, наиболее полно отражая информацию печатных и электронных изданий по предметной области, открывая еще одну возможность пополнения базы фактами для работы ИнтС. Данные, предлагаемые такого рода изданиями, часто содержат описания экспериментов с приведением фактической информации. Комбинация двух систем обеспечит распределенный ввод и хранение библиографических и фактических данных в базах. При этом данные, введенные так в фактографическую систему, будут связаны с их библиографическим описанием, рефератом и др. Разработанный метод, являясь достаточно простым и эффективным, вполне может применяться разработчиками в аналогичных ситуациях.

Способ хранения химических структур соединений и метаболических сетей, полученных в результате работы ИнтС или построенных пользователем, не нарушает реляционной модели базы данных, требований нормализации, обеспечивает уникальность химической структуры (метаболической сети) при хранении и редактировании. Такой результат достигается за счет хранения в базе не самих файлов, а ссылок (в текстовом виде) на их физическое расположение на диске. При просмотре и редактировании ведется работа с файлом по указанному в базе пути. При этом в целях надежности хранения данных и предотвращения потери ценной информации, имеется возможность импортировать и хранить в базе образ файла для восстановления в случае утраты оригинала.

Следующие особенности работы определяют ее новизну:

• созданы специальные средства для представления и управления данными и знаниями о биологической активности химических соединений и их биотрансформации;

• спроектирована структура базы фактов и система управления данными для новой интеллектуальной системы прогнозирования биотрансформации;

• разработана новая система для регистрации и хранения экспериментальных данных, являющаяся основой автоматизированного рабочего места исследователя-фармаколога;

• создано автоматизированное рабочее место исследователя, предназначенное для ввода и хранения экспериментальных данных по биологической активности веществ и биотрансформации;

• впервые предложен механизм взаимодействия с документальными системами, который может использоваться как для пополнения базы экспериментальными данными из периодических изданий по фармакологии, так и для автоматизированного создания фактографической основы рефератов публикаций по проблемам предметной области.

Практическая значимость работы состоит в создании модуля управления данными для интеллектуальной системы прогнозирования путей метаболизма и биотрансформации, которая позволит эффективно использовать ее в реальных условиях. Созданное программное обеспечение является полноценным автоматизированным рабочим местом эксперта, располагающим набором полезных инструментов и функций. Его использование позволит объединить данные, полученные в ходе биохимических экспериментов, обеспечит их надежное, безопасное хранение в единой структурированной форме, простоту доступа к данным, как эксперта, так и вспомогательных систем; предоставит возможность оператору заносить новые экспериментальные данные уже в строго структурированном виде. Интеграция с докумен-тографической системой позволит использовать возможности обеих систем при реферировании печатных изданий, принося обоюдную пользу для обеих систем.

Известен ряд программных продуктов, предназначенных для хранения и обработки данных по метаболизму и биотрансформации. Прежде всего, это продукция компании MDL Information Systems, Inc. Например, информационная система по метаболизму MDL® Metabolite Database, которая включается в себя базу данных, систему регистрации, интерфейс для поиска и просмотра данных. Входящий в ее состав Metabolite Registrar, позволяет создавать, редактировать и регистрировать схемы метаболизма в корпоративных базах данных. Система MDL® Toxicity Database ориентирована на данные по биологической активности и содержит свыше 150000 соединений. Она содержит данные по токсичности, мутагенности, канцерогенности и др. Эти и другие продукты объединены в программном комплексе MDL ISIS/Host. Существуют также базы Национального Онкологического Института (National Cancer Institute Databases). Компания LIGAND предлагает одноименную систему, состоящую из трех компонентов: COMPOUND -собрание химических соединений, связанных с различными клеточными процессами; REACTION - набор реакций, преимущественно ферментных, с этими соединениями; ENZYME - классифицированный перечень ферментов по номенклатуре IUBMB и IUPAC. При рассмотрении этих (и аналогичных) систем были выявлены следующие проблемы. Во-первых, нет возможности ознакомиться с их структурой и реализацией, т.к. все они являются коммерческими продуктами высокой стоимости. Во-вторых, как становится понятно из описания производителей, их базы узко специализированы, в том смысле, что каждая отражает одну узкую область исследований - метаболизм, токсичность и т.д. - и не предназначены для регистрации эксперимента, а только соединений, схем метаболизма, биотрансформации, необходимых дозировок. Таким образом, эти системы можно рассматривать как банки справочных данных.

Заключение диссертация на тему "Разработка средств управления данными для интеллектуальной системы по биотрансформации"

4.4 Выводы

Предложенный в данной главе реализованный в системе способ взаимодействия, безусловно, далек от полноценной интеграции двух систем. Его, скорее, следует рассматривать как первый важный шаг к этой цели. Остаются нерешенными вопросы двустороннего взаимодействия, управления целостностью данных при удалении связанной информации из параллельной системы и многие другие. Основной по-прежнему остается проблема автоматического извлечения фактографической информации из рефератов. Однако эти проблемы выходят за рамки сформулированных задач и поставленных в данной работе целей и могут быть положены в основу других исследований.

Заключение

В процессе работы над диссертацией автором выполнены все поставленные задачи. Спроектирована база фактов и система управления данными для ИнтС-ДСМ прогноза путей метаболизма. Обеспечена возможность обратного пополнения базы выводами ИнтС. Создана база данных для регистрации и хранения экспериментальных данных по исследованиям в области биологической активности, биотрансформации и метаболизма, на основе которой разработано автоматизированное рабочее место исследователя-фармаколога. Оно снабжено гибкой подсистемой поиска данных, рассчитанной на пользователей разного уровня компьютерной подготовки. Входящий в ее состав новый визуальный конструктор запросов, позволит пользователям, не знакомым с языком SQL, формировать полноценные запросы на этом языке посредством использования визуальных элементов интерфейса. Модуль поиска вхождения химического соединения, построенный на основе уникальных компонентов, обеспечивает поиск по «графической» части данных, хранящихся в базе системы. Обеспечена поддержка взаимодействия с редакторами химических структур и метаболических сетей, расширяющая возможности конечного пользователя АРМ при работе с системой. Предложен механизм связи с документальной системой, содержащей информацию из периодических изданий, который позволит расширить сферу пополнения базы фактами, необходимыми для работы ИнтС, и формировать фактографическую структуру реферата публикации. Этот механизм может рассматриваться как первый шаг на пути интеграции двух типов систем -фактографической и документографической.

Описанные выше функции и особенности системы отличают предложенное средство от существующих продуктов, предназначенных для автоматизации и поддержки исследований в предметной области. Применение системы позволит существенно повысить эффективность работы исследователей, упростить и ускорить регистрацию экспериментов, обеспечить надежность и безопасность хранения занесенной информации, в полной мере использовать потенциал интеллектуальной системы для прогнозирования путей метаболизма и биотрансформации.

Условные обозначения Сокращения

• MCDS, MetaChem - MetaChem Data System, представляемая система;

• ЭС - Экспертная система;

• ИнтС, ИС - Интеллектуальная система;

• ИнтС-ДСМ - Интеллектуальная система типа ДСМ; допускается также использование сокращений ИнтС и ИС;

• БЗ - База знаний;

• БД - База данных;

• БФ - База фактов;

• СУБД - Система управления базами данных;

• ПО - Программное обеспечение;

• GUI - Graphical User Interface, графический интерфейс пользователя;

• MDI - Multi-Document Interface, многодокументный интерфейс;

• ER - Entity /Relationship model, модель Сущность/Отношение;

• ООА - Object-Oriented Analysis, объектно-ориентированный анализ;

• ООД, OOD - Object-Oriented Design, объектно-ориентированное проектирование;

• ООП, OOP - Object-Oriented Programming, объектно-ориентированное программирование;

• ОС - Операционная система;

• OLE - Object Linking and Embedding, технология связывания и внедрения объектов;

• IDE - Integrated Development Environment, интегрированная среда разработки;

• IDEFx (0, 1, lx, 3), DFD, IE,. - нотации/языки моделирования бизнес-процессов, потоков данных, построения моделей данных [35];

• RAD - Rapid Application Development, средство быстрой разработки приложений;

• АРМ - автоматизированное рабочее место.

Выделения шрифтом

• Курсив и жирный курсив - термины, названия или определения;

• Жирный курсив с измененным шрифтом - названия программных продуктов;

• Печатный шрифт - фрагменты программного кода.

Публикации

1. Бондарев К.Л., Фабрикантова Е.Ф. Разработка СУБД для регистрации и хранения данных об экспериментах в области физиологической активности веществ и их биотрансформации // НТИ. Сер.2. - 2002. - № 6. С. 45-51.

2. Бондарев K.J1. Программная реализация системы управления экспериментальными данными в области физиологической активности веществ и биотрансформаций MetaChem // НТИ. Сер.2. -2003. №5. С. 16-22.

3. Бондарев K.J1. Система поиска данных в MetaChem Data System II НТИ. Сер.2. - 2003. № 5. С. 22-28.

Библиография Бондарев, Кирилл Леонидович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Путрин А.В. Система процедур ДСМ-метода автоматического порождения гипотез и ее реализации: Автореф. . канд. техн. наук. М.: 2000.

2. Финн В.К. Синтез познавательных процедур и проблема индукции // НТИ. Сер.2. 1999. - №1-2. - С. 8-44.

3. Финн В.К. О декларативном, процедурном и понятийном знании в интеллектуальных системах типа ДСМ // 4-я Международная конференция НТИ-99 "Интеграция. Информационные технологии Телекоммуникации", Март 17-19, 1999. Материалы конференции. С. 3-4.

4. Финн В.К. Об особенностях ДСМ-метода как средства интеллектуального анализа данных // НТИ. Сер. 2. 2001. - № 5. - С. 1-4.

5. Блинова В.Г. О результатах применения ДСМ-метода порождения гипотез в задачах анализа связи "структура химического соединения- биологическая активность" // НТИ. Сер.2. 1995.-№5.-С. 17-24.

6. Панкратова Е.С. Применение ДСМ-метода для прогнозирования канцерогенности веществ // II Всесоюзная конференция "Искусственный интеллект 90".Минск, Октябрь 22-25, 1990, Труды конф. Т. 3.

7. Панкратова Е.С. Применение ДСМ-метода к задаче распознавания прямых и непрямых канцерогенов // НТИ. Сер. 2. 1993. -№3. С. 14-16.

8. Spann M.L., Chu K.C, Wipke W.T., Ouchi G. Use of Computerized Methods to Predict Metabolic Pathways and Metabolites. // J. Environ. Pathol. Toxicol. 1978. № 2. - P. 123.

9. Klopman G, Dimayuga M, Talafous J. МЕТА 1. A Program for the Evaluation of Metabolic Transformation of Chemicals // J. of Chemical Information and Computer Sciences. 1994. - Vol. 34, № 6.-P. 1320-1325.

10. Talafous J, Sayre L.M, Mieyal J.J, Klopman G. META 2. A Dictionary Model of Mammalian Metabolism // ibid. P. 1326-1333.

11. Klopman, G, Tu M, Talafous J. META 3. A Genetic Algorithm for Metabolic Transform Priorities Optimization // J. of Chemical Information and Computer Sciences. 1997. - Vol. 37, № 6. - P. 329334.

12. Гиляревский P.С. «О значении экспертных информационных систем в информатике», Нацчно-техническая информация серия 2№ 11,М, ВИНИТИ 1984-с. 1-4

13. Гергей Т, Финн В.К. Об интеллектуальных системах // Экспертные системы: состояние и перспективы / Под ред. Д.А. Поспелова. М.: Наука, 1989. - С. 9-20.

14. Джексон П. Введение в экспертные системы / Пер. с англ.: -Уч.пос. М.: Издательский дом "Вильяме", 2001. - 624 с.

15. Ивашко В.Г., Финн В.К. Экспертные системы и некоторые проблемы их интеллектуализации // Семиотика и информатика. -1986.-Вып. 27.-С. 25-61.

16. Фабрикантова Е.Ф. Метаболизм ксенобиотиков как задача искусственного интеллекта // II Всесоюзная конференция "Искусственный интеллект-90", Минск, Октябрь 22-25, 1990, Труды конференции, т. I, с. 175-179.

17. Fabricantova E.F., Finn V.K., Gergely Т. Pancratova E.S. A qualitative model of metabolism by the use of a logic based method of simulation // MIE-91 Satellite Conference on Computer Modelling, Budapest, Hungary, 1991, Conference Proceedings, p. 81-89.

18. Фабрикантова Е.Ф. Разработка средств представления знаний и архитектуры интеллектуальной системы для прогнозирования путей биотрансформации // Диссертация на соискание ученой степени кандидата технических наук. М. 2002.

19. Фабрикантова Е.Ф. Применение ДСМ рассуждений для интеллектуального анализа данных и автоматического порождения гипотез о путях биотрансформации // НТИ. Сер.2. - 2002. - № 2. - С. 8-20.

20. Матвеев А.А., Фабрикантова Е.Ф. Алгоритмические и программные средства прогнозирования метаболизма // НТИ. Сер.2. 2002. - № 6. - С. 26-34.

21. Гусакова С.М. "Проблемы организации баз данных в интеллектуальных системах типа ДСМ"; Ассоциация Искусственного Интеллекта, III Конференция по Искусственному Интеллекту КИИ-92,т.1, Тверь 1992

22. Финн В.К. «О базах знаний интеллектуальных систем типа ДСМ», II Всесоюзная конференция «Искусственный интеллект-90», Минск, 1990-с. 180-182

23. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384 с.

24. Доклады с технических конференций серии «Корпоративные базы данных» Центра Информационных Технологий ( www.citforum.ru)

25. Гради Буч Объектно-ориентированный анализ и проектирование с примерами приложений на С++ // 2-е изд., Бином, Невский Диалект, 1999

26. Chen Р. Р. —S. The Entity-Relationship Model Toward a Unified View of Data // ACM TODS. - 1976. - 1, № 1. (Переиздано: M. Stonebraker (ed.) Readings in Database Systems. - San Mateo, Calif.: Morgan Kauffmann, 1988.)

27. К. Дейт Введение в системы баз данных // 6-е издание, Издательский дом «Вильяме», 1999.

28. Хансен Г., Хансен Д. Базы данных: разработка и управление // М., Бином, 1999.

29. Ахаян Р., Горев А., Макашарипов С. Эффективная работа с СУБД // С-Пб., Питер, 1997.

30. Маклаков С. В. BPwin и ERwin. CASE средства разработки информационных систем // Диалог - МИФИ, 2000.

31. Мейер Д. Теория реляционных баз данных // М., Мир, 1987.

32. Вильям Дж. Пейдж мл., Натан Хьюз и др. Использование Oracle 8 // Издательский дом «Вильяме», 1998.

33. Тихомиров Ю. Microsoft SQL Server 7.0 в подлиннике // С-Пб., БХВ Санкт-Петербург, 1999.

34. Мамаев Е. Microsoft SQL Server 2000 в подлиннике // С-Пб., БХВ Петербург, 2001.

35. Кэнту М. Delphi 5 для профессионалов // С.-П., Питер, 2001.

36. William Lijinsky and Н. Wayne Taylor. Carcinogenicity Test of Two Unsaturated Derivatives of N-Nitrosopiperidine in Sprague-Dawley Rats // J NATL CANCER INST, Vol. 57, № 6, December 1976.

37. Блинова В.Г., Добрынин A.A. Языки представления химических структур в интеллектуальных системах для конструирования лекарств // НТИ. Сер. 2. 2000. - № 6. - С. 14-21.

38. Рихтер Дж. Windows для профессионалов: создание эффективных Win32 приложений с учетом специфики 64-разрядной версии Windows // Пер, англ 4-е изд. - С-Пб; Питер; М.: Изда-тельско-торговый дом "Русская Редакция", 2001.

39. Тео Мандел Разработка пользовательского интерфейса // ДМК, 2001,416 стр.

40. The Windows User Experience. Official Guidelines for User Interface Developers and Designers // 2000. Microsoft Corporation.

41. DRAFT INTERNATIONAL ISO DIS 9241-11 STANDARD. Economic requirements for office work with visual display terminals (VDTs): Part 11: Guidance on Usability // September 1994. (можно ознакомиться в Internet: http://www.usability.ru/sources/iso9241-11.htm).

42. Леффингуэлл Д., Уидриг Д. Принципы работы с требованиями к программному обеспечению. Унифицированный подход // ISBN: 5-8459-0275-4, 0-201, Вильяме