автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка и исследование методов создания специализированного компьютерного банка знаний для органической химии

кандидата технических наук
Рештаненко, Наталья Валентиновна
город
Владивосток
год
2007
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов создания специализированного компьютерного банка знаний для органической химии»

Автореферат диссертации по теме "Разработка и исследование методов создания специализированного компьютерного банка знаний для органической химии"

На правах рукописи

Рештаненко Наталья Валентиновна

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ СОЗДАНИЯ СПЕЦИАЛИЗИРОВАННОГО КОМПЬЮТЕРНОГО БАНКА ЗНАНИЙ ДЛЯ ОРГАНИЧЕСКОЙ ХИМИИ

05 13 11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат

диссертации на соискание ученой степени кандидата технических наук

0030Т0Т53

Владивосток 2007

003070753

Работа выполнена в отделе интеллектуальных систем Института автоматики и процессов управления Дальневосточного отделения РАН

Научный руководитель кандидат технических наук

старший научный сотрудник Артемьева Ирина Леонидовна

Официальные оппоненты

доктор технических наук, профессор Грудин Борис Николаевич кандидат технических наук Лифшиц Александр Яковлевич

Ведущая организация

Институт систем информатики СО РАН (Новосибирск)

Защита состоится «31» мая 2007 г в _ часов на заседании

диссертационного совета Д 005 007 01 в Институте автоматики и процессов управления ДВО РАН по адресу 690041, г Владивосток, ул Радио, 5

С диссертацией можно ознакомиться в библиотеке Института автоматики и процессов управления Дальневосточного отделения РАН

Автореферат разослан « 30 » апреля 2007 г

Ученый секретарь

диссертационного совета Д 005 007 01 í^^py^ д В Лебедев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. К настоящему времени разработано большое число прикладных программных систем для решения задач в области химии Ранние системы для данной области не являлись интеллектуальными, поскольку при их разработке не использовались методы искусственного интеллекта Но после того, как такие методы получили широкое применение, появились интеллектуальные программные системы для решения задач данной области В разработку интеллектуальных систем, решающих задачи в области химии и, в частности, в области органической химии, внесли вклад Гордеева Е В , Зефиров Н С , Карри Б , Випке В Т , Хеффрон М , Либман С и др

Примерами программных систем, решающих задачи в области химии, в частности, в области органической химии, являются LHASA, SINGEN, EROS, AIPHOS, AOCR и др Такие программы позволяют изучать свойства химических соединений с использованием сложного математического аппарата и моделей, описывающих зависимости этих свойств от молекулярной структуры вещества Базы данных этих программ содержат большой объем справочной информации

Одним из подходов к созданию интеллектуальных систем является их разработка на основе онтологий Это, с одной стороны, делает понятным для специалистов интерфейс таких систем, с другой стороны, повышает доверие пользователей к ним Онтологии также являются средством обеспечения повторного использования информации, хранимой в базах знаний интеллектуальных систем, а также методов, применяемых при решении задач

В настоящее время разработаны онтологии некоторых фрагментов химии (например, Chemical Elements, Chemical Ontology, SUBSTANCES, Chemical-Crystals, Pure Substances, Plinius), а также онтологии некоторых близких к химии областей (например, Gene Ontology, The Sequence Ontology, TAMBIS, COMe)

Последние два десятилетия характеризуются развитием Интернет-технологий, которые востребованы и в области химии Уже создано большое число сайтов, содержащих химическую информацию, а также порталов, хранящих такую информацию из области органической химии, как структура органических соединений, их физико-химические свойства, способы синтеза и применения Сайты и порталы предоставляют возможность хранения, редактирования и просмотра имеющейся информации специалистами областей

Однако практика показывает, что прикладные системы (в том числе в области химии), быстро устаревают, и даже использование интеллектуальных систем, основанных на знаниях, не решает эту проблему Ее решение возможно лишь в том случае, когда интеллектуальная система обеспечивает коллективное развитие баз знаний, основана на общепринятой онтологии, а средства развития ее баз знаний доступны через сеть Интернет Однако в настоящее время нет интеллектуальных Интернет систем, предоставляющих не только возможности коллективного развития баз знаний и их просмотра пользователями, но и использования их для компьютерной обработки программными системами

Ни одна из разработанных за рубежом интеллектуальных систем для решения задач в области химии не основана на онтологиях Существует лишь

две интеллектуальные системы, разработанные на основе онтологии - система решения вычислительных задач физической химии и система определения состава соединений с использованием рентгено-флуоресцентного метода анализа, созданные в нашей стране

Во многих из разработанных за рубежом онтологии определены классы понятий и их иерархии, а знания задаются как элементы классов и часто не отделяются от самой онтологии Такое представление затрудняет использование онтологии и знаний при создании интеллектуальных систем, поскольку в онтологии сложной реальной предметной области, особенно области, связанной с наукой, между терминами онтологии существуют отношения, отличные от иерархических отношений между классами понятий, а знания области постоянно обновляются В настоящее время существуют лишь две онтологии для химии, определяющие такие отношения Это онтология физической химии и онтология рент-гено-флуоресцентного анализа, созданные в нашей стране Онтология же органической химии до сих пор не разработана

Таким образом, актуальной является разработка интеллектуальной Интернет-системы, основанной на онтологии органической химии, предоставляющей возможность создания и коллективного развития баз знаний, а также их использования при решении прикладных задач Кроме того, система должна учитывать наличие пользователей разной квалификации в данной предметной области

Целью диссертационной работы является разработка моделей, методов и средств создания интеллектуальной Интернет-системы для коллективного развития баз знаний в области органической химии и использования их при решении задач программными системами

Так как предметная область органической химии весьма обширна и сложна, то развитие баз знаний в ней может осуществляться в нескольких направлениях Все эти направления предполагают наличие общего ядра, которое должно содержать терминологию и знания университетского курса органической химии Развитие баз знаний влечет появление новых классов прикладных задач Поэтому Интернет система должна поддерживать механизмы для добавления программных компонент, предназначенных для решения новых прикладных задач С учетом этих замечаний, для достижения поставленной цели в диссертационной работе необходимо решить следующие задачи

1 Разработать концепцию расширяемой интеллектуальной Интернет системы для коллективного развития баз знаний в области органической химии и использования их при решении прикладных задач (концепцию специализированного компьютерного банка знаний в области органической химии)

2 Разработать онтологию органической химии в объеме университетского курса и ее модель

3 В терминах модели онтологии разработать математические постановки для решаемых в университетском курсе задач и методы их решения

4 Разработать методы реализации расширяемого специализированного компьютерного банка знаний в области органической химии, основанного на предложенной концепции

5 Разработать прототип расширяемого специализированного компьютерного банка знаний в области органической химии, основанного на

предложенной концепции, содержащего редакторы онтологии и знаний, а также решатель задач определения путей синтеза органических соединений, и провести его экспериментальное исследование

Методы исследования Для решения указанных задач использовались элементы математической логики, теории алгоритмов и исчислений, методы построения онтологий и их математических моделей, а также методы системного программирования

Научная новизна работы состоит в следующем

1 Предложена концепция специализированного компьютерного банка знаний в области органической химии, описывающая механизмы коллективного развития баз знаний, предназначенных как для специалистов, так и для компьютерных систем, а также механизмы для добавления программных компонент, предназначенных для решения новых классов прикладных задач

2 Впервые разработана модульная онтология органической химии в объеме вузовского курса и ее модель

3 Для всех классов задач поиска путей синтеза органических соединений специфицирован метод решения как вывод в исчислении, а именно определены правила построения начального состояния вывода, правила завершения вывода, а также правила формирования очередного состояния процесса вывода

4 Разработаны методы реализации расширяемого специализированного трехуровневого редактора метаонтологнй, онтологий и знаний, позволяющего подключать специализированные графические компоненты редакторов знаний, вызов которых при редактировании управляется онтологией

5 Разработан метод автоматического определения схемы базы данных для представления знаний на основе определения терминов и связей между ними в онтологии

Практическая ценность работы состоит в следующем

1 Реализован прототип расширяемого специализированного компьютерного банка знаний в области органической химии, основанный на предложенной концепции и содержащий трехуровневый редактор метаонтологий разделов, онтологий и знаний подразделов, графический редактор структурных формул, решатель класса задач поиска путей синтеза органических соединений, графические системы ввода исходных данных, вывода и объяснения результатов

2 С использованием трехуровневого редактора создано информационное наполнение специализированного банка знаний по органической химии, содержащее метаонтологию органической химии, 26 модулей онтологии и 26 модулей знаний подразделов органической химии

Материалы диссертации использовались в учебном процессе на базовой кафедре программного обеспечения ЭВМ Дальневосточного государственного университета (ДВГУ) при Институте автоматики и процессов управления (ИАПУ) ДВО РАН при чтении курса лекций по дисциплине "Системы искусственного интеллекта", при выполнении курсовых и дипломных работ студентами кафедры программного обеспечения ЭВМ ДВГУ, а также на кафедре органической химии химического факультета Института химии и прикладной экологии ДВГУ Результаты работы используются в научных исследованиях

отдела интеллектуальных систем ИАПУ ДВО РАН при разработке единого подхода к определению свойств онтологии и исследований его применимости к оцениванию произвольных онтологии на практике

Апробация работы. Основные научные и практические результаты работы докладывались и обсуждались на следующих международных и отечественных конференциях и семинарах Дальневосточной математической школе-семинаре им академика ЕВ Золотова (Владивосток, 2001, 2002, 2004), международной конференции «Искусственный интеллект Интеллектуальные и многопроцессорные системы» (Кацивели, 2004, 2006), шестом международном симпозиуме «Интеллектуальные системы Intel 2004» (Москва, 2004), научной сессия МИФИ (Москва, 2006, 2007), конференции «Фундаментальные и прикладные проблемы современной физики» (Москва, 2006), II Международной конференции по когнитивной науке (Санкт-Петербург, 2006), совместных семинарах отдела интеллектуальных систем ИАПУ ДВО РАН и базовой кафедры программного обеспечения ЭВМ ДВГУ (2002-2007)

Публикация результатов работы. По материалам диссертации опубликовано 24 печатные работы, из них 2 статьи в журналах, входящих в перечень ВАК

Структура н объем работы Диссертационная работа состоит из введения, пяти глав, основная часть работы машинописного текста изложена на 150 страницах, включающего 10 рисунков и 1 таблицы, заключения, списка литературы, включающего 101 наименование и 4 приложений

СОДЕРЖАНИЕ РАБОТЫ

Глава 1 диссертации содержит обзор литературы В ней анализируются существующие онтологии и модели онтологий различных разделов предметной области «Химия», рассматриваются средства представления онтологий и описываются существующие программные системы, решающие задачи в предметной области «Химия» Особое внимание уделяется анализу онтологий органической химии и систем, решающих задачи органической химии

Глава 2 диссертации содержит описание концепции расширяемого специализированного компьютерного банка знаний по органической химии, основных направлений развития органической химии, задач, которые необходимо решать с использованием специализированного компьютерного банка знаний, его состав и классы пользователей

Специализированный компьютерный банк знаний для органической химии (СКБЗ_ОХ) - это расширяемая интеллектуальная программная система для Интернет, созданная для решения различных задач профессиональной деятельности этой предметной области (ПО), обеспечивающая коллективное развитие баз знаний (БЗ) данной области и поддерживающая механизмы для добавления новых программных компонент, предназначенных для решения новых прикладных задач данной области СКБЗ_ОХ состоит из информационного (ИН) и программного наполнения (ПН), а также блока администрирования

Информационное наполнение СКБЗ_ОХ должно содержать онтологию и базу знаний органической химии Онтология и БЗ данной ПО должны быть мо-

дульными, где каждый модуль соответствует некоторому разделу области СКБЗ_ОХ должен позволять добавление новых модулей онтологии и БЗ в информационное наполнение ИН также должно включать ссылки на теоретическую информацию различных разделов ПО, представленную в книгах и публикациях Другим компонентом ИН должна быть расширяемая библиотека методов решения прикладных задач ПО

всех своих собственного

студентов тестирования

Рис 1 Прикладные пользователи специализированного компьютерного банка знаний по органической химии и решаемые ими задачи

Программное наполнение СКБЗ_ОХ должно включать средства редактирования ИН и набор программных средств для решения прикладных задач ПО Средства редактирования ИН должны включать специализированные редакторы онтологий и знаний, а также редактор теоретического материала Поскольку в органической химии важное место уделяется работе со структурными формулами, редактор знаний должен содержать графический компонент для редактирования структурных формул Редактор знаний должен позволять добавление новых компонент для редактирования знаний о других типах графических объектов (например, знаний о спектрах и т д) Знания, введенные с помощью графического компонента, должны переводиться во внутреннее представление, определяемое онтологией Редакторы онтологий и знаний должны позволять редактирование онтологических соглашений и законов ПО в виде формул при помощи специализированного редактора формул Редакторы онтологий и знаний

должны содержать компоненты для проверки онтологических соглашений Программное наполнение СКБЗ_ОХ должно также включать системы поиска и просмотра содержимого ИН, а также решатели прикладных задач, среди которых должен быть решатель задач определения путей синтеза органических соединений

Блок администрирования СКБЗ_ОХ должен администрировать пользователей и контролировать жизненный цикл всего банка знаний Пользователями СКБЗ_ОХ являются гости, инженеры знаний, эксперты и прикладные пользователи Для каждого прикладного пользователя, в зависимости от того, каким видом деятельности он занимается, существует ряд задач, которые он сможет решать с помощью СКБЗ_ОХ (рис 1) Эти задачи определяются полномочиями пользователя Каждому полномочию сопоставлен компонент ПН, поддерживающий выполнение данного полномочия Список полномочий и поддерживающих их компонент ПН должен быть расширяемым СКБЗ_ОХ должен позволять пользователю получать свое автоматизированное рабочее место (АРМ), которое содержит те компоненты ПН, которые требуются ему при решении задач Редактор онтологий включаются в АРМ пользователя только в том случае, если пользователь является инженером знаний Редактор знаний включаются в АРМ пользователя только в том случае, если пользователь является специалистом-экспертом ПО Пользователь, который не является инженером знаний или экспертом, получает только решатели прикладных задач

Глава 3 диссертации содержит описание модульной онтологии предметной области «Органическая химия Вузовский курс» и ее модели, определяет ее состав - множество модулей и связи между ними

Структура модульной онтологии данной ПО приведена на рис 2 Стрелочка на рисунке идет от модуля М1 к М2, если при определении модуля М2 использована терминология модуля М1 Модульная модель онтологии органической химии состоит из 26 связанных между собой модулей Онтология органической химии использует терминологию из онтологии физической химии (представленной на рис 2 отдельным модулем) В онтологии определены 171 термин и 107 онтологических соглашений Каждый модуль модели онтологии записан с использованием языка прикладной логики (ЯПЛ) Приведем пример модуля модели онтологии «Структурная формула соединения», в котором определяются термины для представления структурных свойств соединений

Структурная формула соединения(БТ, Математические кванторы, Интервалы) = <({Электронная конфигурация, Функциональные группы, Углеродный скелет, Константы онтологии}), где 551 предложения,

описанные ниже

Определения вспомогательных терминов 1 1 типы связи = {простая, двойная, тройная} 1 2 компонента = функциональные группы и {С}

13 номера элементов = 1[1, со)

14 множество связей = (и (п [1, максимальное количество связей])(х химические элементы и компонента, номера элементов, типы связи) /7п)

15 возможные компоненты структурной формулы = (х химические элементы и компонента, номера элементов, {}множество связей))

химически и процесс

химические реакции

физическая химия

эле кт роны

реакционные центры

элементный состав

электронная конфигурация

функциональные группы

углеродный скелет

тип гибридизации

структурная

формула соединения

электронная конфигурация соединения

пространственное расположение

механизм реакции

механизм реакции (пространсвенное рассмотрение)

номенклатура

химические реакции класса органических соединений

механизм реакции (электронное рассмотрение)

агрегатное состояние

растворимость

классификация органических соединений по наличию функциональных групп

свойства класса органических соединений

механизм реакции (ионное рассмотрение)

Рис 2 Структура модульной онтологии предметной области «Органическая химия»

16 возможные структурные формулы = {([ {(п //1,°°)) возможные компоненты структурной формулы!?п})(&(г 1[1, \ength(/)])(&01 {О Ц1» 1епфф1) I *]}) л(2, л(,,])) *к(2, ]))))) 1 7 компонента структурной формулы е (Л(у {(\1 (х возможная структурная формула, 1[1, со))) л(2, VI) е1{], 1е^1И(л:(1, VI))]}) к(1, т^к(2,

я(1. У))))

18 связи элемента в компоненте структурной формулы г (Л(у {(VI (х возможные структурные формулы, 1[1, со))) л(2, V1) е 1[1, 1ещ1к(я(1, VI))]}) ж(3, я(я(2. V), 71(1, V)))) 1 9 валентность элемента = (Л(у {(VI (х возможные структурные формулы, 1[1, оо))) к(2, VI) е 1[1, 1ещ1к(7г(1, VI))]}) ¿¡(связи элемента в компоненте структурной формулы(л(1, VI), л(2, VI)) + р({(у2 связи

элемента в компоненте структурной формулы(л(1, vl), п(2, vl))) к(3, v2) = двойная})) + p({(v3 связи элемента в компоненте структурной формулы(ж(1, vl), 7i(2, vl))) л(3, v3) - тройная})*2)

1 10 номер компоненты структурной формулы = (A(v (х возможные

структурные формулы, возможная формула вещества)) {(vl номера элементов) (& (i Ifl, length(n(l, v))J) компонента структурной формулы(я(1, v), i) е функциональные группы & компонента структурной формулы(л(1, v), i) = ж(2, v) икомпонента структурной формулы(тг(1, v), i) е функциональные группы & формула функциональной группы(компонента структурной формулы(к(1, v), i)) = п(2, v))}) 111 структурная формула = (A(v возможная формула вещества) {(f возможные структурные формулы) (& (i I[l, lengthff)]) яf2, n(i, f)) < lengthff)) & (& (vl f(v2 химические элементы) принадлежит соединению(v, v2)}) (v (i I[l, length(J)]) vl = n(l, n(i, f)) & ((ц ({(i Ifl, length®]) tt(1, n(i, f))) = vl}) = индекф, vl))) & (&((i I[l, lengthfflj) валентность элемента([, i)) < тах(возможная валентность эчемента(компонента структурной формулы(£ i))))) & (&((i Ifl, lengthff)]) связи элемента в компоненте структурной формулы(f, i) * 0))))))})

Определения основных терминов 21 х(стРУктУРная формула соединения) = (химические вещества возможные структурные формулы)

2 2 %(сокращенная структурная формула) = (органические соединения ->

возможные структурные формулы) 2 3 х(стРУктУРная формула функциональной группы) = (функциональные группы —> возможные структурные формулы)

2 4 х(<структурная формула углеродного скелета соединения) = (органические

соединения возможные структурные формулы) Онтологические соглашения 31 (v органические соединения) структурная формула соединения(v) е структурная формула(формула^))

3 2 (v органические соединения) (i {(il Ifl, length(cmpyкmypнaя формула

соединения(v))]) тг(1, tt(i1, структурная формула соединения(v))) = С}) валентность элемента(структурная формула соединения(v), i))=4 3 3 (v органические соединения) (i Ifl, length(cmpyкmypнaя формула соединения(v))J) валентность элемента(структурная формула соединения(v), i) е возможная валентность элемента(компонента структурной формулы(структурная формула соединения(v), i)) 3 4 (v {(vl органические соединения) тип структуры углеродного скелета соединения^ 1) = цепь}) (i {(il Ifl, length(cmpyKmypHaH формула углеродного скелета соединения(v))]) тг(1, n(il, структурная формула углеродного скелета соединения(v))) = С}) p({(v2 связи элемента в компоненте структурной формулы(структурная формула углеродного скелета соединения(v), i)) ж(1, v2) = С}) <2

3 5 (v {(vl органические соединения) тип структуры углеродного скелета соединения^ 1) = цепь}) (i {(il I[l, length(cmpyKmypHan формула углеродного скелета соединения(v))]) п(1, tt(i1, структурная формула углеродного скелета соединения(v))) # С}) fj({(v2 связи элемента в компоненте структурной формулы(структурная формула углеродного скелета соединения(v), i)) л(1, v2) = С}) = 2 3 6 (v органические соединения) (vl {(v2 химические элементы) принадлежит соединению(формула(у), v2)) (i Ifl, length(cmpyкmypнaя формула углеродного скелета соединения^))]) 7t(l, k(i, структурная формула углеродного скелета соединения(v))) * С) => p({(v3 связи элемента в компоненте структурной формулы(структурная формула углеродного скелета соединения(v), i)) я(1, v3) = С}) >2 3 7 (v органические соединения) (i 1[1, length(cmpyкmypнaя формула углеродного скелета соединения(v))J) 1е^Щсокращенная структурная формула(х)) = lengthfcmpyKmypnaH формула углеродного скелета соединения(v)) — p({(jl 1[1, 1е^1}1(сокращенная структурная формула(v))]) 7t(l, щ<jl, сокращенная структурная формула(v))) & С}) + общее число функциональных epynn(v) & сокращенная структурная формула(v) = структурная формула углеродного скелета соединения(v) и (и (vl функциональные группы соединения(v)) формула функциональной группьф1))

Онтология и ее модель представляют явно все соглашения органической химии в объеме университетского курса Модульная структура онтологии и ее модели обеспечивает расширяемость онтологии на случай новых подразделов данной области

Глава 4 диссертации содержит математические постановки для всех типов задач, решаемых в университетском курсе органической химии, и описание методов их решения

Все задачи, решаемые в университетском курсе органической химии можно разделить на четыре класса (1) определение физико-химических свойств, (2) определение класса органических соединений, (3) задачи определения пути синтеза органического соединения и (4) задачи прогнозирования физико-химических свойств Математическая постановка задачи формулируется в терминах модели онтологии и определяет входные и выходные параметры задачи и их связи с терминами онтологии ПО

Существует два вида задач определения физико-химических свойств химических соединений и реакций вычислительные задачи и задачи определения значения свойства Вычислительные задачи являются общими как для органической, так и для физической химии Задачи определения значения свойства предполагают нахождение значения (не числового) свойства органических соединений или реакций и решаются методом поиска в базе знаний Задача классификации состоит в определении класса органического соединения на основе его названия или краткой структурной формулы В обоих случаях метод решения задачи сводится к поиску по базе знаний Если при постановке данной задана краткая структурная формула, то Class = {(i {(l1 I[l, length(Short_Structural_Formula)]) компонента структурной фор-

.M>'.7b/(Short_Structural_Formula, 1') e возможные формулы функциональных групп}) классы функциональной группы{компонента структурной фор-.ii>'.7M(Short_Structural_Formula, 1)}

Существуют 12 подклассов задач определения путей синтеза органического соединения В математической постановке задачи одним из входных параметров является синтезируемое соединение Значения других входных параметров могут задавать условия, которым должен удовлетворять процесс синтеза Такие условия могут определять соединения, которые могут (или должны) участвовать в процессе синтеза, соединения, которые принадлежат множеству соединений первого шага синтеза Любое из соединений может быть задано либо своим названием, либо краткой структурной формулой При задании условий может быть задан класс (или множество классов), которому принадлежит некоторое соединение В работе даны математические постановки для всех классов задач в терминах модели онтологии Методы решения всех задач данного класса - это методы поиска вывода в исчислении В работе для каждого класса задач специфицирован метод решения как вывод в исчислении, а именно определены правила построения начального состояния вывода, правила завершения вывода, а также правила формирования очередного состояния процесса

Примером подкласса задач данного класса является задача определения путей синтеза соединения, если задано соединение, принадлежащее множеству соединений первого шага синтеза, и соединения, которые могут принимать участие в процессе синтеза Определим выходной параметр данной задачи (его сорт) x(Process) = {(v (х I[l,oo), seq химические реакции)) length(7t(2, v)) = 7i(l, v)-l} Зададим связи выходного параметра с терминами онтологии органической химии тг(1, Process) = число шагов процесса, (v 1[1, число шагов процесса-1]) n(v, п(2, Process)) = реакции процесса(v) Определим входные параметры данной задачи, если задано Name_Compound - название органического соединения, которое требуется синтезировать, FirstSub - соединение, принадлежащее множеству соединений первого шага, а также множество SubsCould органических соединений, которые могут принимать участие в процессе синтеза Связи входных параметров с терминами онтологии органической химии задают следующие условия

(С 1) Name Compound е вещества процесса(число шагов процесса) (С 2) FirstSub е вещества процесса(1)

(С 3) (v 1[2, число шагов процесса-1]) (vl 1[2, число шагов процесса-l]\{v}) дополнительные вещества(у) п дополнительные вещества{\ 1) = 0

(С 4) вещества процесса{\) о органические соединения Ф 0 (вещества процесса(\) п органические соединения) с SubsCould

(С 5) (v 1[2, число шагов процесса-l]) дополнительные вещества{\) п органические соединения с SubsCould

(С 6) (v 1[2, число шагов процесса-1]) дополнительные вещества(у) п вещества процесса(\) = 0

Приведем пример спецификации вывода для данной задачи, представленной с использованием ЯПЛ

/({(v химические реакции) органические соединения п реагенты{\) с SubsCould & FirstSub е реагенты(у) & Name_Compound е результаты(у)} 0 => число шагов процесса = 2 & реакции процесса(1) е {(v химические реакции) Name_Compound е результаты{\) & FirstSub е реагенты(у) & органические соединения п реагенты{\) с SubsCould}),

({(v химические реакции) органические соединения о реагенты(\) с

SubsCould & FirstSub е реагенты(у) & Name_Compound е резулътаты{\)} = 0 =>

Ml) число шагов процесса > 2 &

М 2) реакции процесса{\) € {(v химические реакции) FirstSub е реагенты(у) & органические соединения п реагенты(\) с SubsCould} &

М 3) реакции процесса (число шагов процесса-\) е {(v химические реакции) Name_Compound е результаты(\)} &

М4) (vl 1[2, число шагов процесса-2]) реакции процесса(м\) е {(v химические реакции) реагенты(у) с результаты(реакции процесса^ 1-1)) и дополнительные вещества{у\) & (реагенты{v) п органические соединения) с SubsCould}

Дадим комментарий к спецификации

Если существует такая реакция, что First Sub принадлежит множеству ее реагентов, среди ее реагентов есть органические соединения, принадлежащие множеству SubsCould, а множеству ее результатов принадлежит соединение Name_Compound, то число шагов химического процесса равно двум, а данная реакция будет реакцией первого шага процесса Если такой реакции нет, то требуемый процесс синтеза обладает следующими свойствами (М 1) число шагов процесса больше двух, (М 2) реакцией первого шага является такая реакция, при которой First Sub принадлежит множеству ее реагентов и среди органических соединений - ее реагентов есть соединения из множества SubsCould, (М 3) реакцией предпоследнего шага является реакция, множеству результатов которой принадлежит соединение Name_Compound, (М 4) реакцией каждого шага с номером, начиная со второго, и до номера, равного разности числа шагов процесса и 2, является реакция, множество реагентов которой является подмножеством результатов реакции предыдущего шага и дополнительных соединений данного шага, причем все органические соединения - реагенты реакции являются элементами множества SubsCould В данном случае условие на начальное состояние процесса вывода в исчислении задает свойство М 2, условие окончания вывода - свойство М 3, а правило работы исчисления - свойство М 4

Время поиска пути синтеза соединения увеличивается при увеличении размера базы знаний Для уменьшения времени поиска учитывается информация о классах соединений по вхождению функциональной группы и классах реакций Каждый класс соединений - это множество веществ Описание класса реакций определяет классы реагентов и результатов реакций этого класса При поиске путей синтеза просматриваются не все реакции, а лишь те, в которых участвуют вещества требуемых классов

метаонтология ■ онтология органический химии

компонента об^нснекий

библиотека методов решения задач

классификация

Internet

интерфейс редактора онтологии

интерфейс редактора базы знаний

интерфейс решателя

интерфейс графического компонента

Клиентская часть специализированного компьютерного банка знаний по у___органической химии__ у

Решатель задач органической химии

вычисли тел ьные задачи

определение пути синтеза соединения

прогкозиров 3 н ие физико-химических свойств

Серверная часть специализированного компьютерного банка знаний по органической химии

Информационное наполнение компьютерного банка знаний

редактор

ОНТОЛОГИИ

дгя органической химии

Редактор информационного напопнения

редактор базы знаний

графический компонент

Рис. 3. Архитектура пользовательской части специализированного компьютерного банк» знаний для органической химии

15 работе даны матемэтические постановки для задач классов (2) - (4) и для всех классов задач разработаны методы решения. Математические постановки вычислительных задач и методы их решения были ранее определены для физической химии. Задачи определения значений свойств ввиду очевидности постановок и методов не рассмотрены.

Глава 5 диссертации содержит описание методов реализации расширяемого специализированного компьютерного банка знаний по органической химии, состава его прототипа, а также результатов экспериментального исследования прототипа,

СКБЗ ОХ состоит из следующих подсистем: административная система банка, система поддержки работы сопровождающего программиста и пользовательская часть СБКЗ_рЗ. Функции административной системы

СКБЗ_ОХ выполняет административная система многоцелевого банка знаний, разработанного в ИАПУ ДВО РАН Поддержка работы сопровождающего программиста выполняется средствами СУБД Сопровождающий программист имеет возможность добавлять новые полномочия пользователя, новые компоненты ПН банка и сопоставлять полномочиям эти компоненты Сопровождающий программист также может сопоставлять типам значений терминов онтологии специализированные графические редакторы, предназначеннные для задания значений этих типов

Архитектура пользовательской части СКБЗ_ОХ представлена на рис 3 Пользовательская часть СКБЗ_ОХ состоит из двух частей серверной и клиентской Серверная часть содержит информационное наполнение, редакторы ИН, решатели прикладных задач и библиотеку методов решения задач Клиентская часть содержит интерфейсы редакторов ИН и решателей задач Пользователь СКБЗ_ОХ работает со своей версией клиентской части СКБЗ_ОХ - своим АРМом, который формируется в соответстсвии с полномочиями пользователя, определяемыми при его регистрации в СКБЗ_ОХ

Развитие онтологий и баз знаний органической химии обеспечивается наличием трехуровневого редактора метаонтологий разделов ПО, онтологий разделов и модулей знаний Создание и редактирование метаонтологии раздела управляется метаонтологией химии Пользователь только отвечает на вопросы редактора Редактор метаонтологии раздела автоматически формирует некоторые термины создаваемой метаонтологии и предоставляет пользователю возможность их редактирования Такая схема редактирования обеспечивает создание метаонтологии раздела, для которой выполнены онтологические соглашения, задаваемые метаонтологией химии

С помощью редактора онтологии пользователь может добавлять новый модуль онтологии раздела С помощью редактора знаний он может вносить информацию о значениях терминов этого модуля Если требуется внесение информации о структурных формулах, то используется специализированный графический редактор (компонент редактора знаний, который позволяет вносить эту информацию в привычном пользователю графическом виде Вызов графического редактора управляется онтологией если в онтологии указано, что значением некоторого термина является структурная формула, то происходит автоматический вызов графического редактора Введенная пользователем информация о структурной формуле автоматически преобразуется в структурное описание в соответствии с описанием этой структуры в модели онтологии Графический редактор при задании структурной формулы проверяет все онтологические соглашения, определенные в модуле «Структурная формула соединения» (и во всех используемых им), не позволяя пользователю задать не согласованные с онтологией значения

Метаонтология раздела, онтологии и базы знаний подразделов хранятся в системе средствами СУБД Структура базы данных для представления метаонтологии раздела фиксирована метаонтологией химии При создании новой метаонтологии нового раздела автоматически генерируется новая база данных (ее название совпадает с именем раздела) и в нее заносится информация, задаваемая инженером знаний

Структура представления онтологии подраздела (модуля онтологии) п базе данных также фиксирована метаонтологией химии. При создании нового модуля автоматически генерируется новая база данных (ее название совпадает с именем модуля) и в нее заносится информация, задаваемая инженером знаний или экспертом при создании модуля онтологии. При задании термина модуля онтологии пользователь должен указать термин метаонтодогии, который используется при определении данного термина онтологии. Это позволяет не требовать от пользователя редактора онтологии указания информации о типах аргументов терминов-функций. Пользователь только задает область значений определяемого термина.

Структура представления информации к модуле базы знаний фиксируется модулем онтологии. Средствами СУБД автоматически создается база данных, состоящая из связанных между собой таблиц. Связи между таблицами модуля базы знаний и таблицами других модулей формируются автоматически в соответствии с описанием терминов и их связей в онтологии;

Тегт! - {VI,Ук> Тегт2 - Г(аи а„) = {{х г1у..., гт)>

Рис. 4. Вид таблицы базы данных, соответствующей тбрмиву онтологии

Разработан метод автоматического определения схемы базы данных для представления знаний на основе определения терминов и связей между ними в онтологии. Если термин и модели онтологии определен как множество, то он представлен и виде таблицы, содержащей два поля: код каждого элемента множества (ключевое тле) и значение элемента множества (рис. 4). Если термин определен как функция, то ему соответствует таблица, число нолей которой на единицу (кодовое ключевое поле) больше суммы числа аргументов функции и числа элементов в представлении результата (если результат есть элемент декартова произведения, то каждому элементу этого произведения соответствует свое попе). Если термин определен как предикат, то он рассматривается как функция, возвращающая логическое значение. Типы значений в каждом поле определяются ограничениями на значения, задаваемыми модулем онтологии. Если какое-либо из значений поля является значением из множества, обозначенного каким-либо из терминов онтологии, то автоматически формируется связь между таблицами.

В прототипе в качестве такой СУБД использована СУБД М1сг050Н Ассе.ча. Пользовательская часть прототипа содержит трехуровневый редактор метаоптологий, онтологии и знаний, а также рсгнатсль всех подклассов задач

поиска путей синтеза органических соединений С помощью трехуровневого редактора в ИН СКБЗ_ОХ была занесена метаонтология органической химии, онтологии 26 подразделов, а также знания этих подразделов

При создании решателя задач определения пути синтеза соединения использованы спецификации вывода, описанные в главе 4 Определение пути синтеза осуществляется с помощью рекурсивной процедуры, использующей подпрограммы, соответствующие условиям, определенным спецификациями

Исходные данные задачи задаются с использованием системы ввода исходных данных, которая при вводе исходных данных автоматически проверяет все накладываемые онтологией онтологические соглашения При задании сокращенной структурной формулы соединения, которое требуется синтезировать, используется графический редактор структурных формул При задании условий на путь синтеза вызываются соответствующие окна системы ввода исходных данных, где пользователь может задать требуемую информацию

Результат решения задачи и его объяснение выдается пользователю в графическом виде При решении задачи формируется несколько путей синтеза Каждый путь синтеза представляется последовательностью веществ, участвующих в синтезе на каждом шаге В объяснении приводится список реакций, имевших место на каждом шаге синтеза Каждое вещество представляется своей краткой структурной формулой, а каждая реакция записывается с помощью принятых в предметной области графических обозначений

Экспериментальное исследование прототипа проводилось на кафедре органической химии химического факультета института химии и прикладной экологии ДВГУ В ходе экспериментального исследования была подтверждена гипотеза о необходимости коллективного развития базы знаний и положения концепции о направлениях дальнейшего расширения банка знаний

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1 Предложена концепция расширяемого специализированного компьютерного банка знаний в области органической химии, описывающая механизмы коллективного развития баз знаний, предназначенных как для специалистов, так и для компьютерных систем, а также механизмы для добавления программных компонент, предназначенных для решения новых классов прикладных задач

2 Разработана модульная онтология органической химии и ее модель, описывающие основные понятия органической химии, используемые в вузовском курсе обучения, онтология содержит 26 модулей, определяет 171 термин и 107 онтологических соглашений

3 В терминах онтологии разработаны математические постановки для всех классов задач, решаемых в университетском курсе органической химии, и разработаны методы их решения Для всех подклассов задач поиска путей синтеза органических соединений специфицирован метод решения как вывод в исчислении, а именно определены правила построения начального

состояния вывода, правила завершения вывода, а также правила формирования очередного состояния процесса

4 Разработаны методы реализации расширяемого специализированного трехуровневого редактора метаонтологий, онтологий и знаний, позволяющего подключать специализированные графические компоненты редакторов знаний, вызов которых при редактировании управляется онтологией

5 Разработан метод автоматического определения схемы базы данных для представления знаний на основе определения терминов и связей между ними в онтологии

6 Разработан метод реализации расширяемого специализированного компьютерного банка знаний для органической химии, основанного на концепции

7 Реализован прототип расширяемого специализированного компьютерного банка знаний в области органической химии, основанный на предложенной концепции и содержащий расширяемый специализированный трехуровневый редактор метаонтологий разделов, онтологий и знаний подразделов, графический редактор структурных формул, решатель класса задач поиска путей синтеза органических соединений, графические системы ввода исходных данных, вывода и объяснения результатов

8 С использованием трехуровневого редактора создано информационное наполнение специализированного банка знаний по органической химии, содержащее метаонтологию органической химии, 26 модулей онтологии и 26 модулей знаний подразделов органической химии

9 Проведено экспериментальное исследование прототипа, в ходе которого была подтверждена гипотеза о необходимости коллективного развития базы знаний и положения концепции о направлениях дальнейшего расширения банка знаний

ОПУБЛИКОВАННЫЕ РАБОТЫ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Артемьева И Л, Высоцкий В И , Рештаненко Н В Модель онтологии предметной области (на примере органической химии) // Научно-техническая информация - Сер 2 -2005 - №8 - С 19-27

2 Артемьева И Л , Высоцкий В И , Рештаненко Н В Описание структурного строения органических соединений в модели онтологии органической химии//Научно-техническая информация -Сер 2 -2006 - №2 - С 11-19

3 Артемьева И Л, Высоцкий В И , Рештаненко Н В Модульная модель онтологии органической химии Свойства органических соединений // Информатика и системы управления -2006 -№ 1 -С 121-132

4 Артемьева И Л, Высоцкий В И , Рештаненко Н В Модель онтологии предметной области «Органическая химия» Органические соединения структурная формула, классификация по расположению атомов углерода, типы связи между химическими элементами, пространственное расположение, изомерия / Препринт - Владивосток ИАПУ ДВО РАН, 2003 24 с

5 Артемьева И Л , Высоцкий В И , Рештаненко Н В Модель онтологии предметной области «Органическая химия» Химический процесс / Препринт -Владивосток ИАПУ ДВО РАН, 2003 16 с

6 Артемьева И Л , Высоцкий В И , Рештаненко Н В Модель онтологии предметной области «Органическая химия» Органические реакции классификация реакционных центров, радикалы, ионы, основные свойства реакций / Препринт - Владивосток ИАПУ ДВО РАН, 2003 24 с

7 Артемьева И Л , Высоцкий В И , Рештаненко Н В Модель онтологии предметной области «Органическая химия» Органические соединения функциональные группы, элементный состав, тип гибридизации, агрегатное состояние, растворимость /Препринт -Владивосток ИАПУ ДВО РАН,2003 24с

8 Артемьева И Л , Высоцкий В И , Рештаненко Н В Модель онтологии предметной области «Органическая химия» Электронное строение химических элементов / Препринт - Владивосток ИАПУ ДВО РАН, 2003 20 с

9 Артемьева И Л , Рештаненко Н В Специализированный компьютерный банк знаний предметной области «Химия» // Искусственный интеллект - 2004 -№4 - С 235-245

10 Артемьева И Л , Рештаненко Н В Модель онтологии некоторых разделов предметной области "Органическая химия" Вузовский курс, Сб тез докл Дальневосточная матем шк -сем им акад Е В Золотова, 2002, Владивосток С 83-84

11 Артемьева И Л , Рештаненко Н В Модульная модель онтологии органической химии //Информатика и системы управления -2004 -№ 2 - С 98-109

12 Артемьева И Л , Рештаненко Н В Многоуровневая онтология предметной области «Органическая химия», Сб тез докл Второй международной конференции по когнитивной науке, С-Петербург, 2006, с 563-565

13 Артемьева И Л , Рештаненко Н В Специализированный компьютерный банк знаний по органической химии и его разработка на основе онтологии // Искусственный интеллект -2006 -№4 - С 95-106

14 Артемьева И Л , Рештаненко Н В Спецификации задач в терминах онтологии химии и методы их решения/ Препринт - Владивосток ИАПУ ДВО РАН, 2006, 36 с

15 Артемьева ИЛ, Рештаненко НВ Архитектура компьютерного банка знаний по химии, Сб тез докл Дальневосточной математической шк -сем им акад Золотова, Владивосток, 2004

16 Артемьева ИЛ, Рештаненко НВ Концепция специализированного компьютерного банка знаний предметной области «Химия», Сб тр Международной конференции «Искусственный интеллект - 2004 Интеллектуальные и многопроцессорные системы - 2004» Таганрог ТРТУ 2004 Т2 С 197-199

17 Артемьева ИЛ, Рештаненко НВ Разработка программной системы предметной области «Органическая химия» на основе модели онтологии, Интеллектуальные системы Труды Шестого международного симпозиума «Интеллектуальные системы Intel 2004», М Русаки, 2004 С 123-124

18 Артемьева И Л , Рештаненко Н В Интеллектуальная система по химии, имеющая средства адаптации к изменениям предметной области // Научная сессия МИФИ-2006, сб научн тр в 16 томах, т 3, М МИФИ, с 67-68

19 Артемьева ИЛ, Рештаненко HB Система, основанная на онтологии для решения прикладных задач химии // Фундаментальные и прикладные проблемы современной физики сб тез докл , Москва, 2006 С 303-304

20 Артемьева И Л , Рештаненко Н В Разработка интеллектуальной системы по органической химии на основе модели онтологии // Научная сессия МИФИ-2007, сб научн тр в 17 томах, т 3 Интеллектуальные системы и технологии М МИФИ 2007-С 75-76 - ISBN 5-7262-0710-6

21 Артемьева ИЛ, Рештаненко HB, Цветников В А Описание свойств реакций в модели онтологии химии // Информатика и системы управления -2006 -№ 1 -С 132-143

22 Артемьева И Л , Рештаненко Н В Разработка специализированного банка знаний по органической химии на основе онтологии Сб тр Международной конференции «Искусственный интеллект - 2004 Интеллектуальные и многопроцессорные системы - 2006» Таганрог ТРТУ 2006 TIC 72-76

23 Рештаненко Н В Программные системы для решения прикладных задач предметной области «химия» (обзор литературы) / Препринт - Владивосток ИАПУ ДВО РАН, 2006, 52 с

24 Рештаненко Н В Онтологии химии Обзор литературы/ Препринт -Владивосток ИАПУ ДВО РАН, 2006, 32 с

Личный вклад автора Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно В работах [1-8], [10-12], [21] автору принадлежит определение онтологии и ее модели для органической химии В работе [14] автору принадлежат спецификации задач органической химии и методы их решения В работах [9, 13, 15-22] автору принадлежит определение концепции специализированного компьютерного банка знаний по органической химии и методов его создания В работах [1-8] принимал участие эксперт предметной области «Органическая химия»

Рештаненко Наталья Валентиновна

Разработка и исследование методов создания специализированного компьютерного банка знании для органической химии

Автореферат

Подписано к печати 25 04 07 Формат 60x84/16

Уел печ л 1 Тираж 100

Уч -изд л 0,9 Заказ 33

Издано ИАПУ ДВО РАН Владивосток, ул Радио, 5 Отпечатано участком оперативной печати ИАПУ ДВО РАН Владивосток, ул Радио, 5

Оглавление автор диссертации — кандидата технических наук Рештаненко, Наталья Валентиновна

ВВЕДЕНИЕ.

ГЛАВА 1. ОНТОЛОГИИ И ПРОГРАММНЫЕ СИСТЕМЫ, РАЗРАБОТАННЫЕ ДЛЯ РЕШЕНИЯ ПРИКЛАДНЫХ ЗАДАЧ ХИМИИ (ОБЗОР ЛИТЕРАТУРЫ).

1.1. Явно заданные онтологии различных разделов ПО «Химия».

1.2. Базы данных предметной области «Химия».

1.3. Программные системы химии.

1.3.1. Прикладные программы.

1.3.2. Программы, реализующие таблицу Менделеева.

1.3.3. Программы визуализации.

1.3.4. Экспертные системы.

1.3.5. Программы планирования органического синтеза.

1.3.6. Программы предсказания физико-химических свойств.

1.3.7. Педагогические программные средства по химии.

1.4. Выводы из обзора.

1.5. Постановка задачи исследований.

ГЛАВА 2. КОНЦЕПЦИЯ РАСШИРЯЕМОГО СПЕЦИАЛИЗИРОВАННОГО КОМПЬЮТЕРНОГО БАНКА ЗНАНИЙ В ОБЛАСТИ ОРГАНИЧЕСКОЙ ХИМИИ

2.1. Современные направления в органической химии.

2.1.1. Современные направления научных исследований.

2.1.2. Современные направления профессиональной деятельности.

2.1.3. Современные направления образования.

2.2. Проблемы, существующие в предметной области «Органическая химия»

2.3. Структура компьютерного банка знаний.

2.3.1. Задачи, для поддержки которых предназначен компьютерный банк знаний.

2.3.2. Информационное наполнение специализированного банка знаний для органической химии.

2.3.3. Программное наполнение банка знаний для органической химии.

2.3.4. Классы пользователей компьютерного банка знаний для органической химии.

2.3.5. Автоматизированные рабочие места пользователей.

2.3.6. Блок администрирования банка.

ГЛАВА 3. МОДУЛЬНАЯ ОНТОЛОГИЯ ПРЕДМЕТНОЙ ОБЛАСТИ «ОРГАНИЧЕСКАЯ ХИМИЯ. ВУЗОВСКИЙ КУРС» И ЕЕ МОДЕЛЬ.

3.1. Модуль Электроны.

3.2. Модуль Электронная конфигурация.

3.3. Модуль Элементный состав.

3.4. Модуль Структурная формула соединения.

3.5. Модуль Функциональные группы.

3.6. Модуль Тип гибридизации.

3.7. Модуль Агрегатное состояние.

3.8. Модуль Растворимость.

3.9. Модуль Углеродный скелет.

3.10. Модуль Связь.

3.11. Модуль Электронная конфигурация соединения.

3.12. Модуль Пространственное расположение.

3.13. Модуль Изомерия.

3.14. Модуль Номенклатура.

3.15. Модуль Ионы.

3.16. Модуль Химические реакции.

3.17. Модуль Реакционные центры.

3.18. Модуль Радикалы.

3.19. Модуль Механизм реакции.

3.20. Модуль Механизм реакции (пространственное рассмотрение).

3.21. Модуль Механизм реакции (ионное рассмотрение).

3.22. Модуль Механизм реакции (электронное рассмотрение).

3.23. Модуль Классификация органических соединений по наличию функциональных групп.

3.24. Модуль Свойства класса органических соединений.

3.25. Модуль Химические реакции класса органических соединений.

3.26. Модуль Химический процесс.

ГЛАВА 4. МАТЕМАТИЧЕСКИЕ ПОСТАНОВКИ ЗАДАЧ И МЕТОДЫ ИХ РЕШЕНИЯ.

4.1. Задачи вычисления физико-химических свойств химических соединений и реакций.

4.2. Задачи определения класса органического соединения.

4.3. Задачи определения пути синтеза химического соединения.

4.3.1. Определение пути синтеза соединения, если задано название синтезируемого соединения или его краткая структурная формула.

4.3.2. Определение пути синтеза соединения, если задано соединение, принадлежащее множеству соединений первого шага синтеза.

4.3.3. Определение пути синтеза соединения, для которого заданы соединения, которые могут принимать участие в процессе синтеза.

4.3.4. Определение пути синтеза соединения, для которого заданы соединения, которые должны принимать участие в процессе синтеза.

4.3.5. Определение пути синтеза соединения, если задано соединение, принадлежащее множеству соединений первого шага синтеза, и соединения, которые могут принимать участие в процессе синтеза.

4.3.6. Определение пути синтеза соединения, если задано соединение, принадлежащее множеству соединений первого шага синтеза, и соединения, которые должны принимать участие в процессе синтеза.

4.4. Прогнозирование физико-химических свойств органических веществ.

ГЛАВА 5. МЕТОДЫ РЕАЛИЗАЦИИ РАСШИРЯЕМОГО СПЕЦИАЛИЗИРОВАННОГО КОМПЬЮТЕРНОГО БАНКА ЗНАНИЙ ДЛЯ ОРГАНИЧЕСКОЙ ХИМИИ И ИССЛЕДОВАНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ

5.1. Архитектура компьютерного банка знаний для органической химии.

5.2. Редакторы онтологии и знаний.

5.3. Метод определения схемы базы данных для представления знаний на основе определения терминов и связей между ними в онтологии.

5.4. Прототип специализированного компьютерного банка знаний.

5.4.1. Графический редактор структурных формул.

5.4.2. Решатель задач определения пути синтеза органического соединения.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Рештаненко, Наталья Валентиновна

Актуальность проблемы.

К настоящему времени разработано большое число прикладных программных систем для решения задач в области химии. Ранние системы для данной области не являлись интеллектуальными, поскольку при их разработке не использовались методы искусственного интеллекта. Но после того, как такие методы получили широкое применение, появились интеллектуальные программные системы для решения задач данной области. В разработку интеллектуальных систем, решающих задачи в области химии и, в частности, в области органической химии, внесли вклад Гордеева Е.В., Зефиров Н.С., Карри Б., Випке В.Т., Хеффрон М., Либман С. и др.

Примерами программных систем, решающих задачи в области химии, в частности, в области органической химии, являются LHASA, SINGEN, EROS, AIPHOS, AOCR и др. Такие программы позволяют изучать свойства химических соединений с использованием сложного математического аппарата и моделей, описывающих зависимости этих свойств от молекулярной структуры вещества. Базы данных этих программ содержат большой объем справочной информации.

Одним из подходов к созданию интеллектуальных систем является их разработка на основе онтологий. Это, с одной стороны, делает понятным для специалистов интерфейс таких систем, с другой стороны, повышает доверие пользователей к ним. Онтологии также являются средством обеспечения повторного использования информации, хранимой в базах знаний интеллектуальных систем, а также методов, применяемых при решении задач.

В настоящее время разработаны онтологии некоторых фрагментов химии (например, Chemical Ontology [61], Онтология Химических Веществ [73], Онтология Кристаллов [62], Онтология Чистых Веществ [86], Онтология Керамических Материалов [87]), а также онтологии некоторых близких к химии областей (например, Gene Ontology (Онтология генных продуктов) [58], The Sequence Ontology (Онтология, описывающая биологические реакции) [99], TAMBIS (онтология биоинформатики) [90], СОМе (онтология бионеорганических центров в сложных белках) [66]).

Последние два десятилетия характеризуются развитием Интернет-технологий, которые востребованы и в области химии. Уже создано большое число сайтов, содержащих химическую информацию, а также порталов, хранящих такую информацию из области органической химии, как структура органических соединений, их физико-химические свойства, способы синтеза и применения. Сайты и порталы предоставляют возможность хранения, редактирования и просмотра имеющейся информации специалистами областей.

Однако практика показывает, что прикладные системы (в том числе в области химии), быстро устаревают, и даже использование интеллектуальных систем, основанных на знаниях, не решает эту проблему. Ее решение возможно лишь в том случае, когда интеллектуальная система обеспечивает коллективное развитие баз знаний, основана на общепринятой онтологии, а средства развития ее баз знаний доступны через сеть Интернет. Однако в настоящее время нет интеллектуальных Интернет-систем, предоставляющих не только возможности коллективного развития баз знаний и их просмотра пользователями, но и использования их для компьютерной обработки программными системами.

Ни одна из разработанных за рубежом интеллектуальных систем для решения задач в области химии не основана на онтологиях. Существует лишь две интеллектуальные системы, разработанные на основе онтологии -система решения вычислительных задач физической химии [23] и система определения состава соединений с использованием рентгено-флуоресцентного метода анализа, созданные в нашей стране.

Во многих из разработанных за рубежом онтологий определены классы понятий и их иерархии, а знания задаются как элементы классов и часто не отделяются от самой онтологии. Такое представление затрудняет использование онтологий и знаний при создании интеллектуальных систем, поскольку в онтологии сложной реальной предметной области, особенно области, связанной с наукой, между терминами онтологий существуют отношения, отличные от иерархических отношений между классами понятий, а знания области постоянно обновляются. В настоящее время существуют лишь две онтологии для химии, определяющие такие отношения. Это онтология физической химии [24-28] и онтология рентгено-флуоресцентного анализа, созданные в нашей стране. Онтология же органической химии до сих пор не разработана.

Таким образом, актуальной является разработка интеллектуальной Интернет-системы, основанной на онтологии органической химии, предоставляющей возможность создания и коллективного развития баз знаний, а также их использования при решении прикладных задач. Кроме того, система должна учитывать наличие пользователей разной квалификации в данной предметной области.

Целью диссертационной работы является разработка моделей, методов и средств создания интеллектуальной Интернет-системы для коллективного развития баз знаний в области органической химии и использования их при решении задач программными системами.

Так как предметная область органической химии весьма обширна и сложна, то развитие баз знаний в ней может осуществляться в нескольких направлениях. Все эти направления предполагают наличие общего ядра, которое должно содержать терминологию и знания университетского курса органической химии. Развитие баз знаний влечет появление новых классов прикладных задач. Поэтому Интернет - система должна поддерживать механизмы для добавления программных компонент, предназначенных для решения новых прикладных задач. С учетом этих замечаний, для достижения поставленной цели в диссертационной работе необходимо решить следующие задачи:

1. Разработать концепцию расширяемой интеллектуальной Интернет-системы для коллективного развития баз знаний в области органической химии и использования их при решении прикладных задач (концепцию специализированного компьютерного банка знаний в области органической химии).

2. Разработать онтологию органической химии в объеме университетского курса и ее модель.

3. В терминах модели онтологии разработать математические постановки для решаемых в университетском курсе задач и методы их решения.

4. Разработать методы реализации расширяемого специализированного компьютерного банка знаний в области органической химии, основанного на предложенной концепции.

5. Разработать прототип расширяемого специализированного компьютерного банка знаний в области органической химии, основанного на предложенной концепции, содержащего редакторы онтологий и знаний, а также решатель задач определения путей синтеза органических соединений, и провести его экспериментальное исследование.

Методы исследования. Для решения указанных задач использовались элементы математической логики, теории алгоритмов и исчислений, методы построения онтологий и их математических моделей, а также методы системного программирования.

Научная новизна работы состоит в следующем.

1. Предложена концепция специализированного компьютерного банка знаний в области органической химии, описывающая механизмы коллективного развития баз знаний, предназначенных как для специалистов, так и для компьютерных систем, а также механизмы для добавления программных компонент, предназначенных для решения новых классов прикладных задач.

2. Впервые разработана модульная онтология органической химии в объеме вузовского курса и ее модель.

3. Для всех классов задач поиска путей синтеза органических соединений специфицирован метод решения как вывод в исчислении, а именно определены правила построения начального состояния вывода, правила завершения вывода, а также правила формирования очередного состояния процесса вывода.

4. Разработаны методы реализации расширяемого специализированного трехуровневого редактора метаонтологий, онтологий и знаний, позволяющего подключать специализированные графические компоненты редакторов знаний, вызов которых при редактировании управляется онтологией.

5. Разработан метод автоматического определения схемы базы данных для представления знаний на основе определения терминов и связей между ними в онтологии.

Практическая ценность работы состоит в следующем:

1. Реализован прототип расширяемого специализированного компьютерного банка знаний в области органической химии, основанный на предложенной концепции и содержащий трехуровневый редактор метаонтологий разделов, онтологий и знаний подразделов, графический редактор структурных формул, решатель класса задач поиска путей синтеза органических соединений, графические системы ввода исходных данных, вывода и объяснения результатов.

2. С использованием трехуровневого редактора создано информационное наполнение специализированного банка знаний по органической химии, содержащее метаонтологию органической химии, 26 модулей онтологии и 26 модулей знаний подразделов органической химии.

Материалы диссертации использовались в учебном процессе на базовой кафедре программного обеспечения ЭВМ Дальневосточного государственного университета (ДВГУ) при Институте автоматики и процессов управления (ИАПУ) ДВО РАН при чтении курса лекций по дисциплине "Системы искусственного интеллекта", при выполнении курсовых и дипломных работ студентами кафедры программного обеспечения ЭВМ ДВГУ, а также на кафедре органической химии химического факультета Института химии и прикладной экологии ДВГУ. Результаты работы используются в научных исследованиях отдела интеллектуальных систем ИАПУ ДВО РАН при разработке единого подхода к определению свойств онтологий и исследований его применимости к оцениванию произвольных онтологий на практике.

Апробация работы. Основные научные и практические результаты работы докладывались и обсуждались на следующих международных и отечественных конференциях и семинарах: Дальневосточной математической школе-семинаре им. академика Е.В. Золотова (Владивосток, 2002, 2004); международной конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы» (Кацивели, 2004, 2006); шестом международном симпозиуме «Интеллектуальные системы Intel 2004» (Москва, 2004); научной сессия МИФИ (Москва, 2006, 2007); конференции «Фундаментальные и прикладные проблемы современной физики» (Москва, 2006); II Международной конференции по когнитивной науке (Санкт-Петербург, 2006); совместных семинарах отдела интеллектуальных систем ИАПУ ДВО РАН и базовой кафедры программного обеспечения ЭВМ ДВГУ (2002-2007).

Реализация результатов работы. Представленные в работе исследования выполнены в рамках научно-исследовательских тем ИАПУ ДВО РАН:

Разработка моделей, алгоритмов и программных средств обработки больших объемов данных, знаний и графической информации с использованием параллельных вычислений», № гос. per. 0/20.050/944, проекта «Теоретические основы интеллектуальных систем, основанных на онтологиях, для интеллектуальной поддержки научных исследований», выполнявшегося по программе № 16 Президиума РАН «Математическое моделирование и интеллектуальные системы», проекта «Интеллектуальные системы, основанные на многоуровневых моделях предметных областей», выполнявшегося по программе № 14 Президиума РАН «Математическое моделирование и интеллектуальные системы», проекта «Разработка интеллектуальных информационных технологий генерации и анализа знаний для поддержки фундаментальных научных исследований в области естественных наук», выполнявшегося совместно с научными учреждениями Сибирского отделения РАН, проекта ДВО РАН «Разработка теоретических основ создания и экспериментальное исследование интеллектуальных интернет-систем, основанных на многоуровневых моделях некоторых разделов химии».

В указанных работах автор принимал участие в качестве исполнителя.

По материалам диссертации опубликовано 24 печатных работы [1-22], [4950], в том числе две статьи в журналах, входящих в перечень журналов ВАК [1], [8] и две статьи в международном журнале [19-20].

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав и заключения, изложенных на 157 страницах, списка литературы, включающего 101 работу, и приложений.

Заключение диссертация на тему "Разработка и исследование методов создания специализированного компьютерного банка знаний для органической химии"

Основные результаты работы заключаются в следующем. 1. Предложена концепция расширяемого специализированного компьютерного банка знаний в области органической химии, описывающая механизмы коллективного развития баз знаний, предназначенных как для специалистов, так и для компьютерных систем, а также механизмы для добавления программных компонент, предназначенных для решения новых классов прикладных задач.

2. Разработана модульная онтология органической химии и ее модель, описывающие основные понятия органической химии, используемые в вузовском курсе обучения; онтология содержит 26 модулей, определяет 171 термин и 107 онтологических соглашений.

3. В терминах онтологии разработаны математические постановки для всех классов задач, решаемых в университетском курсе органической химии, и разработаны методы их решения. Для всех подклассов задач поиска путей синтеза органических соединений специфицирован метод решения как вывод в исчислении, а именно определены правила построения начального состояния вывода, правила завершения вывода, а также правила формирования очередного состояния процесса.

4. Разработаны методы реализации расширяемого специализированного трехуровневого редактора метаонтологий, онтологии и знаний, позволяющего подключать специализированные графические компоненты редакторов знаний, вызов которых при редактировании управляется онтологией.

5. Разработан метод автоматического определения схемы базы данных для представления знаний на основе определения терминов и связей между ними в онтологии.

6. Разработан метод реализации расширяемого специализированного компьютерного банка знаний для органической химии, основанного на концепции.

7. Реализован прототип расширяемого специализированного компьютерного банка знаний в области органической химии, основанный на предложенной концепции и содержащий расширяемый специализированный трехуровневый редактор метаонтологий разделов, онтологий и знаний подразделов, графический редактор структурных формул, решатель класса задач поиска путей синтеза органических соединений, графические системы ввода исходных данных, вывода и объяснения результатов.

8. С использованием трехуровневого редактора создано информационное наполнение специализированного банка знаний по органической химии, содержащее метаонтологию органической химии, 26 модулей онтологии и 26 модулей знаний подразделов органической химии.

9. Проведено экспериментальное исследование прототипа, в ходе которого была подтверждена гипотеза о необходимости коллективного развития базы знаний и положения концепции о направлениях дальнейшего расширения банка знаний

ЗАКЛЮЧЕНИЕ

Библиография Рештаненко, Наталья Валентиновна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Артемьева И.Л., Высоцкий В.И., Рештаненко Н.В. Модель онтологии предметной области (на примере органической химии) // НТИ. - Сер.2. - 2005. - № 8. - С. 19-27.

2. Артемьева И.Л., Высоцкий В.И., Рештаненко Н.В. Модель онтологии предметной области «Органическая химия». Химический процесс / Препринт. Владивосток: ИАПУ ДВО РАН, 2003. 16 с.

3. Артемьева И.Л., Высоцкий В.И., Рештаненко Н.В. Модель онтологии предметной области «Органическая химия». Электронное строение химических элементов / Препринт. Владивосток: ИАПУ ДВО РАН, 2003. 20 с.

4. Артемьева И.Л., Высоцкий В.И., Рештаненко Н.В. Модульная модель онтологии органической химии. Свойства органических соединений // Информатика и системы управления. 2006. - № 1. -С. 121-132.

5. Артемьева И.Л., Высоцкий В.И., Рештаненко Н.В. Описание структурного строения органических соединений в модели онтологии органической химии//НТИ.-Сер.2.-2006.-№ 2. С. 11-19.

6. Артемьева И.Л., Рештаненко Н.В. Архитектура компьютерного банка знаний по химии, Сб. тез. докл. Дальневосточной математической шк.-сем. им. акад. Золотова, Владивосток, 2004.

7. Артемьева И.Л., Рештаненко Н.В. Интеллектуальная система по химии, имеющая средства адаптации к изменениям предметной области, Научная сессия МИФИ-2006, сб. научн. тр. в 16 томах, т. 3, Москва:МИФИ, с. 67-68.

8. Артемьева И.Д., Рештаненко Н.В. Концепция специализированного компьютерного банка знаний предметной области «Химия», Сб. тр. Международной конференции «Искусственный интеллект 2004. Интеллектуальные и многопроцессорные системы - 2004».

9. Таганрог: ТРТУ. 2004. Т.2. С. 197-199.

10. Артемьева И.Л., Рештаненко Н.В. Многоуровневая онтология предметной области «Органическая химия», Сб.тез.докл. Второй международной конференции по когнитивной науке, С-Петербург, 2006, с. 563-565.

11. Артемьева И.Л., Рештаненко Н.В. Модель онтологии некоторых разделов предметной области "Органическая химия". Вузовский курс, Сб. тез. докл. Дальневосточная матем. шк.-сем. им. акад. Е.В. Золотова, 2002, Владивосток. С. 83-84.

12. Артемьева И.Л., Рештаненко Н.В. Модульная модель онтологии органической химии // Информатика и системы управления. 2004. - № 2. - С. 98-109.

13. Артемьева И.Л., Рештаненко Н.В. Система, основанная на онтологии для решения прикладных задач химии. // Фундаментальные и прикладные проблемы современной физики: сб. тез. докл., Москва, 2006. С. 303-304.

14. Артемьева И.Л., Рештаненко Н.В. Специализированный компьютерный банк знаний предметной области «Химия» // Искусственный интеллект. 2004. - №4. - С. 235-245.

15. Артемьева И.Л., Рештаненко Н.В. Специализированный компьютерный банк знаний по органической химии и его разработка на основе онтологии // Искусственный интеллект. 2006. -№4.-С. 95-106.2122,2324,252831,32,33,34,

16. Артемьева И.Д., Рештаненко Н.В. Спецификации задач в терминах онтологии химии и методы их решения/ Препринт. Владивосток: ИАПУ ДВО РАН, 2006. 36 с.

17. Бусев А.И., Ефимов И.П. Определения, понятия, термины в химии. М.: "Просвещение", 1981.

18. Дьюар М., Догерти Р. Теория возмущений молекулярных орбиталей в органической химии. М.: "Мир", 1977.

19. Зефиров Н.С. Компьютерный синтез // Соросовский образовательный журнал. №7. - 1997. - С. 52-56.35.38,39,4043,44,45,46,47,48,49.http://www.informika.ru/windows/goscom/cinorgan/fundpr/catalog/cat24 -26.html

20. Клещев A.C., Орлов В. А. Многоцелевой банк знаний. Часть 1. Концепция и политика. / Препринт. Владивосток: ИАПУ ДВО РАН, 2003.40 с.

21. Клещев A.C., Орлов В.А. Многоцелевой банк знаний. Часть 3. Концепция универсального Редактора ИРУО. / Препринт. -Владивосток: ИАПУ ДВО РАН, 2003.28 с.

22. Клещев A.C., Орлов В.А. Многоцелевой банк знаний. Часть 4. Архитектура ИРУО. / Препринт. Владивосток:ИАПУ ДВО РАН, 2003. 48 с.

23. Клещев A.C., Орлов В.А. Многоцелевой банк знаний. Часть 5.

24. Модель процесса редактирования информации различных уровнейобщности. / Препринт. Владивосток: ИАПУ ДВО РАН, 2003. 40 с.

25. Кнунянц И.Л. Химическая энциклопедия в пяти томах. Москва,

26. Большая Российская Энциклопедия. 1992. 10000 с.

27. Маликова Ж. Г. Критический анализ компьютерной программы «1С:

28. Репетитор. Химия» Центр новых педагогических технологий, г.

29. Троицк http://www.bytic.ni/cue/2000/s2/l 1 .htm

30. Нейланд О. Я. Органическая химия. М.: "Высшая школа", 1990,750с.

31. Потапов В.М., Хомченко Г.Н. Химия. М. "Высшая школа", 1982, 432 с.

32. Разработка компьютерной системы прогнозирования биологической активности химических соединений на основе моделирования молекулярного узнавания,http://www.tech-db.ru/istc/db/projects.nsf/webr/0886

33. Рештаненко Н.В. Онтологии химии. Обзор литературы / Препринт.

34. Владивосток: ИАПУ ДВО РАН, 2006. 32 с.

35. Рештаненко Н.В. Программные системы для решения прикладных задач предметной области «химия» (обзор литературы) / Препринт. Владивосток: ИАПУ ДВО РАН, 2006. 52 с.51.52,53,54,55,5657,58