автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Система процедур ДСМ-метода автоматического порождения гипотез и ее реализации

кандидата технических наук
Путрин, Андрей Валерьевич
город
Москва
год
2000
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Система процедур ДСМ-метода автоматического порождения гипотез и ее реализации»

Автореферат диссертации по теме "Система процедур ДСМ-метода автоматического порождения гипотез и ее реализации"

На правах рукописи

ГГУТРИН Р Г 6 ОД

Андрей Валерьевич

1 ФЕЗ 2000

СИСТЕМА ПРОЦЕДУР ДСМ-МЕТОДА. АВТОМАТИЧЕСКОГО ПОРОЖДЕНИЯ ГИПОТЕЗ И ЕЕ РЕАЛИЗАЦИИ

Специальность - 05.13.17

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ИНФОРМАТИКИ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва-2000

Работа выполнена во Всероссийском институте научной и технической информации

Научный руководитель; ' Доктор технических наук, профессор Финн Виктор Константинович

Официальные оппоненты: Доктор технических наук, профессор Еремеец Александр Павлович

Кандидат технических наук, доцент Микулич Леонид Ильич

Ведущая организация:

Российский Государственный Гуманитарный Университет (факультет информатики)

Защита состоится «23» февраля 2000г. в 12 часов на заседании диссертационного советг Д 003.02.01 во Всероссийском институте научной и технической информации по адресу: 125219, Мрсква, ул. Усиевича, д. 20

С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации.

Автореферат разослан «2./» января 2000г.

Ученый секретарь Диссертационного совета

Доктор биологических наук, профессор М.А. Каменская

Общая характеристика работы

В связи с быстрым развитием химии в окружающую среду попадает все большее число новых биологически активных соединений, причем некоторые из ник могут оказаться вредными для человека. В частности, при конструировании новых лекарственных соединений прогноз на канцерогенность, токсичность и мутагенность является необходимым. В настоящее время накоплено большое количество экспериментальных данных по воздействию химических веществ на человека и животных. Сведения об экспериментах обобщены в ряде справочников и специализированных баз данных (БД). Использование в этой области интеллектуальных систем (ИНТС) обусловлено длительностью (около трех лет) и высокой стоимостью экспериментов на лабораторных животных. Интеллектуальные системы способны, используя экспериментальные данные, осуществлять прогноз1рювание канцерогенности, мутагенности и токсичности химических соединений. Такой прогноз может быть реализован посредством ИНТС, основанных на ДСМ-методе автоматического порождения гипотез.

ДСМ-метод автоматического порождения . гипотез -реализует автоматизированные правдоподобные рассуждения: порождение гипотез о причинах свойств, вывод по аналогии, процедуры объяснения начального состояния БД (основы метода сформулированы в [1, 2])

ИНТС ДСМ представляет собой интегрированную интерактивную систему, в которой посредством ДСМ-мегода автоматического порождения гипотез (АПГ) осуществляется обработка знаний, представленных в БД с неполной информацией (БДНИ) и в базе знаний (БЗ)'. ИНТС ДСМ применяется для прогнозирования свойств

1 БЗ содержит декларативные (аксиомы предметной области) н процедурные(прсдсгажлеш1Я правил) знания [1]

структурированных объектов из БДНИ в фармакологии, медицине, технической диагностике и социологии.

Целью диссертационных исследований автора являлась модификация процедур ДСМ-метода для исследований ангипродукгивных свойств (канцерогенности, мутагенности и токсичности) многокомпонентных химических соединений и реализация этих процедур в виде программной системы на платформе ШМ PC под управлением ОС Windows NT.

Актуальность работы определяется как теоретическими, так и практическими трудностями решения этого класса задач. ДСМ-метод является адекватным средством для построения программной системы, которая находит применение в области прогнозирования канцерогениости, мутагенности и токсичности совокупностей химических соединений2, т.к. знания содержащиеся в БД хорошо структурированы, но плохо формализованы. Предлагаемый подход позволяет, сократив общее количество экспериментов на лабораторных животных, проводить их более направленно, что уменьшает временные и материальные затраты.

В процессе работы над диссертацией автором получены следующие научные результаты:

1. Разработана и реализована "стандартная" программная оболочка для применения ДСМ-метода автоматического порождения гипотез в таких областях, как химия, социология и т.д. Система использует унифицированный механизм хранения данных, что позволяет настраивать ее почти на любую из существующих на сегодняшний день СУБД (Oracle, MS Access и т.д.);

/

2 Пол совокупностью химических соединений здесь и далее мы понимаем одно или более веществ, одновременно вводимых одной и три же особи, бшъ может, в разных дозах. .При наличии модели взаимодействий веществ друг с другом данную совокупность можно было бы назвать смесью

2. Сведена к классу задач, решаемых ДСМ-методом, задача прогнозирования антшуродуктивных свойств многокомпонентных химических соединений;

3. Произведена модификация "стандартной" программной оболочки ДСМ-системы для проведения экспериментов по прогнозированию антипродуктивных свойств многокомпонентных и однокомпонентных химических соединений;

4. Разработана подсистема отображения химических соединений в трехмерном пространстве, используемая как интерфейс интеллектуальных ДСМ-систем с пользователем;

5. Проведены эксперименты, подтверждающие целесообразность применения ДСМ-метода для распознавания канцерогенное™, токсичности и мутагенности химических соединений.

Следующие особенности работы определяют ее научную новизну:

1. Для обработки данных о химических веществах, традиционно осуществляемой статистическими (вычислительными) средствами, применены логические средства, образующие ДСМ-метод;

2. Разработана и реализована "стандартная" программная оболочка для применения ДСМ-метода автоматического порождения гипотез в различных предметных областях. Оболочка поддерживает универсальное хранилище данных для сохранения результатов работы системы

3. Интеллектуальная система настроена на новую предметную область -прогнозирование антипродуктивных свойств (кацерогенность, токсичность, мутагенность) совокупностей химических соединений, при этом система может применяться и для предсказания свойств однокомпонентных соединений;

4. Разработана подсистема ЗБ-визуализации химических соединений для применения в интеллектуальных системах типа ДСМ, ранее использовавших 20-визуализацию.

Практическая значимость работы состоит в создании интеллектуальной партнерской системы для анализа и обработки экспериментальных данных, представляющих зависимости между совокупностью химических соединений с одной стороны и свойством химической канцерогенности, токсичности, мутагенности и т.д. -с другой. Созданная система усиливает интеллектуальные возможности эксперта. По теме диссертации в настоящее время опубликовано пять статей.

Краткое содержание работы

Вр Введения обоснована актуальность темы диссертации, определена цель и предмет работ, сформулированы основные результаты исследований и их практическая значимость, описана структура диссертации и дана краткая характеристика ее содержания.

В последние годы в процессе изыскания новых физиологически активных веществ и изучения токсичности вновь синтезируемых соединений интенсивно используются компьютерные методы анализа связи «структура химического соединения - биологическая активность». С их помощью выявляются характеристики структуры, определяющие наличие или отсутствие определенного вида активности. ОДной щ главных задач является распознавание отсутствия антипродуктивных свойств у веществ, предлагаемых в качестве лекарств. Во Введении описаны зарубежные интеллектуальные системы, решающие задачи этого класса, приведены сведения о версиях ИНТС ДСМ Хазановского К.П и Мельникова Н.И. Также освещаются достоинства и недостатки последних в сравнении с представляемой системой.

В первой главе дано описание основных требований, необходимых для применения ДСМ-сисгемы в конкретной предметной области, а также основных принципов работы системы.

ИНТС ДСМ могут применяться в областях, где выполняются следующие условия:

1. БД является БДНИ (БД с неполной информацией), т.е. в начальном состоянии представлены положительные и отрицательные примеры отношения "объект обладает множеством свойств", а также примеры неопределенности этого частично-определенного отношения. Кроме того, в начальном состоянии БДНИ содержатся только примеры неопределенности отношения "причина" ("подобъект X есть .причина наличия (отсутствия) множества свойств V').

2. В начальном состоянии БДНИ содержит в неявном виде зависимости причинно-следственного типа, т.е. причины, вызывающие наличие множества свойств, и причины, вызывающие отсутствие множества свойств.

На основании анализа прецедентов (объектов с заранее известными свойствами) ДСМ-рассуждение[1, 2] осуществляет правдоподобный вывод, в результате которого появляется информация о наличии или отсутствии свойств у объектов. Объекты должны иметь определенную структуру и на них должны быть определены операции локального сходства, объединения, разности и отношения вложения. Структура объектов должна содержать фрагменты, ответственные за наличие или отсутствие исследуемого свойства. Смысл операции "локального сходства" заключается в поиске общих частей объектов, имеющих одинаковые свойства, и в случае, когда наличие или отсутствие соответствующего свойства у нескольких разных объектов вызвано одной причиной, эта причина должна находится в полученной общей части. Для работы системы требуется набор объектов, про которые известно, что он» обладают исследуемым свойством ((+)-объекты) и набор объектов, про которые известно, что

они им не обладают ((-)-объекты). Задается также набор объектов, наличие свойства в которых требуется определить ((т)-объекты). В основе ДСМ-рассуждения лежит Процедура Порождения Гипотез (ППГ), каждая итерация которой производит доопределения подмножества (г)-0бьек70в3. В работе описываются два метода поиска сходств: простой и обобщенный (Обобщенный метод предполагает более детальное, чем у простого, представление о причинных механизмах4: причинно-следственная связь характеризуется тройкой <С, В, Е>, где С - причина, Е - следствие, а В -«тормозу», т.е. обстоятельства, которые мешают наступлению Е в условиях С. Кроме того, в условиях С, при отсутствии обстоятельств из В, Е обязательно наступит ).

Независимо от выбранного метода работа ДСМ-системы будет выглядеть следующим образом(рис. 1):

Рис.1

3 Это и есть случай неопределенности исходного отношения «объект - множество свойств»

4 Детально эт методы описаны а работах [7,8]

Сначала на основе анализа (+)- и (-)-объектов формируется список фрагментов, ответственных за наличие исследуемого свойства ((+)-гипотезы) и за его отсутствие ((-)-гипотезы).

Имеющихся данных достаточно для правильного прогноза, если:

• Для каждого (+)-объекга порождена хотя бы одна гипотеза;

• Не порождаются (-)-гилотезы, имеющие (+)-объект в качестве родителя.

В процессе могут использоваться различные критерии, сужающие множество получаемых гипотез. В частности, при использовании простого метода может быть запрещено порождение (+-)-гипотез, входящих в (-)-объекты, и (-)-гипотез, входящих в (+)-объекты (запрет на контрпример).

Затем, используя правила второго рода, осуществляется правдоподобный логический вывод, реализующий доопределение т-объектов на основании (+)- и (-)-гипогез, порожденных на первом этапе. В ходе доопределения некоторые объекты могут доопределяться как (+)-, так и (-)-гипсггезами, т.е. они содержат фактическое противоречие. Такие объекты называются О-объекты. В случае если остались недоопределенные объекты, процесс может повторяться до стабилизации исходной выборки.

В конце, на основании полученных гипотез, система пробует объяснить начальное состояние исходной выборки с возможным ее расширением, проверяя тем самым корректность своей работы.

ИНТС ДСМ отличается открытостью решающих средств, т.е. возможностью настраивать ее на предметную область.

В конце первой главы приводится иллюстративный пример решения задачи прогнозирования зависимостей «структура химического соединения - множество биологических активностей»

Во второй главе рассматривается сведение задачи прогнозирования антипродуктивных свойств химических соединений к классу задач ДСМ. Как известно, на практике возможно попадание в организм нескольких веществ. Для предсказания их воздействия требуется решить задачу класса «структуры химических соединений -множество активностей». Для применения ДСМ-метода в этой модели необходимо адекватное определение понятий объекта, сходства, вложения и свойств.

Определим объект как кортеж <Ci, ... ,С„, ап>, где С; - информация о химическом соединении, а ал. - вид животного, которому введены вещества

Каждое анализируемое вещество С* описывается тройкой <Х, с.в , d>. Первый элемент - химическая структура, представленная множеством дескрипторов кода ФКСП5 [3], т.е. операция сходства и отношение вложения совпадают с пересечением и вложением из алгебры множеств. Второй - способ введения вещества в организм. Третий - дом вводимого вещества, представленная числом с плавающей точкой.

Как и в случае прогнозирования канцерогенности для объектов, содержащих описание одного соединения [4], мы предлагаем использовать один из двух вариантов определения операции сходства:

Определение Л:

di fl^dj = max {dj, d3); di D'd2 = minfdb d2j.

Определение В:

di n+d2 = roia (di.dj); d, Л'da = max (di, d2}.

5 Код ФКСП - кол для описалия ^ химического соединения в виде набора "всех имеющихся в нем подструктур, представляющих собой центры ложализаща пн-электронов

где П + и П " это сходство на "+-" н "-"-объектах, соответственно. Содержательно, Определение А значит, что, если в результате эксперимента прогнозируемый эффект проявился при дозе <5, то и при дозе с! 1 > й он тоже проявится, при с!] < <1 никакого вывода сделать нельзя; и, наоборот, если прогнозируемый эффект не проявился при дозе (1, то и при дозе с!, < с! он также не проявится, при ¿1 > 6 никакого вывода сделать нельзя. Такое определение имеет два существенных недостатка. Во-первых, оно не согласуется с отношением вложения, так как для согласования необходимо было бы определрт. (12 ¿¡< Л2, что противореча приведенному выше высказыванию. Во-вторых, при таком определении операции сходства невозможно обосновать с ломощыр критерия достаточного основания все те факты из БД которые участвуют в порождении гипотез и имеют из всех порождающих данную гипотезу фактов минимальную дозу. Действительно, ни одна гипотеза не будет иметь дозу, равную минимальной дозе из всех породивших ее фактов, следовательно, ни одна гипотеза не может б(>ггь вложена в факт с минимальной дозой, и этот факт'не будет объяснен с помощью гипотезы, им же порожденной.

Определение В опирается на максималистскую интуицию эксперта: лучше ошибочно доопределить вещество, как вызывающее нужный эффект, чем пропустить хотя бы одно, вызывающее его в действительности. Иными словами, мы не пропусти^ ни одного соединения, содержащего полученный в качестве гипотезы фрагмент структуры химического вещества и введенного в дозе, которая больше минимальной из всех доз. Недостаток этого варианта проявляется в том случаб, если в порождении гипотезы участвует вещество С с пороговой дозой 4 не являющейся, минимальной из всех доз, участвующих в порождении этой гипотезы. В этом случае с помощью гипотезы (у,(Г) будет доопределено как канцероген вещество С с дозой и с1|>(Г, которое реально, будучи введенным в дозе <1,, канцерогенного эффекта не

пропит в силу пороговое™ дозы (1. Система предоставляет эксперту самому выбрать, каким из друх вариантов пользоваться при проведении эксперимента.

Далее определим отношение вложения для доз. Обозначим через о параметр, характеризующий вхождение объекта, содержащего кортеж, в отношение "объект обладает множеством свойств".

Таблшпа 1

а- Если

+1 Объект обладает свойством К

-1 Объект не обладает свойством К

X Неизвестно, обладает ли объект свойством К

0 В результате компьютерных экспериментов выявлено фактическое противоречие

В зависимости от 0| и а2 <11 вкладывается в <12 по таблицам, приведенным ниже ("+" - есть рложение,- вложения нет): для^с^:

1 -1тО

01

1 + + + +

-1 - - - -

и для ¿2<<1|:

Ч>Ччч. 1-1x0

О,

1 -*-..- -

-1 + + + +

Пользуясь приведенным выше сходством для доз, определим операцию локальногр сходства на тройках <Х, с.в., Л>:

Таблица 2

<Х1, С.В.], > 0 <Х1, «11, С.в.2> = Если

<Ет> X, пх2=л

< х, п х2, с. в., <1, п а2> Х,ПХ2#Л- А С.».1*= с в.2 с.в.

< Хг П Хз, % <11 Л Аг> ЪПХ^Л & С.».1#С.В.2

В зависимости от того, совпадают или нет остальные элементы кортежей, в результирующий кортеж вводятся ттонятие "объектная неопределенность" (ц - не определен способ введения) и "пустой кортеж" - < Еп > . Операция вложения, определяет^, как конъюнкция - (ХтсХ2) & (^сёз)

Операция сходства объектов определяется согласно:

Та&ница 3

<СЬ ... ,СИ ап! > П <С|,... ,С'„ ап2 > = Если

<Ет> -ЗЦС, л С'^Л)

<С1 П Сл.....С„ ПС'п, ап> & п>1>1 & ап] = ап2 = ап

<С( П С1.....С0 П С'», х> УИСПС'.^Л) & П>1>1 .&, ап]Ф ап2 •

Как и в предыдущем разделе используются понятия "объектная неопределенность" (х - не определен вид животного) и "пустой кортеж" - < Ет >. Определим отношение вложения, через конъюнкцию вложений компонентов:

<С1.....С„,ап1>с<С'1, .. . ,С'„, ап2>о ¿(С, сС',)

Определение объекта, данное выше, позволяет использовать одну и ту же модель для прогнозирования антипродуктивных свойств, как совокупности, так и одного соединения. В этом случае количество компонент С в кортеже <С1, ... ,С„, ап> будет равно единице. Одно из преимуществ такого варианта в том, что все эксперименты, касающиеся прогнозирования канцеротенности из [4], могут быть повторены в нашей модели, а это - расширение области применения системы в целом.

Определим прогнозируемые свойства В простейшем случае свойство одно -канцерогенность, токсичность или мутагенность.

При изучении канцеротенности мы сталкиваемся с более сложной моделью. Воздействие нескольких веществ может вызвать несколько видов результирующих эффектов (в зависимости от структуры и сочетаний исходных соединений) [5]:

1. Суммирующий эффект представляет собой сумму эффектов каждого из вещертв

2. Синергизм - эффект взаимного усиления, значительно превосходящий сумму эффектов обоих канцерогенов, или промоция-канцерогенез (усиление канцерогенное™ слабого канцерогена или канцерогена в неканцерогенной дозе неканцерогенным веществом или слабым канцерогеном; если это вещество вводится одновременно с канцерогеном, то явление называется кока^церогенез, если после канцерогена - то промоцией)

3. Антагонизм - эффект комбинации не только меньше суммы, но часто - и наименьшего из эффектов реагирующих канцерогенных веществ, или ингибирование - одновременно с канцерогенным веществом, до или после

его попадания вводится неканцерогенное химическое вещество, и результирующим эффектом является уменьшение канцерогенного эффекта исходного канцерогена.

Таким образом, множество свойств А = {Add (вещества вызывают эффект суммирования), 5уп(эффект усиления), SynMIb Атй(эффект торможения)}. Syn„p -эффект усиления, вызванный промоцией Это единственный случай для данного множества свойств, когда порядок воздействия химических веществ имеет значение. Во всех остальных - вещества-компоненты в кортежах-объектах можно менять местами:

(Vy(K е А&.У * Syn„p) -> -/(1(1)(< С, ,...,С„,ст. >=>, А))о

(V»(l < I < /!>)—► /„„)(< PermvtatiojAi,<С,,..-,£„ >\ап. >=>, Л)),

где PermulalioriQ, X) выдает j-ю, бесповторную перестановку элементов кортежа X

Для конкретного объекта наличие одного из свойств означает отсутствие всех остальных:

Jlm(0=>t Ant) ->(J(4 V)(0=>, Sy/i)vJ,,IM(0=>, Synnf ))& 0)(О =>, Add)), Jnm(0=>, /(»О&Ц^ДО^, Sj7i)v/H.0)(O=>, SynJ)),

где:

- О-кортеж<Ci, ... ,C„, ап>, описанный выше;

- J[M](iovJ,nj, где v=<v,i>- истинностное значение, ve{1,0,-1, r} -

тип истинностного значения, i — номер тааптртшенения правдоподобного вывода, а <р есть О =>, К (=>, - одноместный предикатный символ, отвечающий частично-определенному отношению =>*, означающему

„ , ^ с _ ___, \ истина, еслиiAp]= v

объект О обладает свойством /Г). Определим 1-р = ■{-1- _ ,

I ложь,если1^ф\Ф v

и - функция оценки.

В главе 3 приведены примеры двух экспериментов, использующих приведенн>к~вь(ше определения.

Первый эксперимент использует «вырожденные» объекты, т.е. те, которые состоят де одного "компонента. Цель - -изучить влияние заместителей в бензольном кольце на токсичность замещенных бензолов. Исходный массив по острой токсичности (ЛДю) замещенных бензолов для мышей при внутрижелудочном введении содержал 66 соединений. В компьютерном эксперименте на этом массиве с использованием ДСМ-системы условно принималось, что соединения, для которых lgJIfljo < 3,35 являются положительными примерами (высокая токсичность), остальные соединения считались отрицательными примерами (низкая токсичность). (+)-примеров в массиве 40, (-)-14, для 12 соединений данные отсутствовали, и их токсичность необходимо было спрогнозировать. Были порождены 8 положительных и 2 отрицательные гипотезы. 9 веществ были правильно доопределены как соединения более токсичные, чем бензол. Три соединения остались недоопределенными, так как массив не содержал .соединений, с темя же структурными фрагментами, что и прогнозируемые соединения.

Второй эксперимент использует информацию из [5, б,]. Массив состоял из 20 пар соединений, проявляющие эффекты синергизма (Syn), антагонизма (Ant) и аддитивности (Add). Массив подобран так, что первичными канцерогенами являются N-нитрозр^оединения. Цель эксперимента - исследование структурных фрагментов, ответственных за проявление эффекта синергизма при введении в организм двух канцерогрров. Т.о. свойство одно - синергизм и, согласно аксиомам приводившимся выше, случаи антагонизма и аддитивности интерпретировались, как отрицательные

примерь^. В результате работы системы выявлено семь положительных гипотез синергизма. Вот некоторые из них:

С,

но-нс-нс.

О

СН,-СН,-СН.-С1

Среди 13 -ти порожденных отрицательных гипотез-причин эффекта усиления (гипотез-причин аддитивности или антагонизма) можно выделить следующие пары подструктур:

С,

сц-си»

сн.

/

нн-с-н-м=о III о

ск

/

=N"-0-

С

2

Глава 4 содержит описание программной реализации системы для прогнозирования антипродуктивных свойств химических, соединений. Данная реализация базируется на функциональном и интерфейсном ядре «стандартной»

ДСМ-системы, которая в настоящее время исполыуетья также в области социологии. Архитектура программы строится вокруг понятия эксперимента. Эксперимент - это совокупность групп объектов следующих типов: "объекты-свойства", наличие или отсутствие которых должен выявить прогноз; "объекты-родители", служащие исходными данными для прогноза; "объекты-гипотезы", "объекты-тормсоа"(в случае использования обобщенного метода) и информация о доопределениях, полученные в результате работы системы.

Рассмотрим возможные варианты работы с экспериментом (рис.2)

Создание эксперимента

Ч

Сохранение эксперимента

Изменение эксперимента

Пользователь

ДСМ-прогноз

Просмотр эксперимента

Рис. 2

Создание эксперимента подразумевает создание хранилища данных с уникальном именем, предназначенного для сохранения данных эксперимента между сеансами работы системы.

Изменение эксперимента будут следующие действия:

a) создание "объекта-родителя";

b) удаление "объекта-родителя";

c) изменение атрибутов "объекта-родителя"; (1) создание" объекта-свойства";

е) удаление" объекта-свойства"; О изме|(ение атрибутов "объекта-свойства"; g) создание "объекта-гипотезы"; Ь) удаление "объекта-гипотезы"; ¡) изменение атрибутов "объекта-гипотезы" Под сохранением эксперимента имеется в виду сохранение в хранилище данных всех объектов, затронутых на этапе изменения эксперимента. Эксперимент может бьпр сохранен лишь в том случае, если он содержит хотя бы одно свойство. ДСМ-прогноз состоит из двух шагов:

• на первом шаге система порождает на основании исходных данных "объекты-гипотезы". Пользователь может сужать или расширять множество гипотез, исключая часть объектов или добавляя свои;

• на втором шаге происходит собственно прогноз, т.е. некоторые свойства доопредедаемых объектов изменяют значение с "тау" на "плюс" или "минус".

Просмотр эксперимента подразумевает его загрузку из хранилища данных для изменены^ или ДСМ-прогпоза. За о дин, сеанс пользователь может работать только с одним экспериментом.

На программном уровне система делится на 3 компонента.

1. Решатель

Компонент выполнен, как отдельный объект, реализующий все процедуры, связаннее с ДСМ-прогнозом, т.е. поиск сходств, доопределение объектов и т.д. Компонент не зависит от предметной области, т.к. задача реализации операций пересечения, разности и отношения вложения возложена на клиентскую часть. Текст диссертации содержит полное описание интерфейса объекта.

2. Компонент ЗО-визуализации химических соединений

В рамках настоящей работы был реализован специализированный компонент для визуализации химических соединений, который по функциональным возможностям не уступает таким программам, как Chemscape [www.mdli.com] и ACD/3Q [www.acdlabs.com]. Компонент позволяет масштабировать, двигать и вращать просматриваемое вещество в трех измерениях. Доступны следующие режимы просмотра:

• только связи - отображаются только связи между атомами

• связи ji атомы с реальным радиусом - отображаются связи и атомы в виде шариков, радиусы которых пропорциональны реальным атомным радиусам

• связи и дтомы с фиксированным радиусом — отображаются связи и атомы в виде шариков, радиусы которых совпадают для всех типов атомов

• связи и буквы — отображаются связи, а вместо атомов - буквы, соответствующие их обозначениям в таблице Менделеева

Если для просматриваемого вещества имеются дескрипторы кода ФКСП, то компонент позволяет подсветить фрагмент соединения, закодированный дескриптором, выбранным пользователем. Компонент полностью совместим с MS Internet Explorer, что делает возможным его использование в Web-страницах для

распространения данных об экспериментах через Internet. Для визуализации используется OpenGL6

3. Собственно интегрированная среда поддержки исследователя

Программа выполнена как исполняемый модуль на языке С++ с использованием библиотек MFC, ATL, STL7. Структурно ее можно разделить на следующие подсистемы (рис. 3):

Рис.3

• Хранилище дяниьи служит для сохранения данных экспериментов между запусками системы. Подсистема использует интерфейс OLE DB8, что дает ей необходимую гибкость для использования в качестве целевой практически любой из существующих на настоящий момент СУБД. Применение объектно-ориентированной парадигмы приводит к тому, что настройка на новую СУБД требует минимального программирования (т.к. выполняется простым наследованием от нескольких базовых классов и переопределением

6 OpenGL - платформокезависимая библиотека функций для рендеринга 31>-графики, разработанная компанией Silicon Graphics

1 STL, MPC, ATL - библиотеки классов, предназначенные для ускорения разработки приложений на С++

их методов), а любые изменения реализации хранилища данных не затрагивают все остальные подсистемы.

Подсистема поддержки решателя реализует все необходимые клиентские интерфейсы для использования компонента «Решатель», упоминавшегося выше.

Интерфейс пользователя(рис.4) - реализует всю функциональность, связанную с отображением экспериментов на экране компьютера. В этой подсистеме для визуализации объектов и гипотез используется компонент «ЗО-визуализация».

¿VJSM Explorei^|IAVINIIIVEXP3\B1 moll

pe ftew Experiment Г Цф ■

t h

3 a hVVaNITiySMSexpenmenaii* В © Hypotheses Ш Й Plus

ffi (J M'nus i,

В- Parents

ffl (

в.|

) Teu I Plus

l:WINITI\EXP3V I:\V1NITI\EXP3V iAVINITI\EXP3\! IAVlNITI\EXP3\! IWlNm\EXP3V—' IAV1NITISEXP3V; V

IAVlN.Ti\EXP3V ,.:, l:WlNITI\EXP3Vvs,.;' IAVINITI\EXP3V.. i.w.N,TI\EXP3\., ■;. IAV1N.!TI\EXP3V I.WIN,TI\fcXP34 1AVINITIVEXP3V '. у l:WINITI\EXF3V»j5

5.06Q1

6.06

0200331

0201350

0200241

1300241

1300241

2400331

3100331

1101131

1101331

1301331

0262441

24Б3440

3.164441

0264241

0253310

2462311

! Route of Admiristraiion Unknown 4

¡Dose 0.000000 j

{Animal i_ .. . . . Unknown —i zi

Рис. 4

8 OLE DB - набор интерфейсов, обеспечивающих унифицированный доступ приложений к данным из рашообразных источников. Стандарт предложен компанией Microsoft

• Подсистема поддержки эксперимента отвечает за логику работы программы на высоком уровне. Вся функциональность, связанная с конкретной предметной областью, вынесена в блок поддержки предметной области. Настройка системы на новую область применения требует не более 3 человеко-дней.

В качестве документации мы приводим полные статические диаграммы классов, спецификации их методов и краткое введение в настройку системы на произвольную предметную область.

Более того, в Приложения вошли распечатки файлов справки по работе с интегрированной ДСМ-системой для прогнозирования антипродуктивиых свойств совокупностей химических соединений

Основные результаты работы

1. Разработана и реализована "стандартная" программная оболочка для применения ДСМ-мегода автоматического порождения гипотез в таких областях, как химия и социология. Система использует унифицированный механизм хранения данных, что позволяет настраивать ее поч гч на любую из существующих на сегодняшний день СУБД (Oracle, MS Access и т.д.).

2. Задача прогнозирования ангипродукгивных свойств многокомпонентных химических соединений сведена к классу задач решаемых ДСМ-методом.

3. Произведена модификация "стандартной" программной оболочки для проведения экспери!у*екгов по прогнозированию антипродуктивных свойств многокомпонентных и одно компонентных химических соединений.

А. Разработана подсистема отображения химических соединений в трехмерном пространстве

5. Проведены эксперименты, подтверждающие целесообразность применения ДСМ-метода рля прогнозирования канцерогенносги, токсичности и мутагенности химических соединений.

Основные результаты работы изложены в следующих публикациях:

1. Путрин A.B., Панкратова КС. Программная реализация интеллектуальных систем типа ДСМ для распознавания химической канцерогенности. // НТИ. Сер.2 1997. №3 С. 8-11.

2. Дьячков П.И., Маневич С.И., Путрин A.B., Финн В.К Построение комбинированного варианта системы правдоподобных рассуждений типа ДСМ, учитывающей.комбинаторные свойства молекул. // Сер.2 1997. №3 С. 12-17

3. Путрин A.B. Описание программной реализации ДСМ-систем для прогнозирования химической канцерогенности. //НТИ. Сер.2 1999. №12 С. 34-39.

4. Гусакода СМ., Панкратова Е.С., Путрин A.B. Интеллектуальная система типа ДСМ для прогнозирования антипродукгивных свойств химических веществ. // VI Национальная конференция с международным участием «Искусственный интеллект-98», том-2, С. 153-15.5

5. Путрин A.B. О реализации трехмерной визуализации в рамках ДСМ-системы прогнозирования свойств химических соединений // VI Международная конференция «Интеграция. Информационные технологии. Телекоммуникации», Москва, 1999, том-1, С. 24-25

Литература

1. Финн В.К. Правдоподобные выводы и правдоподобные рассуждения // Итоги науки и техники. Сер. Теория вероятностей. Математическая статистика. Теоретическая кибернетика. Т. 28. - М.: ВИНИТИ, 1988. - с. 3-84

2. <1пщн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ //Итоги науки и техники. Сер. Информатика. Т. 15 -М.: ВИНИТИ, 1991,- с. 54-114.

3. Авидон В. 8. Критерии сравнения химических структур и принципы построения информационного языка для информационно-логической системы по биологически активны^ соединениям. // Химико-фармац. Журн, 1974, №8, С. 22-25

4. Панкратова Е.С. Разработка представлений данных, знаний и алгоритмических средств прогнозирования каннерогенности химических веществ И Диссертация защищена в ВИНИТИ, специальность 05.13.17, 1997

5. Areas J.C., Woo J.-T., Lai D.J. Database of Binary combination Effects of Chemical Carcinogens // Environ. Card no Reviews. Part C. J.Environ. Sci.Hlth. - 1989. - Vol. C6, №1. - 164.

6. A revs J.C.,Woo J.-T., Polansky G. Ranking of complex Chemical Mixtures for Potential Cancer HAZARD:Structure of Computerised System-An Outline // Environ.Sci. Hlth.-1989.-Vol.C7,N7.pl29-144.

7. Кузнецов C.O. Введение в ДСМ-метод // Семиотика и информатика- 1990,- Вып. 31.-С. 5Т40

8. Финн В.К. Об обобщенном методе автоматического порождения гипотез // Семиотика и информатика - 1989 - Вып. 29,- С. 93-123

Оглавление автор диссертации — кандидата технических наук Путрин, Андрей Валерьевич

1 Введение,

2 ДСМ-рассуждение.

2.1 Простой метод.

2.2 Обобщенный метод.

2.3 ДСМ-прогноз.

2.4 Простейший пример работы ДСМ-системы.

2.4.1 Простой метод.

2.4.2 Простой метод с запретом на контрпример.

2.4.3 Обобщенный метод.

2.5 Работа ДСМ-системы на задачах класса «структура химического соединения -множество активностей».

3 Применение ДСМ-метода для прогнозирования свойств совокупностей химических соединений.

3.1 Объект.

3.2 Сходство.

3.3 Свойства.

4 Результаты экспериментов.

5 Программная реализация 3%

5.1 Общая концепция системы

5.2 Программные компоненты

5.2.1 Крмпонент 3О-визуализации химических соединений

5.2.2 Решатель

5.2.3 Интегрированная среда поддержки экспериментов

Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Путрин, Андрей Валерьевич

В связи с быстрым развитием химии в окружающую среду попадает все большее число новых биологически активных соединений, причем некоторые из них могут оказаться вредными для человека. В частности, при конструировании новых лекарственных соединений прогноз на канцерогенность, токсичность и мутагенность является необходимым. В настоящее время накоплено большое количество экспериментальных данных да воздействию химических веществ на человека и животных. Сведения об экспериментах обобщены в ряде справочников и специализированных базах данных (БД). Ввиду длительности (около трех лет) и высокой стоимости экспериментов на лабораторных животных попытки использования в этой области интеллектуальных систем (ИС) предпринимались довольно давно. В настоящее время наибольшее распространение получили следующие две программы:

• HazardExpertfl] - система разработана в 1984 году по заказу Министерства Охраны Окружающей Среды США для прогноза семи классов токсичности соединений (иммунотоксичность, нейротоксичность, терратогенность и т.д.). Для предсказания использовадась , система продукционных правил и сведения специалистов о структурных фрагментах и функциональных группах, ответственных за проявление прогнозируемого эффекта. В 1997 году в дамках проекта COPERNICUS возможности HazardExpert были расширены за счет применения на последней стадии предсказания нейронной сети. Такая комбинированная система использовалась для прогноза токсичности соединений. На сегодняшний день различнее версии HazardExpert применяются более, чем в 100 научных учреждениях 15 стран мира.

• Система С0МРАСТ[2] способна предсказывать на квантовохимическом уровне канцерогенность химических веществ, которым для проявления этого свойства необходимо взаимодействие с цитохромом Р-450 Согласно [3] обе системы дают верное предсказание в 70-80% случаев. Разумеется, описанные две ИС не являются единственными, применяемыми сегодня. К распространенным можно также отнести - ТОРСАТ[4](статистические методы), САБЕ[5] (прогноз по частоте встречаемости биофоров и биофобов), продолжаются работы по использованию в этой области нейронных сетей [6]

В 1843 году была опубликована книга английского философа Джона Стюарта Милля «Система догики силлогической и индуктивной. Изложение принципов и доказательства в связи с методами научного исследования»[7]. После появления компьютеров описанные там принципы стали использоваться для выявления закономерностей «ситуация-явление» во многих областях, в том числе в химии и социологии.

ДСМ-метод1 автоматического порождения гипотез реализует автоматизированные правдоподобные рассуждения: порождение гипотез о причинах свойств, вывод по аналогии, процедуры объяснения начального состояния БД (основы метода сформулированы в [8, 9]).

ИНТС ДСМ представляет собой интегрированную интерактивную систему, в которой посредством ДСМ-метода автоматического порождения гипотез (АПГ) осуществляется обработка знаний, представленных в БД с неполной информацией (БДНИ) и в базе знаний (БЗ)2. ИНТС ДСМ применяется для прогнозирования свойств структурированных объектов из БДНИ в фармакологии, медицине, технической диагностике и социологии.

1 ДСМ-метод - метод поиска причинно-следственных связей в различных плохо формализованных дисциплинах. Основан на трудах Джона Стюарта Милля, чьи инициалы и дали имя методу.

В 1990 Отделом Теоретической и Прикладной Информатики ВИНИТИ была разработана первая ИС, использующая ДСМ-мётод для прогнозирования свойств химических соединений [10, 11, 12]. Система работала под управлением операционной системы MS-DOS и обладала рядом недостатков:

• ввод химических соединений осуществлялся встроенным редактором, формат данных которого не был совместим с любым, имеющимся в мире;

• не было возможности сохранять данные об эксперименте в каком-либо постоянном хранилище;

• не было интегрированной среды поддержки исследований;

• система была способна показывать лишь двумерные модели соединений.

В следующей версии [13, 14], разработанной для MS Windows 3.x, часть этих недостатков была исправлена, хотя появились и новые:

• хотя теперь и поддерживалось сохранение результатов экспериментов, но их экспррт был по-прежнему невозможен;

• система показывала процесс предсказания не полностью

• недостатки, связанные с редактором остались

Несмотря на проблемы, описанные выше, эти реализации дали возможность отработать методики построения систем типа ДСМ для прогнозирования свойств химических соединений [15].

Целью диссертационных исследований автора являлась добавление и модификация некоторых процедур ДСМ-метода для исследований антипродуктивных свойств (канцерогенности, мутагенности и токсичности) многокомпонентных химических соединений и реализация этих процедур в виде программной системы на платформе ЮМ PC под управлением ОС Windows NT.

2БЗ содержит декларативные (аксиомы предметной области) и процедурные(представления правил) знания [1]

Актуальность работы определяется как теоретическими, так и практическими трудностями решения этого класса задач. ДСМ-метод является адекватном средством для построения программной системы, которая находит применение в области прогнозирования канцерогенности. мутагенности и токсичности совокупностей химических соединений3, т.к. здания содержащиеся в БД, хорошо структурированы. Предлагаемый подход позволяет, сократив общее количество экспериментов на лабораторных животных, проводить их направленно, что уменьшает временные и материальные затраты.

В процессе работы над диссертацией автором получены следующие научные результату:

1. Разработана и реализована "стандартная" программная оболочка для применения ДСМ-метода автоматического порождения гипотез в таких областях, как химия, социология и т.д. Система использует унифицированный механизм хранения данных, что позволяет настраивать ее почти на любую из существующих на сегодняшний день СУБД (Oracle, MS Ассе^ и т.д.);

2. Сведена к классу задач, решаемых ДСМ-методом, задача прогнозирования антипродуктив ных свойств многокомпонентных химических соединений;

3. Произведена модификация "стандартной" программной оболочки ДСМ-системы для проведения экспериментов по прогнозированию антипродуктивных свойств многокомпонентных и однокомпонентных химических соединений;

3Под совокупностью химических соединений здесь и далее мы понимаем одно или более веществ, одновременно вводимых одной и той же особи, быть может, в разных дозах. При наличии модели взаимодействий веществ друг с другом данную совокупность можно было бы назвать смесью.

4. Разработана подсистема отображения химических соединений в трехмерном пространстве^ используемая как интерфейс интеллектуальных ДСМ-систем с пользователем;

5. Проведены эксперименты, подтверждающие целесообразность применения ДСМ-метода для распознавания канцерогенности, токсичности и мутагенности химических соединений.

Следующее особенности работы определяют ее научную новизну:

1. Для обработки данных о химических веществах, традиционно осуществляемой статистическими {вычислительными) средствами, применены логические средства, образующие ДСМ-метод;

2. Разработана, и реализована ^"стандартная" программная оболочка для применения ДСМ-метода автоматического порождения гипотез в различных предметах областях. Оболочка поддерживает универсальное хранилище данных для сохранения результатов работы системы

3. Интеллектуальная система настроена на новую предметную область -прогнозирование антипродуктивных свойств (кацерогенность, токсичность, мутагенность) совокупностей ^химических соединений, при этом система может применяться и для предсказания свойств однокомпонентных соединений;

4. Разработана подсистема ЗБ-визуализации химических соединений для применение в интеллектуальных системах типа ДСМ, ранее использовавших 20-визуализацию.

Практическая значимость работы состоит в создании интеллектуальной партнерской системы для анализа и обработки экспериментальных данных, представляющих зависимости между совокупностью химических соединений с одной

2. ДС|У1-рассуждение

ДСМ-рассуждение[8, 9] осуществляет правдоподобный вывод, в результате которого появляется информация о наличии или отсутствии свойств у объектов на основании анализа прецедентов (объектов с заранее известными свойствами). Объекты должны ругеть определенную структуру и на них должны быть определены операции локального сходства, объединения, разности и отношение вложения. Структура объектов) должна содержать фрагменты, ответственные за наличие или отсутствие исследуемого свойства. Смысл операции "локального сходства" заключается в поиске общих частей объектов, имеющих одинаковые свойства, и в случае, когда наличие или отсутствие соответствующего свойства у нескольких разных объектов вызвано одной причиной, эта причина должна находится в полученной общей части. Интеллектуальная система ДСМ представляет собой интегрированную интерактивную систему, в которой посредством ДСМ-метода автоматического порождения гипотез осуществляется обработка знаний, представленных в БД с неполной информацией (БДНИ) и в базе знаний (БЗ)4 Для работы системы требуется набор объектов, про которые известно, что они обладают исследуемым свойством ((+) -объекты) и набор объектов, про которые известно, что они им не обладают ((-)-объекты). Задается также набор объектов, наличие свойства в которых требуется определить ((х)-объекты). В основе ДСМ-рассуждения лежит Процедура Порождения Гипотез (11111'), каждая итерация которой производит доопределения подмножества (х)-объектов. Представляемая система использует два метода поиска сходства.

4БЗ содержит декларативные(аксиомы предметной области) и процедурные(представления правил) знания [1]

2.1 Простой метод

Итак, мы имеем дело с тремя видами элементов. К элементам первого типа относятся объекты определенной природы. Элементы второго типа - фрагменты этих объектов. Предположим, что мы можем найти общую часть любого множества объектов. Полученный фрагмент не обязательно также будет объектом. Элементы третьего типа - это свойства объектов. Предположим, что X - объект, х - фрагмент, А -множество свойств объекта Определим два бинарных предиката =>5 и =>2; X =>г А означает, что объектXобладает всеми свойствами из А; х ~>2 А значит, что фрагмент х является причиной наличия свойств из А. В простейшем случае Л = {а}, тогда для краткости будем писать Х=>^а и х =>, а вместо X {а} и х=>2 {а} соответственно. Областью значений предикатов X =>г А, х=>2 А являются истинностные значения <ю-значной логики[2], имеющей шесть типов истинностных значений, которые подразделяются на внутренние(фактические) и внешние (логические). Внутренними типами истинностных значений являются: 1 - "фактическая истина" ; -1 - "фактическая ложь" ;

0 - "фактическое(эмпирическое) противоречие"; т- "неопределенность". Внешние типы истинностных значений: 1 - "истина" и/- "ложь".

Внутренние истинностные значения имеют вид V =< у, п > или V = (т, п), где V е {1,0,-1}- тип истинностного значения, а п - номер шага ттрименения, на котором атомарным формулам X =>, А, х=>2А, представляющим частично определенные отношения =>*,=>* [2] в БД с неполной информацией, приписывается у(Х, х, А -нидивидные константы; в начальном состоянии БД п - 0).

Внешние истинностные значения приписываются формулам вида J-(X А), истина, если и\(р} — у

-(х —^2 А) • ¿уф ~ 1- , и - функция оценки. лож:ь,еслии[<р] ^ у

Предположим, что все множества свойств объектов одноэлементны. Опираясь на данные выше определения, будем цисать:

Л^ а), если после и итераций 11111 мы все еще не знаем, является ли фрагмент х причиной наличия свойства а;

Гг1 п: (х =>2 а), если на шаге п мы выяснили, что х - причина а; х =>2 а), если на шаге п мы выяснили, что х - причина отсутствия а;

Тп (х =>2 а), если на шаге мы выяснили, что х может быть причиной, как наличия, так и отсутствия а,

ДСМ-правила первого рода формулируются следующим образом: •*(,.„)(* =^2 4 м;(х, а), -,м: (х, а) ' "-правило)

-"-правило)

0"-правило) т"-правило)

J(+1,»+1)(X=P 2 4 а\Мп(х,а),^М;1(х,а). г 4

J(r,»)(* =>2 4 -м; (х, 4 -М" (х, а)

J(r,„+l)(*=>2 4

Предикат М;(у, а) выполним, если (1) (2)

ХеХ

3) у*-0.

Иными словами, этот предикат истинен в том случае, если подобъект у является общей частью как минимум двух объектов, обладающих свойством а. Ми(у, а) определяется двойственно - он выполним, если X с а)(1 и:

1) |Х|>2;

2) п^;

ХеХ

3)

Будем писать;

1М(Х =>] а), если за п шагов 11111 мы определили, что X обладает свойством а, 1п)(Х —>, а), если за п шагов ППГ мы определили, что X не обладает свойством а; „)(Х =>, а), если после п шагов ППГ мы не знаем, обладаетXсвойством а или нет. Будем писать п)(Х =>г а), если мы определили, что X обладает свойством а точно на п-оы шаге ППГ. п}(Х =>л а) и п (Х =>, а) определяются аналогично. ДСМ-правила второго рода формулируются следующим образом: *(,.„)(*=>. 4 П +п{Х,а) "-правило)

-"-правило)

О"-правило) т"-правило)

3{+1,п«)(х =>1 а)

•гНв+1>(лг=>1а)'

1 а)

Предикат П +п{Х,а) выполним, если:

1) я)(у =>2 а) для какого-либо у X;

2) а) ни для какого г а X, т.е. в объект X входят только подобъекты, являющиеся общими частями объектов, обладающих свойством а)

П~ (X, а) определяется двойственным образом.

Предикат И°„(Х,а) выполним, если:

1) =>2 а) для какого-либо у<^Х;

2) и)(г =>2 а) для какого-либо г с X. т.е. в объект X входят как подобъекты, являющиеся общими частями объектов, обладающих свойством а, так и цодобъекты, являющиеся общими частями объектов, не обладающих свойством а)

2.2 Обобщенный метод

В основе обобщенного ДСМ-метода лежит более детальное, чем у простого, представление о причинных механизмах. Предполагается, что причинно-следственная связь характеризуется тройкой <С, В, Е>, где С - причина, Е - следствие, а В -«тормозу, т.е. обстоятельства, которые мешают наступлению Е в условиях С. Кроме того в условиях С при отсутствии обстоятельств из В Е обязательно наступит. Перейдем к более формальному описанию, в котором будем отталкиваться от определений простого метода.

Итак, вместо предиката г =>2 А введем предикат Т(х, В, А), который выполним, когда фрагмент х является причиной наличия свойств из А, при отсутствии тормозов из В. Если А-{а}, будем писать Т(х, В, а) . Предположим, что множество свойств одноэлементно, тогда ДСМ-правияа первого рода принимают вид:

3{тп){Т{х,В,а)\ м;(х, В, 4 УВ^М" (х, В|,а) "-правило)

-"-правило)

0"-правило-1)

0"-правшо-2) т"-правило)

В,а)} ш;(х, В,а), УВ^М^х, Виа)

1(г> и) (Г(х, В, а)\ м; (х, В, а), ЭВ.М; (х, В, ,а) 1{0пИ)(Г(х,В,а))

3{г п){Т{х, В,а)), Ш+п(х, В ,а\ ЭВ1МИ (х, В „в) .ГМ)(7Хх, В,а)\ -пм;(х, В,а), пМ„(х, В,а)

Пусть X с и Б" = (/> 1350,.,5 е (а), о ^ = £ з .у}, тогда предикат а) к=О выполним, если:

1) |Х|>2;

2) у=Г\Х;

ХеХ

2) у*0;

3) В ~ тт(В ) ( т/п(Х) - выделяет из множества X все объекты минимальные в с с смысле вложения с).

Таким образом, предикат истинен, если подобъект у является общей частью как минимум двух (+)-объектов и множество В состоит из минимальных по вложению подобъектов, содержащих у и являющихся общей частью как минимум двух (-)-объектов. Двойственно определяется а) - пусть /с5„ (а) и к=0

В = {b\Зs0,.,sJ е. (а), г\ як = ¿> з у), тогда предикат выполним, если:

1) |Х|>2;

2) у=Г\Х;

3) у*0;

4) В=тт(В) с а) и (а) определяются так же, как в простом методе. ДСМ-правила второго рода: 4П +я(Х,а)ш "-правило)

-"-правило)

О"-правило) г"-правило)

4 П°и(Х,а)

Предикат П \п (X, а) выполним, если:

1) 3у а X такой, что В, а)) и для \/Ье В верно, что Ъ с2 X;

2) \/г с X такого, что а), верно, что 3Ъ' е 5'такое, что Ъ' а X т.е. объект X содержит подобъекты, являющиеся общими частями (+)-объектов и не содержит их «тормозов». Если X содержит подобъект, являющийся общей частью (-)-объектов, то он содержит и один из его «тормозов»), П~ (X, а) определяется двойственным образом. Предикат И'^Х.а) выполним, если:

1) 3усХ такой, что 3(+1п)(Т(у, В,а)) и для УЬ е В верно, что Ь&Х;

2) Зг с Xтакой, что В',а)) и для УЬ' е В' верно, что Ь' <£ X. т.е. объект X содержит как подобъекты, являющиеся общими частями (+)-объектов, так и подобъекты, являющиеся общими частями (-)-объектов, и не содержит их «тормозов»).

2.3 ДС]у1-прогноз

Выше мы рассмотрели работу простого и обобщенного методов поиска сходства в случае одноэлементного множества свойств. Многоэлементный случай подробно рассматривается в работах [16, 17, 18, 19]. Независимо от выбранного метода работа ДС|У!-системы будет выглядеть следующим образом (рис;. 1):

Рис. 1

Сначала, используя правила первого рода, формируется список фрагментов, ответственных за наличие исследуемого свойства ((+)-гипотезы) и за его отсутствие ((-)-гипотезы). В процессе могут использоваться различные критерии, сужающие множество получаемых гипотез. В частности, при использовании простого метода может б*>п> запрещено порождение (+)-гипотез, входящих в (-)-объекты, и (-)-гипотез, входящих в (+)-объекты (запрет на контрпример).

Затем, используя правила второго рода, осуществляется правдоподобный логический вывод, реализующий доопределение t-объектов на основании (+)- и (-)-гипотез, порожденных на первом этапе. В ходе доопределения некоторые объекты могут доопределяться как (+)-, так и (-)-гипотезами, т.е. они содержат фактическое противоречие. Такие объекты называются 0-объекты. В случае, если остались недоопределенные объекты, процесс может повторяться до стабилизации исходной выборки.

В конце на основании полученных гипотез система пробует объяснить начальное состояние «сходной выборки с возможным ее расширением, проверяя тем самым корректность своей работы.

Заключение диссертация на тему "Система процедур ДСМ-метода автоматического порождения гипотез и ее реализации"

Основные результаты работы изложены в следующих публикациях:

1. Путрин A.B., Панкратова КС. Программная реализация интеллектуальных систем типа ДСМ для распознавания химической канцерогенности. // НТИ. Сер.2 1997. №3 С. 8-11.

2. Дьячков П.Н., Маневич С.И., Путрин A.B., Финн В.К Построение комбинированного варианта системы правдоподобных рассуждений типа ДОМ, учитывающей комбинаторные свойства молекул. // Сер.2 1997. №3 С. 12-17

3. Путрир A.B. Описание программной реализации ДСМ-систем для прогнозирования химической канцерогенности. // НТИ. Сер.2 1999. №12 С. 34-39.

4. Русакова С.М., Панкратова Е.С., Путрин A.B. Интеллектуальная система типа ДСМ для прогнозирования антипродуктивных свойств химических веществ. // VI Национальная конференция с у международным участием «Искусственный интеллект-98», том-2, С. 153-155

5. Путрин A.B. О реализации трехмерной визуализации в рамках ДСМ-системы прогнозирования свойств химических соединений // VI Международная конференция «Интеграция. Информационные технологии. Телекоммуникации», Москва, 1999, том-1, С. 24-25

6. Заключение

В настоящее время накоплено большое количество экспериментальных данных по воздействию химических веществ на "человека и животных. Сведения об экспериментах обобщены в ряде справочников и специализированных баз данных. Использование в этой области интеллектуальных систем- (ИНТС) обусловлено длительностью (около трех лет) и высокой стоимостью экспериментов на лабораторных животных:. Интеллектуальные системы способны, используя экспериментальные данные, осуществлять прогнозирование канцерогенности, мутагенности и токсичности химических соединений. Такой прогноз может быть реализован посредством ИНТС, основанных на ДСМ-методе автоматического порождения гипотез. В данной работе автор модифицировал процедур ДСМ-метода для исследований антипродуктивных свойств (канцерогенности, мутагенности и токсичности) многокомпонентных химических соединений и реализовал эти процедуры в виде программной системы. Особенностью предлагаемой модели является возможность ее применения также и для - прогноза свойств однокомпонентных соединений, что значительно расширяет область применения ИС. Т^сцм образом основными результатами работы являются:

1. Разработана и реализована "стандартная" программная оболочка для применения ДСМ-метода^автоматического порождения гипотез в таких областях, как химия и социология. Система использует унифицированный механизм хранения данных, что позволяет настраивать ее почти на любую из существующих на сегодняшний день СУБД (Oracle, MS Access и т.д.).

2. Задача прогнозирования антипродуктивных свойств многокомпонентных химических соединений сведена к классу задач решаемых ДСМ-методом.

3. Произведена модификация "стандартной" программной оболочки для проведения экспериментов по прогнозированию антипродуктивных свойств многокомпонентных и однокомпонентных химических соединений.

4. Разработана подсистема отображения химических соединений в трехмерном пространстве

5. Проведены эксперименты, подтверждающие целесообразность применения ДСМ-метода для прогнозирования канцерогенности, токсичности и мутагенности химических соединений.

Библиография Путрин, Андрей Валерьевич, диссертация по теме Теоретические основы информатики

1. Gottinger H. W. HAZARD: An expert system for screening environments chemicals or carcinogenicity // Expert Syst. 1984. Vol. 1, N 2., c. 169-176

2. Lewis D.F., Joannides C., Parke D. V. A prospective toxicity evaluation (COMPACT) on 40 chemicals currently being tested by the National Toxicology Program // Mutagenesis. -1990. Vol. 5 - P. 433-435

3. Lewis D.F., Langley G.R A validation study of the COMPACT and HazardExpert technique with 40 chemicals, MutatTles 1996; 369(3-4): 157-74.

4. Enslein K., Gompar V.K., Blake B. W. Use of SAR in computer-assisted prediction of carcinogenicity and mutagenicity of chemicals by the TOPKAT program // Mutation Research. -1994

5. Klopman G., Rosenkranz H.S. Approaches to SAR in carcinogenesis and mutagenisis. Prediction of carcinogenicity and mutagenicity using MULTI-CASE. Mutation Research, 305, 1994, 33-61

6. Gini G.C., Katritzky A.R. Predictive Toxicology of Chemicals: Experiences and Impact of AI Tools, Papers from the 1999 AAAI Spring Symposium Technical Report SS-99-01, 152, 1999, 135-138

7. Миллъ Дж. С. Система логики силлогистической и индуктивной,- М.: Книжное дело, 19Q0-781 с.

8. Финн В.К. Правдоподобные выводы и правдоподобные рассуждения // Итоги науки ¡^ техники. Сер. Теория вероятностей. Математическая статистика. Теоретическая кибернетика. Т. 28. -М.: ВИНИТИ, 1988. с. 3-84

9. Фщш В.К, Правдоподобные рассуждения в интеллектуальных системах типа ДСМ// Итоги науки и техники. Сер. Информатика. Т. 15 -М.: ВИНИТИ, 1991,- с. 54-114.

10. Хазтювекгт К.П. Программные системы для баз знаний с неполной информацией, Диссертация защищена в ВИНИТИ, специальность 05.13.17, 1990

11. Х^ановскиц К.П., Финн В.К. Некоторые вопросы программного обеспечения для экспертных систем на основе ДСМ-метода автоматического порождения гипотез // НТИ. Сф. 2,- 1988,- № 1,- С. 12-16

12. Хазановский КП., Финн В.К. Некоторые аспекты построения инструментальных средств дда экспертных систем типа ДСМ // Семиотические аспекты формализации интеллектуальной деятельности: Тез. докл. школы-семинара, Боржоми, 1988 г. М., 1988,- С. ^59-163

13. Лейбов А.Е. Алгоритмические и программные средства поддержки преобразования данных для химически ориентированных систем типа ДСМ, Диссертация защищена в ВИНИТИ, специальность 05.13.17, 1995

14. Мельников ИМ. О новой версии СУБД для систем, основанных на знаниях//Итоги науки и техники.Сер. Информатика.-М.:ВИНИТИ, 1991.-Т.15.-С. 159169.

15. Панкратова Е.С. Разработка представлений данных, знаний и алгоритмических средств прогнозирования канцерогенности химических веществ, Диссертация защищена в ВИНИТИ, специальность 05.13.17, 1997

16. Финн В.К. Об обобщенном методе автоматического порождения гипотез // Семиотика и информатика 1989,- Вып. 29,- С. 93-123

17. Финн В.К. О машинно-ориентированной формализации правдоподобных рассуждений в стиле Ф. Бэкона Д. С. Милля // Семиотика и информатика,- 1983,-Вып. 20.пС. 35-101

18. Забежайло М.И. О способе восстановления одного класса эмпирических зависимостей в ДСМ-методе // Семиотические аспекты формализации интеллектуальной деятельности: Тез. докл. Школы семинара, г. Кутаиси, 1985 г.- М.: ВИНИТИ, 19&5-С. 136-140

19. Кузнецов С.О. Введение в ДСМ-метод // Семиотика и информатика.- 1990.-Вып. 31.-С. 5-40

20. Авидон В.В. Критерии сравнения химических структур и принципы построения информационного языка для информационно-логической системы по биологически активным соединениям. Химико-фармац. Журн., 1974, №8, С. 22-25

21. Avians E.J.,Simons А.-М. Design, of bioactive compounds. In: Topics in current chemistry (Berlin), 1974, vol 52, p. 1-61

22. Розенблат Ф.Б., Голендер B.E. Логико-комбинаторные методы в конструировании лекарств. -Рига: ЗИНАТНЕ, 1983. С. 20-23

23. Панкратова Е. С. Разработка представлений данных, знаний и алгоритмических средств црогнозирования каяцерогенности химических веществ, Диссертация защищена в ВИНИТИ, специальность 05.13.17, 1997

24. A/cos J.C., Woo J.-Т., Lai D.J. Database of Binary combination Effects of Chemical Carcinogens // Environ. Carcino Reviews. Part C. J.Environ. Sci.Hlth. 1989. - Vol. C6, №1. - 164.

25. Arcos J.C.,Woo J.-Т., Polansky G. Ranking of complex Chemical Mixtures for Potential Cancer HAZARD: Structure of Computerised System-An Outline /7 Environ. Sci. Hlth.-1989.- Vol.С7,N7.p129-144.

26. Ррджерсон Д. Основы€GM -Microsoft Press, 1997, 376 C.

27. ФаулерМ., Скотт К. UML в кратком изложении -М: Мир, 1999. 192 С.

28. Буч Г. Объектно-ориентированный -анализ и проектирование с примерами приложений на С++, -М, Бином, 1998, 558 С.