автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка средств представления знаний и архитектуры интеллектуальной системы для прогнозирования путей биотрансформации

кандидата технических наук
Фабрикантова, Елена Федоровна
город
Москва
год
2002
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка средств представления знаний и архитектуры интеллектуальной системы для прогнозирования путей биотрансформации»

Оглавление автор диссертации — кандидата технических наук Фабрикантова, Елена Федоровна

ВВЕДЕНИЕ.

ГЛАВА I. Применение ДСМ-рассуждений для интеллектуального анализа данных и автоматического порождения гипотез о стратегиях и путях биотрансформации веществ и их прогнозирования.

1. ДСМ-метод автоматического порождения гипотез.

1.1. ДСМ-рассуждения как средство интеллектуального анализа данных.

1.2. Представление данных и знаний в виде открытой эмпирической теории для применения ДСМ-рассуждений.

2. Открытая эмпирическая теория биотрансформации.

ГЛАВА II. Реализация представления открытой эмпирической теории и архитектура интеллектуальной системы типа ДСМ для прогнозирования стратегий и путей биотрансформации

1. О возможностях реализации представления открытой эмпирической теории в интеллектуальной системе типа ДСМ.

2. Архитектура интеллектуальной системы типа ДСМ для прогнозирования путей и стратегий биотрансформации.

ГЛАВА III. Экспериментальное подтверждение предложенного подхода к решению задач прогнозирования стратегий и путей биотрансформации: компьютерные эксперименты.

1. Интеллектуальный анализ данных и порождение необходимых и достаточных условий прохождения биотрансформационных преобразований.

2. Интеллектуальный анализ данных и порождение гипотез об образовании реакционно-способных метаболитов в процессе биотрансформации: связь с канцерогенностью химических веществ.

Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Фабрикантова, Елена Федоровна

Применение ДСМ-метода автоматического порождения гипотез для решения различных естественнонаучных задач имеет уже многолетнюю историю (о ДСМ-методе см., например, [1]). Основные результаты были получены при решении задач фармакологии и медицины - изучение зависимости "структура химического соединения -биологическая активность" (английское название задачи - Qualitative Structure-Activity Relationship, QSAR) [2], установления канцероген-ности [3] и токсичности [4] химических соединений.

Для решения каждой из этих задач в качестве средства интеллектуального анализа данных (ИАД) использовались правдоподобные рассуждения типа ДСМ [1,5], и была создана отдельная версия интеллектуальной системы. Интеллектуальной системой (ИнтС), следуя [6], будем называть человеко-машинную систему, предназначенную для решения задач, таких, что без использования компьютера это решение либо невозможно, либо возможно с очень большими временными и другими затратами.

Однако решение задач фармакологии и медицины, в основе которых лежит исследование воздействия вещества на организм, не может считаться завершенным без учета влияния организма на вводимые в него вещества [7]. Особенно важен учет влияния организма при исследовании антипродуктивных свойств (канцероген-ность, мутагенность, токсичность) веществ, так как зачастую именно под влиянием организма (в процессе биотрансформации) вводимые в него нейтральные вещества приобретают эти свойства (непрямые канцерогены, непрямые мутагены) [8].

Настоящая работа посвящена разработке проблемно-ориентированных средств представления данных и знаний, а также архитектуры интеллектуальной системы, основанной на ДСМ-рассуждениях, для новой предметной области - биотрансформации веществ в живом организме.

Процесс биотрансформации является составной частью одного из основных защитных механизмов организма - явления метаболизма.

Живой организм нормально функционирует лишь в условиях химического равновесия внутри него, то есть в некоторых интервалах концентраций эндогенных (образующихся внутри организма - гормоны, витамины и т.д.) и экзогенных (поступающих в живой организм извне) веществ. При приеме лекарств, использовании косметики, вдыхании загрязненного воздуха, стрессе, различных заболеваниях химическое равновесие в организме нарушается. Метаболизм1 и иммунитет являются основными защитными механизмами поддержания химического равновесия внутри организма и объединены в единую систему химического гомеостаза [7]. Метаболизм - это сложное и многостадийное внутриклеточное явление. Его образуют всасывание, биотрансформация, растворение и выведение веществ.

В процессе биотрансформации начальное экзогенное (ксенобиотик) или эндогенное вещество взаимодействует с ферментами (энзимами) и преобразуется в ряд других веществ, называемых метаболитами. На рис. 1 приведена метаболическая (биотрансформационная) сеть (МС) нитразепама- психотропного лекарственного вещества из ряда бенздиазепинов [9].

Раздел биохимии, исследующий процесс биотрансформации, является в основном экспериментальной наукой со слабо формализованными знаниями [7, 9-22]. Поэтому и до настоящего времени ос

1 В данной работе рассматривается метаболизм химических соединений, не участвующих в обмене веществ организма. новным средством прогноза путей биотрансформации веществ является эксперимент.

Известно, что реакции биотрансформации представляют собой реакции следующих типов: в первой фазе процесса биотрансформации - функционализации - происходят реакции окисления, восстановления и гидролиза, во второй фазе - реакции конъюгации и деконъюгации [7] (см. табл. 1).

Однако представление этих реакций для решения задачи прогнозирования путей биотрансформации должно отражать взаимодействие вещества с ферментом. Значительный шаг в направлении повышения формализации представления биохимических реакций, как взаимодействий веществ с ферментами, был сделан в экспертных системах (ЭС) 1-го поколения - XENO [17], METABOLEXPERT [18, 19] и особенно в системе МЕТА [20-22].

Базы знаний (БЗ) этих систем содержат список биотрансформационных реакционных преобразований - продукционные правила вида: "РЦ, —> РЦ/" (i=l,.,s), где РЦ- реакционный центр, атакуемый ферментом, чаще всего это функциональная группа, РЦ/ - фрагн н

Рис. 1. Метаболическая сеть нитразеп am а

Таблица 1.

I. Функционализация

А. Окисление Б. Восстановление

1. Эпоксидирование и гидроксилиро-вание алифатических или ароматических углеводородов 1. Азовосстановление 2. Нитровосстановление 3. Восстановление ареноксидов 4. Восстановление хинонов

2. N-, S- и О-дезалкилирование В. Гидролиз

3. N-окисление и N-гидроксилирование аминов 4. S-окисление 5. Окислительное дезаминирование 1. Гидролиз сложных эфиров 2. Гидролиз амидов 3. Гидролиз пептидов 4. Гидролиз эпоксидов 5. Гидролиз Сахаров

6. Дегалоидирование

7. Дезалкилирование связи С-Ме

8. Десульфирование 9.Алкоголь- и альдегиддегидрирование 10. Окисление пуринов 11. Окисление тирозина 12. Ароматизация

II. Конъюгация

1. Глюкуронирование 2. Образование сульфатов 3. Образование эфиров глутатиона 4. Ацетилирование 5. S-, О- и N-метилирование 6. Образование рибонуклеозидов и рибонуклеотидов 7. Конъюгация с сахарами

III. Деконъюгация

1. Отщепление глюкуронидов 2. Отщепление гликозидов 3. Дезацетилирование мент - продукт (преобразованный РЦ). Каждое такое преобразование описывает результат воздействия конкретного фермента на РЦ.

В системе МЕТА словарь биотрансформационных преобразований для организма человека содержит около 800 продукций, разделенных на 34 основных типа: 22 типа реакций функционализации (окисление, гидроксилирование и т.п.) и 12 типов реакций второй фазы (конъюгация, метилирование и т.п.). Эти правила сформулированы экспертами на основе анализа обширного экспериментального материала. Примеры МЕТА-биотрансформаций приведены в табл. 2 и 3.

Список биотрансформационных преобразований определяется видом организма, поскольку именно вид организма (человек, крыса, кролик, бактерия и т.д.) определяет набор ферментов, присутствующих в ферментной системе организма. Во всех ЭС и в предлагаемой в данной работе ИнтС-ДСМ рассматривается постановка задачи, в которой учитывается лишь отражение взаимодействия вещества с ферментом и с ферментной системой в целом в структурной формуле вещества, и не учитываются структуры ферментов и ферментной системы. Поэтому прогнозирование путей биотрансформации осуществляется лишь для некоторого вида организма. При этом не рассматриваются, например, индивидуальные особенности конкретного организма, которые определяются измененными структурами ферментов и ферментной системы. Не рассматриваются и факторы, определяющие эти изменения, например, влияние среды.

Однако сравнение генерируемых экспертными системами I -го поколения метаболических сетей с реально наблюдаемыми в экспериментах показывает, что компьютерные МС содержат много шума -"лишних" метаболитов, не порождающихся в реально протекающих процессах биотрансформации в организме. Причиной такого расхождения является то, что наличие РЦ в структурной формуле вещества, является лишь необходимым условием протекания реакции биотрансформации, задает только потенциальную возможность для этого.

Таблица 2.

Тип реакции Пример МЕТА-трансформации (I фаза) Пример фермента

Ароматическое гидрокси-лирование сн=сн-с=сн-<он> P-450

Алифатическое гидрокси-лирование СНЗ-СН2-СНЗ-СН-<2-ОН> P-450

Эпоксидирование сн=сн- СН-СН-<1-0-2> P-450

N - окисление CH2-N-CH3-<2-C-> CH2-N0-CH3-<2-C-> P-450 и флавин-монооксигеназа

N - гидроксилирование NH2-C0-NH-CO-<l-OH> P-450

О - деалкилирование СН"-0-СН2-СН"-0-СН-<3-0Н> P-450

S - деалкилирование CH"-S-CH3 CH"-S-CH2<3-OH> P-450 и флавин- монооксигеназа

N - деалкилирование CH3-N-CH3 CH3-N-CH2<3-OH> P-450

Деаминация NH2-CH-NH=C- Моноаминоксидаза

Сульфоксидирование S-S-SO-S- Флавинмонооксигеназа

Десульфуризация CH2-0-P=S<2-0-> CH2-0-P=0<2-0-> P-450

Окислительная дегалоги-зация X-C-X x-c=o P-450

В-окисление СН2-СН2-СО-ОН CO CH3-CO-OH<l-OH> Митохондриальное [5-окисление

Гидролиз эфиров C0-0-CH2-CO-OH CH2-<3-OH> Эстеразы

Гидролиз амидов NH-CO- NH2 CO-<2-OH> Амидазы

Гидролиз эпоксидов СН-Ол-СН CH-OH CH-<3-OH> Эпоксидгидротазы

Окисление спиртов OH-CH2- о=сн- Алкогольдегидрогеназы

Окисление альдегидов CH3-COH CH3-CO <2-OH> Альдегидоксидазы

Окисление пуринов N=CH-NH-N =C-NH-<2-OH> Ксантиноксидазы

Восстановление карбонила COH-C-CH2-C-<l-OH> Карбонилредуктазы

Азовосстановление C=C-N=N-C= C=C-NH2 NH2-C= Флавинредуктазы

Нитроредукция N02-C= Флавинредуктазы

NO-C=

Таблица 3.

Тип реакции Пример МЕТА-трансформации (II фаза) Пример фермента

N-глюкоронид-конъюгация NH2-C= NH-C=<1-Z4> N-глюкоронил-трансфераза

О-глюкоронид-конъюгация ОН-С= 0-C=<l-Z4> О-глюкоронил-трансфераза

О-сульфат-конъюгация ОН-С= 0-С=<1 -S02-0H> Фенол- сульфотрансфераза

N-сульфат-конъюгация NH2-C= NH-C=<1-S02-0H> Ариламин-сульфотрансфераза

N-ацетилирование NH2-N- NH-NH-< 1 -CO-CH3> N-ацилтрансфераза

N, 0-трансацетилирование OH-NH-CH-0-NH-CH-<l-C0-CH3> N-,0- ацилтрансфераза

Глютамин-конъюгация OH-CO-C= NH-CO-C-<l-Z2> Глютамил-трансфераза

Глицин-конъюгация OH-CO-C= NH-CO-C=< 1-CH2-CO-OH> Глицилтрансфераза

-метилирование NH2-CH2-NH=CH2-< 1 -CH3> Фенетиламин N-метил

О-метилирование C"-OH-C"0<2-CH3>- СОМТ

S-метилирование SH-C=CH-S-C=CH-<1-CH3> S-метилтрансфераза

Глютатион-конъюгация СН-Ол-СН-CH-Z3 CH-<3-OH> Глютатион S-трансфераза

Обозначения в табл. 2 и 3: Л - атом в трехчленном кольце,"- sp2-Kap6oH, X - галоген, Z2 - глютамин, Z-глютатион, Z4 - глюкуроновая кислота.

Реально многие РЦ, из присутствующих в структурной формуле, остаются невостребованными соответствующими им ферментами, некоторых потенциально возможных взаимодействий вещества с ферментами не происходит. Это объясняется действием многих факторов: распределением электронных плотностей внутри молекулы вещества, пространственным строением молекулы и т.д., вещество может быть ингибитором фермента, его активатором - важно одно: во всех этих случаях биотрансформационное преобразование не происходит.

ЭС 1-го поколения генерируют для химического соединения все возможные реакционные преобразования (каждый реакционный центр, входящий в его структурную формулу, заменяется правой частью соответствующего этому РЦ реакционного преобразования).

Определение того, какие преобразования реально происходят при биотрансформации вещества, составляет основную проблему при решении задачи прогноза путей биотрансформации. В системе МЕТА эта проблема решается после генерации избыточной МС путем отсечения "лишних" метаболитов с помощью вычислительных процедур, реализующих методы квантовой химии и генетические алгоритмы [20-22], а затем дополнительной обработкой результатов компьютерного прогноза экспертами на интуитивном уровне.

В данной работе эта проблема решается за счет использования необходимых и достаточных условий прохождения биотрансформационных реакций. Необходимое условие прохождения реакционного преобразования - это наличие в структурной формуле вещества соответствующего РЦ. Достаточное условие- некоторое окружение РЦ, фрагмент (фрагменты) структурной формулы вещества, отвечающие за взаимодействие вещества с ферментом, структурный контекст РЦ. Необходимые и достаточные условия и определяют для каждого конкретного вещества (на основании его структурной формулы), какие преобразования для него реально осуществимы, - из списка всех возможных для данного вида организма реакционных преобразований выделяется подмножество реально происходящих преобразований. При таком подходе порождение "лишних" метаболитов минимизируется.

Задача создания списка биотрансформационных преобразований, задача представления знаний о биохимических реакциях, которая решена экспертами в каждой из ЭС, - это, по сути, более детальная классификация химических реакций. И экспериментально, и теоретически эта задача достаточно проработана. Проблема же анализа многофакторного влияния на возможность взаимодействия объектов-вещества и фермента - и порождения достаточных условий их взаимодействия не столь изучена и требует обработки обширного экспериментального материала, требует рассуждений, умственных экспериментов, поиска сходства, различия, учета отрицательной информации [23]. Решение такой задачи представляет собой огромную сложность для эксперта [24, 25].

Генерация обобщений такого уровня в настоящее время производится с помощью средств интеллектуального анализа данных [26-33]. В данной работе в качестве средства интеллектуального анализа данных для порождения знаний о достаточных условиях протекания биотрансформационных преобразований используются правдоподобные рассуждения типа ДСМ [1, 5].

Все, что было сказано выше о процессе биотрансформации, относится, естественно, к биотрансформирующимся веществам, т.е. попавшим в ферментную систему организма. Существуют вещества, которые не биотрансформируются. Сильно гидрофильные вещества растворяются и выводятся из организма без участия ферментной системы, они не успевают в нее попасть. Сильно гидрофобные не могут проникнуть в нее сквозь клеточные мембраны. Кроме того, характер процесса биотрансформации, т.е. какие РЦ подвергаются атаке ферментами (а, следовательно, какие реакции присутствуют в метаболи

Кроме сильно гидрофильных и сильно гидрофобных веществ не биотрансформируются также изначально агрессивные вещества, способные к ковалентной связи, например, прямые канцерогены и мутагены. ческой сети вещества), также определяется гидрофильностью/гидро-фобностью начального вещества. При биотрансформации гидрофильных соединений происходит монотонное повышение водорас-творимости начального вещества и его метаболитов. Биотрансформация гидрофобных веществ, подготовка их к выведению заслуживает особенного внимания. При биотрансформации таких веществ реализуются биотрансформационные реакции, в результате которых порождаются реакционно-способные метаболиты (например, такой реакцией является реакция эпоксидирования). Реакционно-способные метаболиты способны к сильному, ковалентному взаимодействию с различными структурами организма. Образование реакционно-способных метаболитов при биотрансформации химических веществ и их побочное ковалентное связывание с молекулами и клетками организма является основной причиной канцерогенеза, мутагенеза, токсического эффекта, аллергии и других заболеваний [7]. Характер процесса биотрансформации будем называть "стратегией".

Задача прогнозирования стратегии биотрансформации еще до генерации МС, на основе только структурной формулы начального вещества, либо совсем не ставится в существующих ЭС, предназначенных для прогноза путей биотрансформации, либо решается с помощью вычислительных методов. Между тем, такой прогноз является чрезвычайно важным, поскольку он позволяет провести предварительную кластеризацию, скрининг веществ и выделить вещества, которые в процессе биотрансформации могут породить реакционно-способные метаболиты. Использование только вычислительных методов не дает информации о причинах того или иного эффекта, а, следовательно, может мало помочь исследователю, стремящемуся, например, модифицировать структурную формулу вещества с целью изменения стратегии его биотрансформации. С помощью же ДСМ-рассуждений порождаются фрагменты структурных формул веществ, являющиеся причинами порождения реакционно-способных метаболитов в процессе биотрансформации. Особо подчеркнем, что предлагаемый подход позволяет прогнозировать потенциальную возможность антипродуктивного действия (канцерогенность, мутагенность, токсичность) для каждого конкретного химического вещества. В настоящее время все химические соединения, относящиеся, например, к классам полициклических ароматических углеводородов (ПАУ) и нитрозоаминов, считаются потенциально опасными (непрямыми канцерогенами), хотя и среди них есть соединения, не порождающие реакционно-способных метаболитов в процессе биотрансформации. Подчеркнем, что порождение реакционно-способного метаболита в процессе биотрансформации является необходимым условием для наличия у вещества свойства канцерогенно-сти, а, следовательно, если он не порождается, то свойство канцеро-генности у вещества отсутствует (вне зависимости, например, от его дозы и способа введения.) [7, 8]. Однако если такие метаболиты порождаются при биотрансформации косметических веществ, добавок к пище, то, по-видимому, лучше их не производить. Справедливости ради скажем, что реакционно-способные метаболиты могут образовываться не только при биотрансформации экзогенных химических веществ (ксенобиотиков), но и при биотрансформации природных, и даже эндогенных веществ. Присутствие в организме реакционно-способных веществ является лишь необходимым условием возникновения опухоли, токсического эффекта и т.д. Оно должно сопровождаться еще соответствующей концентрацией реакционно-способного метаболита эндогенного вещества, временем его воздействия, или, как было сказано выше, дозой и способом введения экзогенного вещества. В нормальных условиях организм справляется с такими последствиями, например, путем репарации (вырезания) поврежденных реакционно-способными метаболитами участков ДНК [34].

Средствами интеллектуального анализа данных, используемыми для решения задач прогнозирования путей и стратегий биотрансформации, являются ДСМ-рассуждения.

Данные и знания, к которым применимы ДСМ-рассуждения, характеризуются рядом особенностей.

1. Знания о предметной области слабо формализованы, однако данные хорошо структурированы (т.е. операция сходства рассматриваемых объектов должна быть алгебраической [35]).

2. Требование (+/-)-квазисимметричности изучаемого мира: в анализируемых данных должны быть представлены как позитивные (+), так и негативные (-) примеры изучаемого явления (отношения "объект обладает множеством свойств"), а также примеры неопределенности такого отношения ((т)-примеры).

3. В анализируемых данных в неявном виде должны содержаться эмпирические зависимости причинно-следственного типа ((+/-)-причины, т.е. примеры отношения "подобъект есть причина наличия (отсутствия) множества свойств").

Для применения ДСМ-рассуждений как средства ИАД при решении задач в открытой (т.е. пополняемой во времени новыми сведениями) предметной области необходимо специальное представление знаний об этой предметной области ("квазиаксиоматическая теория" - КАТ, [1]). КАТ состоит из множества аксиом, лишь частично характеризующих предметную область, открытых множеств гипотез и фактов (факты считают знаниями нулевого уровня) и множества правил вывода, как достоверного, так и правдоподобного.

ДСМ-рассуждения и КАТ образуют ДСМ-метод автоматического порождения гипотез [1].

Основанием для использования ДСМ-рассуждений при решении задач фармакологии, медицины и биохимии можно считать следующее. Биохимические исследования показывают [7, 36, 37], что биологическую функцию молекулы химического вещества, взаимодействующего с рецепторами, клетками, ферментами организма непосредственно определяет не ее структура как таковая, а какая-то совокупность свойств (обозначаемая термином "сигнатура") активного участка молекулы - носителя сигнатуры. Носитель сигнатуры можно определить как атомные группы или, точнее, участки электронного облака молекулы с характерной для них стереоэлектронной структурой (формой, плотностью, распределением зарядов и т.д.). А сигнатуру- как свойства этих участков (например, пространственная форма, объемность, гидрофобность, гидрофильность, полярность, поляризуемость, способность образования водородных связей, перенос заряда и т.п.). Именно они и обусловливают рассматриваемую функцию. Так как сигнатура соединения определяется структурой второй компоненты взаимодействия, то легко понять, что в различных ситуациях в зависимости от структуры этой второй действующей молекулы или системы молекул могут приобрести значение те или иные свойства отдельных участков молекулы химического вещества. В [7, 36, 37] подчеркивается, что свойство молекул относительно и не проявляется вне отношений с другими свойствами и объектом. Каждая молекула имеет бесконечное число свойств, которые проявляются и определяются только в процессе взаимодействия с другими молекулами как результат внутри- и межмолекулярных взашИвде^мавжея? зюлююяндавжспрсраднме одно и то же вещество характеризуется такими свойствами, которые создает в каждом отдельном случае живая система, одно и то же соединение может иметь столько "лиц", сколько имеется разных систем, реагирующих с ним.

При прогнозировании биологических активностей химических соединений с помощью ДСМ-рассуждений из данных извлекаются зависимости между биологическими активностями и "фармакофора-ми" - определенными фрагментами химической структуры, являющимися носителями (источниками) наличия или отсутствия биологической активности. Эти зависимости затем используются для прогноза наличия или отсутствия биологических активностей у объектов. Для представления данных при решении этой задачи использовался проблемно-ориентированный язык "фрагментарный код суперпозиции подструктур" (ФКСП) [38]. С помощью этого языка представляется не просто структура химического соединения - в ней отображается взаимодействие химического соединения с рецепторами клеток живого организма.

Прогнозирование химической канцерогенности веществ основано на извлечении гипотез из данных, представленных в виде кортежей <ФКСП - код структурной формулы вещества, суммарная доза, способ введения, вид животного> [3].

Общей частью ИнтС-ДСМ, созданных для решения задач из различных предметных областей, является универсальный блок, названный Решателем и реализующий ДСМ-рассуждения в качестве средства ИАД с целью автоматического извлечения из них причинно-следственных зависимостей [1, 39]. На рис. 2 представлена схема основных компонентов и их взаимодействия в ИнтС-ДСМ для прогнозирования биологических активностей и канцерогенности.

Задача прогнозирования стратегии процесса биотрансформации химических соединений решается сведением ее к задаче "структура -биологическая активность" [2]. Объектом в представлении данных обеих этих задач является структурная формула химического соединения, заданная на языке ФКСП, т.е. множество фрагментов структурной формулы, свойство - это наличие или отсутствие реакционно-способного метаболита в процессе биотрансформации. В результате интеллектуального анализа данных - применения ДСМ-рассуждений - автоматически порождаются фрагменты-причины, определяющие гидрофильность/гидрофобность химического соединения и, тем самым, ответственные за возникновение или отсутствие реакционно-способного метаболита.

Язык представления данных

РЕШАТЕЛЬ

Рассуждатель

Вычислитель

Синтезатор

Блок обоснования

Интерфейс

Гипотезы о причинах Доопределения неизвестных свойств

Редактор или кодировщик

БД

БЗ

ИС

Аксиомы предметной области

Рис. 2. Схема ИнтС-ДСМ

Для решения задачи прогнозирования путей биотрансформации с помощью ДСМ-метода автоматического порождения гипотез потребовалось, во-первых, расширение языка представления данных задачи "структура - биологическая активность", и, во-вторых, расширение средств представления знаний. В представлении химических соединений выделяются реакционные центры (необходимые условия биотрансформации). Посредством машинного обучения на позитивных и негативных примерах из специально созданной базы данных базы фактов, исходных знаний) с помощью ДСМ-рассуждений порождаются гипотезы о достаточных условиях взаимодействия вещества и фермента, выделяющие окрестности (структурные контексты) реакционных центров. Положительные гипотезы при этом представляют собой структурные контексты РЦ, отвечающие за то, что фермент воспринимает данное вещество как субстрат (а не как нейтральное вещество, ингибитор или активатор).

Для представления данных и знаний при решении задач прогнозирования путей и стратегий биотрансформации используется открытая эмпирическая теория, формальным уточнением которой является квазиаксиоматическая теория (КАТ) [1] биотрансформации. В КАТ биотрансформации входят универсальные правила правдоподобного вывода [1], факты, гипотезы и аксиомы предметной области. Предметная область отражается в КАТ своим языком представления данных, определением операции существенного сходства и формулировкой аксиом предметной области. Центральными аксиомами предметной области для решения задачи прогнозирования путей биотрансформации являются аксиомы, связывающие ДСМ-рассуяадение (через факты и гипотезы) с реакционными преобразованиями РЦг -> РЦ/.

Целью диссертационного исследования являлась разработка проблемно-ориентированных средств для представления данных и знаний при решении задач прогнозирования путей и стратегий биотрансформации химических соединений (в частности, потенциальной возможности антипродуктивного действия), а также разработка архитектуры специальной версии интеллектуальной системы типа ДСМ, предназначенной для решения этих задач. Такую систему можно рассматривать как инструмент для исследователя, как систему автоматизированной поддержки научных исследований.

Актуальность работы.

1. Компьютерный прогноз путей биотрансформации как решение самостоятельной задачи актуален по следующим причинам. Тотальный экспериментальный прогноз метаболизма экзогенных и эндогенных веществ, который в настоящее время чаще всего используется, нельзя считать эффективным и даже допустимым. Во-первых, экспериментальный прогноз биотрансформации веществ -это сложный, дорогостоящий, трудоемкий и длительный процесс. Во-вторых, экспериментальный прогноз биотрансформации имеет ряд этических и экологических проблем. Дело в том, что до настоящего времени в медицине, биохимии, фармакологии недостаточно разработаны средства использования биохимических экспериментальных данных, полученных на животных, для прогноза развития различных явлений и процессов в организме человека, в том числе и таких, как канцерогенез, мутагенез, токсичность и рассматриваемых в работе метаболизма и его составной части - биотрансформации. Для хорошего результата прогноза развития указанных явлений и процессов в организме человека эксперимент чаще всего должен быть проведен на человеке. Компьютерное решение задачи прогноза биотрансформации, которому посвящена данная работа, прогноз антипродуктивных свойств веществ с его учетом не исключают полностью необходимости экспериментирования на человеке и животных, но они позволяют целенаправленно готовить медико-биологические эксперименты, сократить их число. Цель компьютерного прогноза - перенести центр тяжести с экспериментирования с объектом исследования на компьютерное экспериментирование.

2. Прогноз путей и стратегий биотрансформации имеет большое значение для более точного исследования и прогноза биологической и фармакологической активности веществ при создании лекарств. Особенно это относится к созданию пролекарств, фармакологическое действие которых обусловлено действием метаболитов, а также лекарственных препаратов пролонгированного действия, когда некоторая биологическая активность поддерживается за счет ингибирования участвующих в биотрансформации препарата ферментов.

3. Знание стратегий и путей биотрансформации веществ необходимо для прогноза и управления антипродуктивными свойствами - канцерогенностью, мутагенностью, токсичностью и т. д.

Для прогноза антипродуктивных свойств веществ, например, канце-рогенности должны использоваться однородные обучающие выборки. В единую выборку могут быть включены либо структурные формулы прямых канцерогенов и реакционно-способных метаболитов, т.е. веществ, которые непосредственно взаимодействуют с клетками организма, либо структурные формулы непрямых канцерогенов. Это относится не только к использованию ДСМ-метода, но и статистических методов [8]. Скрининг веществ на потенциальную возможность появления в процессе биотрансформации у веществ опасных свойств (выявление потенциально опасных веществ с непрямым механизмом действия) позволяет выделить такие вещества. Эта информация дает возможность включать их в выборку, содержащую непрямые канцерогены, либо построить МС этих веществ и вводить структурные формулы их реакционно-способных метаболитов в выборки, содержащие прямые канцерогены и реакционно-способные метаболиты. Кроме того, скрининг позволяет заранее исключить потенциально опасные вещества из дальнейших компьютерных и, что самое главное, из дорогостоящих и сложных медико-биологических исследований, например, при создании консервантов, косметических средств, лекарств. А если это либо невозможно, либо нежелательно по каким-то причинам, такая информация позволит сосредоточить на этих веществах особое внимание: порожденные с помощью ИнтС-ДСМ фрагменты-причины гидрофильности/гидрофобности, достаточные условия прохождения биотрансформационных реакций и метаболические сети таких соединений помогут разработать способы модификации стратегий и путей их биотрансформации.

В процессе работы над диссертацией автором получены следующие научные результаты:

1. Разработаны проблемно-ориентированные средства представления данных и знаний для решения задачи прогнозирования путей биотрансформации с помощью ДСМ-метода.

2. Предложена и обоснована возможность применения ДСМ-метода для решения задачи прогнозирования стратегии биотрансформации и, в частности, образования реакционно-способных метаболитов при биотрансформации химических веществ, позволяющая проводить скрининг этих веществ на наличие потенциальной антипродуктивной опасности.

3. Разработана архитектура интеллектуальной системы, основанной на ДСМ-рассуждениях, как средства ИАД, для решения задач прогнозирования стратегий и путей биотрансформации.

4. Проведена серия экспериментов, подтверждающая эффективность применения ДСМ-рассуждений для интеллектуального анализа данных и автоматического порождения гипотез о стратегиях и путях биотрансформации.

5. Разработана схема базы данных для регистрации и хранения экспериментальных данных о биотрансформации веществ.

Научную новизну работы определяют впервые разработанные:

1) проблемно-ориентированные средства представления данных и знаний для решения задачи прогнозирования путей биотрансформации с помощью ДСМ-метода;

2) архитектура новой версии интеллектуальной системы типа ДСМ, предназначенной для прогнозирования стратегий и путей биотрансформации;

3) схема базы данных для регистрации и хранения экспериментальных данных о биотрансформации веществ.

Новым в диссертации является предложение и обоснование возможности применения структурного, а не вычислительного метода для решения задачи прогнозирования стратегии биотрансформации, что позволяет выявить структурно представленную причину образования реакционно-способных метаболитов. Также впервые автоматическое порождение гипотез о стратегиях и путях биотрансформации осуществлено средствами интеллектуальной системы, использующей машинное обучение в открытой предметной области.

Практическая значимость работы состоит в создании интеллектуальной системы на основе ДСМ-рассуждений, являющейся системой автоматизированной поддержки научных исследований в области биотрансформации веществ. Эта система предназначена для анализа и обработки экспериментальных данных, содержащих зависимости между реакционными центрами, их окрестностями и реализацией реакций биотрансформации. В эту же версию интеллектуальной системы включена возможность прогнозирования стратегии биотрансформации веществ и, в частности, порождения реакционно-способных метаболитов при биотрансформации, что информирует о потенциальной возможности наличия у этих веществ антипродуктивных свойств. При этом предлагаемый подход позволяет прогнозировать потенциальную возможность антипродуктивного действия с непрямым механизмом действия (непрямые канцерогены, непрямые мутагены) для каждого конкретного химического вещества.

Компьютерный прогноз биотрансформации химических веществ позволит целенаправленно готовить медико-биологические эксперименты, сократить их число, перенести центр тяжести натурного эксперимента на компьютерное экспериментирование.

Структура работы. Диссертация состоит из введения, трех глав и заключения.

Заключение диссертация на тему "Разработка средств представления знаний и архитектуры интеллектуальной системы для прогнозирования путей биотрансформации"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ ИЗЛОЖЕНЫ В СЛЕДУЮЩИХ ПУБЛИКАЦИЯХ:

1. Фабрикантова Е.Ф. Некоторые вопросы формализации метаболических превращений ксенобиотиков // Школа-семинар "Семиотические аспекты формализации интеллектуальной деятельности", Боржоми, 1988: Тез. докл. - М.: ВИНИТИ, 1988. - С. 221-227.

2. Фабрикантова Е.Ф. Проблемы компьютерного моделирования метаболизма чужеродных веществ в организме человека // Итоги науки и техники, сер. Информатика, ВИНИТИ, 1990, т. 15, с. 115-135.

3. Фабрикантова Е.Ф. Метаболизм ксенобиотиков как задача искусственного интеллекта // II Всесоюзная конференция "Искусственный интеллект-90", Минск, Октябрь 22-25, 1990, Труды конференции, т. I, с. 175-179.

4. Fabricantova E.F., Finn V.K., Gergely Т. Pancratova E.S. A qualitative model of metabolism by the use of a logic based method of simulation // MIE-91 Satellite Conference on Computer Modelling, Budapest, Hungary, 1991, Conference Proceedings, p. 81-89.

5. Фабрикантова Е.Ф. Исследование процесса биотрансформации веществ: компьютерные эксперименты с использованием интеллектуальной системы типа ДСМ // III Всесоюз. конф. "Искусственный интеллект-92", Тверь, Октябрь 19-25, 1992: Труды конф. - Тверь, 1992. - Т. I. - С. 86-88.

6. Фабрикантова Е.Ф. Описание моделей метаболизма веществ в виде квазиаксиоматических теорий // Новости искусственного интеллекта, специальный выпуск. Москва, 1993, с. 27-37.

7. Фабрикантова Е.Ф. Интеллектуальные формализованные теории: средство представления знаний и рассуждений // IV Национальная конференция с международным участием "Искусственный интеллект-94", Рыбинск, Сентябрь 15-21, 1994, Труды конференции, т. II, с. 304-308.

8. Zabezhailo M.I., Finn V.K., Blinova V.G., Fabricantova E.F., Ivashko V.G., Leibov A.E., Melnicov N.I., Pancratova E.S. Reasoning Models for Decision Making: Applications of JSM-Method for Intelligent Control Systems Architectures for Semiotic Modelling and Situation Analysis in Large Complex Systems // Proc. of the Workshop of 10th (1995) IEEE Sysmposium on Intelligent Control (Eds.: J.Albus, A.Meystel, D.Pospelov, T.Reader), August 27-29, 1995, Monterey, CA. -AdRem, Inc., 1995. - Pp. 99-108.

9. Фабрикантова Е.Ф., Матвеев A.A. Об интеллектуальной системе прогноза путей биотрансформации // Симпозиум "Биоинформатика и компьютерное конструирование лекарств", VIII Российский национальный конгресс "Человек и лекарство", Москва, Апрель 4-5,

2001, Труды конференции.

10. Фабрикантова Е.Ф. Применение ДСМ - рассуждений для интеллектуального анализа данных и автоматического порождения гипотез о путях биотрансформации // НТИ. Сер.2. - 2002. - № 2. -С. 8-44.

11. Матвеев А.А., Фабрикантова Е.Ф. Алгоритмические и программные средства прогнозирования метаболизма // НТИ. Сер.2.

2002. - № 6.

12. Бондарев К.Л., Фабрикантова Е.Ф. Разработка СУБД для регистрации и хранения данных об экспериментах в области физиологической активности веществ и их биотрансформации // НТИ. Сер.2. - 2002. - № 6.

АПРОБАЦИЯ РАБОТЫ

Результаты диссертационной работы были доложены на следующих конференциях и семинарах:

1. Школа-семинар "Семиотические аспекты формализации интеллектуальной деятельности", Боржоми, 1988.

2. II Всесоюзная конференция "Искусственный интеллект-90", Минск, Октябрь 22-25, 1990.

3. MIE-91 Satellite Conference on Computer Modelling, Budapest, Hungary, 1991.

4. Ill Всесоюзная конференция "Искусственный интеллект-92", Тверь, Октябрь 19-25, 1992.

5. IV Национальная конференция с международным участием "Искусственный интеллект-94", Рыбинск, Сентябрь 15-21, 1994.

6. 5-ая Международная конференция НТИ-2000,"Информационное общество. Информационные ресурсы и технологии. Телекоммуникации", Москва, ВИНИТИ, Ноябрь 22-24, 2000.

7. Симпозиум "Биоинформатика и компьютерное конструирование лекарств", VIII Российский национальный конгресс "Человек и лекарство", Москва, Апрель 4-5, 2001.

8. Общемосковский семинар по проблемам искусственного интеллекта, 31 января 2002 г.

70

ЗАКЛЮЧЕНИЕ

В предлагаемой интеллектуальной системе для прогнозирования стратегий и путей биотрансформации знания о биотрансформации представляются в виде открытой теории - КАТ. Применение ДСМ-рассуждений в качестве средства интеллектуального анализа данных позволяет добавить в КАТ гипотезы о необходимых и достаточных условиях взаимодействия вещества с ферментом - условия прохождения реакционных преобразований и о причинах порождения реакционно-способных метаболитов в процессе биотрансформации. Процесс биотрансформации имитируется ДСМ-рассуждением в КАТ. В результате имитации образуется результат работы интеллектуальной системы - метаболическая сеть (МС) вещества в живом организме некоторого вида.

В предлагаемом подходе к моделированию природных явлений и решению задач на основе их моделей отдается предпочтение зависимостям, полученным путем интеллектуального анализа экспериментальных данных, а не феноменологическим правилам, формулируемым экспертами и не содержащим объяснений механизмов этих явлений. При этом моделирование понимается как создание некоторой теории явления, т. е. аппроксимации природной действительности в процессе ее научного познания [48], правда, в рамках компьютерной системы.

Использование только вычислительных методов для решения данных задач также не дает объяснений механизмов изучаемых явлений. Однако одновременное использование структурного и вычислительного подходов предоставляет возможность взаимной верификации и фальсификации результатов, а для вычислительных методов фрагменты-причины, полученные структурным методом, являются еще и интерпретацией их результатов.

Совершенствование гипотез о стратегиях и путях биотрансформации, а, следовательно, повышение качества их прогноза ожидается от представления химических соединений в виде плоских и пространственных структур. (Напомним, что в настоящее время во всех ИнтС-ДСМ химические соединения представляются в виде множеств фрагментов структурных формул химических соединений). Однако качественно нового продвижения на пути исследования процесса биотрансформации можно ожидать от использования информации о ферментах и ферментной системе. Предлагаемую постановку и решение задачи прогноза стратегии и путей биотрансформации веществ для некоторого заданного вида организма без учета этой информации можно считать правомерной. Однако решение этой задачи для конкретного организма без учета информации о ферментах и ферментной системе невозможно: индивидуальные особенности процесса биотрансформации определяются конкретными характеристиками ферментной системы, в которых, в частности отражается влияние среды [49-51]. То же самое можно сказать и о решении задачи прогноза стратегии и путей биотрансформации для человека с использованием экспериментальных данных, полученных на других видах организмов.

Поскольку процесс биотрансформации тесно связан с антипродуктивными свойствами веществ, то естественным является интеграция ИнтС-ДСМ для прогноза стратегии и путей биотрансформации с ИнтС-ДСМ, прогнозирующей канцерогенность и токсичность веществ, на базе общего универсального Решателя. В настоящее время разрабатывается БД для регистрации и хранения данных об экспериментах в области физиологической активности веществ и их биотрансформации. Предполагается, что эта БД войдет в такую интегри

65 рованную систему. Интеллектуальная система для прогнозирования физиологической активности веществ и их биотрансформации представляет собой систему автоматизированной поддержки научных исследований в этих областях и, что самое главное, в некоторой интегральной области, объединяющей эти явления и процессы и отражающей их связи.

66

Библиография Фабрикантова, Елена Федоровна, диссертация по теме Теоретические основы информатики

1. Финн В.К. Синтез познавательных процедур и проблема индукции // НТИ. Сер.2. - 1999. - №1-2. - С. 8-44.

2. Блинова В.Г. О результатах применения ДСМ-метода порождения гипотез в задачах анализа связи "структура химического соединения биологическая активность" // НТИ. Сер.2. - 1995. - №5. -С. 17-24.

3. Панкратова Е.С. Применение ДСМ-метода для прогнозирования канцерогенности веществ // II Всесоюзная конференция "Искусственный интеллект 90".Минск, Октябрь 22-25, 1990, Труды конф. Т. 3.

4. Финн В.К. Об особенностях ДСМ-метода как средства интеллектуального анализа данных // НТИ. Сер. 2. 2001. - № 5. - С. 1-4.

5. Гергей Т., Финн В.К. Об интеллектуальных системах // Экспертные системы: состояние и перспективы / Под ред. Д.А. Поспелова. М.: Наука, 1989. - С. 9-20.

6. Ковалев И. Е., Полевая О. Ю. Биохимические основы иммунитета к низкомолекулярным химическим соединениям М.: Наука, 1985.-304 с.

7. Панкратова Е.С. Применение ДСМ-метода к задаче распознавания прямых и непрямых канцерогенов // НТИ. Сер. 2. 1993. - № 3. С. 14-16.

8. Schutz Н. Benzodiazepines: A Handbook. N.Y., Berlin, Heidelberg: Springer-Verlag, 1982.

9. Testa В., Jenner P. Drug Metabolism: Chemical and Biochemical Aspects. N.Y.: Marcel Dekker, 1976.

10. Pfeifer S., Borchert H.-H. Pharmakokinetic und Biotransformation. Berlin: VEB Verlag Volk und Gesundheit, 1980. 144 p.

11. Парк Деннис В. Биохимия чужеродных соединений. М. Медицина, 1973. - 288 с.

12. Лакин К.М., Крылов Ю.Ф. Биотрансформация лекарственных веществ. М.: Медицина, 1981. - 344 с.

13. Арчаков А.И. Микросомальное окисление. М.: Наука, 1975.-326 с.

14. Головенко Н.Я. Механизмы реакций метаболизма ксенобиотиков в биологических мембранах. Киев: Наукова думка, 1981.220 с.

15. Холодов JI.E., Яковлев В.П. Клиническая фармакокинети-ка. М.: Медицина, 1985.

16. Spann M.L., Chu К.С., Wipke W.T., Ouchi G. Use of Computerized Methods to Predict Metabolic Pathways and Metabolites. // J. Environ. Pathol. Toxicol. 1978. № 2. - P. 123.

17. Darvas F. МЕТАВOLEXPERT: An expert system for predicting metabolism of substances // QSAR in Environmental Toxicology.Vol II / Ed. K.L.E. Kaiser. Dordrecht, Holland: D. Reidel Publising Co., 1987. -P.71-81.

18. Darvas F. Predicting metabolic pathways by logic programming // J. Mol. Graph. 1988. - Vol. 6, № 6. - P. 80-86.

19. Klopman G., Dimayuga M., Talafous J. МЕТА 1. A Program for the Evaluation of Metabolic Transformation of Chemicals // J. of Chemical Information and Computer Sciences. 1994. - Vol. 34, № 6. - P. 13201325.

20. Talafous J., Sayre L.M., Mieyal J.J., Klopman G. META 2. A Dictionary Model of Mammalian Metabolism// ibid. P. 1326-1333.

21. Klopman, G., Tu M„ Talafous J. META 3. A Genetic Algorithm for Metabolic Transform Priorities Optimization // J. of Chemical Information and Computer Sciences. 1997. - Vol. 37, № 6. - P. 329-334.

22. Випке В.Т., Хан М.А. Аналогии и рассуждения при построении моделей // Искусственный интеллект: применение в химии: Пер. с англ. / Под ред. Т. Пирса, Б. Хони. М.: Мир, 1988. -430 с.

23. Джексон П. Введение в экспертные системы / Пер. с англ.: -Уч.пос. М.: Издательский дом "Вильяме", 2001. - 624 с.

24. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384 с.

25. Deitterich Т., Michalski R. A comparative review of selected methods for learning from examples // Machine learning: an artificial intelligence approach / Eds. R.S. Michalski et al. Berlin: Springer, 1984.

26. Bloedorn E. and Michalski R.S. Data-Driven Constructive Induction // Intelligent Systems & their applications. 1998. - March/April.1. P. 30-37.

27. Zytkov J. Automated Discovery Systems Perspective on Knowledge // First Summer School for Theory Knowledge. August 22-24, 1997. -Warsaw-Madralin, Poland, 1997.

28. Piatetsky-Shapiro G., Frawley W. Knowledge discovery in Databases // Menlo Park, Calif.: AAAJ Press, 1991.

29. Advances in Knowledge Discovery and Data Mining // Eds. U. M. Eayyad, G. Piatetsky-Shapiro at al. Menlo Park, Calif.: AAAJ Press / The MIT Press. 1996.

30. Кречетов H. Продукты интеллектуального анализа данных // Рынок программных средств. 1991. - №14-15. - С. 32-39.

31. Забежайло М.И. Интеллектуальный анализ данных новое направление развития информационных технологий // НТИ. Сер.2. -1998.-№ 8.-С. 6-17.

32. Дюк В.А. Обработка данных на ПК в примерах // СПб.: Питер, 1997.

33. Виленчик М.М. Биологические основы старения и долголетия. М.: Знание, 1987. - 224 с.

34. Гусакова С.М., Финн В.К. Сходство и правдоподобный вывод // Известия АН СССР. Сер. Техническая кибернетика. 1987. -№ 5. С. 42-63.

35. Чипенс Г.И. Принципы лиганд-рецепторного "узнавания" и комплексообразования // Биомембраны. Структура, функции, медицинские аспекты. Рига: Зинатне, 1981. С. 5-21.

36. Блинова В.Г., Добрынин A.A. Языки представления химических структур в интеллектуальных системах для конструирования лекарств // НТИ. Сер. 2. 2000. - № 6. - С. 14-21.

37. Путрин А.В. Система процедур ДСМ-метода автоматического порождения гипотез и ее реализации: Автореф. . канд. техн. наук.-М.: 2000.

38. Ивашко В.Г., Финн В.К. Экспертные системы и некоторые проблемы их интеллектуализации // Семиотика и информатика. -1986.-Вып. 27.-С. 25-61.

39. Кузин Е.С., Ройтман А.И., Фоминых И.Б., Хахалин Г.К. Интеллектуализация ЭВМ. Сер. Перспективы развития вычислительной техники: Справ, пособие / Под ред. Ю.М. Смирнова. Кн.2. М.: Высш. шк., 1989. - 159 с.

40. Финн В.К. О декларативном, процедурном и понятийном знании в интеллектуальных системах типа ДСМ // 4-я Международная конференция НТИ-99 "Интеграция. Информационные технологии

41. Телекоммуникации", Март 17-19, 1999. Материалы конференции. С. 3-4.

42. Вениаминов Е.М., Болдина Д.М. Система представления знаний Ontolingva принципы и перспективы // НТИ. Сер. 2. - 1999. -№ 10. - С. 26-32.

43. KSL Interactive Ontology Server (http://www.ksl.stan-ford.edu).

44. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++, 2-е изд. / Пер. с англ. М.: "Издательство Бином", СПб.: Невский диалект, 1999 г. - 560 с.

45. Дьячков П.Н. Квантово-химические расчеты в изучении механизма действия и токсичности чужеродных веществ // Итоги науки и техники. Сер. Токсикология. Т. 16. -М.: ВИНИТИ, 1990. С. 1-280.

46. Flesher J., Horn J., Lehner A. Molecular modeling of carcinogenic potential in polycyclic hydrocarbons // J. of Mol. Structure (Theo-chem) 1996. - Vol. 362. - P.29-49.

47. Поппер К. К эволюционной теории познания // В кн. Эволюционная эпистемология и логика социальных наук: Карл Поппер и его критики. М.: Эдиториал УРСС, 2000. - 464 с.

48. Ленинджер А. Биохимия. Молекулярные основы структуры и функций клетки. М.: Мир, 1976. - 957 с.

49. Мусил Я., Новакова О., Кунц К. Современная биохимия в схемах: Пер с англ. М.: Мир, 1984. - 216 с.

50. Кретович В.Л. Введение в энзимологию. М.: Наука, 1986.