автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Разработка автоматизированных подсистем регистрации и классификации химико-структурных данных с использованием формул Маркуша в системе информационного обеспечения по проблемам химической безопасности

кандидата технических наук
Мартиросов, Александр Константинович
город
Москва
год
2005
специальность ВАК РФ
05.25.05
цена
450 рублей
Диссертация по документальной информации на тему «Разработка автоматизированных подсистем регистрации и классификации химико-структурных данных с использованием формул Маркуша в системе информационного обеспечения по проблемам химической безопасности»

Автореферат диссертации по теме "Разработка автоматизированных подсистем регистрации и классификации химико-структурных данных с использованием формул Маркуша в системе информационного обеспечения по проблемам химической безопасности"

На правах рукописи

МАРТИРОСОВ

Александр Константинович

Разработка автоматизированных подсистем регистрации и классификации химико-структурных данных с использованием формул Маркуша в системе информационного обеспечения по проблемам химической безопасности

Специальность - 05.25.05 информационные системы и процессы, правовые аспекты информатики

Автореферат

диссертации на соискание ученой степени кандидата технических наук

г

Москва - 2005

Работа выполнена

во Всероссийском институте научной и технической информации РАН

Научный руководитель

доктор технических наук Банников Алексей Иннокентиевич

Официальные оппоненты

доктор технических наук Сучков Александр Павлович

кандидат химических наук Блинова Валентина Георгиевна

Ведущая Военная Академия радиационной,

организация химической и биологической защиты

имени маршала Советского Союза С.К. Тимошенко (ВАРХБЗ)

Защита состоится «2£> октЛ/ьл 2005г. в /Л часов на диссертационного совета Д 002.026.01 при Всероссийском научной и технической информации РАН по адресу: 125190, ул. Усиевича, д. 20.

С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации РАН.

заседании институте г. Москва,

Автореферат разослан ¿20» сенмйр*2005 г.

Ученый секретарь диссертационного совета

доктор биологических наук, Л/*

профессор М.А. Каменская

1ёШГ

Обшая характеристика работы

Актуальность проблемы

Данная работа посвящена разработке программно-технологических средств для регистрации и классификации химико-структурных данных в химической базе данных (БД) в системе информационного обеспечения по проблемам химической безопасности, в том числе по аварийно химически опасным веществам, психотропным / наркотическим лекарственным веществам, сильнодействующим ядовитым веществам и их прекурсорам, химическим веществам, подпадающим под действие 'Конвенции о запрещении химического оружия. Специальное внимание в работе уделено использованию формул Маркуша, позволяющих реализовать достаточно эффективный алгоритм формализации, классификации и интеграции данных и знаний по их химико-структурной составляющей, ориентированный на выявление опасных химических веществ.

В «Основах государственной политики в области обеспечения химической и биологической безопасности Российской Федерации на период до 2010 года и дальнейшую перспективу», утвержденных Президентом РФ В.В. Путиным (Пр-21944 от декабря 2003 г.), указывается на необходимость создания государственной системы обеспечения химической и биологической безопасности Российской Федерации, предусматривающей категорирование, прогнозирование, предупреждение и парирование угроз химической и биологической безопасности, ликвидацию последствий чрезвычайных ситуаций в результате воздействия химических и биологических факторов. Одним из важных направлений, указанных в документе, является разработка и внедрение информационных аналитических систем (ИАС) в сфере математического моделирования для выявления закономерностей в области обеспечения химической и биологической безопасности.

Информационное обеспечение по проблемам химической безопасности непосредственно связано с формированием фактографических баз данных по токсичным химическим веществам и их прекурсорам, а также баз знаний -моделей для классификации, прогноза/восстановления пропущенных данных и выявления опасных химических веществ.

Ключевыми компонентами при создании таких многоаспектных фактографических БД являются подсистемы регистрации и классификации химико-структурных данных. Их необходимость объясняется следующими причинами:

■ Процедура регистрации объектов в БД решает как непосредственно задачу обеспечения уникальности (идентификации) информации (химикатов), так и задачу целостности БД.

■ Процедура классификации данных является необходимой для эффективного использования данных при анализе и моделировании, в том числе для задач выявления вероятных прекурсоров синтеза

опасных химических агентов.

Принципиально важным подходом к решению этих задач является применение так называемых формул Маркуша (обобщенных химических структур).

Формула Маркуша представляет собой молекулярную структуру, состоящую из постоянной части и переменных заместителей. По сути, представляя собой обобщение индивидуальных химических структур, формулы Маркуша могут выступать в качестве:

■ гибких классификаторов химических веществ на основе химико-структурной информации, в том числе по списочным классам и структурным аналогам опасных химикатов;

■ моделей обобщения и классификации при создании базы знаний по свойствам химических веществ.

Вышеизложенное обосновывает актуальность темы диссертации.

Целью диссертации является разработка методов, алгоритмов и программных средств автоматизированных подсистем регистрации и классификации химико-структурных данных для решения задач в системе информационного обеспечения по проблемам химической безопасности.

Задачи диссертации:

1) Исследование методов, алгоритмов, программных средств и структуры мировых информационных систем с химико-структурными данными по индивидуальным и обобщенным химическим структурам с акцентом на анализ подходов к решению задач поиска, классификации и синтеза информации.

2) Исследование существующих и разработка собственных форматов представления химических объектов (индивидуальных и обобщенных химических структур, а также других объектов, представимых помеченными графами).

3) Исследование и разработка методов, алгоритмов и программ для формализации, поиска/регистрации, классификации опасных химикатов и их прекурсоров в химических базах данных.

4) Разработка концептуальной схемы, проектных и программно-технологических решений по базе данных и базе знаний по опасным токсичным химикатам и их прекурсорам для ИАС по проблемам химической безопасности.

5) Интеграция разработанных программных средств, их тестирование/практическая апробация и исследование эффективности/полезности в ИАС для решения задач, связанных с осуществлением национального (федерального) контроля выполнения Конвенции о запрещении химического оружия.

Научная новизна

1) Разработаны структура данных и методы программной реализации регистрационной подсистемы по химическим веществам,

обеспечивающей регистрацию, хранение и поиск как индивидуальных, так и обобщенных химических структур.

2) Разработаны структура данных и методы для манипулирования химико-структурной и ассоциированной информацией по индивидуальным веществам и формулам Маркуша в базах данных в целях классификации и анализа/синтеза информации, в том числе для выявления потенциально опасных химикатов и их прекурсоров.

3) Разработаны структура данных, методы и программные средства для прогнозной статистической классификации химикатов на основе байесовского подхода и прогнозной оценки количественных свойств химикатов с использованием формул Маркуша.

4) Созданный программно-технологический инструментарий позволяет рассматривать задачи моделирования большой размерности (~ 105 объектов, ~104 признаков/дескрипторов) и поставить разработку моделей в химических базах данных на регулярную основу с автоматизацией отбора релевантной для построения моделей информации из (в общем случае нескольких) реляционных таблиц базы данных.

Практическая значимость:

1) Разработанные методы, алгоритмы и структурные решения воплощены и оттестированы в виде программно-технологических средств для обеспечения функций регистрации и классификации индивидуальных и обобщенных химических структур в химической БД, в том числе для осуществления национального контроля выполнения Конвенции о запрещении химического оружия.

2) Разработанные программно-технологические средства информационного и статистического моделирования показали эксплуатационную эффективность при обработке больших массивов фактографической информации в реляционных базах данных в целях построения прогнозных моделей классификации и количественных соотношений типа «свойство - свойства» (КССС) для оценки опасных токсичных химикатов и их прекурсоров.

3) Разработанные программные средства внедрены в эксплуатируемую информационно-аналитическую систему по проблемам Конвенции о запрещении химического оружия Управления «Центр конвенционных проблем и программ разоружения» федерального агентства по промышленности (ИАС-ИМКС), интегральную химико-биологическую базу данных ЗАО ЦИНТЭНСИ, а также предложены для разработки новой регистрационной системы по химическим веществам ВИНИТИ РАН.

Основные положения, выносимые на защиту:

1) Алгоритмы и программные средства для решения задач формализации, поиска/регистрации и классификации химических

веществ с использованием индивидуальных и обобщенных химических структур (формул Маркуша) в базах данных, в том числе для решения задач в системе информационного обеспечения по проблемам химической безопасности.

2) Методы и программные средства для реализации эффективного поиска/регистрации химических веществ и обобщенных химических структур по химико-структурной составляющей, построенные на основе комплексного использования хэш-кодов, дескрипторов и алгоритма поатомного сравнения химических структур.

3) Методы и программные средства для реализации манипулирования химико-структурной информацией в виде формул Маркуша с целью прогнозной статистической классификации и оценки свойств индивидуальных и обобщенных химических структур.

4) Практическое применение разработанных методов и программных алгоритмов, реализующих регистрацию и классификацию химических веществ с помощью формул Маркуша при создании БД, в том числе для решения задач в системе информационного обеспечения по проблемам химической безопасности.

Апробация работы

Основные результаты работы докладывались на научных конференциях: VII Российский национальный конгресс «Человек и лекарство», 2000 г., 5-я Международная конференция «НТИ-2000», 22-24 ноября 2000 г., «Медицинские информационные технологии» - М., 2001 г., 6-я Международная конференция «НТИ-2002», 16-18 октября 2002 г., «Проблемы стандартизации в здравоохранении», 2003г., ХП Российский национальный конгресс «Человек и лекарство» 2005 г., а также представлены в отчетах о НИР ВИНИТИ за 2000,2001,2002,2003, 2004 года.

По теме диссертации опубликовано 23 печатных работы, в том числе 4 статьи, 13 докладов и кратких сообщений, 6 научных отчетов.

Настоящая работа частично поддержана грантом РФФИ 01-07-90097в.

Структура и объем работы

Диссертация состоит из введения, четырех глав, заключения и списка литературы. Содержит 168 страниц печатного текста, в том числе 43 рисунка и библиографию, включающую 121 наименование.

Краткое содержание работы

Сложившаяся в настоящее время ситуация в части доступности мировых информационных ресурсов, технологии их переработки и прогресса в программных и технических средствах позволяет поставить и быстро решить задачу создания и поддержки жизненного цикла фактографических баз данных с химико-структурными данными по токсичным химическим веществам и их прекурсорам, наряду с собственными ресурсами легитимно ассимилирующих мировые информационные ресурсы по приоритетным направлениям развития химии.

При этом наряду с традиционной задачей обеспечения пользователей оперативным доступом к информации БД, эффективная эксплуатация БД должна предусматривать наличие средств поддержки принятия решения на основе классификации, структурирования, агрегирования и моделирования данных, которые обеспечиваются в результате аналитической переработки и обобщения информации.

Соответственно, важной задачей становится классификация химических веществ в БД и накопление информации по моделям, используемым в рассматриваемой предметной области. Эта информация должна быть соответствующим образом формализована для хранения в БД и рассматриваться как специфический информационный ресурс — база знаний.

В этом плане в качестве одного из методов решения удобно использовать формулы Маркуша. В диссертации формула Маркуша определяется как множество, класс химических веществ, отражающий определенный способ формализации, классификации, интеграции, унификации химико-структурной составляющей информации в области химии, в том числе и как способ представления условий запроса на поиск химических веществ в БД. При этом регистрация формул Маркуша по своей сути является должным образом организованной процедурой хранения в БД соответствующих поименованных запросов.

В соответствии с определением комиссии Международного союза теоретической и прикладной химии по номенклатуре органических веществ (ИЮПАК) Маркуш формула определяется как обобщенная структура, у которой присутствует постоянная ядерная структурная часть (scaffold) с указанными позициями присоединения остальных варьируемых элементов структуры (residues). При этом более мягкие условия, налагаемые на варьируемые элементы структуры (переменную часть), допускают не только точное перечисление заместителей, но и их обобщенные определения, такие как «алкил», «арил» и др.

Обобщенные химические структуры, выражаемые формулами Маркуша, харартеризуются:

■ переменными молекулярными заместителями - радикалами ("substituent variation");

■ общими и частными названиями заместителей ("homology variation");

■ переменными местами замещения ("position variation").

Структурная информация в современных БД может быть представлена

как в виде обычных химических структур для индивидуальных веществ, так и в виде формул Маркуша для обобщенных структур (рис. 1).

В связи с этим создание БД с поддержкой, как обычных индивидуальных химических структур, так и формул Маркуша является актуальной задачей. Важно отметить, что в рамках данной работы различаются понятия о химическом веществе (реальном объекте материальной химии) и химической структуре (идеальном объекте - факте, результате его отражения, измерения). Химическое вещество может

характеризоваться одной или несколькими химическими структурами в случае, например, наличия примесей. Концептуальная (функциональная) блок-схема разработанной БД представлена на рис. 2.

Рис. 1 Представление отдельного химического вещества и его родовой структуры, заданной формулой Маркуша (пример взят из патента ЛЬ5891898 США) в редакторе молекулярных структур МБЕ[2].

Рис. 2. Информационные объекты и отношения, реализованные в БД для решения задач поиска, классификации и прогноза свойств химических

веществ.

Эта схема отражает унифицированный подход в рамках структуры БД и пользовательских интерфейсов к поиску, хранению, классификации и прогнозу свойств отдельных химических веществ и формул Маркуша. Особенностями структуры данных и пользовательского интерфейса БД являются:

• единая система регистрации и хранения химико-структурных данных для Маркуш - химикатов и отдельных веществ;

• регистрация в БД формулы Маркуша и выявленных реляций к уже зарегистрированным отдельным веществам;

• регистрация отдельного вещества и выявленных реляций к уже зарегистрированным, формулам Маркуша, "родовым" по его вхождению в каждую из них;

• регистрация релевантных моделей информационной, байесовской классификации и соотношений количественных характеристик вещества.

Программно-технологические решения применения формул Маркуша.

Еще в классической монографии [24] отмечено, что язык записи формул Маркуша может выполнять четыре функции, используясь в автоматизированной информационно - поисковой системе (ИПС) в качестве: входного языка (языка для ввода в ЭВМ формул Маркуша из патентов, статей, монографий и т.д.); языка запросов; языка сжатого хранения структурной информации; языка поиска. Несмотря на сложность и трудоемкость, как процедур формализации, так и структурно -подструктурного соответствия Маркуш - представлений, подчеркивается важность использования языка структур Маркуша для ИПС.

Техника и трудности работы с коммерческими патентными базами данных, включающими формулы Маркуша, хорошо проиллюстрированы в работе [25] с весьма характерным названием.

На сегодняшний день существует три крупные общедоступные (коммерческие) информационные системы для поиска формул Маркуша (Derwent World Patents Index химический фрагментарный код; INPI Merged Markush Service (MMS) в сотрудничестве с Derwent Information Ltd (Markush DARC); Chemical Abstracts Service MARPAT).

Один из наиболее крупных исследовательских проектов, связанных с формулами Маркуша, выполняли в Шеффилдском университете. Целью стартовавшего в 1979 году проекта была задача создания автоматизированной поисковой системы по химическим патентам. Особое внимание уделялось решению проблемы обработки патентов, содержащих структуры Маркуша. После завершения проекта в 1995 году, был предложен широкий спектр решений в областях: текстового анализа, перевода патентных рефератов в машиночитаемую форму, создания дескрипторов документов для целей поиска и извлечения необходимой патентной информации из баз данных.

Из отечественных разработок следует отметить исследовательский проект [26,27]. Разработанная в нем система включала несколько

документальных баз данных, каждая из которых содержала информацию о химических структурах, относящихся к определенному типу биологической активности. Библиографическая информация и матрицы смежности структурных формул помещались в форматные поля, а формула изобретения, изображения обобщенных структурных формул (формул Маркуша), их дескрипторное описание, перечень заместителей помещались в текстовую часть соответствующего документа. В качестве

дескрипторного описания структурных формул использовался модифицированный вариант брутто - формул связей, а также дескрипторы, описывающие атомы (микрофрагменты) с учетом первого окружения. Эти данные помечались специальными метками и помещались в отдельные параграфы документа.

Данная разработка применялась для исследований в области пестицидов, с опытным наполнением данными по выборке объемом около 2000 индивидуальных структур и формул Маркуша [27].

В настоящее время в области прикладных и теоретических исследований в химии и науках о материалах сложилась ситуация, когда задачу информационного обеспечения требуется решать с учетом необходимости манипулирования, обработки, анализа и моделирования больших объемов накопленной в различных базах данных структурно -химической информации (в том числе содержащейся в патентах и возникающей при реализации программ комбинаторного синтеза). Это делает весьма актуальной задачу включения в состав химических информационных систем различного назначения подсистемы ввода, хранения, манипулирования и моделирования информации по формулам Маркуша.

В рамках настоящей диссертации был разработан ряд программно-технологических решений для создания информационно-поисковых систем, поддерживающих обработку формул Маркуша:

■ интуитивно - понятный язык Маркуш - радикалов;

■ подсистема ввода для формул Маркуша - интеграция в БД редактора структурных формул MSE [2];

■ подсистема хранения формул Маркуша;

■ подсистема поиска.

1) Язык описания Маркуш - радикалов. Простой язык описания Маркуш -радикалов был создан с учетом использования обобщенных структур в химических патентах.

Формула Маркуша задаётся вводом постоянной структурной части молекулы в редакторе MSE и определением радикалов переменной Маркуш - части в строках, которые записываются в виде булевских выражений. Логические условия, из которых состоит выражение, формируются с помощью специальных функций Any, Natom, Nbond и т.д. или представляют собой запись определенной химической структуры в линейной форме

(SMILES - наиболее распространенный или SYBYL - более удобный для описания Маркуш - формул).

Допускается написание достаточно сложных выражений, включая комбинированные условия, а также все функции могут использоваться в качестве параметров для других функций.

Примеры комбинированных записей определений Маркуш -радикалов:

С[1]=СС= СС= С@ 1 \ ССССС\Апу(С, N)&Natom> 10&Nbond> 10 - радикал может быть либо фенилом, либо пентилом, либо может содержать атомы только углерода и азота с общим количеством атомов больше 10 и общим количеством связей больше 10.

Natom =Nbond&Natom>=6\Any(C, О, Na)&(Natom(Na)=1 \Natom(0)=1) радикал может быть любой группой атомов, в которой число всех атомов равно числу всех связей и число атомов не менее 6, или может состоять из атомов толь ко С, О и Na и при этом иметь только один атом Na или один атом О.

2) Интеграция в БД редактора MSE (Molecular Structure Editor).

Инструментом внедрения в информационные системы формул Маркуша является редактор молекулярных структур. В настоящее время существует достаточно много разнообразных свободно распространяемых и коммерчески доступных редакторов молекулярных структур. Однако, специфические аспекты манипулирования Маркуш - представлениями химических структур в таких редакторах либо сведены к обеспечению решения простейших задач установления структурно - подструктурного соответствия, либо жестко детерминированы структурой поддерживаемых баз данных (БД).

Разработанный в ЗАО ЦИНТЭНСИ редактор структурных данных MSE [2], включая обычный набор средств работы с индивидуальными структурами, специально ориентирован на работу с формулами Маркуша. Важными характеристиками редактора являются:

• поддержка стандартного молекулярного формата представления индивидуальных структур и формул Маркуша, дополненный SMILES/SLN линейными кодами определения переменных заместителей;

• возможность работы с массивами химических структур и библиотеками типовых структур;

• наличие пополняемых библиотек Маркуш - радикалов;

• возможность реализации развитых средств манипулирования химико-структурными данными, в том числе на основе OLE - технологии.

Редактор ориентирован как на работу непосредственно с патентными БД, так и в целом на индексацию химических баз данных для классификации и синтеза информации.

В данной работе реализована тесная интеграция редактора MSE с БД (ввод/редактирование, хранение, форматы химико-структурных данных, создание отчетов) на основе OLE - технологии.

3)Подсистема хранения формул Маркуша. Для хранения и записи в БД структурных данных в работе используется МБЕ - формат, позволяющий, помимо задания обычной химической структуры, определять, как показано выше, переменные заместители для формул Маркуша.

4)Подсистема поиска. В общем случае алгоритмы обработки структурной химической информации (в том числе формул Маркуша) основываются на обработке молекулярных графов, что сопряжено с необходимостью решения 1ЫР-полных задач, т.е. задач экспоненциальной сложности. Это обусловливает вычислительную сложность решения таких типичных задач, как установление идентичности/уникальности структур химических веществ, поиск по структуре или по подструктуре. С учетом объемов крупных баз данных для миллионов веществ, необходимо использовать как стандартные средства СУБД так и специализированные программные приложения, в рамках которых реализованы достаточно эффективные алгоритмы обработки структурной химической информации.

Применение алгоритмов поатомного сопоставления молекулярных графов химических веществ на больших массивах приводит к значительным, зачастую практически неприемлемым временным затратам. Соответственно, для создания систем поиска химических структур необходима реализация иерархического многоуровневого подхода, реализующего на каждом из этапов все более сужающий поиск. И лишь на завершающем этапе допустимо применение алгоритмов поатомного сопоставления.

В данной диссертации реализованы эффективные алгоритмы поиска химических веществ на основе комплексного использования хэш-кодов, дескрипторов и алгоритма поатомного сравнения химических структур.

На первом этапе поиска осуществляется предварительная фильтрация веществ по структуре (по неизменной части Маркуш - формулы) с помощью хэш-кодов и структурных дескрипторов. Хэш-коды представляют собой вес вещества и вес максимальной цепочки. Структурные дескрипторы представляют собой наборы структурных фрагментов, характеризующих химический молекулярный граф вещества.

Затем, перед тем как приступить непосредственно к поатомному сопоставлению, необходимо отфильтровать химические структуры и по Маркуш - части. Для этого на втором этапе производится выделение фильтров на основе Маркуш - части. Эта процедура в большинстве случаев резко снижает объем выборки для дальнейшего поиска. Однако, успешность этого этапа во многом зависит от того насколько правильно и в соответствии с Маркуш - правилами была описана Маркуш - часть.

Последний этап представляет собой реализацию одного из алгоритмов поатомного сравнения структур. В данной системе использована модернизированная версия известного алгоритма Ульмана. По сравнению с оригинальной версией алгоритма в данной работе вводится ряд функций, позволяющих определять несоответствие между структурами на более

ранних этапах, не допуская полного их сопоставления. Здесь можно выделить такие основные функции как:

1) сортировка атомов и связей в структуре;

2) учет минимальных расстояний между определенными атомами в структуре;

3) разделение графа структуры на компоненты связности;

4) ввод дополнительных фильтров для компонент графа структуры.

Загрузка данных в БД

Исходными данными для формирования информационного ресурса по химическим веществам являются данные, представленные в SDF-файлах определенного формата, включающих последовательные записи химических структур (MOL-представление) с набором полей релевантных данных. Основные операции, реализуемые при загрузке данных по химическим веществам в рамках разрабатываемого пользовательского интерфейса реляционной БД, включают:

■ поиск веществ по идентификационным кодам (CAS, RTECS, BEILSTEIN и т.д.);

" вычисление хэш-индексов химических структур, из которых состоят вещества;

■ выделение и подсчет структурных дескрипторов («отпечатки пальцев»);

■ подструктурный поиск по химическим структурам;

■ присваивание уникального регистрационного кода;

■ регистрацию данных химического вещества, если необходимо;

■ внесение записей в реестры учета фактов-данных для химического вещества, если необходимо.

Основанием для регистрации химических веществ является запись кода ее формализованного представления в БД. Дополнительные вычисляемые атрибуты - короткий хэш-код и код молекулярных дескрипторов - служат для повышения эффективности доступа к химико-структурным данным.

Реализованный в БД формат кода химических веществ предусматривает регистрацию в этой таблице как традиционных молекулярных объектов, так и обобщенных химических структур. Обобщенная химическая структура, например, задаваемая формулой Маркуша, рассматривается как условие запроса/объявления (например, патента) на определяемую выборку и/или класс химических веществ.

Алгоритм поиска/регистрации химических веществ

В области химии наиболее представительной и актуальной системой регистрации химико-структурных данных является CAS - Chemical Abstracts Service, БД которого включает более 23 миллионов веществ с ежедневным пополнением порядка 4 тысяч новых веществ (по состоянию на июнь 2004 г.). В основе регистрации лежит присвоение учеными CAS каждому новому

химическому веществу по названию и структуре следующего по порядку уникального цифрового номера. Однако, CAS - номер не несет никакого химического значения, и поэтому для внешних пользователей он представляет собой не более, чем порядковый номер химиката в БД CAS.

Второй подход предлагают MDL [http://www.mdli.com/] и Daylight [http://www.daylight.com]. Здесь в основе лежит более открытая и определенная форма регистрации. Сначала новому веществу по набору определенных хэш - кодов сопоставляется группа структур из БД, а затем с помощью метода «отпечатка пальца» выявляется уникальность данной структуры. Различие MDL и Daylight состоит в том, что MDL предлагает использовать для «отпечатка пальца» определенный набор дескрипторов, а у Daylight набор постоянно генерируемых.

Для диссертации за основу программной реализации регистрации химических веществ в БД были выделены подходы, предлагаемые фирмами MDL и DayLight с более открытой и масштабируемой методологией.

Поиск/регистрация химических веществ является ключевым этапом в формировании БД. Эта процедура включает следующие операции (рис. 3):

" получение химико-структурных данных в идентифицируемых форматах представления химического вещества и/или их формализация в рамках редактора структурных данных, включенного в программные средства пользовательского интерфейса БД;

■ определение кодов (массивов индексов) фрагментов химических структур, из которых состоит вещество, вычисление кодов генерируемых дескрипторов и хэш-кодов;

■ фильтрация химических структур, установление структурного соответствия;

■ нахождение заданного химического вещества, обновление или создание новой записи химического вещества с обновлением или созданием релевантных записей в таблицах определений элементов данных, форматов и структурных фрагментов химического вещества.

Для всех зарегистрированных химических веществ устанавливается соотношение «формулы Маркуша - химические вещества». Введение процедуры классификации химических веществ по химико-структурным данным БД позволяет формализовать и использовать информацию по обобщенным структурам в патентных и научно-методических документах как для решения задач поиска/классификации, так и восстановления пропущенных данных, верификации и синтеза информации.

штыш^лыталтш^ш^матшттм^^йШ

- '* Т \>А

¿Н ............ .. _________________ ______

Рис Пользовательский интерфейс БД с основными функциями: поиск, регистрация, классификация.

Использование структурных дескрипторов

Для задач регистрации химических веществ, их классификации (в том числе байесовской), унификации и поиска в БД используются автоматически генерируемые дескрипторы. Их создание осуществляется для каждого химиката при регистрации. Для этого производится подсчет автоматически генерируемых дескрипторов определенных типов (отбор типов был произведен на основе традиционности и распространенности в научных публикациях). В данной системе использовались следующие типы дескрипторы (таблица 1):

_Таблица 1.

Вид дескриптор Пример

Brutto <A>(<V>) - атом и его валентность С(4), С - атом углерода, 4 - валентность атома углерода

<AxQ> - атом и его количество в структуре С4 С - атом углерода, 4 - кратность атома углерода

<A>[<Chg>] - атом и его заряд 0[-1] О - атом кислорода, -1 - заряд атома кислорода

ABA (<AxWxA>) - «атом - (в20)

связь - атом» 8 = 0- вперед выносится более старший заместитель

ABA (<AXWXA>)<Q> - «атом - связь - атом» и кратность (Э20)2 8 = О - встречается в молекуле 2 раза

Neighbours <А>({<А>}) - «атом - первое окружение» 8Ь(0С); Р^ЗЗЗЯ)

Neighbours <A>({<WxA>}) -«атом - связь - первое окружение» 8Ь(201С); Р(28282828282828)

<A>[<S>]<A> - «атом минимальный путь - атом». С[4]С1

{(<NcycIe>[ {<Nconnect>} ]<Q>)} - дескрипторы, задающие размер и форму структуры циклических систем; (6[0]1) шестичленный цикл один; (6[2]1)(6[22]1)(5[2]1) два шестичленных и один пятичленный циклы, причем один шестичленный цикл имеет одно касание с другим циклом 2 атомами, второй шестичленный цикл имеет касания с двумя циклами (2 атомами с шести членным и 2 атомами с пятичленным)

Также с целью обеспечения гибкости БД была введена возможность задавать произвольные пользовательские дескрипторы (фрагменты структуры). Данные дескрипторы используются, когда возможно точно задать описание характерного фрагмента структуры.

Методы, алгоритмы и программные средства для классификации и синтеза информации

В современных химических БД посредством классификации химикатов по структурной составляющей решается целый спектр задач:

■ автоматическая группировка химикатов в кластеры/классы, по принципу схожести структурной информации;

■ определение степени кластеризации химикатов с целью получения характеристик полученных классов;

• отбор ограниченного числа химикатов для представления всех структурных классов в общем множестве химикатов;

" обнаружение уникальных химикатов, не вошедших в классы;

■ обеспечение быстрого поиска химикатов определенного класса;

■ восстановление количественных «пропущенных данных» в рамках классов.

Классификаторы БД представляют знания об информационных объектах системы, что ведет к повышению качества пространства данных (верификация данных, классификация новых объектов, Восстановление пропущенных данных). Т.е. по сути дела классификаторы БД представляет собой элемент базы знаний.

В данной диссертации предлагается подход к данной проблеме, направленный на манипулирование химико-структурными данными с помощью формул Маркуша.

Разрабатываемые методологические подходы к классификации и синтезу информации реализованы как на этапе проектирования и программирования прототипа соответствующей БД (рис. 7), так и непосредственно при создании приложений универсального пользовательского интерфейса.

Основные, рассматриваемые в рамках настоящей диссертации, функции пользовательского интерфейса БД включают:

• поиск, регистрацию и классификацию химико-структурных данных

■ байесовскую классификацию химических веществ по свойствам

■ прогнозирование и оценку количественных характеристик химикатов.

Решение задач прогноза, классификации и в целом синтеза информации в различных предметных областях, связанных с химией, требуют прежде всего развитых средств манипулирования химико-структурными данными.

Разработанные соответствующие типовые формы пользовательского интерфейса поддерживают следующие функции:

■ Поиск/классификацию химикатов в БД по атрибутам данных

■ Поиск/регистрацию химикатов в БД по структуре

■ Подструктурный поиск/классификацию БД по молекулярным фрагментам

■ Поиск/регистрацию/класеификацию веществ по формулам Маркуша

■ Регистрацию формул Маркуша

■ Поиск формул Маркуша в БД и информационная классификация химикатов.

Реализация этих функций наиболее полно раскрывает возможности формализации и индексации данных по их химико-структурной составляющей и создает основу для поэтапного моделирования, классификации и синтеза информации.

На этапе информационной классификации - установление факта соответствия анализируемого химического вещества той или иной формуле Маркуша, зарегистрированной в БД, может служить основанием для прямого наследования категорированных данных и моделей соотношений количественных данных, приписанных соответственному обобщенному химикату, зарегистрированному в БД.

Основанием для использования подобных моделей служит как наличие установленных количественных зависимостей «свойство -свойства» (регрессионные модели), так и других моделей, в том числе и байесовской классификации. При этом могут использоваться как модели, построенные на массивах данных в самой базе данных, так и модели,

настроенные для определенных Маркуш - классов веществ, взятых из литературных источников или внешних баз данных.

Наличие противоречивых данных по уже зарегистрированным в БД отдельным веществам в рамках Маркуш - формулы (класса) служит основанием использования методов статистической классификации.

На этапе статистической классификации - установление факта соответствия анализируемого химического вещества той или иной формуле Маркуша, зарегистрированной в БД, служит основанием для использования релевантных байесовских моделей для оценки шансов правильного наследования тех или иных признаков соответствующего обобщенного химиката в БД.

Интерфейс работ по байесовской классификации химических веществ отражает (рис. 4):

■ формирование обучающих выборок веществ по классам/Маркуш -классам и настройка моделей прогноза

■ поиск для формулы Маркуш - релевантных моделей классификации и выдачу результатов прогноза (по классам свойств и интервалам значений количественных данных).

«МЧИ» Ток*, ей« Дате Оки) %

¡Л «И т1Й1А.1

Рис.4. Пользовательский интерфейс БД для построения байесовской

модели.

Байесовскую классификацию задаваемого химиката проводят с использованием предварительно настраиваемых моделей, задающих

дескрипторный образ той или иной категории активности веществ. Под дескрипторным образом вещества понимается наличие в нем тех или иных фрагментов молекулярной структуры («отпечатки пальцев»). Основанием для возможности отнесения заданного химиката к той или иной категории активности являются вычисляемые шансы (интегральная составляющая эмпирической функции распределения категорированных химикатов по логарифму отношения правдоподобия) и ошибка распознавания (доля неправильно распознанных химикатов в модели).

Ограничением на использование байесовского подхода к прогнозированию является наличие данных для достаточно представительной выборки химикатов, обладающих определенной формой активности.

Алгоритм построения модели байесовской классификации включает следующие шаги:

1. Из БД извлекается информация о дескрипторах заданных типов.

2. Извлекается информация о веществах, принадлежащих заданным классам свойств.

3. Проверяется наличие дескрипторов заданных типов в структурах веществ из противопоставляемых классов 1 и 2, с подсчетом вероятности встречаемости дескрипторов в структурах веществ классов 1 и 2, а также определением их информационной значимости для данной модели. Для этого используется критерий дивергенции Кульбака - Лейблера [28].

4. Дескрипторы, не являющиеся информативными для разделения классов 1 и 2, удаляются из выборки.

Предусматривается несколько режимов выбора информативных дескрипторов:

1) по определенному количеству наиболее информативных дескрипторов;

2) по тем дескрипторам, информативность которых выше некоторого порогового значения;

3) по дескрипторам, информативность которых выше значения, определяемого по таблице хи-квадрат соответственно допустимому уровню ошибки.

5. Для каждого химиката выборки вычисляются отношение правдоподобия, представляющее сумму логарифмов отношения вероятностей попадания дескриптора в классы 1 и 2. Суммирование проводится для всех не удаленных на шаге 4 дескрипторов данного вещества.

6. В диссертации использовано следующее решающее правило: порог (граница между классами) определяется из равенства относительных ошибок отнесения веществ к классам 1 и 2 (ошибок первого и второго рода, критерий Неймана-Пирсона), определенных по

эмпирическим функциям распределения отношений правдоподобия для классов 1 и 2.

7. Вычисляется общая ошибка модели как отношение общего количества неправильно классифицируемых веществ к общему количеству веществ в выборке.

8. Осуществляется проверка качества модели, путем последовательного определения попадания в классы 1 и 2 химикатов, принадлежность которых к классам известна (Используются химикаты как из обучающей выборки, так и не участвующие в обучении).

Алгоритм байесовской классификации по построенным моделям химиката включает следующие шаги:

1. Из БД выбирается необходимый (или регистрируется новый) химикат с известной структурой.

2. Извлекается информация об отобранных байесовских моделях.

3. Для текущего химиката вычисляется отношение правдоподобия, представляющее сумму логарифмов отношения вероятностей попадания дескриптора в класс 1 и 2. Суммирование проводится для всех дескрипторов данной структуры, присутствующих в модели.

4. На основе рассчитанных в модели интервалов значений функций правдоподобия (гистограмм) определяются шансы попадания химиката в классы 1 и 2 как значения эмпирических функций распределения вероятности для классов 1 и 2.

5. Вычисляется ошибка попадания химиката в класс 1 как отношение неправильно классифицируемых химикатов из класса 1 ко всему множеству химикатов из класса 1. Так же рассчитывается ошибка попадания химиката в класс 2.

При этом, значения эмпирических функций распределения химикатов по логарифму отношения правдоподобия для классов 1 и 2 интерпретируются как шансы попадания задаваемого химиката в соответствующие классы (нормированные на 100% для каждого класса).

Ошибка распознавания модели в целом определяется как доля неправильно распознанных химикатов.

При построении модельного примера на достаточно большой выборке [4] ошибка модели составляет 0.20, что является сопоставимым с результатами приводимыми для подобного рода моделей в литературе [29].

На этапе прогнозирования и оценки количественных свойств -

установление факта соответствия анализируемого химического вещества той или иной формуле Маркуша, зарегистрированной в БД, служит основанием для использования релевантных моделей КССС (количественные соотношения свойство-свойство) для пересчета и/или прогноза требуемых характеристик.

Интерфейс работ по моделированию КССС химических веществ включает (рис. 5):

■ Маркуш - формализацию, унификацию и накопление литературных данных по моделям пересчета/экстраполяции данных и КССС

■ формирование обучающих выборок по Маркуш - классам химикатов и настройку моделей количественных соотношений свойств веществ

" поиск для химической структуры релевантных моделей и формирование прогнозных оценок.

60090 Н-Ь*

в1Э4Э~*«си 61404 Пю9м>

«412 М«Си »492 4сНм Ы51& V «мм 61519 Мвгец * 51500

ЙЯ5 Шюл 61599 Неси '

1301280 Л178-240 1437 1201 «оЛв

М-в 2310.710 (2017320 2646 77Щ

1375960 (1190060 19ЮЛвП

_1405ввО (1222 740 1«16.440)

М« И 326.120 11126.0» 1961 7Я) я^кд

М4 ОМ» (596725 944,045;

в№*2В (БПЛ24 1142ЛШ пр*д

М-13 $40485 (63208 1278530) яфЛ? М 20 1002Л60 (749.371 >33100(9 тд&д

и 25 590441 (402X1 06ШЙ тр/кр

61600!РЬап# 61600 М«си ^ ^Вав.Меюи '

817Эв!Ь«тор '

ят'Мот 61790 !Мавш-С1794.1псНо>(, Б1В0В Т«я». '

7.1 Л ♦ 05451Л*Т_От^ай_ШЗД 7 тт. 0Л _1РЯ_МЦ5 I

72« . ОЯТЭЧл^Т.ОЯЦМи^.ШбЦ . 013тд*Т,№Я_М1№..1М0| 71».О 0*ЯжАТ ♦ 0Д79гг<АТт0В1^М1Й_10Я)|

5530 « 0/4ят4*т.0й10ит_а>90) ♦ О24Г1^*Т_5Си_Ми5_Ш50|;

• Ш6 ♦ О 7Ю \|«Тг$^-бР6_Ю90)

. 0510 ♦ » 0 4Ж**Т_$С11_Ми5.1[)ВД

. 6Л1 * О

Рис.5. Пользовательский интерфейс БД для регрессионного моделирования свойств: модели для одной из характеристик токсичности (среднесмертелъная доза ЬЭ50 для кроликов при накожном воздействии).

Модуль регрессионного моделирования КССС ориентирован на выявление прогностически значимых статистических моделей связи табличных количественных данных аналитической БД (блок генерации регрессионных моделей) и использование их для прогноза отсутствующих данных (блок формирования прогнозных оценок). Блок генерации включает процедуры формирования регрессионных моделей связи выбираемых таблиц, выполнение необходимых преобразований переменных, задания ограничений по классам свойств и «пропущенным данным» для веществ, включаемых в регрессионный анализ, вычисления оценок моделей и сохранения их в аналитической БД Блок формирования прогнозных оценок включает процедуры поиска в БД «подходящих» регрессионных моделей и пересчета

(прогноза) необходимых данных для заданного вещества исходя из имеющихся по нему в БД других данных.

Алгоритм построения регрессионной модели КССС включает следующие шаги:

1) Из БД извлекается информация о доступных ' массивах количественных данных, категорированных по типу активности, объекту, профилю и воздействию.

2) На основе полученных массивов данных формируется линейная модель регрессии вида:

Y = В„ + В, * X, (1) или У = В„ + В1*Х,+В2*Х2 (2)

3) Производится фильтрация химикатов по необходимому выбранному классу свойств (физико-химических, биологических).

4) Осуществляется оценка неизвестных коэффициентов регрессии В0, Вь В2 и неизвестной дисперсии S2 методом наименьших квадратов. Этот метод в предположении нормальной распределенности результатов наблюдений приводит к оценкам коэффициентов регрессии и ее дисперсии, совпадающим с оценками метода наибольшего правдоподобия. Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности.

5) Рассчитываются параметры регрессионной модели: множественный коэффициент корреляции R, стандартная ошибка отклонения от регрессии S, коэффициент Фишера F.

6) Построение доверительных интервалов для коэффициентов регрессии В0, В], В2 и проверка гипотезы об отсутствии регрессионной связи В, = 0, г = 0,1,2 производится с помощью распределения Стьюдента.

На рис.9 представлен пример применения регрессионных моделей для прогноза/пересчета среднесмертельной дозы LD50 для кроликов при накожном воздействии анилином. Анализ различий между фактическими и прогнозируемыми величинами показывает сопоставимые результаты с приводимыми для подобного рода моделей в литературе [30].

Основные фрагменты физической структуры данных БД

Хранение химических веществ и формул Маркуша осуществляется в рамках схемы на рис. 6 (CODE(CODID) <=> CODPIC <=> STRUCTURE(PICID)).

Таблица [CODE] содержит основную регистрационную информацию по химическим веществам: идентификационные коды (RTECS, CAS, BEILSTEIN), название (IUPAC), молекулярную формулу, брутто - вес. Таблица [STRUCTURE] содержит структурную составляющую химических веществ (химические структуры). Таблица [COD PIC] реализует отношение

«многие ко многим» между таблицами [CODE] и [STRUCTURE], Таблица [CODCOD] реализует отношение «многие ко многим» для связи химикатов, представленных формулами Маркуша, с индивидуальными химическими веществами. Таблица [COD MODEL] реализует отношение «многие ко многим» для связи химикатов, представленных формулами Маркуша, с различными типами моделей. Таблица [SYNON] содержит наборы синонимов для химических веществ (отношение «один ко многам»).

Рис. 6. Структура данных БД для унифицированного хранения химических веществ и формул Маркуша.

Классификация химических веществ осуществляется в рамках схемы на рис.7.

J* MODEL _ID

33 MODEL^TYPE Л MOOEL^NAMe ¿j MODEL"dATE Я CLASS

NOT_CLA5S Jj NUM_1N Л NUM _OUT f=ILTER5_NUM NUM_HIST_INT MIN RANGE CL

Int ___

Irit"

dMatlme

varchar(100)

vwcharflOO}

int

lint

jg MAX_RANGE_CL jjg MIN_RANSE~«CL

fMAXJ«ANGE_NCl' BORDER

fERR IN

ERR „OUT _ j Щ»Я_ТОТ J

m filters

Q CODES

Ж hist"

f I oett(53) AoM(53} floec(53) floM(S3) flo«t(53) Пож(53)

Flaet(53;

_

lm"9« -image

Рис. 7. Структура данных БД для классификации химических веществ (в том числе с помощью формул Маркуша).

Таблица [CLASS_DEF] содержит классы химических веществ. Таблица [COD_CLASS] реализует отношение «многие ко многим» между таблицами [CODE] и [CLASS DEF]. Таблица [B MODEL] осуществляет хранение байесовских моделей классификации химических веществ (противопоставленные классы, наборы дескрипторов и химических веществ, ошибки первого и второго рода, гистограмму эмпирических функций распределения попаданий химических веществ из обучаемой выборки в класс и не класс).

Хранение фактографической информации и восстановление количественных «пропущенных данных» осуществляется в рамках схемы на рис. 8.

Таблица [TOXDATA] содержит фактографическую информацию по химическим веществам. Таблица [DATA DEF] реализует формализацию (является таблицей определения) количественных данных в рамках схемы: профиль - объект - воздействие. Таблица [DATA REG] осуществляет хранение регрессионных моделей для восстановления количественных свойств химических веществ (класс или Маркуш - формула, в рамках которых отбираются химикаты; идентификаторы наборов химикатов (переменные регрессии) в рамках схемы: профиль - объект - воздействие; единица измерения данных; стандартная ошибка; число химикатов в модели (число наблюдений); множественный коэффициент корреляции; значение функции Фишера для анализа дисперсии).

15 ATA REXi •

Щ MOO JO ,nt H

TAajDl tnt

Ц DM vardwtlS)

TABJD2 Int

| Л TA#JD5 if* ,,

A floe» (S3)

8

С flo*(53)

N Inc

R flow{53)

F floKiS3)

s Яв*{5Э) f

—; CL ASSJD int

Д1РАТА.Ю ire

3jTA8_ID In*

Т1соо_и> inc

Ммт» float(S3)

int

~[5Т_РДТ A No«(53)

5T_PIH _ID int

Ц PAT A. g ASS Int

~ЩВ1В. ID Inc

"ЩрАТ A_SIQN theril)

DIM EN 5 varchar(2S0)

¡21 NOTE vtrcherflOO)

M TA8J0 tnt

ШOATA TYPE v«rchar(3>

уЩш _з*эят v<rctw(3)

Щоея^нолт y«rch*(3)

!Tv|PftO_SHORT varctar(4)

Щтавлше varehar(31}

T3INF ID Inc

¡MoeijD <nt

fnt

£

aASSJD

CIASS_TYPE

CIASSJ*EF

CLASS МАЯК

O.ASSJ5HORT

CLASS_NAM£

ICODF

| ^ЯЩП-ЩЩ! 1,1 ^ jU'JP1 bJ d

COD JD int

COO_T rP£ int «¡j

CO© „NAME v*rch*r(10)

COD CAS

BEZLffreilV cb*r(l<l)

8EZISTEINJ*EF •*rchar(l5)

IUPAC v*rchar(600)

COO_MARK inc

FORMULA v«rdw(80)

WEt&MT fl&«(S3)

— PICTURE imaQ* . z

Рис. 8. Структура данных БД хранения фактографической информации и восстановления количественных «пропущенных данных» (в том числе с помощью формул Маркуша).

Хранение дескрипторной информации по химическим структурам осуществляется в рамках схемы на рис. 9.

Рис 9. Структура данных БД хранения структурных дескрипторов химических структурам. Таблица [FILTRS] содержит дескрипторы химических структур. Таблица [FIL TYP] реализует отношения «многие ко многим» с таблицей [FILTYPES]. Таблица [FELTYPES] осуществляет хранение типов дескрипторов. Таблица [PIC FIL] реализует отношение «многие ко многим» с таблицей [STRUCTURE],

Использованный программный инструментарий

Для отработки информационных и программно-технологических средств БД была использована реляционная СУБД MS SQL 7.0. В качестве инструмента для разработай универсального пользовательского интерфейса БД была использована интегрированная среда разработки программных приложений Delphi/C++.

Следует отметить, что специфичность химической информации (представление химических объектов в виде графов) приводит к необходимости использования таких моделей данных как расширенная реляционная, объектно-реляционная или объектно-ориентированная. В связи с проведением настоящей разработки на основе реляционной СУБД MS SQL Server 7.0 реализация возможности работы с такими структурами данных была перенесена в программную часть (хранение таких типов данных осуществляется в структурированных BLOB - полях, а манипулирование с ними реализуется внешними программными функциями).

Направления дальнейших применений

Формула Маркуша представляет собой помеченный (взвешенный) граф, а методы обработки ее - применение математической теории графов. Соответственно, наработанные методы могут быть использованы при

создании БД, ориентированных на обработку химико-технологических объектов (химические реакции, технологические схемы производства, химико-технологические процессы/аппараты и т.д.), которые являются важными для осуществления национального контроля за выполнением Конвенции о запрещении химического оружия.

Разработка концепции, исследовательских прототипов и программно -технологических решений регистров таких химических информационных объектов рассмотрены в работах [1,2,3].

Заключение

1. В процессе работы над диссертацией были разработаны структура БД, алгоритмы, методы и программные интерфейсы для регистрации, хранения и анализа больших объемов химико-структурных данных и релевантной к ним фактографической информации, в том числе по опасным токсичным химикатам.

2. Структура БД предполагает собой наличие механизма классификации химических веществ как необходимого элемента формирования знаний в БД. Для реализации подобного механизма в данной работе предлагается использовать формулы Маркуша, позволяющие реализовать достаточно эффективный алгоритм формализации, классификации и интеграции данных и знаний по их химико-структурной составляющей, ориентированный на выявление опасных химических веществ.

3. Таким образом, разработанные методы и программные средства баз данных и пользовательского интерфейса обеспечивают регистрацию, хранение, манипулирование и использование формул Маркуша в базах данных с химической информацией и создают предпосылки для глобальной экстракции, унификации, верификации и инвентаризации знаний как по моделям КССС, так и в целом по предметным областям знаний, релевантным химии.

4. Разработанные методологические подходы и программные средства апробированы и использованы при создании и эксплуатации базы данных по химическим веществам ЗАО ЦИНТЭНСИ (являющейся развитием информационной системы «Токсикология» [31]), информационно -моделирующей системы по проблемам Конвенции о запрещении химического оружия (методология которой описана в работах [32] и [33]), а также при разработке новой версии регистрационной системы по химическим веществам ВИНИТИ [15].

Результаты изложены в следующих статьях:

1 Афонина H.H., Бирюков A.JI., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов А.К., Нефедов О.М., Остапчук Р.В. Развитие банка данных информационных ресурсов ВИНИТИ по химии и химической технологии: от структурных данных к материальной химии и технологии.

1. Разработка концепции и исследовательских прототипов регистров химических информационных объектов. // Мембраны. - 2001. - №12 - с. 38-51.

2. Афонина H.H., Бирюков A.JL, Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова H.H., Мартиросов А.К., Нефедов О.М., Остапчук Р.В., Сафронова О.С., Федоровская М.А. Развитие банка данных информационных ресурсов ВИНИТИ по химии и химической технологии: от структурных данных к материальной химии и технологии.

2. Программно - технологические решения регистров химических соединений и реакций. // Мембраны. - 2002. - №16. - с. 39-52.

3. Афонина H.H., Бирюков A.JL, Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова H.H., Мартиросов А.К., Нефедов О.М., Остапчук Р.В., Федоровская М.А. Развитие банка данных информационных ресурсов ВИНИТИ по химии и химической технологии: от структурных данных к материальной химии и технологии. 3. Реализация интегрального подхода к адаптивной системе информационного обеспечения в областях разработки и применения химических веществ и материалов. // Мембраны. - 2003. - №20. - с. 23-38.

4 Мартиросов А.К., Гончаренко Д.И., Зацепин В.М., Иванченко В.А. Применение формул Маркуша в современных химических информационных системах: методические и программно-технологические средства. // НТИ. Сер.2. - 2004. - №4. - с. 21-33.

А также в кратких сообщениях и тезисах:

5. Зацепин В.М., Иванченко В.А., Ковалев А.Б., Мартиросов А.К., Пчелин О.И. Практические аспекты создания базы данных по химическим веществам для аналитико-информационных технологий в медицине и токсикологии. «Передовые технологии на пороге XXI века», тезисы международной научно-практическая конференции 1САТ'98, 5-9 октября 1998 , Москва, часть П, «Инженер», М, 1998 г. - с. 312-318.

6. Бирюков A.JL, Зацепин В.М., Иванченко В.А., Мартиросов А.К. Разметка химических баз данных на основе формул Маркуша для целей классификации и синтеза информации. VII Российский национальный Конгресс "Человек и лекарство", Москва, 10-14 апреля 2000 г. - с.475-476.

7. Бирюков A.JL, Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов А.К., Остапчук Р.В. Регистрация Маркуш-структур в химических базах данных для классификации и синтеза информации и проблемы патентно-информационного обеспечения исследований и разработок в области химии и химической технологии. 5-я

Международная конференция «НТИ-2000», 22-24 ноября 2000 г. М.: ВИНИТИ РАН, 2000. - с.48-50.

8 Бирюков А.Л., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Макаров В.И., Мартиросов А.К., Остапчук Р.В. Операционно-технологическая база данных для содержательной переработки научно-технической и патентной информации в области химии и химической технологии. Материалы 5-й Международной конференции «НТИ-2000», 22-24 ноября 2000 г. М.: ВИНИТИ РАН, 2000. - с.50-51.

9 Афонина H.H., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Немировская И.Б., Мартиросов А.К., Остапчук Р.В. Разработка информационно-программного и технологического обеспечения для комплексной однократной дополнительной обработки политематических документов в области химии и химтехнологии при переходе ВИНИТИ на однократное реферирование Отчет о НИР, ВИНИТИ, 2000. - № госрег. 01200112253. Инв.№ 0220010710. - 115 с.

Ю.Зацепин В.М., Иванченко В.А., Афонина H.H., Гончаренко Д.И., Мартиросов А.К., Остапчук Р.В. Программный комплекс для автоматизации содержательной обработки документально-фактографических источников медико-биологической информации. Научно-практическая конференция «Медицинские информационные технологии». М., ВВЦ, 2001. - с. 73-74.

П.Афонина H.H., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов А.К., Остапчук Р.В. Интегральная информационно-аналитическая система по химическим веществам для поддержки биомедицинских и токсикологических исследований. Научно-практическая конференция «Медицинские информационные технологии». М.,ВВЦ,2001.-с.23-24.

И.Афонина H.H., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова HJJ-, Мартиросов А.К., Остапчук Р.В., Федоровская М.А. Разработка технологии создания и подготовки кумулятивного формульного указателя к РЖ Химия на основе базы структурных данных по химии 1996-2000гг. Отчет о НИР, ВИНИТИ, 2001. - № госрег. 01200204742. Инв.№ 02200203012. - 34 с.

13 Гончаренко Д.И., Афонина H.H., Бирюков А.Л., Зацепин В.М., Иванченко В.А., Круглова H.A., Мартиросов А.К. Разработка автоматизированного рабочего места для содержательной переработки научно-технической и патентной информации и формирования массивов реферативно-библиографических данных. Материалы 6-й Международной конференции «НТИ-2002», 16-18 октября 2002 г. М.: ВИНИТИ РАН, 2002,- с.116.

14. Бирюков А.Л., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов А.К., Остапчук Р.В. Автоматизированная обработка первичных и вторичных источников информации в области химии и химической технологии. Материалы 6-й Международной конференции «НТИ-2002», 16-18 октября 2002 г. - М.: ВИНИТИ РАН, 2002,- с.271.

15. Мартиросов А.К., Бирюков А.Л., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Иванченко В.А., Остапчук Р.В. Разработка автоматизированной системы регистрации и классификации химико-структурных данных с использованием формул Маркуша. - Материалы 6-й Международной конференции «НТИ - 2002», 16-18 октября 2002 г. - М.: ВИНИТИ РАН, 2002. - с.241-242.

16. Бирюков А.Л., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов А.К., Сафронова О.С. Разработка системы формализации и регистрации информационных объектов в интегральной многоаспектной базе данных по химии и химической технологии. Материалы 6-й Международной конференции «НТИ-2002», 16-18 октября 2002 г. - М.: ВИНИТИ РАН, 2002,- с.303.

17. Афонина H.H., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова H.H., Круглова H.A., Мартиросов А.К., Остапчук Р.В., Федоровская М.А. Отработка исследовательского прототипа системы регистрации химико-структурных данных и подготовки компьютерного формульного указателя в новом технологическом цикле отдела СХИ. Отчет о НИР, ВИНИТИ, 2002. - № госрег. 01200312875. Инв.№ 02200305413.-23 с.

18. Афонина H.H., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова H.H., Круглова H.A., Мартиросов А.К., Остапчук Р.В., Федоровская М.А. Совершенствование технологии формирования межотраслевого издания (РЖ "Химическая и биологическая безопасность"). Отчет о НИР, ВИНИТИ, 2002. - № госрег. 012003. Инв.№ 022003. - 14 с.

19. Афонина H.H., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов А.К., Остапчук Р.В., Сафронова О.С. Адаптивная система информационного обеспечения для поддержки биомедицинских и токсикологических исследований. Проблемы стандартизации в здравоохранении. - М.: «Ныодиамед», 2003. - с. 61.

20 Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова Н Н., Катаева В.В., Мартиросов А.К., Остапчук Р.В., Федоровская М.А. Создание вебсайта по структурно-химической информации базы СД ВИНИТИ по приоритетным направлениям развития науки, технологий и техники. Отчет о НИР, ВИНИТИ, 2003. - № госрег. -нах-ся на регист. Инв.№ -нах-ся на регистр. - 50 с.

21. Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова H.H., Катаева В.В., Мартиросов А.К., Остапчук Р.В., Федоровская М.А. Разработка концепции информационного .обеспечения научных исследований и работ по проблемам химической и биологической безопасности. Отчет о НИР, ВИНИТИ, 2004. - № госрег. -нах-ся на регист. Инв.№ -нах-ся на регистр. -20 с.

22. Зацепин В.М., Иванченко В.А., Гай М.А., Гончаренко Д.И., Катаева В.В., Мартиросов А.К., Остапчук Р.В. Опыт информационного обеспечения проблем химической и биологической безопасности. XII Российский

национальный Конгресс "Человек и лекарство", Москва, 18-22 апреля 2005 г. - с. 754.

23. Зацепин В.М., Иванченко В.А., Гай М.А., Гончаренко Д.И., Катаева В.В., Мартиросов А.К., Остапчук Р.В. Разработка системы формализации и регистрации информационных объектов в интегральной многоаспектной химико-биологической базе данных. XII Российский национальный Конгресс "Человек и лекарство", Москва, 18-22 апреля 2005 г. - с. 754.

Литература

24. Влэдуц Г.Э., Гейвандов Э.А. Автоматизированные информационные системы для химии. - М: Наука, - 1974. - с. 137-146.

25 Austin Robert. The Complété Markush Structure Search: Mission Impossible?

- PÏUG North East Workshop, October I6a 2001. Fachmformationszentrum Kailsruhe, - October 2001. http://www.fiz-karlsruhe.de.

26. Нигматуллин P.C., Осипов A.JL, Карпова H.A. Система поиска и анализа патентной информации о химических соединениях // НТИ. - Сер.2. - 1989.

- №1. - с. 14-17.

27 Зацепин В.М., Нигматуллин P.C.. Информационно - вычислительные системы в научных исследованиях по разработке пестицидов. - М.: НИИТЭХИМ, 1988. - с. 86.

28. Кульбак С. Теория информации и статистика. Пер. с англ. - М. -1967.

29 Бородина Ю.В., Филимонов Д.А., Поройков В.В. Предсказание активности пролекарств с помощью компьютерной системы PASS. // Химико-фармацевтический журнал. - 1996. - т. 30. - № 12. - с.39-41.

30 Новиков С.М., Нургабылова А.Б., Филимонов Д.А., Поройков В.В. Прогнозирование гигиенических регламентов промышленных веществ, обладающих раздражающим действием. // Гигиена и санитария. - 1995. -№6. - с. 16-19.

31. Зацепин В.М., Иванченко В.А. База данных по химическим веществам «Токсикология» для аналитико-информационных технологий. - Химия в России, - 1999,- №1.-с. 14-17.

32. Банников А.И., Иванченко В.А., Зацепин В.М. Проблемы классификации и токсикологической оценки химикатов при реализации Конвенции о запрещении разработки, производства, накопления и применения химического оружия, и о его уничтожении. - Сб. "Федеральные и региональные проблемы уничтожения химического оружия". Вып.4. -М.: ВИНИТИ, 2003,-с. 16-23.

33. Зацепин В.М., Иванченко В.А., Левчук М.Н. Об информационном обеспечении проблем химической и биологической безопасности. - Сб. "Федеральные и региональные проблемы уничтожения химического оружия". Вып.З. - М.: ВИНИТИ, 2003.- с. 141-144.

I

л

I

»17170

РНБ Русский фонд

2006-4 16286

Оглавление автор диссертации — кандидата технических наук Мартиросов, Александр Константинович

Введение.

1. Актуальность темы.

2. Задачи диссертации.

3. Научная новизна.

4. Практическая значимость.

5. Структура диссертации.

Глава 1. Состояние и основные тенденции крупных многоаспектных баз данных

БД) в области химии.

1.1. Проектирование и разработка крупных БД в области химии.

1.1.1 Современные крупные БД в области химии.

1.1.2 Основные задачи БД в области химии.

1.1.3 Разработка БД для информационных систем (ИС) в области химии.

1.1.4 Обзор инструментальных средств разработки БД.

1.2 Форматы представления химической информации.

1.3 Подходы к решению основных задач крупных БД в области химии.

1.3.1 Поиск/идентификация химических веществ.

1.3.2 Использование дескрипторов химических веществ.

1.3.3 Регистрация химических веществ в современных крупных БД.

1.3.4 Классификация химических веществ в современных крупных БД.

1.3.5 Синтез информации в БД.

1.4 Применение формул Маркуша в химических БД.

1.4.1 Родовые химические структуры (формулы Маркуша).

1.4.2 Применение формул Маркуша в патентных БД.

Глава 2. Программно-технологические решения регистрации и классификации химико-структурных данных для фактографической базы данных (БД) на основе применения формул Маркуша.

2.1 Задача разработки программно-технологических средств для регистрации и классификации химико-структурных данных в химической БД.

2.2 Программно-технологические решения для загрузки данных в БД.

2.3 Программно-технологические решения для идентификации/регистрации химических веществ.

2.4 Программно - технологические решения для поиска химических веществ.

2.5 Программно-технологические решения применения формул Маркуша.

2.5.1 Язык описания Маркуш - радикалов.

2.5.2 Интеграция в БД редактора MSE (Molecular Structure Editor).

2.5.3 Подсистема хранения формул Маркуша.

2.5.4 Подсистема поиска по формулам Маркуша.

2.6 Использование молекулярных фрагментов (структурных дескрипторов) химических веществ.

2.7 Программно-технологические решения для классификации информации.

2.7.1 Программно-технологические решения для классификации информации на основе справочников - реестров.

2.7.2 Программно-технологические решения для классификации информации на основе количественных данных.

2.7.3 Программно-технологические решения для классификации информации на основе молекулярной информации (дескрипторы, структуры, формулы Маркуша).

2.7.4 Программно-технологические решения для классификации информации на основе статистических моделей.

Глава 3. Методы, алгоритмы и программные средства для классификации и синтеза информации.

3.1 Методологические подходы моделирования, классификации и синтеза информации.

3.2 Информационная классификация.

3.3 Статистическая байесовская классификация.

3.4 Примеры использования байесовского подхода к классификации химических веществ.

3.5 Статистическая количественная классификация.

Глава 4.0сновные фрагменты структуры данных БД.

4.1 Концептуальная (логическая) схема БД.

4.2 Основные фрагменты физической структуры данных для регистрации/хранения химических веществ в БД.

4.3 Основные фрагменты физической структуры данных для классификации химических веществ в БД.

4.4 Основные фрагменты физической структуры данных для хранения фактографической информации в БД.

4.5 Основные фрагменты физической структуры данных для регистрации / хранения химических структур и молекулярных дескрипторов в БД.

Глава 5. Основные формы пользовательского интерфейса БД.

5.1 Экранная форма «Химикат».

5.2 Экранная форма «Поиск химикатов по структурной составляющей».

5.3 Экранная форма «Дескрипторы».

5.4 Экранная форма для классификации «Категорированные данные».

5.5 Экранная форма «Количественные данные».

5.6 Экранная форма «Обобщенный поиск».

5.7 Экранная форма «Обобщенный фильтр».

5.8 Экранная форма «Регрессионное моделирование».

5.9 Байесовский прогнозатор.

5.9.1 Экранная форма «Байесовский прогнозатор».

5.9.2 Экранная форма «Отбор дескрипторов».

5.9.3 Экранная форма «Построение моделей RTECS».

5.9.4 Экранная форма «Построение моделей TOXIC».

5.9.5 Экранная форма «Прогноз».

Направления дальнейших применений.

Введение 2005 год, диссертация по документальной информации, Мартиросов, Александр Константинович

Данная работа посвящена разработке программно-технологических средств для регистрации и классификации химико-структурных данных в химической базе данных (БД) в системе информационного обеспечения по проблемам химической безопасности, в том числе по аварийно химически опасным веществам (АХОВ), психотропным / наркотическим лекарственным веществам (ПЛВ/НЛВ), сильнодействующим ядовитым веществам (СДЯВ) и их прекурсорам, химическим веществам, подпадающим под действие Конвенции о запрещении химического оружия. Специальное внимание в работе уделено использованию формул Маркуша, позволяющих реализовать достаточно эффективный алгоритм формализации, классификации и интеграции данных и знаний по их химико-структурной составляющей, ориентированный на выявление опасных химических веществ.

1. Актуальность темы

В «Основах государственной политики в области обеспечения химической и биологической безопасности Российской Федерации на период до 2010 года и дальнейшую перспективу», утвержденных Президентом РФ В.В. Путиным (Пр-21944 от декабря 2003 г.), указывается на необходимость создания государственной системы обеспечения химической и биологической безопасности Российской Федерации (как подсистемы единой государственной системы предупреждения и ликвидации чрезвычайных ситуаций), предусматривающей категорирование, прогнозирование, предупреждение и парирование угроз химической и биологической безопасности, ликвидацию последствий чрезвычайных ситуаций в результате воздействия химических и биологических факторов [24].

Одним из важных направлений, указанных в документе, является разработка и внедрение информационных аналитических систем (НАС) в сфере математического моделирования для выявления закономерностей в области обеспечения химической и биологической безопасности [24].

Информационное обеспечение по проблемам химической безопасности непосредственно связано с формированием фактографических баз данных по токсическим химическим веществам (АХОВ, СДЯВ, ПЛВ, HJ1B и др.) и их прекурсорам, а также баз знаний - моделей для классификации, прогноза/восстановления пропущенных данных и выявления опасных химических веществ.

В настоящее время значительная часть фактографических данных, связанных с токсическими химикатами, рассредоточена по многочисленным информационным, медицинским, химическим, биологическим и технологическим базам данных, отдельным научным отчетам, технологическим регламентам, научным публикациям, патентам и нормативно-правовым/справочным документам. Зачастую, необходимая информация в этих ресурсах плохо формализована и не верифицирована, а иногда и просто отсутствует. Также, важно отметить, что использование таких ресурсов и зарубежных интегрированных информационных систем может быть ограничено конфиденциальностью как запрашиваемой информации (по совокупности), так и содержанием самого запроса, что не может не затрагивать интересы национальной безопасности [25].

Сложившаяся в настоящее время ситуация в части доступности мировых информационных ресурсов, технологии их переработки и прогресса в программных и технических средствах позволяет поставить и быстро решить задачу создания и поддержки жизненного цикла фактографических баз данных с химико-структурными данными для информационного обеспечения по проблемам химической безопасности.

Ключевыми компонентами при создании таких многоаспектных фактографических БД являются подсистемы регистрации и классификации химико-структурных данных. Их необходимость объясняется следующими причинами:

Процедура регистрации объектов в БД решает как непосредственно задачу обеспечения уникальности (идентификации) информации (химикатов), так и задачу целостности БД.

Процедура классификации данных является необходимой для эффективного использования данных при анализе и моделировании, в том числе для задач выявления вероятных прекурсоров синтеза опасных химических агентов.

В области химии наиболее представительной и актуальной системой регистрации химико-структурных данных индивидуальных химикатов является

CAS - Chemical Abstracts Service, БД которого включает более 25 миллионов веществ (по состоянию на май 2005 года). Сложившаяся за последние годы монополия CAS на оказание платной услуги на присвоение химикату уникального номера, не несущему никакой химической информации, во многих случаях затрудняет его использование в качестве кода/указателя для обращения к информации [80]. В плане программной реализации регистрации химических структур в БД можно также выделить подходы, предлагаемые фирмами MDL и DayLight.

Как правило, процедура классификации в БД реализуется на основе создания системы таблиц - классификаторов (справочников, словарей, документов, каталогов, рубрикаторов и т.п.) и приписыванием на их основе химикатам определенных классов. Также данная задача может решаться на основе обработки химико-структурной составляющей химикатов.

Классификаторы БД представляют знания об информационных объектах системы, что ведет к повышению качества пространства данных (верификация данных, классификация новых объектов, восстановление пропущенных данных). Т.е. по сути дела классификаторы БД представляет собой элемент базы знаний.

Принципиально важным подходом к решению вышестоящих задач является применение так называемых формул Маркуша (обобщенных химических структур).

Формула Маркуша (обобщенная химическая структура) представляет собой молекулярную структуру, состоящую из постоянной части и переменных заместителей [34]. По сути, представляя собой обобщение индивидуальных химических структур, формулы Маркуша могут выступать в качестве: гибких классификаторов химических веществ на основе химико-структурной информации, в том числе по списочным классам и структурным аналогам опасных химикатов; моделей обобщения и классификации при создании базы знаний по свойствам химических веществ.

Особенно широкое применение формулы Маркуша нашли в патентной области. В настоящее время только патентные базы наиболее крупных зарубежных информационных центров (Derwent World Patents Index; INPI Merged Markush Service (MMS) в сотрудничестве с Derwent Information Ltd (Markush

DARC); Chemical Abstracts Service MARPAT) обеспечивают регистрацию формул Маркуша и организацию доступа к ним широкого круга пользователей. Подобные же отечественные ресурсы отсутствуют, а публикации на эту тему носят единичный характер. Поэтому, включение в химические БД подсистем, способных обеспечить поддержку формул Маркуша, является весьма желательным.

Более широкое распространение в информационных технологиях Маркуш - формализации химических структур в настоящее время ограничено сложностью и трудоемкостью, как самой процедуры формализации, так и программно-методологическими средствами релевантного установления структурно - подструктурного соответствия в генерируемых информационных ресурсах.

В должной степени это относится и к проблемам формирования баз знаний в области химии и релевантным ей областям науки и техники. Поэтому, необходимо уделять много внимания актуальным вопросам разработки методологических подходов и программных средств химических баз данных для классификации и синтеза информации на основе формул Маркуша.

В диссертации формула Маркуша определяется как множество, класс химических соединений, отражающий определенный способ формализации, классификации, интеграции, унификации химико-структурной составляющей информации в области химии и химической технологии, в том числе и как способ представления условий запроса на поиск химических соединений в базах данных. При этом регистрация формул Маркуша по своей сути является должным образом организованной процедурой хранения в БД соответствующих поименованных запросов.

В данной работе рассматриваются следующие направления использования формул Маркуша в базах данных, предназначенных для решения задач в системе информационного обеспечения по проблемам химической безопасности:

1) разработка новой информационно - поисковой подсистемы обработки, хранения и манипулирования химико-структурной информацией в виде формул Маркуша;

2) разработка информационно - моделирующей подсистемы для прогнозной статистической классификации и оценки количественных свойств индивидуальных и обобщенных химических структур. Методика эффективного применения формул Маркуша иллюстрируется конкретными примерами из эксплуатируемых химических информационных систем.

Целью диссертации является разработка методов, алгоритмов и программных средств автоматизированных подсистем регистрации и классификации химико-структурных данных для решения задач в системе информационного обеспечения по проблемам химической безопасности.

2. Задачи диссертации

1) Исследование методов, алгоритмов, программных средств и структуры мировых информационных систем с химико-структурными данными по индивидуальным и обобщенным химическим структурам с акцентом на анализ подходов к решению задач поиска, классификации и синтеза информации;

2) Исследование существующих и разработка собственных форматов представления химических объектов (индивидуальных и обобщенных химических структур, а также других объектов, представимых помеченными графами);

3) Исследование и разработка методов, алгоритмов и программ для формализации, поиска/регистрации, классификации опасных химикатов и их прекурсоров в химических базах данных;

4) Разработка концептуальной схемы, проектных и программно-технологических решений по базе данных и базе знаний по опасным токсичным химикатам и их прекурсорам для ИАС по проблемам химической безопасности;

5) Интеграция разработанных программных средств, их тестирование/практическая апробация и исследование эффективности/полезности в ИАС для решения задач, связанных с осуществлением национального (федерального) контроля выполнения Конвенции о запрещении химического оружия [68,69].

3. Научная новизна

1) Разработаны структура данных и методы программной реализации регистрационной системы по химическим веществам, обеспечивающей регистрацию, хранение и поиск как индивидуальных, так и обобщенных химических структур;

2) Разработаны структура данных и методы для манипулирования химико-структурной и ассоциированной информацией по индивидуальным веществам и формулам Маркуша в базах данных в целях классификации и анализа/синтеза информации, в том числе для выявления потенциально опасных химикатов и их прекурсоров;

3) Разработаны структура данных, методы и программные средства для прогнозной статистической классификации химикатов на основе байесовского подхода и прогнозной оценки количественных свойств химикатов с использованием формул Маркуша;

4) Созданный программно-технологический инструментарий позволяет рассматривать задачи моделирования большой размерности 105 объектов, ~104 признаков/дескрипторов) и поставить разработку моделей в химических базах данных на регулярную основу с автоматизацией отбора релевантной для построения моделей информации из (в общем случае нескольких) реляционных таблиц базы данных.

4. Практическая значимость

1) Разработанные методы, алгоритмы и структурные решения воплощены и оттестированы в виде программно-технологических средств для обеспечения функций регистрации и классификации индивидуальных и обобщенных химических структур в химической БД, в том числе для осуществления национального контроля выполнения Конвенции о запрещении химического оружия;

2) Разработанные программно-технологические средства информационного и статистического моделирования показали эксплуатационную эффективность при обработке больших массивов фактографической информации в реляционных базах данных в целях построения прогнозных моделей классификации и количественных соотношений типа «свойство - свойства» (КССС) для оценки опасных токсических химикатов и их прекурсоров; 3) Разработанные программные средства внедрены в эксплуатируемую информационно-аналитическую систему по проблемам Конвенции о запрещении химического оружия Управления «Центр конвенционных проблем и программ разоружения» федерального агентства по промышленности (ИАС-ИМКС), интегральную химико-биологическую базу данных ЗАО ЦИНТЭНСИ, а также предложены для разработки новой регистрационной системы по химическим веществам ВИНИТИ РАН.

5. Структура диссертации

В данной работе рассматривается один из этапов формирования информационной аналитической системы в области обеспечения химической и биологической безопасности. В этот этап входит разработка системы автоматической регистрации и классификации химических веществ с использованием формул Маркуша.

Диссертация состоит из введения, пяти глав, заключения, списка литературы и приложения.

Заключение диссертация на тему "Разработка автоматизированных подсистем регистрации и классификации химико-структурных данных с использованием формул Маркуша в системе информационного обеспечения по проблемам химической безопасности"

Заключение

1. В процессе работы над диссертацией были разработаны структура БД, алгоритмы, методы и программные интерфейсы для регистрации, хранения и анализа больших объемов химико-структурных данных и релевантной к ним фактографической информации.

2. Структура БД предполагает собой наличие механизма классификации химических веществ как необходимого элемента формирования знаний в БД. Для реализации подобного механизма в данной работе предлагается использовать формулы Маркуша, позволяющие реализовать достаточно эффективный алгоритм формализации, классификации и интеграции данных и знаний по их химико-структурной составляющей.

3. Таким образом, разработанные методы и программные средства баз данных и пользовательского интерфейса обеспечивают регистрацию, хранение, манипулирование и использование формул Маркуша в базах данных с химической информацией и создают предпосылки для глобальной экстракции, унификации, верификации и инвентаризации знаний как по моделям КССС, так и в целом по предметным областям знаний, релевантным химии.

4. Разработанные методологические подходы и программные средства апробированы и использованы при создании и эксплуатации базы данных по химическим веществам ЗАО ЦИНТЭНСИ (являющейся развитием информационной системы «Токсикология» [31]) и информационно -моделирующей системы по проблемам Конвенции о запрещении химического оружия (методология которой описана в работах [32] и [33]), а также при разработке новой версии регистрационной системы по химическим веществам ВИНИТИ [15].

Библиография Мартиросов, Александр Константинович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Мартиросов А.К., Гончаренко Д.И., Зацепин В.М., Иванченко В.А. Применение формул Маркуша в современных химических информационных системах: методические и программно-технологические средства. // НТИ. Сер.2. 2004. - №4. - с. 21-33.

2. Бирюков A.JI., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов

3. Бирюков A.JL, Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Макаров

4. Афонина Н.Н., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова Н.Н., Мартиросов А.К., Остапчук Р.В., Федоровская М.А. Разработка технологии создания и подготовки кумулятивного формульного указателя к

5. РЖ Химия на основе базы структурных данных по химии 1996-2000гг. Отчет о НИР, ВИНИТИ, 2001. № госрег. 01200204742. Инв.№ 02200203012. - 34 с.

6. Бирюков A.JL, Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов

7. A.К., Остапчук Р.В. Автоматизированная обработка первичных и вторичных источников информации в области химии и химической технологии. Материалы 6-й Международной конференции «НТИ-2002», 16-18 октября 2002 г. М.: ВИНИТИ РАН, 2002.- с.271.

8. Мартиросов А.К., Бирюков A.J1., Гончаренко Д.И., Зацепин В.М., Иванченко

9. Афонина Н.Н., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова Н.Н., Круглова Н.А., Мартиросов А.К., Остапчук Р.В., Федоровская М.А. Совершенствование технологии формирования межотраслевого издания (РЖ

10. Химическая и биологическая безопасность"). Отчет о НИР, ВИНИТИ, 2002. № госрег. 01200312874. Инв.№ 02200305414. - 14 с.

11. Афонина Н.Н., Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Мартиросов

12. A.К., Остапчук Р.В., Сафронова О.С. Адаптивная система информационного обеспечения для поддержки биомедицинских и токсикологических исследований. Проблемы стандартизации в здравоохранении. — М.: «Ньюдиамед», 2003. с. 61.

13. Гончаренко Д.И., Зацепин В.М., Иванченко В.А., Кочанова Н.Н., Катаева

14. Основы государственной политики в области обеспечения химической и биологической безопасности Российской Федерации на период до 2010 года и дальнейшую перспективу. Пр-2194 от 4.12.2003.

15. Прохожев А.А. Общая теория национальной безопасности. // Издательство: РАГС. 2002. - 318 с.

16. Нигматуллин Р.С., Осипов А.Л., Карпова Н.А. Система поиска и анализа патентной информации о химических соединениях // НТИ. Сер.2. - 1989. -№1. - с. 14-17.

17. Зацепин В.М., Нигматуллин Р.С. Информационно вычислительные системы в научных исследованиях по разработке пестицидов. — М.: НИИТЭХИМ, 1988.-с. 86.

18. Кульбак С. Теория информации и статистика. Пер. с англ. М. -1967.

19. Бородина Ю.В., Филимонов Д.А., Поройков В.В. Предсказание активности пролекарств с помощью компьютерной системы PASS. // Химико-фармацевтический журнал. 1996.-т. 30. — № 12.— с.39-41.

20. Новиков С.М., Нургабылова А.Б., Филимонов Д.А., Поройков В.В. Прогнозирование гигиенических регламентов промышленных веществ, обладающих раздражающим действием. // Гигиена и санитария. 1995. - № 6. -с.16-19.

21. Зацепин В.М., Иванченко В.А. База данных по химическим веществам «Токсикология» для аналитико-информационных технологий. Химия в России. - 1999.-№1.-с.14-17.

22. Зацепин В.М., Иванченко В.А., Левчук М.Н. Об информационном обеспечении проблем химической и биологической безопасности. Сб. "Федеральные и региональные проблемы уничтожения химического оружия". Вып.З. - М.: ВИНИТИ, 2003.- с. 141-144.

23. Glossary of Terms Used in Combinatorial Chemistry. // Pure Appl. Chem.- 1999. -Vol. 71. № 12.-pp. 2349-2365.

24. Устинова E.A. Формулы изобретения на химические объекты. М.: ИНФРА-М, 1997.-76 с.

25. Челышева О.В. Патенты на химические соединения: объем прав и их нарушение. М. - Инфра-М. -1996. - 64с.

26. Kathleen A. Cloutier. A Comparison of Three Online Markush Databases. // J. Chem. Inf. Comput. Sci. 1991. - vol. 31, pp. 40-44.

27. Устинова E.A. Кризис патентной информации в области химии // НТИ. Сер. 1.- 1995.-№10. - с.17-20.

28. Downs Geoff М., Barnard John М. Chemical patents and structural information — the Sheffield research in context. // Journal of Documentation. 1998. vol. 54. - № 1.-January - pp. 106-120.

29. Gillet V.J., Downs G.M., Holliday J.D. and Lynch M.F. Computer storage and retrieval of generic chemical structures in patents. 13. Reduced graph generation. // J. Chem. Inf. Comput. Sci. 1991. - № 31. - pp. 260-270.

30. Gedeck P., Willett P. Visual and computational analysis of structure — activity relationships in high throughput screening data. // Curr. Opin. Chem. Biol. -2001.-vol. 5.-pp. 389-395.

31. Ash Sheila, Cline Malcolm A., Homer R. Webster, Hurst Tad, Smith Gregory B. SYBYL Line Notation (SLN): A Versatile Language for Chemical Structure Representation. // J. Chem. Inf. Comput. Sci. 1997 - vol. 37 - pp. 71-79.

32. MDL Information Systems (2001). CTfile Formats. Technical report. MDL Information Systems Inc., available from http://www.mdli.com/ downloads/literature/ctfile.pdf.

33. Боровков A.A. Математическая статистика. — M.: Наука, 1984. 472с.; Математическая статистика. Дополн. главы. - М.: Наука, 1984. - 144с.

34. Афифи А.А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ.-М.: Мир, 1982.-с. 141-221.

35. Валуева Л.Н., Зацепин В.М., Степачев О.А., Торочешникова О.Н. Вопросы разработки автоматизированной системы научных исследований в отрасли ХСЗР. М.: НИИТЭХИМ. - 1989. - 88 с.

36. Зацепин В.М., Нигматуллин Р.С. Вопросы разработки автоматизированной системы научных исследований. // Сер. Химические средства защиты растений. М.: НИИТЭХИМ. - 1989.

37. Бирюков А.Л., Зацепин В.М., Иванченко В.А., Гончаренко Д.И. Адаптивная система информационного обеспечения по мембранным технологиям. 1. Основные принципы // Крит, технол. Мембраны. 2000. № 5, с. 29-44.

38. Бирюков А.Л., Зацепин В.М., Иванченко В.А., Гончаренко Д.И. Адаптивная система информационного обеспечения по мембранным технологиям. 2. Формирование проблемно-ориентированного информационного ресурса // Крит, технол. Мембраны. 2000. № 6, с. 61-70.

39. Avidon V.V., Pomerantsev А.В. Structure activity relationship oriented languages for chemical structure representation. // J. Chem. Inf. Comput. Sci. -1982. - Vol. 22. - № 4. - pp. 207-214.

40. Зацепин B.M., Иванченко B.A. Химическая информатика: системология, состояние, проблемы // Тез. докл. 7-го Междунар. конгресса «Человек и лекарство». М. 2000, с. 498.

41. Зацепин В.М., Иванченко В.А. Конструктивная модель биоинформатики и стратегия интегральных информационно-моделирующих систем // Тез. докл. 8-го Междунар. конгресса «Человек и лекарство». М. 2001, с. 482.

42. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах. //Открытые системы, № 4,1997, с.41-44.

43. Morgan H.L. The generation of unique machine description for chemical structures a technique developed of chemical abstract service. // J. Chem. Doc. — 1965. — Vol. 5.-№2.- pp. 107-113.

44. Бобровски Стив. Oracle8: Архитектура. Основные принципы построения и структура баз данных Oracle, а также переход к этой базе данных будущего. // Издательство «Лори», 1998.

45. Спирли Эрик. Корпоративные хранилища данных. Планирование, разработка, реализация. Том 1.-М.:Издательский дом «Вильямс».-2001.-400 с.

46. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир. - 1976.

47. Johannes Н. Voigt, Bruno Bienfait, Shaomeng Wang, and Marc C. Nicklaus. Comparison of the NCI open database with seven large chemical structural databases. // J. Chem. Inf. Comput. Sci. 2001. vol. 41. - pp. 702-712.

48. Блинова В.Г., Добрынин Д.А. Языки представления химических структур в интеллектуальных системах для конструирования лекарств. // НТИ. Сер.2. -2000.-№6.-с. 14-21.

49. Блинова В.Г., Добрынин Д.А., Жолдакова З.И., Харчевникова Н.В. Прогноз показателей хронической токсичности замещенных бензолов с помощью ДСМ-метода автоматического порождения гипотез. // НТИ. Сер.2. 2003. -№4.-с. 1-4.

50. Yoshimasa Takahashi, Masayuki Sukekawa, and Shin-ichi Sasaki. Automatic identification of molecular similarity using reduced-graph representation of chemical structure. // J. Chem. Inf. Comput. Sci. 1992. vol. 32. - pp. 639-643.

51. Кирьянова Л.Ф., Шашина T.A. Всероссийская научно-практическая конференция «Проблемы риска здоровью населения России от воздействия факторов окружающей среды». // Гигиена и санитария.-2004.-№ 2 с.75-79.

52. Влэдуц Г.Э., Гейвандов Э.А. Автоматизированные информационные системы для химии. -М.: Наука, 1974. - с. 137-146.

53. Austin Robert. The Complete Markush Structure Search: Mission Impossible? — PIUG North East Workshop, October 16th 2001. Fachinformationszentrum Karlsruhe, October 2001. http://www.fiz-karlsruhe.de.

54. Конвенция о запрещении разработки, производства, накопления и применения химического оружия, и о его уничтожении, 1993, ООН.

55. Сверхтоксичные смертоносные химические вещества. Специальный комитет по химическому оружию, Конференция по разоружению, CD/792, 25 января 1988г.

56. Liao Q., Yao J.H., Li F., Yuan S.G., Doucet J.P., Panaye A. and Fan B.T. Cisoc-psct: a predictive system for carcinogenic toxicity. // SAR and QSAR in Environmental Research. Vol. 15 (3). - 2004. - pp. 217-235.

57. Курляндский Б.А. Стратегические подходы к обеспечению безопасности производства и использования химических веществ для здоровья человека. // Российский химический журнал. 2004. - Том. XLVIII. - №2. - с. 8-15.

58. Филов В.А., Ивин Б.А. Химические загрязнители окружающей среды, токсикология и вопросы информации. // Российский химический журнал. -2004. Том. XLVIII. - №2. - с. 4-7.

59. Кирлан А.В., Тюрина J1.A., Кирлан С.А., Кирлан В.В., Колбин A.M., Валитов Р.Б. Компьютерная система прогноза токсичности. // Башкирский химический журнал. 2001. - Том 8. - № 1. - с. 36-39.

60. Зулькарнаев Т.Р., Тюрина Л.А., Соломинова Т.С., Новиков С.М., Кошелева О.М., Кирлан С.А. Профилактическая токсикология и гигиеническое нормирование. // Гигиена и санитария. — 1999. № 3. - с. 54.

61. Enselein К., Gombar V.K., Blake B.W. Use of SAR in computer-assistes prediction of carcinogenicity and mutagenicity of chemicals by the TORKAT programm. // Mutation research. 1994. - 305. - pp. 47-61.

62. Ridings J.E. et al., Computer prediction of possible toxic action from chemical structure: an update on the DEREK system, Toxicology, 1996,106,267-279.

63. Masunov A. ACD/I-Lab 4.5: An Internet Service Review. // J.Chem. Inf. Comput. Sci. 2001. - Vol 41. - № 4. - pp. 1093-1095.

64. Poroikov V.V., Filimonov D.A., Borodina Yu.V., Lagunin A.A., and Kos A. Robustness of biological activity spectra predicting by computer program PASS for noncongeneric sets of chemical compounds. // J. Chem. Inf. Comput. Sci. 2000. -№40.-pp. 1349-1355.

65. Barnard John M. A comparison of different approaches to Markush structure handling. // J.Chem. Inf. Comput. Sci. 1991. - № 31. - pp. 64-68.

66. Weisgerber D.W. Chemical abstracts service chemical registry system: history, scope and impacts. // J. Am. Soc. Inf. Sci. 1997. - № 48. - pp. 349-360.

67. Buntrock Robert E. Chemical registries in fourth decade of service. // J. Chem. Inf. Comput. Sci. - 2001. - № 41. - pp. 259-263.

68. Е.Ф.Кодд Реляционная модель данных для больших совместно используемых банков данных. // Ж. "СУБД" №1. - 1995. - с. 145-160.

69. Вендров A.M. CASE технологии. Современные методы и средства проектирования информационных систем. // М.: Финансы и статистика. -1998.- 176 с.

70. Lynch M.F. and Holliday J.D. The Sheffield generic structures project a retrospective review. //J. Chem. Inf. Comput. Sci. - 1996. - № 36. - pp. 930-936.

71. Downs G.M. and Barnard J. M. Chemical patents and structural information the Sheffield research in context. // Journal of Documentation. - 1998. - № 54. - pp. 106-120.

72. Barnard J. M. Substructure searching methods: old and new. // J. Chem. Inf. Comput. Sci. 1993. - № 33. - pp. 532-538.

73. Gasteiger J., Ihlenfeldt W., Fick R. and Rose J.R. Similarity concepts for the planning of organic reactions and syntheses. // J. Chem. Inf. Comput. Sci. 1992. -№32.-pp. 700-712.

74. Weininger D. SMILES, a chemical language and information system. 1: Introduction to methodology and encoding rules. // J. Chem. Inf. Comput. Sci. — 1988.-№28.-pp. 31-36.

75. Чеппел Д. Технологии ActiveX и OLE. M.: Издательский отдел «Русская редакция» ТОО «Channel Trading Ltd.», 1997.-320 с.

76. Trepalin S.V. and Yarkov A.V. CheD: chemical database compilation tool, internet server and client for SQL servers. // J. Chem. Inf. Comput. Sci. 2001. - № 41. — pp. 100-107.

77. Rzepa H.S. The internet as a computational chemistry tool. // Journal of Molecular Structure (Theochem). 1997. - pp. 27-33.

78. Зоркий П.М. Структурная химия на рубеже веков. // Рос. хим. ж. (Ж. Рос. хим. об-ва им. Д.И. Менделеева). -2001. том XLV. - №2. - с. 3-10.

79. Hyde R.M. and Livingstone D.J. Perspectives in QSAR: computer chemistry and pattern recognition. // Journal of Computer Aided Molecular Design. - 1988. - № 2.-pp. 145-155.

80. Donner W.T. Economic aspects of chemical information. // J. Chem. Inf. Comput. Sci. 1996. - № 36. - pp. 937-941.

81. Быстрое JI.B., Ситников В.Б., Тимофеева H.B. Использование канонических брутто формул связей при регистрации химических соединений в банке данных. // НТИ. Сер.2. - 1992. - № 10. - с. 8-11.

82. Helma С. and Kramer S. A survey of the Predictive Toxicology Challenge 2000-2001.//Bioinformatics.-2003.-Vol. 19.-№10. pp. 1179-1182.

83. Toivonen H., Srinivasan A., King R.D., Kramer S. and Helma C. Statistical evaluation of the Predictive Toxicology Challenge 2000-2001. // Bioinformatics. -2003.-Vol. 19.-№ 10.- pp. 1183-1193.

84. Benigni R. and Giuliani A. Putting the Predictive Toxicology Challenge into perspective: reflections on the results. // Bioinformatics. 2003. - Vol. 19. - № 10. - pp. 1194-1200.

85. Blinova V. G. , Dobrynin D.A., Finn V.K.,Kuznetsov S.O. and Pankratova E. S. Toxicology analysis by means of the JSM-method. // Bioinformatics. 2003. -Vol. 19. -№ 10. - pp. 1201-1207.

86. Нигматулин P.C.,Осипов А.Л.,Пузаткин А.П., Коптюг В.А. Статистический метод предсказания биологической активности многоатомных молекул на основе дескрипторов графов структурных формул //Хим.-Фарм.ж. 1985, т. 19, N2,179-185.

87. Клейман Б.Ш. Принципы построения поисковых систем структурной информации.Автореферат дисс. канд. техн. наук.-М.:ВНИИСИ.-1987.-18 с.

88. Atkinson М., Bansilhon F., DeWitt D., Dittrich К., Maier D., Zdonik S. The Object-Oriented Database System Manifesto // 1st Int. Conf. Deductive and Object-Oriented Databases, Kyoto, Japan, Dec. 4-6,1989.

89. Дейт К.Д. Введение в системы баз данных.//К.'Диалектика.- 1998. — 784с.

90. Осипов А.Л. Компьютерное моделирование свойств органических молекул с использованием фактографических банков данных. // Автореферат дисс. канд. техн. наук. Новосибирск: НГУ. - 1996. - 21 с.

91. Кумсков М.И. Методология прогнозирования свойств химических соединений и ее программная реализация. // Автореферат диссертации на соискание ученой степени доктора физико-математических наук. — М: Издательство «Диалог МГУ». - 1997. - 33 с.

92. RTECS Register of Toxic Effects Of Chemical Substances. // National Institute for Safety and Health. - USA.

93. Литвинов H.H., Остапенко Ю.Н., Казачков В.И. Информационные технологии для практики клинической токсикологии: Итоги и перспективы. // Токсикологический вестник. 1995. - № 6. - с. 16-20.

94. Румянцев Г.И., Новиков С.М. Проблемы прогнозирования токсичности и риска воздействия химических веществ на здоровье населения. // Гигиена и сан. 1997.-№6.-с. 13-18.

95. Зацепин В.М., Осипов A.JL, Семенов Р.Д. Система компьютерного предсказания физико-химических и биологических свойств веществ. // Автометрия. 1995. - № 5. - с. 86-91.

96. Курляндский Б. А., Шитиков В.К., Тихонов В.Н. Прогнозирование значений ПДК и других нормативов методом регрессионного анализа с использованием информационно-поисковой системы. // Гигиена и сан. -1986. № 8. - с. 63-66.

97. Раевский О.А., Чистяков В.В., Агабекян Р.С., Сапегин А.М, Зефиров Н.С. Формирование моделей взаимосвязи между структурой фосфорорганических соединений и их способностью к ингибированию холинэстераз. 1990. - Том 16.-№ п.с. 1509-1522.

98. ИЗ. Мучник В.Б., Нигматуллин Р.С., Осипов A.JI. Интерактивная система ввода структурных формул в химические базы данных. // НТИ. Сер.2. - № 8. -с. 6-11.

99. Ash J.T., Chubb Р.А., Ward S.E., Welford S.M., Willet P. Communication, storage and retrieval of chemical information. Eds. // Ellis Horwood Limited. -1985.-297 p.

100. Гусакова C.M., Финн В.К. Сходство и правдоподобный вывод. // Изд. АН СССР. Сер. Техн. кибернетика. 1987. - № 5. - с.42-63.

101. Финн В.К. Правдоподобные выводы и правдоподобные рассуждения. // Итоги науки и техники. Сер. Теория вероятностей. Математическая статистика. Теоретическая кибернетика. Том. 28. - М.: ВИНИТИ. - 1988. -с.3-84.

102. Валуева JI.H., Зацепин В.М., Промоненков В.К. Применение математических методов для анализа связи молекулярная структура — пестицидная активность. Часть 1. // Сер. Химические средства защиты растений. М.: НИИТЭХИМ. - 1985. - 57 с.

103. Валуева JI.H., Зацепин В.М., Промоненкой В.К. Применение математических методов для анализа связи молекулярная структура — пестицидная активность. Часть 2. // Сер. Химические средства защиты растений. М.: НИИТЭХИМ. - 1985. - 53 с.

104. Валуева JI.H., Зацепин В.М., Промоненков В.К. Применение математических методов для анализа связи молекулярная структура -пестицидная активность. Часть 3. // Сер. Химические средства защитырастений. М.: НИИТЭХИМ. - 1985. - 50 с.

105. Фукунага К. Введение в статистическую теорию распознавания образов. — М.: Наука.-1979.

106. Вапник В.Н. Червоненкис А.Я. Теория распознавания образов. М.: Наука. -1974.