автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Исследование методов выявления структурной информации на основе базы данных "ИК спектр - фрагментный состав соединения"

кандидата химических наук
Богданова, Татьяна Фоминична
город
Новосибирск
год
2000
специальность ВАК РФ
05.13.16
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование методов выявления структурной информации на основе базы данных "ИК спектр - фрагментный состав соединения"»

Автореферат диссертации по теме "Исследование методов выявления структурной информации на основе базы данных "ИК спектр - фрагментный состав соединения""

РОССИЙСКАЯ АКАДЕМИЯ НАУК СИБИРСКОЕ ОТДЕЛЕНИЕ

Новосибирский институт органической химии имени H.H. Ворожцова

На прата^рукопйс?!!

2 8 НОВ ?ПРП

Богданова Татьяна Фоминична

ИССЛЕДОВАНИЕ МЕТОДОВ ВЫЯВЛЕНИЯ, СТРУКТУРНОЙ ИНФОРМАЦИИ НА ОСНОВЕ БАЗЫ ДАННЫХ "ИК СПЕКТР - ФРАГМЕНТНЫЙ СОСТАВ СОЕДИНЕНИЯ"

05.13.16 - применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (химические пауки)

Автореферат диссертации на соискание ученой степени кандидата химических наук

1 Ьвоеибирск 2000

Работа выполнена в Новосибирском институте органической химии имени Н. Н. Ворожцова СО РАН

Научный руководитель:

кандидат химических наук, старший научный сотрудник В Н. Пиоггух-Пелецкий.

Официальные оппоненты:

доктор химических наук, профессор В. В. Малахов кандидат химических наук, старший научный сотрудник В. М. Тормышев.

Ведущая организация:

ОАО Всероссийский научно-исследовательский институт органического синтеза.

Защита диссертации состоится " " 2000 г. в 15:00 час. на

заседании диссертационного совета К 002. 42. 01 в Новосибирском институте органической химии имени Н. Н. Ворожцова СО РАН по адресу: 630090, Новосибирск, пр. акад. Лаврентьева, 9.

С диссертацией можно ознакомиться в библиотеке Новосибирского института органической химии имени Н. Н. Ворожцова СО РАН

Автореферат разослан " „И <&Л^2000 г.

Ученый секретарь диссертационного совета кандидат химических наук .

М. И. Подгорная

ГОАи ОМ п А4С Г)

Общая характеристика работы

Актуальность темы обусловлена следующими обстоятельствами:

Во-первых, широким использованием метода ИК спектроскопии в самых разнообразных областях химии и неудовлетворенностью ограниченным характером информации, извлекаемой традиционными методами в практике массового анализа. Основанные на эмпирических зависимостях приемы позволяют выявлять с достаточной надежностью лишь ограниченную информацию о строении соединения, опирающуюся' на характеристические частоты колебаний ряда хброшо известных групп атомов.

Во вторых. Современные информационные технологии обеспечили создание баз данных (БД), содержащих сведения о строении и ИК спектрах десятков тысяч соединений. В то же время, поставляемые со спектральным оборудованием информационно-поисковые системы (ИПС) имеют принципиальное ограничение. Идентифицировать по спектру можно только соединения, представленные в БД. Рост объема баз данных - неизбежный процесс развития. Однако, общая тенденция отставания БД спектральных данных от числа зарегистрированных соединений на два - три порядка сохранится и в будущем. Именно поэтому расширение возможностей ИПС для целей опознания особенностей строения отсутствующих в БД соединений без дополнительных затрат способствовало бы росту результативности метода в прикладной и исследовательской практике повседневного анализа. Это особенно важно в связи с расширяющимся использованием методов хромато-ИК- и хромато-ИК-масс-спектрометрии в практике анализа малых количеств веществ природного и антропогенного происхождения.

В третьих. Доступность современных вычислительных средств и убежденность в том, что в ИК спектре в большинстве случаев содержатся исчерпывающие сведения о строении соединения, ставят задачу разработки математических приемов использования огромного потенциала информации, хранящейся в БД. Базы данных "структура-спектр" в неявной форме содержат спектроструктурные зависимости всего многообразия фрагментов, присутствующих в структурах соответствующих соединений. Есть основания полагать, что если будут созданы адекватные средства анализа и обработки этой информации, то они будут способны оказывать помощь исследователям при интерпретации ИК спектров вплоть до установления строения исследуемых веществ. Успехи в области создания экспертных систем и разработанные недавно приемы распознания крупных связных фрагментов соединения путем анализа ИК спектра с помощью БД подтверждают высказанное положение.

Наконец, эффективность современных информационно-логических и экспертных систем, анализирующих данные различных видов спектров молекул (ИК, масс-, 'Н-.ЯМР, "С-ЯМР, УФ и т.п.), полностью определяется характером информации о строении соединения, извлекаемой с помощью составляющих их подсистем. Создание средств, обеспечивающих анализ ИК

спектров на качественно новом уровне и определение фрагментов молекул вне рамок известных корреляционных зависимостей, способствовало бы расширению возможностей этих систем.

Цель работы - исследование компьютерных методов выявления структурной информации об изучаемом соединении путем анализа его ИК спектра с помощью базы данных "ИК спектр - фрагментный состав соединения". Достижение поставленной цели предусматривало решение ряда подзадач:

• создание базы данных "ИК спектр - фрагментный состав соединения" на основе БД вида "структура соединения - ИК спектр";

• разработку методов анализа поисковых ответов с целью извлечения информации о фрагментах исследуемых веществ;

• изучение соотношений корректно и ошибочно опознаваемых фрагментов, определение вероятности и достоверности распознавания фрагментов на статистически значимых выборках;

• общую оценку применимости разрабатываемого подхода и достигаемых результатов. '

Научная новизна. Впервые для выявления структурных особенностей исследуемого соединения по его ИК спектру предложено использование базы данных нового вида "ИК спектр - фрагментный состав соединения". Предложены и апробированы методы выявления сведений о структурных фрагментах изучаемых соединений, а также методы построения и ранжирования вероятных структур соединения, основанные на информации, извлекаемой с помощью этой бгзы. Отличительная особенность предлагаемого подхода состоит в том, что в нем реализуется попытка опознания не конкретных фрагментов из опубликованных спектроструктурных корреляций, а выявления практически любых, заранее не заданных фрагментов, характеризующих все представленное в БД многообразие структур органических соединений.

Практическая ценность. Полученные в работе результаты могут использоваться при разработке автоматизированных систем анализа ИК спектров. Исследованную в работе методологию можно применить и к другим методам молекулярной спектроскопии, в первую очередь, масс-спектрометрии. Сочетание предложенного подхода и выявляемых на его основе сведений с данными других видов спектроскопии молекул может оказаться перспективным при разработке комплексных систем для решения задач установления строения соединений средствами ЭВМ и оценке гипотез при генерировании структурных изомеров. Полученные сведения, несомненно, полезны для построения баз знаний и дальнейшего совершенствования экспертных систем по ИК спектроскопии молекул.

Апробация работы и публикации. Отдельные положения работы докладывались на , VII (1986) и VIII (1989) Всесоюзных конференциях "Использование- ЭВМ в спектроскопии Молекул и химических исследовани-

ях", на II Международном симпозиуме (1996) "Chromatography and Spectroscopy in Environmental Analysis and Toxicology (1SCSE'96')", на V конференции " Аналитика Сибири и Дальнего Востока" (1996). По теме диссертации опубликовано 11 работ.

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, выводов и списка цитируемой литературы. Работа содержит 18 рисунков, 23 таблицы и 153 ссылки на литературные источники. Общий объем диссертации - 133 страницы.

Содержание работы.

В первой главе - литературном обзоре - основное внимание уделяется системам, использующим фактографические базы данных по ИК спектроскопии для установления строения органических соединений. Обсуждаются методы анализа ИК спектров, применяемые для выявления структурных фрагментов исследуемого соединения. В очень сжатом виде рассмотрены экспертные системы (ЭС), разработанные для интерпретации ИК спектров или использующие этот вид спектроскопии в качестве одного из методов. Приводятся и критически анализируются данные о характере структурной информации (количестве и размерах структурных фрагментов, вероятности и достоверности их распознавания), извлекаемой из ИК спектров современными средствами. Отмечаются недостатки и достоинства разработанных ранее приемов, формулируется задача исследования.

Во второй главе описывается специализированная БД, дается детальное представление о предлагаемом способе описания молекулярных графов, рассматриваются общие вопросы постановки эксперимента. Специализированная база данных "ИК спектр - фрагментный состав соединения" сформирована на основе БД «ИК спектр - структура соединения». Каждое соединение в специализированной БД охарактеризовано ИК спектром (полной спектральной кривой и поисковым образом, содержащим положения и интенсивности максимумов полос поглощения). Информация о структуре соединения представлена двумя способами

• поатомным кодом молекулярного графа;

• полным набором иснзоморфных связных фрагментов заданною размера.

Молекулярный граф представлен канонической матрицей смежности и закодирован в виде списков связей. Вершинами графа являются все агомы молекулы, кроме атомов водорода, а ребрами - связи. Хранится также вся информация, необходимая для, визуализации структур органических соединений в привычном для химика виде. ИК спектр соединения и соответствующая ему структура имеют в БД единый регистрационный номер.

Описание структуры соединения, основанное на полном списке содержащихся в ней фрагментов, ранее в БД по спектроскопии не использовалось. Список фрагментов каждой структуры образуется при ее разборке на связные фрагменты заданного размера. Размеры связных фрагментов выбраны в пределах от 2 до 7 вершин, что соответствует размерам типичных характеристических групп, традиционно рассматриваемых в ИК спектроскопии.

На рис. 1 приведен граф 5-(этоксиметилен)-2-тиоксо-тиазолидин-4-она, схема его разборки на фрагменты и часть набора составляющих граф к-вершинных фрагментов. Полный набор фрагментов для этой структурной формулы состоит из 112 неизоморфных фрагментов (двухвершинных - 7, трехвершинных - 14, четырехвершинных -19, пятивершинных -24, шести-вершинных -25 и семивершинных -23).

<4—N

С—С—О—^¿^ /¿^

^¿=с—О ¿=с—о 1=с ¿=с—о с=1\

• • •

О—С=С—С О—С=С—в С—С—с э—с—с=о с=с—э—с

О—С=С С—С=С С=С—Э С—С—Б С—С=0 С—Б—С

||Г- г- ..

Построение полных фрагменгных составов структур всех соединений БД осуществляется как разовая процедура. Каждому новому, не зарегистрированному ранее, фрагменту присваивается регистрационный номер. Наряду с этим формируются регистрационные файлы, состоящие из канонических кодов фрагментов; для каждого фрагмента строится список структур, в которых он содержится. Таким образом, созданная на основе регистрационных номеров фрагментов и регистрационных номеров структур система позволяет быстро находить как все структуры, содержащие данный фрагмент, так и набор фрагментов, принадлежащий той или иной структуре. Поскольку спектры и структуры однозначно связаны посредством регистрационных номеров соединений в БД, то можно быстро найти и отобрать из БД спектры для структур, содержащих заданные фрагменты.

В ходе работы использовались две версии БД. Первая содержала около 11 тысяч спектров и структур и ~58 тысяч фрагментов. На завершающих этапах исследования БД содержала свыше 31 тысячи записей и более 107 тысяч фрагментов. В табл. 1 приводятся данные о частоте встречаемости фрагментов различного размера в этой БД. Приведено общее число неизоморфных связных фрагментов с количеством вершин от 2 до 7 и их встречаемость с частотами выше заданного порога. Больше половины всех фрагментов встречается в двух и более структурах БД. Например, 2-вершинные представлены 121 фрагментом, а7-вершинные более, чем 38 тысячами.

Таблица 1.

к всего Частота встречаемости фрагмента в БД выше, чем:

2 10 100 500

2 207 121 73 35 21

3 686 384 223 95 55

4 2227 1248 713 299 143

5 7256 4133 2323 793 312

6 23756 13300 7028 1899 494

7 73298 38706 17863 3548 608

Анализ типов двух- и трехвершинных фрагментов показал следующее. Фрагменты, типа X-Y и X-Y-Z, где X, Y, Z - С, О, N, S, Р, Hal, характерные для органических соединений и интересующие большинство спектроскопистов, представлены в БД статистически значимым числом структур. В табл. 2 приведены примеры таких фрагментов и частоты (/) их встречаемости в структурах соединений специализированной БД.

Таблица 2.

Фрагмент / Фрагмент / Фрагмент / Фрагмент /

С-С 29276 C-hN 3778 Сч-С-0 8011 С* С-*,' 2696

с* с 23940 С = Б 2539 о-с = о 7629 2560

с-ы 20519 0 = 8 2456 С С - С1 4626 N - С = Э 2439

с = о 17815 С-И 1799 N - С - N 4114 N = С & 2386

с-о 17197 с=ы 1755 с = с-ы 4043 о = й=о 2355

с = с 4085 С-Вг 1622 с-ы-ы 3335 С - 8 = О 2339

с = ы 6344 N -8 1282 о=ы = о 3188 N-0-8 1370

С-С1 5959 с + с + с 23924 с-ы = о 3178 N-0-0 1198

N -]М 3741 с + с ^ 11874 С + С -8 3039 ы-8=с; 1179

N = 0 3246 N - С = О 8860 с^и + с 2711 С + С-В1 1111

Сведения о составе и частотах встречаемости фрагментов в БД важны и с практической точки зрения. Знание списков часто (или наоборот, редко) встречающихся фрагментов может позволить на самых начальных этапах оценить применимость используемой БД для идентификации того или иного фрагмента и служить ориентиром при ее пополнении.

В третьей главе на качественном уровне рассматривается и обосновывается применимость базы данных "ИК спектр - фрагментный состав соединения" и поискового метода для установления особенностей строения соединения. Суть метода заключается в поиске и отборе из БД спектральных аналогов изучаемого соединения. А заключение об особенностях строения неизвестного соединения, выносится на основе анализа структур и фраг-ментных составов отобранных соединений. Приведенный ниже пример иллюстрирует это.

При поиске по заданному ИК спектру 1-фенил-2-имидазолидинона (первый спектр на рис. 2) отобрано 6 спектров (2 - 7), упорядоченных по убыванию степени подобия заданному спектру. ,

Спектру изучаемого соединения соответствует структурная формула 1.

/чн—со

^ао

> А г

\] -V к 1/ 4/1 1/ г VI

V Г I г У I

1

1

488В 3508 Звеа 2500 2008 1860 1ЬЮ 14В9 1290 1088 888 ЬВв 408 20В

N п к V -у VI *

1 №

—4—1 У

, г г

4080 зг.яв заев 2500 гввв шва 1Ьеа пив 12В0 ¡вве ввв еев 400 200

10Э

4000 ЗБ00 3000 2580 2000 1в8в 1600 1400 1200 1йв

¿00 400 200

к V V Т 7 * 1/ V * ( к

V V 1

1

! ,

4080 3508 3800 2500 2000 1808 1680 1400 1209 1888 880 680 40в 20« 10Э

чр1 л Г

*

4яеа 3508 3000 2688 2880 1808 1686 1488 1208 1808 888 688 488 288 100 00 £8 48

4000 3500 3000 2500 2000 1еев 1600 1400 1208 1800 800 6О0 108 вв 68 4в 20

М гУ\, к/

г л ч

_ У / » и

V / К

1

4800 3508

1680 1400 1200 1000 800 688 400

Рис. 2.

Спектрам 2-7, отобранным как спектральные аналоги «неизвестного», соответствуют структурные формулы:

Ш-СО N11-СО

.1.

N11-СО „-„ к к ^

3 4

1\Н-СО Г"^^-N

к -К. СО ^N»2

.14. ДЛ-^Ы чь-^у N=14-

В табл. 3 приводятся доли (в процентах) фрагментов каждой из отобранных структур, которые присутствуют в исследуемой структуре, а также доля отсутствующих в искомой структуре (лишних) фрагментов. И визуальное сопоставление структурных формул, и данные табл. 3 позволяют охарактеризовать структуру 7 как менее похожую на структуру исследуемого соединения, чем остальные. В структуры 3 и 4 полностью вкладываются все фрагменты структуры исследуемого соединения.

Таблица 3.

к Доля фрагментов, совпавших с первой структурой % лишних

2 3 4 5 б 7

2 60.0 50.0 42.9 40.0 19.2 2.9 74.77

3 100.0 85.7 83.3 85.0 80.6 72.5 20.18

4 80.0 85.7 83.3 85.0 80.6 72.5 20.87

5 80.0 62.5 53.8 40.9 18.5 3.0 71.30

6 80.0 50.0 46.7 37.5 17.2 3.1 73.04

7 50.0 40.0 23.3 8.2 5.3 1.0 90.61

В табл 4 приведено общее количество Ас-вершинных фрагментов (А=2-7), которые удовлетворяют молекулярной формуле исследуемого соединения и встречаются в структурах поискового ответа (ПО) не менее трех раз.

Таблица 4

Количество Размер фрагмента

фрагментов 2 3 4 5 6 7

Всего 4 7 10 14 14 6

Ложных 0 1 1 3 ' 5 4

Как видно, около 75% фрагментов из структур поискового ответа действительно входят в состав изучаемого соединения, а выявленные коррект-

ные шестивершинные фрагменты полностью описывают его структуру (см. рис. 3).

Корректные:

«301/3 403</3 4059/3 4С18оЛ 169^5

570^3 295/3 15»Ь 452^3 ПбЛ

Рис.3

Числа, приведенные под фрагментами, указывают частоту встречаемости фрагмента в БД и в структурах поискового ответа. Видно, что представленность фрагментов в БД далеко не однородна, поэтому при идентификации фрагментов необходимо учитывать это обстоятельство. Детальное рассмотрение этого и других примеров с учетом сети вложений фрагментов и возможного спектрального отклика фрагментов показал принципиальную возможность распознавания множества фрагментов соединения из анализа фрагментных составов структур поискового ответа.

Для выявления типов распознаваемых фрагментов, вероятности и достоверности их распознавания, а также объема информации, извлекаемой об исследуемом соединении, в четвертой главе рассматриваются результаты статистического эксперимента. В нем контролировалось поведение более 18000 фрагментов на примере 254 ИК спектров разнообразных органических соединений. Функциональная схема этого эксперимента изображена на рис. 4. Основные компоненты схемы:

Базы данных. БД спектров содержит поисковые образы -11000 спектров, в БД фрагментов представлена информация о -58000 А-вершинных фрагментах, полученных из -11000 соответствующих структур.

Регистрационная система связывает регистрационными номерами спектры и фрагменты в соответствующих БД.

Рис. 4.

ИПС - информационно-поисковая система ВАМС-Ш - отбирает из БД в поисковый ответ спектры, наиболее похожие на предъявленный. Условия поиска спектральных аналогов для всех спектров одинаковы. ' .

Обобщенный'фрагмёнтный состав - совокупность всех неизоморфных А-вершинны'х фрагментов, присутствующих в структурах поискового ответа.

Тестовая выборка (254 спектра) сформирована следующим образом. В БД проведено 11162 автоматических поиска в режиме отбора спектральных

аналогов, при которых каждый спектр базы последовательно выступал в качестве запроса. Из БД отбирались спектры, частоты полос поглощения которых совпадали с запросом в интервале ±15 см"1, а интенсивности - ±20%. В поисковые ответы включались спектры, мера близости которых к спектру запроса превышала значение 55. В этих условиях найдено, что для ~7300 спектров формируется ПО, содержащий 11 и более спектров (из них, как правило, первый - спектр запроса). Затем с помощью датчика случайных чисел из этих 7300 спектров сформирована тестовая выборка, содержащая 254 спектра и соответствующие им структуры, далее - структуры-эталоны.

Все эксперименты по оценкам эффективности распознавания фрагментов и достоверности принимаемого решения проводились в следующих условиях:

• по предъявленному спектру тестовой выборки для анализируемого соединения из БД отбирались одиннадцать наиболее похожих спектров, в том числе и спектр "неизвестного";

• вся информация об анализируемом соединении исключалась из поискового ответа, а сведения о его структуре и фрагментном составе использовались далее как эталон для анализа результатов поиска; *

• при подсчете частот встречаемости фрагмента в структурах поискового ответа учитывались лишь повторы фрагмента в различных структурах;

® в список анализируемых фрагментов включались только такие фрагменты, брутто-формулы которых вкладывались в брутто-формулу анализируемого соединения; » все эксперименты проведены на ЭВМ типа IBM РС-АТ/486.

Результативность распознавания конкретных фрагментов оценивалась с помощью трех параметров:

1. Неслучайность (NR) появления фрагмента во фрагментных составах структур, отобранных в поисковый ответ

NR =\-Р(п)1Р(\0к) где P(Z)= 10\{x)Z( 1 -х)( 10-2)/G(Z+1 )G( 10-Z+1)

Здесь Z=n или Юл, G - гамма-функция (обобщение факториала на вещественные числа), Р(п) - вероятность того, что при случайном выборе структур из БД в выборке размером 10 окажется п структур, содержащих фрагмент с относительной частотой встречаемости х в структурах соединений БД.

2. Оценка вероятности корректной идентификации (RC-recall) фрагмента по результату анализа структур поисковых ответов при заданном пороге т по частоте встречаемости или NR - неслучайности:

RC =

где TV - число структур-эталонов, в составах которых присутствует данный фрагмент, N* - число корректных распознаний данного фрагмента по фраг-ментным составам структур поискового ответа.

3. Достоверность распознания (RL - reliability) фрагмента при заданном пороге (т или /УД):

RL = RC / (RC + FP)

где FP = N / (254-N) - оценка вероятности ошибочного решения об идентификации фрагмента (false positive)-, здесь N - число ошибочных идентификаций фрагмента, 254 - общее число анализируемых структур-эталонов.

Объем информации об исследуемом соединении определялся как степень покрытия списков фрагментов структур-эталонов фрагментными составами структур поискового ответа:

здесь q+ - число совпавших при п>т компонент структур ПО с фрагментами структуры-эталона, q - количество фрагментов структуры-эталона, п и т -частота встречаемости фрагмента в структурах ПО и порог по частоте встречаемости соответственно.

Степень покрытия определялась при разных порогах величин т и NR. Отношение числа корректно распознанных фрагментов ко всем фрагментам структуры-эталона, усредненное по всем результативным поискам, приведено на рис. 5 для различных значений параметра NR. Как видно из графика, примерно половина фрагментов структуры-эталона может быть распознана при значении параметра неслучайности > 0.95. При более высоких значениях величины NR определяется, в среднем, только около трети фрагментов структуры-эталона.

t.o

g 0.9 v-X ОJ

« 0.8 9

а.

t W 2

1 o.s

X

0

g 0,5 я

Q.

1 0.4

£ №

£ 0.3

0,1 0.0

0 0.9 0.95 0,99 0.999 0,9999

Порог неслучайности NR

Размер фрагмента • 2 -в—3 —*— 4 >< 5 —Ж—6 • 7

По ряду причин (взаимная коррелируемость фрагментов, отсутствие в БД спектральных аналогов, несовершенство поискового алгоритма и т. п.) можно ожидать появления в структурах ПО большого количества ложных фрагментов, т.е., отсутствующих в структуре исследуемого соединения. Поэтому представляло интерес оценить отношение числа корректных фрагментов в ПО к числу ошибочных. На рис. 6 приведены зависимости средней доли корректных фрагментов среди всех от величины параметра неслучайности. Усреднение проведено по всем результативным поискам. Поиск считался результативным, если при заданном пороговом значении N1? список фрагментов не оказывался пустым. При низких значениях параметра неслучайности количество ошибочных фрагментов превышает или равно количеству корректных для фрагментов всех размеров. Сопоставимое число корректных и ошибочных фрагментов достигается при значениях N11 = 0.95 -н 0.99, а при более высоких значениях параметра заметно падает доля результативных поисков.

Проведенный анализ показывает недостижимость идеального результата - распознания всех фрагментов соединения при отсутствии шума. Но, наряду с этим, очевидно, что в рамках рассматриваемого приема анализа возможна идентификация значительной части фрагментов исследуемого соединения по его ИК спектру.

Порог неслучайности N11 1'ач\к'р ф рагмсита ♦ 2 ■ 3 —4 к 5 —*—6 ' • 7

В табл. 5 приведены примеры распознаваемых семивершинных фрагментов с вероятностью3' и достоверностьюЬ) распознания каждого из них.

Таблица 5.

с—с—с—с И-с-с КОО" 099" сч с с—с—о—<!: / 0.77 096 0=С—С—С гоо ш С—С—С—О—С и 0.82 0.99 ^ 1 с—о—С—С 1 00 0.95 С— С II II 0 о 0 55 0.98

С' с 0.73 094 с—с-^-^с—с Л л 0.90 0 96 г° с<£*-с—с=о 0.54 0.96 0.91 0.91 о—С 1 О—о 0 91 0.98 С с 1 1 С—С=С—N—С 0 50 0 97

сЖс 0 79 0 95 С—С—N—С=С 1 1 0.60 0 96 С ч Г ¡С=И-СГ*ЧС / 0.60 0 99 е=с—с—N сАс 0 83 0.97 =С V 1 1.00 0 95 С1 >с—с 0.73 0.93

Л-с и-с 0.94 0 99 0.81 0 96 О 0.60 0.94 N—C=N—C 1=С—С 0.80 1.00 С—С=С—С А—С—N 1.00 1 00 Г—С—N—N—С :Т 1 С N 100 0.95

с—с^-^с N—N 0.60 098 С—N—С—N—С 1 41 0.78 0.95 С-с-о-с-м С N 0.80 1.00 Л- N—С—С/ |1|=С 0.73 0.99 1 ? С—С—N—С—С 0.55 0.97 Т 1 с—и—с—с—с 061 099

С—N—С—с 1 Л ^ 0 71 093 0 N 1.00 0.98 0.78 0.96 С—С— Ы—С=С 1 л 060 0.90 °\ Г" С' с 0 53 0.91 С о о—с—и—с—с 0.89 0 98

О / С—( 1; N—0'^ С—О 0 79 0 98 о о ¿-с-с-с N 0.90 0 97 С о 1 11 С—С—N—N 0.65 0.94 (' о I II С— к—С— N1—С 075 099 С—с=ы—М—С I- 1 0 72 0 99 С—Ы—С—М—С !1 II с о 0.90 100

N ? е.- -с—N=0 090 0 97 С О 1 II 14—С—С— N1—о 1.00 1.00 \-s-ci-S- У с 069 0 99 №-N—0-8 * 064 098 С— М—С— Ч—С II II С 5 0 62 0 94 С—N—С—N—N 11 II С 5 0.61 0.93

с С Ч 1 ^с и С 0.80 1 (К) 0 80 ! .00 Г * 094 0.92 ¡/ с {> 87 0.97 к ;; !■ 0.52 0 94 V С'. •(■— 0.58 1 <Ю

В целом, на рассмотренной тестовой выборке при граничных условиях: N¡{>0.95, ЧС>0.5, ЯЬ=0.93 и УУ>10 (где N - частота встречаемости фрагмента в структурах-эталонах) - получены следующие данные. Из 35 двухвершинных фрагментов распознано 12, из 114 трехвершинных -31, из 410 четырехвер'шинных - 82, из 1382 пятивершинных - 170, из 4314 шестивер-шинных - 262 и из 11783 семивершинных - 708.

Среднее число вершин в структурах соединений выборки было близко к 22, г. е., каждый корректный из выявленных семивершинных фрагментов описывает до трети остова структуры. По размерам эти фрагменты приближаются к типичным фрагментам, выявляемым в рамках подхода, основывающегося на поиске максиматьных общих для структур поискового ответа фрагментов. Для версии БД "ИК спектр - фрагментный состав соединения", содержащей —31000 структур, количество фрагментов, распознаваемых при М?>0.95 и ЯЬ>0.95 в рамках рассматриваемого метода, приводится в табл. 6.

Таблица 6.

к КС>

0.5 0.75

2 57 18

3 188 65

4 630 237

5 2099 785

6 6898 2561

7 21115 8298

В пятой главе демонстрируется возможность использования выявленного набора фрагментов для формирования наиболее вероятной гипотезы о строении исследуемого по ИК спектру соединения.

Пусть С - структура с заданной молекулярной формулой, а Г(С), £((/) -множества всех А-вершинных фрагментов структуры С, входящих и не входящих в обобщенный фрагментный состав поискового ответа соответственно. Фрагменты из F(G) считаются желательными, а из Е(С) - нежелательными. '

Можно определить меру доверия структуры С, как некоторую функцию от весов желательных фрагментов и числа нежелательных фрагментов:

ц(С) =Д ЩС), с(С)),

где ц(С) - мера доверия, ЩС)={ >1>,:} - множество весов всех желательных фрагментов, е(С)=\Е(С)\ - число нежелательных фрагментов в структуре С.

Каждому желательному фрагменту присваивается вес и* =.- 1п( 1 -ЛТ?). Нежелательным фрагментам приписывается вес, принятый в для всех нежелательных фрагментов одинаковым. В табл. 7 приведены примеры желательных семивершинных фрагментов, полученных в результате поиска по ИК

спектру 4'-метилвалерофенона (рис. 8) и анализа обобщенного фрагментно-го состава отобранных соединений.

-7й

Л г4 А- лИ- £ и 3 "V и Ц-

1 - 1/

1- - •Ь

«ООО ЖОО ЗСОО 25СО 2000 1800 1600 1400 12Ш) 1СОО В00 600 «Ю 200

Рис. 8.

Таблица 7.

Фрагмент а) Вес. Фрагмент Вес

сь 8,0 2,1

ь— 9,4 К" 1,9

6,5 ь- 9,0

4,5 12,0

э- 0,6 Ч— Г) 11,3

1,6 12,4

э— 6,5 12,2

■ А ' - 7,1 4,5

" Символом "точка" помечены агомы углерода, пунктирной линией - ароматические связи.

Молекулярная формула, список желательных фрагментов и список некоторых запрещенных, маловероятных с точки зрения традиционной органической химии, фрагментов передавались генератору структур вЕИМ. Генерируемые графы должны были содержать не менее 35 процентов желательных фрагментов. Очевидно, что генерируемые структуры наряду с желательными фрагментами содержат другие (нежелательные) фрагменты. Для их выявления применялась процедура, позволяющая строить фрагментные составы каждой из генерированных структур. ;'

Каждой генерированной структуре (С) присваивается мера доверия ц(С), учитывающая веса входящих в ее состав желательных и нежелательных фрагментов. Структура штрафуется в соответствии с числом е(С) выявленных в ней нежелательных фрагментов:

»(С)

Ы!

Здесь т(С) число всех желательных фрагментов структуры, Р- вес (коэффициент штрафа) нежелательного фрагмента.

В табл. 8 приведен результат ранжирования структур, генерированных на основе анализа ИК спектра, представленного на рис. 8. Структура исследуемого соединения оказалась на первом месте.

Таблица 8.

№ Л е 4 Структура

1 21 0 197.1 СИ,—V С—(СН2)3—сн3

2 19 0 183.6 ° снз—С|{2—V у— с— (с н 2)3— с н3

3 20 0 165.9 С—(СН2)4—СН3

4 19 2 155.9 /"Я II /•". СН3—:>—С—СН2—СН. сн3

5 16 0 154.5 с„3-(сн2ь{]ь^сн3

11 19 5 114.5 сн3

21 14 2 68.5 СН —(СН2)з—V

31 14 2 50.3 сн-о-сн-<^^-(сн2)1-сн=снг

В табл. 9 представлены результаты анализа ИК спектров для ряда других органических соединений. Если искомая структура не находится на первом месте ранжированного списка, в таблице приводится структура, получившая наибольшую меру доверия. Как видно, во всех приведенных примерах это достаточно близкий структурный аналог «неизвестного» соединения.

Таблица 9,

Результаты анализа ИК спектров 10 соединений.

№ Структура "неизвестного14 Число фрагментов Порог Число структур Место в сппске Первая структура в списке

1 CH-(CH.)<-CH-CHI 9 1 593 1 искомая

2 CH)V if сн,^ 11 1 56 а) 11-13 М- О 1 " II СН3-(СН;),- СН - С -ОН

3 СН,„ Ü ^сн, ^СН -CH.-NH-C-NH-CH.-Cnr СН,Х ' - VH, 18 3 11059 2-3 СИ, Б СН, 1 1 II 1 ' СН ,-СН—СН-КН-С -N4 -СН -сн.-сн,

4 0 NHC—СН-— С — О—(СН.н—СН( 18 2 949 1 искомая

5 ■ ■ о F-/ V-C-0-CH=CH-S-C=N 45 16 8885 1 искомая

6 ogx 78 20 4 1-2 искомая

7 0=С-N-H ch3-ch2~o~ch-^sJ-s 125 15 102 2 0=С—Ы-СНз

8 HO-CII.-Ч J^ - er О 116 30 931 1 искомая

9 <р-1с„=сн-П СН> СН, 82 48 3642 1 искомая

10 CHYV-" V"- tM А^^-к^с-сн-он 56 14 7559 254 Пг»

а) Структуры имеют равные значения меры доверия.

Выводы. .

1. Впервые обоснована возможность представления структур соединений в виде полного набора неизоморфных А-вершинных связных фрагментов (2 > к > 7) для выявления структурных особенностей исследуемого соединения с использованием базы данных "ИК спектр - фрагментный состав соединения". Сформирована экспериментальная база данных, содержащая описание фрагментных составов ~31 ООО структур различных органических соединений.

2. Предложена и апробирована методология опознания 2^-7 - вершинных фрагментов структуры изучаемых соединений, базирующаяся на анализе информации, извлекаемой из фрагментных составов молекул, обладающих ИК спектрами, наиболее похожими на спектр исследуемого вещества.

3. Исследовано влияние частот встречаемости фрагментов в структурных формулах соединений базы данных и в поисковых ответах на результат их идентификации по спектрам изучаемых веществ. Показано, что при распознавании фрагментов использование параметра неслучайности (А'/?) предпочтительнее, чем параметра частоты встречаемости фрагмента в поисковом ответе. В различных экспериментальных условиях выявлены количественные соотношения между корректно и ошибочно распознаваемыми фрагментами. Установлено, что фрагменты, определяемые с высокой степенью неслучайности (Л7?>0,95), могут достаточно полно характеризовать строение исследуемого по спектру соединения.

4. Получены статистических данные, характеризующие вероятность и достоверность распознаваемых по ИК спектрам фрагментов соединения. Впервые показано, что основанная на поисковом принципе методология позволяет достаточно надежно идентифицировать тысячи самых разнообразных фрагментов органических веществ. Экспериментально установлено, что с вероятностью более чем 0,75 возможно распознание свыше 11 тыс. структурных единиц молекул.

5. Предложен и апробирован метод ранжирования вероятных структур изучаемого соединения, генерированных с использованием информации, которая извлекается из анализа спектра вещества, проводимого с помощью базы данных " ИК спектр - фрагментный состав соединения ".

Список основных публикаций

1. Богданова Т.Ф., Пиоттух-Пелецкий В.Н., Смирнов В.И., Чмутина К.С. Нор мализация представления структур химических соединений в банках данны> по молекулярной спектроскопии. /VII Всесоюзная конференци; "Использование ЭВМ в спектроскопии молекул и химических исследовани ях": Тезисы докладов. - Рига: 1986г.-С. 187-188.

2. Богданова Т.Ф., Качалков A.M., Кошелев М.В., Молодцов С.Г., Пиоттух Пелецкий В.Н., Смирнов В.И., Торопов О-В. Регистрационная система хими ческих соединений REGSY. 1. Стандарт на представление структурной ин формации. / Новосибирск, 1992. - 38 с. (Препринт. Новосибирский институ органической химии СО РАН).

3. Пиоттух-Пелецкий В.Н., Богданова Т.Ф.,.Дерендяев Б.Г. Полные наборь фрагментных составов структур при интерпретации ИК спектров с помощьн поисковой системы. //Ж. структ. химии. - 1996. - Т. 37. - № 2.- С. 368-378.

4. Богданова Т.Ф., Пиоттух-Пелецкий В.Н., Чмутина К.С. Компьютерная вери фикация соответствия ИК спектра структуре органического соединения. Л конференция "Аналитика Сибири и Дальнего Востока". Тезисы докладов Новосибирск, 1996. - С. 119

5. Piottukh-Peletsky V.N., Bogdanova T.F. Structure Elucidation of Organi Compounds Based on the Analysis of their Fragment Compositions as a Result с Infrared Spectral Search. /2nd International Simposium "Chromatography an Spectroscopy in Environmental Analysis and Toxicology (ISCSE'96')".Abstract: St. Petersburg, 1996.- P.108-109.

6. Пиоттух-Пелецкий B.H., Б.Г.Дерендяев Б.Г, Богданова Т.Ф. Полные набор! фрагментных составов структур при интерпретации ИК спектров с помощы поисковой системы. 2. Определение микрофрагментного состава органиче ских соединений. //Ж. структ. химии. - 1997. - Т. 38. - № 1. - С. 155-166.

7. Пиоттух-Пелецкий В.Н., Б.Г.Дерендяев Б.Г, Богданова Т.Ф Полные набор! фрагментных составов структур при интерпретации ИК спектров с помощы поисковой системы. 3. Анализ крупных фрагментов. /ПК. структ. химии. 1997. - Т. 38. - № 2. - С. 370-379.

8. Пиоттух-Пелецкий В.Н., Дерендяев Б.Г,.Молодцов С.Г, Богданова Т.Ф. По; ные наборы фрагментных составов структур при интерпретации ИК спектре с помощью поисковой системы. 4. Формирование наиболее вероятной гиш тезы о строении изучаемого соединения. //Ж. структ. химии. - 1997. - Т. 38. №4.-С. 786-794.

9. Piottukh-Peletsky V.N., Korobeinicheva I.K.., Bogdanova T.F., Molodtsov S.C Derendyaev B.C. Exhaustive set of non-isomorphic subgraphs and its applicatic to chemical structure elucidation using 1R spectroscopy database. //Anal. Chir Acta. - 2000. - V.409. - №1-2. - P. 181-195.

,'l I fi < 4

Оглавление автор диссертации — кандидата химических наук Богданова, Татьяна Фоминична

Базы данных по ИК спектроскопии и их использование для определения структурных особенностей соединений по их спектрам

1. Введение

2. Автоматизированные БД по ИК спектроскопии

3. Поисковые алгоритмы и оценка их эффективности

4. Использование БД по ИК спектроскопии для установления строения органических соединений.

5. Интегрированные ИПС, использующие базы данных по ИК спектроскопии

База данных «ИК спектр - фрагментный состав соединения

1. Представление спектров.

2. Представление структурных формул.

2.1. Поатомный код молекулярного графа.

2.2. Полный набор связных фрагментов молекулярного графа.

2.3. Формирование базы данных А>вершинных связных фрагментов

2.4. Характеристика БД фрагментов.

О возможности использования полных наборов фраг-ментных составов структур для качественного анализа структурных особенностей соединений поискового ответа

1. Введение.

6. Экспертные систе пию гййцие ИК спектроско

ВВЕДЕНИЕ

Современное состояние исследований в области органической химии неразрывно связано с развитием методов молекулярной спектроскопии, обеспечивающих специалистов необходимым аналитическим материалом. Наряду с совершенствованием инструментальных средств, существенно сокращающих сроки экспериментальных работ и открывающих все новые возможности, развиваются программно-аппаратные средства анализа спектральных данных. Комплексы спектрометр-компьютер позволяют не только собирать, регистрировать и оцифровывать экспериментальный материал, но и во многих случаях способствуют его интерпретации, в том числе и на основе использования крупномасштабных баз данных. Этим самым исследователь все больше освобождается от трудоемких и рутинных работ, концентрируя внимание на анализе и осмыслении результатов. В итоге, доведенный до коммерческого и практического использования программный и информационный инструментарий способствует более эффективному применению спектроскопии молекул в различных областях химических исследований.

Одно из центральных мест в молекулярной спектроскопии занимает инфракрасная (ИК) спектроскопия молекул. Это объясняется целым рядом обстоятельств, среди которых: доступность, высокая информативность и чувствительность, возможность регистрации спектра в любом агрегатном состоянии. Особо подчеркнем широту использования метода в практике - трудно представить аналитическое подразделение или лабораторию, решающее задачи идентификации соединений или компонентов смесей, не оснащенное оборудованием по ИК спектроскопии.

Регистрируемый ИК спектр (частоты полос поглощения, интенсивности сигналов, полуширины, форма спектральных кривых и т.п.) содержит важную информацию о природе анализируемого образца. Его'анализ позволяет экспериментатору делать выводы о составе и строении молекул изучаемого объекта. Многолетний опыт анализа ИК спектров обобщен в монографиях и справочных руководствах, а накопленный спектральный материал представлен не только в многочисленных атласах и каталогах спектров, но и в современных базах данных.

В отличие от масс-спектрометрии в ИК спектроскопии хорошо развита теория расчета спектров, позволяющая, в частности, рассчитывать частоты, формы и интенсивности колебаний достаточно сложных органических молекул.

Успехи в области ИК Фурье-спектроскопии позволяют регистрировать спектры в газовой фазе, не искаженные влиянием среды. Сопряженные с хроматографическими установками ИК Фурье-спектрометры обеспечивают регистрацию спектров индивидуальных компонентов достаточно сложных смесей.

К недостаткам, ограничивающим применение ИК спектроскопии в различных областях химии и ее приложений, в частности, в органической химии, можно отнести сильное влияние на вид ИК спектра условий его регистрации, а также существенную (в ИК шкале) ширину наблюдаемых полос поглощения в случае записи спектров жидких или твердых форм образцов. Заметим, что именно в этих агрегатных состояниях представлен на твердых копиях или машиночитаемых носителях основной экспериментальный материал, накопленный за полувековую историю использования метода в практике химического анализа.

Характерная для ИК спектроскопии индивидуальность спектров соединений, наряду с высокой перекрываемостью полос поглощения различных по химической природе групп, часто ставят в тупик даже опытный исследователей, пытающихся отнести изучаемый объект к одному из химических классов. Трудность однозначного установления связи структуры молекулы с соответствующим спектром или фрагмента структуры с фрагментом спектра вынуждает обращаться к другим экспериментальным методам. Интерпретация полученных результатов с целью решения структурных задач удается высококвалифицированным специалистам, владеющим опытом анализа спектров изучаемого химического класса соединений. В тех же многочисленных случаях, когда сведения о природе объекта скудны (анализ объектов окружающей среды, криминалистика, анализ природных продуктов и т.п.), часто возникают непреодолимые затруднения в оценке выносимых заключений. В этих случаях существенную помощь оказывают не столько базы знаний и корреляционные таблицы, сколько базы фактографических данных о ранее исследованных и зарегистрированных колебательных спектрах молекул.

Аналитическая ИК спектроскопия, оснащенная современным информационным инструментарием, обеспечивающим быстрый отбор из десятков тысяч спектров ограниченного числа записей, релевантных запросу, открывает принципиально новые возможности при решении спектро-структурных задач. Индивидуальность спектра - своеобразный «паспорт» вещества - давно и широко используется для идентификации соединения по его ИК спектру [. Сегодня трудно представить современную аналитическую службу, не обладающую информационно-поисковым инструментарием и базой данных, содержащей десятки (или даже сотни) тысяч ИК спектров разнообразных соединений. Тождественность зарегистрированного спектра с одним из спек- ^ тров базы данных, устанавливаемая компьютером за секунды, - современный 4 уровень спектроскопии и информационных технологий в структурных исследованиях. Надо ли говорить, что еще 20 лет назад задача идентификации соединения по спектру традиционными методами требовала длительной и трудоемкой работы самого исследователя.

Успехи, достигнутые в области развития компьютерных средств интерпретации спектров, базирующиеся на методах «искусственного интеллекта», распознавания образов, статистических методах, нейронных сетей и т.п., блестяще демонстрируют перспективность математически обоснованных приемов интерпретации ИК спектров и базирующихся на них систем.

Наиболее развиты среди них системы, базирующиеся на использовании баз знаний - накопленных ранее закономерностей и спектро-структурных корреляций. Математический аппарат этих систем формализует обобщенный интеллект исследователя, методы, пути и приемы решения поставленной задачи. Отсюда название - «системы искусственного интеллекта», «экспертные системы». Современные версии таких систем позволяют решать задачи установления строения соединения по спектру, выявления функциональных групп, заданной компоненты в смеси неизвестного состава и т. д. Основной и-' недостаток систем этого типа заключается в необходимости задания правил интерпретации, формулируемых индивидуально для каждой из решаемых задач. Недостатком является и ограниченность системы рамками заданных и описанных правил, характеризующих заранее заданный набор фрагментов, представляющих те или иные особенности строения изучаемых соединений.

Анализ и сопоставление используемых приемов решения спектро-структурных задач позволяют выделить, как наиболее перспективные, два метода. Первый опирается на базы знаний (искусственный интеллект, экспертные системы), второй - на базы фактографических данных о спектральном поведении разнообразных соединений.

Выбирая в качестве основного направления данной работы развитие второго подхода, мы исходим прежде всего не из его преимуществ перед первым, а из перспектив создания средств, которые бы не имели ограничения на классы анализируемых соединений и опирались на использование всего накопленного экспериментального материала в виде баз данных "структура соединения - его ИК спектр".

По нашему глубокому убеждению ни одна из даже самых детализированных таблиц спектро-структурных закономерностей в ИК и, соответственно, базы знаний, не обладают той полнотой спектро-структурной информации, которая содержится в непрерывно пополняющихся все новыми экспериментальными сведениями базах данных «структура - спектр». Вопрос заключается лишь в том, как извлечь необходимую на том или ином этапе исследований информацию, и какие средства обеспечат наиболее эффективное решение задачи.

Во взаимосвязи «структура - спектр», безусловно, важны и значимы обе компоненты. До недавнего времени, на начальных этапах исследования приоритет отдавался спектрам. В этой области разрабатывались средства наполнения БД, быстрого поиска требуемых по запросу спектров в крупных БД, методы сокращения (сжатия) информации, алгоритмы классификации и т.п. Несомненно, это обусловлено не столько недопониманием роли необходимости хранения и анализа связи структура - спектр, сколько отсутствием средств анализа структурной информации. Развитие вычислительной техники и появление программно-технического инструментария для ввода структурных данных привело к созданию информационно-поисковых систем и БД нового поколения, содержащих не только полную спектральную кривую (полный ИК спектр), но и представление структуры соединения - его структурную формулу. В этот же период начинают разрабатываться средства манипулирования структурными данными: структурный и подструктурный поиск, генерирование структур по заданному набору фрагментов, новые методы представления структурных данных, обеспечивающие их эффективную обработку средствами ЭВМ и т.п. Однако, до сих пор коммерческие системы в ИК спектроскопии, содержащие базы вида структура - спектр, используют структурные сведения лишь как средство отображения поисковых данных.

Традиционное представление структуры соединения - молекулярный граф. Его математическая модель описания - матрица связей, не диагональные элементы которой - типы связей, а диагональные - типы вершин (атомы или группы атомов). Хорошо известно, однако, что математический аппарат работы с матрицами связей сложен и трудоемок, поскольку графы типичных для органической химии соединений содержат десятки вершин. Это обстоятельство сдерживает активное использование сведений о структурах и фрагментах структур в системах, обеспечивающих анализ спектральных и структурных данных. С другой стороны, ИК спектры в БД могут быть представлены векторами Аппарат работы с векторами прост, хорошо проработан и используется в современных информационных системах. Очевидно, что задачу одновременного анализа спектров и структур соединений можно было бы существенно упростить, если структуры соединений (как и спектры) представить в виде векторов. Попытка такого представления и оценка перспектив его использования в информационных системах по ИК спектроскопии и являлась одной из целей настоящей работы.

Выбирая способ описания структур с помощью векторов, мы на данном этапе остановились на описании структур исчерпывающим набором неизоморфных связных Л-вер шинных фрагментов, начиная с двухвершинных, до некоторого заданного числа вершин. В этом состоит принципиальная новизна подхода.

В данном исследовании анализ связи структура - спектр проводится не с позиции заранее заданного (и всегда ограниченного) набора фрагментов, как это делается, например, в системах «искусственного интеллекта», а с позиции анализа исчерпывающего и, разумеется, заранее не заданного списка фрагментов, характеризующего все представленное в БД многообразие структур органических соединений. Оценка достигаемых при этом результатов и составляет основную цель данного исследования.

В ходе исследования впервые для выявления структурных особенностей исследуемого соединения по его ИК спектру предложено использование базы данных нового вида «фрагментный состав соединения - его ИК спектр». Обосновано применение в БД по РЖ спектроскопии представления структурных формул соединений в виде полного набора неизоморфных Л-вершинных связных фрагментов с числом вершин от 2 до 7. Предложена и апробирована методология выявления сведений о фрагментах структуры изучаемых соединений, базирующаяся на использовании информационно-поисковых систем с крупными БД по ИК спектроскопии молекул и анализе информации, извлекаемой из фрагментных составов молекул, обладающих ИК спектрами, наиболее похожими на спектр исследуемого вещества.

Впервые исследовано влияние частоты встречаемости А-вершинных связных фрагментов в структурных формулах соединений поисковых ответов и базы данных на результат идентификации фрагментов изучаемых соединений. Выявлены соотношения корректно и ошибочно распознаваемых фрагментов при различных экспериментальных условиях. Показано, что определяемые фрагменты могут достаточно полно характеризовать строение исследуемого соединения. Впервые получены статистические данные, характеризующие вероятность и достоверность распознаваемых по ИК спектрам фрагментов. Показано, что основанная на поисковом принципе методология обеспечивает надежную идентификацию нескольких тысяч самых разнообразных структурных фрагментов органических соединений. Предложен и апробирован метод построения и ранжирования вероятных структур изучаемого соединения, основанный на использовании информации, извлекаемой из анализа его ИК спектра с помощью базы данных «ИК спектр - фрагментный состав соединения».

Выполнение этой работы было бы невозможно без передачи в распоряжение автора базы данных по И К спектроскопии вида «структура-спектр», сформированной большим коллективом лаборатории, руководимой к.х.н. М.И. Подгорной. Всему этому коллективу автор приносит свою искреннюю благодарность. Автор глубоко признателен сотрудникам лаборатории, в которой он выполнял данное исследование, за их поддержку, помощь в реализации и конструктивное обсуждение этапов работы. Особую благодарность автор приносит своему руководителю - к.х.н. В.Н. Пиоттух-Пелецкому, а также руководителю Научно-технического центра химической информатики - д.х.н., профессору Б.Г. Дерендяеву за постановку темы исследования, постоянный интерес и творческий вклад, обеспечившие выполнение целей сформулированных в работе.

ГЛАВА 1. Базы данных по ИК спектроскопии и их использование для определения структурных особенностей соединений по их спектрам (обзор литературы)

Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Богданова, Татьяна Фоминична

Революционные изменения характера исследований в области установления строения синтезируемых или выделяемых веществ природного и антропогенного происхождения вызваны в первую очередь проникновением в практику анализа разнообразных методов спектроскопии молекул. За полувековой период их использования накоплен обширный экспериментальный материал и эмпирические знания, характеризующие корреляционные связи поведения фрагментов молекул и соответствующего спектрального отклика. Начиная с конца 60-х годов, впервые появляются публикации, рассматривающие вопросы использования ЭВМ для целей создания баз данных (БД), а также использования математических методов анализа информации колебательной спектроскопии молекул с целью решения задач установления строения соединений по их ИК спектрам. Уже в этот период формируются два основных направления исследований. Первое - создание систем на основе «искусственного интеллекта», получивших в последнее время название экспертные системы. Второе - создание систем на основе использования фактографических баз данных.

Этапы развития первого направления детально рассмотрены в ряде монографий и обзоров [1-13], включая обстоятельные обзоры достижений за последнее десятилетие, представленные одним из основателей этого направления - М.Е. Эляшбергом [9-13]. Несколько иначе обстоит дело с обозрением успехов во втором направлении. Вероятно, можно с уверенностью утверждать, что наиболее детальный обзор в этой области РЖ спектроскопии представлен Луинжи [8] в 1990 году. Более поздние обобщения литературных " данных, за редким исключением [14], рассматривают вопросы совместного использования БД по различным видам спектроскопии молекул (масс

13 спектрометрии, спектроскопии протонного, углеродного ядерного магнитного резонанса, инфракрасной, ультрафиолетовой спектроскопии, см. например [10]) и поэтому не уделяют должного внимания одному из наиболее доступных и широко распространенных в практике методов - ИК спектроскопии. В то же время базы данных с соответствующим программным обеспечением «будут широким средством анализа в 21 веке» [15]. Эти обстоятельства, а также поставленные в работе цели и используемый для их решения инструментарий и определили основную направленность литературного обзора.

1.2. Автоматизированные БД по ИК спектроскопии /

В течение многих лет коллекции спектроскопических данных создавались в виде печатных форм: атласы спектров, перфорированные карточки и картотеки, каталоги на микрофишах и т.п. В сочетании с известными спектро-структурными корреляциями [16-19] они оказывали существенную помощь химикам и спектроскопистам при интерпретации спектров органических соединений. С появлением ЭВМ и осознанием их возможностей (в конце шестидесятых годов) опубликованная фактографическая информация начинает переноситься на машинно-читаемые носители. Причины столь давнего интереса к формированию компьютерных баз по ИК спектроскопии вытекают из осознания их практического потенциала для аналитической и органической химии, ожидаемой легкости доступа к автоматизированным БД и известной индивидуальности ИК спектров органических соединений.

Ряд первоначально созданных и опубликованных коллекций данных по ИК спектрам, зарегистрированным на призменных и решеточных спектрометрах, например коллекция Садтлера [20], и в настоящее время могут считаться эталонными. Не случайно эта коллекция продолжает и сегодня пополняться ИК спектрами соединений в конденсированной или в газовой фазе. Однако, все более значимыми, емкими и распространенными в практике ста

14 новятся компьютерные БД по ИК спектроскопии, содержащие, наряду с опубликованными ранее, ИК спектры, зарегистрированные на современных спектрометрах. Приведем в качестве примера данные о количестве спектров в различных БД, представленные в обзоре [10].

Таблица 1.1

Базы данных по ИК-спектрам поглощения со структурами соединений

Коллекция Число спектров Комментарии

Sadtler 160 ООО часть БТ-Ж

Sadtler vapor phase 9 200 БТ-Ж

Sprouse Scientific много небольших коллекций

Aldrich-Nicolet 17 000 —

Sigma-Nicolet 10 600 —

Aldrich vapor phase 5 000 —

NIST/EPA vapor phase 5 244 —

NIMCR Japan 46 400 —

Speclnfo 22 600 17 000 полных спектров 6 600 положений полос

Coblentz Society 10 500 4 400 полных спектров

IRDC Japan 19 000 длины волн и интенсивности

По способу доступа [21 ] спектральные БД можно разделить на централизованные и локальные. Централизованные - крупные БД, создатели которых стремятся включить в их состав как можно больше доступной информации. Эти БД, как правило, создаются в коммерческих целях (поставляются с современным спектральным оборудованием), а также для коллективного пользования; в последние годы часть из них доступна по сетям ИНТЕРНЕТ. Локальные БД создаются, пополняются и используются их владельцами. Отбор спектров в локальные БД производится в соответствии с научными интересами их создателей [22-24].

Объединение локальных БД или их присоединение к существующим централизованным БД не всегда оказывается возможным. Причина этого состоит в том, что локальные БД могут сильно различаться по качеству спек

15 тральной информации. Компании, занимающиеся созданием коммерческих БД, и международные организации (С OD ATA, IUP АС), заинтересованные в развитии существующих централизованных БД, предлагают стандарты записи спектров ИК поглощения [25-26] и стандарты обмена спектрами [27-29], например, JCAMP-DX [27].

Основные концепции создания компьютерных БД (отбор, оцифровывание данных, контроль качества спектров, характер дополнительной информации и форматирование данных), рассмотренные в работе [30], не устарели до сих пор, правда, функцию оцифровывания спектра взял на себя современный спектрометр. Сведения об условиях регистрации спектра, структуре соединения и другая сопровождающая спектры информация обычно хранятся в отдельных файлах БД. Организация взаимодействия между файлами зависит от поставленных задач.

Поддержка, пополнение существующих централизованных БД и расширение доступа к ним стоят чрезвычайно дорого [31-32], не сулят научных лавров [33] и невозможны без государственных дотаций. Так, БД 5500 полных ИК спектров, созданная к 198$í\ при помощи правительственных субсидий, не была пополнена до 15000 спектров (в соответствии с планом) из-за прекращения государственного финансирования [33]. Как пишет Хеллер, [34],<:>р «экономические проблемы численных БД связаны с тем, что данных слишком мало и слишком много». При небольшом объеме данных трудно привлечь исследователей к активному использованию БД, в то же время стоимость хранения и поиска информации возрастают с увеличением баз. Огра- / ниченный размер качественных спектральных банков данных препятствует прогрессу в области автоматического установления строения соединений (в настоящее время описано около 20 млн. соединений).

Несмотря на отмеченное, работы в области пополнения БД по ИК спектроскопии продолжаются [15,35].

16

1.2. Поисковые алгоритмы и оценка их эффективности

Информационно-поисковые системы (ИПС), содержащие как компоненту БД по ИК спектроскопии, обеспечивают сравнение спектра неизвестного соединения со спектрами БД. Результатом поиска обычно является список соединений (поисковый ответ), спектры которых наиболее похожи на предъявленный. Результативность поиска зависит от величины БД, способа представления в ней спектров, меры подобия (различия) сравниваемых спектров и применяемого поискового алгоритма. Эти же факторы влияют на скорость поискового процесса.

В первых ИПС [36], когда существовали ограничения на размер памяти ЭВМ, занимаемой БД, спектры представляли в существенно сокращенном виде, например, в виде бинарных кодов (спектральный файл А8ТМ). В этом случае весь спектральный диапазон разбивался на интервалы, а присутствие или отсутствие сигнала в каждом интервале описывалось бинарным вектором (коды единица или нуль). Для увеличения эффективности поиска (разрешающей способности) в ряде ИПС учитывались положения наиболее сильных сигналов в спектрах [37] и/или использовались сведения об интенсивно-стях и полуширинах спектральных полос [38]. С увеличением памяти и быстродействия ЭВМ стало возможным создавать библиотеки полных спектров ИК поглощения и проводить поиски по соответствующим спектрам запроса.

Для оценки меры близости спектров (спектра неизвестного соединения и эталонного спектра из БД) используют разные математические функции. Среди них: сумма квадратов разностей; сумма абсолютных величин разностей интенсивностей спектральных полос или их первых производных [39]; вычисление коэффициентов корреляции [40] или функции взаимной корреляции [41-42]; нечетные моменты в функции взаимной корреляции [43], метрика Гротча [44], методы нечёткой логики [42,45-47] и др. [8,48]. Хорошие результаты достигаются при использовании менее строгих эмпирических функций [49]. Вероятно это обусловлено высокой чувствительностью ИК спектра к условиям его регистрации. Спектры тождественных соединений, >/ строго говоря, не тождественны, хотя до сих пор бытует мнение, что «ИК-спектр - своеобразный паспорт соединения» или его «отпечаток пальцев».

Для ускорения процедуры поиска используют различные приемы, например, сокращение информации в поисковых файлах путем обнуления малоинформативных спектральных интервалов [50] или файлы с иным видом сокращенных спектров [37]. Метод поиска, в котором для идентификации спектров используют только фазовые компоненты Фурье-преобразования [51], позволяет идентифицировать спектры, полученные в разных инструментальных условиях. Ряд эффективных приемов на основе методов факторного анализа и собственных векторов предложен в работах [52-57]. Предварительный отбор спектров по положению сигналов, а затем сравнение полных спектров выборки [8, 58] или предварительная оценка подобия отдельных частей полных спектров рассмотрены в работе [59].

Для хранения и поиска ИК спектров используют иерархические деревья [60,61]. В этом случае много времени занимает построение дерева, но затем процесс поиска происходит довольно быстро. Разработан алгоритм, позволяющий повторять поиск в узлах дерева, это приводит к более качественным результатам, но занимает больше времени [62]. В работе [63] предлагается для интерпретации ИК спектров применять методы нечеткой логики.

Методы оценки эффективности библиотечного поиска (library search) при идентификации соединений достаточно просты: субъективная оценка списков соединений, полученных в результате поиска с использованием некоторой заданной выборки; расчет процента правильно идентифицированных соединений среди заданного списка отбираемых в поисковый ответ соединений. Результат идентификации (т.е. отбора из БД того же самого, что и заданное соединение, спектр) в этих случаях сильно зависит от качества спектров БД и выборки.

18

Иная количественная оценка эффективности библиотечного поиска, предложена в [64] - метод QELS (Quantitative Evaluation of Library Searching Performance). Используя её, авторы [65] изучали влияние привнесенного в спектры шума на эффективность библиотечного поиска и установили, что для спектров в газовой фазе отношение сигнал/шум от 2 до 5 приводит к хорошим, а свыше 5 - к отличным результатам поиска. Метод QRM (Quantitative Reliability Measure) [66] является развитием QELS. Мера количественной надежности (достоверности) поисковых результатов использовалась для оценки двух метрик сравнения спектров - евклидовой и скалярного произведения в работе [67].

Более сложный подход ставит задачу оценки эффективности поиска не полностью тождественных эталонам соединений, а подобных им по строению. В этом случае возникает проблема определения структурного подобия соединений, обладающих спектрами, подобными с эталонами. Она неоднократно обсуждалась в литературе [68]. Удачный пример ее решения представлен работой [69], ср. с [70].

Исследованию эффективности библиотечного поиска в конкретных ИПС посвящены обстоятельные работы группы Клерка [71-73]. В частности, в [71] оценивается влияние условий регистрации образца (концентрации, примесей, коррекции фоновой линии) на результаты спектрального поиска для коммерческих ИПС, а в работе [73] сопоставляются результаты использования различных ИПС на одной и той же выборке «эталонных» данных.

1.3. Использование БД по ИК спектроскопии для установления строения органических соединений.

В традиционной практике качественного органического анализа с использованием баз данных решают две принципиально различающиеся задачи. Первая - идентификация соединения по спектру. Она может быть решена, если спектр искомого соединения ранее зарегистрирован и содержится в БД. Вторая, существенно иная задача - установление особенностей строения соединения, если его спектр по каким-то причинам не найден в БД или отсутствует в ней. Программный инструментарий, используемый в данных случаях, существенно различается. Системы первого вида доведены до коммерческого состояния (ими снабжаются современные ИК спектрометры), системы второго вида находятся в стадии разработки.

Рассмотрим кратко какие возможности предоставляют исследователям ИПС, составляющие часть матобеспечения современного спектрометра.

Фирма Brucker в кооперации с лабораторией Садтлера предлагает две ИПС для поиска по ИК спектрам в БД Садтлера [74]. Комплекс программ BIRSY предназначен для поиска по полным спектрам и включает в себя четыре режима: поиск по спектрам, по положению отдельных полос, по дополнительной информации и комбинированный поиск. Спектры соединений, отобранных в результате поиска, могут быть отображены на экране одновременно со спектром неизвестного соединения для визуального сравнения и идентификации. Дополнительная информация о соединении состоит, как минимум, из его названия и может включать молекулярный вес, молекулярную формулу, номер по CAS и т.п. Режим комбинированного поиска объединяет или все три предыдущих режима или любые два из них. Номера по каталогу Садтлера и названия отобранных в поисковый ответ соединений, упорядоченные по убыванию меры спектрального совпадения, могут быть выведены на печать или экран дисплея.

Поисковая система SPECSEARCH [74] предназначена для работы с БД усеченных ПК спектров Spec-Finder, в которой они представлены набором из 27 положений полос поглощения в шкале частот. Такой способ описания данных позволяет значительно экономить дисковую память. Для проведения поиска спектр неизвестного соединения преобразуется в необходимый формат. Результаты представляются в таком же виде, как и в системе BIRSY.

Интересно проследить* этапьГразвития ИПС по спектрам инфракрасного поглощения в Новосибирском институте органической химии СО РАН. Уже в первых ее вариантах для ЭВМ БЭСМ-6 [37], Минск-32 [75] и ЭВМ серии ЕС [76], разработанных под общим руководством академика В.А.Коптюга в 70-х - 80-х годах, предусмотрено выполнение следующих операций: ввод, проверка и занесение в БД кодированных спектров соединений и дополнительной информации, исправление находящихся в БД записей, поиск спектров соединений по заданным спектральным признакам и выдача результатов на печать, поиск соединений, спектры которых близки предъявленному, получение спектро-структурных корреляционных зависимостей при помощи статистической обработки массива [77]. БД системы формировалась на основе каталогов DMS и Садтлера и содержала, помимо спектральной информации, номер соединения по атласу, название, молекулярную формулу, молекулярный вес, температуру кипения и плавления.

В БД спектры хранились в сокращенном виде. Весь частотный диапазон разбит на 48 интервалов. В каждом спектре выделены 16 наиболее интенсивных полос поглощения и отмечены интервалы, в которые попадают эти полосы. В поисковом запросе требовалось указать, в каких интервалах спектра должны обязательно присутствовать или отсутствовать сигналы (обязательные признаки), и в каких сигналы могут быть или не быть (желательные признаки). Желательные признаки могли вводиться с весовыми коэффициентами, и отобранные из БД спектры ранжировались в соответствии с суммой весовых коэффициентов для желательных признаков.

21

Принципиально новая версия системы разработана для ЭВМ серии ЕС (ВАЖЖ-Р) [78] и для персональных ЭВМ (ВАЖЖ-РС) [79] на базе данных, содержащей полные ИК спектральные кривые и структурные формулы индивидуальных соединений. Эти версии систем предусматривают работу как в пакетном, так и в диалоговом режиме; ввод, корректировку и хранение поисковых запросов; последовательный и прямой доступ к информации; поиск по всем присутствующим в записях БД характеристикам; управление выводом отобранной при поиске информации. Некоторые из перечисленных здесь возможностей и определили выбор этой системы как базовой при выполнении исследований, изложенных в данной диссертационной работе.

В целом отметим, что высокая результативность использования коммерческих систем при решении задач идентификации известных соединений по ИК спектрам превратила их в простой метод анализа, находящий все более широкое применение в практике криминалистических служб, контроле и охране окружающей среды, контроле продукции химических производств, сельхозпродукции и т.п.

Сложнее обстоит ситуация с системами, предназначенными для установления строения новых соединений по их ИК спектрам. Несколько обстоятельств сдерживали их развитие. Главные из них следующие. Необходимость создания и поддержки баз структурных данных, а также необходимость программного обеспечения манипулирования не только спектральной, но и, что более существенно для систем этого типа, - структурной информацией. Объем программных компонент манипулирования структурными данными, как оказалось, выходит за рамки уже разработанных для систем «искусственного интеллекта». Длительное время исследования в этом направлении опирались на гипотезу о наличии симбатности между спектральной и структурной аналогией соединений [68]. Экспериментальное подтверждение на обширном материале эта гипотеза получила лишь в самое последнее время [80,81]. Наконец, определенное влияние оказывали высказывания ряда авторов [11] о преимуществах экспертных систем перед информационно-логическими, опирающимися на принцип использования крупных БД по ИК спектроскопии.

В работах [49,82] ИПС с соответствующим дополнительным программным обеспечением использованы для опознания крупных связных структурных фрагментов неизвестного соединения. В [49] поиск проводился по БД, содержащей ~ 10000 ИК спектров органических соединений. В поисковый ответ отбирали 20 соединений с максимальными значениями спектральной близости. Из структур отобранных по ИК-спектру соединений выделяли связные фрагменты, состоящие не менее чем из пяти неводородных вершин и присутствующие, по крайней мере, в двух структурах поискового ответа. Полученные неизоморфные фрагменты проверяли на соответствие молекулярной формуле и формальной ненасыщенности изучаемого соединения. С целью выявления наиболее вероятных для структуры исследуемого соединения фрагментов проводилось их ранжирование. Для этого сначала в спектрах соединений поискового ответа, содержащих проверяемый фрагмент, находили общие спектральные признаки - близкие по частотам полосы поглощения. Таким образом определяли "спектр" фрагмента. Спектры фрагментов сравнивали со спектром исследуемого соединения и ранжировали фрагменты по значению меры близости спектров. При этом предполагалось, что чем выше значение меры близости сравниваемых спектров, тем более вероятно присутствие фрагмента в структуре исследуемого соединения. Примеры некоторых фрагментов, выявленных при анализе соединений [49] и [ 82] представлены в таблице 1.2.

Для оценки эффективности подхода в работе [49] решено 50 задач. В 31 случае из соединений поискового ответа выделен хотя бы один связный фрагмент, удовлетворяющий условиям по размерам и частоте встречаемости. В 68^случаев первое место в ранжированном списке занимал корректный фрагмент. Средние размеры корректных фрагментов составляли более 50% размера структуры исследуемого соединения. Авторы считают, что описанный подход позволяет определить присутствие в неизвестном соединении таких фрагментов, которые не могут быть выявлены при помощи корреляционных таблиц. Замечено в то же время, что выявляемые некорректные фрагменты в общем не противоречат анализируемым ИК спектрам и могут быть отвергнуты только после дополнительного и тщательного анализа.

Таблица 1.2.

Примеры максимальных общих фрагментов, выявленных при анализе структур ПО. а) и б) - в работе [49], в) и г) в работе [82].

Структура «неизвестного» соединения Корректный фрагмент Некорректный фрагмент а) CjN / \ О N— / \ О NCHr б) О /-V СНз Хс——N-CH2CH2CN H \-/ -/(^)WN-CH2CH2CN

В) О О 'à О Л

Г) ^Sj О » 0Р

Система интерпретации ИК-спектров IDIOTS - Infrared spectra Documentation and Interpretation Operating with Transcripts and Structures. [83] - использует структурно-ориентированную БД, которая содержит 17000 спектров и топологических кодов структур. Все спектры зарегистрированы на Фурье-спектрометрах в лаборатории BASF. Для введенных с терминала и проверенных структур кроме топологического кода определяются и хранятся коды входящих в них подструктур (послойное описание сферического окружения каждой вершины, HOSE и HORD коды). Вместе со структурной информаци

24 ей хранятся регистрационные номера CAS, номер по каталогу Садтлера или по другим каталогам, название по Chemical Abstracts, ссылка на номер в дру

13 гом спектроскопическом банке (например, С-ЯМР), молекулярный вес, молекулярная формула, регистрационный индекс структуры (чтобы избежать

Ни* повторы записеи).

Наряду с традиционными для ИПС возможностями, система IDIOTS позволяет реализовать: подструктурный поиск; статистический анализ подструктур; выявить распределение частот полос поглощения ИК спектров выборки; автоматически получить «интерпретационные» правила, проверить и оптимизировать эти правила и ряд других.

Для поиска фрагментов и подструктур создан инвертированный файл структурных фрагментов. Подструктурный поиск - первый шаг построения интерпретационных правил. Второй шаг - моделирование спектра фрагмента. При поиске по фрагментам просматриваются все спектры, в структуры которых входит данный фрагмент. Программа проверяет, насколько часто в отобранные структуры входят другие фрагменты, способные повлиять на спектральные характеристики. Выбирается самый статистически значимый фрагмент. Для этого фрагмента рассчитывается частотное распределение полос поглощения. На этом этапе делаются грубые предположения о спектро-структурных корреляциях. Из частотного распределения для фрагмента вычитается среднее частотное распределение для всей библиотеки; предполагается, что при этом остаются характеристические частоты фрагмента. Полученная информация автоматически записывается в набор интерпретационных правил; полосы собираются по интервалам, интенсивностям и ширине и превращаются в правила, которые затем проверяются и улучшаются. Заметим, что в процессе подструктурного поиска отбираются только подструктуры, характеристичные для ИК.

25

Первоначальные тесты такого подхода дали обнадеживающие результаты. В статье приведен пример интерпретации ПК спектра: четыре отобранных фрагмента покрывают всю структуру исследуемого соединения.

Разработчики системы SEARCH, представленной работой [84], применили предложенные в статье [77] статистические методы создания и использования корреляционных таблиц и составили таблицы для 49 структурных фрагментов (Possible Structure Units). Интерпретирование ИК спектров (т.е. опознание фрагментов из этого списка) неизвестных соединений в этом случае проводится в два этапа. На первом этапе наиболее значимые полосы спектра сопоставляются со структурными фрагментами и в отдельные файлы отбираются спектры соединений, содержащие фрагмент, удовлетворяющий запросу. На втором этапе среди спектров отобранных соединений проводится поиск по сигналам, не использованным ранее для выявления фрагмента. Предлагаемый способ двухэтапного поиска авторы считают очень плодотворным для интерпретации спектров неизвестных соединений. К сожалению, в работах [77,83,84] сообщается только о возможности интерпретации спектров и не приводится никаких статистических данных о том, насколько корректно и полно можно, используя предложенные методы, установить фрагменты структуры неизвестного соединения.

Как видно, состояние систем по ИК спектроскопии, основанных на поисковом принципе, пока не позволяет формулировать основную задачу - формирование вероятной структуры исследуемого соединения по ИК спектру, если соответствующая запись отсутствует в БД системы.

26

1.4. Интегрированные ИПС, использующие базы данных по ИК спектроскопии.

Использование поисковых систем по нескольким видам спектроскопии молекул (например, масс, ЯМР, ИК) для решения структурной задачи по набору экспериментальных данных наиболее перспективно. Оно позволяет получить более точные и подробные сведения о строении исследуемого соединения. Предположение об этом впервые высказано в начале 70-х годов, тогда же создаются первые комплексные (интегрированные) ИПС, называемые иногда в литературе мультиспектральными. Интегрированные ИПС или объединяют в своих БД различные виды спектральных данных, или обеспечивают доступ к различным БД в рамках единой программной оболочки. Сведения об истории развития и исследований в области создания систем этого вида могут быть найдены в опубликованных ранее обзорах [8,10,12]. Ожидаемые перспективы их в применения в химической практике хорошо представлены обобщающими статьями [85,86] и в книгах [2,3].

В этом разделе будут рассмотрены описанные в последнее время в литературе примеры наиболее развитых интегрированных ИПС, а также ряд исследований, связанных с решением спектро-структурных задач с помощью ИПС по различным видам спектроскопии молекул. Однако прежде чем сделать это, акцентируем внимание на одном важном замечании.

Основная цель создания интегрированных ИПС - полное решение задачи установления строения неизвестного соединения по набору его молекулярных спектров. Ее решение достигается спектральным поиском и формированием на основе анализа его итогов списка вероятных фрагментов структур изучаемых соединений. Затем, с учетом выявленных фрагментов и молекулярной формулы соединения, генерируются возможные структурные формулы соединения и моделируются их спектры. Наконец, на основе совпадения модельных спектров с экспериментальными выбирается действительная структура изучаемого соединения. Как видим, системы этого типа содержат все основные компоненты экспертных систем. В них впервые стирается грань между подходами к анализу спектров на основе использования баз данных и искусственного интеллекта, опирающегося на базы знаний.

Неслучайно поэтому мультиспектральную информационно-поисковую систему 8рес1п:Го [87-91] авторы предлагают использовать как экспертную систему для решения структурных задач по набору экспериментальных данных. База данных этой системы интегрирована, т.е. она представляет собой набор БД по различным видам молекулярных спектров. Первые варианты системы предназначались для интерпретации спектров углеродного магнитного резонанса (13С-ЯМР). Поскольку сигналы |3С-ЯМР можно непосредственно связать с углеродсодержащими вершинами структуры (молекулярного графа), а спектро-структурные корреляции соответствующих атомов определяются их ближайшим окружением, то для решения задачи идентификации фрагментов по спектрам разработаны так называемые Н08Е/Н01Ш коды. Суть этого метода кодирования состоит в "послойном" описании сферического окружения центральной вершины. Подобное описание позднее распространено и на БД, содержащие другие виды спектров ('Н-ЯМР, ПК, МС) [87].

Решение задачи установления строения неизвестного соединения средствами системы 8рес1п1о предлагается проводить следующим образом.

По каждому виду спектров проводится поиск в соответствующей БД и в поисковый ответ отбирается 20 соединений, имеющих наибольшую степень спектрального подобия. Структуры отобранных в поисковый ответ соединений разбираются НОБЕ/НСЖЕ) кодом на подструктуры. Список подструктур упорядочивается в соответствии с их частотой встречаемости в структурах поискового ответа. Указывается также возможная частота встречаемости соответствующих подструктур в 20 структурах БД, отобранных случайным образом. Сравнение подструктур, отобранных по разным типам спектров, позволяет определить общие структурные блоки, из которых можно построить структуру исследуемого соединения. Для спектров 13С-ЯМР возможен статистический анализ фрагментов в структурах поискового ответа.

В описываемой версии системы 8рес1п£о важнейшую роль при установлении строения неизвестного соединения играют спектры 13С-ЯМР; данные по другим видам спектроскопии используются как дополнительная информация при отборе предполагаемых структур-кандидатов. Основной сервис системы связан с ИПС по 13С-ЯМР; по ИК спектрам можно решать только задачи идентификации соединения. В более поздней работе [88] для определения элементного состава и строения неизвестного соединения используются методы 13С-ЯМР и масс-спектрометрии, а ИК и 'Н-ЯМР спектры позволяют определить вид заместителей и полную конфигурацию молекулы. Система Бре-сГпйэ доступна для удаленного пользователя. Ее архитектура и возможности описаны в работах [89-91].

Использование ИПС для решения задач определения элементного состава исследуемого по нескольким спектрам соединения представлено работами [92]. В работе [93] описан метод определения не противоречащего брутто-формуле микрофрагментного состава соединения,

Предложенные в работе Лебедева [94] методы определения строения органических соединений с помощью ИПС по ИК (ИПС-ИК) и масс-спектрам (ИПС-МС) основаны на перекрестном анализе ответов поисковых систем. Поисковая система по ИК спектроскопии описана ранее [49], для поиска по масс-спектрам использована многофункциональная система КОМПАС-МС

95], содержащая около 50000 масс-спектров и структур органических соединений. Помимо процедур поиска по масс-спектру, программное обеспечение системы КОМПАС-МС позволяет определять наиболее вероятные значения молекулярной массы и молекулярной формулы исследуемого соединения

96].

Для определения структурных фрагментов неизвестного соединения проводится перекрестный анализ соединений из поисковых ответов ИПС-МС и

ИПС-ИК путем попарного сравнения молекулярных графов соответствующих структур. В каждом поисковом ответе выбиралось не более 20 первых структур. Далее проводится анализ отобранных структур с целью определения общих для них фрагментов. Требовалось, чтобы выделяемые общие фрагменты были связными и составленными не менее чем из 5 вершин. Выделенные фрагменты ранжировали по значениям параметра, зависящего от размера фрагмента и частоты его встречаемости в структурах поисковых ответов.

Эффективность метода оценена на примерах решения 50 задач, при этом размеры структур «неизвестных» соединений составляли, в среднем^ 13 неводородных атомов. В 38 случаях из структур соединений ответов ИПС-ИК и ИПС-МС выделен хотя бы один фрагмент, который состоял более чем из 5 вершин и встречался одновременно в результатах поисков по различным видам спектров. Из 309 выделенных фрагментов 161 (52%) оказался корректным, т.е. вкладывался в структуру исследуемого соединения. Выявлено, что отношение числа корректных фрагментов к числу некорректных (п+/п ) зависит от частоты встречаемости в структурах поисковых ответов:

Таблица 1.3.

Соотношение числа корректных и ложных фрагментов в поисковых ответах [94].

К 1 1 1 1 2 2 3 4

Л^- или Л^ 1 2 3 >4 >3 >4 п+/п 10/37 9/32 15/21 40/20 9/11 13/7 20/6 45/14 р\ % 21 22 42 67 45 65 76 76

Здесь 7УС - частота встречаемости фрагмента одновременно в структурах соединений ответов ИПС-ИК и ИПС-МС, ТУ,- и Л^ - частоты встречаемости фрагмента в структурах соединений ответов ИПС-ИК и ИПС-МС соответственно.)

Для оценки эффективности предложенного метода опознания структурных фрагментов исследована зависимость трех параметров от значений частотных характеристик: процент решенных задач (Р0), средний размер опознаваемых фрагментов (И7), процент корректных решений от числа решенных задач (Р,- ). Задача считалась решенной, если из структур соединений, отобранных в поисковый ответы по разным видам спектров, выделен хотя бы один пяти- и более вершинный фрагмент. Решение считалось корректным, если хотя бы один фрагмент, входящий в структуру искомого соединения, встречался среди одного, трех, пяти первых фрагментов ранжированного списка кандидатов (Р1,Р]3 и Ри5). УУ = 100 (отношение размера фрагмента к максимальному размеру фрагмента).

Таблица 1.4.

Оценка эффективности решения структурных задач с помощью поисковых систем по ИК- и масс-спектрам [94].

Частота встречаемости Ро W Pi Pi-з Р,-5

N> 1, N{ или Nm>3 68 52 79 85 91

N>2 54 47 82 85 96

N> 3 44 46 86 86 100

Только ИПС-ИК 62 54 68 85 87

Данные, приведенные в этих двух таблицах, показывают, что с увеличением частотных характеристик повышается достоверность полученных результатов, но уменьшается размер опознаваемых фрагментов и процент решаемых задач.

Использование только частотных характеристик не позволяет избавиться от некорректных фрагментов, и автор статьи предлагает привлекать на этапе ранжирования спектральные характеристики фрагментов. Дальнейшее развитие этого подхода представлено в работе [97].

При создании системы SDBS (Spectral Data Base System) [24]. разработчики придерживались двух принципов: спектры, составляющие БД, должны быть (1) - качественными и полными, (2) - разнообразными. В SDBS используется 6 видов спектральных данных: ИК, KP, 13С-ЯМР, 'Н-ЯМР, ЭПР и масс-спектры (MC), - большая часть которых получена в лаборатории авторов. Для каждого соединения в БД хранится название, молекулярный вес, структурные дескрипторы, регистрационный номер по CAS и спектральная информация по одному или нескольким видам спектроскопии. Спектры одного соединения, зарегистрированные в разных экспериментальных условиях, представлены разными записями в БД. Реализованы опции просмотра информации,

13 поиска по заданному спектру или по комбинациям спектров ЯМР и ^С-ЯМР+'Н-ЯМР), моделирования 1 Н-ЯМР и ЭПР спектров. В статье приводится только описание системы, нет иллюстрирующих ее возможности примеров и оценки эффективности использования.

В сравнительно недавних статьях [98-100] предложена поисковая оболочка SCANNET, предназначенная для работы со спектральными базами данных. Определяющим является файл, содержащий общую информацию о химических соединениях: коды канонического представления структуры, название соединения по номенклатуре ИЮПАК, регистрационный номер CAS, отдельные физико-химические характеристики, например, молекулярный вес, и сведения о количестве спектров этого соединения в спектральных файлах. Для каждого вида спектра отведено два файла, в одном хранится информация об условиях записи спектра, в другом - параметры спектра в дискрет

13 1 ной форме. Поиск может проводиться по 6 видам спектров

С-ЯМР, 'Н

ЯМР, ИК, MC, KP и УФ) и по структуре соединения. Предусмотрены возможности изменения и пополнения информации, хранящейся в БД. Предполагалось использовать систему на компьютерах IBM типа XT или АТ-286 и выше (ср. [101]).

В компьютерном справочнике SpecTool [102] содержится информация о спектральных данных (MC, 'Н-ЯМР, 13С-ЯМР, ИК, УФ). Система предназначена для компьютеров Apple Macintosh и использует среду HyperCard со встроенным в нее языком программирования HyperTalk, обладающим рядом

32 объектно ориентированных характеристик. Система представляет интерес как настольный справочник химика-спектроскописта.

В заключении этого раздела остановимся на исследованиях по разработке системы ХимАрт, представленных публикациями [86,103]. Как и рассмотренные выше, она ориентирована на работу с БД по нескольким видам молекулярной спектроскопии. Отличительная её черта - представление структур соединений в виде двух древовидных кодов. Предложенные линейные коды («глубокий» и «широкий») [104] компактны и описывают наиболее многочисленный класс структур соединений, содержащих ковалентные связи атомов в молекуле. Оригинальные свойства кодов и построенные на их основе классификаторы - лексикографически упорядоченные списки канонических кодов - позволяют эффективно манипулировать структурными базами и решать разнообразные задачи спектро-структурной практики. Глубокий код используется для быстрого подструктурного поиска - отбора из БД соединений, содержащих заданный структурный фрагмент. Широкий код - подобен НОБЕ/НОБШ кодам [83] и представляет собой «послойное» описание сферического окружения центральной вершины. Доказано, что канонические коды структур относительно центральных вершин, обладающих тождественным окружением, подобны. Это свойство кодов использовано при построении классификаторов, позволяющих быстро отбирать из БД структуры (и соответственно) спектры соединений, подобных по локальному окружению некоторых вершин соответствующих молекулярных графов.

Наряду с БД по различным видам спектроскопии система содержит сформированную машинным путем таблицу спектро-структурных корреляционных зависимостей по спектроскопии 13С-ЯМР, насчитывающую свыше 130 тыс. записей о спектральном поведении соответствующих фрагментов. Оригинальный метод выявления непересекающихся фрагментов изучаемого по спектрам соединения опирается на моделирование 13С-ЯМР спектров соединений, отбираемых по другим видам (например, масс- [97]) спектроско

33 пии, если исчерпывающая информация не получена из анализа 13С-ЯМР спектра изучаемого вещества.

Программное обеспечение системы АртХим реализовано в среде Windows в виде отдельных приложений, позволяющих выполнять следующие операции [86]:

- поиск в БД соединений, спектры которых наиболее похожи на предъявленный; (

- анализ результата поиска, с целью определения списков непере- i секающихся фрагментов, принадлежащих структуре исследуемо- i го соединения; /

- генерирование на основе молекулярной формулы и выявленных \ фрагментов исчерпывающего списка возможных структур;

- моделирование спектра 13С-ЯМР для соединения заданного строения;

- поиск по структурам и структурным фрагментам, поиск структурных ана- | логов относительно заданных вершин; I

- моделирование спектров соединений заданного строения с использованием результатов структурного поиска в спектро-структурной БД.

В работах [86,104] приведены примеры, демонстрирующие эффективность использования этой системы при решении спектро-структурных задач методами ЯМР и масс-спектрометрии. Показано, что программный инструментарий и базы данных открывают новые возможности при решении сложных задач установления строения соединений персональными вычислительными средствами. БД по ИК спектроскопии в публикациях [103,104] не используется, однако общая направленность исследований предполагает расширение системы.

34

1.5. Экспертные системы, использующие ИК спектроскопию.

Общее состояние дел в области спектроскопических экспертных систем (ЭС) хорошо представлено в последнем обзоре М. Эляшберга [13]. Для целей решения задач установления строения соединения (интерпретации спектра) в ЭС должно быть предусмотрено выполнение следующих операций [9]:

• структурно-групповой анализ (СГА) спектра неизвестного соединения с целью определения возможных структурных фрагментов;

• генерация всех структур-изомеров с учетом отобранного набора фрагментов;

• построение модельных спектров для всех или для наиболее вероятных из сгенерированных структур;

• сравнение построенных спектров с экспериментальным.

В этом разделе в очень сжатой форме дается краткая характеристика ЭС, разработанных для интерпретации ИК спектров или использующих ИК спектроскопию в качестве одного из спектральных методов. Мы приводим эти данные, учитывая, что современные ИПС, оснащенные соответствующим программным обеспечением, стремятся решать задачи, аналогичные традиционно преследуемым в ЭС. Следует отметить, что всем, предъявляемым к ЭС требованиям, отвечают полностью разработанная в России система РАСТР и ее более поздняя версия - система XPERT. В некоторых рассматриваемых ниже ЭС реализован только первый этап общей задачи установления структуры соединения по его спектру, а именно, блок определения вероятного набора фрагментов (СГА).

Характеристика экспертных систем представлена в следующем виде: название системы, (основные публикации, виды баз знаний). Краткие сведения о системе и ее особенностях.

PACTP-4, XPERT, [105-110], (ИК, 13С-ЯМР, 'Н-ЯМР). База знаний, представляет собой набор библиотек - таблиц спектро-структурных корреляций (ССК) и структурирована в виде дерева. Возможна коррекция базы знаний. Блок СГА использует методы нечетких предикатов. Реализованы генерация и изображение изомеров, выявление стереоизомеров и генерация трехмерных изображений; проверка структур; моделирование спектров; диалог с пользователем. По совокупности спектров можно установить строение соединения в автоматическом режиме с использованием стратегии АРХЕОЛОГ + СКУЛЬПТОР. Подробнее см. в [ 108,110].

EXSPEC , [111-115], (РЖ, МС). База знаний формируется из литературных ССК. Предусмотрен механизм автоматической генерации правил интерпретации. В блоке СГА по характеристическим спектральным областям вычисляется вероятность присутствия каждой из рассматриваемых (заданных базой знаний) подструктур. Фрагмент отбирается только в том случае, если все входящие в него фрагменты меньшей величины имеют вероятность более, чем 0.5. Для каждой из рассматриваемых брутто-формул (БФ) генерируются структуры из фрагментов, ранжированных по убыванию вероятности. Эффективность системы сильно зависит от типа исследуемого фрагмента и продемонстрирована только на узкой группе соединений. На примере 109 спиртов и 141 соединения, содержащих карбонильную группу получены следую- -щие результаты [112]:

Таблица 1.5.

Примеры установления строения соединений с помощью системы EXSPEC.

Фрагмент % корректных идентификаций Фрагмент % корректных идентификаций

АгОН 100 RCOOR 90

АгСОН 100 RCH20H 86

RCHO 100 RRCHOH 81

RRRCOH 96 RCOOH 78

RCOCH3 91 —

36

CHEMICS (IRRASL), [116-120], (13С-ЯМР, ^-ЯМР, двумерный 13С-ЯМР, ИК). При анализе ССК и спектра используется принципы формальной логики. Решение логических уравнений приводит к набору вероятных фрагментов. Этот набор в различных сочетаниях проверяется на непротиворечивость БФ и на возможность объединения фрагментов. Из отобранных фрагментов система генерирует изомеры, в том числе и стереоизомеры. Интерпретация ИК спектров модулем IRRASL [120] может проводиться независимо от остальной части системы.

PLATO, [121-122], (Ж, МС). Модули интерпретации ИК и МС спектров построены по разным принципам. Интерпретация ИК спектров основывается на базе правил, содержащей ССК. Задействовано два модуля. Управляющий (controller) - осуществляет выбор поисковой стратегии и формирует возможные гипотезы, а окончательное решение принимает модуль вывода (reasoner). Для каждой подструктуры определяется вероятность присутствия подструктуры в исследуемом соединении и достоверность этого сообщения. Диаграмма средних значений корректных и ошибочных заключений, иллюстрирующая возможности системы, приведена на рис. 1.1.

10 а> о Я

5 5

Си и

492 63

8,1

И1|

11

11

--

6,2

5,1

2.8

-же

1,4

2 3

Уровень доверия

Рис. 1.1. Среднее число найденных подструктур для четырех различных уровней доверия [121]. Заштрихованный столбец -число неверных подструктур. Черный столбец - число верных подструктур. Рассматривалось 500 подструктур; в каждом соединении выборки,в среднем/содержится 8,1 подструктур. Для уровня доверия 4 при «типичном анализе» найдено 6 подструктур, в среднем^б из которых верные. 3,5 реально присутствующие в соединении подструктур найдено не будет.

Е88Е8А, [123-124], (ИК, С13 ЯМР). Источником базы знаний служат литературные данные. Для вывода заключений используются логические функции. Система проводит скрининг заданных в ней фрагментов, на выходе формирует список возможных подструктур без оценки вероятности их вхождения в структуру исследуемого соединения. Рис. 1.2. на примерах решения 12 задач [124] иллюстрирует, характер извлекаемой из спектра информации.

Рис. 1.2. Примеры решения задач с помощью системы Е88Е8А.

39

PAIRS, [125-136], ( ИК ). База знаний содержит набор правил интерпретации ССК,' для их наглядного отображения для химика создан специальный язык. Позднее разработан автоматический генератор правил. Система позволяет следить за принятием решений и изменять их. Для проверки гипотез предложена процедура сравнения моделированных спектральных откликов фрагментов с исследуемым спектром. Для каждой функциональной группы определяется вероятность ее вхождения в структуру исследуемого соединения. В качестве примера приводятся две таблицы из работ [125-136].

Таблица 1.6.

Результаты интерпретации ИК спектра этилбензола [136].

Функциональные группы Вероятность

1 aromatic 0.95

2 thiophene 0.90

3 methyl 0.65

4 heteroaromatic 0.50

5 methylene 0.40

6 amine 0.40

7 amine-tertiary 0.40

8 aromatic-1,3 -substituted 0.29

9 aromatic-monosubstituted 0.29

10 aromatic-1,2-substituted 0.29

Таблица 1.7

Результаты интерпретации ИК спектра 4-терт-бутилциклогексанола [127].

Функциональные группы Вероятность

1 methyl 0.70

2 alcohol- 0.68

3 alcohol- tert-(*2*) 0.51

4 alcohol-sec-(*l*) 0.51

5 thiocarbonyl 0.50

6 amine 0.45

7 amine-secondary 0.45

8 amine-tertiary 0.40

9 ether-unsaturated 0.36

10 ether-epoxide 0.16

40

EXPIRS, [137,138], (ИК). Иерархическая организация базы знаний, для подструктур использует фреймовое описание. Блок СГА определяет альтернативные наборы подструктур, предлагая для каждого "интерпретированного" сигнала спектра единственный фрагмент. Фрагментами служат функциональные группы (около 70). Интерпретации считается корректной, если фрагмент входит в структуру исследуемого соединения.

Авторы описанных ЭС стремятся к тому, чтобы при интерпретации спектра соединения (в частности, ИК спектра) не пропустить ни один присутствующий в структуре этого соединения фрагмент из списка фрагментов, представленных правилами. В ЭС не считается недостатком избыточность получаемой информации.

Рассмотренные экспертные системы сильно отличаются друг от друга по своему "интеллекту". Число фрагментов, которые они "обучены" распознавать при интерпретации Ж спектра варьируется от 70 [38] до -900 [121]. Так / же сильно различается элементный состав соединений (ср. С, И, О, N, S, F, CL, BR, J в [117] и С, H, О в [112]), спектры которых могут быть подвергнуты интерпретации в надежде на получение его осмысленного результата.

Несколько других известных по литературе ЭС, использующих знания об РЖ спектроскопии для решения спектро-структурных задач [139-145]: CRISE, ASSIGNER, COSEPS, EXPERTIZE - достаточно хорошо представлены в указанных ранее обзорах [8,9]. Методы идентификации фрагментов на основе принципов "распознавания образов" и "нейронных сетей" выходят слишком далеко за рамки целей данного обзора, поэтому не рассматриваются в нем.

В заключении отметим несколько важных моментов, вытекающих из анализа литературных данных.

41

Два основных направления исследований, связанных с "прямым" и "косвенным" [10] использованием информации из БД по ИК спектроскопии молекул для решения задач установления строения соединения, развиваются практически независимо. В первом случае необходимы крупномасштабные базы данных, содержащие полные ИК спектры и структуры соединений, с целью развития средств распознания структурных особенностей соединения по спектру. Во втором - более доступные таблицы спектро-структурных корреляций и/или компоненты крупномасштабных БД, для формирования решающих правил (интерпретационных правил) анализа спектров соединений, содержащих заданный фрагмент. Высокая стоимость крупных БД ограничивает круг исследовательских групп и специалистов, работающих в области "прямого" использования БД. Второй ограничивающий фактор - обоснованная убежденность в том, что решить структурную задачу можно, лишь используя набор экспериментальных данных по различным видам спектроскопии молекул. Это обстоятельство, а так же известные успехи в спектроскопии ЯМР и определяют интерес к комплексным экспертным системам и комплексным системам на основе использования БД. В таких системах, однако, основная нагрузка , за редким исключением [120], ложится на плечи ЯМР, в первую очередь - 13С-ЯМР. Методы ИК спектроскопии и масс-спектрометрии играют, как правило, лишь вспомогательную роль.

В то же самое время именно эти методы выступают как основные при массовом анализе малых количеств веществ и их смесей. Бурное развитие в последнее десятилетие инструментальной хромато-ИК-масс-спектрометрии, снабжение ее соответствующими ИПС требуют дооснащения программного инструментария средствами, способствующими эффективному решению задач установления строения вновь регистрируемых по спектрам соединений. Отметим, наряду с этим, что эффективность комплексных систем, а также круг решаемых ими задач, во многом определяются эффективностью состав

42 ляющих эти системы компонентов. Одна из важнейших таких компонент -компонента анализа ИК спектров.

Огромный объем накопленного в БД по ИК спектроскопии экспериментального материала и наша глубокая убежденность в неизбежном переходе количества информации в новое качество при создании адекватных средств ее анализа послужили толчком к постановке данного исследования.

43

ГЛАВА 2. База данных «ИК спектр - фрагментный состав соединения»

Все экспериментальные результаты данного исследования получены с использованием части базы данных (БД) Научно-технического центра химической информатики (НТЦ ХИ) при Новосибирском институте органической химии СО РАН им. H.H. Ворожцова, содержащей в настоящее время свыше 60 тысяч структур органических соединений и соответствующих полных ИК спектров. Каждый полный спектр сопровождается сокращенной (поисковой) формой и набором сопутствующих данных, включающих название соединения, молекулярный вес, молекулярную формулу (брутто-формулу), условия регистрации и т.п. [76]. Структура, спектр и сопровождающая информация однозначно связаны регистрационным номером соединения в базе данных.

Заключение диссертация на тему "Исследование методов выявления структурной информации на основе базы данных "ИК спектр - фрагментный состав соединения""

ВЫВОДЫ

1. Впервые обоснована возможность представления структур соединений в виде полного набора неизоморфных А:-вершинных связных фрагментов (2 > к > 7) для выявления структурных особенностей исследуемого соединения с использованием базы данных «ИК спектр - фрагментный состав соединения». Сформирована экспериментальная база данных, содержащая описание фрагментных составов ~31 ООО структур различных органических соединений.

2. Предложена и апробирована методология опознания 2-^7 - вершинных фрагментов структуры изучаемых соединений, базирующаяся на анализе информации, извлекаемой из фрагментных составов молекул, обладающих ИК спектрами, наиболее похожими на спектр исследуемого вещества.

3. Исследовано влияние частот встречаемости фрагментов в структурных формулах соединений базы данных и в поисковых ответах на результат их идентификации по спектрам изучаемых веществ. Показано, что использование параметра неслучайности (N11) предпочтительнее по отношению к частоте встречаемости фрагмента в поисковом ответе при распознавании фрагментов изучаемого соединения. В различных экспериментальных условиях выявлены количественные соотношения между корректно и ошибочно распознаваемыми фрагментами. Установлено, что фрагменты,- определяемые с высокой степенью неслучайности (7У/?>0,95), могут достаточно полно характеризовать строение исследуемого по спектру соединения.

4. Получены статистических данные, характеризующие вероятность и достоверность распознаваемых по ИК спектрам фрагментов соединения. Впервые показано, что основанная на поисковом принципе методология позволяет достаточно надежно идентифицировать тысячи самых разнообразных фрагментов органических веществ. Экспериментально установлено, что с вероятностью более чем 0,75 возможно распознание свыше 11 тыс. структурных единиц молекул.

122

ЗАКЛЮЧЕНИЕ

Представленные в диссертационной работе данные убеждают в перспективности расширенного проведения исследований в анализируемом направлении. Приведенный материал может рассматриваться как самостоятельный и завершенный этап, необходимый при оценке перспектив и ожидаемой плодотворности нового подхода к решению поставленной задачи. Он представляет собой обязательную компоненту исследования, своего рода фундамент для возможных будущих приложений опробованного метода к другим видам спектроскопии, например, к масс-спектрометрии. Основная цель данного исследования - первичная оценка перспектив представления структур соединений БД в виде полного набора фрагментов, проведенная на модельной и достаточно ограниченной базе данных - выполнена. Итог ее, как нам кажется, хорошо демонстрируется данными глав 4 и 5. Тем не менее, критически анализируя достигнутое отметим, что полученные результаты можно рассматривать как основу планов дальнейших исследований с целью создания практического инструмента исследователя-спектроскописта.

Совершенно очевидно, что требуется расширенная апробация рассмотренного оригинального подхода на существенно больших базах данных. Необходимо накопление статистического материала по решению задач распознания строения более широкого разнообразия различных по своему строению молекул на основе анализа их ИК спектров, и детальный анализ успехов и неудач при решении поставленных задач. В ходе этого будущего исследования не исключена модификация алгоритма ранжирования генерируемых структур и изложенного метода представления структур в виде набора фрагментов, предусматривающая, в частности, полное описание некоторых видов фрагментов, хорошо проявляемых в ИК спектроскопии. Вероятно, это в первую очередь относится к фрагментам, описывающим концевые -ОН, -8Н,

-СН2-, -СН3, -Ш2 и т.п. группы. На дальнейших этапах работы требуется уделить особое внимание алгоритмам поиска в БД спектров соединений, подобных по строению исследуемым. Можно утверждать, что итог представленной работы обеспечивает хороший задел в этом направлении, поскольку снабжает исследователей инструментарием, позволяющим объективно оценивать результаты поиска. Действительно, чем больше по результату поиска выявляется информации об исследуемых соединениях (фрагменты полнее представляют его строение) тем, очевидно, лучше соответствующий алгоритм поиска.

Весьма перспективной представляется оценка возможностей объединения определяемых фрагментов с целью выявления более крупных структурных единиц или использования принятого способа описания структур для классификации соединений поискового ответа с последующим выделением круп-ныз связных фрагментов. Векторное описание структур в сочетании с соответствующим описанием спектров, как нам кажется, может открыть в этом случае новые возможности. Не исключено, что метод выбора вероятных структур из списка генерируемых может оказаться плодотворным также и для проверки высказанной гипотезы о строении соединения, изучаемого по, ИК спектру.

Особый интерес представляет детальное изучение возможностей рассмотренного подхода применительно к другим методам молекулярной спектроскопии и, вероятно, в первую очередь - масс-спектрометрии. Не исключено, что на этом пути в перспективе может быть создан новый мощный инструментарий для анализа данных хромато-ИК-масс-спектроскопии — современного метода изучения малых количеств сложных смесей природного или антропогенного происхождения. Очевидно также перспектива сочетания предложенного в работе подхода и выявляемых на его основе сведений с данными масс-спектрометрии или спектроскопии ядерного (протонного или углеродного) магнитного резонанса в комплексных системах, анализирую

119 щих несколько видов спектроскопии при решении задач установления строения соединений. В этом случае сведения, извлекаемые из ИК спектров, могут оказаться чрезвычайно полезными как подтверждающие или дополняющие данные других видов спектроскопии молекул.

В целом приведенный в работе экспериментальный материал и его анализ красноречиво свидетельствуют в пользу разрабатываемого и исследованного подхода. Его совершенствование и дальнейшее развитие позволят расширить возможности компьютерных методов установления строения органических соединений не только по данным ИК спектроскопии, но и в сочетании с другими современными методами изучения строения органических веществ.

Автор выражает глубокую признательность РФФИ (гранты 96-03-32916 и 98-03-32501) за поддержку данной работы.

120

Библиография Богданова, Татьяна Фоминична, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)

1. Эляшберг М. Е., Грибов J1. А., Серов В. В. Молекулярный спектральный анализ и ЭВМ. / Москва: Наука, 1980. - 318 с.

2. Gray N. А. В. Computer-Assisted Structure Elucidation./ New-York: Wiley & Sons, 1986. -536 p.

3. Computer-Supported Spectroscopic Databases. /Zupan J., Ed. Chichester, Ellis Horwood, 1986. -344 p.

4. Искусственный интеллект. Применение в химии. /Под ред. Пирса Т., Хони Б.М. -. Москва: Мир, 1988. 430 с.

5. Математические методы и ЭВМ в аналитической химии. М.: Наука, 1989. - 350с.

6. Computing applications in molecular Spectroscopy. George W., Steele D., Eds. Cambridge, U.K.: Royal Society of Chemistry, 1995. 430 p.

7. Jurs Peter C. Computer software application in chemistry. New-York: Wiley & Sons, 1996.-390 p.

8. Luinge H.J. Automated interpretation of vibrational spectra.// Vib. Spectroscopy. 1990. - Vol.1.-P. 13-18.

9. M. E. Эляшберг. Экспертные системы для молекулярного спектрального анализа.//ЖАХ. 1992. - Т. 47. - №. 6. - С. 966-981.

10. Warr W.A. Computer-Assisted Structure Elucidation. Part 1. Library search and spectral data collections. //Anal. Chem. 1993,- Vol. 65. - P. 1045A-1050A.123

11. Warr W.A. Computer-Assisted Structure Elucidation. Part 2.Indirect database approaches and established systems. //Anal. Chem. 1993.- Vol. 65. - P. 1087A-1095A.

12. Лебедев К.С., Дерендяев Б.Г. Компьютерные методы решения структурно-аналитических задач с помощью банков данных по молекулярной спектроскопии (МС, ИК, ЯМР). //Химия в интересах устойчивого развития. 1995. - Т.З. - С. 269-285.

13. М. Е. Эляшберг. Экспертные системы для установления структуры органических молекул спектральными методами. //Успехи химии. 1999. - Т. 68. - С. 579-604.

14. Подгорная М.И., Дерендяев Б.Г. Базы данных по ИК спектроскопии органических соединений. //БТИ. Сер. 2. - № 9. - С. 1-5.

15. Davies A.N., Mcinture P. S. Spectroscopic Databases. In Computing applications in molecular Spectroscopy. George W., Steele D., Eds. Cambridge, U.K.: Royal Society of Chemistry, 1995. P. 41-59.

16. Беллами Д. Инфракрасные спектры сложных молекул. Москва: Изд-во иностран. лит., 1963. 590 с.

17. Socrates G. Infrared Characteristic Group Frequencies. Tables and Charts. New York: Wiley & Sons, 1994. 549 p.

18. Guelachvili G., Rao K.N. Handbook of Infrared Standards. London: Academic Press Inc., 1986. 852 p.

19. Dolphin D., Wich A. Tabulation of Infrared Spectral Data. New-York: Wiley & Sons, 1977.- 549 p.

20. The Sadtler Standard Spectra: Infrared Grating Spectra. Philadelphia, Sadtler Research Laboratories. 1980.124

21. Pretch E., Clerc J.- T., Bendl J. Spectroscopic data banks. //Fresenius Z. Anal. Chem. 1986. - Vol. 324. - P. 714-719.

22. Averil D.F., Baird K.S., Hopkins L.L., Yerkes M.J. J. //Chem. Inf. Comput. Sci. 1990.-Vol. 30.-P. 133-136.

23. Koptyug V.A., Ulyanov G.P., Derendyaev B.G. and oth. Creation and Capabilities of Computerized Data Banks Containing Information on Chemical Structures and Properties.// COD ATA bull.- 1981. Vol. 40. - P. 45-53.

24. Yamamoto O., Someno K., Wasada N., Hiraishi J., Hayamizu K., Tanabe K., Tamura T and Yanagisava M. An Integrated Spectral Data Base System Including IR, MS, 1H-NMR, 13C-NMR, ESR and Raman Spectra. //Anal. Sciences. 1988. - Vol. 4. - P. 233-239.

25. Grasselli J.G. Specifications for infrared reference spectra of molecules in the vapor phase. //Pure & Appl. Chem. 1987. - Vol. 59. - №.5. - P. 673-681.

26. Kalashinsky K. S., Griffiths P. R., Gurka D. F., Lowry S. R, B. Michael. Co-blentz specifications for infrared reference spectra of materials in the vapor phase above ambient temperature. //Appl. Spectrosc. 1990. - Vol. 44. - №2. -P. 211-215.

27. McDonald R. S. and Wilks P. A. JCAMP-DX: A standart form for exchange of infrared spectra in computer readable form. //Appl. Spectrosc. 1988. -Vol. 42.-№1.-P. 151-162.

28. Davies A. M. Spectroscopy data transfer standart. //Spectrosc. Int. 1991. -Vol. 3. -№2. -P. 16-18.

29. Sperline R.P. Program for Spectral Data Transfer from Perkin-Elmer 7000 Series Spectrometer Computers to IBM-PC Compatible Computers. //Appl. Spectr. 1991. - Vol. 45. - P. 1046-1047.125

30. Buchi R., Clerc J.Т., Jost Ch., Koenitzer H. and Wegmann D. Compilation of Computer Readable Spectra Libraries: General Concepts. //Anal. Chim. Acta. - 1978. - Vol. 103. - P. 21-27.

31. Heller S. R. The chemical information system and spectral data bases. //J. Chem. Inf. Comput. Sci. 1985. - Vol. 25. - №3. - P. 224-231.

32. Heller S. R. Computerized spectroscopy databases. //Chem. Int. 1991. - Vol. 13,-№6.-P. 235-238.

33. Rumble, Jr.,J.R., Lide, Jr., D. R. Chemical and Spectral Databases: A Look into the Future. //J. Chem. Inf. Comput. Sci. 1985. - Vol. 25. - №3. - P. 231235.

34. Heller S.R. The Realities of Developing Computer Readable Numeric Databases. //IUPAC, Pure and Applied Chemistry. 1995. - Vol. 67. - P. 10271030.

35. Sparks R.A. Storage and Retrieval of Wyandotte-ASTM Infrared Spectral Data Using an IBM 1401 Computer. /ASTM: Philadelphia, PA, 1964.

36. Tanabe К and Saeki S. Computer Retrieval of Infrared Spectra by a Correlation Coefficient Method. //Anal. Chem. 1975. - Vol. 47. - P. 118-122.126

37. Lowry S.R., Huppler D.A., Anderson C.R. Data Base Development and Search Algorithms for Automated Infrared Spectral Identification. //J. Chem. Inf. Comput. Sci. 1985. - Vol. 25. - №3. - P. 235-241.

38. Saeki S., Tanabe K. Full Automation of Infrared Qualitative Analysis Binary Mixtures by Use of a Spectral Use Compilation. //Appl. Spectrosc. 1984. -Vol. 38. - P.693-697.

39. Powell L.A., Hieftje G.M. Computer Identification of Infrared Spectra by Correlation Based File Searching. //Anal. Chim. Acta. 1978. - Vol. 100. - P. 313-320.

40. Ehrentreich F. Derivation of Substructures from Infrared Band Shapes by Fuzzy Logic and Partial Cross Correlation Functions. //Fresenius J. Anal. Chem. 1997. - Vol. 359. - P. 56-60.

41. Jung-Pin Y., Friedrich H.B. Odd Moments of the Cross-Correlation Function for Library Searching of Infrared Spectra. //Appl. Spectr. 1987. - Vol. 41. -№5. - P. 869-874.

42. Delaney M.F., Hallowell, Jr., J.R.,Warren, Jr., V.F. Optimization of a Similarity Metric for Library Searching of Highly Compressed Vapor-Phase Infrared Spectra. //J. Chem. Inf. Comput. Sci. 1985 - Vol. 25. - P. 27-30.

43. Ehrentreich F. Representation of Extended Infrared Spectrum-Structure-Correlations Based on Fuzzy Theory. //Fresenius J. Anal. Chem. 1997. -Vol. 357. - P. 527-533.

44. Fuller M., Rosental R. Spectral Library Searshing and FT IR/FT Spectroscopies. Effects of resolution and Searsh Algorithms. //SPIE-Int. Soc. Opt. Eng. -1993. Vol. 2089. - P. 440-441.127

45. Penchev P.N., Sohou A.N., Andreev G.N. Description and Performance Analysis of an Infrared Library Search System. //Spectrosc. Lett. 1996. -Vol. 29.-P. 1513-1522.

46. Kavak H., Esen R. Spectrum Comparison of IR Data Taken from Different Spectrometers with Various Precision. //J. Chem. Inf. Comput. Sci. 1993. -Vol. 33. - P. 595-597.

47. Лебедев K.C., Шарапова O.H., Коробейничева И.К., Кохов В.А. Опознание крупных структурных фрагментов неизвестного соединения с помощью поисковой системы по ИК-спектрам. //Сиб. химический журнал. 1993.-Т. 1.-С. 50-56.

48. J.W. Sherman, J.A. de Haseth and D.G. Cameron. A Window Fourier-Domain Infrared Search System. //Appl. Spectrosc. 1989. - Vol. 43. - P. 1311-1316.

49. Kawata S., Noda Т., Minami S. Spectral Searching by Fourier Phase Correlation. //Appl. Spectrosc. 1987. - Vol. 41. - P. 1176-1188.

50. Hangac G., Wieboldt R.C., Lam R.B., Isenhour T.L. Compression of an Infrared Spectral Library by Karhunen-Loeve Transformation. //Appl. Spectrosc. -1982. Vol. 36. - P. 40-44.

51. Williams S.S., Lam R.B., Isenhour T.L. Searsh System for Infrared and Mass Spectra by Factor Analysis and Eigenvector Projection. //Anal. Chem. 1983. -Vol. 55. -№7. - P. 1117-1121.

52. Harrington P.В., Isenhour T.L. Compression of Infrared Libraries By Eigenvector Projection. //Appl. Spectrosc. 1987. - Vol. 41. - №3. - P. 449-453.

53. Harrington P.B., Isenhour T.L. Closure Effects of Infrared Library Search Performance. //Anal. Chem. 1988. - Vol. 60. - P. 2667.128

54. Wang C.P., Isenhour T.L. Infrared Library Search on Principal-Component-Analyzed Fourier-Transform Absorption Spectra. //Appl. Spectrosc. 1987. -Vol. 41.-P. 185-194.

55. Anderegg R.J., Pyo D. Selctive Reduction of Infrared Data. //Anal. Chem. -1987. Vol. 59. - P. 1914-1919.

56. Cooper J.R., Wilkins C.L. Utilization of Spectrometric Information in Linked Gas Chromatography-Furier Transform Infrared Spectroscopy-Mass Spectrometry. //Anal. Chem. 1988. - Vol. 61. - P. 1571-1576.

57. Bierga J.M., Small G.W. //Anal. Chem. 1990. - Vol. 62. - P. 226-,

58. Zupan J., Munk M.E. Hierarchical Tree Based Storage, Retrieval and Interpretation of Infrared Spectra. //Anal. Chem. 1985. - Vol. 57. - P. 1609-1615.

59. Penca M., Zupan J., Hadzi D. Hierarchical preprocessing of infrared data files. Anal. Chim. Acta. 1977. - Vol. 95. - P. 3-12.

60. Zupan J., Munk M.E. Feed Back Search of Hierarchical Trees.//Anal. Chem. -1986. Vol. 58. - №14. - P. 3219-3225.

61. Blaffert T. Computer-Assisted Multicomponent Spectral Analysis With Fuzzy Data Set. //Anal.Chim. Acta. 1984. - Vol.161. - P. 135-148.

62. Delaney M.F., Warrren, Jr. F.V., Hallowell, Jr. J.R. Quantitative Evaluation of Library Searching Performance. //Anal. Chem. 1983. - Vol. 55. - P. 19251929.

63. Hallowell, Jr. J.R., Delaney M.F. Effect of Noise on Spectral Library Searching Performance. //Anal. Chem. 1987. - Vol. 59. - P. 1544-1549.

64. Harrington P.B. and Isenauer T.L. A Quantitative Measure of the Reliability of Searches of Spectral Libraries. //Anal. Chim. Acta. 1987. - Vol. 197. - P. 105-119.129

65. Harrington P.B., Isenhour T.L. //Appl. Spectrosc. 1987. - Vol. 41. - P. 1298.

66. Clerc J.T. Automated Spectra Interpretation and Library Searsh. //Comput.-enhansed Anal. Spectrosc. 1987. - Vol. 1. - P. 146-161.

67. Piottukh-Peletsky V.N., Derendyaev B.G. Which IR Search System is Better for Selection of Unknown Structure Analogues? //Anal. Chim. Acta. 1999. -Vol. 396. - P. 99-103.

68. Rasmussen G.T., Isenhour T.L.Library Retrieval of Infrared Spectra Based on Detail Intensity Information. //Appl. Spectrosc. 1979. - Vol. 33. - P.371-376.

69. Ruprecht M., Clerc J. T. Performance Analysis of a Simple Infrared Library Search System. //Chem. Inf. Comput. Sci. 1985. - Vol. 25. - №3. - P. 241244.

70. Clerc J.Т., Pretsch E., Zuercher M. Performance Analysis of Infrared Library Search Systems. //Microchim. Acta. 1986. - Vol. 2. - P. 217-242.

71. Affolter C., Clerc J.T. Estimation of the Performance of Spectroscopic Library Search Systems. //Fresenius J. Anal. Chem. 1992. - Vol. 344. - №4/5. -P. 136-139.

72. Sadtler IR Digital Spectra Libraries. London: Heiden & Son Ltd, 1990. 10 p.

73. Пиоттух-Пелецкий В.Н., Подгорная М.И.,Смирнов В.И., Шарапова О.Н. Информационно-поисковая система ИК-спектроскопии (ИПС-ИК). /Методическое пособие. НИОХ СО АН СССР, Новосибирск, 1986.130

74. Нигматуллин Р.С., Смирнов В.И. Статистический метод составления и использования корреляционных таблиц для ИК спектроскопии. //Журн. прикл. спектроскопии. 1974. - Т. 21. - С. 307-313.

75. Смирнов В.И., Фролова Л.В., Шарапова О.Н. Информационно-поисковая система ИК-спектроскопии BANKIR-PC. //IX Всесоюз. Конф. Химическая Информатика Черноголовка, 1992 г. Тезисы докладов, частьП. С. 227-228.

76. Пиоттух-Пелецкий В.Н., Дерендяев Б.Г., Шарапова О.Н. Количественная оценка взаимосвязи спектрального и структурного подобия в ИК спектроскопии. //Журн. структ. химии. 2000. - Т. 41. - С. 379-389.

77. Пиоттух-Пелецкий В.Н., Коробейничева И.К., Дерендяев Б.Г. Определение фрагментного состава соединения с использованием базы данных по ИК спектроскопии. //ЖАХ. 1999. - Т. 54. - С. 1020-1030.

78. Varmuza К., Penchev P.N., Scsibrany Н. Maximum Common Substructures of Organic Compounds Exhibiting Similar Infrared Spectra. //J Chem. Inf. Comput. Sci. 1998. - Vol. 38. - P. 420-427.

79. Savitzky A. The Evolution of an Automated IR Spectra Interpretation System. //Computer-Enhanced Analytical Spectroscopy. 1987. - Vol. 1. -P. 183-199.131

80. Коптюг В.А., Бочкарев B.C., Дерендяев Б.Г. и др. Использование ЭВМ при решении структурных задач органической химии методами молекулярной спектроскопии. //ЖСХ. 1977. - Т 18. - С. 440-459.

81. Дерендяев Б.Г., Лебедев К.С., Строков И.И. и др. Представление и манипулирование спектроструктурными данными в информационных системах по молекулярной спектроскопии.// Химия в интересах устойчивого развития. 1998. - Т. 6. - С. 25-39.

82. Bremser W., Fachinger W. Multidimensional Spectroscopy. //Magnetic Resonance in Chemistry. 1985. - Vol. 23. - №12. - P. 1056-1071.

83. Bremser W., Grzonka M. Speclnfo a Multidimensional Spectroscopic Interpretation System. //Microchim. Acta. - 1991. - Vol. 11. - P. 483-491.

84. Barth A. Speclnfo: A Integrated Spectroscopic Information System. //Chem. Inf. Comput. Sei. 1993. - Vol. 33. - P. 52-58.

85. Hearmon R. A. Wide Area Access to Central Corporate Spectroscopic Databases. //Fresenius J. Anal. Chem. 1992. - Vol. 344. - №4/5. - P. 164-166.

86. Canzler D. and Hellenbrandt M. SPECINFO The Spectroscopic Information System on STN International. //Fresenius J. Anal. Chem. - 1992. - Vol. 344. -№4/5.-P. 167-172.

87. Nekhoroshev S.A., Lebedev K.S., Derendyaev B.G. and oth. Computer-Aided Molecular Formula Determination from Mass, *H and 13C NMR Spectra. //J. Chem. Inf. Comput. Sei. 1992. - Vol. 32. - P. 255-230.

88. Lebedev K.S., Derendyaev B.G., Nekhoroshev S.A. and oth. Computer-Aided Determination of Microfragmentary Composition by Mass, 'IT and 13C NMR Spectra. //J. Comput. Chemistry. 1994. - Vol. 18. - P. 81-89.132

89. Лебедев К.С. Использование баз данных по ИК- и масс-спектрам для установления строения органических соединений. //ЖАХ. 1993. - Т. 48. -С. 851-863.

90. Киршанский С.П., Лебедев К.С., Дерендяев Б.Г. и др. Извлечение структурной информации из масс-спектров с помощью ЭВМ. XI. Аналитические возможности системы Компас-МС. //ЖАХ. 1987. - Т. 12,- С. 13201329.

91. Нехорошев С.А., Дерендяев Б.Г., Киршанский С.П. и др. Информационный поиск средство предсказания брутто-формулы соединений по его масс-спектру. //Там же. - С. 1312-1319.

92. Lebedev K.S., Cabrol-Bass D. New Computer Aided Methods for Revealing Structural Features of Unknown Compounds Using Low Resolution Mass Spectra. //J. Chem. Inf. Comput. Sci. 1998. - Vol. 38. - P. 410-419.

93. Debska B. SCANNET: a Spectroskopy Database. //Anal. Chim. Acta. 1992. -V. 265.-P. 201-209.

94. Debska B.J., Guzovska-Swider B. Knowledge Discovery in an Infrared Database. //Comput. Chem. 1997. - Vol. 21. - P. 51-59.

95. Debska B.J., Guzovska-Swider B. The Methodology of Knowledge Acquisition from the Collection of IR and UV Spectra. //Fresenius J. Anal. Chem. -1998. Vol. 361. - P. 235-238.

96. Zupan J., Репса M., Razinger M. And Barlic В., Hadzi D. KISIK A combined chemical information system for a minicomputer. //Anal. Chim. Acta, -1980.-Vol. 122.-P. 103-115.

97. Cadisch M., Pretsch E. Spectool: a Knowledge-Based Hypermedia System for Interpreting Molecular Spectra. //Fresenius J. Anal. Chem. 1992. - Vol. 344. -№4/5. - P. 173-177.133

98. Strokov I.I., Lebedev K.S. New Modular Architecture for Chemical Structure Elucidation Systems. //J. Chem. Inf. Comput. Sci. 1996. - Vol. 36. - P. 741745.

99. Строков И.И., Лебедев K.C., Дерендяев Б.Г. Представление структурной информации и поиск структурных аналогов в базах данных по молекулярной спектроскопии. //Журн. структ. химии. 1996. - Т. 37. - С. 11291139.

100. Серов В.В., Эляшберг M. Е., Петров В.Е. Реализация экспертной системы для молекулярной спектроскопии РАСТР-4 на языке Пролог. /В сб. Математические методы и ЭВМ в аналитической химии. Москва: Наука, 1989.-С. 150-156.

101. Elyashberg M. Е., Serov V. V., Martirosian Е. R. et al. An Expert System for Molecular Structure Elucidation Based on Spectral Data. //J. Mol. Struct. -1991.-Vol. 230.-P. 191-203.

102. Эляшберг M. E. Экспертные системы для молекулярного спектрального анализа. //ЖАХ. 1992. - Т. 47. - С. 966-981.

103. Эляшберг M. Е., Карасев Ю. 3., Мартиросян Э. Р. Методологические вопросы использования экспертных систем для установления структуры органических молекул по их спектрам. //Журн. структ. химии. 1995. - Т. 36. - С. 548-558.

104. Tiele H., Somberg H. X-PERT A New Expert System for Structure Elucidation.//

105. Http://www.bruker.com/nmr/software/winhome/docucntr/doc006/document.h jy-tm

106. Elyashberg M.E., Karasev Yu.Z., Martirosyan E.R., Tiele H., Somberg H. Expert Systems as a Tool for the Molecular Structure Elucidation de Spectral134

107. Methods. Strategy of Solution to the Problems. //Anal. Chim. Acta. 1997. -Vol. 348. - P. 443-463.

108. Luinge H.J., van't Klooster H.A. Artificial intellegence used for the interpretation of combined spectral data. //Trends Anal Chem. 1985. - Vol. 4. - P. 242-243.

109. Kleywegt G.J., Luinge H.J., Schuman B.J.P. Prolog for Chemists. Part 2. //Ibid. 1989.-Vol. 5.-P. 117-128.

110. Luinge H. J. EXSPEC, a knowledge-based system for interpretation of infrared spectra. //Anal. Proc. 1990. - Vol. 27. - P. 267-268.

111. Sasaki S., Fujirava I., Abe H., Yamasaki T. A Computer Program System -New CHEMICS for Structure Elucidation of Organic Compounds by Spectral and Other Structural Information. //Anal. Chim. Acta. - 1980. - Vol. 122. -P. 87-94.

112. Sasaki S.-I., Kudo Y. Structure Elucidation System Using Structural Information from Multisourses: CHEMICS. //Chem. Inf. Comput. Sci. 1985. - Vol. 25. - P. 252-257.

113. Funatsu K., Del Carpio C.A., Sasaki S.Automated Structure Elucidation System CHEMICS. // Fresenius' Z. Anal. Chem. - 1986. - vol. 324. - P. 750-759.135

114. Funatsu K., Nobuyoshi M., Sasaki S.-I. Futher Development of Structure Generation in Automated Structure Elucidation System CHEMICS. //J. Chem. Inf. Comput. Sci. 1987. - Vol. 28. - P. 18-28.

115. Funatsu K., Susuta Y., Sasaki S.-I. Application of Infrared Data Analysis Based on Symbolic Logic in Automated Structure Elucidation by SHEMICS.^ //Anal. Chim. Acta. 1989. - Vol. 220. - P. 155-169.

116. Curry B. An Expert System for Organic Structure Determination. //ACS Symp. Ser. 1986. - Vol. 306. - P. 350 -364.

117. Curry B. A Distributed Expert System for Interpretation of GC/IR/MS Data. //Computer-Enhanced Analytical Spectroscopy. 1990. - Vol. 2. - P. 183-209.

118. Huixiao H., Xinquan X. ESSESA: An Expert System for Elucidation of Structures from Spectra. 1. Knowledge Base of Infrared Spectra and Analysis and Interpretation Programs. //J. Chem. Inf. Comput. Sci. 1990. - Vol. 30 -P. 203-210.

119. Huixiao H., Yinling H., Xinquan X., Yuefeng S. ESSESA: An Expert System for Elucidation of Structures from Spectra. 6. Substructure Constraints from Analysis of 13C-NMR Spectra. //J .Chem. Inf. Comput. Sci. 1995. - Vol. 35. - №6. - P. 979-1000.

120. Woodruff H.B., Smith G.M. Computer Program for the Analysis of Infrared Spectra. //Anal. Chem. 1980. - Vol. 52. - P. 2321-2327.

121. Woodruff H.B., Smith G.M. Generating Rules for PAIRS-A Computerized Infrared Spectral Interpreter. //Anal. Chim. Acta. 1981. - Vol. 133. - P. 545553.

122. Tomellini A., Saperstein D.D., Stevenson J.M., Smith G.M., Woodruff H.B., Seelig P.F. Automated Interpretation of Infrared Spectra with an Instrument Based Microcomputer. //Anal. Chem. 1981. - Vol. 53. - P. 2367-2369.136

123. Tomellini S.A., Stevenson J.M., Woodruff H.B. Rules for Computerized Interpretation of Vapor-Phase Infrared Spectra. //Anal. Chem. 1984. - Vol. 56. - P. 67-70.

124. Tomellini S.A., Hartwick R.A., Stevenson J.M., Woodruff H.B. Automated Rules Generation for the Program for the Analysis of Infrared Spectra (PAIRS). //Anal. Chim. Acta. 1984. - Vol. 162. - P. 227-240.

125. Woodruff H.B. Using Computers to Interpret IR Spectra of Complex Molecules. //Trends in Anal. Chem. 1984. - Vol. 3. - P. 72-75.

126. Smith G.M., Woodruff H.B. Development of Computer Language and Compiler for Expressing the Rules of Infrared Spectral Interpretation. //J. Chem. Inf. Comput. Sci. 1984. - Vol. 24. - P. 33-39.

127. Tomellini S.A., Hartwick R.A., Woodruff H.B. Automatic Tracing and Presentation of Interpretation Rules Used by PAIRS: Program for the Analysis of IR Spectra. //Appl. Spectrosc. 1985. - Vol. 39. - P. 331-333

128. X. Вудрафф, С. Томеллини, Г. Смит. Определение фрагментов структуры путем автоматической интерпретации ИК-спектров. /В кн. Искусственный интеллект: применение в химии. Москва: Мир, 1988. С. 346354.

129. Saperstein D.D. Methodology for Evaluating and Optimizing Infrared Interpretation. //Appl. Spectr. 1986. - Vol. 40. - №3. - P. 344-348.

130. Wythoff B.J., Buck C.F., Tomellini S.A. Descriptive Interactive ComputerAssisted Interpretation of Infrared Spectra. //Anal. Chim. Acta. 1989. - Vol. 217.-P. 203-216.

131. Tomellini S.A., Wythoff B.J., Levine S.P. Developing Knowledge- Based Systems for Interpreting Infrared Spectra. //Computer-Enhanced Analytical Spectroscopy. 1992. - Vol. 13. - P. 215-238137

132. Andreev G.N., Argirov O.K. and Penchev P.N. Expert System for the Interpretation of Infrared Spectra. //Anal. Chim. Acta. 1993. - Vol. 284. - P. 131136.

133. Andreev G.N., Argirov O.K. EXPIRS, an Expert System for Generation of Alternative Sets of Substructures, Derived by Infrared Spectra Interpretation. //Anal. Chim. Acta. 1996. - Vol. 321. - P. 105-111.

134. Visser Т., van der Maas J.H. Systematic Computer-Aided Interpretation of Vibrational Spectra. //Anal. Chim. Acta. 1980. - Vol. 122. - P. 357-361.

135. T. Visser and J.H. van der Maas. Systematic Computer-Aided Interpretation of Infrared and Raman Vibrational Spectra Based on CRISE Program. //Anal. Chim. Acta. 1980. - Vol. 122. - P. 363-372.

136. Edwards P., Ayscough P.B. A Cooperative Approach to the Structure Elucidation Problem. //Chemom. Int. Lab. Syst. 1988. - Vol. 5 - P. 83-93.

137. Blaffert T. EXPERTISE An Expert System for Infrared Spectra Evaluation. //Anal. Chim. Acta. - 1986. - Vol. 191. - P. 161-168.

138. Farkas M., Markos J., Szepesvary P., Bartha I., Szalontai G., Simon Z. A Computer-Aided System for Organic Functional Group Determination. //Anal. Chim. Acta. 1981. - Vol. 133. - P. 19-30.

139. Szalontai G., Simon Z., Csapo Z., Farkas M., Pfeifer G. Use of IR and 13C-NMR Data in the Retrieval of Functional Groups for Computer-Aided Structure Determination. //Anal. Chim. Acta. 1981. - Vol. 133. - P. 31-40.

140. Pyo D. Expert System Approach for Spectra-Structure Correlation for Vapor-Phase Infrared Spectra. // Vib. Spectroscopy. 1993. - Vol. 5. - P. 263-273.

141. Дерендяев Б.Г., Пиоттух-Пелецкий В.Н., Макаров Л.И., Скоробогатов В.А. Взаимосвязь подграфов молекулярных графов и свойств органических соединений. В сб. Интеграционные программы фундаментальных исследований. Новосибирск: изд. СО РАН, 1998.

142. Dayringer Н.Е., Pesyna G.M., Venkataraghavan P., McLafferty F.W. Computer-Aided Interpretation of Mass Spectra. //Organic Mass Spectrometry. -1986.-Vol. 11. P. 529-536.

143. Вентцель E.C. Теория вероятностей. /Москва: Физматгиз, 1968. С. 58

144. Molodtsov S.G. Generation of Molecular Graphs with a Given Set of Nonoverlapping Fragments.// MATCH 1994. - v. 30. - P. 203-212.

145. Molodtsov S.G. Computer-Aided Generation of Molecular Graphs.// Ibid. -P. 213-224.