автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Имитационно-лингвистические алгоритмы анализа и обработки структурной информации

кандидата технических наук
Салмина, Нина Юрьевна
город
Томск
год
1991
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Имитационно-лингвистические алгоритмы анализа и обработки структурной информации»

Автореферат диссертации по теме "Имитационно-лингвистические алгоритмы анализа и обработки структурной информации"

токскяп I осудврс-вешши университет имени в.о.пулотсвя

На правах рукописи

Солмина Нина Юрьевна

УДК 6Р1.3.015:519.55

ИМИТАЩЮННОЛЕЙНГШСТИЧШМЕ АЛГОШТШ АНАЛИЗА И ОБРАБОТКИ СТРУКТУРНОЙ

гаш>здии

Специальность 05.13.16 - Применение вычислательноЯ

■техник«, математического моделирования и математических котодсв в нзучннх мсслодозвняях

АВТОРЕФЕРАТ диссертации ка соясканиа ученой степени кандидата технических наук

Телек1591

< /у

Работа выполнена в Томском институте автоматизированных систем управления и радиоэлектроники

Научный руководитель - доктор физико-математических наук,

профессор Ю.М.Полицук Официальные оппоненты: доктор физико-математических наук, профессор В.А.Кочегуров кандидат фиэико-матемагкчаских наук, доцент Б.А.Гладких Ведущая организация - Институт математики СО АН СССР (г. Новосибирск)

Защита состоится 1991г. в _ часов

но заседании специализированного Совета Д 063.53.03 в Томском Государственном университете им. В.В.Куйбышева по адресу: 534010, Томск - 10, пр. Ленина, 36.

С диссертацией можно ознакомиться в библиотеке Томского государственного университета (г. Томск, пр. Ленине, 36).

Автореферат разослан "_"_1991г.

Ученый секретарь

специализированного Совета Л /

к.ф.-м.н., доцент , Б.Е.Тривоженко

1/1

. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

¡¿йЯ I

АОТУАЛЬНОСТЬ ПРОБЛЕМЫ. Современный этап ьаучного исследования связан с необходимостью моделирования на ЭВМ систем со все болге усложняющимися структурой и поведением. Это относится к системам, природные компоненты которых характеризуются невозможностью -или нежелательностью проведения с ними натурных экспериментов для получения информации для идентификации моделей таккх объектов. Также это относится и к некоторым техническим системам.

Применение иычислительной техники вызывает необходимость формализации таких систем, их компонент и объектов воздействия. Одной из осноеных задач, вспникпщих при этом, является обработка и анализ структурной информации.

Многие сложные объекты включает э себя в качество структурных компонент или взаимодействуют с химическими соединениями, влияющими на их поведение и свойства. При этом необходимо отметить, что в связи с быстрым развитием органической химии, количество ранее иеизвесп.ых, а также не существующих в природе химических соединения увеличилагтея с чрезвычайной быстротой. Только в нашей стрзне количество ежегодно синтезируемых и выделяемых из природ,'?,« источников новых химических соединений при:, блшкается к 40 тис. Оценка ж; их свойств занимает в настоящее время значительно больше времени, чем синтез, поэтому сценке подвергается ливь мелая часть потока новых соединений. В результате токсичность для лкдей, опасность для о кружа щей среды или аоздеГ вие на свойств« технических сооружений многих соединения становится известной слишком поздно. При этом массовая оценка свойств ногых химических соединений с помощью традиционных фармакологических методов или натурных экспериментов потребовала бы огромных материальные и временных затрат.

В .«язи с изложенным актуальными являются' проблемы раэработ-кииоделей, алгоритмов и систем прогнозироэения свойств химических соединений или объектов, на которое воздействуют химические соединения, на основе анализа их структур.

ЦЕЛЬ РАБОТЫ. Цельо настоящей диссертационной работы является разработка гмитациснно-лкипыстическик моделей и алгоритмов обработки дчнкь'Х качественного и количественного характера п системах автоматизации анализа структурной инфорл^цин.

■'¿ЕТОДО ИССЛЕДОВАНИЯ. Для достижения поставленной цели о ре- • боте бычи использованы метода математической статистики, искусственного интеллекта и теории графов, метод аналогий, а такие аппарат формальных грамматик и математической логики.

НАУЧНАЯ НОВИЗНА. В диссертационной рабо-гс получени следующие научные результаты:

1) предложен комплексный подход г оцениванию свойств объектов по six структуре, основанный ил en;.: : стяом использовании моделей качественного и количественного xyt: -rrepa;

2) разработано логико-лингоисткчсскня модель распознавания графовых структур, основанная нэ формальных грамматиках и исчислении предикатов первого порядка;

3) разработаны имитационные модели прогнозирования свойств химических соединений, основанные на регрессионном анализе и методе аналогий;

4) разработана алгоритмы фуянцконирояанил программного комплекса имитационно-лингвистических моделей анализа и обработки структурной информации. ■

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ К РЕАЛИЗАЦИЯ РЕЗУЛЬТАТОВ РАБОТЫ. Основ-_ньши практическими результатами диссертационной роботы являются: _ I/создаю; о программного комплекса для задачи коделкротшя влияния органических веществ на фкзико-мехонические свойства стали паро-

труболроводов сысокого дгзления; _ _ _ _ _ _

г/создание програ-миого комплекса аля задачи прогноз кропания экологических свойств химических соединений; -

3) разработка инструментальной системы, которая ыог>ет быть применена в фармакологии и медицине для задач анализа связи структура - биологическая активность.

Диссертационная работа связана с планами следующих научно-исследовательских работ института химии нефти СО АН СССР: теиа 46/90, порученная институту правительственным постановлением; тема 76/89, выполняемая по решению Совета депутатов Томской области. Работа также связана с ьыполнением научно-исследовательской инициативной работы по и-следованию влияния органических соединений на (Ьпихс-механические свойства металла при эксплуатации в паротрубопроводе (ТЭЦ-3, ТОЖГОНЕРГО ).

- D -

Результаты диссертационной работы использовались г госбюджетных темах: "Исследование и разработка методов и средств компъю- - ■ терного представления информации о химических структурах и химических реакциях" (инициативная тема), "Создание региональной системы экоинформации и управления качеством речкой воды на основе банка данньх по органическим загрязнителям антропогенного происхождения" (номер гос.регистрации 01РЯ0079836). Разработашшо модели и алгоритмы программно реализованы на 141 PC в среде HS РОЗ и внедрены в ИХН СО АН СССР (г.Томск), ТЭЦ-3 ТО!.5СКЗНЕРГО.

АПРОБАЦИЯ РАБОТУ. Основ'.«» результаты диссертационной работы были дплпхены ив 6 Международных, Всесоюзных» региональных кон-фогемцичх я школах. В тем числе ня Всесоюзной конференции "Искусственный интеллект, итоги и перспективы" (п.Москва, 1585г.), но 5 региональной нау то-пряктической конференции "Молодые ученые и специалисты - ускорению 1ГГП " (г.Томск, 1906г.), на Всесоюзной научно-технической гаколе "Вопросы промышленной эксплуатации информационных ресурсов, экспер-ные системы" (г.Калинин, 19Ейг.), на У III Псесогэиой конференции "Использование вычислительных макни з спектроскопии молекул и химических исследованиях" (г-.Яово-сибирск, 1989г.), на Всесоюзной конференции "Методы математического моделирования в аадачях схрянн окрукзгщей среди и экологии" (г.Новосибирск, 1991г.), нп Международно!! конференции по хямии нефти (г.Тсмск, 1991г.).

ПУБЛИКАЦИИ. Основное содержание диссертационной работы опубликовано в 9 печатных работах.

СТРУКТУРА И ОБЪЕМ РАБОТ!!. Диссертация состоит из основной части, вклЕчапт,ей в себя введение, четыре главы и заключение на 106 страницах, списке использованной литературы из 99 наимено-раний и приложений нп 8 страницах. В работу включены ркоунки я таблицы на 15 страницах.

основные положения, приставляемые к завзгге

4

I. Принципы' построения систем анализа свойств объектов по ях структуре ня основе совместного использования моделей качественного и количественного характера.

2. Логико-лингвистическг" модель распознавания графовых структур.

3. Имитационные модели прогнозирования свойств химических соединений по их структуре.

4. Алгоритмы автоматического кодирования и обработки графовых структур.

5. Программный комплекс енелиэа и обработки структурной химической информации.

СОдеЛВДИЕ РАБОТЫ

ВО ЕЕЕДЕ1Ш обоснована актуальность темы диссертационной ра- ■ боты, отражены основные положения, имеющие научную новизну и практическую ценность и перечислены основные результаты, которые вынесены но защиту.; .

ПЕРВАЯ ГЛАВА диссертации посвящено анализу состояния вопросов обработки и анализа структурной химической информации, а также постановке зада':и исследования. Опроделена цель диссертационной работы - разработка имитационно-лингвистических моделей и алгоритмов обработки данных качественного и количественного характера в системах автоматизации анализа структурной информации, а также разработка программных средств для решения таких зедач. Рассмотрены способы компьютерного представления графовых структур. Предложена новая классификация существующих систем кодирования, проведенная по следующим основаниям: I) по наличии потери информации при кодировании; ?.) по степени сохранения графической пространственной организации; 3) по степени "дробности" фрагментов структуры. В результате анализа выявлены достоинства и ьедостат-кисуществувцих способов представления и предъявляемые к ним требования. Выявлено необходимость в разработке нового способа кодирования структур сложных объектов, в качестве наиболее эефек-г тишюго способа выделены линейные номенклатуры.

. Но основе анализа многочисленных методов, используемых в задачах анализа связи "структура-свойство" (ССС) сделан вывод об ограниченном значении вычислительных методов. Здесь под вычисли-чсг.шът.у. методами ппигмаются математические метода, реализуемые с пемодьв Ехрмслительной техники. Способы решения задач должны ьклвчгть кон количественный анализ донных, так и обработку качественной КйфорлЕЦИИ, ток как механизм ССС не может б:.ггь описан

только аналитически, необходимо применение лингвистического описания. В результате сделен вывод о необходимости при решении задач анализа связи "структура-свойство" использовать комплексные модели, включающие как имитационные (количественного характера), тек и логико-лингвистические (качественного характера) компоненты. Приведены примеры практических реализаций автомагизировтаих систем анализа ССС.

Проведенный в первой главе анализ позволил сыделить следующие основные проблемы, возникающие при решении задач анализа и обработки структурной информации:

1) разработка компьютерного представления графовых структур, которое должно обладать наглядностьп, простотой алгоритмов кодирования и декодирования, полнотой описания структуры и возмоетостья • его использования в качестве входного языка в лингвистических моделях;

2) разработка комплексных моделей распознавания графовых структур и прогнозирования их свойств по структуре, основанных как на количественном, так и на качественном анализе данных;

3) создание программного комплекса анализа и обработки структур- -кой химической информации с использованием новейзих принципов Программирования, универсальных программных средств и удобств»! общения пользовотелеП-непрогрэммистов с системой.

ВТОРАЯ ГЛАВА посвящена рассмотрения теоретических аспектов проблемы анализа ССС и разработке языков и моделей для задйч прогнозирования свойств объектов по их структур?.. Для решения названных задач предложена имитсционно-лннгвистическея модель, представленная в виде пары

Ф = <!.1ьМг>. Здесь Mt - логико-лингвистическая модель (ЛЛУ), Mo - имитационная модель.

В свою очередь имитационная модель также представлена в виде пары

Мг « <М*,М„>, где MR - регрессионная модель,

Мд - модель аналогии. '

ЛЛМ служат для задач распознавания графовых структур и отнесения их к различным классам, характеризующим определенные свойства объектов, портальное описание ЛЛМ представлено четверкой

Ш « <Т,Р,А,В> ,

гдо Т - множество базовых элементов, Р - множество синтаксических правил, А - множество аксиом,

В - множество семантических праькл (правил вывода). Множество Т ссстоит из трех подмножеств: констан? (К), переменных (Я) и атомов (V). Константы пклычают: I) целые числа (/О» 2) математические значи сравнения двух величин (1>= {"<", ">", "»", и:"}; 3) символьные строки (Э); 4) имена формальных

грамматик (6= {"6Г,"<-'У."ОЬ","06",'69* ) ). Переменные представлена символьными строками Ш. Атомы представлены множеством иг следующих семи предикатов: РС11.1^2), рши.гглз), Р&2и1,гг,гзд4), ри5т1,12дзд4),

РС1ииМ2,13Д4), Ш^«^), где

tl г предикатные переменные,

Синтаксические правила имеют следующий вид:

1. Если и - любо!* атом из V, то ос есть правильно построенная формула (ГШ).

2. Если и есть ППФ, то по1(с<) ость также ППФ.

3. Если (( и ^ является ППФ, то и,р также является НПФ.

4. Если « и р являются П!Ю, ю также является ПШ>.

5. Других И'й нет. .

В качестве аксиом заданы предикаты с заданными областями определения переменных: I) Р(г.,5); 2) РйГ(/.,6,5); I) Р62(^,01,Ь,62); 4)Риялсл^.и,^); Ь) РСКШ,М,5,N2); 6) РСки(М1.$1,Л'2,52); 7)СШ$и,Н).

божество правил вывода содереглт только одно правило: если « я являются выполнямыми в А, то р - выполнимо,

причем иеА,

Здесь в качестве лиигиисгической компоненты модели выступают КС-грамматики (¿И), определенные па феодальном языке Цепочками или првдл^аеникми языка /. являются структуры или фрагменты графовых структур, описанные с помощь« разработанного грамматического линейного кода (ГЛК). Алфавит ГШ гкличает б? стандартных символов, которые имеются о бплы-инстве ко«пьшеров и печатающих устройств. Структура аапм ":аается в яиде линейной цепочки, причем от, етвления заключается о круглые скобки, циклы обозначаются с помидьп специальных скмволсв - нвчелч н

- конца цикла. Для часто встречаемых подграфов пряняты обозначения, которые сокращают запись и упрощают обработку я анализ структурной информации. Для канонизации кода введены правила порядка. Базовые элементы ЛЛМ Б и представляют собой структуры или фрагменты струхтур, закодированные в ГЛК. Приводятся примера кодирования структур химических соединений.

Грамматики в ЛЛМ задают отдельные классы графовых структур и представляются в виде четверки Б =(Б,Л/,2,Р), где 5 - начальный символ грамматики,

Н - множество нетерминальных символов; (5,а1,а2,0,х1,х2,хз,у1,

уг.Уздг.гг.у.у-.д.в^ог.Е.ЕХ.Ег.Ез.з} ;

2 - множество терминальных символов, содержащее коды элементов и подграфов, используемых в ГЛК, цифры 1>9 и специальные сим-

„п. . Й / Н И \М ПлП Я( N Н 41 *

воли:

Р - множество правил вывода.

Определены правила вывода грамматики, описывающей структур« помеченных неориентированных связных графов. Пря этом на графы накладываются следующие ограничения: одна вершина может кыеть связность не более четырех; две смежные вершины могут быть соединены не более чем тремя ребрами.

э аш2 ! £3 ! АШ1 ! аш ! а1а2

а1 -»- хз i уищ ! уэ 1)2111x2 ! ггииуз

а2 й- хз ! х2иу2 ! х2игш2 i узшя2 ' . ТГ х2 т2 уз -»- тз

у1 т4 у2 ^ т5 » ггт и -е- Тб . г1 -е- т7 ? т7игт о — xi ! ухш ! 221дй2 1 у1шш ! ю xi тэ ! у1(у) i 22(у)

v а2 i ла2 ? 51 !

V иХ2 ! иГ2У ! игШ

а №ее£ ! «ее14 ! иезезез& !

СЦ НЕ2ЕЕ& I #Е2ЕЕ&а

е xi ! » 22.7 ! е1 ! ! ее

Е1 -н- Угигг ! гг.жг.э 1 чшг.э ! гг.жг ! ггшг

Е2 У1 ! 22\щ ЕЗ — Ш I игГЕЗ 02 — #Т6ЕЕ& ! #Т6ЕЕ*Й 0 — 1!2!3!4!5!6!7Г8!9 Здесь ТГ

Т2

ТЗ

Т4 Т5 Тб

Т7 Т8

При настраивании грамматики на конкретную предметную область необходимо задать множества Т1, определяющие коды вершин и подграфов -на графовых структурах рассматриваемой предметной области. Если исследуемые гра$ы имеют более простую структуру (например, древовидную), то соответствующую им грамматику можно получить путем удаления соответствующих правил (для древовидной - удалить все правила, содержащие нетерминалы Ц, (?1, Ц2 или выводимые из этих нетерминалов). В случае, если исследуемые графы имеют структуру, не вписывающуюся в рамки приведенных выше ограничений, то грамматика может быть расширена путем добавления новых правил и новых мноместв Т1,

Описанная грамматика является одновременно леворекурсивной и прзворекурсивной, так как в ней присутствуют правила типа Г-'-ВР.

- множество терминальных символов, состоящее из кодов концевых вершин графа, связанньпе только с одной другой вершино.1 одним ребром;

- множество терминальных символов, состоящее из кодов концевых вершин или подграфов, связанных только с одной вершиной .гзумя ребрами;

- множество терминлльных символов, состоящее из кодов концевых вершин или подграфов, связанных только с одной вершиной тремя ребрами;

- множество терминальных символов, состоящее из кодов

' вершин или подграфов, образующих связь — ;

- множество терминальных символов, состоящее из кодов вершин или подграфов, образующих связь —оО ;

■ множество терминальных символов, состоящее из кодов вершин или подграфов, образующих связи —о^з ,

■ множество терминальных символов, состоящее из кодов вершин или подграфов, образующих связь <гх<И> ;

■ множество терминальных символов, состоящее из кодов вершин или подграфов, образующих связь —о— .

Многие алгоритмы разбора, определяющие прииадлезкностъ входной цо-почки языку И&), не могут работать с легорекурсивными грамматиками. Этого легко избежать, увеличив число правил, раскрыв левый нетерминал:

В XI I » 12№2 ! YIUZIl^YI \ Х1Р ! !

22Ш22Р ! У1Ш1Л11) . В основе логической компоненты ЛЛН лежит язык предикатного типа, основанный нп исчислении предикатов перасго порядка. Язык-предназначен для задания определенных условяТ и ограничений, накладываемых на графовые структуры при описании того или иного класса и представляет ссбоЯ следуещее множество предикатов:

1) Р(5,Х) - Истинен, ссли фрагмент X присутствует в структуре

2) Р61(3,61,Х) - Истинен, если структура цепочки Э » ХМУ, и

3) Р62(3,61,Х,С-2) - Истинен, если структура цепочки 5 = М-Х-Ч2, где ИеДОО, Ч2£Ц62);

4) - Истинен, если ХеЭ, и количество повторений IX я в удовлетворяет условии I 051. АГ, где // - целое одело, 1)51.- знак математического отношения;

5) РСКМЭ.^.Х.ТШ - Истинен, если 5 содержит //-членный цикл, которая включает X Ш раз;

6) РСК*.1-(5,ЛГ,Х,Л/1,5р) - Истинен, если Э содержат У-иленный цикл, • который содержит в пидстановкзх X У1 раз, и все ответвления от остальных элементов цикла содержат юшдое хотя бы один элемент из списка ¿р;

7) си^Сй/О - Истинен,

если где ¿^ — язык, описывающий

класс У.

При совместном использовании э модели М| предикатов и грамматик, существует возможность определять ССС 'как простыми правилами, использующими только конъюнкции предикатов, выявляющих наличие тех или иных фрагментов в структуре, так и более сложными правилами, вклшчакщкки грамматический разбор. При этом отпадает необходимость создавать болькие по объему грамматики.

Регрессионная модель Мй представляет собой набор-регрессионных урагнений и предназначена для прогнозирования свойств сложных объектов по их структуре. В качестве независимых параметров выступопт топологические индексы, характеризующие структуру объекта числом, в качестве зависимых - свойства объекта. В процессе

исследований кроме широк" известных индексов Рандича ), Гутмана Ш), Платта ({), Винера (V/) и Балабана (Э) были разработаны И исследованы нормированное »-ндексы Рандича (/*), Гутмана (М*) и Платта ({*). Наиболее хорошие результаты получены для индексов ы. /*, М*.

Для примера п качестве предметной области исследований была выбрана экология, кик наименее испледогшнкая в этом неправлении область, связанная со структурной химической информацией. Исследования проводились на семи классах химических соединений, по двум свойствам - предельно допустимой концентрации и летальной дозе. Рассматривались одномерные линейные, экспоненциальные, степенные регрессионные модели и одномерные регрессионные модели с обратной зависимостью. Ниже приведены регрессионные уравнения по каждому исследуемому классу соединений для обоих -зависимых параметров с наилучшими результатами. Класс сложных эфиров

ЛД50»310.93*М-5?02.43 , №=0.53, Л2=0.28, //-19) Класс спиртов

' Д0б(11ДК)=15.966+4.б766*£0б(;(*), (К=0.56, ^=0.31, А/=35) Класс кетонов

Ш(ЛД50)=И.967-1.4026*Ш(-О, (8=0.73, Й8=0.61, //=9) 1/ДЦК—4.97+0.277*М, («=0.59, Й5=0.34, //=34) Класс карбоновых кислот

1/ЛД50»-0.0189-0.4774*^*, №=0.57, Я3=0.32, //=16) Ш5(ПДК)=2.7166-Ю.аа?1«М*, (Я=0.б5, «5=0.42, //=31) Класс галогеноесдергкащих ациклических углеводородов ДЦ50=7069.04-123473'/*, №=0.671, Г<3=0.45, У=17) Класс гологеносодержащих цикличеекчх углеводородов ¿0&(ВД50)»9.1898-0.0338>0!, (11=0.7?>7, «3.0.635, /М5) 1/ЛД1(«>-21.4407+0,5304*М, (К=0.,Ь5, Й5 =0.3,//=40) Класс циклических углеводородов ¿00(ПДК)=5.319-0.0546*М, (1^0.679, ДЬ *0.46,//=31)

Здесь N характеризует обьем выборки, К - коэффициент корреляции, ЙЭ - множественный коэффициент корреляции. Все приведенные, модели корректны по Г критерию.

Для другой проблемной области могут быть получены новые регрессионные уравнения зависимости свойств'объекта от тополо- ' гнчзених индексов, отражающих структуру объекта в виде числа.

В разработанной модели "аналогии МЛ объекты продставЛепы их структурами. Для удобства работы с ними структуры задаются а виде векторов образов. Каждая структура описывается двумя векторами - бинарным и числовым, представляющими структуру кя.ч комби наци о ее основных элементов, фрагментов и соотнопений меяду ними. Бинарные дескрипторы могут принимать только два значения, соответствуйте утвердительному и отрицательному ответам. Дяя числовых дескрипторов введен нормировочный множитель для увеличения удельного веса тех дескрипторов, которые описывают связи с более высокой биологической активностью. Для примера в качестве объектов рассмотрены химические соединения. Модель аналогии Мл основана на установлении подобия медцу структурой входного объекта, для которого необходимо определить какое-либо свойство, и набором структур объектов, для которых соответствупцее свойство известно.

В общем виде модель аналогии Мя можно представить следующим образом:

¡ч> t

Кр -у. М5 >(

где U* - значение «-го дескриптора k-го вектора обрезов, и* - определенное сиоПство к-го объекта, pi- значение ¿-го дескриптора исследуемого объекта,

- искомое свойство, ¥> - подобие мезду векторами образов, Y®*- подобие между свойствами объектов, Подобио У определяет вектора образов из } , максимально близких с вектором образов {ß>i) и является пересечением ме.^г • множс.гвами бинарных и числовых сектсроз, найденных по частным подобиям Уа и

здесь подобие для бинарных векторов, Vi,- подобие для числовых векторов.

Уа={т1пГвк},

где rs<=£r?s

{ min Г^},

где У" =2 8?«

{*?«}=tu:«-¿Fi}.

Операция V*определяется в виде формулы, по которой рассчитывается искомое свойство:

ß - ( min etL, max et1).

Здесь искомое свойство задается в виде интервала возможных значений (_£) и в виде точки наиболее вероятного значения (/*н.в.).

В ТРЕТЬЕЙ ГЛАВЕ рассмотрены вопросы практической реализации системы автоматизации анализа и обработки структурной химической информации, основанной на использовании моделей, описанных во второй главе диссертации. Сгстема состоит из следующих подсистем: подсистемы общения, включающей графический редактор и диалоговый процессор (ДП); базы данных (БД), базы знаний (БЗ) и планировщика системы. Система выполняет следующие функции: I) ввод и редактирование графовых структур; 2) хранение структур в виде таблиц связности (ТС), грамматического линейного кода (ГЛК), векторов образов (ВО); 3) поиск в БД и удаление из БД структур объектов; 4) расчет топологических индексов Винера, Балабана, Рандича, Платта, Гутмана и некоторых их модификаций; 4) прогнозирование свойств химического соединения по его структуре; 5) прогнозирование влияния химического соединения на физико-механические свойства других объектов, на основе анализа его структуры. Рассмотрены режимы ведения диалога, осуществляемого ДП, трудности ор-ганизациидиалога на ограниченном естественном языке. В результате исследований для ведения диалога в системе выбран комплексный режим меню и вопрос/ответ. Рассмотрены меню с альтернативным и списочным выбором, функцию ввода и редактирования структур выполняет блок графического редактора.

Хранение структур в виде ТС, ВО, а также их свойств и рассчи -читанных ТИ осуществляется в БД. БЗ содержит коды структур ХС, данные о которых хранятся в БД, и модели распознавания и прогнозирования свойств ХС. Выбор модели осуществляется планировщиком системы на основе исходных данных. БЗ содержит знания в различных видах: I) символьные цепочки (коды структур ХС); 2) математические выражения (регрессионные уравнения и модель аналогии); 3) правила Вывода (формальные грамматики и предикаты). Пополне-

ние значий может происходить как в режиме работы разработчика с системой, так и в режиме пользователя. Пользователь может вносить информацию о новых ХС с известными свойствами. В режиме разработчика кроме задания информации о новых соединениях, могут пополняться и знания о моделях: задание новых регрессионных уравнений, дополнительные правила вывода либо корректировка старых.

Разработаны алгоритмы автоматического кодирования структур в ГЖ из ТС и канонизации кода. Предложен алгоритм работы планировщика, осуществляющего контроль и управление работой всей системы, выбор необходимой модели прогнозирования, связь всех блоков системы. Разработанный комплекс алгоритмов и программ мелет быть использован для реализации любой системы прогнозирования свойств ХС. При этом необходимо новое заполнение БД, которое может быть осуществлено пользователем системы; замена регрессионных уравнений и правил вывода в ЛЛМ, которые необходимо получить на основе данных из новой проблемной области. Модель апологии, планировщик, алгоритмы и программы работы подсистемы общения, ведения БД, кодировки и общей работы системы изменениям не подвергаются.

Программная реализация систему выполнена в среде ТШ?вО-PROL0G 2.0 MS DOS IBM PC.

В ЧЕТВЕРТОЙ ГЛАВЕ описаны результаты внедрения разработанных в диссертационной работе моделей и алгоритмов. В Институте химии нефти СО АН СССР била разработана региональная система экош .рмсции и управления качеством речной вода но основе банка данных по органическим загрязнителям антропогенного происхождения. Система ориентирована на комплексный учет всей доступной информации о загрязнителях речной воды и их влияния на компоненты природной среды н здороаья человека. Решение ряда задг. • системой требует знания предельно допустимых концентраций веществ, которые не всегда известны. Задеча прогнозирования ГЩ1С в системе решается с помощь» комплекса программ, разработанных и описанных а настоящей работе. Приведены результаты эксперимента по анализу достоверности прогнозирования.

Инструментальная система представления химических соединений и моделирования их влияния на свойства стали была разработана для предсказания возможных критических ситуаций и предотвращения аварийных разрушения пвротрубопроводов ТЭЦ на основе анализа

связей между структурами ХС и влияния их на физико-механические свойства сталей паротрубопроводов высокого давления. Система бы ■ла внедрена на тэц-3 тоюэнерго.

Приложения содержат акты внедрения результатов диссертационной работы, правила вывода и грамматики ЛЛМ.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Предложен комплексной подход к проблеме анализа связи "структура-свойство", оснооеншй ч-.ь совместном использовании м« делой качественного и количественного характера.

2. Разработан и исследсзан алгоритм кодирования графотх структур для их компьютерной обработки.

3. Разработаны языки грамматического описания классов графо гых структур и предикатного типа для распознавания графовых структур.

4. Разработана логико-ллнгшстическоя модель распознавания графовых структур, основанная ¡ш формальных граммятикпх и исчис лении предикатов первого порядка.

5. Разработаны имитационные модели прогнозирования свойств сложных объектов по их структуре, основанные на регрессионном анализе и методе аналогий.

6. Разработан л программно реализован комплекс по хрен'-ми» и обработке структур химических соединений для задач анализа связи "структура-свойство".

7. Создана автсматизироронная система прогнозирования экологической опасности и токсичности химических соединений.

8. Создана инструментальная система для анализа влияния органических соединений на физико-механические свойства стали.

9. Результаты диссертационной работы внедрены и используггс* в следующих организациях: ИХН СО АН СССР, ТЭЦ-3 Т0МС1ШЕГГ0.

основные положения диссертации изложены в следущих работах

I. Салыино Н.Э., Ходашинский И.А. Модель языка общения в проблемно-ориентированных информационных системех/Др. Всесоюз. конференции "Искусственный интеллект, итоги и перспективы".-М.:

ВДНГП.-1985.-С.91-98.

2. Ееберова И.И., Салюта H.D. Залоговая система накаплення, хранения и' статистической обработки радиофизических данных// Тгзисы докладов региональной конференции "Молодые ученые я специалисты - ускорению НТП".-Томск: изд-во Томск.ун-та.-I9C5.-С.107.

3. Салмина H.D.. Хоцешинский H.A. Методы и средства аитоматичсс-кого исправления орфографических окябок//ЬГГИ.-Сер.2.-1986.-'?.10.-•С.25-28.

4. Салмина Н.Ю., Ходашинский'И. А. Использование базы знаний в имитационном моделироаании/Др.Всесоюз.школы-семинара "Вопросы про?*ызленной эксплуатации информационных ресурсов, экспертные системы".-Калшмн.-1986.-С. С8-90.-

5. Салмина Н.Ю. Автоматизирзвашшй синтез программ обработки экологических данных/Алгоритмическое и информационное обеспечение систем эксинформацик.-Томск.-СО АН СССР.-I9S3.-С.89-95.

6. Полкцук D.H., Салмина Н.Ю., Ходашинский И.А. Лингвистическая модель анализа химических структур// Использование вычислитель-' них uff"im в спектроскопии молекул и химических исследованиях: Тезпси докладов УШ Всесоюзной конференции.- Новосибирск.-1989.-С.166-167,

7. Создание региональной системы экоинформации и управления ка-честсом речной воды на основе банка данных по органическим загрязнителям г.нтрсп энного происхождения. Отчет о НИР//Ии-т химий нефти СО АН СССР.-.1? Г.р.0188007983б-Томск.-1990.-215с.

8. Салмина Н.Ю., л'одгшинскиЯ И.А. Логико-лингвистическая модель прогнозирования опасности химических соединений//НТИ.-Сер.2.-1991.-№.3.-0.27-31.

9. Полицук D.M., Салмина Н.Ю., Ходагинскяй И.А. Система компьютерного п: едставления и обработки химических структур/Дезисы докладов Международной конференции по химии нефти.-Томск.-1991.

Заказ 215 ' Тяраз 100 Ротапрянт ТИАСУРа