автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Построение естественноязыковых информационных систем для работы с деловыми документами
Автореферат диссертации по теме "Построение естественноязыковых информационных систем для работы с деловыми документами"
КОМИТЕТ ИНФОРМАТИЗАЦИИ ПРИ МИНИСТРСТВЕ СВЯЗИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ВСЕРОССИЙСКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ ПРОБЛЕМ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ И ЮНОРНАТИЗАПИИ
Р Г р л -
' 1 и Ьм На правах рукописи
. , УДК 519.766
Сысоева Леда Аркадьевна
ПОСТРОЕНИЕ ЕСТЕСТВЕННОЯЗЫКОВЫХ ИНФОРМАЦИОННЫХ СИСТЕМ ДЛЯ РАБОТЫ С ДЕЛОВЫМИ ДОКУМЕНТАМИ
Специальность 05.13.06 - Автоматизированные системы
управления
АВТОРЕФЕРАТ
диссертации на соискание ученей степени кандидата технических наук
Москва 1993
Работа выполнена в Российском государственном гуманитарно университете
Научный руководитель - доктор технических наук, профессор
Квасницкий Виктор Николаевич
Официальные оппоненты - доктор технических наук, профессо]
Щерс Артур Львович - кандидат технических наук Шелков Алексей Юрьевич ■
Бедушая организация -. Институт проблем информатики
Российской академии наук
Защита состоится "2Ч"дг*.&ёрл 199 3 г. в /V часов на заседании специализированного совета Д 163.01.01 при Всероссийском научно-исследовательском институте проблем вычислительной техники и информатизации по адресу: 113114, г. Москва, 2-ой Кожевнический пер., д. 4/6.
С диссертацией можно ознакомиться в научно-техническом архиве ВНИИПВТИ.
Автореферат разослан " /9 " нс^Ъри 199 3 г.
Ученый секретарь
специализированного совета ^^
доктор технических наук '/р ^ \ Р. Г. Бияшев
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность теми. В настоящее время к числу сложных научно-технических проблем относится разработка новых способов и приемов, обеспечивающих организацию управления на современном уровне. Значение этой проблемы возрастает и потому, что управление организационными процессами носит всеобъемлющий характер, т.к. это управление любым видом сознательной человеческой деятельности.
Переход от административных к преимущественно научно-экономическим методам управления невозможен без применения достижений информатики - одной из основных составных частей общего системного подхода. Развитие научно-экономических методов управления базируется на автоматизированных технологиях, на разработке и широком внедрении автоматизированных рабочих мест, автоматизированных систем управления, а также баз данных и баз знаний по различным предметным областям.
I
Следует отметить, что эффективность практической эксплуатации АСУ в настоящее время снижается. Одна из причин снижения эффективности этих систем связана с неполной адекватностью используемых в автоматизированных системах "жестких" моделей и алгоритмов, которые не позволяют в полной мере формализовать профессиональные знания лица, принимающего решение. Новые информационные технологии, основой которых являются системы, построенные на знаниях - есть один из способов решения этой проблемы. Новые информационные технологии (НИТ) в области АСУ представляют собой комплекс знаний и навыков пользователей, позволяющий им, используя свои профессиональные знания, са-
ыостоятельно удовлетворять потребности по переработке управленческой информации. Так в основе новой концепции обработки информации в организационно-управленческой деятельности лежит:
- формализация профессиональных знаний пользователя в вычислительной среде;
- интеллектуализация всех форм взаимодействия пользователей с техническими средствами (интеллектуализация интерфейса человек-техническая среда).
В 80-е годы на основе исследований в области искусственного интеллекта (ИИ) сформировались два основных направления развития интеллектуальных информационных систем. Первое направление связано с интеллектуализацией систем принятия решений, основанное на использовании экспертных систем (ЭС). Ко второму направлению относятся разработки по системам общения. К системам общения относятся системы обработки текстов естественного языка (ЕЯ), системы речевого общения, системы обработки визуальной информации и системы машинного перевода.
Очевидно, что интеллектуальные информационные системы первого направления находят практическое применение для принятия оптимального упраплопчоского решении на различных уроьнях управления, а системы второго направления (ЕЯ-системы) находят применение, для обработки текстов деловых документов, интеллектуализации интерфейса человек - техническая среда и др.
Поэтому одной из актуальных задач в настоящее время является исследование возможностей интеллектуализации автоматизированных систем, используемых в области систем управления•организационными процессами, на основе использования ЕЯ-систем.
Целью исследования являются:
1) представление данных из документов (анкет, шаблонов и
- ь -
др.) в виде семантической сети, с целью их дальнейшей семантической обработки;
2) разработка метода построения естественноязыковых информационных систем (ЕШС) с целью автоматизации процесса обработки текстов деловых документов;
3) разработка методики построения моделей предметных областей на основе аппарата расширенных семантических сетей;
4) построение программной системы для реализации предложенных методик построения моделей предметных областей и метода построения ЕШС для работы с деловыми документами.
Достижение поставленных целей осуществляется путем решения следующих основных задач:
- анализа особенностей функционирования организационных систем;
- выявления общих закономерностей в текстах деловых документов на естественном языке;
- исследования возможностей построения интеллектуальных
г
информационных систем в области систем организационного управления;
- анализа первичных и вторичных видов информационных .потоков в системах организационного управления;
- обзора оболочек ЕЯ-систем;
- разработки метода построения ЕЯИС.
Методы исследования. В работе использованы:
- метод структурного подхода к анализу естественного языка;
- метод структурного подхода-к представлен™ знаний в БЗ;
- использован аппарт расширенных семантических сетей (РСС) для отображения семантики высказываний.
Научная ношена:
- разработан метод построения ЕЯ-системы для обработки деловых документов и обобщенная технологическая схема работы с документами на основе ЕЯ-системы;
- разработаны алгоритмы обработки сложных семантических высказываний на основе аппарата РСС;
- проведен анализ видов семантической информации в текстовой форме представления, выраженной деловыми документами;
разработана методика построения моделей предметных областей на основе аппарата РСС;
- на базе предложенной методики построена программная система, представляющая собой пример построения модели предметной области-(организационно-управленческой структуры фирмы) на основе родо-видовых деревьев, и реализующая методы ввода информации из документов в ЕЯ-систему.
Теоретическая значимость работы:
1) выполнена классификация уровней структурирования знаний в базе знаний ЕЯ-системи;
2) разработаны алгоритмы обработки сложных семантических ьисказыиалий на осноие аппарата РСС;
3) построена обобщенная модель автоматизированной обработки документов в организационных системах управления с использованием ЕЯ-системы;
4) проведен анализ построения моделей предметных областей на основе РСС;
5) представлена модель семантической информации в текстовой форме представления, выраженной деловыми документами.
Практическая значимость работы. ■ Предложенная методика создания ЕЯИС и алгоритмы функционирования ЕЯ-системы по рабо-
те с деловыми документами были реализованы в виде программной системы.
Построение информационной системы на основе ЕЯ-системы позволяет хранить данные из документов в виде семантической сети, что дает возможность проведения ассоциативного поиска з
ЕЗ.
Использование естественноязыковых оболочек для создания АИС предоставляет возможность построения информационной системы без использования языков программирования на основе родо-видового дерева понятий, свойственных выбранной ПО.
Реализация результатов исследования. Данное диссертационное исследование проводилось в плане научных работ лаборатории "Средств обработки знаний на РСС" ИЛИ РАН, поэтому программная система, реализующая методики, была построена на основе оболочки "ДИЕС". В результате была создана программная модель организационной структуры ПТФ "Веста" на основе РСС, а также реализована обработка некоторых видов организационно-распоряди- - • тельной дсисументации. Фрагменты базы знаний приводятся в приложениях работы. Достоверность результатов диссертации подт- 1 верждена их успешной апробацией на практике в производственно- торговой фирме "Веста".
Разриботанная методика построения моделей предметных областей на основе аппарата РСС используется в преподавании курса "Информационные системы" в РГГУ.
Апробация работы. Содержание работы, основные выводы и ре- ' зультаты докладывались на.научно-технической конференции "Новые информационные технологии в управлении, проектировании и обучении" (Владикавказ, 1991г.). на международном семинаре :
"Интеллектуализация систем баз данных" (Калининград, 1992 г.), г
на семинарах в ИЛИ РАН.
Публикации. Основное содержание работы представлено в 4 печатных работах.
Объем работы. Диссертационная работа состоит из введения, трех глав, заключения, списка литературы и трех приложений, содержит 145 страниц текста, 28 рисунков и 3 таблицы. Список используемой литературы содержит 86 наименований.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Введение содержит общую постановку проблемы и краткую характеристику всей работы. Представлен анализ степени разработанности проблемы и ее актуальности. Рассмотрены цели работы, методы исследования, теоретическая и практическая значимость диссертационной работы.
Первая глаьа имеет обзорный характер. Анализируются особенности функционирования систем управления организационными процессами (СУОП). Представлена общая модель СУОП. Наиболее подробно ' рассматривается классификация потоков информации в системе. В классификации решаемых в СУОП задач (неформализуе-ыые, слабоформализуемые, формализуемые) в зависимости от группы работников (руконодители, специалисты, технические работники) и этапов обработки информации (принятие решений, анализ, учет) представлено описание не только содержания задач на каждом уровне, но и возможные методы их решения. Проведя данную классификацию, выявляется необходимость использования ЕЯИС на каждом уровне управления организационной системы.
В первой главе работы рассмотрены основные этапы применения электронно-вычислительной техники в области организацион-
ного управления. Более подробно представлены основные направления развития автоматизированных технологий для поддержки принятия решений на различных уровнях управления организационными процессами, а также в плане развития систем общения. ' К настоящему времени выделяют следующие направления развития автоматизированных технологий в сфере принятия решений:
1) разработка пакетов программ для решения конкретных хорошо структурируемых задач с использованием статистических методов обработки данных (например, разработка автоматизированных систем на основе технологии баз данных);
2) создание баз знаний и экспертных систем (программные. системы оперируют уже не только с "данными", но и с понятиями, выраженными в терминах ЕЯ, а также со знаниями о классах объектов, обозначенными этими терминами, и отношениями между ними);
3) создание систем поддержки решений (подобные системы ориентированы в первую очередь не на автоматизацию функций лица, принимающего решение, а на предоставление ему помощи в поиске оптимального решения, поэтому в подобных системах особое ' внимание уделяется диалогу).
В результате анализа функционирования организационных систем управления, проведенного в первой главе работы, можно выделить следующую особенность, которая оказывает влияние на возможности использования ШТ. Документ в организационных системах играет особую роль - с одной стороны, как средства управления (управляющего сигнала), с другой стороны, как средства отображения состояния объекта управления. Следовательно, значительная доля времени (от 60% до 902), в зависимости от принадлежности сотрудника к той или иной группе работников уч-
ревдения тратится на обработку, учет, анализ, синтез документов. Поэтому вопросу автоматизации работы с деловыми документами уделяется большое внимание. В настоящее время автоматизация ведется в следующих направлениях:
- изготовление и обработка первичных документов, подготовка справочных и отчетных материалов, что выполняется с помощью текстовых редакторов и специализированных ППП;
- учет, регистрация, контроль и хранение входящих и исходящих документов, что осуществляется различными пакетами СУБД, а сами документы в формализованном виде хранятся в БД.
Использование ЕЯ-систем для работы с деловыми документами дает следующие возможности: хранить в БЗ тексты документов; выполнять анализ связного делового текста с точки зрения синтаксиса, семантики и прагматики; возможность автоматизации в формировании управляющих видов документов; проведение анализа текстов документов, которые не поддаются формализации; ведение диалога на ЕЯ.
Безусловно, что естественный язык в полном его объеме недоступен, поэтому используется ЕЯ семантически и прагматически ограниченный его способностью описаиия определенной ПО.
В заключении I главы работы приводится обзор разработанных интеллектуальных человеко-машиных систем, которые применяются для решения ряда задач организационного управления ("IPSE", "Information Lens", "The natural language -data base" и др.).
Вторая глаза посвящена описанию общего метода построения интеллектуальной информационной системы на основе естественноязыковой оболочки "Диес", который включает следующие основные этапы:
1. Определение ПО для построения ЕЯИС.
2. Определение ряда задач, которые могут быть решены с помощью создаваемой системы.
3. Выявление особенностей ЕЯ, используемого в выбранной ПО (описание языка пользователя).
4. Описание основных требовании к создаваемой ЕЯИС.
5. Настройка оболочки ЕЯ-системы под язык пользователя:
5.1. Подготовительный этап настройки системы (создание модели ПО):
а) построение родо-видовых деревьев для ограниченного языка пользователя (описание универсальных семантических классов, подклассов, объектов и связанных с ними фактов);
б) выполнение графической интерпретации родо-видовых деревьев на основе аппарата РСС; ;
в) формирование базового семантико-синтаксического словаря для ввода в БЗ. '
5.2. Наполнение БЗ предметными знаниями (лексикой профессионального диалекта естественного языка):
1
а) ввод элементарных знаний о ПО (описание морфологических характеристик слов);
б) ввод словосочетаний с учетом их семантики и принадлежности к родо-видовым деревьям;
в) ввод законченных выражений, высказываний.
5.3. Тестирование предметных знаний в БЗ:
а) проведение тестовых проверок введенной в БЗ информации в режиме активного диалога по отдельным ветвям родо-видо- р вых деревьев; |
б) корректировка введенных знаний;
в) проверка наличия соответствующей информации в БЗ,
ее полноты, непротиворечивости в режиме активного диалога по всей сети родо-видовых деревьев.
6. Формирование основных режимов работы в ЕВДС для решения указанного ряда задач: режим информационного обслуживания; режим экспертных оценок; режим работы с информацией из баз данных.
7. Разработка выходных форм для каждого режима работы.
Первый и второй этапы выполняются экспертами для выбранной ПО, остальные этапы подробно рассматриваются в работе.
В работе представлены четыре основных уровня структурирования знаний в БЗ:
1. Понятийный уровень. На этом уровне выполняется определение множества основополагающих понятий, необходимых для построения общей модели любой ПО. Это множество делится на непересекающиеся множества, в каждом из которых группируются семантически близкие друг другу понятия - универсальные семантические классы (USC).
<USC>::-<USCl>,<USC2>.....<USCn>.
2. Лингвистический уровень. На этом уровне описываются знания, которые необходимы для реализации семиотического, морфологического, синтаксического анализа вводимых знаний.
3. Концептуальный уровень. Любая ЕЯИС привязывается к конкретной ПО, в которой уже имеется сложившаяся терминология и классификация понятий. На этом уровне выделяются "сущности" ( S ), "объекты" ( 0 ), "атрибуты" ( А ), "отношения" ( R ), которые выражаются на верхнем уровне через USC.
< USC1 >::- < Sil >< S12 >...< S1J >
< Sil >::- <*Oli >< 012 >..!< Olk >
< Oll >::- <"Ali >< A12 >..!< Äln >
< R* >::- < R1 >< R2 >< R3 >...< Ri >
4. Логический уровень. На этом уровне выполняется законченная логическая модель ЕЯИС на основе знаний, представленных на первых трех уровнях. Логическая модель строится для конкретной модели семантической сети. Связи между сущностями, объектами, атрибутами выражаются через соответствующие виды отношений, введенных в систему.
Во второй главе работы выполняется анализ типов запросов •характерных для ЕЯ-системы. Результаты проведенного анализа приводятся в таблице 1.
Специфической особенностью функционирования ЕЯ-системы является семантическая обработка информации. В работе проводится анализ видов семантической информации (Б1) текстовой формы, выраженной деловыми документами. Целесообразно выделять следующие виды семантической информации: исходная (13). целевая (61), вторичная семантическая информация. Семантическая информация может быть представлена в виде кортежа:
- < 1Б, VI, 61, У6 >, где <V1>, <У6> - вторичная исходной и целевой информации соответственно. '
В ЕЯ-системе вся информация, которая поступает в систему хранится в виде семантической сети. Все концепты ПО группируются в семантические классы, которые связаны мелоу собой соответствующими отношениями. Любая вторичная информация есть не что иное, как активизация тех семантических вершин, которые соответствуют цели запроса.
Проведенные исследования показывают, что концепция структурного подхода к анализу естественного языка и структурный подход к представлению знаний в автоматизированных ЕЯ-системах дают возможность семантической обработки вводимых ЕЯ-конструк-
Таблица 1.
Определение множества решений сложных семантических высказываний
Вопрос на ЕЯ Интерпретация вопросительного предложения Множество решений
Запросы к различным аргументным местам в отношениях КТОШ). 01 ( XI. Х2. _,_._) zc<( vxesGi) & oi ( х.хгп, SGI С ( XI, X1: XI',' ... } SG2 с ( хг, хг: хг;' ... >
какими), oí( XI. хг. _._,_) ZC<(VX£SG2) & 01< XI. Х)Ь SG2с( хг, хг; хг," ... \ XI : const
КЕН(ХЗ). 01 ( XI. ХЗ. _. _ > ZC<(VX£SG3) * 01( XI, _, хп. SG3 С ( ХЗ. ХЗ.' ХЗ" ... Ь XI = const
Элементы предложения, связанные конъюнкцией и принадлежащие к одной семант. группе КТО(XI). AND(01 (XI. хг). 0КХ1.ХЗ)/ Yl). AND(01(XI,Х4), Y1/Y2) ZC-l(VXeSGl) & 01(Х, Х2) & 01 ( X. ХЗ) & 01 ( X. Х4) SG1С{ XI. XI; XI, ... к SG2 С •( хг, ХЗ. хч, ... >
Элементы предложения, связанные конъюнкцией и принадлежащие к разным семант. группам КТО (XI). AHD(Oi (XI. Х2). 03 (XI. ХЗ)/ Yl), AHD(03(XI,X4), Y1/Y2) ZC(((VX£SG1) & 01( X, хг ))-Л <(VX£ SG1) & 02 ( X, ХЗ П <(V X £ SG1) & 03( X. Х4 m SGI С1 XI, XI; XI" ... h sg2 с( хг, хг! хг" ... ь SG3 С{ ХЗ, ХЗ', ХЗ." ... SG4 С ( Х4, Х4' Х4." ... У
Члены предложения, связанные дизъюнкцией, принадлежат к одной сенантич. группе KTO(Xl). OR ( 0КХ1.Х2), 0КХ1.ХЗ)/ Yl). 0R( 0НХ1.Х4). Y1/Y2) ZC {{ ( vx £SG1) & 01 ( X, Х2) } U i(VXtSGl) & 01 ( X. ХЗП и i(vxeSGi) & ок х. Х4т ... SG1 С ( XI, XI,' XI? . . . > SG2 С i Х2, ХЗ. Х4. ... Ь
Таблица 1. (продолжение)
Вопрос на ЕЯ Интерпретация вопросительного . Множество решений
предложения
дизъюнктивные элемен- КТО (XI), OR ( ОКХ1.Х2.ХЗ), ZCH(VXeSGl) & 01 (X. Х2, хз ) )■ и
■ ты являются аргумен- 01 (XI, Х2, ХЗ') /Y1) ■ 4(VX£SG1) & 01(Х, Х2. Х3'))-и
тами отношения 0R( 01 (XI, Х2. ХЗ"), Y1/Y2). Ч (VX 6. SG1) &01ÍX, Х2. ХЗ") h U
он( окхьхг'.хз). оихьхг'.хз')/ 4(VX£SG1) & 01 (X, Х2.' ХЗ )У и
Y3)i 0R( 01(XI, Х2'. ХЗ"),Y3/Y4) ■uvxesGi) & oí (х, хг,' хз'и и
ч^хсбсп &01(х, хг.' хз">и-
Члены предложения, КТО(XI). 0R(01 (XI, Х2), Z(HUVX£SG1) & 01 ( X, Х2 ) )- U
связанные дизъюнкцией. 02(XI,ХЗ)/Yl), 0R(03(XI, Х4),Y1/Y2) Ч (УХ £ SG1) & 02 ( X. ХЗ ) )■ U
принадлежат к разным i (VXC.SG1) & 03 ( X, Х4 )
семант. группам SG1 С Ч XI. XI.' XI" ... Ь
SG2 С i Х2, X2Í Х2" ... Ь
SG3 С { ХЗ, хз; ХЗ" ... ь
SG4 С ( Х4, Х4,' Х4," ... К
Отрицание элементов KTOtXi). AND(01(XI,Х2,ХЗ), zctnvxesGi) & oí< х, хг. хзжяг
выражения, связанных 02(Х1,"'Х5)/У1) Ч (V Х£ SG1) & 02 ( X. Х5) } >
конъюнкцией и входя- SG1С С XI, XI/ XI" ... Ь
щих в разные отноше- SG3C4 ХЗ. ХЗ/ ХЗ." ... ь
ния SG5 С ( Х5, X5Í X5Í' ... У
Отрицание относится ктоixi). oí ( XI, хг.^хз, Х4) ZC {( (VX (L SG1) & 01(Х, Х2, _ ,
к одному из несколь- ч (vvx£ sGi) & оих, хг, хз, Х4т
ких аргументных мест SG3 С 1 ХЗ. ХЗ/ ХЗ." ...
в отношении SG4 С { Х4, Х4,' Х4," ... К
4
-и
Таблица 1. (продолжение)
Вопрос на ЕЯ Интерпретация вопросительного предложения Множество решений
Отрицание нескольких членов предложения, входящих в одну семантическую ГРУППУ кто<Х1). агоюп XI, хг.^хз). 01 ( XI. хг.^хз')/ у 1) гсннухезсп & ок х, хг. _ Ч(УХ£БС1) & 01( X, Х2. ХЗ ) »> Г» -С ( (УХ £ БС1) & 01( X. Х2, _ н/г иухеБсп & ок х, хг. хз'ни бсз е * хз. хз." хз." ... у
Используется несколь-отрицаний в различных отношениях кто(Х1>. аго(01 ( XI, хг.-'хз ). ог( XI."Х4 ) / У1) 1 С{Н(УХ€.5С1) & 01 ( X, _ , ХЗ )}/)' <<УХ£8С1> & 01 ( X. хг. ХЗ )}}Й Л (Ухе БС1) & 02( X, Х4) »К
Отрицание нескольких аргументов в одном отношении КТ01Х1), 01 ( Х1.*,Х2,-'ХЗ, Х4, Х5 ) гсн^хеэсп & он х. хч, Х5 пя Ч (V X £ БС1) & 01 ( X. Х2. ХЗ, Х4, Х5 )»> БС4 С 1 Х4, Х4.' Х4," ... Ь БСЭС < Х5. Х5Г Х5." ... Ь
Квантификатор общности к одному из аргументных мест в отношении КАКИЕ(Х1), 02( Х2, XI ), 01( <БСЕ:КАХДЫИ> Х2, ХЗ ) гснухеззп & н(ухге.эсг) & онхг.хзпс -((ухгеБсг) &-кух€.зс1) & ог(Х2, X) }>}> БвЗ с ^ хз. хз.' хз" ... У. эвг с < хг, хг; хг',' ... к
Отношение неравенства связано с заданной константой КТО(XI). 0КХ1.Х2), <■ БОЛЬШЕ. МЕНЬШЕ. ...>, СОНБТ(С1) КТ0(Х1). 01(XI.Х2). УЕЬ(С2.Х2), 1?Е1Л(Сг.С1) гс-с (ухевсп & ок х, хг) & УЕисг.хг) & ИЕЫ (С2.С1) > Бвгс{ хг. хг.' хг^' ... ь с ■( С1, сг. ... }
таблица 1. (окончание)
Вопрос на ЕЯ Интерпретация вопросительного предложения Множество решений
Отношения неравенства выделяет интервал значений с помошью яв но заданных констант КТО(Х1). 01(XI,Х2). <БОЛЬШЕ. ...>. С0НЗТ(С1), <МЕНЬШЕ. . . . >. сонет(сг) КТО(XI). 0КХ1.Х2). УЕЬ(СЗ,Х2), REL.HC3.Cl). 1?ЕЬ2 (СЗ. С2) ' гс-((УХ£8С1) &0Н X. Х2) &УЕ1ЛСЗ.Х2) & RELHC3.Cn & НЕЬ2 (СЗ. С2) >
Отношение неравенства задается неявно КТО(XI). 02 ( XI. Х2), <БОЛЬШЕ. . . . > 02(Х4. Х2') КТО (XI). 02 ( XI.Х2), УЕЬ(С1,Х2), 02(Х4. Х2'). УЕМС2,Хг'). ИЕЫ (С1.С2) 2С{(УХ£БС1) & 02 ( X. Х2) & УЕ1ЛС1,Х2) &02(Х4.Х2') &УЕ1ЛС2.Х2') & ИЕЫ (С 1, С2) У
КТО (XI). 02 (XI. Х2). < БОЛЬШЕ. ... >. 02(_. Х2 ), 01 (_. ХЗ. Х4) КТО(XI). 02 (XI. Х2). <БОЛЬШЕ. . . . >. 02(Х5. Х2), 01 (Х5. ХЗ.Х4) КТ0(Х1). 02(X1.Х2). 02(Х5. Х2 ), 0UX5.X3.X4). УЕЬ (С 1. Х2). УЕысг.хг ). ИБьисьсг) 'гстхеБвп & 02<х.хг> & уем сь хг) & 02 ( Х5.Х2') & ОН Х5, ХЗ. Х4) & УЕЬ(С2. Х2') 4ЕЕЫ(С1.Сг)Ь
ций. Представление знаний на основе аппарата РСС, который лежит в основе оболочки "ДИЕС", позволяет проводить семантический анализ имеющихся в системе знаний.
Следует отметить, что возможности системы по трансляции естественноязыковых конструкций ограничены (есть определенные сложности по обработке деепричастных оборотов, сложноподчиненных предложений, омонимии и др.).
Третья глава диссертационой работы посвящена вопросам, связанным ,.с практической реализацией информационных систем на основе формирования знаний на естественноязыковом уровне.
Для того, чтобы ЕЯ-система могла работать с текстами дело-.вых документов, необходимо выполнить так называемую "настройку" системы на конкретную ПО. Следовательно, если в качестве примера рассматриваются документы, образующиеся в управленческой деятельности, то требуется наполнить систему знаниями об административно-организационной структуре учреждения или предприятия. Т.е. создать концептуальную модель ПО с помощью ограниченного ЕЯ, на основе которой строится информационное обслуживание.
ЕЗ такой системы состоит из трех основных модулей: лингвистических знаний, семантических знаний, знаний для организации инторфойса м';лду пользоьателом и системой (система помощи, поддержка режима активного диалога и др.).
Лингвистические и семантические знания делятся на базовые и непосредственно предметные. На основе базовых знаний выполняется морфологический анализ, синтактико-семантический анализ слов, синтактико-семантический анализ форм. Базовые семантические знания ЦЗС описаны во II главе.. Каждый пользователь может организовывать отдельные файлы, содержащие предметные зна-
- 1У -
ния, как лингвистические, так и предметные. Создание отдельных файлов (разделов) связано с возможностью "подкачки" знаний в (Ш, содержащих информацию определенной тематики.
Административно-организационная система фирмы имеет иерархическую структуру. Следовательно, возникает задача построить модель иерархической структуры на основе аппарата РСС. Такую структуру можно реализовать в виде родо-видового дерева семан- • тических классов. Построение такого родо-видового дерева семантических классов состоит из трех этапов:
1) формирование множества USC;
2) представление каждого USC через множество классов, подклассов и семантических вершин;
3) организация связей между узлами родо-видового дерева.
Моделирование родо-видового дерева семантических классов с
точки зрения возможностей автоматизированной системы по его семантической и прагматической обработке включает следующие этапы:
- определение степени детализации дерева классов;
- формирование дуг-отношений в иерархических структурах; (
- формирование семантических вершин SUB-дерева;
- организация связей между узлами SUB-дереьа.
На первом этапе пользователь определяет с какой степенью детализации ему требуется создавать дерево классов:
1) построение SUB-дерева без промежуточных классов (вершин), т.е. строгое отображение иерархических структур.
2) построение SUB-дерева с созданием обобщающих семантических вершин, что расширяет возможности активного диалога.
При формировании дуг-отношений в иерархических структурах возможны следующие способы:
1) построение строгого иерархического SUB-дерева без использования структурных отношений между одноуровневыми вершинами;
2) использование возможностей семантических сетей отобра- ' жать отношения мевду одноуровневыми семантическими вершинами.
Второй вариант формирования дуг-отношений является наиболее оптимальным с точки зрения отображения ПО в PCO. SUB-дерево строится до той степени детализации, пока сохраняются между узлами дерева родо-видовые отношения.
Механизм построения строгого иерархического SUB-дерева достаточно прост. В этом случае применяется функция копирования семантических вершин в разные семантические классы. Однако, в этом случае1 при рабрте в режиме активного диалога невозможно получить достоверную информацию, соответствующую, отношениям "часть-целое". Поэтому и в данном случае требуется связывать одноуровневые семантические вершины отношениями "часть-целое".
При формирований семантических вершин SUB-дерева следует учитывать ограничения на синтаксическую сочетаемость слов в выражении. На семантическом уровне различают несколько способов интерпретации синтаксической связи:
1) связь по валентности (характеризуется тем, что синтаксически главное слово предъявляет определенные требования к контексту; набор семантических валентностей термина задается при его вводе и хранится в словаре с лингвистическими знаниями);
2) связь по пропущенному отношению (отражение семантики по- . добного словосочетания выражается с помощью содержания отношения йежду соединяемыми терминами, при этом следует учитывать, (. что виды отношений зависят от определенной предметно-термино-
логической области);
3) термовая конъюнкция или определительная конструкция (семантическая вершина (существительное) содержит три или более конъюнктивных члена (определения));
4) связь типа "признак-значение" (возможна двух видов: связь между наименованием признака и нормативно-оценочным термином, указывающим его значение, и связь между наименованием качественного признака и его значением).
5) связь между компонентами устойчивых словосочетаний.
В устойчивых терминологических словосочетаниях соединяемые синтаксической связью слова теряют самостоятельное существование на уровне семантики. В этом случае словосочетание распознается как'единое целое.
Организация связей между узлами ЕШ-дерева может выполняться следующими способами: терминами, выражающими действие, и терминами, выражающими отношение.
В третьей главе работы представлено описание основных режимов функционирования ЕЯ-системы. Обобщенная технологическая схема работы с документами с использованием ЕЯИС включает следующие этапы:
1) ввод и хранение текстов документов в БД;
2) анализ типа документов (линейная запись, трафарет, анкета, таблица);
3) определение цели ввода текста документа в БЗ в виде расширенной семантической сети: информационное обслуживание (с точки зрения семантики документа);
4) формирование режимов ввода документов в БЗ:
- ввод по шаблонам (разработка шаблонов по различным типам документов);
- ввод в режиме активного диалога;
5) построение РСС текста документа в БЗ;
6) ведение активного диалога;
7) выбор формы исходящего документа (обращение к БД, где хранятся унифицированные формы документов);
8) анализ имеющейся в БЗ информации по пунктам документа:
- организация запросов (возможно использование шаблонов);
- режим активного диалога;
9) выбор режима вывода результатов:
- вывод результатов запроса на экран;
- вывод результатов в файл для дальнейшего редактирования (с записью в БД);
10) просмотр и редактирование! сформированного документа в текстовом файле в БД;
11) печать документа.
• В результате анализа функционирования административных подразделений фирмы были сформированы следующие основные режимы работы ЕЯИС:
1. Построение модели предметной области в виде РСС.
2. Формирование ЕЗ,. отражающей тексты документов.
3. Информационное обслуживание.
4. Генерация форм документов.
В работе рассмотрены способы ввода информации из документа в базу знаний системы. Ввод информации из документов может осуществляться различными способами в зависимости от формы документа. Возможны два варианта ввода:
1) ввод по шаблонам из БД;
2)' ввод в режиме активного диалога.
Для того, чтобы выполнять ввод по шаблонам требуется:
- Ü3 -
1) создать макет документа в БД с указанием полей ввода и постоянной информации, каждому полю ввода присвоить номер, а также указать номер макета документа;
2) разработать список шаблонов для описания связей и отношений мевду различными полями макета документа;
3) генерация естественноязыковых выражений по шаблонам из заполненых форм документов;
4) построение РСС в БЗ по сгенерированным выражениям. Первый и второй этапы выполняются пользователем системы, а третий и четвертый реализуются программными средствами.
Примеры формирования шаблонов и макетов документов приводятся в приложении.
Ввод информации с текстов документов может выполняться и в режиме активного диалога. Для организации такого ввода требуется сформировать и ввести список шаблонов ввода, т.е. за каждым документом в родо-видовом дереве семантических классов закрепляется свой список шаблонов. И ввод осуществляется путем выбора шаблона, который связывает семантические вершины через указанные в шаблоне отношения. Аналогичные возможности предусмотрены и для формирования выходных форм документов.
Таким образом, опыт работы в данном направлении показывает, что использование ЕЯИС для работы с деловыми документами есть один из перспективных способов применения НИТ в организационных системах управления.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
В заключении приводятся основные результаты диссертационной работы:
- разработан метод построения ЕЯИС для работы с деловыми документами (создание подобных систем обусловлено:
а) возможностью построения информационной системы без использования языков программирования, т.е. неподготовленным пользователем;
б) хранение информации в виде семантической сети позволяет проводить ассоциативный поиск;
в) возможностью быстрой модификации структуры семантических классов (открытие новых классов (подклассов, вершин), объединение семантических классов, введение множества отношений между классами (вершинами));
г) дальнейшим развитием теоретических разработок в области создания ЕЯ-интерфейсов и др.);
- сформулированы требования, предъявляемые к ЕЯ-системе;
- классификация уровней структурирования знаний в базе знаний ЕЯ-системы;
- выполнен анализ построения моделей предметных областей на основе аппарата РСС;
- предложенная методика создания ЕЯИС по работе с деловыми документами была реализована в виде программной системы с наполнением БЗ семантическими и лингвистическими знаниями для построения концептуально-логической модели ПО;
- разработана обобщенная технологическая схема работы с деловыми документами на основе ЕЯ-системы;
- разработаны алгоритмы обработки сложных семантических высказываний (на основе РСС);
- построена программная система, представляющая пример построения модели организационно-управленческой структуры фирмы на основе РСС, и реализующая методы ввода информации из до-
кументов в ЕЯ-систему;
- база знаний ЕЯ-системы наполнена предметными лингвистическими знаниями (1126 объектов) и предметными семантическим знаниями (282 вершины).
В приложения включены фрагменты словаря с лингвистическими знаниями и словаря с семантическими знаниями, введенными в ЕЯ-систему для построения концептуально-логической модели ПО. В приложении также приводится пример построения шаблонов документов для одного из режимов ввода информации из документов в ЕЯ-систему (формальное описание документа, список шаблонов по полям документа).
Основные полученные результаты опубликованы в следующих работах:
1. Клыков Ю.И., Сысоева Л.А. "Опыт построения интеллектуальных естественноязыковых систем для работы с деловыми документами"// Сб.тез.докл. Научн.техн.конф. 25-27 сент.1991 г. -Владикавказ, 1991. - с.8-11.
г
2. Сысоева Л.А."Обработка сложных семантичесгах высказываний на основе аппарата расширенных семантических сетей"// Сб.тез.докл. Науч.техн.конф. 25-27 сент.1991 г. - Владикавказ, 1991. - с.11-17.
3. Дулькин В.Н., Сысоева Л.А."Практикум по языку логического программирования Турбо Пролог"//Методич. указания к занятиям по курсу "Информационные системы" - Москва, РГГУ, 1992.-C.51.
4. Сысоева Л.А."Возможности использования естественноязыковых систем для обработки текстов'деловых документов"//Пробле-мы проектирования и использования баз знаний: Сб.науч.тр./ АН Украины. Науч.совет АН Украины по пробл."Кибернетика", Киев,1992.-с.12- 17.
-
Похожие работы
- Разработка методов моделирования и компьютерные модели понимания терминов для поддержки принятия решений
- Система формирования концептуального представления предметной области на основе анализа проблемно-ориентированных естественно-языковых текстов
- Теоретическое обоснование и разработка интеллектуальной русскоязычной информационно-поисковой системы
- Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка
- Концептуально-лингвистическое моделирование в интеллектуальных системах на основе расширенных семантических сетей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность