Автоматизированное формирование семантических моделей сложных объектов по текстовым источникам

Кузина, Лариса Николаевна

Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Автоматизированное формирование семантических моделей сложных объектов по текстовым источникам

кандидата физико-математических наук: Кузина, Лариса Николаевна
город: Москва
год: 1995
специальность ВАК РФ: 05.13.11

Автореферат по информатике, вычислительной технике и управлению на тему «Автоматизированное формирование семантических моделей сложных объектов по текстовым источникам»

Автореферат диссертации по теме "Автоматизированное формирование семантических моделей сложных объектов по текстовым источникам"

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени К а ЛОМОНОСОВА

Факультет вычислительной математики и кибернетики

РГБ ОД

На правах рукописи

-2 ОКТ 1035

УДК 519. 68

КУЗИНА Лариса Николаевна

АВТОМАТИЗИРОВАННОЕ ФОРМИРОВАНИЕ СЕМИТИЧЕСКИХ МОДЕЛЕЙ СЛОЕНЫХ ОБЪЕКТОВ ПО ТЕКСТОВЫМ ИСТОЧНИКАМ

Специальность: 05.13.11 - математическое и программное обеспечение вычис/лтельных машин, комплексов, систем и сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

Москва 1995

Работа выполнена на кафедре алгоритмических языков факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова

Научные руководители:

доктор физико-математических наук,

профессор М. Г. МАЛЬКОВСКШ

кандидат физико-математических наук И. А. ВОЛКОВА

Официальные оппоненты:

доктор физико-математических наук,

профессор В. А. СУХОМЛМ

кандидат физико-математических наук Г. В. СЕНИН

Ведущая организация: Институт системного анализа РАН

(г. Москва)

Защита диссертации состоится 199 3 р.

в часов на заседании специализированного Совета

Д. 053. 05. 38 N 4 по математике при МГУ им. М. В. Ломоносова но адресу: 119899, ГСП, Москва В-234, Воробьевы горы, МГУ, факультет вычислительной математики и кибернетики.

/У /'

аудитория .

С диссертацией можно ознакомиться в библиотеке факультета вычислительной математики и кибернетики МГУ.

Автореферат разослан " " _^ 199 г.

Ученый секретарь специализиг ованного Совета профессор

а а Трифонов

- 3 -

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. По мере распространения вычислительной техники и расширения сферы ее применения объем информации, которая подлежит обработке с помощью ЭВМ, постоянно нарастает. Так как эта информация часто представлена текстами ьа естественном языке ( ЕЯ), для- всех основных направлений ее переработки, таких, как сбор, хранение, систематизация, распространение и интерпретация, весьма важно иметь возможность автоматизированной обработки естественноязычных текстов (ЕЯ-текстов). Использование автоматизированных систем обработки текстов (ЕЯ-систем) могло бы значительно облегчить для человека работу с большими массивами организационно-управленческой, плановой, научно-технической, справочной и прочей документации. Актуальность темы исследования определяется важностью задачи автоматизированного анализа текстовых источников, целью которого является извлечение информации на заданную тему и создание целостного представления о некотором фрагменте (.объекте) действительности. Подобная проблема встает в процессе деятельности аналитических служб, функционирующих в самых разных областях: экономике, политике, социологии и т. д. Эта проблема типична такж для инженёрия знаний (необходимость сопоставления протоколов решения экспериментальных задач, полученных от разных экспертов). Поскольку разные тексты, как правило, описывают один и тот же объект с разных точек зрения и с различной подробностью, а также могут содержать противоречивые сведения о данном объекте, необходимо уметь интегрировать информацию из отдельных текстов, выявлять и устранять возникающие противоречия.

Основные цели работы:

- разработка структуры семантических моделей сложных объектов применительно к задаче объединения информации из различных текстовых ИСТОЧНИКОВ;

- разработка алгоритмов формирования семантических моделей;

- разработка способов выявления и устранения противоречий, возникающих в результате интеграции в модели сведений об объекте из нескольких текстов, содержащих информацию различной полноты и достоверности;

- разработка архитектуры системы, предназначенной для автоматизированного построения семантических моделей сложных объектов по нескольким текстовым источникам;

- создание модельной версии системы автоматизированного формирования семантических моделей сложных объектов на основе использования разработанных алгоритмов построения моделей, а также способов представления знаний, с целью проверки адекватности полученных результатов.

Научная новизна. В диссертации предложен новый подход к решению задачи формирования семантических моделей сложных объектов, обеспечивающий возможность объединения информации из нескольких текстов с учетом ее возможной неполноты, противоречивости, а также различной 'степени достоверности.

Практическая значимость. Работа выполнена на кафедре Алгоритмических языков ВМиК МГУ в рамках программы "Информатизация России", тема "Научно-техническое обоснование и программная поддержка создания и сопровождения человеко-машинных систем". Полученные результаты использовались при проведении НИР, выполнявшихся на кафедре алгоритмических языков факультета ВМиК МГУ в 1991-1994Г.г. , в частности НИР "Кильватер".

Предлагаемая система может использоваться в качестве составной части ЕЯ-системы, осуществляющей поддержку работы аналитиков по анализу текстовых источников, а также применяться как часть вопросно-ответной системы.

Достоверность результатов подтверждается построением экспериментальной системы, работающей с текстами из различных предметных областей.

Апробация. Результаты диссертации докладывались на городском семинаре по автоматизации программирования, а также на научных семинарах в МГУ им. М. К Ломоносова и Институте системного анализа РАН.

Публикации. По теме диссертации опубликована одна работа, достаточно полно отражающая основные научные результаты диссертации.

Структура и объем диссертационной работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, включающего 43 названия, и приложений. Основной (без приложений) текст занимает 104 машинописных страницы.

СОДЕРЖАНИЕ РАБОТЫ.

Во введении определены используемые термины: приводятся примеры различных фрагментов действительности (фирма, компьютер, визит), для которых характерно наличие достаточно боль-

того количества составных частей, тем или иным образом связанных и взаимодействующих между собой. Независимо от природы составляющих и связей мевду ними, подобные структуры названы "сложными объектами". Под семантической моделью сложного объекта понимается некоторое формальное представление о сложном объекте, являющееся результатом усвоения информации из некоторого источника (возможно из нескольких различных источников). Семантическая модель сложного объекта должна адекватно отражать его структуру, описывать его составные части, их отношения, а также свойста и поведение этих частей.

Сформулирована постановка задачи формирования семантической модели сложного объекта по нескольким текстовым источникам. показаны новизна и актуальность темы диссертации. Указаны основные требования к автоматизированной системе формирования семантических моделей.

•Рассмотрены основные положения интегральной модели обработки дискурса человеком, предложенной ван Лейком и Кинчем. Рассмотрен также ряд конкретных систем, осуществляющих анализ связного текста и моделирующих различные стратегии анализа дискурса. Эти системы оцениваются с точки зрения применимости методов, используемых в них, для создания модели объекта по нескольким текстам.

Анализ этих систем показывает, что применяемые в них способы представления знаний с определенными модификациями (и до-11 полнениями) могут быть взяты за основу при разработке способа представления знаний для системы, работающей с несколькими текстами. Могут быть использованы также отдельные подходы к формированию семантического представления текста и методы обработки знаний. Однако, они должны быть адаптированы к поставленной задаче и требуют существенного дополнения и развития (особенно это относится к аппарату сопоставления и наложения . структур памяти).

В первой главе описываются структуры семантических моделей сложных объектов и способы представления знаний системы, разработанные применительно к задаче объединения информации из различных текстовых источников.

Автоматизированная система, предназначенная для формирования семантических моделей сложных объектов на основании анализа естественноязыковых текстов, в процессе своего функционирования с необходимостью опирается на использование развитых

методов работы со знаниями: их представления, хранения, преобразования и т.п. База знаний (БЗ) предлагаемой системы, как совокупность формализованных некоторым образом, знаний, необходимых для того, чтобы процесс анализа и интерпретации текстов осуществлялся адекватно, состоит из следующих основных разделов: 1) так называемая концептуальная модель-мира, включаюшая в себя описания объектов, понятий и отношений действительности; 2) знания о соответствии между языковыми единицами (словами, устойчивыми словосочетаниями) и элементами концептуальной модели мира; 3) знания о способах работы с моделью мира (поиск нулевой информации, ее извлечение и т. п.) и о методах формирования семантических моделей конкретных объектов.

В п. 1.1. приведены обшие замечания по' поводу организации концептуальной модели мира в системе. Все знания о мире, имеющиеся у системы, можно представить как совокупность концептуальных моделей отдельных предметных областей (ПО). Возможность работы с текстами из той или иной ГО определяется наличием в БЗ системы соответствующего описания этой предметной области. Набор ПО, с текстами из которых может работать система, не является жестко заданным. Его можно расширять, добавляя в ВЗ описания новых ПО, построенные по некоторым установленным правилам.

В ходе одного сеанса работы системы допускаются переключения с одной Ю на другую. Однако, в каждый текущий момент времени работа ведется в рамках только одной достаточно узкой ПО, что значительно сокращает время обработки текстов и уменьшает количество неоднозначностей, возникающих при их интерпретации. Отмечено следующее положение: принципы организации модели ПО, применяемые в данной системе, не зависят от конкретики данной ПО, одинаковы для различных предметных областей.

В п. 1.2. говорится о том, каким образом в БЗ описываются основные объекты и ситуации предметной области. Выбор метода представления знаний имеет большое значение для обеспечения эффективной работы со знаниями в процессе формирования семантических моделей. В данной системе в качестве способа формального представления реальных ситуаций выбраны сценарии, задаваемые фреймоподобными списковыми структурами.

Структура сценария отражает структуру некоторой возможной в данной ПО ситуации с учетом последовательности происходящих в рамках этой ситуации событий и изменений в состоянии изучав-

- у -

мого объекта, явившихся следствием указанных событий.

Между отдельными сценариями, входящими в описание ПО, устанавливаются иерархические связи. Каждый сценарий может содержать ссыжи на сценарии, которые рассматриваются как фрагменты данного. Задаются и обратные ссылки, указывающие на те сценарии, которые могут содержать данный сценарий в качестве эпизода Среди всех сценариев, хранящихся в БЗ, выделены сценарии, которые могут иметь "подчиненных", но сами не являются частью никаких других сценариев. Эти сценарии названы глобальными. Они представляют собой модели наиболее крупных характерных для данной Ю ситуаций.

В описании сложного объекта, хранящемся в базе знаний, необходимо предусмотреть возмоляоегь построения адекватной модели на основе этого описания для всех реальных объектов данного вида, независимо от количества частей одинаковой структуры в составе конкретного объекта. Для этого сценарий, описывающий соответствующий фрагмент сложного объекта (заметим, что такой сценарий не может быть глобальным) специальным образом помечается как "допускавщй дублирование в процессе построения модели объекта". При этом в БЗ хранится лишь один экземпляр данного сценария и, .соответственно, всех подчиненых ему сценариев.

Сценарии, представляющие собой описания каких-либо отдельных компонентов одного и того же сложного объекта, организованы в единую иерархическую структуру, имеющую вид дерева. Корнем дерева является глобальный сценарий, листья - сценарии, не имеющие "подчиненных" и описывающие "элементарные" ситуации. Глубина дерева (т.е. уровень вложенности сценариев) зависит от того, каким образом структурированы представленные в БЗ знания об исследуемом объекте.

Выбор представления описания сложного объекта (и, соответственно, его семантической модели) в виде дерева определяется тем, что для обработки древесных структур имеются достаточно эффективные алгоритмические методы, чего нельзя сказать о других, более сложных структурах, например, о сетях. Древовидное представление позволяет сводить такие содержательно сложные операции над семантической моделью объекта, как выбор структуры модели, сопоставление нескольких моделей, заполнение сценариев, входящих в модель, данными из текстов, к следующим базовым операциям над деревьями: выборка* дерева, задающего описание сложного объекта из БЗ, выбор заданной вершины дере-

ва, переходы по ветви дерева вверх и вниз от заданной вершины, ' заполнение вершин конкретными данными и сопоставление информации, хранящейся во взаимносоответствующих вершинах различных деревьев одинаковой структуры.

В п. 1.3. подробно рассматриваются составляющие фрейма-сценария. Структура моделируемой ситуации задается последовательностью ссылок на сценарии, описывающие эпизоды текущей ситуации. Для каждого сценария определен набор семантических падежей, выражающх различные ролевые отношения,- такие, как объект действия, субъект действия, инструмент, цель и т. д. Набор семантических падежей, определяющих наиболее ключевые роли и свойства, характеризующие данный сценарий, фиксируется при создании этого сценария.

В общем случае в сценарии, хранящемся в БЗ, значения семантических падежей неопределены, и свободные слоты заполняются конкретными данными в процессе формирования семантической модели сложного объекта. Значения отдельных семантических падежей могут устанавливаться по умолчанию. С каждым семантическим падежом в сценарии могут быть связаны условия, определяющие ограничения на допустимые значения этого падежа. Кроме того, между значениями различных семантических падежей одного сценария могут существовать зависимости.

В БЗ содержится информация о взаимном соответствии семантических падежей, задаваемых в различных сценариях. По сути это сведения о том, в каких ролях должен выступать один и тот же объект действительности в различных эпизодах одной ситуации. Информация о соответствии семантических падежей используется при заполнении сценариев конкретными значениями, извлекаемыми из анализируемых текстов.

В п. 1. 4. предлагается способ описания ПО с точки зрения иерархии определенных в ней понятий. В БЗ эти иерархии понятий представлены древовидными структурами (гипонимкческими деревьями), в которых корень представляет наиболее общее понятие, а вершины соответствуют более частным понятиям (подпонятиям). Способ организации понятий в единой структуре ь основном базируется на принципах таксономии, где существенную роль играет отношение вхождения в класс, определяемое по наиболее обидам и существенным признакам объединяемых понятий. Олнако, главное в предлагаемой структуре - это отображение тех связей между понятиями ПО, которые определяются возможной общностью референ-

та. Информация об отношениях иерархии ■ меаду понятиями ПО используется в основном для распознавания в текстах связей преференции, т.е. связей между словами и выражениями, именующими ■ один и тот же объект, а также, как следствие, для организации контроля за непротиворечивостью текстов.

В п. 1.5. описана еще одна часть БЗ - связи "слово - сценарий". Включение в базу знаний условий, задающих соответствия между элементами концептуальной модели мира и языковыми единицами (словами, словосочетаниями), позволяет строить по тексту семантическую модель сложного объекта, даже если заранее не указано, о каком именно сложном объекте пойдет речь в данном тексте. Эти условия дают возможность определять на основании прочитанного небольшого фрагмента текста (это может быть предложение или часть предложения), какие именно сценарии должны быть выбраны из БЗ для включения в семантическую модель сложного объекта. Определены принципы, которых следует придерживаться при задании этих соответствий.

В п. 1.6. указаны основные группы правил, составляющих процедурные знания системы:

1) правила формирования семантической модели сложного объекта по одноьс текстовому источнику;

2) правила сопоставления и объединения нескольких семантических моделей;

3) правила контроля за непротиворечивостью семантической ^ модели сложного объекта

Правила формирования семантической модели сложного объекта не зависят от вида этого объекта и от ПО, к которой относится объект. Поскольку знания о ПО задаются в основном в декларативном виде, а процедурные знания не зависят от конкретного вида сложных объектов и специфики ПО, возможно использование системы для работы в равных предметных областях, набор которых, вообще говоря, не ограничен.

Во второй главе рассматривается процесс формирования семантических моделей сложных объектов, возникающие при этом проблемы и пути их решения.

В п. 2.1. подробно рассматривается процесс формирования семантической модели сложного объекта по одному тексту.

В п. 2.1.1. обращается внимание на то, что система работает не непосредственно с ЕЯ-текстами, а с их специальным внутренним представлением, которое является результатом предвари-

тельного анализа текста с помощью лингвистического процессора (ЛП). Рассматривается структура внутреннего представления.

Использование ЛП позволяет завершить этапы морфологического, синтаксического анализа, а также семантический анализ на уровне предложений до начала формирования семантической модели объекта. Благодаря достаточно глубокому предварительному анализу текста снимается часть проблем, связанных с интерпретацией отдельных предложений, что в конечном счете положительно влияет на правильность понимания дискурса в целом.

В п. 2.1.2. описан первый этап построения семантической модели - формирование модели-прототипа. Поскольку каждый сценарий, хранящийся в БЗ, является составной частью (вершиной) одного или нескольких деревьев-описаний сложных объектов, можно рассматривать выявление полной модели-прототипа объекта как выборку из БЗ дерева по заданной вершине (не обязательно корневой). Входные предложения просматриваются в поисках слова (словосочетания), для которого в БЗ установлена ассоциация с каким-либо из сценариев. При обнаружении такого слова происходит выборка ассоциированого с ним сценария из БЗ ("активизация" сценария). Выборка дерева происходит таким образом, что активизация какого-либо сценария влечет за собой и активизацию входящих в него эпизодов, а также активизацию сценариев, содержащих текущий сценарий в качестве эпизода.

Вверх от сценария ассоциация должна распространяться до выхода на самый верхний уровень - уровень глобального сценария. Глобальный сценарий, как самое общее описание сложного объекта, является обязательной частью семантической модели этого объекта. Поскольку для решения какой-то конкретной задачи не всегда требуется достижение максимально возможной подробности модели, существует возможность извлекать из БЗ дерево-прототип не целиком, а в усеченном виде, отбрасывая не представляющие интереса при решении данной задачи сценарии нижних уровней.

При построении модели активизация сценария может осуществляться в двух случаях. Во-первых, при появлении в тексте слова (словосочетания), ассоциированного с данным сценарием, и, во-вторых, в процессе "распространения ассоциации", когда сценарий привлекается либо в качестве эпизода такого-то из сценариев более высокого уровня, либо в качестве объемлющего сцена-

рия по отношении к какому-либо сценарию более низкого уровня. Причина активизации сценария специальным образом фиксируется, поскольку она во многом определяет достоверность данного фрагмента модели.

В п. 2.1. 3. описан процесс конкретизации модели-прототипа, т.е. процесс заполнения модели информацией об объекте, полученной непосредственно из текста. При конкретизации модели используется смешанная стратегия анализа текста - сочетание анализа снизу вверх и сверху вниз, что соответствует стратегии понимания текстов человеком. Принцип "снизу вверх" реализуется, когда при чтении очередного предложения слова, важные с точки зрения смысла, вызывают активизацию ассоциированных с ними сценариев. Затем начинается анализ сверху вниз - в предложении отыскиваются значения ролей, задаваемых активизированными сценариями.

В п. 2.1.3.1. приводится алгоритм конкретизации семантической модели.

В п. 2.1.3. 2. приводится алгоритм определения принадлежности некоторого значения семантического падежа, извлеченного из очередного предложения текста, множеству допустимых значений данного семантического падежа.

В п. 2.1.3.3. рассматривается механизм определения корефе-рентности имен. Референциальное отождествление имен упоминаемых в тексте объектов определяется следующими факторами: порядком следования имен в тексте, совместимостью (несовместимостью) имен, наличием индикаторов референции.

В п. 2.2. описывается механизм объединения семантических моделей, полученных в результате анализа отдельных текстов. Указаны возникающие при объединении проблемы.

В п. 2.2.1. описана последовательность объединения моделей. Предлагается объединение моделей, построенных по нескольким разным текстам, производить последовательно, всякий раз работая лишь с двумя моделями, что, не ограничивая общности, несколько упрошдет рассмотрение данного вопроса. Такая последовательность объединения возможна, поскольку модель, полученная в результате объединения двух семантических моделей одного объекта, является моделью того же объекта и, следовательно, сохраняет ту же общую структуру. Над объединенной моделью можно выполнять те же действия, что и над моделями, построенными по одному тексту. В частности, к ней также можно применять операцию объединения с другими моделями. В результате объединения

должна быть получена семантическая модель, содержащая все те сведения об объекте, которые содержались в исходных моделях.

В п. 2. 2.2. приводится алгоритм объединения моделей. В общем виде процедура объединения семантических моделей заключается в следующем: в объединяемых моделях выявляются взаимносо-ответствующие вершины, а затем происходит объединение содержащейся в данных вершинах информации.

В п. 2.2.3. приводится алгоритм определения взаимносоот-ветствующих вершин (сценариев) в объединяемых моделях. Благодаря тому, что модель имеет иерархическую древовидную структуру, алгоритм определения в двух моделях-пар взаимносоответст-вующих (т. е. описывающих один и тот же фрагмент объекта) сценариев достаточно прост.

В п. 2.2.А. описан процесс объединения в одном сценарии сведений о сложном объекте, содержащихся в паре взаимносоот-ветствуюпдах сценариев. 'Такие сценарии имеют в основном одинаковую структуру, однако, конкретные данные, которыми заполнены значения семантических падежей в этих сценариях, как правило, различаются.

Объединение списков значений семантических падежей не есть их механическое слияние. Прежде необходимо убедиться в возможности такого объединения. Здесь снова встает проблема определения референциального тождества имен, - значений одного и того же семантического падежа, но уже не на межфразовом, а на межтекстовом уровне. В случае установления мекгекстовой преференции приходится ограничиваться лишь проверкой на совместимость/несовместимость имен, не принимая во внимание индикаторы референции, так как индикаторы референции действуют только в пределах одного текста.

При автоматизированном объединении двух моделей большое значение имеет информация об их сравнительной достоверности. Знание о том, какой из текстов заслуживает большего доверия, используется для выбора одного из раЕновозможных, но противоречащих друг другу вариантов включения в объединенную модель того или иного значения какого-либо семантического падежа. Достоверность исходных текстов или моделей определяется до начала объединения, и сделать это можно различным образом.

В п. 2. 2.5. делается вывод, что полученная в итоге объединенная модель, как правило, описывает сложный объект с большей подробностью, чем каждая из составляющих ее моделей. В ней со-

держится меньше свободных терминалов, а заполненные терминалы часто содержат большее количество референциально тождественных имен, употреблявшихся в текстах для обозначения одного и того же элемента. Достоверность объединенной модели тоже обычно выше, поскольку.данные, включаемые в эту модель проходят ряд проверок и сопоставлений, целью которых является отбраковка ненадежной или прямо неверной информации.

В п. 2.3. рассказывается о том, каким образом происходит обработка конфликтов, возникающих в процессе построения семантических моделей. Ошибки и противоречия, выявляемые системой, можно разделить на следующие осногные группы:

1) несоответствие информации, содержащейся в тексте, знаниям системы;

2) противоречия внутри одного текста;

3) противоречия между разными текстами.

В п. 2.3.1. расматриваются методы разрешения противоречий, соответствующие двум различным режимам работы системы: автоматическому и автоматизированному. При работе в автоматическом режиме обработка конфликта опирается лишь на содержимое БЗ. Если конфликт невозможно разрешить за счет собственных знаний системы, система рассматривает все возможные варианты интерпретации текста, определяемые данной конфликтной ситуацией. Конечно, необходимость строить все возможные варианты семантической модели, отражающие различные варианты интерпретации текста, значительно снижает эффективйость работы системы по построению модели, т. к. многие из создаваемых моделей оказываются лишними. Оптимальным решением было бы рассмотрение не всех возможных,, а только наиболее правдоподобных вариантов. Так как автоматически оценивать правдоподобность того или иного варианта очень сложно, желательно осуществлять работу в автоматизированном режиме, доверяя принятие решения о необходимости построения нового варианта семантической модели человеку. Поэтому в качестве основного метода разрешения возникающих при формировании семантических моделей конфликтов принят уточняющий диалог системы с пользователем.

В п. 2. 3.2. рассматривается, как разрешаются противоречия между текстом и БЗ, которые могут быть обусловлены либо ошибками в тексте, либо недостатком информации в БЗ. Действия системы зависят от предполагаемой полноты/неполноты базы знаний.

В п. 2.3. 3. рассматриваются способы разрешения конфликтов

типа . "Текст - Модель объекта". Эти конфликты возникают, когда информация, полученная из очередного предложения, противоречит информации, включенной в семантическую модель в процессе анализа предыдущей части текста.

В п. 2.3. 4. рассматривается обработка конфликтов, возникающих при объединении двух семантических моделей. Основной способ разрешения противоречий, возникающих в процессе объединения семантических моделей, - диалог с пользователем.

В третьей главе содержится описание модельной версии системы, предназначенной для автоматизированного формирования семантических моделей сложных объектов. При создании системы ставилась задача продемонстрировать практическую реализуемость предложенных алгоритмов формирования семантических моделей, а также возможность применения соответствующих способов организации информации об исследуемом объекте и о ПО в целом.

Предлагаемая система предназначена для использования в качестве достаточно самостоятельного модуля в составе некоторой объемлющей системы, например, системы прогнозирования или вопросно-ответной системы. Ее роль заключается в формировании семантических моделей для последующей работы с ними.

Эксперименты с системой проводились на работе с текстами из нескольких предметных областей. Например, рассматривались такие ПО, как "Персональные ЭВМ1' (сложный объект - компьютер), "Визиты государственных деятелей" (сложный объект - визит, как развернутое во времени событие), "Покупки" (сложный объект -событие "посещение предприятия торговли"). Выбор таких тематически далеких ПО был обусловлен желанием продемонстрировать возможность применения системы для моделирования достаточно разных сложных объектов, как статических, так и динамических.

Система реализована на языке высокого уровня' ПЛЭЙЕР на персональном компьютере типа 1ВМ РС/'АТ.

В п. 3. 1. обсуждается реализованный в системе интерфейс. В роли пользователя системы может выступать как специалист-аналитик, принимающий решения, так и просто оператор, имеющий навыки работы на компьютере, но слабо ориентирующийся в проблемах, возникающих при формировании семантических моделей. Система обеспечивает возможность работы по созданию модели объекта для любой из этих категорий пользователей. Интерфейс, реализованный в системе, достаточно удобен для пользователя, работа с системой не требует специальных знаний и предваритель-

ного обучения. Основной тип интерфейса, применяемый в системе, - "меню". Общение с пользователем происходит также по принципу "запрос-ответ".

В п. 3. 2. перечисляются ограничения по сравнению с возможной полной версией системы, принятые при реализации модельной версии системы автоматизированного формирования семантических моделей сложных объектов.

В п. 3.3. рассматривается последовательность функционирования системы. Работа системы начинается с настройки ее на предметную область, интересующую пользователя, после чего активизируется соответствующая БЗ.

После настройки на конкретную ПО, все поступающие тексты рассматриваются системой, как тексты, относящиеся к данной предметной области. Переключение с одной ПО на другую возможно лишь по окончании определенного цикла работы системы, непосредственно во время формирования семантической модели этого сделать нельзя.

Предлагаемая система позволяет формировать семантическую модель сложного объекта по одному тексту, объединять готовые модели, а также выполняет ряд дополнительных сервисных функций, таких как уросмотр текстов и моделей, создание печатного документа на основе построенной модели и т. д.

Работа системы делится на две части: работа с текстами и работа с моделями. Основная операция, производимая системой над текстом - построение по этому тексту семантической модели сложного объекта. Формирование модели может происходить в двух режимах: в автономном режиме и в режиме диалога с пользователем. В ответ на запрос системы пользователь должен указать, какой режим он выбирает. По умолчанию устанавливается режим диалога с пользователем.

Работа с моделями подразумевает возможность объединения произвольного количества ранее построенных моделей, а также их просмотр. Объединение моделей происходит в порядке, предлагаемом пользователем. За один раз объединяются две модели. Над моделью, полученной в результате объединения можно выполнять те же действия, что и над моделями, построенными по отдельным текстам.

Существует возможность представления построенной семантической модели для просмотра в более наглядной графической форме. Кроме того, предоставляется возможность воспроизводить по-

- 16 -

лученную семантическую модель в виде печатного документа.

Функции, реализованные в рамках создания системы можнс разделить на несколько основных групп в соответствии с выполняемыми ими действиями:

- функции интерфейса;

- функции, обеспечивающие формирование семантической модели к объединение нескольких моделей;

- вспомогательные функции.

В п. 3. 4. говорится, что проведенные эксперименты по работе с модельной версией системы автоматизированного формирования семантических моделей показали возможность использования предложенных алгоритмов формирования семантических моделей сложных объектов по нескольким текстовым источникам. В работе с конкретными предметными областями и конкретными сложными объектами были выявлены допустимость применения предложенных способов представления знаний о произвольной предметной области, а также адекватность и достаточная эффективность предложенного способа организации семантической модели сложного объекта.

В заключении сформулированы основные результаты работы:

1) Разработан способ представления семантических моделе объектов, ориентированный на решение задачи интеграции инфор№ ции из нескольких текстовых источников.

2) Разработаны алгоритмы формирования семантических моделе объектов и контроля за непротиворечивостью модели.

3) Разработана архитектура и схема функционирования автома тизированн~й системы формирования семантических моделей сложны объектов по нескольким текстам и реализован макет системы.

Основные результаты диссертации опубликованы в работе: 1. Кузннь Л Е Формирование семантических моделей сложных объектов. //Вестн. Моск. ун-та. Сер. 15, Вычислительная математика и кибернетика, 1994. N 2, С. 49-55.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00