автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и программные средства для анализа документов на основе модели предметной области

кандидата физико-математических наук
Сидорова, Елена Анатольевна
город
Новосибирск
год
2006
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и программные средства для анализа документов на основе модели предметной области»

Автореферат диссертации по теме "Методы и программные средства для анализа документов на основе модели предметной области"

На правах рукописи

УДК 519.767.6; 8Г322.2

СИДОРОВА Елена Анатольевна

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ АНАЛИЗА ДОКУМЕНТОВ НА ОСНОВЕ МОДЕЛИ ПРЕДМЕТНОЙ ОБЛАСТИ

05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискании ученой степени кандидата физико-математических наук

Новосибирск 2006

Работа выполнена в Институте систем информатики имени А.П. Ершова СО РАН

Научный руководитель: Загорулько Юрий Алексеевич,

кандидат технических наук

Официальные оппоненты: Загоруйко Николай Григорьевич,

доктор технических наук, профессор

Лукашевич Наталья Валентиновна, кандидат физико-математических наук

Ведущая организация: Томский политехнический университет

Защита состоится /¿Г декабря 2006 г. в 17 ч. 00 мин. на заседании диссертационного совета К.003.032.01 в Институте систем информатики имени А.П. Ершова Сибирского отделения РАН по адресу: 630090, г. Новосибирск, пр. ак. Лаврентьева, 6.

С диссертацией можно ознакомиться в читальном зале ИСИ СО РАН (г. Новосибирск, пр. ак. Лаврентьева, 6).

Автореферат разослан /О ноября 2006 г.

Ученый секретарь Диссертационного совета,

к.ф.-м.н. 1» 9 Мурзин Ф.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы

Большой объем накопленной информации и высокая скорость поступления новой предъявляют все более жесткие требования к современным информационным, системам (ИнС). Поскольку большинство источников являются текстовыми документами, то*для их хранения организуются электронные библиотеки, в которых возможен поиск по ключевым понятиям, и в некоторых случаях проводится тематическая рубрикация документов. Но, так или иначе, в процессе работы человек имеет доступ к тексту документов, а не к основным смысловым фрагментам, содержащимся в них. Этого оказывается недостаточно: во-первых, в постоянно разрастающемся архиве становится трудно (практически невозможно) найти нужную информацию; во-вторых, данные часто дублируются и противоречат друг другу. Проблема усугубляется еще и тем, что пользователи используют для общения с поисковыми системами, как свои специальные термины, так и термины, широко используемые другими сообществами в ином контексте. А так как современные системы применяют в основном механизмы поиска по ключевым словам, не учитывающие ни семантику слов, входящих в запрос, ни его контекст, результатом их работы являются данные, подавляющее большинство из которых не относятся к существу запроса.

Для решения этих проблем требуется переход на новый качественный уровень обработки информации - необходимо вести обработку на семантическом уровне, т.е. учитывать смысл или содержание документов. За последние несколько лет это направление в информационных технологиях получило широкое развитие. Созданные на основе семантических технологий ИнС отличаются от традиционных тем, что используют явно выраженные (в виде онтологии) знания о предметной области. Часто онтология является не только основой для представления информации пользователям, ее хранения и поиска, но и для автоматической обработки поступающей текстовой информации.

До сих пор задача анализа текста на естественном языке рассматривалась многими исследователями независимо от той обстановки, где ее результаты планировалось использовать. Применяемые подходы либо никак не учитывают способ и форму хранения полученных результатов анализа в ИнС (например, исследования в рамках подхода «Смысл-Текст», разработанного И.А. Мельчуком), либо наоборот, строго привязаны к узким целям поставленной задачи и форме результата (например, при извлечении информации о персонах и организациях, что часто встречается в задачах компьютерной разведки). Классические подходы к семантическому анализу текста используют формальную модель языка и с "большой неохотой" переходят к модели предметной области, что не позволяет им естественным образом внедряться в ИнС с заданной предметной областью и удовлетворять поставленным перед такими системами требованиям. В отличие от работ? связанных с задачей полного извлечения смысла или извлечения всей информации из текстов документа, для большинства ИнС нет необходимости делать полный семантический анализ всего связанного текста. ИнС, построенные на основе онтологий, естественным образом задают как формат содержания того, что требуется извлечь из текста документа (или любого текстового ресурса), так и формат хранения результата в базе данных системы в виде семантической сети объектов, являющихся экземплярами понятий и отношений, заданных моделью предметной области.

Применение онтологий является одним из наиболее перспективных направлений исследований, поскольку позволяет формализовать и унифицировать операции обработки информации для повышения качества различных информационных услуг и сервисов. В работе проводится исследование одной из наиболее востребованных услуг — информационного наполнения системы.

В связи с этим особую актуальность приобретает разработка технологии анализа текста в контексте ее применения в различных информационных системах (в частности, для корпоративных систем документооборота или специализированных порталов знаний).

Ориентация технологии на деловую и научную лексику является вполне обоснованным решением, позволяющим эффективно применить семантически-ориентированные методы к решению задачи анализа текста на естественном языке.

Создание инструментальных средств - средств настройки онтологии, тезауруса и схем фактов, описывающих способы естественно-языкового выражения понятий и отношений в тексте, - дает возможность обеспечивать содержательную обработку текста документов без специальных навыков программирования непосредственным носителям знаний - экспертам и лингвистам.

Цель работы

Целью диссертационной работы является разработка способов описания лингвистических знаний и представления содержания документов в информационных системах, а также методов и инструментальных средств содержательного анализа текста на естественном языке.

Работа выполняется в рамках проекта по созданию технологии конструирования ИнС и направлена на автоматизацию наполнения различных ИнС данными, полученными в результате анализа содержания документов, поступающими в систему, либо в виде коллекции архивных документов, либо при регулярном оперативном поиске в сети Интернет. Технология должна включать средства описания предметной области и настройки лингвистической базы знаний.

Для достижения поставленной цели в диссертации последовательно решены следующие задачи исследования.

1. Определены требования, предъявляемые к технологиям автоматической обработки текста на естественном языке в современных информационных системах.

2. Создана лингвистическая модель описания фактов как способа естественноязыкового выражения понятий и отношений в тексте и как средства представления контента документа в информационной системе.

3. Разработана технология конструирования лингвистической базы знаний, реализующая предложенную модель.

4. Разработаны методы содержательного анализа документов, использующие предложенную модель.

5. Реализованы инструментальные средства, предназначенные для автоматического извлечения фактов из текста й формирования контента документа в информационной системе.

6. Апробированы компоненты предложенной технологии в реально функционирующих информационных системах.

Методы исследования

В диссертационном исследовании были использованы модели и методы искусственного интеллекта, компьютерной лингвистики, теории множеств, онтологический анализ, метод экспертных оценок, методы объектно-ориентированного проектирования и программирования. Научная новизна

Проведенные исследования позволили разработать новый подход к содержательному анализу документов, позволяющий настраивать систему анализа на определенную предметную область.

В работе предложена комплексная модель представления знаний, включающая предметный словарь, модель предметной области и модель описания фактов.

Разработаны методы, которые по предложенной модели реализуют поэтапный анализ текста деловых документов ограниченной тематики: извлечение словарных объектов, поиск фактов и формирование контента документа в виде семантической сети объектов, являющихся экземплярами понятий и отношений, заданных моделью предметной области.

Реализованы проблемно-ориентированная оболочка, предназначенная для конструирования лингвистической базы знаний, и инструментальные средства, использующие построенную базу знаний для анализа текста.

Практическая ценность

Разработанная технология может быть применена как при создании новых информационных систем, так и при модернизации уже существующих.

Реализованы основные компоненты системы анализа текста документов, которые были апробированы при разработке ряда информационных систем.

Так при создании системы документооборота ГпОос автором были разработаны и реализованы базовый алгоритм сборки фактов, использующий сегментацию, и алгоритм идентификации объектов, использующий глобальный контекст и позволяющий формировать контент анализируемого документа. Система 1гШос прошла опытную эксплуатацию и была внедрена в производство.

При создании информационного портала по археологии и этнографии использовался словарный компонент в том виде, в котором он присутствует в технологии. Модуль индексирования археологических ресурсов использует при своей работе онтологию и создает контент ресурсов по тому же принципу, что и в предложенной технологии, однако, только для фиксированного набора схем фактов. Портал находится на стадии опытной эксплуатации.

Апробация работы

Основные выводы и научные результаты диссертационной работы докладывались на международных конференциях по компьютерной лингвистике и интеллектуальным технологиям «Диалог» в 2002, 2003, 2005 и 2006 гг., на международной конференции "Проблемы управления и моделирования в сложных системах" (г.Самара) в 2003г., на национальных конференциях по искусственному интеллекту КИИ в 2002 и 2004 гг., на международных конференциях по искусственному интеллекту ИАИ (г.Киев) в 2005 и 2006 гг.; печатались в журналах и сборниках: «Искусственный интеллект», №4, Киев, 2004; «Информационные технологии» № И, 2004; «Молодая информатика: Сборник научных трудов аспирантов и молодых ученых» в 2005г., «Информационные технологии в гуманитарных исследованиях» в 2005.

По теме диссертации автором опубликовано 24 работы.

Структура и объем

Диссертационная работа состоит из 4 глав, введения, заключения, списка литературы содержащего 100 наименований. Общий объем работы 125 страниц, включая 2 приложения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы исследования и формулируется задача диссертационной работы.

В первой главе рассмотрены типы информационных сервисов и их состояние на сегодняшний день. Выделяется объект исследования - деловая проза и описываются его свойства, формулируются требования к информационным системам, автоматизирующим работу с документами. Приводится классификация задач автоматической обработки текста, удовлетворяющих большей части потребностей ИнС. Дан обзор современных подходов и систем содержательного анализа текста на естественном языке.

В процессе развития системы информационных коммуникаций сформировались три вида информационного обслуживания - документальное, фактографическое и концептографическое.

Сущность документального обслуживания заключается в том, что информационные потребности удовлетворяются путем предоставления первичных документов, необходимые сведения из которых пользователи извлекают самостоятельно. В отличие от

документального обслуживания фактографическое предполагает удовлетворение информационных потребностей непосредственно, т. е. путем представления пользователям самих сведений (отдельных данных, фактов, концепций). Эти сведения предварительно извлекаются из первичных документов и после определенной их обработки предоставляются пользователям. При концептографическом обслуживании документы и полученные сведения подвергаются интерпретации, оценке, обобщению.

Возможности современных ИнС сводятся к фактографическому обслуживанию.

Рассматривая проблему извлечения сведений из документов, прежде всего, необходимо выделить основные свойства объекта анализа (текста первичного документа) и указать цели анализа - ограничить класс задач, что позволило бы формализовать данный процесс.

А.П. Ершов выделил деловую прозу как объект, с одной стороны, поддающийся автоматизации, с другой - остающийся естественным средством выражения мыслей для человека.

Для деловой прозы характерны следующие особенности.

1. Наличие строгой модельной ситуации, определяемой характером автоматизации или назначением создаваемой ИнС, для которой заданы правила распознавания и реакции на ее возникновение, хотя последовательность возникновения ситуаций может оставаться неопределенной. Это свойство приводит к тому, что деловая проза всегда внутренне формализована.

2. Ограниченность предметной области. Модель действительности определяется самой областью деловых отношений.

3. Ограничение естественного языка (т.е. используется концепция подъязыка как проекция общеупотребительного русского литературного языка на определенную предметную область и класс ситуаций общения). Потребность быстрого и точного взаимопонимания сделала язык деловой прозы четким, экономичным и жестким, а внешнее оформление текста документа - структурированным. Поэтому мы можем вводить в систему соответствующие ограничения и делать упор в большей степени на семантику текста, нежели на его синтаксическое представление.

4. Четкость функций каждого сообщения. Наличие цели, определяемой по заранее известным правилам, позволяет сконцентрировать анализ вокруг наиболее значимых понятий предметной области, к таким понятиям относятся, например, научный результат в научной статье или сообщение о какой-либо деятельности в деловом письме. Это свойство разительно отличает деловую прозу от других форм общения, например, стихов или пространного и эмоционального повествования.

Отмеченные выше свойства деловой прозы позволяют заменить расплывчатые категории смысла и понимания прагматическими концепциями адекватного восприятия языкового сообщения, взятом в четком контексте данной области деловых отношений.

К наиболее востребованным на сегодняшний день классам ИнС относятся различные информационные Интернет-ресурсы (например, специализированные порталы) и интеллектуальные системы документооборота, разрабатываемые для компаний и предприятий. Основным требованием к технологии автоматической обработки текста, удовлетворяющим большую часть потребностей таких ИнС, является поддержка содержательного анализа и поиска.

Во второй главе предложены основные формализмы знаний, используемые в разработанном подходе.

Совокупность всех знаний, хранимых системой и используемых для решения задач, преследуемых в данной работе, образуют базу знаний технологии, которая включает: знания, содержащиеся в самой информационной системе:

• модель предметной области, средством описания которой выбрана онтология;

• конкретные знания о предметной области, хранимые в базе данных системы;

- специализированные знания, используемые для решения задачи анализа текста на

естественном языке; эти знания образуют лингвистическую базу знаний:

• модель документов, которая описывает формальную структуру текста в зависимости от жанра документов;

• словарь, который содержит ключевую лексику, используемую носителями языка и экспертами в данной предметной области для описания понятий и отношений, заданных в онтологии;

• схемы фактов, описывающие языковые выражения, с помощью которых в тексте могут представляться понятия и отношения онтологии.

Онтология содержит понятия и отношения предметной области. Различные свойства понятий описываются с помощью атрибутов и ограничений, наложенных на области значений атрибутов. Структура понятия может варьироваться, но всегда имеет следующие характеристики:

• конечный набор атрибутов;

• наличие названий у атрибутов;

• закрепленный смысл каждого атрибута (трактовка значения атрибута); наличие типа у атрибутов;

• возможность присвоить одному атрибуту несколько значений; . возможность указать атрибуту обязательность его заполнения;

• наличие набора ключевых атрибутов.

Структура понятия, обладающая данными характеристиками, достаточна для описания свойств объекта, существенных с точки зрения решаемой задачи.

Отношения в онтологии являются бинарными (имеют два аргумента) и могут иметь собственные атрибуты.

Определение. Онтология - это знаковая система О - (С, R, D, D V, TD, А, Р, RAP, RDy ), в которой С = {с,,...,с,,} - конечное множество понятий,

R - {г,,...,г1п},ЛсСхС,Л = ЛсиЛг Ui,, - конечное множество бинарных отношений г, (c„ ,су) между понятиями,

• Rc s С х С, Rc с R - антисимметричное, транзитивное, нерефлексивное бинарное отношение наследования, являющееся отношением частичного порядка на множестве понятий С,

. RT с {гг , (с, ,сх)} с С х С, RT с R - бинарное отношение «часть-целое»,

• Ra c:CxC,Ra ей - конечное множество ассоциативных отношений, D = ,...,dq } - конечное множество доменов,

DV — {dvl,...,dvu} - конечное множество конкретных значений стандартного типа string, включенных в некоторый домен,

TD = Dkj [string,boolean, integer} - множество типов данных, включающее три стандартных типа string, boolean, integer и множество доменов,

, . ICxTD, — конечное множество атрибутов, т.е. бинарных отношений - №,...,awS х Т£) ^(c„,td,) или а,(гл,tdy ),

Р = {py,...,pt) - конечное множество конкретных свойств атрибута, включающее свойства {multiplicity, key, mandatory},

РАР с А*Р — бинарное отношение инцидентности между множествами атрибутов А и свойств атрибутов АР,

PDV ciDxDV - бинарное отношение инцидентности между множествами доменов D и доменных значений DV.

Онтология может использоваться в качестве схемы хранилища данных -информационного пространства системы. В этом случае наполнение БД системы образуют информационные объекты, являющиеся экземплярами понятий и отношений, заданных онтологией, и только эти объекты необходимо извлекать из текстов документов.

Информационный объект может быть рассмотрен в трех разных аспектах - структура, контекст и контент. Для ИнС значительный интерес представляет описание семантики объектов с точки зрения содержания или контента. Контент описывается в терминах онтологии, это означает, что любой информационный объект, которому соответствует некоторый документ (а в общем случае, это может быть носитель любого типа, например, звук, видео, рисунок и т.п.), связывается с набором других информационных объектов, присутствующих в БД системы и являющихся экземплярами понятий и отношений онтологии. Данный набор объектов отражает информационное содержание документа.

Определение. Информационное пространство системы, для которого задана онтология О, - это знаковая система:

О, - (/,К, ,У,А,,ГХ,СГ,Р/с,Рт,Р,л,Рп)> в которой / = {/, ,...,/„ } — конечное множество экземпляров понятий онтологии, К/ ~ {г'| »•••>"*} ~ конечное множество конкретизированных отношений (экземпляров отношений), т.е. бинарных отношений П;0,,1у) между экземплярами понятий, V ~ ) - конечное множество конкретных значений стандартного типа,

А, = {а/, — конечное множество конкретизированных атрибутов, т.е. бинарных

отношений ш'( , V,) или ш1(п1,уу) между экземпляром понятия или отношения и конкретными значениями,

ТХ = {¿г, ,...,£*,} - конечное множество носителей (текстов),

Ст - {с<,,...,сгА} - конечное множество контентных связей, т.е. бинарных отношений с/,(//д,шг) между текстом и конкретными атрибутивными отношениями, найденными в тексте в результате его анализа и составляющими контент документа,

Р1С с / х С — бинарное отношение инцидентности между множествами I и С, Р1Я с Я, х Я - бинарное отношение инцидентности между множествами Г^ и Л, Ри £ А, х А — бинарное отношение инцидентности между множествами А1 и А, Рп с / х ТХ — бинарное отношение инцидентности между множествами I и ТХ.

В предлагаемом подходе документы являются информационными объектами и описываются в онтологии некоторым понятием(-ями). Текст, представляющий содержание таких объектов, анализируется с целью извлечения значимой информации и формирования контента. При анализе документа используется формальное представление структуры его текста, которая зависит от типа или жанра документа.

Текст в электронной форме имеет, по крайней мере, три уровня формальной структуры — физический, логический и жанровый. Первый представляет презентацию текста на странице, например, с помощью тегов или таблицы стилей. Ко второму уровню относятся такие элементы как абзац, строка, предложение и т.п. Третий уровень представлен разбиением текста на жанровые части, например, текст делового письма имеет следующие жанровые разделы: заголовок (отправитель, адресат, резюме и обращение), основной раздел (текст письма, примечания и приложения) и подпись.

Любую формальную структуру текста будем называть сегментом, а процесс извлечения сегментов из текста — сегментацией.

Жанровые разделы документа:

• характеризуются определенной лексикой, задаваемой в словаре,

. имеют определенную структурную организацию (состав и позиция относительно

других жанровых разделов), « реализуются в рамках определенных формальных сегментов.

Словарь включает термины следующего вида.

1. Лексема - слово во всей совокупности его форм и значений. В одну лексему объединяются разные парадигматические формы одного слова и разные смысловые варианты слова, зависящие от контекста, в котором оно употребляется.

2. Словокомплекс — это устойчивое терминологическое сочетание, характерное для выбранной предметной области.

3. Лексическая конструкция - несловарная единица, имеющая регулярную структуру, например, номер телефона, дата, инициалы и т.п. Для создания словаря лексических конструкций используется технология Alex, совмещающая в себе функции хранилища шаблонов, с помощью которых задаются лексические конструкции, и специализированного лингвистического процессора.

Любой термин описывается словарной статьей, которая включает наборы терминообразующих, статистических и семантических признаков. Термины словаря могут быть сгруппированы пользователем в синонимичные группы с выделенным главным термином, название которого автоматически становится названием всей группы.

Иерархии классов понятий и заданные на них семантические отношения позволяют представить структуру высказывания из предметной области в виде факта. Множество таких фактов составляет пропозициональное содержание документа.

Факт есть высказывание или языковое выражение, фиксирующее эмпирическое знание. Формализовав понятие факта, можно не только представить структуру высказывания, но и связать его с понятием или отношением, заданным в онтологии.

Для того чтобы извлечь факт из текста, его элементы должны удовлетворять определенным условиям или ограничениям. Выделяются семантические и структурные ограничения.

Семантические ограничения накладывают условия на семантические характеристики элементов факта. В предложенном подходе такие ограничения задаются таблично.

Таблица 1. Общая схема таблицы семантических ограничений для бинарных фактов.

Характеристики сочетания Дополнительные характеристики

1-ый аргумент 2-ой аргумент 1 -ый аргумент 2-ой аргумент Результат

s, | ... | 1 ... 1 Sk sv, 1 ... 1 1 - 1 1 ... 1 S'n

Характеристики сочетания содержат условия, которым должны удовлетворять параметры элементов (аргументов) факта. Дополнительные характеристики содержат значения, позволяющие либо уточнить объекты (аргументы), образующие факт, либо сформировать объект, соответствующий найденному факту (установить значения атрибутов данного объекта), либо уточнить значения атрибутов объекта документа (в тексте которого обнаружен факт).

Таблица семантических ограничений SemF задает n-арное отношение на к множествах семантических характеристик Si, S2,..., SjtH (n-k) множествах дополнительных характеристик S'k+i, S'k+2, —, S'„. Для каждого столбца i | l<i<k (характеристик сочетания) задается операция сравнения ©,: SjxSi—»{true, false}, позволяющая определить, соответствует ли значение характеристики, указанное в таблице, значению соответствующей характеристики аргумента факта. Эта информация, в частности, позволяет использовать иерархические отношения при сравнении таких характеристик как семантические классы.

Помимо семантических ограничений, необходимо учитывать ограничения других языковых уровней, которые в дальнейшем будут называться структурными. Структурные

ограничения накладывают условия на взаиморасположение элементов факта в тексте и их характер.

В предложенном подходе структурные ограничения St задаются списком значений фиксированных атрибутов. Все атрибуты St разделены на четыре практически независимые группы атрибутов:

• St-seg - условие на сегмент, т.е. в рамках сегмента какого типа должны располагаться аргументы;

« St-pos - взаиморасположение аргументов в тексте (контактность, пре- и постпозиция, приоритетность позиции при многовариантности выбора);

• St-syn — наличие синтаксических условий (валентности терминов, предложно-падежные сочетания и т.п.);

St-rul — правила образования сочетаний (однородность, количество возможных связей, проективность, максимальная связность). Таким образом, St = {St-seg, St-pos, St-syn, St-rul} определяется конечным множеством значений атрибутов a,(St, Vi), где значение v;edj, т.е. домену атрибута аь Количество атрибутов зависит только от количества элементов факта.

Для того чтобы находить факты, значимые для заданной предметной области, необходимо иметь механизм описания таких фактов. Декларативное описание структуры факта, условий его выявления и результат будем называть схемой факта. Определение. Схема факта Sf- это тройка вида < А, Cs, Res >, где А = {ai,...,a„} - конечное множество аргументов факта, где aj задает класс объекта, Cs = < Sem, St > — семантические и структурные ограничения, Res — < t, op(t), Р > — результат применения схемы факта, где t - задает класс результирующего объекта, op(t) — тип операции: создание или редактирование объекта,

Р = {pi,...,pm} - конечное множество правил для формирования значений атрибутов результирующего объекта. Каждое правило ставит в соответствие атрибуту результирующего объекта один из следующих элементов: значение атрибута одного из аргументов, экспертное значение, заданное в таблице семантических сочетаний или значение по умолчанию.

Sf задает простую схему извлечения фактов из текста: если найдены аргументы из А, удовлетворяющие условиям Cs, то выполнить действия, задаваемые результатом Res. Заданная таким образом схема фактов обладает двумя свойствами:

• моделируя промежуточные объекты (факты) можно обойтись только унарными и бинарными схемами фактов (т.е. схемами с одним и двумя аргументами), поскольку входными данными для схем являются термины Тезауруса, то возможно естественным образом упорядочить применение схем фактов к данным.

Рассмотрим упрощенный пример схем фактов для отношения Работает-в (Человек, Организация). Оно может быть выражено в тексте двояко:

1. Явным образом: «Иванов работает в Организации N».

2. Неявным образом, через должность <<Директор Организации N Иванов получил письмо».

В первом случае схему факта можно выразить через промежуточный факт — предикат_место(Действие, Организация).

Работаетта_1 {■ ■-■■■-•... ? : .■■■ 'А : (Argl: Человек;\Arg2: предикат_место];

St : [ St-seg: Предложение; ■ ... ■': ; .'.•■■

v.'4.• St-pos: препозиция ArgX; ■ . .

. : . St-syri: синтаксическая согласованность;

St-rul: однородность ];

Res: [t: Работает-в; ot: создать]

Во втором случае можно использовать промежуточный факт должность_организация(Должность, Организация).

Работает-в_2 [ ■ ■. ■ ,...■.,.■ ,

А : 1Агд1: Человек;-Агд2! лолжность^организация);

St : { ЗЪ-эед: Предложение; -. •. . • " ■ ••

21:-роз: контактность ] ; ; ■■■■■■ - •

Кез: Работает-в; оЬ: создать; Рг ^.должность =• Агд2 .Агд1] ■■■■

] ■

Предложенная модель знаний позволила разработать технологию настройки информационной системы на содержательный анализ текстов в ограниченной предметной области.

В третьей главе описана технология семантического анализа текста. Приведена архитектура системы, описаны методы и инструментальные средства, осуществляющие автоматическое извлечение фактов из текста и формирующие контент документа в ИнС.

Архитектура системы (Рис.1) включает четыре основных компонента: ядро, словарную подсистему, редакторы онтологии, схем фактов и формальных структур текста, подсистему взаимодействия с БД.

Ядро системы обеспечивает сборку фактов по описаниям, созданным с помощью редактора схем фактов. Словарная подсистема обеспечивает создание словаря и предварительный этап обработки текста (сегментацию, лексический и морфологический анализ). В качестве редактора онтологии и модуля взаимодействия с БД используется компонент, реализованный в рамках проекта по созданию порталов знаний.

Предложенный подход к анализу текста документов включает следующие основные этапы: первичная сегментация, словарный поиск (обработка), жанровая сегментация, сборка фактов, формирование и добавление контента документа в информационное пространство системы.

Существуют два вида сегментации текста - первичная и жанровая. В процессе первичной сегментации осуществляется разбиение линейного представления текста на строковые объекты, оформленные как сегменты и упорядоченные в соответствии с порядком

их встречаемости в тексте. Жанровая сегментация осуществляется после лексического анализа на основе лексических объектов, маркирующих тот или иной жанровый сегмент. Механизм сегментации реализуется с помощью системы Алекс, входящей в качестве подсистемы в словарный компонент предлагаемой технологии.

Разбиение на сегменты используется в дальнейшем при сборке фактов, где, при наличии соответствующего структурного ограничения, на вход алгоритму подается не весь текст целиком, а только фрагмент текста. В этом случае алгоритм сборки фактов запускается столько раз, сколько найдено требуемых сегментов.

Лексический анализ осуществляется словарным компонентом системы. Процесс создания словаря обычно очень трудоемкий процесс, требующий специалистов высокого уровня. Поэтому мы постарались разработать подходы и создать программные средства, облегчающие этот процесс, используя широко известные механизмы статистического сбора информации.

При разработке были выдвинуты следующие требования к словарному компоненту.

1. Наличие рабочего места лингвиста для конструирования словаря, поддерживающего классические функции редактирования, сортировки, фильтрации и просмотра конкорданса.

2. Поддержка автоматической наполняемости словарей на базе корпусов текстов.

3. Ориентированность на определенную предметную область, возможность настраивать и приписывать предметные характеристики элементам словаря.

4. Выполнение лексического анализа текста - извлечение из текста заданных в словаре терминов и их свойств.

5. Возможность накопления данных о статистико-комбинаторных свойствах лингвистических явлений.

К подключаемым и разработанным модулям автоматизированной настройки словаря и поддержки анализа относятся следующие модули.

Модуль морфологического анализа, разработанный компанией Диалинг, подключаемый внешним образом.

Подключаемый модуль сборки словокомплеков WordFinder. Этот модуль собирает именные и адъективные группы, некоторые типы групп наречия и групп глагола, учитывая наличие предлогов и союзов.

Подключаемый модуль настраиваемой сборки сложных структур — лексических конструкций, на основе системы правил-шаблонов Alex.

Модуль просмотра конкорданса, который позволяет в выбранном корпусе текстов просматривать встречаемость термина словаря.

Модуль тематизации, обеспечивающий анализ текста в различных режимах: наполнение словаря, ведение статистики встречаемости терминов, классификация текста на основе статистики. Последовательный анализ текста в разных режимах позволяет поддерживать механизм расширения иерархии классов и «дообучения» словаря.

Модуль выявления стоп-терминов, позволяющий отделить шумовую или общеупотребительную лексику от предметно-зависимой.

В ходе лексического анализа осуществляется извлечение словарных объектов из набора упорядоченных строковых объектов, полученного после первичной сегментации текста. В задачи данного этапа входит:

применение лексических шаблонов и извлечение лексических конструкций; осуществление морфологического анализа и сборки словокомплексов; выделение жанровых сегментов.

Результатом лексического анализа является упорядоченный список объектов со следующим набором параметров: название (нормальная форма слова, словокомплекса или

имя шаблона - главная в списке альтернатив), позиция в тексте, значение (извлеченное числовое значение, подстрока и т.п.), грамматический класс и набор значений словоизменительных морфологических признаков для слов, набор семантических классов, статистические характеристики.

Механизм сборки фактов включает два этапа: планирование и исполнение. Причем если этап исполнения повторяется для каждого документа, то планирование осуществляется предварительно на основании заданных экспертом схем фактов.

После того, как эксперт описал весь набор схем фактов, необходимых для анализа документов, система проверяет корректность и сходимость набора схем и осуществляет планирование действий системы во время исполнения. Задачами планирования являются:

1) Организация очереди схем фактов в порядке их исполнения или применения. При этом необходимо учитывать порядок создания объектов.

2) Генерация исполняемых правил на основе схем фактов. Такие правила мы будем называть — исполнителями. Исполнители включают набор методов, которые в зависимости от типа аргументов, типа требуемого результата и набора специфических условий по-разному реализуют сборку факта заданного типа.

Во время непосредственной обработки документа, менеджер системы осуществляет последовательный вызов исполнителей из очереди. Каждому исполнителю менеджер подает на вход данные, сгруппированные по сегментам (тип сегмента задается соответствующим условием в схеме факта) и вызывает функцию поиска для текущего исполнителя. Реализация данной функции зависит от типа исполнителя (т.е., в конечном счете, от заданных ограничений). Затем выполняется процедурная часть (создание или редактирование объекта) и проверка новых объектов (если они есть) на уникальность. Процесс исполнения завершается, когда очередь исполнителей становится пустой.

Исполнители осуществляют извлечение фактов из текста на основе четырех разработанных алгоритмов:

алгоритм, использующий таблицу семантических сочетаний для поиска и формирования предварительного набора фактов;

алгоритм, осуществляющий поиск и обработку однородных членов предложений (однородность, проективность, связность). Найденные объекты вначале объединяются в однородные группы (группа объектов одного класса, определенного аргументом схемы факта), затем проверяется сочетаемость (семантическая и/или синтаксическая) контактных групп;

алгоритм, осуществляющий проверку синтаксической сочетаемости элементов факта с помощью модуля \Уогс1Рт£1ег;

алгоритм, осуществляющий проверку остальных структурных ограничений. Система спроектирована таким образом, чтобы в случае необходимости, можно было бы разработать и подключить дополнительные алгоритмы, которые бы осуществляли обработку (проверку) новых ограничений, включенных в схему фактов.

Дальнейшая обработка заключается в формировании контента документа. Для этого необходимо идентифицировать объекты, полученные в результате' анализа, обеспечить корректность их добавления и, собственно, добавить их в информационное пространство системы.

Под идентификацией объекта понимается уточнение полученного объекта (уточнение атрибутов) и «склеивание» одинаковых объектов, на основе использования локального контекста, поиск объекта в информационном пространстве системы (глобальный контекст) и обеспечение корректности набора и значений его атрибутов.

Мы выделили три задачи, которые возникают при глобальном поиске объекта.

1. Идентификация объекта, найденного в Тексте документа, по классу и набору атрибутов - поиск данного объекта в БД системы. При наличии нескольких объектов возникает контекстная омонимия, требующая однозначного разрешения.

2. Идентификация и уточнение класса объекта по иерархии классов (при этом может уточняться как объект найденный в тексте, так и объект из БД системы).

3. Идентификация и уточнение объектов по отношению «часть-целое» (иерархии вложенности), используемая, в частности, при разрешении контекстной омонимии.

Было предложено два метода разрешения омонимии.

Первый способ заключается в построении фокусного множества ИО, включающего все непосредственно связанные с данным ИО, и сопоставлении его с фокусным множеством объекта, найденного в тексте.

Второй способ заключается в использовании иерархии по отношению «часть-целое», в случае, когда объекты имеют сложную структуру, представленную линейными цепочками наименований, совокупность которых образует дерево (множество деревьев) информационных объектов. Для определения такого ИО требуется восстановить иерархию вложенности объектов документа данного типа путем сравнения с эталонной иерархией ИО из БД. Каждая пара объектов, удовлетворяющая определенным требованиям порядка слов, проверяется на предмет наличия между ними отношения вложенности (с учетом транзитивности). Результирующими являются те ИО, которые соответствуют листьям полученных древесных структур.

В общем виде механизм создания контента документа выглядит следующим образом.

1. Создается ИО документа и формируется его индекс.

2. Все найденные в тексте новые объекты и связи добавляются в БД системы.

3. Все атрибутивные отношения, добавленные в БД либо при создании нового объекта, либо при редактировании уже существующего, помечаются индексом ИО документа (для существующего ИО помечаются также старые атрибутивные отношения, обнаруженные в тексте и совпавшие с существующими).

Под термином «помечается» понимается добавление в БД системы специального отношения типа «объект — атрибутивное отношение», связывающего документ с контентом. Отметим, что этих связей оказывается достаточно, чтобы хранить информацию о содержании, т.к. любой объект идентифицируется набором своих ключевых атрибутов или ключевыми атрибутивными отношениями.

В четвертой главе рассмотрены применения разработанных подходов и методов в реальных информационных системах.

Так при создании в 2001-2003 гг. информационной системы документооборота 1пОос был апробирован подход к анализу содержания документов путем извлечения фактов, при этом были разработаны и использованы алгоритм сборки фактов, использующий сегментацию, и алгоритм идентификации объектов, минимально использующий глобальный контекст — информационной наполнение системы, представленный иерархией вложенности объектов.

В системе 1пОос рассматривался только один жанр документа - деловое письмо, как наиболее типичный для задачи интеллектуализации документооборота. Была разработана жанровая структура документа, что позволило ограничить возможную смысловую нагрузку той или иной части текста документа.

Для хранения контента документов была разработана структура семантического индекса, представленная в виде набора содержательных атрибутов, автоматически заполняемых системой анализа.

База знаний, необходимая для анализа содержания документов, в системе ТгЛос включает пять компонентов.

1. Метаонтология является ядром системы знаний и фиксирует базовые структуры, которые система должна использовать при автоматическом анализе и индексации текстов документов: компоненты семантического индекса, базовые классы понятий, жанровая структура документа, семантическая структура высказывания.

Общая структура извлекаемой информации представляется в виде -некоторой пропозициональной структуры, выражающей связь предиката (процесс, действие, свойство) и множества его аргументов:

Г = Р(Б, О, Ь), где Р - действие (Работа), £ - субъект (Организация), О - объект (Объект), над которым выполняется действие, Ь - место действия (Объект строительства). Используются следующие схемы Фактов: Р1 = Работа + Объект, Р2 = Р1 + Объект строительства, РЗ = Р2|Р1 + Организация.

2. Онтология предметной области включает иерархию классов понятий ПО и семантические отношения на этих классах:

объектное отношение - это связь «Работа—Объект», на основе этого отношения формируется факты типа П,

агентивное отношение - это связь «Организация - Р1», это отношение характеризует различные классы Организаций с точки зрения их деятельности,

отношение вложенности — это отношение "часть—целое", заданное для Объектов строительства, которое позволяет идентифицировать объекты сложной структуры представляемые в тексте цепочкой понятий.

Знания о сочетаемости понятий представлены в виде трех таблиц, задающих ограничения на допустимые сочетания понятий указанных классов и их значений в фактах.

3. Предметные знания, т.е. знания о конкретных организациях и их типах, о видах деятельности, о типах строящихся объектов, об иерархии построенных объектов и т.п..

4. Знания о конкретном предприятии представлены списком сотрудников предприятия, структурой его подразделений, фильтрами адресации сотрудников.

5. Лингвистические знания об языке деловых писем представлены в словаре с помощью технологии Алекс.

Анализ текста в системе 1пОос начинается с поиска ключевых понятий, выделяемых словарным компонентом системы. На этапе сегментации документа осуществляется жанровая декомпозиция текста документа, в результате которой определяются границы Основного текста при помощи служебных жанровых шаблонов Обращение и Подпись, выделяются все организации, упомянутые в шапке письма, и определяется организация-Отправитель.

Последующая обработка документа представляет собой процесс извлечения релевантной информации на основе ключевых понятий, выделенных в границах Основного текста.

На этапе идентификации объектов уточняются и идентифицируются все понятия, которые могут входить в состав фактов. На этом этапе определяются все возможные атрибуты понятия, позволяющие уточнить объект (например, для объекта строительства это может быть его номер, начальный и конечный километр участка и т.п.).

Последний этап — семантический анализ состоит в установлении семантических отношений между составляющими высказываний в Основном тексте, что позволяет представить содержание письма в виде совокупности упомянутых в нем фактов, выделить Тему письма (совокупность фактов типа РЗ, в которых фигурирует Отправитель) и определить соответствующие значения полей семантического индекса.

При создании информационного портала по археологии и этнографии использовался словарный компонент в том виде, в котором он присутствует в технологии. Модуль

индексирования археологических ресурсов использует при своей работе онтологию и создает контент ресурсов по тому же принципу, что и в предложенной технологии, однако, только для фиксированного набора схем фактов.

При разработке модуля индексирования были исследованы два жанра текстовых ресурсов: новостные сообщения и научные статьи по археологии и этнографии.

Из текста новостных сообщений извлекается информация о событиях и объектах, связанных с событиями. Часть онтологии портала - онтология научной деятельности, описывает все понятия и отношения, необходимые для анализа новостных сообщений.

При анализе научных статей в большей степени использовалась формальная структура документа. На основе описания жанровой структуры статьи извлекаются такие понятия как авторы статьи, организации, в которых работают авторы, название. Из основного текста статьи извлекается информация о научных результатах, описанных в данной статье, и связанных с ними объектах. Часть онтологии портала - онтология научного знания, описывает все понятия и отношения необходимые для анализа научных статей. Специфика понятий в данной предметной области, отражается онтологией предметной области (онтологией археологии).

Портал находится на стадии опытной эксплуатации.

В заключении сформулированы основные результаты, полученные в ходе диссертационной работы.

ЛИЧНЫЙ ВКЛАД АВТОРА

Результаты, которые выносятся на защиту в данной диссертационной работе, не были бы возможны без слаженной работы всего научного коллектива, в котором работал автор. Созданию технологии содержательного анализа текста предшествовала работа над проектом 1пОос, а также дальнейшее развитие основных идей технологии в проектах, связанных с созданием технологии конструирования информационных систем. Наибольший вклад автором диссертации внесен при решении следующих задач.

Теоретическая разработка подхода к анализу текста, изложенного в данной работе.

Разработка и реализация основных алгоритмов сборки фактов.

Разработка и реализация алгоритмов идентификации объектов, использующих

отношение вложенности.

Разработка архитектуры словарного компонента.

Реализация ядра словарного компонента.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

1. Проанализированы существующие технологии представления и извлечения информации в электронном виде из текстовых документов. Сформулированы требования к компоненту информационных систем, отвечающему за извлечение данных из текстовых документов на основе онтологии и лингвистической базы знаний.

2. Предложена модель лингвистической базы знаний, включающая три составляющих: предметный словарь, модель документа и модель описания фактов как способа естественно-языкового выражения понятий в тексте и средства представления контента документа в информационной системе.

3. Разработана технология конструирования лингвистической базы знаний, реализующая предложенную модель.

4. Разработаны методы, которые по предложенной модели реализуют поэтапный анализ текста документов: извлечение словарных объектов, поиск фактов и формирование контента документа в виде семантической сети объектов, являющихся экземплярами понятий и отношений, заданных моделью предметной области;

5. Реализованы проблемно-ориентированная оболочка, предназначенная для конструирования лингвистической базы знаний, и инструментальные средства, использующие построенную базу знаний для анализа текста.

6. Разработаны приложения, в которых апробированы методы и компоненты предложенной технологии анализа текста.

ОПУБЛИКОВАННЫЕ РАБОТЫ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Кононенко И.С., Сидорова Е. А. Обработка делового письма в системе документооборота // Труды международного семинара Диалог'2002 по компьютерной лингвистике и ее приложениям. -М.: Наука, 2002. -Т.2. -С.299-310.

2. Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.А. Представление знаний в интеллектуальной системе документооборота // Труды 8-й национальной конференции по искусственному интеллекту КИИ'2002. -М.: Физматлит, 2002. -Т.2. —С.867-875.

3. Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.А. Подход к разработке интеллектуальной системы документооборота инвестиционной компании // Труды IV-й международной конференции "Проблемы управления и моделирования в сложных системах". -Самара: Самарский Научный Центр РАН, 2002. -С.366-372.

4. Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.А. Классификация деловых писем в системе документооборота // Материалы международной научно-технической конференции «Информационные системы и технологии» (ИСТ'2003). -Новосибирск: Изд. НГТУ, 2003. -Т.З. -С.141-145.

5. Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.А. Проблемы организации электронного архива с семантическим индексированием документов // Труды международной конференции Диалог'2003 "Компьютерная лингвистика и интеллектуальные технологии". -Протвино, 2003. -С.724-731.

6. Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.А. Система InDoc: интеллектуальная обработка, распределение и поиск документов в электронном архиве. И Труды V-й международной конференции "Проблемы управления и моделирования в сложных системах". -Самара: Самарский Научный Центр РАН, 2003. -С.248-254.

7. Загорулько Ю.А., Кононенко И.С., Сидорова Е.А. Концепция интеллектуализации документооборота // Труды 9-й национальной конференции по искусственному интеллекту КИИ'2004. -М.: Физматлит, 2004. - Т.З. -С.986-993.

8. Сидорова Е.А. Интеллектуальная обработка документов // Искусственный интеллект, №4. -Киев, 2004. -С.738-747.

9. Марчук А.Г., Холюшкин Ю.П., Загорулько Ю.А., Воронин В.Т., Андреева O.A., Боровикова О.И., Булгаков C.B., Костин B.C., Нуртдинов А.Н., Сидорова Е.А. Разработка новых методов и информационных технологий представления -и обработки археологических и этнографических данных // Информационные технологии в гуманитарных исследованиях Вып.7. — Новосибирск: Изд. НГУ, 2004. -С. 10-22.

10. Боровикова О.И., Булгаков C.B., Загорулько Ю.А., Сидорова Е.А., Холюшкин Ю.П. Разработка интеллектуального интернет-портала знаний для доступа к информационным ресурсам по археологии и этнографии // Информационные технологии в гуманитарных исследованиях. Вып.7. -Новосибирск: Изд. НГУ, 2004. -С.31-39.

11. Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.А. Подход к интеллектуализации документооборота // "Информационные технологии" №11, 2004. -С.2-11.

12. Сидорова Е.А. Методы интеллектуальной обработки документов, основанные на экспертных знаниях // Молодая информатика: Сборник научных трудов аспирантов и молодых ученых. -Новосибирск: Институт систем информатики им А.П. Ершова СО РАН, 2005. —С.95-104.

13. Боровикова О.И., Загорулько Ю.А., Сидорова Е.А. Автоматизация сбора онтологической информации в Интернет-портале знаний // V международная конференция

«Интеллектуальный анализ информации ИАИ-2005». Сборник трудов под редакцией Т.А. Таран. -Киев: Просвита, 2005. — С.82-91.

14. Сидорова Е.А. Технология разработки тематических словарей на основе сочетания лингвистических и статистических методов // Труды международной конференции Диалог'2005 "Компьютерная лингвистика и интеллектуальные технологии". -М.: Наука, 2005. -С.443—449.

15. Боровикова О.И., Загорулько Ю.А., Сидорова Е.А. Подход к автоматизации сбора онтологической информации для интернет-портала знаний // Труды международной конференции Диалог'2005 "Компьютерная лингвистика и интеллектуальные технологии". -М.: Наука, 2005. -С. 65-70.

16. Kononenko I.S., Sidorova Е.А., Zagorulko Yu.A. A Knowledge-based Approach to Intelligent Document Management // Proceedings of the 6Л International Workshop on Computer Science and Information Technologies CSIT2005. -Ufa-Assy, Russia, 2005. -VI. -P. 33-38.

17. Андреева О.А., Боровикова О.И., Булгаков C.B., Загорулько Ю.А., Сидорова Е.А., Циркин Б.Г. Организация содержательного доступа к систематизированным знаниям по археологии и этнографии через интернет-портал // Информационные технологии в гуманитарных исследованиях. Вып.9. -Новосибирск: Изд. НГУ, 2005. -С.25-32.

18. Боровикова О.И., Булгаков С.В., Загорулько Ю.А., Сидорова Е.А., Холюшкин Ю.П., Система знаний информационного интернет-портала по археологии и этнографии // Информационные технологии в гуманитарных исследованиях. Вып. 9. — Новосибирск: Изд. НГУ, 2005. -С. 33-39.

19. Андреева О.А., Боровикова О.И., Загорулько Ю.А., Кононенко И.С., Сидорова Е.А. Коллекционер онтологической информации для портала знаний по археологии и этнографии // Информационные технологии в гуманитарных исследованиях. Вып. 9. -Новосибирск: Изд. НГУ, 2005. -С. 39-47.

20. Zagorulko Yu., Borovikova О., Bulgakov S., Sidorova E. Ontology-based approach to development of adjustable knowledge internet portal for support of research activity // Bull. of NCC. Ser.: Computer Science 2005. -Is. 23. -P.45-56.

21. Андреева О.А., Сидорова Е.А. Технология разработки тематических словарей на основе сочетания лингвистических и статистических методов // Технологии Microsoft в теории и практике программирования. -Нововсибирск, 2006. -С.221-223.

22. Сидорова Е.А. Подход к описанию фактов для задачи фактографического анализа текста // VI международная конференция «Интеллектуальный анализ информации ИАИ-2006». Сборник трудов под редакцией Т. А. Таран - Киев: Просвита, 2006. —С.252-261.

23. Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Сидорова Е.А. Подход к построению предметной онтологии для портала знаний по компьютерной лингвистике // Труды международной конференции Диалог'2006 "Компьютерная лингвистика и интеллектуальные технологии". -М.: Изд. РГГУ, 2006. - С.148-151.

24. Загорулько Ю.А., Кононенко И.С., Сидорова Е.А. Семантический подход к анализу документов на основе онтологии предметной области // Труды международной конференции Диалог'2006 "Компьютерная лингвистика и интеллектуальные технологии". - М.: Изд. РГГУ, 2006. - С.468-473,

I Сидорова Е.А. /

Сидорова Е.А.

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ДЛЯ АНАЛИЗА ДОКУМЕНТОВ НА ОСНОВЕ МОДЕЛИ ПРЕДМЕТНОЙ ОБЛАСТИ

Автореферат

Подписано в печать Объем 1,1 уч.-изд. л.

Формат бумаги 60 х 90 1/16_Тираж 100 экз.

Отпечатано РИЦ "Прайс-курьер"

630090, г. Новосибирск, пр. акад. Лаврентьева, 6

Оглавление автор диссертации — кандидата физико-математических наук Сидорова, Елена Анатольевна

ВВЕДЕНИЕ.

1 ОБЗОР ПОДХОДОВ К АНАЛИЗУ ТЕКСТОВ.

1.1 Развитие информационного сервиса.

1.2 Классы задач.

1.3 Подходы к анализу текстов.

1.4 Системы анализа текстов.

2 ПРЕДСТАВЛЕНИЕ ЗНАНИЙ.

2.1 Онтология.

2.1.1 Понятие онтологии.

2.1.2 Определение онтологии.

2.1.3 Назначение онтологии.

2.2 Модель информационного пространства системы.

2.2.1 Информационный объект: структура, контекст, контент.

2.2.2 Определение информационною пространства системы.

2.2.3 Текстовый ресурс.

2.3 Лингвистическая база знаний.

2.3.1 Формальное представление структуры текста.

2.3.1.1 Сегмент.

2.3.1.2 Модель документа.

2.3.2 Словарь.

2.3.2.1 Представчение словарной статьи.

2.3.2.2 Морфоюгические типы словаря лексем.

2.3.2.3 Иерархия классов словаря.

2.3.2.4 Тезаурус.

2.3.3 Описание фактов.

2.3.3.1 Семантические ограничения.

2.3.3.2 Структурные ограничения.

2.3.3.3 Схема факта.

2.3.3.4 Типизация схем фактов.

2.4 Особенности представления знаний.

3 ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ.

3.1 Словарный компонент.

3.1.1 Архитектура модуля словаря.

3.1.2 Сборка словокомплексов.

3.1.3 Модули автоматизированной настройки словаря.

3.1.3.1 Общая схема обучения.

3.1.3.2 Модуль классификации.

3.1.3.3 Тематизация.

3.1.3.4 Выявчение стоп-терминов.

3.2 Конструктор онтологии.

3.3 Конструкюр схем фактов.

3.3.1 Методология создания схем фактов.

3.3.2 Формирование внутреннего представления схем фактов.

3.3.2.1 Обеспечение корректности и сходимости.

3.3.2.2 Планирование.

3.4 Фактографический анализ текста.

3.4.1 Сегментация текста.

3.4.2 Сборка фактов.

3.4.2.1 Удовчетворение структурным ограничениям.

3.4.2.2 Удовлетворение семантическим ограничениям.

3.4.3 Формирование контента текстового ресурса.

3.4.3.1 Идентификация объектов.

3.4.3.2 Контроль корректности данных.

3.5 Поддержка актуальности данных.

4 РЕАЛИЗАЦИЯ И ПРАКТИЧЕСКИЕ ПРИЛОЖЕНИЯ.

4.1 Особенности программной реализации.

4.1.1 Архитектура системы анализа документов.

4.1.2 Словарный компонент.

4.1.2.1 Система классов.

4.1.2.2 Пользовательский интерфейс.

4.1.3 Модуль анализа документов.

4.1.4 Качество работы системы анализа.

4.2 Практические приложения технологии.

4.2.1 InDoc.

4.2.1.1 Модель делового письма.

4.2.1.2 Система знаний InDoc.

4.2.1.3 Общая схема анализа InDoc.

4.2.2 Портал знаний по археологии и этнографии.

4.2.2.1 Система знаний портала.

4.2.2.2 Text to чогия сбора онтологической информации о ресурсах

4.2.2.3 Индексирование новостных сообщений.

4.2.2.4 Индексирование научных статей.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Сидорова, Елена Анатольевна

Во многих областях человеческой деятельности на гекуший момент накоплены большие объемы знаний и данных. Рост информационных потоков, связанных с деловой активностью человека, требует внедрения автоматизированных методов и систем хранения и обработки данных. В связи с этим, новые и накопленные ранее документы переводятся в электронный формат и хранятся в различных архивах и банках данных.

Однако доступ к этой информации значительно затруднен, так как большинство ее источников являются текстовыми документами, а большинство информационных систем (ИнС) не обеспечивают полноценной работы с такими документами. Хотя современные ИнС и обеспечивают поиск документов по ключевым словам и даже выполняют тематическую рубрикацию документов, но в любом случае, пользователь имеет доступ только к тексту документов, а не к основным смысловым фрагментам, содержащимся в них. Этого оказывается недостаточно для современных корпоративных информационных систем: во-первых, в постоянно разрастающемся архиве становится трудно (практически невозможно) найти нужную информацию; во-вторых, данные часто дублируются и противоречат друг другу.

Большой объем накопленной информации и высокая скорость поступления новой предъявляют все более жесткие требования к современным информационным системам. Современная ИнС должна быть способна решать весь комплекс задач, связанных с хранением и управлением потоком входящих «сырых данных», таких как автоматическая классификация и автоматическое содержательное индексирование текстов, оперативное и адекватное распределение новой информации среди пользователей, передача и хранение данных в электронном архиве и последующий поиск в нем по содержанию, обеспечение минимальной избыточности информации.

Важным аспектом, который нужно учитывать при разработке информационных систем, является требование настраиваемости в процессе эксплуатации. Невыполнение этого требования может привести к тому, что система с течением времени перестанет выполнять свои функции из-за изменений в структуре предметной области или спектре требований к системе, которые неизбежно ведут к изменению системы понятий, тематики документов и соответствующих условий их классификации, индексации и адресации.

Для решения этих проблем необходим переход на новый качественный уровень при обработке информации - необходимо вести обработку на семантическом уровне, т.е. учитывать смысл или содержание документов. За последние несколько лет это направление в информационных технологиях получило широкое развитие. Созданные на основе семантических гехнолошй ИнС отличаются от традиционных тем, что используют явно выраженные (в виде онтологии) знания о предметной области. Часто онтология является не только основой для представления информации пользователям, ее хранения и поиска, но и для автоматической обработки поступающей текстовой информации.

Онтологический подход стал активно развиваться с начала 90-х годов [58]. Понятие онтологии можно считать логическим развитием понятия сетевых моделей представления знаний, таких как семантические сети или системы фреймов. Существует множество различных определений онтологии [92,97]. Общим для всех существующих определений является понимание онтологии как модели представления знаний какой-либо предметной области в виде набора понятий этой предметной области и существующих между ними отношений. Причем особое внимания уделяется отношениям «часть-целое», «класс-подкласс» и т.п., упорядочивающих понятия предметной области в иерархию. Именно концентрация на создании таксономий по заранее известным отношениям отличает онтологию от других сетевых моделей [34]. Это позволяет создавать программы, которые бы учитывали семантику этих отношений.

Применение онтологии является одним из наиболее перспективных направлений исследований, поскольку позволяет формализовать и унифицировать операции обработки информации для повышения качества различных информационных услуг и сервисов. В работе проводится исследование одной из наиболее востребованных услуг - информационного наполнения системы.

До сих пор задача анализа текста на естественном языке рассматривалась многими исследователями независимо от той обстановки, где ее результаты планировалось использовать. Применяемые подходы либо никак не учитывают способ и форму хранения полученных результатов анализа в ИнС (например, классические лингвистические исследования Леонтьевой Н.Н. [56,57] по анализу текстов и построению семантических словарей или Мельчука И.А. [60] по теории «Смысл-Текст»), либо, наоборот, строго привязаны к узким целям поставленной задачи и форме результата (например, при извлечении информации о персонах и организациях [38,42], что часто встречается в задачах компьютерной разведки). Классические подходы к семантическому анализу текста используют формальную модель языка и с "большим трудом" переходят к модели предметной области, что не позволяет им естественным образом внедряться в ИнС с заданной предметной областью и удовлетворять поставленным перед такими системами требованиям. В отличие от работ, связанных с задачей полного извлечения смысла или извлечения всей информации из текстов документа, для большинства ИнС нет необходимости делать полный семантический анализ всего связанного текста. ИнС, построенные на основе онтологии, естественным образом задают как формат содержания тою, что требуется извлечь из текста документа (или любого текстового ресурса), так и формат хранения результата в базе данных системы в виде семантической сети объектов, являющихся экземплярами понятий и отношений, заданных моделью предметной области.

В связи с этим особую актуальность приобретает разработка технологии анализа текста в контексте ее применения в различных информационных системах [70] (в частности, для корпоративных систем документооборота или специализированных порталов знаний). Ориентация технологии на деловую и научную лексику является вполне обоснованным решением, позволяющим эффективно применить семантически-ориентированные методы к решению задачи анализа текста на естественном языке.

Создание инструментальных средств - средств настройки онтологии, тезауруса и схем фактов, описывающих способы естественно-языкового выражения понятий и отношений в тексте, - дает возможность обеспечивать содержательную обработку текста документов без специальных навыков программирования непосредственным носителям знаний - экспертам и лингвистам.

Прсдмеюм исследования данной работы являются способы описания лингвистических знаний в информационных системах, а также методы автоматического извлечения данных из текстовых документов.

Цель исследования. Целью диссертационной работы является разработка способов описания лингвистических знаний и представления содержания документов в информационных системах, а также методов и инструментальных средств содержательного анализа текста на естественном языке.

Работа выполняется в рамках проекта по созданию технологии конструирования ИнС и направлена на автоматизацию наполнения различных ИнС данными, полученными в результате анализа содержания документов, поступающими в систему, либо в виде коллекции архивных документов, либо при регулярном оперативном поиске в сеги Интернет. Технология должна включать средства описания предметной области и настройки лингвистической базы знаний.

Для достижения поставленной цели в диссертации последовательно решены следующие задачи исследования:

1. определены требования, предъявляемые к технологиям автоматической обработки текста на естественном языке в современных информационных системах;

2. создана лингвистическая модель описания фактов как способа естественно-языкового выражения в тексте понятий и отношений, которые представляют контент документа в информационной системе;

3. разработана технология конструирования лишвистической базы знаний, реализующая предложенную модель;

4. разработаны методы содержательного анализа документов, использующие предложенную модель;

5. реализованы инструментальные средства, предназначенные для автоматического извлечения фактов из текста и формирования контента документа в информационной системе;

6. апробированы компоненты предложенной технологии в реально функционирующих информационных системах.

Методы исследования. В диссертационном исследовании были использованы модели и методы искусственного интеллекта, компьютерной лингвистики, теории множеств, онтологический анализ, метод экспертных оценок, методы объектно-ориентированного проектирования и программирования.

Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:

- модель представления лингвистических знаний, включая описание фактов, для задачи автоматического анализа документов в ограниченной предметной области;

- методы семантическою анализа документа по деловой или научной тематике;

- способ представления контента документа в информационном пространстве системы.

Разработанная технология может быть применена как при создании новых информационных систем, так и при модернизации уже существующих. Программные компоненты, созданные на базе предложенной модели и методов, были апробированы при разработке ряда информационных систем. Анализ опыта внедрения демонстрирует ею достаточную эффективность, что характеризует практическую значимость работы.

НА ЗАЩИТУ ВЫНОСЯТСЯ следующие положения:

1. Модель лингвистической базы знаний, включающая предметный словарь, модель документа и модель описания фактов.

2. Технология конструирования лингвистической базы знаний, реализующая предложенную модель.

3. Методы, реализующие поэтапный анализ текста документов на основе предложенной модели лингвистической базы знаний;

4. Проблемно-ориентированная программная оболочка, предназначенная для конструирования лингвистической базы знаний, и инструментальные средства, использующие построенную базу знаний для автоматическою извлечения фактов из 1екста и формирования контента документа в информационной системе.

Апробация. Основные выводы и научные результаты диссертационной работы докладывались на международных конференциях но компьютерной лингвистике и интеллектуальным технологиям «Диалог» в 2002, 2003, 2005 и

2006 гг., на международной конференции "Проблемы управления и моделирования в сложных системах" в 2003 г., на национальных конференциях по искусственному интеллекту в 2002 и 2004 i г., на международных конференциях по интеллектуальному анализу информации в 2005 и 2006 гг.; печатались в журналах и сборниках: «Искусственный интеллект», №4, Киев, 2004; «Информационные технологии» № И, 2004; «Молодая информатика: Сборник научных трудов аспирантов и молодых ученых», ИСИ СО РАН, 2005; «Информационные технологии в гуманитарных исследованиях» в 2005 г.

По теме диссертации автором опубликовано 24 работы.

Структура и объем

Диссертационная работа состоит из 4 глав, введения, заключения, списка литературы содержащего 100 наименований. Общин объем работы составляет 120 страниц текста, включающего 2 приложения.

Благодарности (коллектив)

Результаты, выносимые на защиту в данной диссертационной работе, не были бы получены без слаженной работы всего научного коллектива, в котором работал автор. Созданию технологии содержательною анализа предшествовала работа над проектом InDoc [2-6], а также дальнейшее развитие основных идей в проектах, связанных с созданием технологии конструирования информационных систем [9-10,17-20]. В разное время в указанных проектах принимали активное участие следующие специалисты: Ю.А. Загорулько (руководитель проекта), А.С. Париньяни (научный руководитель проекта), И.С. Кононенко (лингвист), О.А. Андреева, Ю.В. Костов, А.С. Цецохо, О.И. Боровикова, С.В. Булгаков.

Всем участникам проекта автор выражает большую 6:iaiодарность.

Заключение диссертация на тему "Методы и программные средства для анализа документов на основе модели предметной области"

Основные результаты

Проведенные исследования позволили разработать новый подход к содержательному анализу документов, позволяющий настраивать систему анализа на определенную предметную область.

В работе предложена комплексная модель представления знаний, включающая предметный словарь, модель предметной области и модель описания фактов.

Разработаны методы, которые по предложенной модели реализуют поэтапный анализ текста деловых документов ограниченной тематики: извлечение словарных объектов, поиск фактов и формирование контента документа в виде семантической сети объектов, являющихся экземплярами понятий и отношений, заданных моделью предметной области.

Реализованы проблемно-ориентированная оболочка, предназначенная для конструирования лингвистической базы знаний, и инструментальные средства, использующие построенную базу знаний для анализа текста.

Личный вклад автора

Результаты, которые выносятся на защиту в данной диссертационной работе, не были бы возможны без слаженной работы всею научного коллектива. Созданию технологии содержательного анализа текста предшествовала работа по проекту InDoc, а также дальнейшее развитие основных идей в проектах, связанных с созданием технологии конструирования информационных систем. Наибольший вклад автором диссертации внесен при решении следующих задач:

- Теоретическая разработка подхода к анализу текста документов, изложенного в данной работе.

- Разработка архитектуры словарного компонента.

- Реализация ядра словарног о компонента.

- Разработка и реализация основных алгоритмов сборки фактов.

- Разработка и реализация алгоритмов идентификации объектов, использующих отношение вложенности.

Дальнейшие исследования

Среди возможных направлений дальнейшего развития технологии следует назвать исследование построения планировщиков: разработку новых подходов и повышение эффективности уже предложенных.

Кроме того, интерес представляет развитие следующих компонент: . словаря - развитие аппарата описания семантики словарных терминов, . модуля сегментации - распознавание типа документа, . конструктор схем фактов - расширение структуры, . модуль формирования контента - разработка стратегий для неоднозначных и конфликтных ситуаций. Интересные перспективы имеет исследование вопросов адаптации технологии к задачам обработки коротких сообщений (метео-телеграмм, смс-сообщений, сообщений службы знакомств), для которых уже существуют относительно эффективные, но менее универсальные решения.

ЗАКЛЮЧЕНИЕ

Онисанная в настоящей работе объектно-ориентированная технология содержательного анализа текстов на основе шаблонных моделей схем фактов с использованием онтологии и предметного словаря позволяет, в большинстве случаев, получать приемлемое по эффективности и экономичное по трудозатратам решение. Для построения прикладной программы, решающей ту или иную задачу анализа текста, не требуется переписывание большого количества программного кода на языке программирования общего назначения — достаточно воспользоваться готовыми модулями предлагаемой технологии, подготовить для них описание онтологии, схем фактов и терминологии, соответствующее предметной области.

Эго позволяет ожидать, что предложенная технология может найти широкое практическое применение.

Библиография Сидорова, Елена Анатольевна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Кононеико И.С., Сидорова Е.А. Обработка делового письма в системе документооборота // Труды международного семинара Диалог'2002 по компьютерной лингвистике и ее приложениям. -М.: Наука, 2002. -Т.2. -С.299-310.

2. Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.А. Представление знаний в интеллектуальной системе документооборота // Труды 8-й национальной конференции по искусственному интеллекту КИИ'2002. -М.: Физматлит, 2002. -Т.2. -С.867-875.

3. Загорулько Ю.А., Кононенко И.С., Сидорова Е.А. Концепция интеллектуализации документооборота // Труды 9-й национальной конференции по искусственному интеллекту КИИ'2004. -М.: Физматлит, 2004.-Т.З.-С.986-993.

4. Сидорова Е.А. Интеллектуальная обработка документов // Искусственный интеллект, №4. -Киев, 2004. -С.738-747.

5. Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.А. Подход к интеллектуализации документооборота // "Информационные технологии" №11, 2004. -С.2-11.

6. Сидорова Е.А. Методы интеллектуальной обработки документов, основанные на экспертных знаниях // Молодая информатика: Сборник научных трудов аспирантов и молодых ученых. -Новосибирск: Институт систем информатики им А.П. Ершова СО РАН, 2005. -С.95-104.

7. Zagorulko Yu., Borovikova О., Bulgakov S., Sidorova E. Ontology-based approach to development of adjustable knowledge internet portal for support of research activity // Bull, of NCC. Ser.: Computer Science 2005. -Is. 23. -P.45-56.

8. Андреева O.A., Сидорова Е.А. Технология разработки тематических словарей на основе сочетания лингвистических и статистических методов // Технологии Microsoft в теории и практике программирования. -Нововсибирск, 2006. -С.221-223.

9. Сидорова Е.А. Подход к описанию фактов для задачи фактографического анализа текста // VI международная конференция «Интеллектуальный анализ информации ИАИ-2006». -Киев, 2006. -С.252-261.

10. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистический процессор для сложных информационных систем. -М.: Наука, 1992. -256 с.

11. Агеев М.С., Добров Б.В. Тематический анализ коллекции документов online. // Научный сервис в сети ИНТЕРНЕТ: Труды Всероссийской научной конференции. Новороссийск, 2003. - С. 249-252.

12. Агеев М.С., Добров Б.В., Лукашевич II.B. Поддержка системы автоматического р>брицирования для сложных задач классификации текстов // RCDL'2004 Электронные библиотеки: перспективные методы и технологии, электронные коллекции. -Пущино, 2004.

13. Бейлин Дж. Краткая история генеративной грамматики. В сб. обзоров: Фундаментальные направления современной американской лингвистики/ Под ред. А.А.Кибрика, И.М.Кобозевой и И.А.Секериной. -М.: Изд-во МГУ, 1997.-С. 13-57.

14. Бобылева М.П. Вопросы анализа документооборота организации в условиях использования автоматизированных систем // Делопроизводитель, № 1, 2001. http://\\ww.document.ru/readingroom/article.asn?id=7MU8KlFC7P20

15. Боровикова О.И., Загорулько Ю.А. Организация порталов знаний на основе онтологий. // Труды международного семинара Диалог'2002 "Компьютерная лингвистика и интеллектуальные технологии". Протвино, 2002. Т.2, -С.76-82.

16. Блюменау Д.И. Информация и информационный сервис. // Серия "Наука и технический прогресс". -Л:Наука, 1989. -192 с.

17. Булгаков С.В. Подход к построению мультиагентной системы содержательного поиска во множестве разнородных структурированных источников данных. // Труды IX конференции по искусственному интеллекту КИИ-2004. М.: Физматлит, 2004. -Т.2. - С.706-714.

18. Васильев И.А., Тузовский А.Ф. Структура системы управления знаниями // Труды международного симпозиума «Информационные и системные технологии в индустрии, образовании и науке. Караганда: Издательство КарГТУ, 2003. -С.286-288.

19. Виноград Т. Программа, понимающая естественный язык. -М., 1976. -283с.

20. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. // Учебник. СПб.:Питер, 2001. -384с.

21. Гвида Дж., Тассо К. Алгоритмы и эвристики в системе понимания ЕЯ. // В Сб.научн. тр. под ред. А.С. Нариньяни. Прикладные и экспериментальные лингвистические Процессоры. -Новосибирск, 1982. -С.37-59

22. Городецкий Б.Ю. Компьютерная линпшстика: моделирование языковою общения (Вступительная статья)// Новое в зарубежной литературе. -М.: «Прогресс». Вып. XXIV. Компьютерная лингвистика. Под ред. Городецкого Б.Ю. -С. 5-31.

23. Диненберг Ф.Г., Трапезников С.П. Фабрика лингвистических процессоров // Конструирование программных средств интеллектуализации.-Новосибирск, 1988. -С.63-76.

24. Ермаков А.Е. Поиск фактов в тексте. // Мир ПК, 02/2005. http://ww\v.osp.ru/text/302/169703.html

25. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистическою анализа текста. // Информационные технологии. -№7, 2002. -С.30-34.

26. Ершов А.П. К методологии построения диалоговых систем: феномен деловой прозы // Избранные труды. -Новосибирск: ВО "Наука", 1994. -С.314-330.

27. Загоруйко Н.Г., Налетов A.M. Гребенкин И.М., На пути к автоматическому построению онтологии. // Труды международной конференции Диалог'2003 "Компьютерная лингвистика и интеллектуальные технологии". -Протвино, 2003. -С.717-723.

28. Загорулько Ю.А., Кононенко И.С., Попов И.Г. Экспериментальная система понимания метеорологических телеграмм. // Трудымеждународного семинара Диалог'99 по компьютерной лингвистике и ее приложениям. Таруса, 1999. - Т.2. -С.57-66.

29. Зализняк Л.Л. Грамматический словарь русского языка. Словоизменение. -М.: «Русский язык», 1980. -880с.

30. Кононенко И.С. Типологические особенности текста и моделирование процесса понимания. // Труды международного семинара Диалог-95. -Казань, 1995.-С. 159-164

31. Кононенко И.С., Першина E.JI. Синтез числовых параметрических конструкций. // В Сб. научных трудов под ред. А.Е. Кибрика и А.С. Париньяни. Моделирование языковой деятельности в интеллектуальных системах. -М.:Наука, 1987. -С.220-256.

32. Кононенко И., Попов И. К проблеме понимания несегментированного текста (на материале метеорологических телеграмм). // Труды международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям. Протвино, 2000. - Т.З. — С. 189-198.

33. Кибрик А.А. Анафора // Электронный ресурс.: Энциклопедия "КРУГОСВЕТ": http://www.krugosvet.ru/articles/76/1007610/1007610а 1 .htm

34. Кибрик А.А. Об анафоре, дейксисе, и их соотношении. // В сб.: Разработка и применение лингвистических процессоров. Под ред. А.С.Нариньяни. -Новосибирск, 1983.

35. Леонтьева H.II. Автоматизированный перевод как понимание и реферирование // Прикладные и экспериментальные лингвистические процессоры. -Новосибирск, 1981. -С.21-35.

36. Леонтьева Н.Н. К теории автоматического понимания естественных текстов. Изд. Московского университета, 2000-2003. Часть 1, 2, 3.

37. Майкевич Н.В. От информационного пространства к пространству знаний. Онтологии в Интернет. //Труды конференции КИИ'98. -Пущино, 1998.-С.152-158.

38. Мальковскии М.Г. Диалог с системой искусственного интеллекта. -М.: Изд-во МГУ, 1985.-214с.

39. Мельчук И.А. Опыт теории лингвистических моделей Смысл-Текст. -М.: Наука, 1974.-314 с.

40. Нариньяни А.С. Кентавр по имени ТЕОН: Тезаурус т Онтология // Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. -Аксаково, 2001. -Том 1. -С. 199-154.

41. Париньяни А.С. ТЕОН-2: от Тезауруса к Онтологии и обратно // Труды международного семинара Диалог'2002 по компьютерной лингвистике и ее приложениям. -М.: Наука, 2002. -Т. 1. -С. 199-154.

42. Нариньяни А.С. Автоматическое понимание текста новая перспектива. // Труды Международною семинара Диалог-97 по компьютернойлингвистике и ее приложениям. -Ясная Поляна, 1997. Под ред. Л.С. Нариньяни. -С. 203-208.

43. Нариньяни Л.С. Модель или алгоритм: новая парадигма информационной технологии // Информационные Технологии, 1997. -С.11-16.

44. Нариньяни Л.С. Проблема понимания ЕЯ-запросов к базам данных решена // Труды Международного семинара Диалог-95 по компьютерной лингвистике и се приложениям. -Казань, 1995. Под ред. Р.Г. Бухараева, А.С. Нариньяни, В.Д. Соловьева. -С. 206-215.

45. Ножов И.М. Проектирование сегментационного анализатора русского предложения // Труды конференции КИИ-2002. М.: Физматлит, 2002. -Т.1. -С. 212-222.

46. Попов Э.В. Общение с ЭВМ на естественном языке. -М., Наука. Главная редакция физико-математической литературы, 1982. -360 с.

47. Попов Э.В., Дракин В.И., Преображенский А.Б. Общение конечных пользователей с системами обработки данных. -М.: Радио и связь, 1988. -288с.

48. Россеева О.И., Загорулько Ю.А. Организация эффективною поиска на основе онтологий. // Труды международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. -Т.2. -Аксаково, 2001. -с.333-342.

49. Рубашкин В.Ш. Семантический компонент в системах понимания текста // Труды Десятой национальной конференции по искусственному интеллекту с международным участием КИИ-2006 (25-28 сентября 2006 г., Обнинск) -Т.2.- М: Физматлит, 2006. -С. 455-463.

50. Сокирко А.В. Морфологические модули на сайте www.aot.ru // Труды международного семинара Диалог'2004 «Компьютерная лингвистика и интеллектуальные технологии». М.: Наука, 2004. -С.559-564.

51. Сулейманов ДТП,, Гатиатулин А.Р. Структурно-функциональная компьютерная модель татарских морфем. -Казань: ФЭН, 2003.

52. Тихомиров И.А. Распознавание интерфейсов Интернег-ресурсов на основе использования неоднородных семантических сетей // Труды 9-й национальной конференции но искусственному интеллекту КИИ'2004. М.: Физматлит, 2004. Т.1, С. 179-185.

53. Тестелец Я. Г. Введение в общий синтаксис. М., РГГУ, 2001.

54. Филлмор Ч. Дело о падеже // Новое в зарубежной лингвистике, вып. X. -М.: "Прогресс", 1981.-С. 369-495.

55. Холюшкин Ю.П., Гражданников Е.Д. Системная классификация археологической науки (элементарное введение в археологическое науковедение). -Новосибирск: Изд-во ИДМИ Минобразования, 2000. -58с.

56. Хомский Н. Три модели описания языка // Кибернетический сборник. -1961. -Вып.2. -С.81-92.

57. Хорошевский В.Ф. OntosMiner: семейство систем извлечения информации из мультиязычных коллекций документов // Труды 9-й национальной конференции по искусственному интеллекту КИИ-2004. М.: Физматлит, 2004. Т.2.

58. Шенк Р. Обработка концептуальной информации. -М.:Энергия, 1980-361с.

59. Appel A.W., Jacobson G.J. The world's fastest scrabblc program. // Communications of the ACM, 1988. -31(5):572-578.

60. Basili R., Pazienza M.T. An Adaptive and Distributed Framework for Advanced IR // Content-Based Multimedia Information Access. RIAO'2000 Conference Proceedings, v.2, 2000. -P. 902-922.

61. Bergamaschi S., Castano S., De Capitani di Vimercati S., Montanari S., Vincini M. An intelligent approach to information integration. // In Guarino N. Formal Ontology in Information Systems. IOS Press. - June, 1998.

62. Blythe J., Gil Y. Incremental formalization of document annotations through ontology-based paraphrasing // Proc. of the 13th international conference on World Wide Web. 2004. - P. 455-461.

63. Cole Ronald A., Mariani Joseph, Uszkoreit Hans, et al (editors). Survey of the State of the Art Human Language Technology, 1995.

64. Gruber T. R. Towards principles for the design of ontologies used for knowledge sharing // International Journal of Human-Computer Studies. -1995. Volume 43. - P. 907-928.

65. Guarino N. Understanding, building and using ontologies // International Journal of Human-Computer Studies, February/March 1997. Volume 46. -Issue2-3.-P. 293-310.

66. Hausser R. Foundations of Computational Linguistics. // Springer, 1999. -P.33-39.

67. Hyvonen П., Saarela S., Viljanen K. Application of ontology techniques to view-based semantic search and browsing // Proc. of the 1st European Semantic Web symposium. NY: Springer, 2004. - P. 92-106.

68. Mizoguchi R. A step towards ontological engineering // Proc. of the 12th National Conference on AI of JSAI. 1998. - P. 24-31.

69. Spyns P., Oberle D., Volz R. et al. OntoWeb a Semantic Web community portal // Proc. of 4th international conference on practical aspects of knowledge management. - 2002. - P. 189-200.

70. Takeda H., Takaai M., Nishida T. Collaborative development and Use of Ontologies for Design // Proceedings of the Tenth International IFIP WG 5.2/5.3 Conference PROLAMAT 98. -Italy, 1998.http://wvvvv-kasm.nii.ac.ip/papers/takeda/pdf/prolamat98final.pdf

71. Wiederhold G. Intelligent integration of information. // Boston: Kluwer Academic Publishers, 1996. 216 p.

72. Wielinga B. J., Schreiber A. T. Reusable and sharable knowledge bases: a European perspective // Proc. of international conference on building and sharing of very large-scaled knowledge bases. 1993. - P. 103-115.

73. Wolinski F., Vichot F., Strieker M. Using Learning-based Filters to Detect Rule-based Filtering Obsolescence // Content-Based Multimedia Information Access. RIAO'2000 Conference Proceedings, v.2, 2000, pp. 1208-1220.

74. Uschold M., Gruninger M. Ontologies: principles, methods and applications // Knowledge Engineering Review. June 1996. - Volume 11(2). - P. 93-113.

75. Using Dublin Core. http://dublincore.om/documents/usaueuuide/