автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети
Автореферат диссертации по теме "Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети"
На правах рукописи
Кузнецов Денис Юрьевич
Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети
Специальность 05.13.01 «Системный анализ, управление и обработка информации (металлургия)»
Автореферат диссертации на соискание ученой степени кандидата технических наук
Москва, 2004
Работа выполнена на кафедре Инженерной Кибернетики в
Московском Государственном Институте Стали и Сплавов (Технологическом
университете).
Научный руководитель:
кандидат технических наук, профессор Крапухина Н.В.
Официальные оппоненты: доктор технических наук, профессор Стефанюк Вадим Львович
кандидат технических наук, доцент Поляков Владимир Николаевич
Ведущая организация: ФГУП ГИВЦмет "Центринформ"
Защита состоится «_ Ю5 г. в ЛН часов на заседании Диссертационного Совета Д.212.132.07 при Московском Государственном Институте Стали и Сплавов по адресу: 119049, Москва, Ленинский проспект, 4, ауд._.
С диссертацией можно ознакомиться в библиотеке МИСИС.
Автореферат разослан « » 2004
г.
Ученый секретарь диссертационного Сов«
кл\н, профессор Калашников Е.А.
Актуальность проблемы. Задачи анализа текущей деятельности и принятия управленческих решений для холдингов и больших предприятий металлургической отрасли требуют обработки большого объема текстовой информации, которая в настоящее время содержится в электронном виде во всех областях науки и техники. Так, Московский Институт Стали и Сплавов, как ведущий металлургический вуз страны, обладает большими массивами металлургической и материаловедческой информации.
В прикладных системах поддержки принятия решений (СПГТР) появилась возможность использования знаний, заложенных в текстовой информации больших массивах электронных документов. Для эффективного использования такой информации основными требованиями стали автоматическое извлечение знаний (АИЗ) из текста, высокая производительность операций анализа текста и поиска знаний, высокое качество извлекаемых знаний и их представления в удобном, агрегированном виде.
Развитие глобальной сети Интернет привело к реализации крупнейшего в истории человечества хранилища информации в электронном виде. При этом плохая структурированность описательной (текстовой) части информации значительно снижает эффективность ее использования. Аналогичная ситуация складывается в корпоративных информационных системах, в которых файл -сервера и хранилища данных содержат тысячи и сотни тысяч документов на естественном языке (ЕЯ). Возникла ситуация, когда лицо, принимающее решение (ЛПР), при поиске знаний в доступных ему документах не способно в разумное время их качественно проработать без использования специальных программных средств.
Программные средства, организующие поиск по содержимому документов, значительно улучшили ситуацию. Но даже при сильном сужении перечня найденных документов, этот результат нельзя считать достаточным, так как ЛПР сталкивается с необходимостью анализа всего содержимого найденных документов. Использование морфологического анализа во многом улучшило качество результатов поиска, но не более того.
В задачах принятия решений на основе большого количества текстовых документов на ЕЯ необходимо проводить предварительный программный смысловой анализ текста, реализуемый с использованием синтаксического и семантического анализа.
В настоящее время задача предметно независимого семантического анализа текста на естественном русском языке (ЕРЯ), реализуемого в виде высокопроизводительного программного обеспечения (ПО), работающего в автоматическом режиме, не решена. В отличие от множества европейских языков, семантический анализ текста которых успешно используется во многих программных продуктах, слабая формализация русского языка и, как следствие, его неоднозначность, делает задачу смысловой обработки русскоязычных текстов весьма сложной.
Таким образом, задача построения СППР на основе системы хранилища знаний (СХЗ), основанного на естественно языковых русскоязычных документах, весьма актуальна.
Цель работы заключается в разработке подхода к построению СППР на основе СХЗ, осуществляющей работу с электронными текстовыми документами на ЕРЯ, выделение из них знаний и использование выделенных знаний для различных целей принятия решений.
Основные задачи, которые ставятся в работе:
— провести многокритериальный анализ существующих подходов к построению СППР на основе информационных систем извлечения и управления знаниями;
— разработать концептуальный подход к построению СППР на основе СХЗ с интеллектуальной обработкой текстовой информации на ЕРЯ, отличающийся высокой производительностью и качеством;
— разработать модели представления знаний на различных этапах обработки текста и работы системы;
— определить в ходе системно-функционального анализа методы обработки электронных текстовых документов на ЕРЯ с целью извлечение из них знаний, независимо от предметной области и тематики текста;
— разработать для работы ЛПР удобный графический пользовательский интерфейс, позволяющий использовать все функции системы;
— разработать систему хранения исходных документов и знаний, систематизировать процессы добавления документов, удаления документов из системы и доступ к документам для их чтения и анализа;
— разработать методы и алгоритмы быстрого смыслового контекстного поиска (СКП) по накопленным знаниям, оптимизированные с учетом специфики модели знаний;
— разработать подсистемы с использованием технологии клиент-сервер для реализации одновременной работы нескольких пользователей с единым хранилищем знаний, для чего разработать новый протокол передачи данных между приложениями клиента и сервера.
Фундаментом работы является представление знаний в виде объектной семантической сети (ОСС). Внешний модуль АТЕЯ используется для проведения анализа электронного текста на ЕРЯ с целью построения ОСС.
Объекты и задачи работы
Исходя из поставленной цели решения сложной проблемы, проведена декомпозиция цели и сформированы локальные цели.
В отношении представления знаний:
— провести многокритериальный анализ существующих понятий и моделей знаний, подходов к представлению знаний;
— конкретизировать понятие знания согласно поставленной задаче;
— формализовать язык описания знаний в качестве универсальной формы представления знаний для передачи знаний на различных этапах работы системы между ее компонентами.
В отношении разработки СППР на основе СХЗ:
— провести многокритериальный анализ существующих подходов к разработке СППР на основе текстовой информации и извлечения знаний из текста на ЕРЯ;-------- -- - -
'>■ "<1,цн , к.* . ?»« »л
— разработать концептуальный подход к разработке СППР на основе СХЗ согласно поставленным целям.
В отношении архитектуры хранилища знаний:
— разработать многокомпонентную архитектуру системы, с использованием технологии системы клиент-сервер, позволяющую реализовать многопользовательский режим работы;
— разработать модель представления знаний в каждом из компонентов системы;
— разработать модули анализа текста, реализующие преобразование электронного документа в хорошо структурированный текстовый вид, проведение лексического анализа документа и вызов внешнего модуля смыслового анализа текста для построения ОСС;
— разработать протоколы и механизмы взаимодействия компонентов системы;
В отношении алгоритмов работы со знаниями:
— разработать методы работы со знаниями, включающие проведение СКП в хранилище знаний на основе текста запроса на ЕРЯ;
— разработать быстрые алгоритмы преобразования представления знаний при передаче знаний между модулями системы;
— разработать алгоритмы быстрого СКП в хранилище, оптимизированные с использованием особенностей модели ФПЗ;
— разработать базу данных, выполняющую задачу хранения данных системы в представлении, необходимом для проведения поиска и использования знаний в системе;
— разработать представление результатов выделения знаний из СХЗ.
Методы исследования
Решение задач диссертационной работы основано на основных положениях теории информации, теории множеств, дискретной математики, методах имитационного моделирования и построения информационных хранилищ. В работе использованы подходы к представлению данных и алгоритмы теории графов, теории деревьев, теории конечных автоматов.
Научная новизна
В работе осуществлено решение сложной научной проблемы построения СППР на основе СХЗ, осуществляющего предметно независимую автоматическую обработку текстов на ЕРЯ без использования онтологических описаний предметных областей, и осуществления быстрого СКП в электронных документах на ЕРЯ с учетом смысловых связей между словами.
В процессе исследований и разработок получены новые научные результаты, а именно:
— проведен системно - функциональный анализ существующих подходов, на основе которого предложена новая организация СППР на базе автоматически формируемых массивов текстовой информации, содержащей агрегированные знания по различным аспектам принимаемых решений. Новая организация СППР предложена как альтернатива существующим подходам к построению информационных систем, которая отличается
высокими показателями по всем ключевым критериям оценки систем извлечения и управления знаниями;
— разработана основа для работы СГТПР в виде процедуры мониторинга знаний с использованием витрин знаний, и операции над витринами;
— проведена декомпозиция целей построения СППР, как сложной научной проблемы, на локальные цели решения более простых задач разработки компонентов СХЗ и реализации их взаимодействия;
— конкретизировано понятие "знания" для систем искусственного интеллекта и СППР, как совокупности элементов текста электронных документов и сегментов ОСС;
— проведена декомпозиция целей использования знаний на локальные цели получения и преобразования формального описания знаний, и их использование в форме проведения СКП;
— разработан новый язык формального представления знаний (ФПЗ) и операций над знаниями на основе размеченного текстового электронного документа;
— проведен теоретико-множественный анализ ФПЗ, в результате которого выделены задачи СКП как поиска на ОСС; разработаны алгоритмы решения задач поиска знаний, оптимизация которых заключается в последовательном расширении критериев поиска;
— бинарная и логическая структура представления знаний в виде динамической структуры в оперативной памяти ЭВМ и виде таблиц данных на стороне СУБД.
Практическая ценность работы
Результаты работы позволяют организовывать СППР на основе корпоративных и отраслевых хранилищ знаний, реализуемых с использованием предложенных методов и алгоритмов обработки и хранения текстовой информации. Реализовано накопление электронных документов из различных источников и извлечение заложенных в эти документы знаний.
Решение научной проблемы СКП знаний является основополагающей при использовании знаний в других задачах работы со знаниями, заложенными в тексте на ЕЯ. Исходя из этого, разработано прикладное алгоритмическое решение быстрого СКП на стороне СУБД.
Результаты работы позволяют решить следующие общие научные проблемы.
— Автоматическое интеллектуальное реферирование групп электронных документов на ЕРЯ с учетом целей реферирования в виде запроса на ЕРЯ или искусственно сформированных сегментов ОСС.
— Выделение из текста электронных документов неявных (явно не изложенных) знаний.
— Выделение целевых знаний из больших массивов электронных текстовых документов, расположенных в глобальной сети Интернет, за счет вторичного анализа результатов работы поисковых систем на основе статистического и частотных методов.
— Автоматическое определение авторства, стиля изложения и тематики электронных документов.
— Изменение стиля изложения документа на ЕЯ и его перефразирование с целью упрощения.
Использование ОСС позволило достичь хорошего качества результатов СКП в хранилище при соблюдении условия соблюдения высокой производительности при проведении операции поиска. Качество определяется соответствием и полнотой результатов проведения контекстного поиска смыслу запроса на ЕЯ.
Реализация и внедрение результатов исследования
Реализованное программное обеспечение является программным решением, включающим три основные компонента для компьютеров с операционными системами семейства Windows и сервером баз данных MS SQL Server 2000.
Апробация системы проведена в ходе организации СХЗ на основе содержательной части новостей информационного портала "Металлургическая отрасль России" www.rusmet.ru, на массиве статей по металлургической тематике, расположенных в свободном доступе на Web сервере этой системы, а также на основании ряда других источников1 статей и работ на металлургические темы. Апробация системы проведена на массиве научно-исследовательских отчетов по госбюджетной тематике Научной Исследовательской Части МИСиС (НИЧ МИСиС), а также информационного наполнения системы АКТИН2, используемой НИЧ для предоставления отчетной информации вышестоящим организациям.
Также апробация системы на предмет возможной эксплуатации, развития и использования, проведена в компании "Гмбх САС Институт", российского представительства компании SAS, и в компании ОАО «В\0 «Авиаэкспорт».
Результаты апробации подтвердили заявленную эффективность, качество и работоспособность разработанного подхода, высокую производительность алгоритмов и прикладной системы в целом, в задачах принятия решений позволив значительно повысить эффективность и удобство использования текстовых документов в качестве источников информации.
' В качестве печатных источников статей рассматриваются журналы "Известия высших учебных заведений. Цветная Металлургия", "Известия высших учебных заведений. Черная Металлургия", "Интернет Бизнес Металл", "Наука МИСиС в 2001 году ", "Наука МИСиС в 2002 году ".
2 Программа АКТИН предназначена для эксплуатации руководителями и исполнителями научно-исследовательских работ (НИР) и научно-исследовательскими управлениями вузов и организаций Министерства образования Российской Федерации при подготовке отчетных документов о НИР, финансируемых из средств бюджета и выполняемых по единому заказ - наряду, а также по отдельным заказ - нарядам.
На защиту выносятся следующие основные научные результаты:
— результаты системного анализа существующих подходов к построению информационных систем накопления и управления знаниями как основы СППР в виде новой модели СХЗ;
— результаты декомпозиции исходных целей построения СХЗ, как сложной системы, на локальные цели более простых задач; анализ состояния проблемы и необходимость создания СХЗ на основе ОСС;
— подход к построению СХЗ, реализующего автоматическое накопление документов, выделение из них знаний, предоставление возможности работы со знаниями в СППР и проведение поиска знаний с учетом смысловых связей;
— логическая структура представления знаний в виде динамической структуры и в формате таблиц данных на стороне СУБД;
— концептуальный подход к хранению древовидной структуры свойств и алгоритм поиска на множестве покрывающих деревьев;
— алгоритмы СКП на сегментах ОСС хранилища и их реализация;
— конкретизация понятия "знания", разработка новой модели знаний и разработка формального языка описания знаний и операций над ними.
Апробация работы
Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:
— Международная конференция ДИАЛОГ'2003 «Компьютерная лингвистика и интеллектуальные технологии» (Протвино, ABBYY, 2003);
— 5-я международная конференция "Интерактивные системы: проблемы человеко-компьютерного взаимодействия" IS-2003 (Ульяновск, УГТУ, 2003);
— 7-й Российской научно-практической конференции "Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями" РБП-СУЗ-2004 (Москва, МЭСИ, 2004);
— Virtual Forum on Decision Engineering (http://www.virtualconf.com, 2002).
Публикации
По материалам диссертации опубликовано 4 работы.
Структура и объем работы
Диссертационная работа изложена на 150 страницах машинописного текста, иллюстрирована 13 рисунками и 3 таблицами. Она состоит из введения, глоссария, 4 глав, заключения, библиографического списка из 120 наименований и 13 приложений.
Содержание работы
Во введении обоснована актуальность проблемы, сформулированы цели и задачи диссертационной работы, ее новизна, кратко изложены полученные результаты.
Показано, что для систем поддержки принятия решений в металлургии актуальной является задача извлечения знаний из текстовых электронных документов на ЕРЯ без учета тематики документа, но с учетом целей извлечения знаний. Важным является необходимость исключения интерпретации исходного текста на первом этапе выделения знаний с целью сохранения его информативности, а также представление полученных результатов в виде синтезированного электронного документа на ЕРЯ.
Глоссарий содержит перечень аббревиатур, используемых в работе.
Первая глава посвящена анализу существующих методов и классов прикладных систем, работы с текстовой информацией и знаниями. Проведен анализ существующих подходов к построению информационных системы работы с текстовой информацией и знаниями с целью выделения функциональных особенностей систем, которые могут быть использованы при построении СХЗ на ЕЯ.
Выявлены и проанализированы основные альтернативы, сгруппированные в семь групп прикладных систем, различающихся в концептуальном определении понятии "знания", подходу к извлечению знаний, ФПЗ и операциях со знаниями:
— О, - экспертные системы;
— в2 - системы управления корпоративными знаниями;
— С, - системы документооборота;
— в4 - распределенные информационные сети;
— С5 - системы сбора и классификации информации;
— - хранилища данных;
— С7 - хранилища знаний.
I Для проведения анализа были сформированы следующие критерии в нечет-
ком виде, упорядоченные по значимости:
— К, - ЭВМ как централизованное хранилище знаний различных предметных областей, по различным аспектам принимаемых решений;
— кг - естественность формы представления знаний для ЛПР;
— Ку - качество извлекаемых знаний, определяемое полнотой и соответствием цели извлечения знаний;
— Кх - использование текста на ЕРЯ в качестве источника знаний;
— - обработка текста без заранее определенной тематики и структуры.
— кь - выполнение всех операций извлечения знаний из источника в автоматическом режиме;
— к1 - производительность при автоматическом извлечении знаний, обратно пропорциональна длительности операции анализа источника;
— Кц - производительность при использовании знаний, обратно пропорциональна длительности операции обработки запросов;
— К9 - автоматическое пополнение накопленных знаний;
— К10 - объем исходной информации.
В ходе анализа были выявлены недостатки и достоинства каждой из альтернатив б, согласно критериям К). Проведена экспертная оценка локальных критериев по количественной шкале от 1 до 10.
Было показано, что наиболее эффективной и востребованной формой представления знаний для пользователя является текст на ЕЯ. Наилучшей формой представления знаний пользователю обладают системы С,, но извлечение знаний в них проводит ЛПР. Системы реферирования группы в, автоматически формируют текст на ЕРЯ. Но, с точки зрения естественности языка изложения и полноты извлеченных знаний, качество результатов работы таких систем, как правило, низкое и требуется доработка результатов с привлечением ЛПР. Производительность систем также не соответствует требованиям.
Системы группы в,, обладают свойством высокой производительность как операции АИЗ из большого объема исходной информации, так и использования знаний. Выделение "витрин" для организации работы пользователя с извлеченными знаниями предоставляет пользователю только ту информацию, которая ему необходима, что является очень удобным при условии наличия очень большого объема информации. Минусом этих систем является использование в качестве источников только массивов численных данных.
Высокой производительностью и качеством также обладают системы С2. Минусом таких систем является то, что носителями знаний остаются люди, система содержит только "метазнания" - кто и какими знаниями обладает.
Условию АИЗ из текста отвечают системы в,, но они ограниченны заранее определенной структурой электронного документа. Поисковые системы групп С, и С, позволяю искать электронные текстовые документы с высокой производительностью, но при этом характеризуются отсутствием учета смысловых связей между словами искомой фразы, чувствительностью к подготовке документов при добавлении в систему (индексации) и отсутствием выделения знаний из документов.
Смысловой поиск в тексте реализован в системах С,1. Это достигается за счет снабжения текстовой информации семантической информацией. Но эти системы требуют описания семантики текста вручную, что не удовлетворяет цели данной работы - извлечению знаний в автоматическом режиме.
В системах с, также реализуется подход на основе семантических сетей, которые стоятся автоматически. Но использование полученных знаний осуществляется при визуальном отображении участков получаемых сетей, режим автоматического поиска знаний не предусматривается. Исходя из исходных целей построения таких семантических сетей, можно предположить, что количество извлекаемой информации недостаточно для качественной автоматической работы. Результатом работы является весь исходный документ. Так как работа
осуществляется в человеко-машинном режиме, а элементами сети являются отдельные слова, а не контекстно связанные слова, естественность результатов работы и удобство работы с ними являются низкими.
В работе показано, что множество рассмотренных альтернатив является Па-рето - оптимальным. Синтезирована новая альтернатива, имеющая наилучшие значения по 9 из 10 рассмотренных критериев, которые являются наиболее значимыми (см. Таблица 1). Данная альтернатива принята как основа модели системы, наиболее подходящей для поставленной цели.
Таблица 1
Сводная таблица значений критериев альтернативных подходов
Альтернатива и ее подкласс к2 к, *7 К,, *|0
С, экспертные системы 9 10 10 3 2 - - 10 - 6
С2 системы управления корпоративными знаниями 10 - 9 2 2 2 10 - 6 2
С, - II - ■ обработка потоков электронной переписки 10 - 8 4 4 10 10 - 9 4
С3 системы документооборота 8 10 7 10 6 7 10 7 5 8
С} - II - • с использованием семантических сетей 6 10 8 9 9 10 10 9 9 8
С, - II -: подсистемы реферирования 9 5 4 6 9 8 - 3 0 2
С4 распределенные информационные сети 6 5 5 10 10 6 10 10 7 10
С, системы сбора и классификации информации 7 10 6 10 10 9 10 10 8 8
С6 хранилища данных 8 9 10 - - 10 10 10 10 10
С7 хранилища знаний, документы с семантикой 8 10 10 10 6 - - 7 - 3
С7 - II - с использованием онтологий 8 10 10 9 2 10 9 10 10 6
С, новая система на основе ОСС 8 10 9 9 9 10 9 9 10 6
Анализ показал, за счет каких особенностей подходов достигается максимизация отдельных критериев. Оценка альтернатив позволила выявить факторы, которым должна соответствовать идеальная система. Множество альтернатив, дополненное (?8, остается Парето - оптимальным. Но при этом С,, позволяет максимизировать значения всех наиболее значимых критериев К, - Кч, оставляя не оптимальным наименее значимый Кш. Учитывая поставленную цель, объем обрабатываемой информации заведомо ограничен, и среднее значение этого критерия является хорошим для достижения цели.
Основными особенностями идеальной модели, основанной на С8, являются: высокая производительность операции автоматического (А-,) анализа текста (К6) на ЕРЯ (Кл) без заранее определенной тематики (А"3) и операции использования знаний (Кг), организация единого хранилища (К[), регулярно попол-
няемого новыми знаниями (К9), и использование знаний за счет проведения смыслового контекстного поиска на основе запроса на ЕЯ (Ki) и представление извлеченных знаний в виде найденных контекстных упоминаний (К2), выделенных из текста исходных документов большого объема (Кт).
Проведен анализ существующих подходов к ФПЗ, методов АИЗ из текста и анализу программных продуктов, осуществляющих АИЗ из текста. Семантическая сеть выбрана как наиболее подходящая основа для ФПЗ знаний. Исходя из необходимости учета нескольких видов отношений между словами и учета всех словоформ исходного текста, сделан вывод о необходимости доработки структуры семантической сети.
В ходе анализа существующих моделей знаний и форм описания информации сделан следующий вывод. Носителем знаний является исходный текст на ЕРЯ, дополненный формальным описанием смысловых связей между словами этого текста. Любые операции по преобразованию этих знаний, их усечение или дополнение, является попыткой их интерпретации, в ходе которой теряется исходный смысл. Таким образом, для использования ЛПР знаний, заложенных в текст, необходимым является наличие метода выделения из текста смысловых связей между словами, определяемых морфологией и правилами русского языка. Этот метод должен удовлетворять следующим критериям:
— N, - использование при анализе текста только морфологической информации русского языка;
— /V, - производительность операции анализа;
— N, - близость результатов анализа определения смысловых контекстных связей между словами близких по смыслу текстов;
— yv4 - полностью автоматический режим работы алгоритмов.
Следовательно, имеют место также дополнительные критерии оценки метода анализа текста: Ns - независимость алгоритмов анализа от тематики текста и N6 - отсутствие требований наличия онтологических знаний об окружающем мире.
Проведенный анализ существующих методов выделения знаний из текста показал, что подходящим методом является метод выделения ОСС, заложенный в модуль Анализатора Текста на Естественном Языке (АТЕЯ), разработанный на Кафедре Инженерной Кибернетики МИСиС. Реализованное программное обеспечение на основе этого метода обладает максимальными значениями всех критериев оценки N, - N6.
Анализ способа хранения информации показал, что наиболее подходящей формой хранения данных, составляющих знания, является табличная форма на стороне СУБД, обладающей функцией оперирования табличными данными на стороне сервера и поддерживающей многопользовательский режим работы.
В качестве языка передачи знаний и совершения операций над знаниями выбран язык SQL3, являющийся стандартным для множества существующих
3 Structured Query Language (англ.) - язык структурированных запросов.
СУБД промышленного уровня. Учитывая то, что SQL оперирует только простыми типами данных, такие как численные данные и строки, необходим язык ФПЗ в виде структурированного текстового документа. Анализ существующих форматов структурированных текстовых документов показал, что в качестве основы наиболее подходящим языком является язык XML4.
Во второй главе для достижения поставленных целей исходной сложной задачи проведен системно-функциональный анализ с целью проведения декомпозиции исходных целей на более простые, локальные цели.
Анализу подверглись две сложные системы - СХЗ как программный комплекс, и ФПЗ как система, функциями которой являются формальное описание знаний и операций над ними.
В качестве элементов первой сложной системы выступают модули и компоненты модулей программного комплекса, механизмы их взаимодействия и информационные потоки между ними. В качестве элементов второй сложной системы выступают элементы знаний и связи между ними.
В ходе проведения декомпозиции целей построения системы хранилища знаний выделено три модуля верхнего уровня.
1. Серверное приложение. Реализует преобразование обращения клиентов к функциям системы к функциям, реализующим операции над знаниями, в высказывания на языке ФПЗ.
2. Клиентское приложение. Реализует доступ пользователя к функциям хранилища знаний и предоставляет визуальный интерфейс для совершения операций над знаниями, в том числе представление результатов поиска знаний.
3. База данных с модулем интерпретации ФПЗ. База выполняет функции хранения данных, составляющих знания, и реализует СКП. Модуль интерпретации ФПЗ осуществляет преобразование высказываний на языке ФПЗ в последовательность SQL выражений.
Для взаимодействия клиентского и серверного приложения необходим протокол высокого уровня. Логика работы протокола должна обеспечивать условия работы в существующих компьютерных сетях, основным протоколом работы которых является TCP/IP. Необходимо реализовать операции добавления документа в хранилище, удаление документа и просмотра знаний, накопленных в хранилище.
Для выделения ОСС из текста необходимо реализовать механизм работы серверного приложения с программным модулем АТЕЯ. Особенность работы модуля АТЕЯ является то, что в качестве входящей информации выступает список словоформ. Как следствие для построения списка словоформ из текста необходимо разработать лексический анализатор. Для обработки наиболее распространенных форматов электронных документов, таких как DOC и RTF, серверное приложение должно обладать функцией преобразования указанных форматов электронных документов в простой текстовый формат.
ОСС состоит из следующих типов элементов:
4 Extensible Markup Language (англ.) - расширяемый язык разметки
— Е : сущность (Entity);
— О : объект (Object);
— L : связь (Link);
— Р : свойство (Property), которое бывает двух типов:
о свойство описания (PD, Property Description); о свойство принадлежности (РР, Property Pertain);
— С: контекст (Context);
— D : документ (Document).
При этом разделяют свойства объектов Р° и свойства связей PL , P = P°\JPL.
В узлах сети хранятся словоформы - 1 ) слова русского языка в нормальной форме, либо 2) не идентифицированные при морфологическом анализе строковые значения в исходном виде, включая числовые значения и слова на иностранном языке.
Среди новых системных свойств ФПР можно выделить следующие. Источником информации являются электронные текстовые документы. Документы делятся на контексты. В рамках контекста определяются объекты, связи и свойства. Элементы сети принадлежат только одному контексту. Сущности определяются вне контекстов, объединяя различные объекты. Таким образом, сущности могут объединять объекты различных контекстов.
Между элементами ОСС определены следующие отношения:
— Rc : отношение объекта, связи и свойства к контексту;
— Rf : отношение объекта к сущности;
— Rlo : отношение вида "объект" - связь;
— Ru : отношение вида связь - "субъект";
— r0 : отношение свойства к владельцу (объекту или связи);
— rpp : отношение свойства к другому свойству в качестве подсвойства.
Важное системное свойство ФПЗ - описание контекстного смысла текста.
Под знаниями в системе хранилища знаний понимается <A,R> - совокупность электронных документов, контекстов этих документов и сегментов ОСС, выделенных из контекстов, где а = d\JC\JE\JO\Jl\JP°\JPl - множество элементов сети, a r = rc U Rr U Rlo U R,s U Rf, U RP - отношения между элементами.
Концептуальное определение ОСС, данное авторами модуля АТЕЯ, было расширено и развито для использования в СХЗ. Схематическая структура полученной ОСС приведена на рис. 1.
По виду динамической структуры данных ОСС можно разделить на два уровня: объектная сеть на верхнем уровне и древообразная структура на уровне свойств.
В результате декомпозиции целей работы с ФПЗ как со сложной системой, выделены следующие задачи:
— разработать алгоритмы анализа ФПЗ в ОСС и обратного синтеза;
— разработать и реализовать представление знаний на стороне СУБД;
— разработать и реализовать алгоритмы преобразования знаний из ОСС в табличное представление на стороне СУБД;
— разработать алгоритмы выделения сегментов ОСС из табличного представления знаний и синтез на их основе ФПЗ;
— провести анализ конфигураций, получаемых из запросов при проведении контекстного поиска;
— провести декомпозицию задачи СКП с использованием табличного представления ОСС, с учетом сегментов ОСС, получаемых из запроса поиска на ЕЯ;
— разработать и реализовать алгоритмы поиска.
Визуальное представление структуры знаний ОСС с примером предложения "... протекают процессы испарения влаги ..."
СП О ГЗ
| Сущность I
| Объект 1 -- ("- 1 № гМ ч / 1 /' I 1/ ( 1 . л V / \ / \ 1 А У 1 ( / Ъ:
и 1ч 1 |§°
| Связь 1 -1 1
1 Свойство 1 -] объекта ] 1Н
Ч N
протекать
процесс
испарение
влага
связи рис. 1
Эти задачи были изучены и решены. Для анализа и синтеза высказываний на ФПЗ и программной работы с ОСС как с динамической структурой в памяти компьютера необходимо разработать ООП библиотеку работы со знаниями.
В третьей главе сформулирован подход к построению системы хранилища знаний, приведено формальное описание задач выделенных локальных целей, и их алгоритмическое решение.
Подход заключается в использовании исходного текста, дополненного сегментом ОСС, в качестве носителя знаний, оставляя функцию интерпретации знаний ЛПР. Операции над знаниями заключаются в извлечении знаний из хранилища на основе запроса на ЕЯ.
Витрина знаний является основой для работы СППР со знаниями СХЗ, логически объединяя совокупность элементов ОСС, выделенных из ОСС хранилища, включая документы и контексты, 1) на основе результатов проведения
операции поиска, либо 2) выделенных и объединенных в витрину на основе решения ЛПР, в режиме интерактивной работы с хранилищем.
Проведен теоретико-информационный анализ конфигураций сегментов поиска (СП), получаемых на основе запроса на ЕЯ. Выявлено две группы ситуаций неоднозначности, требующие дополнительного решения в виде поиска структур сегментов ОСС, подобных искомым.
Первая группа неоднозначностей связана с тем, что объекты СП, которые не имеют связей, могут быть трактованы как свойства принадлежности (см. рис. 2, а)). Аналогично, свойства пустых объектов могут выступать в качестве свойств как объектов, так и связей (см. рис. 2, б)). Вторая группа связана с неоднозначностью самого результата объектного семантического анализа при выделении "субъекта" связей и их свойств принадлежности первого уровня. Неоднозначность анализа является особенностью алгоритмов работы АТЕЯ. В результате "субъект" связи может присутствовать среди свойств связи (см. рис. 2, в)), как и верно обратное (см. рис. 2, д)).
Алгоритмы поиска заключаются в последовательном выделении подмножеств элементов сети, удовлетворяющих СП. Задача СКП является одной из наиболее сложных алгоритмических задач использования знаний. В ходе практических исследований было выявлено системное свойство модели ФПЗ: разные типы элементов встречаются с разной частотой.
МЩ ч М(Е) < М(О) ч М(Р'-),М(Р0),
где М - мощность множества (количество элементов).
Схематическое изображение возможных сегментов сети в случаях неоднозначности объектов без связей и свойств пустых объектов, а также свойства _связи и "субъекта" связи_
ПРИМЕР' На реализацию инвестиционной программы привлечь ...
О - Свойство О -Объект [ ) - Сущность
нф - Связь
- Искомый сегмент
0 - Пустой объект
(без наполнения)
Ч \ I----'-----___V
--------- I инвестиционный г ~ _
а) 1---------б)
ПРИМЕР Это порождает весьма специфический характер деформированно-
С71 - Пустая сущность (без наполнения)
го состояния металла. .
|--------1
% г погюждать |
- Искомое соответствие
I
гГ Ц1_
характер \
В)
—Ц специфический \
рис. 2
Оптимизация разработанных алгоритмов заключается в первоочередном выделении множеств, имеющих наименьшую потенциальную мощность, за счет последовательного усиления критериев отбора искомых элементов ОСС. Как следствие, снижается трудоемкость операций над множествами на последующих шагах. Алгоритмы поиска учитывают дополнительные задачи поиска, и решают выявленные неоднозначности.
Описание алгоритма поиска. На начальном шаге алгоритма СКП происходит проверка наличия словоформ СП в словаре хранилища. В случае если словоформа элемента не найдена, проводится его удаление из СП, и рекурсивное удаление элементов сети, имеющих с ним отношения, так как такие элементы заведомо отсутствуют в хранилище.
Далее проводится поиск с последовательным усложнением критериев отбора элементов сети согласно потенциальной мощности разных множеств элементов ОСС. Сначала учитываются только связи, за тем "объекты" связей, свойства связей, и так далее (см. рис. 3).
Схема усиления критериев поиска, отображающая конфигурацию искомых
а) б) в)
к)
г
О - Искомое Свойство, как Свойство
# - Искомый Объект, как Объект
(О) - Искомый Объект, как Свойство
® - Неявно запрошенный Объект
—► - Направление очередности алгоритма
нф - Искомая Связь
/р^. - Искомое Свойство, сменившее тип чту владельца
™<> - Неявно запрошенная Связь
■ Искомое Свойство, как Объект с отношением "Субъект" к связи
рис. 3
Введено определения покрытия сегментов: X =< А",ях >, У =< Аг ,ЯГ >, X с У = (Уае А* ЗЬе Аг)&(Уа1,а2е А" У г" е Я* ,г" (я,,а2) =>
ЗЬ„Ь2е А',3гг б йЧа, =Ь, &а2 =Ь2 &ггф,,Ь2)) Введено определение эквивалентности сегментов: X ~У = Х &.У ^Х . Введено дополнительное определение эквивалентности для случаев эквивалентности элементов СП элементам других типов.
Тогда алгоритм записывается как последовательное выделение сегментов: с 5 ~<1,® >> где ® . пустое множество; с (впя.) I~< {1ио}.лц > .
S, С (5 n s2) I s} ~ < (L и О и P), и Rc и Rt U R™»tOM} > S4 с (S n 5,) I s4 ~ < (L и о и P), {Ru U Rc U Re U Ro '"i0 L' U C"(0 L' U R'o} > 5, с (5 n S4) I s5 ~ < {I и О и P], [Ru U Rc и Re и RL> и l,\JRoURlo)> s„ я (5 n ) I s„ ~ < {III о и p), {Ru ил( и R, и С"'0'''1 и R™"l0X) и
U URo""'to" UR™1"10"}> s: с (S П ) ISZ = < {¿и О и Р}, и Rc и Rt и Ro""'0 Ll U С"<0 " U
, где "субъ
я™'"'"-" и яЩ,""'"'-1'} >
ект" связи соответствует свойству связи первого уровня: о -> Р
^ С (5п5,) 1-<{¿иоиШЛц иЛс ииц иR%R»i0■ц и
, где своист-
RLU ийшиRo'w{0ц UСЯи,<0"}>
_IfL
во связи первого уровня соответствует "субъекту" связи: с"-» о"ш .
S1 C5IS, = 0
- пустой объект.
Ss с s I St = < {О U~Р),{Rc U Rt U R° U L»«"«>-Ln} >
S, с S15, = < {О U Р}, {Rc U re U R° U L*KuiW '•"}>, где искомый объект
соответствует свойству 0-*Р ш
Результатом работы алгоритма является сегмент S = 56 U U S' U S7 U S, U S9.
Алгоритм поиска покрывающих деревьев основан на преобразовании древообразной иерархической структуры дерева к линейной, за счет ввода информации о пути от вершины до корня дерева, записанного с использованием кодов словоформ вершин. Кортеж <{P},{Ree}> преобразуется в кортеж < [Ршн },{®}> • В итоге, при поиске покрывающего дерева проводится поиск вершин деревьев, имеющего такой же путь, как и в искомом дереве.
В четвертой главе приводится описание программного комплекса, реализованного на основе разработанного подхода.
Серверное и клиентское приложение, модуль интерпретации ФПЗ разработаны в среде Delphi 7 на объектно-ориентированном языке Pascal. База данных системы реализована в СУБД Microsoft SQL Server 2000.
Реализованы операции добавления документа в систему, удаление документа и просмотр его содержания, структуры и сегментов ОСС.
Протокол. Разработан новый протокол, особенностями которого являются наличие режима передачи информации с ее предварительным сжатием, асин-хронность работы и оптимизация команд для работы с данными СХЗ.
Лексический анализ реализован в виде модуля на основе конечного автомата, позволяющего последовательно выделять из текста документа параграфы, контексты и словоформы. Описание автомата: A=<q0,Q,T,t,C,W,w> где q„ - начальное состояние, Q = [qi},., 7 - множество состояний (всего семь), Т
- входной алфавит (ASCII коды), t cz<Q,w> xTx<Q,w> - правила перехода между состояниями (схема приведена на рис. 4), С - список контекстов, W - спи-
сок словоформ, и> - временный буфер символов. Правила перехода задаются алгоритмически в виде продукционных правил.
Алгоритмы СКП и добавления знаний в систему реализованы с использованием хранимых процедур и временных таблиц. Работа с множествами элементов ОСС реализована в виде работы с временными таблицами элементов ОСС. В базе данных хранение словоформ организовано с использованием внутреннего словаря. Каждой словоформе соответствует уникальный код, который используется для описания словоформ в таблицах описания элементов ОСС.
Схема переходов между состояниями. Переходы, обозначенные сплошной линией, сопровождаются выводом одной или более словоформами.
состояние без истории
о—-.о-
еловое точкой и разделителем
инициалы
сточкой
О слово с точкой
рис. 4
Запись избыточной информации о пути от вершины дерева к корню дерева использует четырех байтный код словоформ. В ходе исследования получено среднее распределение значения глубины вершин, согласно которому коэффициент увеличения размера информации составляет 2 - 3 к размеру кода, что является хорошим показателем для избыточной информации, так как вся информация об элементе типа "свойство" занимает порядка 45 байт.
Результатом поиска является витрина знаний (см. рис. 5), либо перечень найденных документов и контекстных упоминаний в визуальном интерфейсе клиентского приложения (см. рис. 6). Витрина знаний хранит результаты проведенной операции поиска.
Результаты поиска и содержимое витрины могут быть экспортированы в HTML файл для последующего использования в сторонних программных продуктах. Содержимое витрины знаний и результаты поиска описываются в виде высказывания на языке ФПЗ. Как следствие, они могут также быть использованы в сторонних программных системах, работающих с сервером СХЗ.
Апробация системы на примере реализованных хранилищ знаний подтвердила ожидаемую производительность при анализе документов и при их поиске, а так же качество получаемых результатов. Было отмечено, что на качество результатов значительно влияет полнота морфологического словаря.
Примером эффективности подхода является проведение поиск по фразе "материалов деформация". Результаты поиска в хранилище, построенном на
основе информации НИЧ, идентичны результатам поиска по фразе "деформация материалов". Из 5 найденных предложений все содержали контекстно связанные слова, которые при этом в предложении находились не рядом (см. рис. 6). Необходимо отметить, что результаты поиска по не связанным словам содержали предложения со словами, контекстно не связанными между собой.
Форма визуального интерфейса витрины знаний на основе запроса
"материалов деформация" на основе информации НИЧ МИСиС.
Окно витрины
Название витрины Витрина "¡штммов деформация"
'- (£3 [1 1200/АСТЕ1
Создание реологической теории и математической модели высокотемпературной деформации г Я Щ [1 12 00/ДЖЛ1
Создание реологической теории и математической модели высокотемпературной деформации ► Модель позволила обобщить известные данные о Физической природе высокотемпературной Д( ' Математическое моделирование сверхлластическойдеформэции керамических материалов с с - I') йос4 Исследование реологического поведения сверхпластичных нанокристаллических и аморфных Научно-исследовательская лаборатория деформации сверхпластичных материалов (НИЛ ДСПМ -
Документов: 3
Контекстов; -5
рис. 5
Пример визуального интерфейса проведения поиска в реализованной системе.
Искомое:
ртериалов деформация
Л отсвечивать найденное
Поиск
Зжкыгь
VI1.12.ао ( мчат}
I контексгав! % -
1 Создание реологической теории и математической модели высокотемпературной деформации металлических материалов в процессах с шкро- и макросдвигами.
1 Модель позволила обобщить известные данные о физичесгой природе высокотемпературной деформации струкгурночувствительных
поликристаллических материалов и описать феноменологические особенности сверхпластической деформации материалов разных структурных типов.
1 Математическое моделирование сверхпластический деформации керамических
ьлататлъппп г пЛмки/плиигЛ гтг>иутчгугчл ^ ^ .... у ...........
Документов! 3 Контекстов:
рис. 6
Результатом поиска той же фразы в поисковых системах Yandex.ru, Mail.ru и Google.ru оказался список, содержащий примерно от 19800 до 78500 найденных документов, из которых первые, наиболее подходящие искомым с точки зрения поисковых систем, были отобраны по контекстно не связанным словам фразы
запроса поиска (см. рис. 7). При этом результаты поиска по фразе "деформация материалов", идентичной по смыслу, значительно отличались от предыдущих по составу найденных документов.
Результаты поиска по фразе "материалов деформация" в поисковой системе Google.ru содержат документы, содержащие контекстно не связанные слова.
! gfe &*t Sew Favorites loots Це1р с
I^SeA - • Jf ■ X-] 2fj y 'Search r Favorites |^>Media у/' ^ "
Address fij http //www.google.ru/search'hl=ru6q=%D0%BC%D0%B07oDl%827«D0%B5%Dl%80°/oD0% ''j ¿J Go
Веб КЗРТИНКИ Группы Каталр; -
^ (материалов деформация Поиск |
Искать в интернете <~ Искать в русском
Веб Результаты 1 -10 из примерно 19 800 для материалов деформация (0.02 секунд)
Глоссарий гц
... Сдвиг Сдвиг- в сопротивлении материалов-деформация упругого тела, характеризующаяся...
«» jry,r "Ij'rgi b Г\у|_ '>'" 3 ''t'fcl'Ufe PC "<■> 4 ' < -S >->■»« -' <>■ >
СОПРОТИВЛЕНИЕ МАТЕРИАЛОВ ...
... сопротивления материалов Рассмотрены такие понятия
как НАПРЯЖЕНИЕ И ДЕФОРМАЦИЯ (ВИДЫ...
í«v.ítei,hriuевиrj/dD,'rr-wl2"<3cpi ?/k г - ч,-> „ и, Электронные каталоги Научной ...
_ Напряжение материалов Деформация материалов Аналитическое моделирование ...
•*w*ej-rforU /ví'i'Of.-'Cnv "flOiCt rarre SOO":« J r ü ..O, V„rreüo ¿Аргр t ¿¿ Ус.
,4 ''i ,<! - - <, i.
Новые материалы и технологии ...
... получения композиционных материалов (К И ... облучение, сильная пластическая деформация)
Ф Internet yí
рис. 7
Приведенный пример наглядно демонстрирует эффективность предложенного подхода при решении задачи принятия решений при условии использования базовой операции использования знаний в виде СКП.
В заключении сформулированы основные результаты работы, описана практическая ценность изложенного материала, сферы и способы применения результатов работы, приведены выводы по работе.
В приложениях приведены листинги классов, реализующих работу с ОСС, высказывание на языке ФПЗ, полученные на его основе высказывание на языке SQL при добавлении сегмента ОСС в хранилище, примеры визуального интерфейса реализованной прикладной системы и другая информация.
Акты внедрения результатов работы также приведены в приложениях.
Основные результаты работы
В работе осуществлено решение сложных научных проблем конкретизации понятие "знания", определения операций над знаниями, и построения СППР на основе СХЗ, осуществляющего работу с электронными текстовыми документами на ЕРЯ и автоматическое извлечение знаний из них. Детально проанализирована операция СКП как основная операция при работе со знаниями - выделения искомых знаний из хранилища. Использование в качестве носителя знаний текста на ЕРЯ и его ОСС сегмента, получаемого в автоматическом режиме только с использованием морфологии русского языка, является новым подходом в задачах искусственного интеллекта и разработки хранилищ знаний.
В процессе исследований и разработок получены следующие научные результаты.
1. Проведен всесторонний анализ с многокритериальной оценкой существующих альтернативных подходов к построению информационных систем, работающих со знаниями, в результате которого была обоснована необходимость разработки информационной системы нового вида и построена новая альтернатива, описывающая модель идеальной СХЗ. Проведен анализ сложной научной проблемы разработки СХЗ согласно полученной модели, проведена декомпозиция целей исходной задачи на локальные цели более простых задач.
2. Предложена новая организация СППР на базе автоматически формируемых массивов текстовой информации, содержащей агрегированные знания по различным аспектам принимаемых решений в виде витрин знаний.
3. На основе анализа подходов к извлечению знаний показано, что существующие подходы к семантическому анализу текста мало эффективны для анализа текста большого количества электронных документов на ЕРЯ, без описания конкретной предметной области. В то же время в данной работе было показано, что для смысловой обработки текста можно эффективно проводить анализ текста на ЕЯ без использования онтологических знаний об окружающем мире, на основе предложенного подхода.
4. На основе математической модели конечного автомата разработан модуль лексического анализа текста.
5. Разработан новый концептуальный подход к разработке систем хранилища знаний на ЕРЯ, конкретизировано новое понятие "знания" и формальное логическое представление знаний в виде сегментов ОСС.
6. Проведен теоретико-множественный и теоретико-информационный анализ модели ФПЗ и возможных конфигураций ОСС, получаемых при проведении поиска из запроса на ЕЯ.
7. Разработаны и реализованы алгоритмы смыслового контекстного поиска, оптимизированные с использованием последовательного усиления критериев отбора, позволяющие решать задачу смыслового поиска с трудоемкостью О(п).
8. Разработано бинарное представление знаний в виде языка ФПЗ и операций над знаниями на основе размеченного текстового электронного документа, также бинарное представление знаний на стороне СУБД.
9. Для решения оптимизации алгоритмов СКП разработанное формальное представление древообразной иерархической структуры множеств свойств позволяет решать задачу поиска покрывающих деревьев с трудо-
' емкостью О(п), за счет хранения дополнительной информации о пути от
вершины до корня дерева.
Ю.Предложена и реализована модульная архитектура СХЗ на основе разработанной объектно-ориентированной библиотеки обработки ОСС на языке Pascal, для работы которой разработан сетевой протокол высокого уровня передачи данных между клиентским и серверным приложениями, а также удобный визуальный интерфейс для работы ЛПР со знаниями хранилища и его функциями.
11 .Проведена апробация прикладной системы, реализующей разработанный подход и разработанные алгоритмы.
Основные положения и содержание диссертации изложены в следующих I, работах:
1. Крапухина Н.В., Кузнецов Д.Ю., Тригуб Н. А. Подход к созданию интеллектуальной системы извлечения знаний из текстовых электронных документов на основе объектной семантической сети // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2003» (Протвино, 11-16 июня 2003г.). - М.: Наука, 2003. С.327-336.
2. Krapukhina N.V., Kuznetsov D.Y. Practical Use Of Objective Analysis Of Natural Russian Technical Text. // Interactive Systems: The Problems of Human - Computer Interaction. Proceedings of the International Conference, 2327 September 2003. Ulyanovsk: U1STU, 2003. C.211-214.
3. Крапухина H.B., Кузнецов Д.Ю. Возможности системы извлечения и поиска знаний, основанной на использовании объектной семантической сети // Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями. Сб. докладов (РБП-СУЗ-2004 14-15 апреля) -.М.: МЭСИ,2004. с 208-212.
4. Крапухина Н.В., Кузнецов Д.Ю. Подход к разработке системы хранилищ знаний // Экономика, информационные технологии и управление в металлургии: Сб. научных трудов./ Под ред. А.Г. Дьячко. - М.: МИСиС, 2003. С.71-76
4
Формат 60 х 90 '/16 Тираж 100 экз.
Объем 1,5 п.л. Заказ 644
Отпечатано с готовых оригинал-макетов в типографии Издательства «Учеба» МИСиС, 117419, Москва, ул. Орджоникидзе, 8/9 ЛР №01151 от 11.07.01
«
I
f ч
J
f.
i
3
t> ¥
í
I
í
РНБ Русский фонд
2005-4 48922
»--907
!
(
Оглавление автор диссертации — кандидата технических наук Кузнецов, Денис Юрьевич
Глоссарий.
Введение.
Глава 1. Анализ существующих подходов к извлечению знаний.
1.1. Анализ подходов к организации хранилищ данных и знаний.
1.1.1 Экспертные системы.
1.1.2 Системы управления корпоративными знаниями.
1.1.3 Системы документооборота и автоматизации работы офиса.
1.1.4 Распределенные информационные сети.
1.1.5 Системы сбора и классификации информации.
1.1.6 Хранилища данных.
1.1.7 Хранилища знаний и системы выделения смысла из текста.
1.2. Описание новой альтернативной системы.
1.3. Анализ подходов к автоматическому извлечению знаний и анализу текста на естественном языке.
1.3.1 Что такое знание в современных информационных технологиях.
1.3.2 Классификация задач извлечения знаний.
1.3.3 Методы извлечения знаний.
1.3.4 Классы задач Text mining.
1.3.5 Существующие системы и решения задач Text mining.
1.3.6 Модели представления и форматы хранения знаний.
1.4. Описание модели формального представления знаний.
Глава 2. Декомпозиция целей исходной сложной задачи.
2.1. Анализ задачи разработки системы хранилища знаний как прикладной системы.
2.1.1 Архитектура системы.
2.2. Анализ задач операций над знаниями.
2.2.1 Концептуальная модель знаний.
2.3. Операции над знаниями.
2.3.1 Задача лексического анализа текста.
2.3.2 Представление знаний и задача их преобразования.
2.3.3 Операция смыслового контекстного поиска.
Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Кузнецов, Денис Юрьевич
Задачи анализа текущей деятельности и принятия управленческих решений для холдингов и больших предприятий металлургической отрасли требуют обработки большого объема текстовой информации, которая в настоящее время содержится в электронном виде во всех областях науки и техники. Так, Московский Институт Стали и Сплавов, как ведущий металлургический вуз страны, обладает большими массивами металлургической и материаловедческой информации.
В прикладных системах поддержки принятия решений (С1111Р) появилась возможность использования знаний, заложенных в текстовой информации больших массивах электронных документов. Для эффективного использования такой информации в задачах поддержки принятия решений [1] основными требованиями стали автоматическое извлечение знаний (АИЗ) из текста, высокая производительность операций анализа текста и поиска знаний, высокое качество извлекаемых знаний и их представления в удобном, агрегированном виде.
Развитие глобальной сети Интернет привело к реализации крупнейшего в истории человечества хранилища информации в электронном виде. При этом плохая структурированность описательной (текстовой) части информации значительно снижает эффективность ее использования [2]. Аналогичная ситуация складывается в корпоративных информационных системах, в которых файл -сервера и хранилища данных содержат тысячи и сотни тысяч документов на естественном языке (ЕЯ). Возникла ситуация, когда лицо, принимающее решение (ЛПР), при поиске знаний в доступных ему документах не способно в разумное время их качественно проработать без использования специальных программных средств.
Программные средства, организующие поиск по содержимому документов, значительно улучшили ситуацию [3]. Но даже при сильном сужении перечня найденных документов, этот результат нельзя считать достаточным, так как ЛПР сталкивается с необходимостью анализа всего содержимого найденных документов. Использование морфологического анализа во многом улучшило качество результатов поиска, но не более того.
В задачах принятия решений на основе большого количества текстовых документов на ЕЯ необходимо проводить предварительный программный смысловой анализ текста, реализуемый с использованием синтаксического и семантического анализа.
В настоящее время задача предметно независимого семантического анализа текста на естественном русском языке (ЕРЯ), реализуемого в виде высокопроизводительного программного обеспечения (ПО), работающего в автоматическом режиме, не решена. В отличие от множества европейских языков, семантический анализ текста которых успешно используется во многих программных продуктах, слабая формализация русского языка и, как следствие, его неоднозначность, делает задачу смысловой обработки русскоязычных текстов весьма сложной.
Таким образом, задача построения СППР на основе системы хранилища знаний (СХЗ), основанного на ЕРЯ документах, весьма актуальна.
Цель работы
Цель работы заключается в разработке подхода к построению СППР на основе СХЗ, осуществляющей работу с электронными текстовыми документами на ЕРЯ, выделение из них знаний и использование выделенных знаний для различных целей принятия решений.
Основные задачи, которые ставятся в работе: ■ провести многокритериальный анализ существующих подходов к построению СППР на основе информационных систем извлечения и управления знаниями; разработать концептуальный подход к построению СППР на основе СХЗ с интеллектуальной обработкой текстовой информации на ЕРЯ, отличающийся высокой производительностью и качеством; разработать модели представления знаний на различных этапах обработки текста и работы системы; определить в ходе системно-функционального анализа методы обработки электронных текстовых документов на ЕРЯ с целью извлечение из них знаний, независимо от предметной области и тематики текста; разработать для работы ЛПР удобный графический пользовательский интерфейс, позволяющий использовать все функции системы; разработать систему хранения исходных документов и знаний, систематизировать процессы добавления документов, удаления документов из системы и доступ к документам для их чтения и анализа; разработать методы и алгоритмы быстрого смыслового контекстного поиска (СКП) по накопленным знаниям, оптимизированные с учетом специфики модели знаний; разработать подсистемы с использованием технологии клиент-сервер для реализации одновременной работы нескольких пользователей с единым хранилищем знаний, для чего разработать новый протокол передачи данных между приложениями клиента и сервера.
Фундаментом работы является представление знаний в виде объектной семантической сети (ОСС). Внешний модуль АТЕЯ [4] используется для проведения анализа электронного текста на ЕРЯ с целью построения ОСС.
Объекты и задачи работы
Исходя из поставленной цели решения сложной проблемы, проведена декомпозиция цели и сформированы локальные цели.
1. В отношении представления знаний: провести многокритериальный анализ существующих понятий и моделей знаний, подходов к представлению знаний; конкретизировать понятие знания согласно поставленной задаче; формализовать язык описания знаний в качестве универсальной формы представления знаний для передачи знаний на различных этапах работы системы между ее компонентами.
2. В отношении разработки СППР на основе СХЗ: провести многокритериальный анализ существующих подходов к разработке СППР на основе текстовой информации и извлечения знаний из текста на ЕРЯ; разработать концептуальный подход к разработке СППР на основе СХЗ согласно поставленным целям.
3. В отношении архитектуры хранилища знаний: разработать многокомпонентную архитектуру системы, с использованием технологии системы клиент-сервер, позволяющую реализовать многопользовательский режим работы; разработать модель представления знаний в каждом из компонентов системы; разработать модули анализа текста, реализующие преобразование электронного документа в хорошо структурированный текстовый вид, проведение лексического анализа документа и вызов внешнего модуля смыслового анализа текста для построения ОСС; разработать протоколы и механизмы взаимодействия компонентов системы;
4. В отношении алгоритмов работы со знаниями: и разработать методы работы со знаниями, включающие проведение СКП в хранилище знаний на основе текста запроса на ЕРЯ; разработать быстрые алгоритмы преобразования представления знаний при передаче знаний между модулями системы; разработать алгоритмы быстрого СКП в хранилище, оптимизированные с использованием особенностей модели ФПЗ; разработать базу данных, выполняющую задачу хранения данных системы в представлении, необходимом для проведения поиска и использования знаний в системе; разработать представление результатов выделения знаний из СХЗ.
Практическая ценность работы
Результаты работы позволяют организовывать СППР на основе корпоративных и отраслевых хранилищ знаний, реализуемых с использованием предложенных методов и алгоритмов обработки и хранения текстовой информации. Реализовано накопление электронных документов из различных источников и извлечение заложенных в эти документы знаний.
Решение научной проблемы СКП знаний является основополагающей при использовании знаний в других задачах работы со знаниями, заложенными в тексте на ЕЯ. Исходя из этого, разработано прикладное алгоритмическое решение быстрого СКП на стороне СУБД. Результаты работы позволяют решить следующие общие научные проблемы:
Автоматическое интеллектуальное реферирование групп электронных документов на ЕРЯ с учетом целей реферирования в виде запроса на ЕРЯ или искусственно сформированных сегментов ОСС.
Выделение из текста электронных документов неявных (явно не изложенных) знаний.
Выделение целевых знаний из больших массивов электронных текстовых документов, расположенных в глобальной сети Интернет, за счет вторичного анализа результатов работы поисковых систем на основе статистического и частотных методов.
Автоматическое определение авторства, стиля изложения и тематики электронных документов.
Изменение стиля изложения документа на ЕЯ и его перефразирование с целью упрощения.
Использование ОСС позволило достичь хорошего качества результатов смыслового контекстного поиска в хранилище при соблюдении условия соблюдения высокой производительности при проведении операции поиска. Качество определяется соответствием и полнотой результатов проведения СКП запросу на ЕЯ.
Реализация и внедрение результатов исследования
Реализованное хранилище является программным решением для персональных компьютеров с операционной системой семейства Windows 2000 и Windows ХР и сервером баз данных MSDE 2000 либо MS SQL 2000.
Модуль интерпретации SONML, языка ФПЗ, реализованный в форме UDF1, работает независимо от выбранного SQL сервера и может быть адаптирован на интерфейсном уровне для других СУБД, с доработкой выражений на языке SQL, поддерживаемого сервером.
Практическое использование системы проведено в ходе организации хранилища знаний на основе содержательной части новостей информационного портала "Металлургическая отрасль России" www.rusmet.ru, на массиве статей
1 UDF - User-Defined Function (англ.), функции, определяемые пользователем. Как правило внешние модули, подключаемые с серверу баз данных, содержащие функции, которые могут быть вызваны из программ, выполняемых сервером. по тематикам металлургии, расположенных в свободном доступе на Web сервере этой системы, а также на основании ряда других источников статей и работ на металлургические темы2.
Апробация системы проведена на массиве научно-исследовательских отчетов по госбюджетной тематике НИЧ МИСиС, а также информационного наполнения системы АКТИН , используемой НИЧ для предоставления отчетной информации вышестоящим организациям.
Апробация системы на предмет возможной эксплуатации, развития и использования, проведена сотрудниками компании "Гмбх САС Институт", российского представительства компании SAS Institute - лидера ПО для разработки хранилищ данных и построения аналитических систем.
На защиту выносятся следующие основные научные результаты
Результаты системного анализа существующих подходов к построению информационных систем накопления и управления знаниями как основы СППР в виде новой модели СХЗ. Результаты декомпозиции исходных целей построения СХЗ, как сложной системы, на локальные цели более простых задач; анализ состояния проблемы и необходимость создания СХЗ на основе ОСС.
Подход к построению СХЗ, реализующего автоматическое накопление документов, выделение из них знаний, предоставление возможности работы со знаниями в СППР и проведение поиска знаний с учетом смысловых связей.
2 В качестве печатных источников статей рассматриваются журналы "Известия высших учебных заведений. Цветная Металлургия", "Известия высших учебных заведений. Черная Металлургия", "Интернет Бизнес Металл", "Наука МИСиС в 2001 году "Наука МИСиС в 2002 году ".
3 Программа АКТИН предназначена для эксплуатации руководителями и исполнителями научно-исследовательских работ (НИР) и научно-исследовательскими управлениями (НИУ) вузов и организаций Министерства образования Российской Федерации (далее Министерства) при подготовке отчетных документов о НИР, финансируемых из средств бюджета и выполняемых по единому заказ-наряду (E3H), а также по отдельным заказ-нарядам
Логическая структура представления знаний в виде динамической структуры и в формате таблиц данных на стороне СУБД. Концептуальный подход к хранению древовидной структуры свойств и алгоритм поиска на множестве покрывающих деревьев.
Алгоритмы СКП на сегментах ОСС хранилища и их реализация.
Конкретизация понятия "знания", разработка новой модели знаний и разработка формального языка описания знаний и операций над ними.
Апробация работы
Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:
Международная конференция ДИАЛОГ'2003 «Компьютерная лингвистика и интеллектуальные технологии» (Протвино, ABBYY, 2003);
5-я международная конференция "Интерактивные системы: проблемы человеко-компьютерного взаимодействия" IS-2003 (Ульяновск, УГ-ТУ, 2003);
7-й Российской научно-практической конференции "Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями" РБП-СУЗ-2004 (Москва, МЭСИ, 2004);
Virtual Forum on Decision Engineering (http://www. virtualconf.com , 2002).
Публикации
По материалам диссертации опубликовано 4 работы:
1. Крапухина Н.В., Кузнецов Д.Ю., Тригуб Н. А. Подход к созданию интеллектуальной системы извлечения знаний из текстовых электронных документов на основе объектной семантической сети // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2003» (Протвино, 11-16 июня 2003г.). - М.: Наука, 2003. С.327-336.
2. Krapukhina N.V., Kuznetsov D.Y. Practical Use Of Objective Analysis Of Natural Russian Technical Text. // Interactive Systems: The Problems of Human - Computer Interaction. Proceedings of the International Conference, 23-27 September 2003Г Ulyanovsk: UISTU, 2003. C.211-214.
3. Крапухина H.B., Кузнецов Д.Ю .Возможности системы извлечения и поиска знаний, основанной на использовании объектной семантической сети // Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями. Сб. докладов (РБП-СУЗ-2004 14-15 апреля) -.М.: МЭСИ,2004. С. 208-212.
4. Крапухина Н.В., Кузнецов Д.Ю. Подход к разработке системы хранилищ знаний // Экономика, информационные технологии и управление в металлургии: Сб. научных трудов./ Под ред. А.Г. Дьячко. - М.: МИСиС, 2003. С.71-76
Работа над диссертацией соответствует целям и задачам развития приоритетных направлений науки, технологии и техники Российской федерации на 2000 - 2010 год, сформулированным в "Федеральной целевой программе "Электронная Россия" [5].
Структура и объем работы
Диссертационная работа изложена на 150 страницах машинописного текста, иллюстрирована 13 рисунками и 3 таблицами. Она состоит из введения, глоссария, 4 глав, заключения, библиографического списка из 120 наименований и 13 приложений.
Заключение диссертация на тему "Система поддержки принятия решений на основе хранилища знаний с интеллектуальной обработкой русскоязычного текста на основе объектной семантической сети"
результаты работы, как правило, собираются в едином хранилище.
Рассмотрим три продукта, реализующие задачи сбора и классификации информации с различными целями и различной степенью содержательной обработки текста.
1.1.5.1 Системы на основе InfoStream
Технология InfoStream, разработка компании "ЭЛВИСТИ", решает задачу контент-мониторинга [41]. Задача системы - организация мониторинга определенных источников информации постоянно, без остановок, с целью получения информации из источников по мере ее поступления. Цель разработки - служить мостом между пользователями и информационными источниками, предоставляя информацию, очищенную от рекламы и прочего информационного мусора.
Документы в разных вариантах исполнения системы, могут целиком выкачиваться из источников, либо индексироваться, как в поисковых системах.
Ядром механизма обработки содержимого документов является полнотекстовая информационно-поисковая система InfoReS. Технология позволяет создавать полнотекстовые базы данных и осуществлять поиск информации, формировать тематические информационные каналы, автоматически рубрици-ровать информацию, формировать классификаторы, таблицы взаимосвязей понятий (относительно встречаемости их в сетевых публикациях), гистограммы распределения весовых значений отдельных понятий, а также динамики их встречаемости по времени.
1.1.5.2 Семейство продуктов "Экспресс - Досье"
Система конкурентной разведки "Экспресс-Досье " предназначена для организаций, которым необходимо автоматизировать и повысить эффективность сбора, обработки и анализа неструктурированной информации.
Особенностью системы является возможность проводить анализ на основе данных, поступающих как в формальном виде (таблицы, отчеты), так и текстовых данных. Исходные документы, которые служат основой для анализа, хранятся в архиве наряду с результатами анализа.
Система "Экспресс-Досье. Факты" позволяет вести единый внутренний архив, собирая досье на персоны, компании, их взаимоотношения, связанные с ними основные события. Обработка информации проводится путем выделения из нее основных фактов и знаний об объектах мониторинга, регистрации связей объектов друг с другом и происходящих с ними событий.
Источниками информации могут служить печатные материалы, сообщения электронных СМИ, аналитические отчеты, справочные базы данных министерств и ведомств, сведения с сайтов Интернета.
Система требует настройки модели, и, исходя из этого, поставляется вместе с настроенной моделью предметной области, которая включает список объектов, отношений и событий, представляющих интерес для заказчика.
Данная система реализует работу по предварительно разработанным шаблонам. Для автоматизированного регулярного сбора информации из источников Интернет система требует установку так называемых роботов. Источниками информации могут быть различные системы, и для каждого конкретного источника требуются доработка системы - разработка конвертора.
1.1.5.3 Система Galaktika-Zoom
Система Galaktika-Zoom - продукт российской корпорации "Галактика" [42], представляет собой гибрид поискового робота и системы анализа текстов. Основное назначение системы - интеллектуальный поиск по ключевым словам с учетом морфологии русского и английского языков, а также формирование информационных массивов по конкретным аспектам. Что характерно, семантика самого текста, его смысл, не анализируется, для анализа "Галактика-Zoom" использует исключительно методы математической статистики для решений задач Text mining.
Согласно информации, опубликованной на официальном сайте продукта [42] ". система позволяет: проводить поиск и формирование информационных массивов по конкретным аспектам исследуемой проблематики; анализировать объективные смысловые связи отобранных данных; сравнивать несколько состояний проблемы, выявление закономерностей и тенденций (или частностей и случайностей) динамики развития изучаемой проблемы."
Заявлено, что обрабатываемый объем исходных массивов данных может достигать до сотен гигабайт. А источников этих данных в виде электронных текстовых документов более чем достаточно: сообщения и статьи электронных СМИ, нормативная документация, электронная деловая переписка и материалы внутреннего документооборота предприятия, информация сайтов Интернет и т.д. Для получения текста из распространенных форматов RTF, DOC, HTML разработаны конверторы.
Алгоритм работы основана на [43] ". получении по запросу так называемого «информационного портрета» (текстовых массивов - К.Д.), или упорядоченного по значимости списка «главных тем» выборки. В основе определения главных тем и вычисления их ранга лежит идея о количественном и качественном (лексическом) различии распределения слов в конкретной выборке (документов - К.Д.) по отношению к целой базе (документов - К.Д.). При это результат запроса, набор найденных документов, ранжируется [43] ". по степени соответствия инфопортрета (то же, что и " информационного портрета " - К.Д.) каждого документа инфопортрету выборки в целом."
Как результат - первые из найденных документов, обладающие наибольшим рангом, представляют собой наиболее точное контекстное описание темы, а пользователь может эффективно уточнять запрос даже при поверхностным знакомством с темой, значительно улучшая качество результатов поиска.
Подводя итог рассмотрения систем сбора и классификации информации, необходимо заметить, что, с одной стороны, достигается высокая производительность таких систем за счет использование статистических и частотных методов анализа текста, но, с другой стороны, непосредственное выделение знаний из текста не проводится, проводится только классификация документов. Единицей информации в этих системах является документ небольшого объема, так как в основном это новости электронных СМИ и рекламные публикации.
Необходимо заметить, в этих системах решается задача хранения накапливаемой информации. Накопление и эффективная обработка - это задачи следующей группы информационных систем.
1.1.6 Хранилища данных
Хранилища Данных решают комплекс задач, главная цель которых - получение знаний за счет эффективного использования данных большого объема.
Основываясь на работе классиков исследований и разработки информационных хранилищ Ральфа Кимбела (Ralph Kimball) [44] и Билла Инмона (Bill Inmon) [45], и общей практике построения информационных хранилищ, можно выделить следующие задачи, решаемые при разработке информационного хранилища: установление доступа к разрозненным источникам; преобразование формата хранения данных к формату данных хранилища; очистка данных; организация хранения данных в едином хранилище и предоставления к ним санкционированного доступа; обновление данных хранилища путем регулярной загрузки; подготовка на основе данных информационных витрин;
Главное отличие подхода информационных хранилищ от хранения данных в СУБД является проведение агрегации данных перед их использованием, формирования витрин [46]. Если СУБД являются, как правило, транзакционны-ми системами [47], организующими многопользовательский режим изменения данных, хранилища направлены на многопользовательский режим работы предоставления доступа на чтение данных.
Для подготовки витрин проводится как простая агрегация (суммирование данных, расчет статистик), так и решение задач Data Mining (разработка числовых данных с целью добычи из них знаний) и Text mining (разработка текстовых данных с целью добычи из них знаний), которые будут более детально рассмотрены в разделе «О». Например, разработка витрины прогнозирования каких-либо показателей, включает использование механизма прогнозирования показателей на основе исторических данных.
Как правило, результатом подготовки витрин являются многомерные базы данных, MDDB (Multidimensional Data Base), основа OLAP приложений [48], содержащие данные в агрегированном виде согласно назначению витрины.
Несмотря на различия информационных хранилищ, естественным является наличие ряда характеристик, которые свойственны всем хранилищам. Прежде всего, в хранилище всегда выделяются так называемые зерна, минимальные элементы данных или элементы знаний в хранилищах знаний, и основные тематические предметы, темы хранилища. Архитектура хранилищ предполагает проведение денормализации исходной информации и построение ее в одной из заранее выбранной конструкции - звезда, снежинка и т.п.
Физическое распределение серверов хранилища должно предоставлять различным пользователям возможность доступа к данным согласно привилегиям доступа пользователей. Например, для этого используется технология HOLAP (Hybrid On-line Analytical Processing). Архитектура HOLAP организует единообразный доступ к данным, разделенным по некоторым признакам на различные базы данных, и нередко располагаемых на различных серверах. Как результат, достигается высокая производительность за счет физического разделения данных, при этом логически они составляют часть единого источника.
Примером разработки крупнейших информационных хранилищ в России можно привести информационные хранилища таких организаций, как «МПС России» [49] (ныне ОАО «Российские Железные Дороги») и «Газпром» [50].
Разработка информационного хранилища наукоемка и трудоемка. В связи с этим для построения хранилища всегда используются соответствующие программные средства. Крупнейшими поставщиками ПО для разработки информационных хранилищ из множество компаний можно выделить крупнейших. К ним относятся SAS Institute (www.sas.com), IBM (www.ibm.com), Oracle (www.oracle.com), NCR (www.ncr.com), Microsoft (www.microsoft.com).
Возвращаясь к цели разработки хранилища знаний на основе текста на ЕРЯ, необходимо отметить, что класс информационных хранилищ наиболее близок поставленной в работе цели, архитектуре системы и операциям по обработке исходных данных.
Несмотря на большое количество поставщиков программного обеспечения, решение задач анализа текста сталкивается с проблемой языкового барьера. Разработки ведущих компаний направлены для потребителей европейского либо американского рынка. Как следствие, в их развитии наибольшее внимание уделялось европейским языкам, анализ которых проще, благодаря их более строгой форме изложения. В связи с этим, для построения информационных хранилищ, с целью извлечения знаний из текста на ЕРЯ, необходимы дополнительные лингвистических разработки.
1.1.7 Хранилища знаний и системы выделения смысла из текста
Системы этого класса содержат не информацию, которую люди могут использовать, а знания. Нет единого определение знания, но объединяющим критерием систем хранилищ знаний является выделение смысловых связей, заключенных в тексте, и хранение текста вместе с его семантическим описанием.
Существует множество разработок хранилищ знаний и систем по извлечению смысла из текста, но до промышленного уровня они редко доводятся.
1.1.7.1 Группа продуктов Ontos
Группа продуктов "Ontos Series", разработанных швейцарской компанией "Ontos AG" [51] решают две основные задачи: получение информации из различных гетерогенных источников (базы данных, Интернет, поисковые машины, файловые серверы и т. д.) и ее последующая обработка с использованием оригинальных лингвистических алгоритмов.
Основой продуктов является механизм OntosMiner аналитической обработки текстов, основу которого составляет патентованная технология обработка текста на ЕЯ. Сокращение анализируемых комбинаций слов достигается с изначальным учетом конкретной предметной области текста.
Необходимо отметить, что механизм OntosMiner основан на бесплатно распространяемом продукте GATE (General Architecture for Text Engineering) (http://gate.ac.uk/).
В ходе анализа документов проводится морфологический анализ текста, затем синтаксический, после чего строится семантический образ документа. Построение семантического образа происходит с использованием словарей, разработка которых проводится либо специалистами компании-производителя, либо пользователями системы при локализации ее для конкретной тематической области.
1.1.7.2 Системы TWINS и ConExt
Задачей проект TWINS, инициативной разработкой компании НооЛаб, является разработка системы с элементами искусственного интеллекта, предназначенной для смыслового поиска информации в Интернет.
Авторами проекта сказано следующее. "Основными функциями системы являются: семантический анализ текстов на русском и английском языках, анализ запросов пользователя (на этих же языках), аналитические действия по поиску интересующей пользователя информации" [52].
Заявлено, что продукт проводит анализ текста с выделением смысла, используя синтаксический, грамматический и лексический анализ. В основе смыслового анализа лежит использование нейронной сети.
При семантическом анализе текста строятся так называемые вектора, ".которые описывают каждый объект, встречающийся в текстах, через взаимодействие его с другими объектами." [52]. Форма представления информации в виде векторов получило название "Е-5 структуры". Составляют этот вектор пять элементов: тематические объект и предикат, связка, рематический объект и рематический предикат.
Проведение семантического анализа подразумевает наличие описания знаний и их рекурсивного представления, включая причинно-следственные связи. Сам семантический анализ заключается в выделении новых знаний путем выделения из фраз объектов и отношений между ними. При этом определяется контекст, связи между обнаруженными во фразе объектами, а также отношения их к объектам, имеющимся в системе. Результат семантического анализа встраивается в уже существующую семантическую сеть.
Заявлено, что в системе происходит проверка знаний на непротиворечивость.
Алгоритмически работа системы основана на операциях с множествами упомянутых выше пятикомпонентных векторов. По оценке авторов [52]:
Предложенная рекурсивная сетевая модель (пятимерные вектора и подобная им низкоуровневая структура атомов) является существенным принципиальным развитием классических сетевых и фреймовых моделей, в первую очередь это достигается внесением рекурсивности".
Другая разработка компании под названием ConExT (Content Extracting Technology) является технологией по разработке системы автоматизированного извлечения знаний из текстов на ЕЯ, цель которой заключается в получении знаний из больших массивов текстовых документов без необходимости их про-читывания.
Под знаниями понимается информация об объектах и связях между ними.
Основой работы системы является язык программирования tExp [53], специально созданный для решения задач структурного анализа неформализованных текстов на ЕЯ, который позволяет проводить лексический, синтаксический и семантический анализ текстов на русском языке.
При использовании этой технологии в программных продуктах необходимо на языке tExp онтологически описать предметную область для выделения из текста содержательно-значащие единицы.
Учитывая использование онтологического описания в алгоритмах извлечения смысла из текста, можно сделать заключение, что TWINS является системой, требующей вмешательство человека для 1) выделения специфических знаний из текста определенной тематики, и 2) адаптации уже существующих алгоритмов и систем при изменении целей анализа текста или изменения тематики.
1.1.7.3 Системы класса Semantic Web
Проектов по накоплению знаний непосредственно в Интернет с использованием HTML документов было немало. Смысл подхода "Semantic Web" заключается в дополнении стандартного формата HTML метаданными для хранения семантическое описание смысла, излагаемого в документе.
Из множества проектов, представление знаний в которых основано на HTML с включением информации об онтологии, наиболее известны разработки SHOE [54] и Ontobroker [55].
В проекте SHOE (Simple HTML Ontology Extensions) для описания метаQ данных используется дескриптивная логика . Авторам документов предлагается включать аннотацию содержимого в документе, для последующего автоматического разбора этих знаний агентами при работе с документом. Проблема такого подхода заключается в том, что не существует стандарта описания аннотации документа, а форма изложения аннотации зависит от автора. Как следствие, документы могут быть тяжелы для качественного разбора даже при человеко-машинном режиме, и могут трактоваться неоднозначно при использовании разных онтологий.
В проекте Ontobroker реализована логика, основанная на фреймах. Пользователям предлагается реализация онтологии, также как и в предыдущей рассмотренной системе, с сопровождением текста документов аннотацией в виде семантической информации элементов текста. Но, в отличие от SHOE, в Ontobroker предусмотрен централизованный администратор онтологий. Пользователи могут использовать все термины единой справочной онтологий как основу для формального описания знаний в своих документах. Как следствие наличие единой системы ведения онтологической информации, система Ontobroker включает многофункциональный механизм вывода ответа на запрос.
1.2. Описание новой альтернативной системы
Подводя итог проведенного исследования, учитывая экспертной оценки локальных значения критериев рассмотренных альтернатив, можно сделать следующие выводы.
8 Description Logic - логика, которая на уровне концептов позволяет описывать классы через наборы свойств и наборы логических операторов.
Г™ РОССИЙСКАЯ-1
4i гаШШЗ
Наиболее эффективной и востребованной формой представления знаний для пользователя является текст на ЕЯ. Наилучшей формой представления знаний пользователю обладают системы G,, но извлечение знаний в них не поводит ЛПР. Системы реферирования группы G3 автоматически формируют текст на ЕРЯ [56]. Но, с точки зрения естественности языка изложения и полноты извлеченных знаний, качество результатов работы таких систем, как правило, низкое и требуется доработка результатов с привлечением ЛПР. Более того, при реферировании не учитывается цель реферирования - какие именно знания пользователь хочет извлечь из текста, относительного какого объекта или темы. Производительность систем также не соответствует требованиям.
Системы группы G6 обладают свойством высокой производительность как операции автоматического извлечения знаний из большого объема исходной информации, так и использования знаний. Выделение "витрин" для организации работы пользователя с извлеченными знаниями предоставляет пользователю только ту информацию, которая ему необходима, что является очень удобным при условии наличия очень большого объема информации. Минусом этих систем является использование в качестве источников только массивов численных данных и текста на европейских языках.
Высокой производительностью и качеством также обладают системы G2. Минусом таких систем является то, что носителями знаний остаются люди, система содержит только "метазнания" - кто и какими знаниями обладает. Это
• делает системы такого класса полностью непригодными для решения поставленных в работе целей.
Условию автоматического извлечения знаний из текста отвечают системы G3, но они ограниченны заранее определенной структурой электронного документа и информацией о его жизненном цикле. В системах G3 также реализуется подход на основе семантических сетей, которые стоятся автоматически. Но использование полученных знаний осуществляется при визуальном отображении участков получаемых сетей, режим автоматического поиска знаний не предусматривается. Исходя из исходных целей построения таких семантических сетей, можно предположить, что количество извлекаемой информации недостаточно для качественной автоматической работы. Результатом работы является весь исходный документ. Так как работа осуществляется в человеко-машинном режиме, а элементами сети являются отдельные слова, а не контекстно связанные слова, естественность результатов работы и удобство работы с ними являются низкими.
Поисковые системы группы систем G4 и G5 позволяю искать электронные текстовые документы с высокой производительностью. Данные в распределенных информационных сетях хранятся в неструктурированном текстовом формате, что позволяет их индексировать с помощью поисковых систем без проведения смыслового анализа документов. Элементарные знания систем <?4 имеют много общего с моделью знаний систем управления корпоративными знаниями - они указывают в каком источнике можно найти искомую текстовую информацию, что при условии постоянства доступа к ресурсам Интернет.
Системы поиска направлены на обработку очень большого количества документов с целью их нахождения, а не выделения из них смысла. Они также характеризуются отсутствием учета смысловых связей между словами искомой фразы, чувствительностью к правильности подготовки электронных документов при добавлении в систему (индексации) и отсутствием выделения знаний из исходных документов. Как следствие, пользователь может пользоваться только поиском документов по содержанию слов и фраз в лучшем случае с использованием морфологии русского языка.
Смысловой поиск в текстовых документах реализован в системах группы G7. Это достигается за счет снабжения текстовой информации семантической информацией. Но эти системы требуют описания семантики текста вручную, что не удовлетворяет требованию извлечения знаний в автоматическом режиме. Более того, многие из работ по организации хранилищ знаний не были признаны из-за разночтений в подходах и форматах описания онтологий — элементов описания знаний. Алгоритмы большинства разработок на основе продукционного подхода функционально непригодны для автоматического анализа документов общего содержания, так как их использование требует дополнительной работы по описанию предметных областей и поддержания таких описаний в актуальном состоянии.
Существующие подходы образуют Парето оптимальное множество альтернатив [57] (см. «Таблица 1»). Каждый из рассмотренных подходов обладает серьезными недостатками относительно поставленной цели, но при этом ярко выделяются факторы, максимизирующие значения отдельных критериев.
Анализ показал, за счет каких особенностей подходов достигается максимизация отдельных критериев. Оценка альтернатив позволила выявить факторы, которым должна соответствовать идеальная система. Таким образом, наиболее подходящей системой для достижения поставленной цели является система, модель которой соответствует новой альтернативе Gs особенностями которой является максимизация значений критериев: представление извлеченных знаний в виде найденных контекстных упоминаний (К2), выделенных из текста исходных документов большого объема (Кю). использование текста на ЕРЯ в качестве исходной информации ( К6, К4), без заранее определенной тематики и структуры, подобно поисковым системам, в одном из нескольких наиболее распространенных форматах (Къ); высокая производительность использования и извлечения знаний подобно информационным хранилищам за счет автоматического анализ исходного текста (к7) на стадии добавления электронного документа в систему и снабжением полученных знаний служебной, избыточной информацией, снижающих трудоемкость алгоритмов использования знаний (£8); организация единого хранилища знаний ( ЛГ,) на основе большого количества электронных документов (К10), регулярно пополняемое новыми знаниями (К9У, выделение знаний из хранилища за счет проведения СКП на основе запроса на ЕРЯ ( Къ), подобно поисковым системам, но с учетом смысловых связей между словами; содержание в результатах поиска не только перечня документов, но найденных контекстных упоминаний на ЕРЯ (К2) подобно экспертным системам и системам автоматического реферирования текста, с последующим развитием до синтеза текста на ЕРЯ на основе выделенных знаний.
Множество альтернатив, дополненное Gs, остается Парето - оптимальным (см. таблицу 1). Но при этом G8 позволяет максимизировать значения всех наиболее значимых критериев К1 - Кд, оставляя не оптимальным наименее значимый К10. Учитывая поставленную цель, объем обрабатываемой информации заведомо ограничен, и среднее значение этого критерия является хорошим для достижения цели.
Требование обработки текста на ЕЯ является одним из главных. Определение понятия знания для решения проблемы быстрого смыслового анализа текста на ЕРЯ и описание извлекаемых из текста знаний значительно влияет на структуру и функции разрабатываемой прикладной системы [58], и является другой сложной наукоемкой проблемой, которая требует дополнительного исследования.
ЗАКЛЮЧЕНИЕ
В работе осуществлено решение научной проблемы создания представления знаний на основе текстовых электронных документов на естественном русском языке и организации их использования путем осуществления смыслового контекстного поиска.
В процессе исследований и разработок получены новые научные данные, а именно:
В ходе выполнения диссертационной работы разработан подход к организации хранилища знаний на естественном русском языке, алгоритмические решения задач представления знаний и организации смыслового контекстного поиска. При этом получены следующие научные результаты:
1. Проведен всесторонний анализ с многокритериальной оценкой существующих альтернативных подходов к построению информационных систем, работающих со знаниями, в результате которого была обоснована необходимость разработки информационной системы нового вида и построена новая альтернатива, описывающая модель идеальной СХЗ. Проведен анализ сложной научной проблемы разработки СХЗ согласно полученной модели, проведена декомпозиция целей исходной задачи на локальные цели более простых задач.
2. Предложена новая организация СППР на базе автоматически формируемых массивов текстовой информации, содержащей агрегированные знания по различным аспектам принимаемых решений в виде витрин знаний.
3. На основе анализа подходов к извлечению знаний показано, что существующие подходы к семантическому анализу текста мало эффективны для анализа текста большого количества электронных документов на ЕРЯ, без описания конкретной предметной области. В то же время в данной работе было показано, что для смысловой обработки текста можно эффективно проводить анализ текста на ЕЯ без использования онтологических знаний об окружающем мире, на основе предложенного подхода.
4. На основе математической модели конечного автомата разработан модуль лексического анализа текста.
5. Разработан новый концептуальный подход к разработке систем хранилища знаний на ЕРЯ, конкретизировано новое понятие "знания" и формальное логическое представление знаний в виде сегментов ОСС.
6. Проведен теоретико-множественный и теоретико-информационный анализ модели ФПЗ и возможных конфигураций ОСС, получаемых при проведении поиска из запроса на ЕЯ.
7. Разработаны и реализованы алгоритмы смыслового контекстного поиска, оптимизированные с использованием последовательного усиления критериев отбора, позволяющие решать задачу смыслового поиска с трудоемкостью О(п).
8. Разработано бинарное представление знаний в виде языка ФПЗ и операций над знаниями на основе размеченного текстового электронного документа, также бинарное представление знаний на стороне СУБД.
9. Для решения оптимизации алгоритмов СКП разработанное формальное представление древообразной иерархической структуры множеств свойств позволяет решать задачу поиска покрывающих деревьев с трудоемкостью О(п), за счет хранения дополнительной информации о пути от вершины до корня дерева.
Ю.Предложена и реализована модульная архитектура СХЗ на основе разработанной объектно-ориентированной библиотеки обработки ОСС на язьже -Pascal, для работы которой разработан сетевой протокол высокого уровня передачи данных между клиентским и серверным приложениями, а также удобный визуальный интерфейс для работы ЛПР со знаниями хранилища и его функциями.
11.Проведена апробация прикладной системы, реализующей разработанный подход и разработанные алгоритмы.
Разработанный сетевой протокол высокого уровня позволяет решить задачу передачи информации между клиентским и серверным приложениями в многопользовательском режиме. Разработанная и реализованная архитектура системы эффективно решила задачу реализации разработанного подхода к построению системы хранилища знаний. Разработанный визуальный интерфейс предоставляет удобные средства для проведения анализа сегментов объектной семантической сети, извлекаемых из хранилища знаний.
Задача организации быстрого смыслового контекстного поиска является первой и наиболее демонстративной задачей, решенной с применением модуля АТЕЯ в прикладных системах.
Сформулированный и реализованный подход к витринам знаний является основополагающим для проведения автоматизированного реферирования и аннотирования документов.
Задачи, решаемые с использованием результатов работы
Представление знаний в хранилище организовано, с одной стороны, сегментами ОСС, соответствующими контекстам электронных документов, и единой базой данных с другой стороны.
Учитывая это, с алгоритмической и практической точек зрения представляют интерес следующие задачи: смысловой контекстный поиск с учетом описок и синонимов; нахождение неявных связей между объектами; решение направленного реферирования текста (задача суммариза-ции); синтез текста на естественном языке; развитие подхода к витринам знаний; новые возможности в решении задач Text mining.
Задача организации смыслового контекстного поиска с учетом описок и синонимов является следующей по сложности задачей относительно реализованного смыслового контекстного поиска. Решение задачи требует усложнение модели представления знаний и разработки словаря синонимов и алгоритмов идентификации описок.
Задача идентификации описок, опечаток, арифметических и грамматических ошибок [119] должна решаться еще на этапе морфологического анализа текста. В случае неоднозначного толкования слова, появляется ситуация, схожая с учетом синонимов и омонимией.
Перечень синонимов слова можно использовать как на основе программного заключения о тематике искомого, либо на основе запроса пользователя относительно тематики документа, посредством предоставления пользователю возможности выбора тематики в интерактивном режиме из вариантов, предусмотренных в словаре синонимов.
Организация поиска с учетом синонимов потребует доработку визуального интерфейса системы, алгоритмов поиска и разработку словаря синонимов.
Задача нахождение неявных связей между объектами заключается в выделении связи между заданными объектами, в явном виде не изложенные в источниках. Алгоритмы поиска могут быть различными, приведем два примера.
Первый алгоритм заключается в нахождении цепочки из ссылок и объектов между двумя искомыми объектами. Задача соответствует задаче выделения путей на графе.
Второй алгоритм заключается в анализе соответствия набора связей и свойств различных объектов на выявления их,идентичности с высоким уровнем уверенности.
Задача направленного реферирования текста заключается в выделении из текста одного или более документов информации, запрошенной пользователем.
Термин "направленное реферирование" приведен для подчеркивания того, что результатом работы должен быть текст, выделенный из источников относительно определенной цели, задаваемого в виде сегмента ОСС перед проведением реферирования. Необходимо заметить, что такой сегмент строится на основе анализа запроса на естественном языке, либо искусственно с использованием специального визуального интерфейса.
Алгоритмы реферирования заключаются в решении задачи детерминированного выделения из сегментов ОСС информации, удовлетворяющей запросу с определенным высоким уровнем уверенности, и последующего синтеза текста на естественном русском языке.
Задача синтеза текста на естественном языке заключается в построении текста на естественном русском языке на основе содержимого витрин знаний. Синтез текста требует привлечение дополнительных знаний об окружающем мире, правил построения предложений на русском языке.
Правила синтеза текста должны реализовывать различные стили изложения знаний в виде текста, зависящие от поставленной при синтезе задачи. Это может быть: отчет о выделенных из текста знаниях; литературно изложенный текст на естественном русском языке, описывающий выделенные из хранилища знания; агрегат выделенных знаний, изложенный так же на естественном русском-языке.
Развитие подхода к построению витрин знаний может проводиться в следующих основных направлениях: проведение автоматизированного контекстного поиска среди поступающих в систему документов; проведение вторичного объектного семантического анализа текста с учетом уже полученных сегментов ОСС; решения задач Text mining; представление содержимого витрины в виде синтезированного текста на естественном русском языке.
Новые возможности в решении задач Text mining заключаются в использовании структуры ОСС для выделения последовательностей объектов и связей между ними, типовых сегментов ОСС и наборов свойств элементов сети в отличие от статистических и частотных методов анализа текста.
Библиография Кузнецов, Денис Юрьевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Матвеев Л.А., Компьютерная поддержка решений. СПб.: Спец. лит-ра, 1998.-472 с.
2. Информационные ресурсы для принятия решений / Веревченко А. П., Горчаков В. В., Иванов И. В., Голодова О. В. М.: Деловая Книга, Академический Проект, 2002. 560 стр.
3. Цели и задачи ФЦП // "Электронная Россия", Информационный бюллетень 2002. -№1. - с. 11-13.
4. Ларичев О.И., Мошкович Е.М. Качественные методы принятия решений. -М.: Наука. Физматлит. 1996.
5. Ginzberg M.J., Stohr Е. A. A decision support: Issues and Perspectives // Processes and Tools for Decision Support. Amsterdam: North, Holland Publ. Co, 1983.
6. Трахтенгерц Э.А. Компьютерная система поддержки принятия управленческих решений. М.: Проблемы управления. № 1, 2003, стр.13-27.
7. Berson A., Smith S.J. Data Warehousing, Data Mining, and OLAP (Data Warehousing/Data Management). US.: Computing Mcgraw-Hill, 640 c.
8. Липаев В.В. Системное проектирование сложных программных средств для информационных систем. Серия "Информатизация России на пороге XXI века". М.: СИНТЕГ, 1999. - 224 с.
9. Губанов В.А. Введение в системный анализ: Учеб. пособие / В.А. Губанов, В.В. Захаров, А.Н. Коваленко. JL: Изд-во ЛГУ, 1988. - 232 с.
10. Прангишвили И.В. Системный подход и общесистемные закономерности. — М.: СИНТЕГ, 2000. 528 с.
11. Квейд Э. Анализ сложных систем. — М.: Сов. радио, 1969. 520 с.
12. Качала В.В. Структурный системный анализ. В 2ч. Ч. 1. Функциональное моделирование. Мурманск: Изд-во МГТУ, 2002. - 62
13. Рыков А.С. Методы системного анализа: Многокритериальная и нечеткая оптимизация, моделирование и экспертные оценки. М.: Экономика, 1999.
14. Руководство по экспертным системам: Пер. с англ. Д.Уотермен. М.: Мир, 1989. 388 с.
15. Частиков А., Белов Д., Гаврилова Т. Разработка экспертных систем. Среда CLIPS. СПб.: BHV - Санкт - Петербург, 2003. - 608 с.
16. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. - 384 с.
17. Литвак Б.Г. Экспертная информация. Методы получения и анализа. М.: Радио и связь, 1982. - 184 с.
18. Bishop К. Heads or Tales: Can Tacit Knowledge Really be Managed Электронный ресурс.: статья в ALIAnet, December 15, 2000 Режим доступа:http://conferences.alia.org.au/alia2000/proceedings/karen.bishop.html -свободный.
19. Качала В.В. Концепция управления знаниями в консалтинговой компании : Сб. докл. конф. "Реинжиниринг бизнес-процессов на основе современных информационных технологий. Системы управления знаниями" (РБП-СУЗ-2004). -М.: МЭСИ, 2004, с. 177-182.
20. Робертс-Уитт С. JI. Системы управления знаниями: все знания — на службу фирме // PC Magazine/RE. М.: СК Пресс, 2000, № 10, с. 25-28.
21. ЕВФРАТ-Документооборот Электронный ресурс. : аннотация продукта на сайте компании-производителя "Cognitive technologies" [2004]. -Режим доступа: http://www.cognitive.ru/products/euph-doc.htm, свободный.
22. Продукты Электронный ресурс.: Домашняя страница Торговая марка RCO™ компании "Гарант-Парк-Интернет" - [2004]. - Режим доступа: http://www.rco.ru/product.asp, свободный.
23. Microsoft Office Online домашняя страница Электронный ресурс. //домашняя саница продукта на сайте компании-производителя "Microsoft" : 2004., Режим доступа: http://office.microsoft.com/home/default.aspx , свободный.
24. Exchange Server. Обзор системы Электронный ресурс.: аннотация программного MS Exchange Server на сайте "Microsoft" [2004]. - Режим доступа: http://www.microsoft.com/rus/exchange/default.mspx, свободный.
25. Microsoft SQL Server. Основные факты Электронный ресурс.: аннотация особенностей продукта "SQL Server" на сайте "Microsoft" [2004]. -Режим доступа: http://www.lotus.com/products/discserver.nsf, свободный.
26. Lotus Discovery Server Электронный ресурс.: аннотация продукта на сайте компании-производителя "IBM" [2004]. - Режим доступа: http://www.lotus.com/products/discserver.nsf, свободный.
27. Куроуз Д.Ф., Росс К.В. Компьютерные сети. Многоуровневая архитектура Интернета. СПб.: Питер, второе издание, 2004, 768 с.
28. Грир Т. Сети интранет. М.: "Русская Редакция", 2000. - 368 с.
29. Фарли М. Сети хранения данных. М.: Лори, - 2 издание, 2004., 576 с.
30. Леонтьев В. П. Поиск в Интернет. М.: ОЛМА-Пресс Образование, 2004. - 47 с.
31. Аверченков В. И. Информационный поиск в Интернете : Учеб.пособие. / В.И. Аверченков, С.М. Рощин, Ю.Т. Трифанков; М-во образования Рос. Федерации, Брян. гос. техн. ун-т. Брянск: Изд-во Брян. гос. техн. ун-та, 2002. - 303 с.
32. HTML 4.01 Specification Электронный ресурс.: описание спецификации [2004]. - Режим доступа: http://www.w3.org/TR/REC-html40/, свободный.
33. Поляков В.Н. Интеллектуальная поисковая машина. Концептуальный проект. // Труды Казанской школы по компьютерной и когнитивной лингвистике. TEL-2000. Вып. 5. Казань. 17-20 октября. 2000 г. — Казань: Изд-во Сэлэт, 2000.
34. Поисковые механизмы Google Электронный ресурс. публикация на сайте компании Master-IT, май, 2003. - Режим доступа: http.7/hosting.master-it.ru/articles/artiGle.php?aid=l0&acid=28 - свободный.
35. Демьянков В.З., Морфологическая интерпретация текста и ее моделирование. М.: Изд-во МГУ, 1994. - 206 с.
36. Поиск@Ма11.ги научился использовать особенности русского языка Электронный ресурс. // электронный новостной сайт "Компьюлента", апрель, 2004 г., Режим доступа: http://www.compulenta.ni/2004/4/l9/46409/, свободный.
37. Технология мониторинга новостного контента Интернет Электронный ресурс.: домашняя страница технологии InfoStream® [2004]. - Режим доступа: http://infostream.com.ua/, свободный.
38. Антонов А.В., Курзинер Е.С. Новые возможности поисково-аналитической системы «Галактика-ZOOM» (ранжирование документов по значимости) // Труды международной конференции ДИАЛОГ'2003. Сб. ст. М., 2003, с. 326.
39. Kimball R., Reeves L., Ross M., Thornthwaite W. The Data Warehouse Life-cycle Toolkit: Tools and Techniques for Designing, Developing, and Deploying Data Warehouses. US: Wiley, 1998, 771 c.
40. Inmon W.H. Building the Data Warehouse (2nd Edition). NY.: Wiley, 1996, 401 c.
41. Использование витрин данных в учетной системе. Подготовленно: по материалам зарубежных сайтов Электронный ресурс. : Перевод: Inter-soft Lab [2004]. Режим доступа:http://utc.jinr.ru/database/articles/vitrinydannyh/index.htm, свободный.
42. Бэкон Д., Харрис Т. Операционные системы. Параллельные и распределенные системы. СПб.: Питер, Издательская группа BHV, 2004. - 800 с.
43. Архипенков С. Я., Голубев Д. В., Максименко О. Б. Хранилища данных. От концепции до внедрения. М.: Диалог - МИФИ, 2002. - 528 с.
44. Волков Д., Дубова Н. Информатизация МПС // «Открытые системы», 2001, № 10, М. -2001.
45. Информационно-аналитическая система корпорации на основе хранилища данных // "Газовая промышленность" №1, 2002, издательство 'Тазоил пресс", 2002.
46. Ontos Series Overview Электронный ресурс.: аннотация серии продуктов на сайте компании-производителя "Ontos" [2004]. - Режим доступа: http://www.ontosearch.com/overview.php, свободный.
47. Luke S., Heflin J. SHOE 1.01. Proposed Specification Электронный ресурс. : спецификация формата на домашней странице 2004, Режим доступа: http://www.cs.umd.edu/projects/plus/SHOE/spec.html, свободный
48. Ontobroker: Ontology Based Access to Distributed and Semi-Structured Information // Decker S, Erdmann M, Fensel D., Studer R., Semantic Issues in Multimedia Systems. Proceedings of DS-8. Boston: Kluwer Academic Publisher, 1999, c. 351-369.
49. Удо X., Индерджиет M. Системы автоматического реферирования // «Открытые системы», 2000, №12, М. 2000.
50. Подиновский В.В., Ногин В.Д. Парето-оптимальные решения многокритериальных задач. М.: Наука, 1982. - 254 с.
51. Абрамова Н.А. Методология повышения надежности проектирования программно-технических средств на основе формализации знаний. // Автореферат докторской диссертации. М.:, ИПУ РАН. 2002. 52 с.
52. Еремеев В.Е. Чертеж антропокосмоса. М.: АСМ, 1993, 384 с.
53. Huang, К., Lee, Y.W., Wang, R.Y., Quality Information and Knowledge. Upper Saddle River. NJ: Prentice Hall PTR, 1999. - 146 c.
54. McDonough B. Targeting KM solutions to vertical industries // KMWorld, Volume 11, Issue 1. January 2002.
55. Davis R., Shrobe H., Szolovits P. What is a Knowledge Representation? // AI Magazine, 14(1), 1993., с 17-33.
56. Черняк JI. Управление знаниями и информационные технологии // «Открытые системы», 2000, № 12, М. 2000.
57. Боровиков В. П. STATISTICA: искусство анализа данных на компьютере. Для профессионалов. СПб.: Питер, 2001. - 656 с.
58. Adamo J.M. Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms. NY.: Springer-Verlag, 2001., 254 c.
59. Зырянов M. Инструментарий для управления знаниями // ComputerWorld Россия, 1999, № 7, с. 15-17.
60. Wright P. Knowledge Discovery In Databases: Tools and Techniques // ACM Crossroads Student Magazine. April 11, 2000.
61. Ландэ Д.В. Добыча знаний // CHIP Ukraine 10'2003, 2003.
62. Волович M., Ашманов И. Что такое спам и как с ним бороться Электронный ресурс.: Дайджест на сайте организаторов конференции "Диалог", выпуск №43, [2002] Режим доступа: http://www.dialog-21.ru/fulldigest.asp?digestid=19298 , свободный.
63. В России публично наказали спамера Электронный ресурс. : публикация на новостном сайте CNews "Интернет-издание о высоких технологиях" от 29 апреля 2004г., [2004], - Режим доступа: http://www.cnews.ru/newtop/index.shtml?2004/04/29/158513 , свободный.
64. Fayyad U., Grinstein G.G., Wierse A. Information Visualization in Data Mining and Knowledge Discovery. US.: Morgan Kaufmann, 1st edition, 2001., 407 c.
65. Intelligent Miner for Text. Overview Электронный ресурс.: Режим доступа: http.7ywww-3.ibm.com/software/data/iminer/fortext/, свободный.
66. Text mining or Text Analysis Software TextAnalysis Электронный ресурс. : домашняя страница продукта TextAnalysis компании - производителя "Мегапутер Интеллидженс" - Режим доступа: http://www.megaputer.com/products/ta/index.php3, свободный.
67. Text mining Software Products Электронный ресурс. : домашняя страница продукта WebAnalysis компании-производителя "Мегапутер Интеллидженс" Режим доступа:http://www.megaputer.com/products/wa/index.php3, свободный.
68. SAS® Text Miner Электронный ресурс.: аннотация продукта SAS Text Miner на сайте компании-производителя "SAS Institute Inc" [2004]. -Ре-жим доступа:http://www.sas.com/technologies/analytics/datamining/textminer/, свободный.
69. Entrieva's SemioMap Электронный ресурс. : аннотация продукта SemioMap на сайте компании-производителя "Entrieva" [2004]. — Режим доступа: свободный.
70. Blumenthal В., Gornostaev Iu. М., Unger С. Human-Computer Interaction: 5th International Conference, EWHCI '95, Moscow, Russia, July 3-7, 1995: Selected Papers. NY.: Springer-Verlag, 1995, 203 c.
71. Oracle Text Электронный ресурс.: аннотация продукта Oracle Text на сайте компании-производителя "Oracle Corporation" [2004]. - Режим доступа: http://otn.oracle.com/products/text/index.html, свободный.
72. Product Overview Электронный ресурс.: обзор продуктов компании "Autonomy" на домашней санице [2004]. - Режим доступа: http://www.autonomy.eom/c/content/Products/, свободный.
73. Комплекс Аналитической Обработки текста Электронный ресурс.: общая информация о продукте [2004]. - Режим доступа: http://www.rco.ru/product.asp?obno=406, свободный.
74. Демонстрация технологий анализа и поиска текстовой информации RCO Электронный ресурс.: страница демонстрационных версий программных продуктов RCO [2004]. - Режим доступа: http://demo.rco.ru/, свободный.
75. Лингвистический процессор для сложных информационных систем / Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. М.: Наука, 1992. - 256 с.
76. Искусственный интеллект: в 3-х кн. Кн. 2. Модели и методы: Справочник / Под ред. Д. А. Поспелова М.: Радио и связь, 1990. - 304 с.
77. Оливер Д., Глен Ф. Популярные Web-броузеры. Энциклопедия пользователя. М.: ДиаСофт, 1998. - 464 с.
78. Хоуфмен А. Улмен К. Dynamic HTML: справочник. СПб.: Питер Ком., 1999.-512 с.
79. Frank van Harmelen, Fensel D., Fensel D. Practical Knowledge Representation for the Web : IJCAI'99 Workshop on Intelligent Information Integration, 1999.
80. RDF Semantics. W3C Recommendation 10 February 2004 Электронный ресурс.: описание спецификации, [2004]. - Режим доступа: http://www. w3.org/TR/rdf-mt/, свободный.
81. Грабер М. SQL. Справочное руководство. М.: Лори, 2001. - 354 с.
82. Gould L., Zanevsky A., Kline К. Transact-SQL Programming. US.: O'Reilly, 1st Edition, 1999. - 833 c.
83. Урман С. ORACLE 8. Программирование на языке PL/SQL. М.: Лори, 1999.-607 с.
84. Холзнер С. XSLT библиотека программиста. СПб.: Питер, 2002. - 544 с.
85. Демьянков В.З. Теория интерпретации в прикладной лингвистике // Проблемы вычислительной лингвистики и автоматической обработки текста на естественном языке. М.: Изд-во Моск. ун-та, 1980, с.125-158.
86. Трахтенгерц Э.А. Субъективность в компьютерной поддержке управленческих решений. М.: Синтег, 2001. 250 с.
87. Панкова Л.А., Трахтенгерц Э.А. Субъективность в интеллектуальном анализе данных // РАН. Институт проблем управления. М., 1999. - 76 с.
88. Орловский С. А. Проблемы принятия решений при нечеткой исходной информации. М.:Наука, 1981, 208 с.
89. Фейт С. TCP/IP. Архитектура, протоколы, реализация. М.: Лори, 2000. -424 с.
90. Молчанов А.Ю. Системное программное обеспечение: Учебник для вузов. СПб.: Питер, 2003. - 400 с.
91. Вентцель Е.С. Исследование операций. Задачи, принципы, методология // Учеб. пособие для втузов 2-е изд., стереотип. - М.: Высш. шк., 2001. -206 с.
92. Крапухина Н. В., Тригуб Н. А. Особенности модуля морфологического разбора в системе анализа текстов на ЕЯ в задаче извлечения знаний //
93. Научная сессия МИФИ-2004: Сб. тр. В 15 томах. Т.З. Интеллектуальные системы и технологии. М.: МИФИ, 2004. с. 116 - 117.
94. Затуливетер Ю.С., Компьютерная информация в модели исчисления древовидных структур // Труды Второй международной конференции "Идентификация систем и задачи управления", SICPRCT2003, Москва, 29-31 января 2003 г., М.: ИПУ РАН, 2003, с. 790-858.
95. Седжвик Р. Фундаментальные алгоритмы на С.Часть 5. М.: ДиаСофт, 2003.-480 с.
96. Седжвик Р. Фундаментальные алгоритмы на С. Части 1 4. - М.: ДиаСофт, 2003.-672 с.
97. Даль В.И. Толковый словарь живого великорусского языка. Избранные статьи. Совмещенная редакция изданий В. И. Даля и И. А. Бодуэна де Куртенэ. М.: Олма-Пресс, 2004 - 704 с.
98. Майника Э. Алгоритмы оптимизации на сетях и графах. М.: Мир, 1981.-323 с.
99. Васильев Ф.П. Методы оптимизации. М.: Факториал Пресс, 2002, 824 с.
100. Асанов М.О., Баранский В.А., Расин В.В. Дискретная математика: графы, матроиды, алгоритмы. — Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001. — 288 с.
101. Novik A. Transact SQL User Defined Functions. US.: Wordware Publishing, 2003. - 480 c.,
102. Степпа Д. Microsoft ADO. NET. Серия "Фундаментальные знания". -Microsoft Corp., Русская редакция, 2003. 640 с.
103. Грегори К. Использование Visual С++. Специальное издание.: Пер. с англ. М.: СПб.: К.: Издательский дом "Вильяме", 1999. - 864 с.
104. Гарнаев А.Ю. Visual Basic 6.0. Разработка приложений . СПб.: BHV-Санкт-Петербург, 2000. - 448 с.
105. Stevens W.R. TCP/IP Illustrated, Volume 1: The Protocols. US: Addison Wesley Professional, 1994. - 600 c.
106. Celko J. Joe Celko's SQL for Smarties: Advanced SQL Programming. US: Morgan Kaufmann, Expanded 2nd edition, 1999. - 576 c.
107. Шеломовский П.JI. Разработка многоплатформенной системы компрессии словарной информации для карманных персональных компьютеров : Дисс. на соиск. уч. ст. канд. тех. наук. М., 2003. - 141 с.
108. Бек К. Экстремальное программирование. СПб.: Питер, 2002. - 224 с.
109. Кэнту М. "Delphi 7. Для профессионалов". СПб.: Питер, 2004. - 1104 с.
110. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео // Ратушняк А., Юкин В., Ватолин Д., Смирнов М. М.: Диалог-МИФИ, 2002. - 384 с.
111. Лавошникова Э. К. Компьютерная проверка орфографии: вчера, сегодня, завтра// Вестник Московского университета. Сер. 9. Филология. 2003. №5.
112. Трахтенгерц Э.А. Компьютерная поддержка переговоров при согласовании управленческих решений. Серия "Системы и проблемы управления". М.: Синтег, 2003. - 284 с.
113. Схема позиционирования разработанного подхода среди групп существующих подходов и систем, В центре — система на основе новой альтернативы.цу;.цгО.'
114. Системы управления корпоративными знаниямисмысла из текста
115. Хранение знаний о корпоративных знаниях
116. Выделение семантики, представление семантики вместе с текстом■ ■1. Системы докум ентооборотаи автоматизацииработы офиса
117. Обработка документов, извлечение из них знаний1. Хранилища данных
118. Большой объем, избыточность, автоматическая загрузка1. Система хранилищазнании
-
Похожие работы
- Математические модели и методы идентификации объектов нечисловой природы в хранилищах данных
- Информационная технология хранилищ данных на основе балансового метода
- Объектно-ориентированная система создания и управления хранилищем данных промышленного предприятия
- Интегрированная информационно-аналитическая система для социологических исследований
- Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность