Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах

Летовальцев, Виктор Иванович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах

кандидата технических наук: Летовальцев, Виктор Иванович
город: Владимир
год: 2012
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах»

Автореферат диссертации по теме "Метод и алгоритмы интеллектуальной обработки информации в корпоративных хранилищах"

На правах рукописи

Летовальцев Виктор Иванович

МЕТОД И АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ИНФОРМАЦИИ В КОРПОРАТИВНЫХ ХРАНИЛИЩАХ

Специальность: 05.13.01 - «Системный анализ, управление и обработка информации (промышленность)»

а.

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Владимир 2012

005053298

Работа выполнена на кафедре «Информационные системы и технологии» федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Вологодский государственный технический университет» (ВоГТУ)

Научный руководитель: доктор технических наук, профессор

Швецов Анатолий Николаевич

Официальные оппоненты: доктор технических наук, профессор

Александров Дмитрий Владимирович

кандидат технических наук, доцент Андрианов Игорь Александрович

Ведущая организация: ФГБОУ ВПО «Московский государст-

венный технический университет имени Н.Э. Баумана»

Защита диссертации состоится 21 марта 2012 г. в 15 часов на заседании диссертационного совета Д212.025.01 при ФГБОУ ВПО «Владимирский государственный университет» по адресу: 600000, г. Владимир, ул. Горького, 87, корпус 1.

С диссертацией можно ознакомиться в библиотеке ВлГУ. Автореферат разослан «_» _2012 г.

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу совета университета: 600000, г. Владимир, ул. Горького, 87, ученому секретарю диссертационного совета Д212.025.01.

Ученый секретарь диссертационного -,

совета, д.т.н., доцент H.H. Давыдов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Эффективность работы современного промышленного предприятия в информационном обществе зависит от скорости и качества удовлетворения потребностей в служебной информации каждого из сотрудников. Информационные хранилища корпоративных информационных систем (КИС) могут достигать огромных размеров, что сильно затрудняет поиск. Необходимая информация часто распределена по различным информационным системам внутри предприятия, её интеграция затруднена из-за неоднозначности используемой терминологии, специфической структуры компонентов информационных хранилищ, различного уровня компетентности сотрудников предприятия. Возникает парадоксальная ситуация, когда пользователь имеет доступ к информации, но не может ее получить.

Согласно данным исследований агентства IDC, сотрудники, использующие персональный компьютер для выполнения должностных обязанностей, в среднем тратят 9,5 часов в неделю на поиск информации. Для некоторых областей деятельности поиск может занимать до 50% рабочего времени работника. Невозможность найти и использовать нужную информацию приводит к тому, что сотрудники пересоздают её сами, затрачивая на это около трех часов рабочего времени в неделю. Обеспечение сотрудников современного предприятия удобными средствами информационного поиска является важным способом повышения эффективности труда и даёт преимущества над конкурентами, которые подобными средствами не располагают.

Существующие программные и аппаратные средства не решают полностью задачу информационного поиска в корпоративных хранилищах. Широко распространенные системы информационного поиска в корпоративном сегменте основаны на методах DataMining, частотного поиска и в слабой мере учитывают смыслы обрабатываемых документов и взаимосвязь их содержания с семантикой предметной области промышленного предприятия.

Задачи интеллектуальной обработки информации, такие как формализация текстовых данных, способы извлечения знаний из данных, методы отображения предметной области, глубоко исследованы в работах Э. Баха, Т. А. Гавриловой, Т. Р. Груббера, Г. С. Осипова, Н. Хомского, В. Ф. Хорошевского. Но методы обработки знаний, полученные в сфере искусственного интеллекта, не могут быть применены непосредственно к обработке документов в КИС без учета языковых средств передачи смысла, которые исследовались специалистами в области русского языка - работы Ю. Д. Апресяна, Н. Д. Арутюновой, Г. А. Золотовой, А. А. Леонтьева, Е. В. Падучевой, Н. Ю. Шведовой.

Извлечение и обработка смысла естественно-языковых текстов требуют применения мощного логико-математического аппарата, основой которого являются семантика смысла и денотата Г. Фреге; теория объектов и пропозиций Б. Рассела; теория истины А. Тарского; семантика возможных миров С. Крипке; теория типов Б. Рассела и К. Айдукевича.

Таким образом, возникает противоречие между практическими потребностями пользователей КИС в интеллектуальной обработке корпоративных документов, возможностями разработанных логико-семантических формализмов и моделей и методами их программной реализации. Поэтому требуют своего решения проблемы выбора и модификации теоретического аппарата и практической реализации механизмов и средств автоматизации интеллектуальной обработки информации в КИС.

В качестве теоретической основы метода интеллектуальной обработки информации в корпоративных хранилищах автор диссертационной работы использует и интерпретирует логику Р. Монтегю, позволяющую построить эффективно реализуемые алгоритмы анализа и интерпретации смыслов естественно-языковых текстов.

Реализация таких алгоритмов в распределенной гетерогенной информационной среде современного предприятия требует применения интеллектуальных программных моделей и платформ, в качестве которых автор использует мультиагенгные системы (MAC) и технологии, исследованные в трудах М. Вулдриджа, В.И. Городецкого, Н. Дженнингса, X. С. Ивана, Д.А. Поспелова, В.Б. Тарасова, А. Н. Швецова.

При внедрении методов и программных средств интеллектуальной обработки корпоративной информации на промышленных предприятиях соискателем применяются методы управления, модели бизнес-процессов и информационной интеграции, освещенные в трудах Д.В. Александрова, A.B. Кострова, В.В. Кульбы, Р.И. Макарова, А.Г. Мамиконова, Б.Я. Сове-това, В.Д. Чертовского и др.

Целью диссертационного исследования является упрощение процессов информационного поиска для конечного пользователя и повышение эффективности удовлетворения его поисковых потребностей.

Для достижения поставленной цели в работе были поставлены и решены следующие задачи:

1. Исследование существующих принципов интеллектуальной обработки информации на промышленных предприятиях.

2. Разработка метода и алгоритмов интеллектуальной обработки информации на основе формальной семантики.

3. Разработка алгоритмов интеллектуального поиска на основе логики Р. Монтегю и расширения запроса пользователя.

4. Разработка концептуальных и логических моделей MAC поиска информации.

5. Экспериментальное исследование эффективности разработанных методов, моделей и программных средств.

Объектом исследования являются процессы информационного поиска и обработки текстовой информации в КИС промышленного предприятия.

Предметом исследования является комплекс методов и алгоритмов интеллектуальной обработки текстовой информации.

Методы исследования. Для решения поставленных задач используются методы инженерии знаний, математической логики, теории фреймов, теории графов, теории возможных миров, методы лямбда-исчислений и нечетких множеств, объектно-ориентированного и логического программирования.

Научная новизна работы заключается в следующем:

1. Метод интеллектуальной обработки информации позволяет производить формализацию корпоративных документов на основе онтологии предметных областей и обеспечивает автоматизированное заполнение баз знаний в корпоративных хранилищах.

2. Алгоритмы интеллектуального поиска информации в корпоративных хранилищах отличаются использованием онтологий конкретных предметных областей, что позволяет повысить релевантность поиска и обеспечить адаптацию поисковой машины под информационные потребности корпоративных пользователей.

3. Модели мультиагенгной системы поиска информации (МАСПИ) и алгоритмы взаимодействия интеллектуальных агентов, отличающиеся агентно-ориентированной интерпретацией алгоритмов семантического поиска информации, позволяют проводить распределенный поиск в гетерогенных средах КИС.

Область исследования. Работа выполнена в соответствии с паспортом специальности ВАК РФ 05.13.01 - Системный анализ, управление и обработка информации (по отраслям), пункты 1, 2, 4.

На защиту выносятся следующие результаты:

1. метод интеллектуальной обработки информации на основе онтологий предметных областей;

2. алгоритмы интеллектуального поиска информации в корпоративных хранилищах;

3. модели мультиагентной системы поиска информации и алгоритмы взаимодействия интеллектуальных агентов.

Практическая значимость исследования определяется тем, что:

1. Метод интеллектуальной обработки информации на основе логики Р. Монтепо позволяет проводить заполнение и использование многоцелевых информационных баз на основе неструктурированной текстовой информации, представленной средствами естественного языка.

2. Разработанные алгоритмы позволяют осуществлять распределенный семантический поиск информации, что дает возможность повысить пертинентность ответов системы на запросы пользователя.

3. Полученные модели МАСПИ позволяют реализовать гибкие и адаптивные системы поиска информации на предприятиях различных отраслей промышленности.

Реализация результатов исследований. Результаты диссертации получены в рамках гранта РФФИ №08-01-00457-а «Исследование фундаментальных проблем построения муль-тиагентных интеллектуальных систем» (2008-2009 гг.), выполнения работ по государственному контракту №02.740.11.0625 Федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» (2009-2013 гг.), гранта Правительства Вологодской области «Агентная система профилирования сетевых ресурсов для учебных заведе-

ний на основе онтологии» (2010 г.).

Результаты работы внедрены на заводе керамических строительных материалов ОАО «Соколстром» и ОАО «Сокольский целлюлозно-бумажный комбинат» в г. Сокол Вологодской области, а также используются в учебном процессе кафедры Информационных систем и технологий Вологодского государственного технического университета.

Апробация результатов работы. Основные положения работы были представлены на международных конференциях «Региональная информатика» (Санкт-Петербург 2006), «Научный сервис в сети Интернет: многоядерный компьютерный мир» (Новороссийск - 2007), «Автоматизация машиностроительного производства, технология и надежность машин, приборов и оборудования» (Вологда - 2007), «Автоматизация и энергосбережение машиностроительного и металлургического производств, технология и надежность машин, приборов и оборудования» (Вологда - 2008), восьмом и девятом Международном симпозиуме «Интеллектуальные системы» (Нижний Новгород - 2008, Владимир - 2010); всероссийских конференциях «Четвертая Всероссийской конференции студентов, аспирантов и молодых ученых "Искусственный интеллект: философия, методология, инновации"» (Москва - 2010), «Вузовская наука - региону» (Вологда - 2007, 2010), Всероссийская конференция по результатам проектов, реализованных в рамках целевых программ «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (Москва 2010); региональной конференции «II ежегодные смотры-сессии аспирантов и молодых ученых по отраслям наук» (Вологда -2008).

Результаты исследований докладывались на семинарах Вологодского регионального отделения Научного Совета РАН по методологии искусственного интеллекта.

Публикации. По теме диссертации опубликовано 15 печатных работ: 2 статьи в реферируемых изданиях, рекомендованных ВАК, 13 работ в материалах международных и всероссийских конференций.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 92 наименований и приложений. Общий объем работы 143 страницы, включая 28 рисунков, 15 таблиц, 8 страниц приложений.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертационной работы, дается анализ исследуемой проблемы и обосновывается применяемый подход к ее решению, формулируются цели и задачи исследования, описывается научная новизна и практическая значимость полученных результатов, дается краткая характеристика диссертации.

В первой главе проанализировано современное состояние сферы информационного поиска, с исторической перспективы рассмотрены методы интеллектуальной обработки информации и сущности понятия «смысл текста» с точки зрения различных подходов к автоматическому анализу текстов.

В сфере информационных технологий под информационным поиском (information retrieval) понимают поиск в некоторой коллекции неструктурированных данных (чаще всего текстовых), которые удовлетворяют информационным потребностям лица, проводящего поиск.

Таблица 1

Вид поисковой системы Объем данных Распределенность/ мультиформатность Пример

Персональные Минимальный -/- Поиск файлов в ОС

Проблемно-ориентированные Малый +/- Поиск статей по ИТ - тематике

Ведомственные Средний +/+ Поиск в базе патентов

Корпоративные Большой +/+ Поиск в информационных хранилищах предприятия

Поисковые системы Интернет Максимально возможный +/+ Любая поисковая веб-машина

ка. Один из таких критериев масштаб применения. По масштабу применения поисковые системы можно разделить следующим образом (см. табл. 1)

Наиболее часто употребляемый метод классификации поисковых систем основывается на алгоритме, положенного в основу поиска. Основные виды поисковых систем по этому критерию следующие: двоичный поиск, частотный поиск, поиск по рубрикатору, поиск по вопросу на естественном языке, поиск на основе тезауруса или онтологии, поиск с учетом ссылочных характеристик.

На основе приведенных классификаций в работе делается вывод о необходимости разработки системы поиска информации масштабируемой по объему данных (от уровня персональной системы до корпоративной), работающей на основе как индексного, так и безындексного методов организации данных, в основу которой положен алгоритм смыслового поиска.

С целью выбора метода смыслового поиска в работе исследуются методы интеллектуальной обработки информации. Показана связь логических и лингвистических средств обработки текста. Делается вывод о перспективности применения логического подхода к автоматическому смысловому анализу текстовых данных. Рассматриваются различные методы представления смысла текста, и делается выбор в пользу интенсиональной логики Р. Монтегю, которая содержит целостное описание механизмов формализации смысла текстов, представления знаний и их интерпретации на основе данных о предметной области.

Вторая глава посвящена разработке метода и алгоритмов интеллектуальной обработки информации на основе логики Р. Монтегю.

В работе выделяются следующие модули единой системы обработки текстовой информации в формальной семантике (см. рис. 1). _

Преобразование

Текст на естественном языке

Языковая составляющая Набор категории

Правила трансформации

Формальное представление Типы

Правила пребраэования формул

Набор формул высказываний

Meaning Postulates

Рис. 1. Обработка текстовой информации в формальной семантике на основе интенсиональной логики Монтегю.

Рис.

Интерпретатор

2. Метод интеллектуальной обработки информации на основе логики Монтегю

)/построитъ_формулу\ I Начало J

Ввод ЕЯ-фразы

Построить Кат^

Построить синтаксическое дерево

n. узел? / \ Vjc| л 6 SubS

Построить формулу (X)

Добавить результат в SubME

Определить категорию

Г Конец Л шостроить_формулу/

Входные данные для системы -это текст на естественном языке. На основе лингвистической обработки текста строится набор категорий интенсиональной логики для дальнейшего применения правил трансформации (ПТ) синтаксических конструкций в элементы единой формулы, отражающей смысл высказывания. Формальное представление не зависит от конкретного естественного языка и представляет собой набор типов и операций над формулами. Результатом обработки является формализованное представление смысла текста в виде набора формул, отражающих смысл предложений и множества постулатов значений, представляющих фоновые знания о мире.

Метод заключается в применении алгоритмов формализации смысла естественно-языковых текстов, заполнении базы знаний и интерпретации на ней запросов пользователя.

Первые три этапа объединены единым алгоритмом формализации естественно-языковой фразы (см. рис. 3). Сначала проводится лингвистическая обработка фразы языковым процессором с целью построения синтаксического дерева. Дерево синтаксических категорий, построенное синтаксическим анализатором представляется в виде множеств Syrt и Morph.

Рис. 3. Алгоритм формализации ЕЯ-фразы

Morph = \тогрк1ЖЧ | morph^ = (Uf, Bf, PoS, NiS, SW)}, где Uf{used form) - используемая форма слова, Bf (begin form) - начальная форма слова, PoS (part of speech) -часть речи, NiS (number in sentence) - номер юнита в предложении, NS - номер предложения в тексте, к которому принадлежит юнит.

Множество синтаксических описаний определим следующим образом: Syn = jryn, \syn: = (SynN.SubS, syn\,.. .,synnt)\, где SynN (syntactic name) - имя синтаксической категории анализатора, SubS - упорядоченное множество синтаксических подкатегорий данного синтаксического узла, определяемое так:

SubS = {suAi|ii/ii е Morph v subs e 5>n}. Множество SubS упорядочено на основе порядка следования синтаксических элементов и слов в предложении. При этом ни один узел дерева не может быть собственным подузлом или подузлом его потомков.

Далее осуществляется рекуррентный обход узлов дерева с целью применения функции генерации формулы на основе ПТ

/„«р = {(Kaiw. SubME, FormpubME с ME & Form e ME &(Кат,^с, SubME, Form) e f^ },

где KaTloJIC - множество категорий интенсиональной логики (или их идентификаторов), SubME - множество подформул данного узла, Form - результирующая формула узла, ME -множество правильных формул интенсиональной логики.

Для определения категории узла синтаксического дерева используется табличная функция отображения категорий синтаксического анализатора в категории интенсиональной логики. Кат^ > KaTlog.c, где Кат^ -множество категорий синтаксического анализатора, KaTlogjc - множество категорий интенсиональной логики.

В целом функцию формализации ЕЯ выражения представим в виде Фраза1""—/<"" > Form, где Фраза' 51 - фраза на естественном языке.

Под интерпретацией формулы в формальной семантике понимается установление её истинностного значения на основе представленной теоретико-множественной картины мира. Для корректного применения функции интерпретации в технической системе представляется необходимым разделение данных о состоянии мира (Л»„,га) и процедур интерпретации фрагментов языка логики (/¡„^).

Пусть формула представлена в виде множества узлов FNS. Каждый узел представляет из себя кортеж элементов (,rule,nodeStr,SFNS), где rule - применяемое синтаксическое правило, nodeStr - строковое представление узла, SFNS - множество подуз-лов данного узла.

Тогда функцию интерпретации на базе знаний можно представить в виде

" = {(/V, Set Re ,//', res^ )|JN e FNS л (form, Set Re s1nl,„ resa,rp ) e }

где JN - узел синтаксического дерева формулы, для которого производится интерпретация, Set RejmlIrJ, - упорядоченное множество результатов интерпретации всех подузлов интерпретируемой формулы; resmrrp' - результат интерпретации i-той подформулы; resMtrp -общий результат интерпретации формулы. - функция доступа к базе знаний. Интерпретации правил уровня языка логики определим как функцию функций вида

JW"8 = {(oper,Set Re)\oper e AlOp a(pper,SetR) e },

где - функция интерпретации подформулы уровня языка, орег - символьное

обозначение операции, АЮр - множество всех имен операций, определенных в данном варианте языка логики, resm<trp - общий результат интерпретации формулы, SetKesmtrr - упорядоченное множество результатов интерпретации всех подформул интерпретируемой формулы. Графическое представление алгоритма интерпретации приведено на рис. 4.

1 Применить f 1,118

Взаимодействие с БЗ

Г К»«Ц Л

I И»лепр«тиромтъ_формулу /

Рис. 4 Алгоритм интерпретации формулы формгшьной семантики

faA

^ Начало ^

Получение множества формул РБе!

Получение

целевой семантической сети БетМе!

Рис. 5 Заполнение БЗ с помощью интерпретации

Для реализации механизма заполнения базы знаний предлагается расширить толкование термина «интерпретация», используемого в формальной семантике. Под интерпретацией будем понимать не просто вычисление истинностного значения формулы, а отображение знакового представления выражения на определенную картину мира. При этом может проводиться как интерпретация с целью вычисления выражения, так и интерпретация для изменения модели предметной области, на которой производится отображение. Для заполнения базы знаний на основе данных текста строится формальное представление ЕЯ-текста в виде множества набора формул интенсиональной логики. Затем определяется целевая семантическая сеть и происходит её клонирование с помощью операции (■"><?тА'е/). Результатом такого клонирования является семантическая сеть, имеющая пометы на всех узлах, показывающие её принадлежность к определенному тексту.

Далее происходит интерпретация каждой формулы с целью нанесения признаков объектов, представленных в формуле на семантическую сеть. Для этого все узлы интерпретируются стандартно, кроме узлов правила 53: если а, Ь 6 ТУРЕ, а е МЕ^ ^, Р е МЕа, то а(Р) е МЕЬ. Эти узлы применяются для добавления свойств семантическим объектам, получаемым в качестве значения их подформул. Если в качестве подформул выступают переменные, то такие узлы интерпретируются также стандартно.

Современная КИС является гетерогенной распределенной системой, работающей с большими объемами данных. Организация распределенного интеллектуального поиска в такой системе требует выделения процесса поиска в отдельную информационную структуру. Для реализации поисковой информационной системы масштаба предприятия представляется перспективным использовать агептный подход.

Третья глава описывает агентную модель поиска информации с привлечением фоновых знаний, алгоритмы интеллектуального поиска и их агентную реализацию в виде МАСПИ.

В работе строится модель агентного информационного поиска, показывающая необходимость возможности доступа поискового агента к фоновым знаниям о мире, явно не выраженным в

формулы

тексте (см. рис. 6). Делается выбор представления знаний о предметной области в виде фор-

мальных онтологии.

Читатель

Автор

Рис. 6 Модель агентного информационного поиска Для подобной информационной системы необходимы алгоритмы, позволяющие осуществлять распределенный интеллектуальный поиск. В работе представлены два алгоритма интеллектуального поиска.

Алгоритм поиска на основе расширения запроса пользователя базируется на идее представления основного содержания текста лексическими значениями, употребляемых в нем слов. Текст в этом случае можно представить в виде множества, элементами которого явля-

ются упорядоченные пары (слово - часть речи). Обозначим элемент этого множества как а. Тогда а-упорядоченная пара двух последовательностей символов PoS и Bf. Такое представление легко получается из множества Morph, описанного в главе 2.

Пусть PoS е PS, Bf е В FS, где PS - множество названий частей речи, BFS - множество начальных форм всех слов русского языка Тогда множество всех юнитов текста можно представить таким образом:

= {а\а = (PoS, Bf) л PoS е PS л Bf е BFS).

Далее осуществляется фильтрация исходного множества Т,„ на основе некоторых критериев. Критериями могут быть как морфологические характеристики, так и принадлежность начальной формы слова к списку стоп-слов. Функцию фильтрации определим следующим образом:

Т|„Ф""Р = {а = (PoS, Bf)\a е Tfc„ лае Т J'"""* -> PoS с= PoS„ л -<Bf 6 СЛ^} где Т,„ - множество всех юннтов текста; PoS - множество разрешенных к использованию частей речи; СЛ^,, - множество стоп-слов; Т,„фш"'тг' - результирующее множество юнитов • текста.

Первоначальный запрос пользователя 3mpt можно представить абсолютно аналогично Tw . К нему так же следует примешггь /Ьтфиль,р :

-</»« Ш,р ~fртир^Л^).

Затем отфильтрованный от поискового шума запрос Зф^р расширяется за счет дополнительных слов, связанных с теми, которые присутствуют в пользовательском запросе первоначально.

Рис. 7. Алгоритм поиска информации на основе расширения запроса пользователя

Множество элементов расширенного на основе онтологии запроса можно представить

в виде:

= (Тр, Зфил^р, П) 3,„ = {Ь\Ь = В/) л Яо5 е (АУ и /м) лВ/е ВГС}, где / - функция расширения запроса пользователя на основе онтологии, Тр - тип выбранного расширения запроса, П - выбранная предметная онтология, Р5 - множество названий частей речи, В/-",? - множество начальных форм всех слов русского языка, р$- пустой элемент.

Далее ищем пересечение двух множеств - множества слов текста Т1ет*""''тр и множества слов запроса .

3,„ = {(Р05,В/)|Э(Р0^,й/а) в 3,„ Л Э(/>оУ,,В/г) <= т^ А

л = Ро5т) л (Ро53 = РоЗт) а ((В/з = В/г) V (В/, = /и)) л (В/ = В/3)}

Как видно из графического представления (рис. 7), алгоритм имеет линейную временную сложность относительно количества слов в запросе пользователя.

В качестве индекса для поискового алгоритма на основе логики Монтегю будем использовать набор фрагментов семантических сетей, измененных в результате добавления признаков на этапе заполнения базы знаний.

Пусть - исходная семантическая сеть, представляющая фоновые знания о

предметной области. 8етМе1с'"" - результат клонированная с пометами исходной семантической сети.

/сю^етЫе!) = ЗетМе!''"" SemNet*'™" - семантическая сеть дополненная новыми свойствами на основе формального представления текста. Тогда

ШЪе! = {ОЬ^е1„"'т' \ОЬ)5е?,т} = {х\х еОб/Лг/""" мг ОА/5е/с*""}, где ОЬу5е!^''"" и О^Зе^'""' - множества объектов семантических сетей и

5етЫе1с'°" соответственно.

Представим функцию индексирования в виде где

йтЛ'с^'1™, - семантическая сеть ПО ¡-го текста, дополненная на основе информации, содержащемся в нем.

В главе 2 описывается алгоритм интерпретации формулы на основе картины мира, представленной в БЗ с произвольным видом представления знаний о ПО. Поэтому все обращения к соответствующим структурам скрыты за абстрактными функциями, которые могут по-разному имплементироваться для различных способов представлений знаний.

При интерпретации формулы на определенной семантической сети БетЫе! функцию интерпретации можно описать следующим образом:

= {(^огт, 5ет,\'е1, гм,^ )]/ч>гт е МЕ л гез^ е 5,„,„,,}

В качестве результатов даже простейшей операции интерпретации могут принадлежать различным типам. Учитывая, что запрос пользователя относительно прост по структуре, можно сказать, что в качестве результатов могут выступать следующие элементы - истинностная оценка (тип I), объект (тип е), множество (тип а -»/). Необходима функция, отображающая эти значения в величины, пригодные для сравнения (например, в числа).

Такая функция может быть представлена в виде

"•то/-м= рьм

Гезт>гр имеет типе, то/,„(*) = ге5,п„р имеет тип/, то/„с(х) = I

где ObjSet - множество семантических объектов сети, на которых производится интерпретация, /ж(х) е [0,1] и / е [0,1].

Тогда результаты интерпретации текстов стоит хранить в виде упорядоченного множества пар

Search Re sSel = {(lm,SemNel)} где SemNel - семантическая сеть, нэ которой происходит интерпретация запроса, 1т - мера сходства такая, что lm = fnr(fullmpn(Form,SemNet)).

Множество Search Re sSel является полностью упорядоченным. Отношение нестрогого порядка для его элементов будет иметь вид

V(/m,, SemNel,), , SemNet] )(((lm,, SemNel,) < (lmJ, SemNelJ)) -> lm, < lmj),

где (/m,, SemNel,) s Search Re sSel, (im1, SemNel,) e Search Re sSel, а lm, < lmJ - обычное отношение порядка, заданное на множестве действительных чисел.

Графическое представление алгоритма приведено на рис.8.

Формально не описана операция отбора семантических сетей. Подразумевается, что под отбором понимается исключение семантических сетей, не удовлетворяющих условиям запроса (например, по дате создания или по размеру текста). Условие 1т >0 добавлено для того, чтобы отсечь тексты, которые никак не связаны с запросом пользователя. Это условие может бьггь более жестким, если того требует пользователь. Отображение результатов поиска осуществляется на основе порядка, заданного на множестве

Search Re sSel.

Неформально схему мультиагентной системы поиска информации можно представить следующим образом (см. рис. 9). Пользователь осуществляет взаимодействие с системой посредством персонального агента пользователя. Запросы пользователя перенаправляются поисковым агентам, реализующим конкретные алгоритмы поиска. Агент может осуществлять поиск как на основе индекса (посредством соответствующего агента), так и посредством прямого доступа к информационному ресурсу. В виду специфичности обработки различных естественных языков необходимо выделение специального агента для обработки языковых данных. Фоновые знания о предметных областях предлагается хранить в виде формальных онтологии. Схема на рис. 9 дает лишь общее представление функционирования предлагаемой системы, но для технической реализации необходимо более точное формальное описание.

Рис. 8 Алгоритм семантического поиска на основе логики Р. Монтегю

Информационный ресурс 1

Информационный ресурс N

Агент пользовательского интерфейса

Агент поиска на основе логики Монтепо

Агент лингвистической обработки

Лингвистические базы

Рис. 9. Схема мультаагентной поисковой системы масштаба предприятия

Пользователь

СА

Имя

Ид

СК

Запрос Формировать

АлгоритмП Выбирать

Запрос

СК

Настройка 1

Настройка»

Содержит

Алгоритм поиска Лингвист

СА СА

Имя | Язык,

СК

Лингвист Использовать Яэыкр

Индекс Использовать СПП

СЛП МорфАнализ

Найти | СинАнализ

Настройка,

СА

Свойство,

Свойство1*

Настройку

Хранилище

СА

Имя

Тип

СК

Текст, Содержит

СПП

ПолучитьТекст]

Текст,

СА

Название1

Автор}

Автора

1ЖГ

Содержимое1

Индекс

СА

Имя

Тип

СлИнф,

СК

Текст, Индексирован

Рис. 10. Концептуальная модель МАСПИ на промышленном предприятии

IKnoHCK 0 1Аполы t ... , IA™ HI, IA„rni, . • > I АалГп q 0

0 1Аадм 0

1КснсП 1Квдм» 1Кинф, 1Канмкз Оид1, Оил2. -•-» Оидк

I Канал из I^Vihht» 0 0

1КЛИНГ о 1АЛ„„Г Овз ЯЗ b ОБЗ ЯЭ2, . • * Овз ЯЗ к

1ККНД 0 I-А.ЦНД 1, ... , 1АинД* Оинд 11 Оннд 2» • • ч Оинд к

Рис. 11. ДИК МАСПИ на промышленном предприятии

Интегрированный подход к решению задач создания агентно-ориентированных систем предлагает методология проектирования мультиагентных интеллектуальных систем (МАИС) разработанная в трудах А. Н. Швецова. Методология проектирования МАИС охватывает все основные этапы процесса создания распределенной интеллектуальной системы. Предлагаемая методология проектирования МАИС включает следующие этапы: идентификацию предмет-нойобласти (ПО); извлечение знаний о ПО; структурирование знаний о ПО; формализацию; реализацию; отладку и тестирование.

На этапе структурирования знаний о ПО применяется подход, при котором структуры фреймов соединяются с конструкциями концептуальных графов, образуя концептуальную модель предметной области (КМПО). КМПО мультиагентной поисковой системы на промышленном предприятии представлена на рис. 10

Формализация представляет собой процесс трансляции КМПО в логическую модель МАИС. В основе логической модели лежит дерево ИК (ДИК) ПК, представляющее собой связный неориентированный граф без циклов, вершинами которого являются ИК МАИС. ДИК мультиагентной системы поиска информации на промышленном предприятии представлено на рис. 11.

В четвертой главе описаны подходы к применению представленных алгоритмов поиска, приводятся примеры реализации программных средств на их основе и рассчитывается эффект от их внедрения в процессы электронной обработки информации на промышленных предприятиях.

Для реализации функции /ге11ср нужно описать правила трансформации морфологических и синтаксических единиц в соответствующие фрагменты формул языка ME. В работе приводятся примеры табличной реализации этой функций.

Алгоритмам обработки информации необходимо взаимодействие с хранилищем информации о предметной области. Такое взаимодействие можно организовать на основе языка SPARQL. Этот запрос позволяет производить запросы к информации о предметной области, представленной в виде RDF-графов. Например, шаблон запроса для реализации функции

Lhccts.gn будет иметь вид:

PREFIX onto: <http://somefactory.org/onto_for_search/> PREFIX rdf: http://www.w3.Org/1999/02/22-rdf-syntax-ns# [множество PREFIX] ASK WHERE

{ [имя_объекта] rdf:type [имя_класса] } UNION { [имяобъекта] опЮ:[имя_свойсгва] true } UNION [множество возможных представлений хранения признака]

При внедрении на предприятии по производству керамических изделий ОАО «Сокол-стром» была поставлена задача автоматизации поиска документов в архиве главного энергетика. Архив представлял собой набор файлов различных форматов. Хотя размер архива был достаточно не велик (около 300 МБ), но каждый документ был представлен отдельным файлом. В результате количество фалов превышало 1700, что делало ручной поиск или поиск средствами операционной системы в таком архиве достаточно трудоемким. Был реализован персональный программный агент, позволяющий производить поиск документов в указанном архиве на основе их атрибутов, текущей структуры директорий и смыслового содержания документов.

-toi*!

Поиск I Насгройси i Лчдексация ]

Документ _

j (forra I Тип документа j

Выработка тепловой эиергин котельной 200S.d0C 28.08.2006 Баланс

временная инструкция по эксплуатации, doc 10.03.2008 Инструкция

Действия обслуживающего персонала котельной при возникновении пожара.pdF 17.03.2008 Инструкция

Данные на выработку теплоэнвргии природного rasa 5а 2005 r.yfc 24.12.2007 Баланс

Барнаулт apHCnaui.doc 11.11.2010 Письмо

Давление газа на горвлки.Азс 29.10.2007 1*струкция

Сервер Joseki

Онтологии

предметных г-1-----г .

областей j

Ùr

Рис. 12. Пример пользовательского интерфейса агента интеллектуального поиска

Агентная архитектура и особенности реализации позволили применить данное решение при разработке системы интеллектуального поиска на ОАО «Сокольский целлюлозно-бумажный комбинат» (см. рис. 13). В этом случае было необходимо более масштабное решение, дающее возможность одновременной работы нескольких пользователей и определение произвольных источников текстовых данных. В связи с этим были выделены отдельные сервера под хранилище онтологий и хранение индексированных текстов для поиска. Для работы

с онтологиями используем сервер Joseki и библиотеку Jena. С целью реализации взаимодействия поисковых агентов, а также для взаимодействия агентов поисковых ресурсов воспользуемся мультиагентной платформой Jade.

Обработка языковых данных обеспечивается агентом лингвистической обработки, реализация которого также описана в работе.

В работе проводится расчет результатов внедрения МАСПИ, а также сравнение системы с аналогами в сегменте корпоративного поиска информации.

МАСПИ превосходит _ аналоги по большинству

Рис. 13 Архитектура МАСПИ для ОАО «Сокольский сравнения

целлюлозно-бумажный комбинат» отсутствие привязки к

определенной программной или аппаратной платформе, расширяемость, поддержка различных алгоритмов поиска, масштабируемость, возможность поиска по конкретным предметным областям, учет уровня подготовки пользователя.

Пользовательский ПК

Java-машина

j Jena j i Hbemate

Агент семантического поиска

SWT Пользовательский интерфейс

Наиболее технологически продвинутая система в этом сегменте рынка - Autonomy. Прямое сравнение с данной системой достаточно проблематично, т. к. она достаточно дорога и не подразумеваем возможности получения пробных версий для ознакомления с функционалом. Поэтому для тестирования использовались системы Integra и RCO, которые вместе охватывают большинство заявленных в Autonomy функций поиска. Тестирование проводилось на основе разделения запросов по типам. Пользователи делились на «новичков» (Н) и «опытных» (О). В таблице 2 представлена средняя пертинентность ответов системы на поисковые запросы. В скобках указывается процент задач информационного поиска, которые не удалось решить в процессе тестирования.

Пара Integra+RCO лучше работает на основе ключевых слов. Причина в том, что эти программы содержат лингвистические словари большего объема и используют более точное (но более дорогое) лингвистическое ПО. Система МАСПИ функционирует на основе исследовательской свободнораспостраняемой библиотеки, поэтому качество обработки ниже. Эта проблема вполне может быть решена заменой слоя лингвистической обработки в МАСПИ, что не затрагивает принципов функционирования системы.

Таблица 2

Система Запрос с ключевыми словами Четко сформулированный запрос Запрос без четкой формулировки

Н О Н О Н О

МАСПИ 0,83(0) 0,85(0) 0,44(10) 0,63(3) 0,42(12) 0,55(4)

Integra+RCO 0,84(0) 0,88(0) 0,32(18) 0,55(7) 0,25(23) 0,52(11)

На остальных двух типах запросов МАСПИ показала повышение пертинентности и понижение процента «неразрешимых» запросов по сравнению со связкой Integra+RCO.

ОСНОВНЫЕ НАУЧНЫЕ И ПРАКТИЧЕСКИЕ РЕЗУЛЬТАТЫ

1. Исследованы существующие методы информационного поиска и интеллектуальной обработки текстовой информации. Выделены основные характеристики системы поиска информации на промышленном предприятии и способы обработки информации для проведения такого поиска.

2. Разработан метод и алгоритмы интеллектуальной обработки информации на основе формальной семантики.

3. Разработаны алгоритмы интеллектуального поиска информации на основе логики Р. Монтегю и с помощью расширения запроса пользователя, которые базируются на картине мира, представленной в виде формальных онтологий.

4. Разработаны модели МАСПИ и алгоритмы взаимодействия интеллектуальных агентов, обеспечивающие процессы информационного поиска в КИС промышленного предприятия.

5. Разработан программный прототип агента интеллектуального поиска информации.

6. Произведено экспериментальное исследование эффективности разработанных методов, моделей и программных средств. Полученные результаты показывают, что пертинентность поиска с использованием МАСПИ повысилась для различных типов запросов на величину от трех до семнадцати процентов.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

В изданиях из перечня ВАК

1. Летовальцев В. И. Сравнение агентного и сервис-ориентированного подходов к созданию распределенных приложений / В. И. Летовальцев, А. Н. Швецов // Информационные технологии в проектировании и производстве: Науч.-техн. журн. / ФГУП «ВИМИ», 2009. - №2.-С. 66-71. (соискатель - 70%).

2. Летовальцев В. И. Программная формализация естественного языка средствами формальной семантики / В. И. Летовальцев, А.Н. Швецов // Программные продукты и системы - 2010. - №3. - С. 85-90. (соискатель - 70%).

В прочих изданиях

3. Швецов А. Н., Летовальцев В. И. Смысловой поиск информации на основе формальной семантики. / Сборник тезисов Всероссийской конференции по результатам проектов, реализованных в рамках целевых программ «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы, «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» в области информационно-телекоммуникационных технологий. — М: 2010, С 87 — 89. (соискатель - 70%).

4. Летовальцев В. И. Средства интенсиональной логики для проведения информационного поиска // Искусственный интеллект: философия, методология, инновации. Материалы Четвертой всероссийской конференции студентов, аспирантов и молодых ученых. Часть 1, г. Москва, МИРЭА, 10-12 ноября 2010 г. Под ред. Д. И. Дубровского и Е. А. Никитиной - М.: «Радио и Связь», 2010 С. 96 - 99

5. Швецов А. Н. Летовальцев В. И. Семантическая обработка текста на основе интенсиональной логики для проведения информационного поиска. // Интеллектуальные системы: Труды Девятого международного симпозиума / Под ред. К. А. Пулкова. - М.: РУСАКИ, 2010. С. 146 - 150 (соискатель - 70%)

6. Швецов А. Н., Летовальцев В. И. Классификация систем информационного поиска / Вузовская наука - региону: Материалы шестой всероссийской научно-технической конференции. В 2-х т. - Вологда: ВоГТУ, 2010. - Т. 1. С. 143-145. (соискатель - 70%)

7. Швецов А. Н., Летовальцев В. И. Агентная система накопления и хранения информации / Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и систем искусственного интеллекта: Материалы 5-й межд. науч.-техн. конф. -Вологда: ВоГТУ, 2009. - С. 345-349. (соискатель - 70%).

8. Швецов А. Н., Летовальцев В. И. Агентная система учета трафика при организации доступа сотрудников в Интернет //Труды Восьмого международного симпозиума / Под ред. К. А. Пупкова. - М.: РУСАКИ, 2008. - С. 273-277. (соискатель - 70%).

9. Швецов А. Н. Летовальцев В. И. Агентная архитектура как основа построения корпоративных систем / Автоматизация и энергосбережение машиностроительного и металлургического производств, технология и надежность машин, приборов и оборудования: Мат-лы четвертой междунар. науч.-техн. конф. т.2. - Вологда: ВоГТУ, 2008. - С. 178181. (соискатель - 70%).

10. Летовальцев В. И. Два способа построения распределенного приложения учета интернет-трафика / Материалы II ежегодных смотров-сессий аспирантов и молодых ученых по отраслям наук: в 2-х томах. - Вологда. ВоГТУ, 2008. - Т. 1 Технические науки С. 61-69

11. Швецов А. Н., Летовальцев В. И. Объектно-реляционный маппинг как средство взаимодействия агентов с базами данных / Вузовская наука - региону: Материалы шестой все-

российской научно-технической конференции. В 2-х т. - Вологда: ВоГТУ, 2008. - Т. 1. С. 160-162. (соискатель - 70%)

12. Швецов А. Н., Летовальцев В. И. Агентный семантический поиск в корпоративных информационных хранилищах / Автоматизация и энергосбережение машиностроительного производства, технология и надежность машин, приборов и оборудования. Материалы третьей международной научно-технической конференции В 2-х т. - Вологда: ВоГТУ, 2007. - Т. 2. С. 147-150. (соискатель - 70%).

13. Швецов А. Н., Летовальцев В. И. Агент семантического поиска информации на основе онтологий. //Научный сервис в сети Интернет: многоядерный компьютерный мир. 15 лет РФФИ: Труды Всероссийской научной конференции. - М.: Изд-во МГУ, 2007. - С. 295299 (соискатель - 70%).

14. Летовальцев В. И. Сервер предоставления лингвистических услуг // Молодежь и высокие технологии: материалы всероссийской студенческой олимпиады (конкурс компьютерных программ). - Вологда: Во1ТУ, 2007 С. 71-73

15. Швецов А. Н. Агент информационного поиска документов на основе онтологий/ А. Н. Швецов, В. И. Летовальцев, И. О. Кошелев // X Санкт-Петербургская международная конференция «Региональная информатика 2006». — СПб СПОИСУ, 2006. С. 318 (соискатель - 50%).

Подписано в печать 14.02.2012 г. Формат 60x84/16. Печать офсетная. Бумага офисная. Усл. печ. л. 1,0. Тираж 100 экз. Заказ N2 83.

Отпечатано: РИО ВоГТУ, г. Вологда, ул. Ленина, д.15

Текст работы Летовальцев, Виктор Иванович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

61 12-5/3521

Вологодский государственный технический университет

На правах рукописи

/~1' Луъ<7*

Летовальцев Виктор Иванович

МЕТОД И АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ИНФОРМАЦИИ В КОРПОРАТИВНЫХ ХРАНИЛИЩАХ

Специальность: 05.13.01 - «Системный анализ, управление и обработка

информации (промышленность)»

Диссертация на соискание ученой степени кандидата технических наук

Владимир 2012

Оглавление

Введение..........................................................................................................4

1. Автоматический семантический анализ в текстовых информационных хранилищах......... 8

1.1 Подходы к поиску текстовой информации в сфере компьютерных технологий............ ..8

1.2 Исследовательские системы семантического поиска информации............................13

1.2.1 Система поиска и обработки информации Webcompass.......................................13

1.2.2 Система MARRI.........................................................................................14

1.2.3 Система OntoSeek.......................................................................................16

1.3 Методы семантической обработки информации...................................................18

Выводы по главе 1 .............................................................................................35

2. Метод и алгоритмы интеллектуальной обработки информации на основе интенсиональной

логики............................................................................................................37

2.1. Язык интенсиональной логики........................................................................37

2.2 Перевод естественно-языковых выражений на язык интенсиональной логики.............43

2.3 Метод автоматической семантической обработки информации на основе формальной семантики.......................................................................................................47

2.3.1 Алгоритм формализации естественно-языковой фразы на основе формальной семантики.......................................................................................................50

2.3.2 Построение функции интерпретации формулы интенсиональной логики для БЗ ........57

2.3.3 Алгоритм заполнения БЗ на основе анализа ЕЯ текстов средствами логики Монтегю ..62 Выводы по главе 2.............................................................................................68

3. Разработка мультиагентной системы интеллектуального поиска информации на

промышленном предприятии.............................................................................. .70

3.1. Фоновые знания как необходимый элемент процесса семантического поиска.............70

3.2 Алгоритмы интеллектуального поиска текстовой информации................................75

3.2.1 Алгоритм расширения поискового запроса пользователя на основе БЗ....................76

3.2.2 Алгоритм поиска на основе интерпретации формулы логики Монтегю на БЗ............82

3.3 Концепция системы мультиагентной системы поиска информации масштаба предприятия....................................................................................................85

3.3.1 Концептуальная модель МАСПИ...................................................................88

3.3.2 Логическая модель МАСПИ.........................................................................93

3.3.3 Алгоритмы функционирования МАСПИ.........................................................96

Выводы по главе 3.............................................................................................98

4. Реализация прототипа маспи............................... ...............................................99

4.1. Реализация атомарных функций алгоритмов семантической обработки..................99

4.2 Программная реализация поисковых систем на предприятиях ОАО «Соколстром» и ОАО «Сокольский целлюлозно-бумажный комбинат».....................................................104

4.3 Результаты внедрения программных средств интеллектуального поиска...................115

Выводы по главе 4...........................................................................................128

Список источников.......................................................................................... 129

Приложения.....................................................................................................136

Введение

Актуальность темы. Эффективность работы современного промышленного предприятия в информационном обществе зависит от скорости и качества удовлетворения потребностей в служебной информации каждого из сотрудников. Информационные хранилища корпоративных информационных систем (КИС) могут достигать огромных размеров, что сильно затрудняет поиск. Часто необходимая информация распределена по различным информационным системам внутри предприятия. Основные причины этого: различие используемой терминологии и специфическая структура хранимой информации. Возникает парадоксальная ситуация, когда пользователь имеет доступ к информации, но не может ее получить. Стала актуальной проблема теоретического рассмотрения и практической реализации механизмов и средств автоматизации поиска информации в КИС.

Интеллектуальная обработка текстовой информации охватывает широкий круг проблем, таких как формализация текстовых данных, способы извлечения знаний из данных, методы отображения предметной области, которым посвящены работы Э. Баха, Т. А. Гавриловой, Т. Р. Груббера, Г. С. Осипова, Н. Хомского, В. Ф. Хорошевского.

Важной частью изучения семантики является изучение языковых средств передачи смысла. В области изучения синтаксиса и семантики русского языка следует выделить работы Ю. Д. Апресяна, Н. Д. Арутюновой, Г. А. Золотовой, А. А. Леонтьева, Е. В. Падучевой, Н. Ю. Шведовой.

Для моделирования и информационной поддержки распределенных процессов автор использует технологию мультиагентных систем (MAC), исследования в области которых проводились такими учеными, как М. Вулдридж, В.И. Городецкий, Н. Дженнингс, A.B. Костров, X. С. Ивана, Д.А. Поспелов, В.Б. Тарасов, А. И. Швецов.

Общие вопросы управления промышленным предприятием освещены в работах Д.В. Александрова, В.В. Кульбы, Р.И. Макарова, А.Г. Мамиконова, Б.Я. Советова, В.Д. Чертовского и др.

Для достижения поставленной цели в работе были поставлены и решены следующие задачи:

2. Разработка метода и алгоритмов интеллектуальной обработки информации на основе формальной семантики.

4. Разработка концептуальных и логических моделей MAC поиска информации.

5. Экспериментальное исследование эффективности разработанных методов, моделей и программных средств.

Научная новизна работы заключается в следующем:

1. Метод интеллектуальной обработки информации позволяет производить формализа-цию корпоративных документов на основе онтологий предметных областей и обеспечивает автоматизированное заполнение баз знаний в корпоративных хранилищах.

2. Алгоритмы интеллектуального поиска информации в корпоративных хранилищах отличаются использованием онтологий конкретных предметных областей, что позволяет повысить релевантность поиска и обеспечить адаптацию поисковой машины под информацион-ные потребности корпоративных пользователей.

3. Модели мультиагентной системы поиска информации (МАСПИ) и алгоритмы взаи-модействия интеллектуальных агентов, отличающиеся агентно-ориентированной интерпрета-цией алгоритмов семантического поиска информации, позволяют проводить распределенный поиск в гетерогенных средах КИС.

На защиту выносятся следующие результаты:

1. метод интеллектуальной обработки информации на основе онтологий предметных областей;

2. алгоритмы интеллектуального поиска информации в корпоративных хранилищах;

3. модели мультиагентной системы поиска информации и алгоритмы взаимодействия интеллектуальных агентов.

Практическая значимость исследования определяется тем, что:

1. Метод интеллектуальной обработки информации на основе логики Р. Монтегю позволяет проводить заполнение и использование многоцелевых информационных баз на основе неструктурированной текстовой информации, представленной средствами естественного язы-ка.

2. Разработанные алгоритмы позволяют осуществлять распределенный семантический поиск информации, что дает возможность повысить пертинентность ответов системы на за-просы пользователя.

3. Полученные модели МАСПИ позволяют реализовать гибкие и адаптив^ные системы поиска информации на предприятиях различных отраслей промышленности.

Реализация результатов исследований. Результаты диссертации получены в рамках гранта РФФИ №08-01-00457-а «Исследование фундаментальных проблем построения мультиагентных интеллектуальных систем» (2008-2009 гг.), выполнения работ по государственному контракту №02.740.11.0625 Федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» (2009-2013 гг.), гранта Правительства Вологодской области «Агентная система профилирования сетевых ресурсов для учебных заведений на основе онтологий» (2010 г.).

Апробация результатов работы. Основные положения работы были представлены на международных конференциях «Региональная информатика» (Санкт-Петербург 2006), «Научный сервис в сети Интернет: многоядерный компьютерный мир» (Новороссийск -2007), «Автоматизация машиностроительного производства, технология и надежность машин, приборов и оборудования» (Вологда - 2007), «Автоматизация и энергосбережение машиностроительного и металлургического производств, технология и надежность машин, приборов и оборудования» (Вологда - 2008), восьмом и девятом Международном симпозиуме «Интеллектуальные системы» (Нижний Новгород - 2008, Владимир - 2010); всероссийских конференциях «Четвертая Всероссийской конференции студентов, аспирантов и молодых ученых "Искусственный интеллект: философия, методология, инновации"» (Москва - 2010), «Вузовская наука - региону» (Вологда - 2007, 2010), Всероссийская конференция по результатам проектов, реализованных в рамках целевых

программ «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (Москва 2010); региональной конференции «II ежегодные смотры-сессии аспирантов и молодых ученых по отраслям наук» (Вологда - 2008).

1. Автоматический семантический анализ в текстовых информационных хранилищах

1.1 Подходы к поиску текстовой информации в сфере компьютерных технологий

Эффективность работы современного промышленного предприятия в информационном обществе зависит от скорости и качества удовлетворения потребностей в служебной информации каждого из сотрудников. Информационные хранилища корпоративных информационных систем (КИС) могут достигать огромных размеров, что сильно затрудняет поиск. Может сложиться ситуация, когда сотрудники разных подразделений одной организации просто не в состоянии будут использовать информацию из общего хранилища. Основные причины этого: различие используемой терминологии и специфическая структура хранимой информации. Возникает парадоксальная ситуация, когда пользователь имеет доступ к информации, но не может ее получить. Поэтому всё более актуальными становятся разработки средств им методов информационного поиска информации в корпоративных информационных хранилищах.

Под понятием информационного поиска часто объединяют довольно разнородный набор действий по удовлетворению информационных потребностей. Стоит отметить, что любая информационная система должна иметь средства поиска введенной в нее информации, иначе ценность такой системы достаточно мала. При такой постановке вопроса любое взаимодействие с информационной системой предваряется процессом информационного поиска. Так прежде чем прочитать книгу в библиотеке нужно ее найти на полке, прежде чем посмотреть содержимое файла в компьютере, его нужно найти на устройстве хранения информации. Ценность информационной системы напрямую зависит от возможностей системы по информационному поиску. Обеспечение качественного информационного поиска являются необходимым (хотя и не достаточным) условием эффективности работы всей информационной системы в целом.

В сфере информационных технологий под информационным поиском (information retrieval) чаще всего понимают поиск в некоторой коллекции неструктурированных данных (чаще всего текстовых), которые удовлетворяют информационным потребностям лица, проводящего поиск [76].

Под неструктурированными данными понимают информацию, которая не имеет строгой семантической организации, подразумевающей быструю автоматическую обработку. В качестве примера структурированных данных можно привести реляционную структуру. Правильно спроектированная база данных подразумевает однозначную интерпретацию хранимых данных. Правила этой интерпретации определяются на этапе

проектирования реляционной структуры. Лишь небольшая часть данных, накопленных в КИС, хорошо структурированы. Поэтому разработка методов поиска неструктурированных текстовых данных в корпоративных хранилищах промышленных предприятий является достаточно актуальной.

Можно выделить несколько критериев классификации методов информационного поиска. Один из таких критериев масштаб применения. По масштабу применения поисковые системы можно разделить следующим образом (см. табл. 1).

Таблица 1.1

Вид поисковой системы Объем данных Распределенность / мультиформатность Пример

Персональные Минимальный -/- Поиск файлов в ОС

Проблемно-ориентированные Малый +/- Поиск статей по ИТ -тематике

Ведомственные Средний +/+ Поиск в базе патентов

Корпоративные Большой +/+ Поиск в информационных хранилищах предприятия

Системы веб-поиска Максимально возможный +/+ Любая поисковая веб-машина

Для промышленных предприятий необходимыми являются системы поиска начиная от персональных до корпоративных. Система должна иметь возможность масштабирования поисковых средств от одного компьютера конкретного пользователя до рамок всей корпоративной сети предприятия.

Другой вариант классификации - по способу поиска. Выделяют 2 вида поисковых систем - сканирующие и индексирующие. Первые производят поиск путем «перечитывания» данных. Вторые строят вспомогательную структуру - индекс, который сокращает время обработки запросов. Первые системы необходимы для поиска небольших постоянно меняющихся данных (например, файлы на компьютере). Большинство поисковых систем принадлежит к индексирующим системам. В КИС наиболее предпочтительным является индексирующий поиск в виду существенного ускорения поиска в больших массивах информации при использовании индекса.

Чаще всего поисковые системы классифицируют на основе поискового алгоритма, полученного в их основу. Основные виды поисковых систем по этому критерию следующие: 1) Двоичный поиск.

Поисковая машина определяет наличие/отсутствие слов запроса в целевом тексте. В качестве запроса используется список слов. В запросе допускается использование логических связок (AND, OR, NOT и т. д.) и уточняющих символов (например, показывающих, что данные слова должны встречаться в одном предложении или абзаце). Моделью индекса такой поисковой машины может служить матрица инцедентов (incidence matrix). Результаты поиска не сортируются или сортируются на основе внешних по отношению к поиску данных (например, по дате создания релевантных документов). Этот вид поиска появился одним из первых и до сих пор пользуется достаточно большой популярностью. Так в коммерческой поисковой машине Westlaw (http://www.westlaw.com/) по умолчанию используется именно двоичный поиск. И не смотря, на возможность использования «текстового» поиска, двоичным поиском пользуется достаточно большой процент пользователей системы. К достоинствам этого вида поиска можно отнести простоту реализации и использования, гарантированный и понятный р

Похожие работы

Информатика, вычислительная техника и управление
05.13.00