Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП

Калиниченко, Алла Викторовна

Автоматизация и управление технологическими процессами и производствами (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП

кандидата технических наук: Калиниченко, Алла Викторовна
город: Владикавказ
год: 2012
специальность ВАК РФ: 05.13.06

Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП»

Автореферат диссертации по теме "Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП"

005045574

На правах рукописи

Калиниченко Алла Викторовна

МЕТОДЫ И АЛГОРИТМЫ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ФУНКЦИОНИРОВАНИЯ ИНФОРМАЦИОННО-СПРАВОЧНОЙ ПОДСИСТЕМЫ АСУП

Специальность: 05.13.06 - «Автоматизация и управление технологическими процессами и производствами (промышленность)»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

- 7 ИЮН 2012

Владикавказ — 2012

005045574

Работа выполнена в ФГБОУ ВПО «Северо-Кавказский горнометаллургический институт (государственный технологический университет)»

Научный руководитель: кандидат технических наук, доцент

Аликов Алан Юрьевич

Официальные оппоненты: Алексеев Владимир Петрович

доктор технических наук, доцент, профессор кафедры «Промышленная электроника» СКГМИ (ГТУ)

Салбиев Алан Таеолтанович

кандидат технических наук, начальник отдела науки и информационных технологий Министерства образования и науки РСО-Алания

Ведущая организация: ФГУП Го с НИИ Операционных систем,

г. Москва

Защита диссертации состоится «22» июня 2012 г. в 1500 часов на заседании диссертационного совета Д212.246.01 при ФГБОУ ВПО «Северо-Кавказский горно-металлургический институт (государственный технологический университет)» по адресу: 362021, г. Владикавказ, ул. Николаева, 44, СКГМИ (ГТУ). Факс: (8672) 407-203. E-mail: info@skgmi-gtu.ru.

С диссертацией можно ознакомиться в научно-технической библиотеке СКГМИ (ГТУ).

Автореферат разослан « 21 » мая 2012 г.

Ученый секретарь диссертационного совета Д 212.246.01 к.т.н., доцент

А. Ю. Аликов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В условиях наблюдающейся тенденции укрупнения промышленного производства, образования холдингов, финансово-промышленных групп, ключевое значение имеет решение вопросов эффективного использования информационных ресурсов, отражающих и обеспечивающих их деятельность. В современных автоматизированных системах управления предприятием (АСУП) циркулирует большой объем разнородной информации. В последние годы наблюдается тенденция к сокращению роста объема структурированных данных и росту объема частично структурированных и неструктурированных данных. Исследования показывают, что на поиск нужной информации сотрудники предприятий тратят до 20% рабочего времени. В связи с этим возрастающее значение имеет организация эффективных механизмов поиска в информационном фонде АСУП. Наличие в рамках АСУП информационно-справочной подсистемы дает возможность получать оперативный доступ к достоверной информации, необходимой для принятия решений и позволяет повысить эффективность управления.

Управленческому звену предприятий приходится принимать решения в условиях высокой динамичности изменения экономической ситуации, учитывать множество факторов и ограничений, анализировать большой объем внутренней документации. Соизмеримость ценности информации с основными ресурсами производства, рост ее объема и повышение влияния на эффективность производства обуславливает актуальность исследований, направленных на разработку методов, обеспечивающих повышение пертинентности и релевантности поиска неструктурированной информации и эффективную организацию информационно-справочной подсистемы в составе АСУП.

Целью диссертационной работы является разработка методов и алгоритмов, позволяющих повысить эффективность функционирования информационно-справочной подсистемы АСУП путем повышения пертинентности и релевантности поиска неструктурированной информации.

Поставленная цель потребовала решения следующих задач:

1. провести анализ требований к современным автоматизированным системам управления предприятием;

2. разработать математическое описание представления информации в информационно-справочной подсистеме, учитывающее контекст поисковых терминов;

3. разработать алгоритм построения поискового образа документа на основе предлагаемого математического описания;

4. разработать метод и алгоритм поиска семантически похожих документов;

5. разработать метод и алгоритм построения кластеров ассоциативно связанных значимых поисковых терминов документа;

6. оценить эффективность функционирования предложенных методов и алгоритмов в информационно-справочной подсистеме АСУП.

Объект исследования — информационно-справочные подсистемы АСУП.

Предмет исследования — методы и алгоритмы, обеспечивающие повышение пертинентности и релевантности поиска неструктурированной информации в информационно-справочной подсистеме АСУП.

Методы исследования. Для решения поставленных задач применялись методы кластерного анализа, теории нечетких множеств, статистические методы обработки данных, методы поиска и управления информацией, теории алгоритмов, теории графов.

Научная новизна диссертационной работы состоит в следующем:

1. Предложено математическое описание представления информации в информационно-справочной подсистеме, позволяющее, организовать эффективное ведение информационного обеспечения АСУП, повысить пертинентность и релевантность поиска неструктурированной информации. Разработан алгоритм построения поискового образа документа, основанный на предложенном математическом описании.

2. Предложена структура информационно-справочной подсистемы АСУП, включающая в себя диалоговую подсистему уточнения запроса.

3. Разработаны метод и алгоритм поиска семантически похожих документов, позволившие повысить пертинентность поиска, особенностью которых является предоставление возможности пользователю уточнять информационную потребность.

содержания документа в виде графа, что позволяет уточнить запрос лишь теми терминами, которые отражают информационную потребность пользователя.

Практическая значимость. Разработанные методы и алгоритмы позволяют повысить пертинентность и релевантность поиска в информационно-справочной подсистеме АСУП. Предложенный подход к поиску семантически похожих документов позволяет решить проблему корректного отражения информационной потребности пользователя.

Достоверность н обоснованность полученных результатов обеспечиваются показателями, оценивающими эффективность информационного поиска, такими как: точность, полнота, точность на уровне п-документов. Значения показателей были получены в ходе экспериментов на тестовой коллекции.

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на научно-технических конференциях СКГМИ (ГТУ) 2009-2011г.; а также на следующих международных научно-практических конференциях: X Международная научно-практическая конференция «ИТ-технологии: Развитие и приложения», г. Владикавказ, 2009г.; V Международная научно-практическая конференция «Современное состояние естественных и технических наук», г. Москва, 2011г.

Публикации. Основные результаты диссертационной работы опубликованы в 7 печатных работах, в т.ч. 2 работы в ведущих рецензируемых научных журналах и изданиях, определенных ВАК РФ для публикации основных научных результатов.

Структура н объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы, включающего 96 наименований, и содержит 112 страниц машинописного текста, 27 рисунков, 7 таблиц и 1 приложение.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность диссертационной работы, раскрыта научная новизна, определены результаты и их практическое значение, сформулирована цель и решаемые задачи.

В первой главе дана общая характеристика предметной области, проведен анализ требований к современным автоматизированным системам управления предприятием. Информация является связующим звеном между различными видами интеллектуальной и материальной деятельности коллективов людей, между управлением и производством. Объем информации, в отличие от других видов ресурсов, не убывает со временем, а наоборот, постоянно увеличивается, создавая условия для накопления опыта, способствуя выработке обоснованных управленческих решений.

Руководству, менеджерам среднего и высшего звена холдингов, финансово-промышленных групп для принятия качественных управленческих решений необходимо иметь оперативный доступ к интересующей их информации. Проведенный анализ показал, что на поиск необходимой информации уходит до 20% рабочего времени; большинству пользователей сложно сформулировать запрос, точно отражающий его информационную потребность, что приводит к получению нерелевантных документов; в информационно-справочных системах слабо представлен механизм обратной связи с пользователем. Т.о. существует необходимость в разработке методов и алгоритмов, ориентированных на повышение пертинентности и релевантности поиска неструктурированной информации в информационно-справочной подсистеме АСУП.

Во второй главе предложен подход к организации информационно-справочной подсистемы АСУП, включающей в себя диалоговую подсистему уточнения запроса, и выявлены ее особенности. Структурная схема информационно-справочной подсистемы изображена на рисунке 1. В подсистеме предварительной обработки документов/запросов осуществляются следующие операции: определение языка текста, лексический анализ, удаление стоп-слов, нормализация слов, приведение регистра. В подсистеме индексирования происходит выражение содержания документа на информационно-поисковом языке. В подсистеме анализа запроса/документа-образца осуществляется определение информационной потребности пользователя, формирование поискового образа запроса, задание ограничений поиска. Подсистема построения кластеров ассоциативно связанных поисковых

терминов документа позволяет построить визуальное представление основного содержания документа в виде графа, вершинами которого являются поисковые термины, а ребра отражают их ассоциативную связь. Для решения задачи корректного отражения информационных потребностей пользователя в информационно-справочной подсистеме АСУП введен диалоговый режим взаимодействия с пользователем, особенностью которого является использование визуализации графа, отражающего взаимосвязи между терминами информационного массива. Данный подход позволит пользователю правильно подобрать набор поисковых терминов. Использование графа для представления взаимосвязей между терминами позволяет применить алгоритмы обхода графа в глубину и в ширину для выявления семантически близких терминов и уточнения запроса. Подсистема «Тезаурус» применяется для уточнения запроса. В подсистеме поиска осуществляется поиск в информационном массиве документов, удовлетворяющих запросу. В подсистеме формирования результатов поиска происходит вычисление меры релевантности документов запросу и выдача результатов.

ПОЛЬЗОВАТЕЛЬ

Диалоговая подсистема уточнения запроса

Подсистема построения кластеров ассоциативно связанных терминов

Подсистема «Тезаурус»

Запрос/документ-образец

Подсистема анализа запроса/документа-образца

\2_

Подсистема поиска

Подсистема предварительной обработки документов/ запросов

Подсистема формирования результатов поиска

База данных АСУ

Подсистема индексирования документов

Рисунок 1 - Структурная схема информационно-справочной подсистемы

АСУП. 7

Предложено математическое описание представления информации в информационно-справочной подсистеме, базирующееся на аппарате нечетких множеств.

Введем обозначения:

D = {d\,d2,■■.,(!„} — конечное множество документов информационного массива;

п = |d| - общее количество документов;

Т = {ti,t2,~-,tm} — конечное множество терминов информационного массива;

m = |г| - общее количество терминов;

Q -множество запросов.

Под документом в данной работе понимается порция электронной информации, обладающая законченным содержание и какого-либо рода уникальным идентификатором. Аппарат нечетких множеств позволяет представить поисковый образ документа и поисковый образ запроса в виде нечеткого множества, то есть множества лексических единиц с мерами их принадлежности данному поисковому образу. В данной работе для составления поискового образа документа, более полно отражающего его содержание, будем учитывать ассоциативную связь терминов.

Текст документа dj ,dj e D можно представить в виде последовательности элементов множества Т, обозначим ее d - {ц,12,...,1г}, где г - общее количество слов в документе. Очевидно, элементы в данной последовательности могут повторяться.

Рассмотрим множество s{ d, t,, radius) = { tj : |/ - j\ < radius, tj ed } -

множество слов, находящихся во фрагменте последовательности d, начиная с элемента i,_radius по элемент i~+radius включительно, будем называть это множество контекстом слова t,.

Поисковый образ документа dj представим в виде пары:

где = | ц(г,)^ и е Т, / е {1,..., т } |, ц^ С,) отражает степень принадлежности термина г, документу ;

Ьа. = | (^,/Д (г,,^) е Г | описывает ассоциативную

связь терминов документа, ц^ С/^Гу) отражает частоту появления пары терминов в одном контексте.

Запрос Я е р также будем представлять в виде нечеткого множества, то есть Ад = цА (/,-)) 1,..., т } |.

Функция принадлежности ц^ -Т—>[0,1] может быть определена

на основании функции взвешивания поисковых терминов, например

У 1,4,

шах ке{\,...,т) к *

где /Д. > - количество появлений термина ^ в документ

Функцию принадлежности ц^, :ГхГ-»[0,1] зададим следующим образом:

tf(ti,tJ),dj_

УЧ.а . (М./) =--'

где л - количество появлений пары терминов в одном кон-

тексте в документе <1.

При решении задач классификации, кластеризации, поиска семантически похожих документов предложенный поисковый образ документа позволяет учесть контекст терминов. Пусть с!1, <1] е О, (л^, > )>

- поисковые образы с1-1 и с!} соответственно. При вычислении меры близости документов следует отдельно вычислить меру близости (Я,. ,Ас1.) и (ц, ).

С учетом предложенного представления информации мера релевантности может быть задана функцией

^Гтах^/Дц^,)) <=1

Третья глава посвящена разработке методов и алгоритмов на основе предложенного математического описания представления информации в информационно-справочной подсистеме АСУП, обеспечивающих повышение пертинентности и релевантности поиска.

Разработан метод формирования кластеров ассоциативно связанных значимых терминов документа, целью которого является построение визуального представления основного содержания документа в виде графа, вершинами которого являются поисковые термины, а ребра отражают их ассоциативную связь. Использование такого представления позволит уточнить запрос лишь теми терминами, которые отражают информационную потребность пользователя. Основные шаги представлены на рисунке 2.

На шаге 1 выполняется лексический, морфологический анализ, нормализация терминов, удаление стоп-слов.

На шаге 2 осуществляется построение списка терминов, встречающихся в документе, и вычисление частоты их появления.

На шаге 3 выделяется множество значимых поисковых терминов на основе частоты их появления в документе.

На шаге 4 осуществляется построение неориентированного взвешенного графа, вершинами графа являются термины документа, вес ребра определяет численное значение ассоциативной связи терминов, которые оно соединяет.

На шаге 5 формируются кластеры значимых поисковых терминов с помощью алгоритма кластеризации, использующего представление выборки данных в виде графа.

Схема алгоритма формирования кластеров ассоциативно связанных значимых терминов документа показана на рисунке 3.

Важной задачей современных поисковых систем является повышение пертинентности. Способность пользователя находить перти-нентные документы напрямую зависит от его способности формировать необходимые запросы. Формулирование запроса является одним из наиболее сложных аспектов информационного поиска.

Шаг 1 : 1 1 1 1 1

Предварительная обработка документа

""I. ............. .

! Формирование списка терминов | документа Шаг 2 ! 1 1 1 1

д_____________________

I Выделение множества значимых 1 поисковых терминов Шаг 3 :

■----

Д.______________________

Шаг 41

! Построение графа, отражающего ассо-| циативную связь значимых поисковых терминов ■ ______———^—

'.........."т.........::::::.......

Шаг 5

» Кластеризация значимых ключевых \ терминов документа 1 ___________

Рисунок 2 - Основные шаги метода формирования кластеров ассоциативно связанных значимых терминов.

Как правило, трудности при формулировании запроса могут быть вызваны: неспособностью пользователя подобрать набор ключевых слов, наиболее полно отражающий его информационную потребность; отсутствием достаточного уровня квалификации и опыта для составления запроса; сложностью использования терминологии предметной области.

Для формирования более точного запроса используются глобальные и локальные методы уточнения запроса. К глобальным методам

относится, например, расширение запроса или новая формулировка запроса с помощью тезауруса. Локальные же методы изменяют запрос с учетом документов, найденных по исходному запросу. К локальным методам относится обратная связь по релевантности. Как вариант обратной связи по релевантности можно рассматривать поиск семантически похожих документов.

Часто пользователь имеет документ, отражающий его информационную потребность, этот документ может выступать в качестве образца для поиска. Таким образом, поиск документов семантически похожих на документ-образец способствует решению проблемы корректного отражения информационной потребности пользователя.

Начало

Получить документ О _____±_____

Предварительная

обработка Лексический анализ

Морф о логический анализ

Удаление стоп-слов

Получить первый термин предложения

Инициализировать

массив Terms

+ -

Получить первое предложение документа

Запомнить термин в массиве, установить кол-во появлений равным 1

Получить очередной термин предложения

Увеличить количество появлений термина в документе на 1

стр. 13

Рисунок 3 - Схема алгоритма формирования кластеров ассоциативно связанных значимых терминов документа.

Анализ методов поиска семантически похожих документов показал, что сходство между документами вычисляется на основании критериев, определенных разработчиками системы, и, как правило, не известных пользователю. Кроме того, он не имеет возможности влиять на механизм поиска похожих документов.

Предлагаемый метод автоматизации поиска семантически похожих документов позволяет: уточнить информационную потребность пользователя и построить более точный поисковый запрос путем введения диалога; учесть сходство контекста значимых терминов документов коллекции и контекста терминов документа-образца.

Основные шаги метода поиска семантически похожих документов представлены на рисунке 4.

На шаге 1 выполняется предварительна обработка документа-образца Р: лексический, морфологический анализ, нормализация терминов, удаление стоп-слов.

На шаге 3 формируются кластеры ассоциативно связанных значимых поисковых терминов документа-образца на основе выше предложенного метода. Целью данного шага является построение кластеров терминов, отражающих основное содержание документа.

Шаг 4 позволяет выполнить уточнение информационной потребности пользователя. Построенные на предыдущем шаге кластеры терминов визуализируются и выводятся на экран. Пользователь вправе удалить кластеры или термины, которые выходят за рамки его поисковых интересов. Можно уточнить запрос за счет добавления ассоциативно связанных поисковых терминов, не содержащихся в документе.

На шаге 5 строится поисковый образ запроса на основе модели представления информации, предложенной в главе 2.

На шаге 6 выполняется процедура поиска.

На шаге 7 вычисляется релевантность поискового запроса и поисковых образов документов. Вычисляется степень сходства и

{¿■Р')• Если а>а, то документ попадает в поисковую выдачу, в

противном случае - нет.

Схема алгоритма поиска похожих документов показана на рисунке 5. Как видно из рисунка, атгоритм предусматривает два варианта работы: с возможностью уточнения информационной потребности и без уточнения.

Предварительная обработка документа-образца

:ж

Шаг 1 I I

Формирование списка терминов документа образца

Шаг 2 I I

Формирование кластеров ассоциативно связанных значимых

1ШагЗ~1

Уточнение информационной потребности пользователя

тг

1Шаг4 I

Построение поискового образа запроса

"Д"

----1

Шаг 5 I

Поиск

Шагб

Вычисление релевантности

Шаг7

Рисунок 4

- Основные шаги метода поиска семантически похожих документов. 15

Рисунок 5 - Схема алгоритма поиска семантически похожих документов.

Разработан алгоритм построения поискового документа на основе математического описания представления информации в информационно-справочной подсистеме АСУП, предложенного в главе 2. Схема алгоритма изображена на рисунке 6.

Рисунок 6 - Схема алгоритма построения поискового образа документа.

Четвертая глава посвящена программной реализации предложенных методов и алгоритмов и оценке их эффективности.

Основные модули разработанного программного обеспечения показаны на рисунке 7.

Пользовательский интерфейс

Отображение результатов поиска Ввод запроса или документа-образца Уточнение запроса

Программные модули

Модуль предварительной обработки документов Модуль поисковых функций Модуль ранжирования

Поиск по запросу Модуль построения поисковых образов

Модуль визуализации кластеров Поиск семантически похожих документов 1 Построение ПОЗ 1 1 1 Построение ПОД |

Модуль построения кластеров поисковых терминов Обратная связь с пользователем Модуль индексирования

Рисунок 7 - Основные модули разработанного программного обеспечения.

С помощью разработанной системы экспериментально исследован предлагаемый подход к поиску семантически похожих документов. Характеристика тестовой коллекции приведена в таблице 1.

Таблица 1 - Характеристика тестовой коллекции.

Количество терминов 35000

Минимальный размер документа, (байт) 2048

Минимальный размер документа, (байт) 31744

Количество тематик 10

Минимальное число документов в тематике 20

Максимальное число документов в тематике 87

Для оценки эффективности поиска семантически похожих документов использовались следующие критерии оценки информационного поиска:

- точность, полнота, результаты которых отражены в таблице 2.

- точность на уровне N документов (ргес1зюп(М)) - отношение количества релевантных документов среди N первых выданных документов к N. Данная величина характеризует способность системы выдавать релевантные документы в начале списка результатов. На рисунке 8 показан график точности на уровне N документов для предлагаемого метода поиска семантически похожих документов и поиска по ключевым словам при N£[1,20].

- 11-ти точечный график зависимости точности от полноты. На рисунке 9 отображены графики для предлагаемого метода поиска семантически похожих документов и поиска по ключевым словам.

Таблица 2 - Оценка метода поиска семантически похожих документов.

Описание теста Полнота Точность

Предлагаемый метод поиска семантически похожих документов 0,8 0,7

Поиск по ключевым словам 0,7 0,54

г 0,6

У £

0,4 0,2

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ксш-е о до кум е нто а

Предлагаемый метод поиска семантически похожих документов Поиск по ключевым словам

Рисунок 8 - Точность на уровне N документов.

1,2

ОД 0,6 0,4 0,2

О ОД 0,2 ОД 0,4 0,5 0,6 0,7 0,8 0,9

Полнота

-»-Предлагаемый метод лоискз семантически похожих документов —а—Поиск по ключевым словам.

Рисунок 9 - График зависимости точности от полноты. 20

В заключении приводятся основные результаты диссертационного исследования.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. В результате выполненного анализа поисковых возможностей информационно-справочных систем была предложена организация информационно-справочной подсистемы АСУП с функцией уточнения запроса.

2. Предложено математическое описание представления информации в информационно-справочной подсистеме АСУП на базе аппарата нечетких множеств, учитывающее контекст поисковых терминов.

3. Разработан и реализован алгоритм построения поискового образа документа на основе предложенного математического описания.

4. Предложен метод и реализован алгоритм поиска семантически похожих документов, который позволяет уточнить информационную потребность пользователя и построить более точный запрос путем введения диалога, а также учесть сходство контекста поисковых терминов документов коллекции и контекста терминов документа-образца.

5. Предложены метод и алгоритм формирования кластеров ассоциативно связанных поисковых терминов документа, позволившие сформировать визуальное представление основного содержания документа в виде графа.

6. Проведена оценка эффективности функционирования предложенных методов и алгоритмов в информационно-справочной подсистеме АСУП.

7. Разработанные методы и алгоритмы внедрены для практического применения в ОАО «Кавдоломит» (г. Владикавказ) в виде информационно-справочной подсистемы предприятия.

Таким образом, предложенные и реализованные в диссертационной работе методы и алгоритмы позволяют расширить возможности и повысить эффективность функционирования информационно-справочной подсистемы АСУП.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО РАБОТЕ

Публикации в ведущих рецензируемых научных журналах, включенных

в перечень ВАК

1. Калиниченко А. В. Диалоговый метод автоматизации поиска семантически похожих документов // Системы управления и информационные технологии. №4.1(46), Воронеж, 2011. С. 191 - 193.

2. Аликов А.Ю., Калиниченко A.B. Математическая модель подсистемы информационного поиска в составе АСУП // Устойчивое развитие горных территорий. №4 (10), Владикавказ, 2011. С.32 - 34.

Публикации в других изданиях

3. Калиниченко А. В. О методах поиска по документу-образцу в коллекции электронных документов // Материалы X Международной научно-практической конференции «ИТ-технологии: Развитие и приложения» (8-9 декабря 2009 г.). Владикавказ, 2009. С.50 - 59.

4. Калиниченко А. В. Сущность проблемы анализа текста в полнотекстовых поисковых системах. Подходы и пути решения // Журнал научных публикаций аспирантов и докторантов. №5 (47), Курск, 2010. С. 112-114.

5. Калиниченко А. В. Автоматизированная система поиска слабоструктурированной информации в составе интегрированной АСУП // Материалы V Международной научно-практической конференции «Современное состояние естественных и технических наук» (30.12.2011). - М.: Издательство «Спутник+», 2012. С. 103 - 106.

6. Аликов А.Ю., Калиниченко A.B. Применение нечеткой кластеризации для автоматизации поиска похожих документов // Материалы Международной заочной научно-практической конференции «Вопросы науки и техники». Часть I. (16 января 2012г.) - Новосибирск: Изд. «ЭКОР-книга», 2012.- С. 80 - 84.

7. Калиниченко А. В. Оценка эффективности полнотекстового поиска в информационного фонде АСУП. // Сборник трудов ХП международной конференции «Информатика: проблемы, методология, технологии», Воронеж, 2012. С. 166- 168.

Подписано в печать 18.05.2012. Формат 60x84 '/16. Бумага офсетная. Гарнитура «Тайме». Печать на ризографе. Усл. п.л. 1,0. Тираж 100. Заказ № 117. Северо-Кавказский горно-металлургический институт (государственный технологический университет. Издательство «Терек».

Отпечатано в отделе оперативной полиграфии СКГМИ (ГТУ). 362021, г. Владикавказ, ул. Николаева, 44.

Оглавление автор диссертации — кандидата технических наук Калиниченко, Алла Викторовна

ВВЕДЕНИЕ.

1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА

ЗАДАЧ ИССЛЕДОВАНИЯ.

1.1. Основные направления развития автоматизации управления.

1.2. Проблемы поиска корпоративной информации.

1.2.1. Проблемы анализа текстовых документов на естественном языке.

1.2.2. Подходы к обработке текстовых документов на естественном языке

1.2.3. Анализ методов поиска семантически похожих документов.

1.3. Постановка задач исследования.

1.4. Выводы.

2. СТРУКТУРА ИНФОРМАЦИОННО-СПРАВОЧНОЙ ПОДСИСТЕМЫ АСУП И МАТЕМАТИЧЕСКОЕ ОПИСАНИЕ ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ.

2.1. Математическое описание представления информации.

2.1.1. Представление поисковых образов документов и запросов.

2.2.2. Критерии вычисления релевантности.

2.2. Структура информационно-справочной подсистемы АСУП.

2.3. Выводы.

ГЛАВА 3. РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ

ПОИСКА В ИНФОРМАЦИОННО-СПРАВОЧНОЙ

ПОДСИСТЕМЕ АСУП.

3.1. Методы уточнения запроса.

3.2. Метод и алгоритм формирования кластеров ассоциативно связанных значимых поисковых терминов документа.

3.3. Диалоговый метод поиска семантически похожих документов.

3.4. Алгоритм построения поискового образа документа.

3.5. Выводы.

ГЛАВА 4. РАЗРАБОТКА ИНФОРМАЦИОННО

СПРАВОЧНОЙ ПОДСИСТЕМЫ АСУП И ОЦЕНКА ЕЕ ЭФФЕКТИВНОСТИ.

4.1. Структура программного комплекса.

4.2. Оценка эффективности предлагаемых методов.

4.3. Дальнейшее развитие предложенных методов, повышающих качество поиска.

4.4. Выводы.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Калиниченко, Алла Викторовна

В условиях наблюдающейся тенденции укрупнения промышленного производства, образования холдингов, финансово-промышленных групп, ключевое значение имеет решение вопросов эффективного использования информационных ресурсов, отражающих и обеспечивающих их деятельность. Становление информационного общества, глобализация, изменение экономических условий, развитие современных компьютерных технологий -факторы, которые привели к изменению условий управления предприятиями И предъявили новые требования к автоматизированным информационным системам и технологиям обработки информационных ресурсов.

В современных автоматизированных системах управления предприятием (АСУП) циркулирует большой объем разнородной информации. В последние годы наблюдается тенденция к сокращению темпов роста объема структурированных данных и увеличению темпов роста объема частично структурированных и неструктурированных данных. Исследования показывают, что на поиск нужной информации сотрудники предприятий тратят до 20% рабочего времени. В связи с этим возрастающее значение имеет организация эффективных механизмов поиска в информационном фонде АСУП. Наличие в рамках АСУП информационно-справочной подсистемы дает возможность получать оперативный доступ к достоверной информации, необходимой для принятия решений, позволяет повысить эффективность управления и ускорить процесс обработки данных.

Исследованиям в области информационно-поисковых систем и обработки информации на естественном языке посвящены научные труды Белоногова Г. Г., Когаловского М. Р., Добрынина В. Ю., Некрестьянова И. С., Гасанова Э. Э, Губина М.В., Ландэ Д. В., Saltón G., Baeza-Yates R., Landauer Т. К., Dominich S.

Поставленная цель потребовала решения следующих задач:

1. провести анализ требований к современным автоматизированным системам управления предприятием;

4. разработать метод и алгоритм поиска семантически похожих документов;

Объект исследования - информационно-справочные подсистемы АСУП.

Предмет исследования - методы и алгоритмы, обеспечивающие повышение пертинентности и релевантности поиска неструктурированной информации в информационно-справочной подсистеме АСУП.

Научная новизна диссертационной работы состоит в следующем:

1. Предложено математическое описание представления информации в информационно-справочной подсистеме, позволяющее организовать эффективное ведение информационного обеспечения АСУП, повысить пертинентность и релевантность поиска неструктурированной информации. Разработан алгоритм построения поискового образа документа, основанный на предложенном математическом описании.

4. Разработаны метод и алгоритм автоматического построения кластеров ассоциативно связанных ключевых терминов документа, особенностью которых является визуальное представление основного содержания документа в виде графа, что позволяет уточнить запрос лишь теми терминами, которые отражают информационную потребность пользователя.

Достоверность и обоснованность полученных результатов обеспечиваются показателями, оценивающими эффективность информационного поиска, такими как: точность, полнота, точность на уровне п-документов. Значения показателей были получены в ходе экспериментов на тестовой коллекции.

Публикации. Основные результаты диссертационной работы опубликованы в 7 печатных работах, в т.ч. 2 работы в ведущих рецензируемых научных журналах и изданиях, определенных ВАК РФ для опубликования основных научных результатов.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы, включающего 96 наименований, и содержит 112 страниц машинописного текста, 27 рисунков, 7 таблиц и 1 приложение.

Заключение диссертация на тему "Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП"

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. В результате выполненного анализа поисковых возможностей информационно-справочных систем была предложена структура информационно-справочной подсистемы АСУП новизна которой состоит в принципах функционирования подсистем, ориентированных на повышение пертинентности и релевантности поиска неструктурированной информации, а именно: подсистемы диалогового режима взаимодействия с пользователем, подсистемы поиска семантически похожих документов и подсистемы формирования кластеров ассоциативно связанных значимых терминов документа.

2. Предложено математическое описание представления информации в информационно-справочной подсистеме АСУП на базе математического аппарата нечетких множеств, позволяющее учесть контекст поисковых терминов в поисковых образах документов.

4. Предложен метод и реализован алгоритм поиска семантически похожих документов, который позволяет уточнить информационную потребность пользователя и построить более точный запрос путем введения диалога; учесть сходство контекста поисковых терминов документов информационного массива и контекста терминов документа-образца.

Библиография Калиниченко, Алла Викторовна, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Автоматизация управления предприятием / Баронов В.В. и др. М.: Инфра-М, 2000. 239 с.

2. Агеев М.С., Кураленок И.Е., Некрестьянов И.С. Официальные метрики РОМИП' 2009 // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2009. 2009. С. 175-185.

3. Аликов А.Ю., Калиниченко A.B. Математическая модель подсистемы информационного поиска в составе АСУП // Устойчивое развитие горных территорий. 2011. №4 (10). С. 32-34.

4. Аликов А.Ю., Калиниченко A.B. Применение нечеткой кластеризации для автоматизации поиска похожих документов // Материалы Международной заочной научно-практической конференции «Вопросы науки и техники». Часть I. (16 января 2012г.). 2012. С. 80-84.

5. Беляев Д.В. Контекстно-ассоциативный метод уточнения поисковых запросов и аннотирования текстовых документов // Труды четвертого российского семинара РОМИП' 2006 (Суздаль, 19 октября 2006г). 2006. С.113-125.

6. Беляев Д.В. Оценка эффективности применения контекстно-ассоциативных моделей текстов в задаче поиска по образцу на

7. РОМИП'2005. // Труды третьего российского семинара РОМИГГ 2005 (Ярославль, 6 октября 2005 г.). 2005. С. 89-105.

8. Браславский П.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Труды межд. конф. "Компьютерная лингвистика и интеллектуальные технологии" (Диалог-2006). 2006. С. 88-94.

9. Гагарина Л.Г., Киселев Д.В., Федотова Е.Л. Разработка и эксплуатация автоматизированных информационных систем: учеб. пособие. М.: ИД «Форум»: Инфа-М, 2007. 384 с.

10. Гайдамакин H.A. Автоматизированные информационные системы, базы и банки данных. Москва «Гелиос АРВ», 2002. 368 с.

11. Гасанов Э.Э., Кудрявцев В.Б. Теория хранения и поиска информации. М.: Физматлит, 2002. 288 с.

12. ГОСТ 7-73-96. Поиск и распространение информации. Термины и определения.

13. ГОСТ 7-74-96. Система стандартов по информации, библиотечному и издательскому делу. Информационно-поисковые языки. Термины и определения.

14. Громов A.B., Чубинидзе К.А. Динамическая классификация для аналитиков // Открытые системы. 2005. №11. С. 42—46.

15. Губин М.В. Исследование качества информационного поиска с использованием пар слов // Научно-техническая информация. Сер.2. 2005. №2. С. 13-16.

16. Губин М.В. Модели и методы представления текстового документа в системах информационного поиска: дис. . канд. ф.-м. наук. Санкт-Петербург, 2005. 89 с.

17. Губин М.В., Морозов А.Б. Влияние морфологического анализа на качество информационного поиска // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : труды 8-й Всерос. науч. конф. Труды RCDL-2006. 2006. С. 224-228.

18. Добрынин В.Ю., Клюев В.В., Некрестьянов И.С. Оценка тематического подобия текстовых документов // Электронные библиотеки: перспективные методы и технологии: Вторая всероссийская научная конференция. 2000. С. 54-62.

19. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске //Управляющие системы и машины. 2000. №4. С. 81-84.

20. Дэниел О' Лири. ERP системы. Современное планирование и управление ресурсами предприятия. Выбор, внедрение, эксплуатация, пер с англ. Ю.И. Водяновой. М.: ООО «Вершина», 2004. 272 с.

21. Евстигнеев В.А. Применение теории графов в программировании. М.: Наука, 1985. 352 с.

22. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Труды I Международного семинара Диалог'2002. 2002. Т. 2. С. 179-187.

23. Захаров В.П. Информационные системы (документальный поиск). СПб, 2002.- 188 с.

24. Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке // Труды международной конференции «Диалог-2006». 2006. С. 137-143.

25. Ивлев В.А., Попова Т.В. Реорганизация и автоматизация систем управления предприятием// Экономика и пр-во. 1998. №11. С.4-9.

26. Информационные технологии и управление предприятием / Баронов В.В., Калянов Т.Н., Попов Ю.Н., Титовский И.Н. М.: Компания АйТи, 2009. 328 с.

27. Информационные технологии управления: Учебное пособие / Под ред. Ю.М. Черкасова. М.: ИНФРА-М, 2001. - 216 с.

28. Калиниченко A.B. Диалоговый метод автоматизации поиска семантически похожих документов // Системы управления и информационные технологии. 2011, №4.1 (46). С. 191- 193.

29. Калиниченко A.B. О методах поиска по документу-образцу в коллекции электронных документов // Материалы X Международной научно-практической конференции «ИТ-технологии: Развитие и приложения» (8-9 декабря 2009 г.). 2009. С.50-59.

30. Калиниченко A.B. Сущность проблемы анализа текста в полнотекстовых поисковых системах. Подходы и пути решения // Журнал научных публикаций аспирантов и докторантов. 2010, №5 (47). С. 112-114.

31. Калиниченко А. В. Автоматизированная система поиска слабоструктурированной информации в составе интегрированной АСУП // V Международная научно-практическая конференция «Современное состояние естественных и технических наук». 2011. С. 103-106.

32. Калиниченко A.B. Оценка эффективности полнотекстового поиска в информационного фонде АСУП // XII международной конференции «Информатика: проблемы, методология, технологии». 2012. С. 166-168.

33. Кириченко К.М, Герасимов М.Б. Обзор методов кластеризации текстовых документов // Материалы международной конференции Диалог-2001. 2001. URL: http://www.dialog-21 .ru/Archive/200 l/volume2/226.htm (дата обращения: 10.02.2010).

34. Клышинский Э.С. Перспективные методы обработки проектной документации//Труды 12й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». 2010. С. 129-134.

35. Когаловский М.Р. Перспективные технологии информационного поиска. М.: ДМК-Пресс, 2003. 288 с.

36. Колесов А. Как организовать поиск в корпоративных системах // PC Week/RE. 2011. №2 (752). URL: http://www.pcweek.ru/idea/article/ detail.php?ID= 127692 (дата обращения: 10.02.2010).

37. Кофман А. Введение в теорию нечетких множеств / Пер. с франц. М.: Радио и связь, 1982. 432 с.

38. Кристофидес Н. Теория графов. Алгоритмический подход. М.: Мир, 1978. 432 с.

39. Кураленок И.Е. Метод предварительной оценки эффективности семантических методов обработки текстовой информации. URL: http://www.rcdl2001 .krc.karelia.ru/papers/papers/ kuralenok/kuralenokpaper.rtf (дата обращения: 10.02.2009).

40. Ландэ Д.В. Основы интеграции информационных потоков. К.: Инжиниринг, 2006. 240 с.

41. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа. М.: Издательский дом «Вильяме», 2005. 272 с.

42. Ландэ Д.В. Поисковые системы: поле боя семантика // "Телеком". 2004. №4. 44-50 с.

43. Максимович Г.Ю., Романенко А. Г., Самойлюк О.Ф. Информационные системы: Учеб. пособие: 2 изд., испр. и доп. М.: Российск. гос. гуманит. ун-т, 2007. 289 с.

44. Манд ель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

45. Маннинг К.Д., Рагхаван П., Шютце X. Введение в информационный поиск. / Пер. с англ. М.: ООО «И.Д. Вильяме», 2011. 528 с.

46. Меньков A.B. Острейковский В.А. Теоретические основы автоматизированного управления. М.: Издательство Оникс, 2005. 640 с.

47. Мищеряков В.В. Совершенствование управления промышленным холдингом посредством развития информационного фактора // Современные наукоемкие технологии. 2008. №1. С. 29-33.

48. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска, дис. канд. техн. наук. СПб., 2000. 88 с.

49. Нечеткие множества в моделях управления и искусственного интеллекта / Аверкин А.Н. Батыршин И.З. , Блишун А.Ф., Силов В.Б., Тарасов В.Б., М.: Наука, 1986.312 с.

50. Питеркин C.B., Оладов H.A., Исаев Д.В. Точно вовремя для России. Практика применения ERP-систем. М.: Альпина Бизнес Букс, 2005. 368 с.

51. Погонин В.А., Схиртладзе А.Г. Интегрированные системы проектирования и управления. Корпоративные информационные системы: учеб. пособие. Тамбов: Изд-во Тамб. гос. техн. ун-та, 2006. 144 с.

52. Прикладная статистика. Справочное издание. Классификация и снижение размерности. Том 3. / Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. М.: Финансы и статистика, 1989. 608 с.

53. Роднянский В.Л. О роли ключевых слов в понимании текста // Психолингвистические проблемы семантики и понимания текста. 1986. С. 106-113.

54. Романенко В.Н., Никитина Г.В. Сетевой информационный поиск. СПб.: «Профессия», 2005. 288 с.

55. Рыбников А.И. Система управления предприятием типа ERP. M.: Азроконсалт, 1999. 214 с.

56. Салбиев А.Т. Исследование и разработка автоматизированной информационно-управляющей системы с интегрированной функцией поиска в массиве неструктурированных данных: дис. . канд. техн. наук. Владикавказ, 2007. 133 с.

57. Самардак A.C. Корпоративные информационные системы . Владивосток ТИДОТ ДВГУ, 2003. 252 с.

58. Селезнев К.В. Обработка текстов на естественном языке // «Открытые системы». 2003. № 12. С. 48-53.

59. Солганик Г.Я. Стилистика текста: Учебное пособие. М.: Флинта, Наука, 1997. 256 с.

60. Солтон Дж. Динамические библиотечно-информационные системы / Пер. с англ. М.: Мир, 1979. 558 с.

61. Стрелкова Елена. Интеграция данных предприятия // Открытые системы.2003. №4. С. 58-61.

62. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. Нью-Иорк / Пер. с англ.; под ред. А.И. Китова. М.: «Сов. радио», 1973. 560 с.

63. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, M. С. Куприянов, В. В. Степаненко, И. И. Холод. СПб.: БХВ-Петербург, 2007. 384 с.

64. Ту Дж., Гонсалес Р. Принципы распознавания образов/Пер. с англ. М.: Мир, 1978.413 с.

65. Черняк Л.И. Навстречу системам хранения неструктурированных данных.

66. Открытые системыю.2004. № 3. С. 40^4.

67. Черняк Л.И. От информационно-поисковых систем к корпоративному поиску // «Открытые системы». 2005, № 11. С. 36—40.

68. Чугреев В.Л. Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации, дис. . канд. техн. наук. Санкт-Петербург, 2003. 185 с.

69. Электронные документы в корпоративных сетях / Клименко С.В., Крохин И.В., Кущ В.М., Лагутин Ю.Л. М.: Анкей-Экотрендз. 1999. 272 с.

70. Arthur D., Vassilvitskii S. K-means++: The advantage of careful seeding // Proceedings of the eighteenth annual ACM-SIAM Symposium on Discrete Algorithms. 2007. P. 1027-1035.

71. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press Series / Addison Wesley, New York, 1999. 513 p.

72. Berry M. W., Browne M. Understanding Search Engines Mathematical Modeling and Text. SIAM, Society for Industrial and Applied Mathematics/ 2005. 117p.

73. Christopher D.Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval. Cambridge University Press, 2008. 482 p.

74. Content Analytics research tools for unstructured content and rich media.

75. URL: http://www.aiim.org/PDFDocuments/38914.pdf (дата обращения: 17.11.2011)

76. Dominich S. Mathematical foundations of information retrieval. Springer, 2001. 284 p.

77. Dominich S. The Modern Algebra of Information Retrieval. Springer, 2008. 327 p.

78. Dominich, S. Kiezer, T. A Measure Theoretic Approach to Information Retrieval // Journal of the American Society for Information Science and Technology. 2007. vol. 58, no. 8, P. 1108-1122.

79. Govindaraju V., Ramanathan K. Similar document search and recommendation // Journal of Emerging Technologies in Web Intelligence. Special Issue: Intelligent Web Interaction. 2012. Vol 4, No 1. P. 83-94.

80. Hearst M. Search User Interfaces. Cambridge, Cambridge University Press, 2009. 404 p.

81. Kanade P.M., Hall L.O. Fuzzy Ants as a Clustering Concept // 22nd international conference of the North American^ fuzzy information processing society NAFIPS. Chicago, 2003. P. 227-232.

82. Kelledy F., Smeaton A.F. Automatic Phrase Recognition and Extraction from Text // Proceedings of the 19th Annual BCS-IRSG Colloquium on IR Research. Aberdeen, 1997. P. 493-496.

83. Khan M.S., Khor S.W. Web document clustering using a hybrid neural network // Applied Soft Computing. 2004. Vol. 4. P. 423^32.

84. Landauer Т. K., Foltz P.W., Laham D. Introduction to latent semantic analysis // Discourse Processes. 1998. №25. P.259-284.

85. Manning Christopher D., Schuetze Hinrich. Foundations of statistical natural language processing. The MIT Press Cambridge. 1999. 680 p.

86. Ortiz R., Pinto D., Tovar M., Jim'enez-Salazar H. BUAP: An Unsupervised Approach to Automatic Keyphrase Extraction from Scientific Articles. 2010. P. 174-177.

87. Query expansion using associated queries / B. Billerbeck et al. // Proceedings of the CIKM International Conference on Information and Knowledge Management. New Orleans, Louisiana, 2003. P. 2-9.

88. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // Information Processing & Management. 1988. Vol. 24. Issue 5. P. 513-523.

89. Sarafoglu R., Tütüncü К., Allahverdi N. A fuzzy clustering approach for finding similar documents using a novel similarity measure // Original Research Article Expert Systems with Applications. 2007. Vol. 33. Issue 3. P. 600-605.

90. Sara90glu R., Tütüncü К., Allahverdi N. A new approach on search for similar documents with multiple categories using fuzzy clustering // Original Research Article Expert Systems with Applications. 2008. Vol. 34. Issue 4. P. 2545-2554.

91. The Expanding Digital Universe. URL: http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf (дата обращения: 17.11.2011)

92. Thuy Dung Nguyen and Min-Yen Kan. Keyphrase Extraction in Scientific Publications. 2007. P. 317-326.

93. Turney P. Learning to extract keyphrases from text. Technical Report ERB-1057. (NRC #41622),National Research, 1999. 43 p.

94. Witten I. H., Paynter G. W., Frank E., Gutwin C., Nevill-Manning C. G. Kea: practical automatic keyphrase extraction. // In Proceedings of Digital Libraries 99: The 4th ACM conference on Digital Libraries. 1999. P. 254-255.

95. Zimmermann H.J. Fuzzy Set Theory and its Applications. 3rd ed. Kluwer Academic Publishers. 1996. 315 p.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00