автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК
Автореферат диссертации по теме "Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК"
На правах рукописи
Бородин Олег Николаевич
ПОСТРОЕНИЕ СПЕЦИАЛИЗИРОВАННОЙ СИСТЕМЫ ИНФОРМАЦИОННОГО ПОИСКА В ОБЪЕКТНО-РЕЛЯЦИОННОЙ БАЗЕ ДАННЫХ АПК
05.13.01 - Системный анализ, управление и обработка информации (по отраслям АПК)
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
о . ! г о — д
/ ^ /-. I, к ----и
Москва 2009
003467169
Работа выполнена в Федеральном государственном образовательном учреждении высшего профессионального образования «Московский государственный агроинженерный университет имени В.П. Горячкина».
Научный руководитель:
доктор технических наук, профессор Воронин Евгений Алексеевич
Официальные оппоненты: доктор технических наук, профессор
Дивеев Асхат Ибрагимович
доктор экономических наук, профессор Землянский Адольф Александрович
Ведущая организация:
ГОУ ВПО «Российский университет дружбы народов»
Защита диссертации состоится « 25 » мая 2009 г. в 13 часов на заседании диссертационного совета Д220.044.02 при ФГОУ ВПО «Московский государственный агроинженерный университет имени В.П. Горячкина» по адресу: Лиственничная аллея, Д.16А, кор.З, конференц-зал.
С диссертацией можно ознакомиться в библиотеке ФГОУ ВПО МГАУ. Автореферат разослан и размещен на сайте \vww.msan.m апреля 2009 г.
Отзывы в двух экземплярах, заверенные печатью организации, просьба направлять по адресу: 127550, г. Москва, ул. Тимирязевская, 58, МГАУ.
Ученый секретарь диссертационного совета, доктор технических наук, профессор
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. В государственных организациях агропромышленного комплекса Российской Федерации выполняются работы, связанные с обеспечением централизованного накопления и оперативного множественного доступа к актуальной информации по основным тематическим направлениям проблематики АПК России. Накапливаемая информация содержит электронные версии юридических документов, новостные публикации средств массовой информации, научно-техническую информацию в виде информационных статей, аналитических справок и монографий. Полнотекстовые информационные ресурсы научно-технической информации о состоянии и тенденциях развития экономики сельского хозяйства России являются информационной основой при принятии управленческих решений. Основной проблемой является поиск информации по информационным документам, находящимся в базах данных. Выполнение функций поиска информации имеет ряд особенностей:
- поиск информации производится по документам, хранящимся в объектно-реляционных базах данных во множестве форматов данных;
- информация, поступающая от пользователей в виде информационных запросов, представлена на естественном языке;
- информация должна быть предоставлена пользователю в результате выполнения одного-двух информационных запросов без дополнительного уточнения.
Следствием этого является проблема своевременного нахождения необходимой информации, которая усложняется по следующим причинам:
- информация, полученная в ответ на информационный запрос, может не соответствовать информационной потребности пользователя;
- для нахождения требуемой информации пользователю в раде случаев необходимо применять дополнительные классификаторы документов.
В связи с этим представляется актуальной задача оптимизации механизмов поиска информации. Решение этой задачи связано с проблемой разработки технологии анализа текстовой информации, представленной на естественном языке.
Цель и задачи исследований. Целью исследований является повышение точности нахождения информации, сокращение времени предоставления информации и обеспечение полноты обзора текстовых информационных ресурсов, представленных на естественном языке в объектно-реляционных базах данных.
Для достижения поставленной цели в диссертационной работе поставлены следующие основные задачи:
- определить целевую функцию эффективности системы информационного поиска;
- разработать математическую модель информационного документа и информационного запроса;
- разработать алгоритм лингвистической обработки текстового содержания информационного документа;
- разработать вероятностную модель информационного документа;
- разработать алгоритм обработки содержания информационного запроса;
- определить процедуру оценки релевантности результатов выполнения информационного запроса;
- сформировать методы построения систем информационного поиска в объектно-реляционных базах данных;
- на основании предложенных методов разработать прототип системы информационного поиска для предприятий АПК;
- провести экспериментальные исследования эффективности прототипа системы информационного поиска.
Объект исследования. Объектом исследования являются средства и процессы информационного поиска в объектно-реляционных базах данных с учётом отраслевых особенностей Агропромышленного комплекса Российской Федерации.
Методы исследования. В диссертационной работе использовались методы системного анализа, теория множеств, реляционная алгебра, элементы теории принятия решений, методы имитационного моделирования.
Научная новизна. Научная новизна работы заключается в следующем:
- сформированы критерии для оценки эффективности системы информационного поиска в объектно-реляционных базах данных;
- разработана математическая модель лингвистического анализа содержания информационного документа;
- предложены метод и методика построения системы информационного поиска в объектно-реляционных базах данных на основе перехода от кибернетической модели системы информационного поиска к структурной модели системы.
Практическая ценность. Практической ценностью работы являются:
- возможность применения алгоритмов лингвистической обработки текста, сформированного на естественном языке, при построении системы информационного поиска в конкретной предметной области путем модификации словаря морфологических основ слов естественного языка без модификации алгоритмов;
- возможность инструментальной трансформации разработанной логической модели базы данных в физическую модель при разработке прикладных систем информационного поиска;
- программный модуль лингвистической обработки текста, реализованный в процессе работы, может быть использован без дополнительной адаптации в процессе разработке прикладных систем информационного поиска;
- инструментальные средства, реализованные при разработке вероятностной модели анализа содержания информационного документа, могут быть использованы для анализа любых процессов, описываемых цепью Маркова;
- имитационная модель типовой системы информационного поиска путём параметрической настройки может быть использована для оценки эффективности информационного поиска при принятии решений в случае модификации
существующей системы или разработки новой системы информационного поиска.
Результаты работы реализованы и приняты к использованию в информационной системе научно-технической информации АПК, разработанной ФГУП ВНИИ «Агросистема» для информационной поддержки Агропромышленного комплекса Российской Федерации.
Положения, выносимые на защиту:
1. Математическая модель информационного документа и информационного запроса.
2. Методика построения систем информационного поиска в объектно-ориентированных базах данных.
3. Критерии оценки эффективности систем информационного поиска.
4. Прототип системы информационного поиска.
Апробация работы. Основные положения диссертационной работы докладывались на трех научно-технических конференциях МГАУ (г. Москва, Россия 2005-2007 гг.).
Публикации. По материхтам диссертационной работы опубликовано 4 печатные работы, получено 1 свидетельство о государственной регистрации программы для ЭВМ.
Структура н объем диссертации. Диссертация состоит из введения, четырёх глав, заключения и списка литературы из 103 наименований, содержит 29 рисунков, 19 таблиц и 4 приложения.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулирована цель исследования, раскрывается научная новизна и практическая ценность работы, а также положения, выносимые на защиту.
В первом главе рассмотрены проблемы построения и системы информационного поиска на основе объектно-реляционных баз данных используемых в Агропромышленном комплексе России.
Конкретизированы понятия:
1. Система информационного поиска - совокупность программных элементов в объектно-реляционной базе данных, взаимодействие которых между собой обеспечивает решение задач информационного поиска.
2. Информационный запрос - входное сообщение в систему информационного поиска, содержащее требование на выдачу информации
3. Информационный документ - набор текстовой информации, сформированный на естественном языке, представленный в нескольких атрибутах, описывающих название документа, краткое содержание, полное текстовое содержание.
Выявлена область и практические проблемы использования систем информационного поиска в объектно-реляционных базах данных с учётом особенностей предметной области. Объектном информационного поиска является коллекция информационных документов, находящаяся в базе данных. Информационные документы содержат актуальную информацию по основным тема-
тическим направлениям АПК России. Источником информационных документов является Министерство сельского хозяйства РФ и отраслевые научно-исследовательские институты.
Основной проблемой при использовании систем информационного поиска в объектно-реляционных базах данных является оценка степени соответствия текстовой информации, представленной в информационном документе, информационному запросу с учётом информационной специфики АПК.
В государственных организациях Агропромышленного комплекса решение задачи информационного поиска имеет следующие особенности:
• Информационный поиск ведётся одновременно по метаданным и тестовому содержанию информационного документа;
• Информационные документы принадлежат разным категориям (нормативно-правовая, научно-техническая, и т.д.);
• Тестовое содержание информационного документа содержит технические термины и их сокращённые аббревиатуры, описывающие информационные понятия в АПК.
В качестве инструмента для хранения информационных документов в государственных организациях АПК используются объектно-реляционные базы данных. Такой выбор обусловлен следующими причинами:
- независимость информации, находящейся в базе данных, от файловой структуры операционной системы;
- поддержка объектных типов данных;
- возможность доступа к информации, содержащейся в базе данных с помощью процедурных языков высокого уровня.
Обзор возможностей информационного поиска в объектно-реляционных базах данных Агропромышленного комплекса производится по следующим критериям:
1. Поддержка информационного поиска по символьным (CHAR) атрибутам таблиц базы данных (К1).
2. Поддержка информационного поиска но бинарным (BLOB) атрибутам (К2).
3. Наличие средств лингвистической обработки текста, сформированного на естественном языке (КЗ).
4. Возможность ранжирования отфильтрованной информации (К4).
5. Возможность кластеризации документов (К5).
6. Возможность классификации документов (Кб).
На основе критериев выполнен анализ функциональности инструментальных средств информационного поиска в объектно-реляционных базах данных (таблица 1).
Таблица 1
Результаты сравнительного анализа инструментальных средств ииформа-
Альтернатива K1 К2 КЗ К4 К5 Кб
Р1. СУБД Microsoft SQL Server 2005 + + - + - -
11. СУБД PostgreSQL + - + + - -
РЗ. СУБД Oracle 10g + + - + + +
Р4. СУБД MySQL + - - + - -
Исходя из рассмотренных критериев, наиболее функциональным инструментом, используемым для построения системы информационного поиска, можно считать СУБД Oracle 10g.
Произведён обзор математических моделей информационного поиска: булева модель, модель нечетких множеств, векторная модель, вероятностная модель. Из анализа математических моделей следует, что векторная модель обладает преимуществами перед другими моделями, в частности:
- учёт информационной значимости слов естественного языка в тексте информационного документа;
- определение релевантности - меры соответствия текстового содержания информационного документа информационному запросу.
В результате обзора показателей эффективности информационного поиска выбраны частные критерии эффективности систем информационного поиска в объектно-реляционных базах данных:
1. Точность информационного поиска (S). Основные параметры критерия: S[ - количество релевантных документов (соответствующих информационному запросу), найденных системой информационного поиска;
s2 - общие число документов, представленных системой информационного поиска;
s3 - наличие сортировки по мере соответствия документа информационному запросу.
2. Полнота информационного поиска (R). Основные параметры критерия: Г) - параметр равен параметру s, системного критерия S;
г2 - количество релевантных документов, находящихся в базе данных;
3. Время обработки системой информационных документов и информационных запросов (Т). Основные параметры критерия:
ti - время обработки информационного документа; время обработки информационного запроса.
При разработке системы информационного поиска необходимо максимизировать значение критериев R и S и минимизировать значение критерия Т.
Во второй главе разработан метод построения систем информационного поиска на основе перехода от кибернетической модели к структурной модели системы информационного поиска.
На систему информационного поиска в СУБД воздействуют следующие входные параметры: контролируемые входные параметры (X), параметры управления (U), неконтролируемые параметры (3 ). Основным вы-
ходным параметром системы информационного поиска является множество релевантных документов Drei. Выходные параметры определяют целевое предназначение системы. Представление системы информационного поиска в качестве преобразователя информации без раскрытия её внутренней структуры будем рассматривать в качестве кибернетической модели.
Объектом информационного поиска является коллекция информационных документов. Обозначим коллекцию информационных документов в виде множества BASE = {di,d2,...,dt,...,dn}.
Содержание информационного документа представляет собой связанную общим смыслом последовательность символов алфавита, разделённых между собой пробелами и другими служебными символами. Под последовательностью символов подразумевается слово русского языка. В русском языке большое значение имеет морфологическая изменяемость слова, так как русский язык относится к языкам флективного типа. В флективных языках существуют флексии - особые части слова, такие как окончания, выражающие грамматическое значение. Морфологические особенности русского языка учитываются в математической модели информационного документа.
Математическая модель информационного документа. Содержание информационного документа di=<w)>w2,...,wj,...,wn> является кортежем, где Wj -слово русского языка. Слово русского языка может принадлежать к множеству:
1. WS = {wsj, ws2,...,wsq,..., ws„} -множество стоп-слов. Стоп-слова определяют синтаксические и семантические связи. К стоп-словам относятся: союзы, предлоги, местоимения и т.д..
2. WF = {vvfj, wf2.....wfk,...,\vfn} - множество словоформ. Словоформа состоит из множества символов wfk={fb f2,...,fd,...,fn}, где fde RUS. RUS- множество символов алфавита русского языка.
Согласно аксиоме о принадлежности слов - слова естественного (русского) языка могут принадлежать или к множеству стоп-слов, или к множеству словоформ: (\Vj6WS) V (wjeWF), так как все слова русского языка: W=WS uWF.
Текст, содержащийся в информационном документе необходимо лингвистически обработать. В результате лингвистической обработки текста необходимо сопоставить элементам множества словоформ WF элементы множества морфологических основ словоформ WN={wn,, wn2,...,wsy,..., wnn}.
Решение задачи описывается функциональным соответствием (1).
Г = <G,WF,WN> , (1)
Результатом выполнения соответствия является функциональный график: G = {<wf1;wni>,<wf2;wni>,...,<wfk;wny>}. Практическая реализация функционального соответствия возможна на основе конечного детерминированного автомата (2).
M = (Q,q0,F, £ 8), (2)
Параметры конечного детерминированного автомата (2):
1. Q - множество допустимых состояний автомата, представленные в виде последовательности комбинаций символов алфавита £. Множество Q еостав-
ляют словоформы русского языка, подлежащие морфологическому анализу с помощью конечного азтомата, следовательно, Q = WF.
2. F - конечное множество состояний автомата. Множество F содержит основы словоформ русского языка.
3. G - входной алфавит. Входной алфавит содержит допустимые входные символы £ = RUS U FER, где FER множество, содержащее один элемент, обозначающий конец слова-. FER = {е}, где е = «¿».
4. q0 - начальное состояние автомата при условии, что q0 s Q, q0= wfk.
5. S - функция перехода автомата S X Б —» Q.
Алгоритм лингвистической обработки текста информационного документа последовательно реализует:
1. Получение значения Wj.
2. Проверка на принадлежность Wjе WS.
3. Поиск морфологической основы на основе математической модели конечного детерминированного автомата (2).
При решении задачи структурной оптимизации в качестве исходных данных требуется трудоёмкость алгоритма обработки информационных документов и запросов. Оценка трудоёмкости алгоритмов выполнена на основе представления алгоритма в виде цепи Маркова. На основе закономерностей распределения слов в текстах информационных документов просвещенных тема-Рис. 1. Цепь Маркова мгоритма тике АПК> определены вероятности линг вистической обработки текста ехода функциональными бло-информациогаюго документа ками ^р^
При выполнении алгоритма система в фиксированный момент времени находится в определённом состоянии. Множество состояний ES = {Еь E2,...,Eí,---,E„} является конечным множеством. Текущее состояние Ег соответствует определённому блоку алгоритма. Переход из одного состояния в другое осуществляется с определённой вероятностью.
Представление алгоритма лингвистической обработки текстового содержания информационного документа в виде цепи Маркова приведено на рис. 1.
На основе представления алгоритма в виде цепи Маркова можно оценить среднюю трудоёмкость алгоритма (3).
(3)
где:
к - количество состояний; п; - количество попаданий в состояние Е]; - количество операций, выполненных в состоянии Е,-.
Оценка п, может быть получена путём решения системы линейных алгебраических уравнений. Каноническая форма записи системы линейных уравнений (4). (Рп - !)", + Рг\ "г + Р*пг + - + РлЛ = Рп Л1 + (Рп ~ + Рпп1 + - + Ркгпк =
(4)
+ Ргк"г + Pik" 1 + - + (рИ - 'К = ~Sk где: pji вероятность перехода из состояния Ej в состояние Ej;
<5,. символ Кронекера, причём <5, = 0 для всех i* S и ¿>¡=1 для i=S, где S -
номер начального состояния.
Для построения системы линейных алгебраических уравнений, соответствующих цепи Маркова, решения этой системы и оценки средней трудоёмкости алгоритма в рамках работы разработано и реализовано программное средство «Анализатор трудоемкости алгоритмов».
В рамках реляционной модели данных информационные документы представлены множеством реляционных отношений Т = {tbt2,...,tn}. В системе информационного поиска в качестве источника данных выделяются отношения, содержащие информационные документы, а так же дополнительные отношения-классификаторы, которые осуществляют рубрикацию информации (статей, документов) по тематическим категориям.
Степень отношений определяется числом атрибутов. Содержание dn в базе данных составляют несколько атрибутов: заголовок, аннотация, публикация. Реляционное отношение tn (рис. 2) состоит из множества атрибутов АТп,', ATn2, ATnz.
В атрибутах содержится информация, определяемая следующими типами данных:
1. Текстовый (char). Тип данных имеет ограничения в размере хранимой информации в зависимости от объёма текстовой информации.
2. Бинарный (blob). Атрибуты бинарного типа содержат текстовую информацию в бинарном формате.
3. Идентификаторы - атрибуты отношений, отвечающие за уникальность представления кортежей отношения.
По символьным и бинарным атрибутам возможно формирование индексированных наборов данных.
Информационный запрос выполняется на основе неименованных отношений.
Неименованные отношения получены в результате выполнения реляционных операций: объединения, пересечения, вычитания, декартова произведения.
Неименованные отношения содержат комбинацию атрибутов, взятых из нескольких
Рис. 2. Формирование неименованных отношений
- ю-
отношений. В результате образуется множество неименованных отношений Z = {zi,z2,...,za,...,zn}. Семантическое формирование неименованных отношений изображено на рис. 2.
Неименованные отношения позволяют максимизировать значение системного критерия полноты информационного поиска (R), так как в системе выполнение информационного поиска происходит по всем проиндексированным атрибутам реляционных отношений.
Основным содержанием главы является разработка методов обработки информации:
- индексация информационного документа;
- обработка содержания информационного запроса.
Индексация информационного документа. Для ускорения выборки по коллекции информационных документов, необходимо создать каталог указателей -индекс. Задача формирования индекса описывается функциональным соответствием (5).
I = <P,WN,BASE>, (5)
где: WN - множество морфологических основ словоформ; BASE - множество информационных документов.
Результатом выполнения функционального соответствия является функциональный график Р = {<wn,;di>,<wn2;di>,<wri3;di>,<\vnJ;d2>,...,<wny;dI1 >}.
Обработка содержания информационного запроса. Поиск по коллекции информационных документов выполняется на основе информационного запроса. Результатом обработки информационного запроса является подмножество релевантных документов Dre|cBASE. Объектом информационного запроса выступают элементы множества неименованных отношений. Текстовое условие информационного запроса представляет собой произвольный текст, сформированный на естественном языке.
Задача лингвистической обработки текстового условия информационного запроса формулируется функциональным соответствием (6).
IZ =<S,IK,WN>, (б)
Результатом выполнения является функциональный график; S = {^vfbvvn^, <wl2;wni>,...,<wfk;wny>}, где vmye WN.
Реализация функционального соответствия (6) возможна с использованием математической модели конечного автомата (2).
Задача поиска информационных документов, соответствующих лингвистически обработанному содержанию запроса, формулируется в виде функционального соответствия (7).
IP = <L,WN, IND>, (7)
Входными параметрами функционального соответствия являются: WN -множество основ словоформ информационного запросе, IND - множество корневых элементов в В+ дереве. Результатом выполнения функционального соответствия (7) является функциональных график L= i<wni;d1>,<wn2;di>,<wT»3;d2>,<v»,nj;d2>,..., <wny;dn>}.
Функционал ьный график позволяет принять решение о выборе из коллекции информационных документов тех документов, которые соответствуют ин-
формационному запросу. Принятия решения предполагает решение дополнительной задачи сортировки множества релевантных документов по степени принадлежности информационному запросу.
Функциональное соответствие (7) реализовано на основе процедуры оценки релевантности результатов выполнения информационного запроса, которая включает операции:
1. Вычисление меры соответствия информационного документа информационному запросу (релевантность).
2.Сортировка результатов поиска по мере соответствия информационному запросу.
Сортировка результатов поиска происходит по нескольким показателям:
1. Релевантность картежей неименованного отношения.
2. Мощность неименованных отношений.
Сортировка по значению релевантности картежей неименованных отношений происходит последовательно по всем атрибутам реляционного отношения.
Текст, представленный в атрибутах информационного документа, имеет разную информационную значимость. Например: информационная значимость атрибута «наименование» выше, чем у атрибута «аннотация».
Возникает необходимость в экспертной оценке атрибутов неименованного реляционного отношения для указания последовательности сортировки результатов выполнения информационного запроса. Основным критерием сравнения атрибутов неименованного отношения является информационная значимость атрибута, полученная в результате экспертной оценки. Для сравнения атрибутов используется шкала порядка, которая применяется для измерения и упорядочения объектов по одному или нескольким признаков. Последовательность сортировки картежей по мере возрастания релевантности в значениях атрибутов отношения происходит в соответствии с рангом атрибута. В результате выполнения последовательной сортировки по значению в атрибутах неименованного отношения пользователю системы информационного поиска первично будут представлены информационные документы, имеющие максимальное соответствие информационному запросу.
В целях уточнения внутреннего устройства системы информационного поиска необходимо сформировать детальное описание основных элементов системы. В результате классификации источников информации и анализа методов обработки информационных документов выявлены следующие элементы системы информационного поиска в объектно-реляционных базах данных:
1. Регистратор информационных документов. Регистратор информационных документов осуществляет редактирование коллекции информационных документов по зарегистрированным в системе неименованным отношениям га.
2. Модуль лингвистической обработки текста. Модуль реализует функциональное соответствие (9). Модуль выполняет функции лингвистической обработки текста, содержащегося в информационном документе и запросе. Работа модуля основана на математической модели конечного детерминированного автомата. От эффективности работы модуля зависят значения системных критериев: точность (Б) и полнота информационного поиска (Я).
3. Обработчик содержания информационного запроса. Элемент реализует функциональное соответствия IЪ. Обработка текстового содержания информационного запроса происходит на основе математической модели конечного детерминированного автомата
4. Построитель запроса. Элемент системы, выполняющий функцию последовательной интеграции текстового условия информационного запроса с элементами множества неименованных отношений Ъ. Элемент реализует функциональные соответствия: К, 1Р.
5. Информационный контейнер. Содержит многомерный массив, содержащий идентификаторы, названия и релевантности информационных документов.
6. Классификатор
неименованных отношений. Элемент системы, содержащий перечень зарегистрированных в системе неименованных отношений, га. Неименованные отношения
Рис. 3. Структурная модель системы информацион- являются источниками ного поиска в объектно-реляционных базах данных текстовой информации в
системе.
7. Отношение. Отношением является абстрактное представление физической таблицы в объектно-реляционной базе данных, ^
8. Атрибут. Атрибутом является поименованные столбец отношения, содержащей значения определённого типа данных.
9. Индекс. Индексом является подмножество отношений содержащих информацию о вхождении основ словоформ в информационные документы.
Одной из основных моделей, раскрывающих внутреннее устройство системы, является модель структуры системы.
В результате проведения операции агрегирования элементов системы возникает схема связей между элементами системы, называемая моделью структуры системы (рис. 3).
При построении системы информационного поиска в объектно-реляционных базах данных, необходимо реализовать в соответствии со структурной моделью основные элементы системы. Реализация основных элементов системы возможна при выполнении следующих методических требований-рекомендаций:
1. Определить в соответствии с критериями информационного поиска объектно-реляционную базу данных.
2. Определить перечень неименованных отношений, а также включенные в реляционные отношения проиндексированные атрибуты.
3. Определить и классифицировать в соответствии с информационным приоритетом атрибуты реляционных отношений, подлежащие индексации.
4. Определить информационные адаптеры. Назначение информационных адаптеров заключается в получении текстового содержания информационного документа. Соблюдение требования необходимо, если информационный документ представлен в базе данных в бинарном формате.
5. Произвести многокритериальный выбор элемента, выполняющего функции лингвистической обработки текста на естественном языке.
6. Реализовать системный элемент, отвечающий за ввод/редактирование текстовой информации.
7. Реализовать компонент формирования информационного запроса, обрабатывающего перечень неименованных отношений в соответствии с содержанием текстового запроса.
8. Организовать передачу содержания информационного контейнера в интерфейсе пользователя информационной системы.
Третья глава посвещена применению методов построения систем информационного поиска в объектно-реляционных базах данных на примере системы информационного поиска для государственного научно-исследовательского института АПК.
Анализ трудоемкости работы алгоритмов, выполняющих лингвистическую обработку, текста представленного на естественном языке, производится на основании частотного распределения словоформ, содержащихся в текстах информационных документов, АПК.
Анализ трудоёмкости алгоритмов выполняется на основе вероятностной модели, построенной на основе принципов Марковских цепей. Результаты оценки трудоемкости и времени работы алгоритмов системы информационного поиска представлены в таблице 2.
Время обработки информационного документа и запроса зависит от многих параметров: объёма документа, объема запроса, количество атрибутов, организации вычислительного процесса в системе информационного поиска, дисциплины обслуживания запросов и интенсивности их поступления. В основе расчётов лежат данные по трудоёмкости алгоритмов на их однократную реализацию: в информационном документе содержится одна словоформа, информационный документ имеет один атрибут, информационный запрос состоит из одной словоформы.
Таблица 2
Алгоритм Элемент системы Трудоемкость алгоритма, количество операций
Средняя Максимальная Минимальная
Сохранение информационного документа в БД Регистратор информационных документов 1527 2842 70
Обновления индекса Источник данных 365,5 2820 27
Лингвистическая обработка словоформы Модуль лингвистической обработки текста 15,58 88 8
Построение информационного запроса Обработчик содержания и построитель запроса 76 224 50
Временные характеристики работы алгоритмов используются в качестве входных данных при решении задачи оценки времени обслуживания информационных запросов и задачи оценки времени на обработку информационных документов. В свою очередь, время обслуживания информационного запроса и запросов на обработку документов необходимы для вычисления значений целевой функции при решении задачи структурной оптимизации системы.
Система информационного поиска характеризуется рядом параметров, носящих противоречивый характер с точки зрения пользователя: точность (Э), полнота (К), время обработки запроса и документа (Т), вероятность отказа в обслуживании. Возникает задача системного характера, связанная с многокритериальным выбором элементов системы информационного поиска, обеспечивающих оптимальность сисгемы относительно целевой функции.
Целевая функция системы информационного поиска, построенная в результате преобразования многокритериальной задачи к однокритериальной на основе аддитивного критерия, имеет вид (8).
= + (8) ^им Т^М 6Л5п,„(х)'
Параметры целевой функции:
Р1,, Г2,, РЗ,, Р41, , /•'б,- - значения частных критериев текущих альтернатив;
с,, С2 ,С.,С4,С;,Сб - весовые коэффициенты, полученные по результатам экспертной оценки частных критериев целевой функции;
Л„„, , , , , Р5ШК, У6та - максимальные значения частных
критериев;
- значения критерия точности информационного поиска;
Р 2,, Р2тх - значение критерия полноты информационного поиска; , - время обработки (Т), по параметру ^ ■ время обработки (Т), по параметру 12;
Р5,г Р5тх - коэффициент обработанных документов;
Р 6,, - коэффициент обработанных запросов.
Система информационного поиска в соответствии с разработанной кибернетической моделью обрабатывает потоки заявок на обработку информационных документов и информационных запросов. Входные потоки имеют следующие характеристики: количество параллельно обрабатываемых в системе информационных документов и запросов, интенсивность поступления информационных документов и запросов в систему, размер информационного документа и запроса. Значения параметров входящих величин носят случайный характер. Случайный характер потока заявок приводит к тому, что в некоторые моменты времени информационные заявки будут образовывать в системе очереди на обработку. В результате возникает задача анализа системы информационного поиска как системы массового обслуживания.
Для изучения поведения системы информационного поиска использование аналитического аппарата систем массового обслуживания представляется проблематичным ввиду обслуживания запросов в модуле лингвистической обработки текста в режиме квантования времени и нестационарного характера заявок в отдельных элементах системы. Поэтому оценка времени обработки запросов и документов производится на основе имитационной модели.
Имитационная модель системы информационного поиска разработана на основе объектно-ориентированного подхода. Элементы имитационной модели соответствуют элементам структурной модели. При имитации процессов обработки информационных документов и запросов использованы оценки трудоёмкости алгоритмов, представленные в таблице 2,
Имитационная модель выполняет:
- имитацию входящих информационных потоков, воздействующих на систему информационного поиска, и оценку динамики взаимодействия элементов системы во времени;
- получение значений характеристик системы: среднее время выполнения информационного запроса и среднее время обработки информационного документа;
- исследование значений целевой функции системы с альтернативными вариантами реализации модуля лингвистической обработки текстового содержания информационного документа.
Основной задачей проведения имитационного эксперимента является получение среднего значения времени обработки информационного запроса и информационного документа в результате альтернативных реализаций элемента, выполняющего функции лингвистической обработки текста.
В качестве атьтернатив рассматривались существующие программные продукты и модуль лингвистической обработки текста, предложенный в диссертационной работе. Оценка времени обработки одного слова для существующих программных продуктов получена экспериментальным путём, а для модуля лингвистической обработки текста - расчетным путем, с использованием реализованных в диссертационной работе модулей и программных средств.
Рассматриваемые альтернативы:
1. Реализация элемента в виде динамически подключаемой библиотекой DLL, представленной компанией «АОТ».
2. Использование встроенной в СУБД Oracle 10g стандартной процедуры.
3. ISPEL - ссвободно распространяемый морфологический словарь русского языка.
4. Russian Context Optimizer - программной продукт компании «Э Р СИ О».
5. Модуль лингвистической обработки текста, работа которого основана на алгоритме лингвистической обработки словоформы.
Система информационного поиска как система массового обслуживания представлена на рисунке. 4. Элементы имитационной модели имитируют работу элементов системы информационного поиска, определённых в структурной модели. Имитационная модель состоит из элементов Q и D типа. Элементы Q типа имитируют очереди, в которых скапливаются информационные докумен-
ты и запросы. Очередь сокращается в результате обработки заявки элементами Б-типа.
Рис. 4. Система информационного поиска как СМО
Результаты имитационного эксперимента с пятыо альтернативными вариантами реализации элемента лингвистической обработки текста в информационном документе представлены в таблице 3. Значения параметров имитационного эксперимента учитывают особенности предметной области Агропромышленного комплекса. Основными параметрами имитационного эксперимента являются:
- количество пользователей, осуществляющих ввод информационных документов в базу данных (Userl=3);
- количество пользователей, выполняющих информационные запросы в базе данных (User2=10);
- Коэффициент количества загруженных информационных документов (Nh 1=0,5) и запросов (Nh2=l) в час одним пользователем системы;
- Имитируемое время работы системы (time = 3000 часов).
Таблица 3
Результаты имитационного эксперимента
Показатели имитационного Характеристики альтернатив
эксперимента 1 2 3 4 5
Мин. время обработки в элементе ВЗМт, с. 0,2 0,01 0,1 0,04 0,01
Макс. время обработки в элементе ГОМах,с. 0,3 0,01 0,1 0,04 0,02
Сформировано ипф. документов. 1439 1487 1495 1469 1479
Средние время обработки инф. док. (1,), с. 1 OS 105 636,6 31889 5917 971
Среднеквадратичное отклонение БХ по 1, 15905,4 31,7 3663,3 762,4 67,4
Сформировано информационных запросов 30080 30076 29776 30069 30281
Средние время обработки информационного запроса (<2), с. 6,83 0,75 2,55 0,96 0,77
Среднеквадратичное отклонение ИХ по 1,05 0,004 0,24 0,019 0,006
Коэффициент обработанных документов, к. 0,4201 0,999 0,95 0,98 0,998
Коэффициент обработанных запросов, к2 0,4959 0,998 0,96 0,99 0,997
Таблица 4
Сводная таблица значений целевых функций и частных критериев
№ в Я Средние время обработки док-та (1.) Средние время обработки запроса рг) Коэф. сбраб. док-ов Коэф. обраб запросе в Норм, значение критерия Порч, значение критерия ь Целевая функция системы т
1 0,65 0,76 108105 6,83 0,42 0,49 0 0 0,52
2 0,88 0,02 636,6 0,75 0,99 0,98 1 1 0,78
3 0,35 0,65 31889 2,55 0,95 0,96 0,709 0,703 0,71
4 0,55 0,4 636,6 2,83 0,99 0,95 636,6 0,657 0,73
5 0,37 0,7 971 0,77 0,99 0,97 971 0,99 0,83
В результате проведения имитационного эксперимента получены значения частных критериев целевой функции системы. На основании значение целевой функции выполнена структурная оптимизация системы информационного поиска в объектно-реляционных базах данных. Результат расчёта значений целевой функции системы информационного поиска представлен в таблице 4.
В результате проведённых расчётов целевой функции системы информационного поиска в объектно-реляционных базах данных оптимальной альтернативой использования в качестве элемента является модуль лингвистической обработки текста, так как значение целевой функции является максимальным.
В четвёртой главе представлены результаты исследований эффективности прототипа системы информационного поиска, полученные на основе аналитического и имитационного моделирования.
Экспериментальные исследования выполнялись на основе интеграции системы информационного поиска в информационную систему хранения научно-технической информации ФГУП ВНИИ «Агросистема».
Система научно-технической информации предназначена для накопления информационных документов, посвященных Агропромышленному комплексу России, а так же предоставления оперативного множественного доступа к информации сотрудникам государственных научно-исследовательских организаций. Коллекция информационных документов системы научно-технической информации АПК России содержит:
• Справочные издания: словари, энциклопедии, справочники;
• Научные труды: книги, монографии, статьи, отчеты по НИР;
• Нормативные документы: классификаторы, рубрикаторы, стандарты, законы, постановления, приказы.
Основными пользователями системы научно-технической информации являются: Министерство сельского хозяйства РФ, региональные органы управления АПК субъектов РФ, отраслевые научно-исследовательские институты: «Всероссийский научно-исследовательский институт механизации сельского хозяйства», «Всероссийский научно-исследовательский институт электрификации сельского хозяйства», «Всероссийский научно-исследовательский и про-ектно-технологический институт механизации животноводства», «Всероссийский научно-исследовательский технологический институт ремонта и эксплуа-
тации машинно-тракторного парка», «Всероссийский институт аграрных проблем и информатики имени А. А.Никоиова» и другие отраслевые институты.
Основной задачей экспериментальных исследований созданного прототипа типовой системы информационного поиска является определение показателей эффективности работы системы информационного поиска - полнота и точность и среднестатистическое время обработки информационного запроса и документа. В результате проведения экспериментальных исследований системы информационного поиска на основе показателей эффективности системы получены статистические данные, представленные в таблице 5.
Таблица 5
Результаты практических испытаний системы информационного поиска
Содержание запроса S - точность R- полнота
макс. ] мин. средние макс. мин. средние
Словоформы 0,46 j 0,21 0,396 0,75 0,54 0,712
Словоформы, аббревиатуры и термины АПК 0,65 J 0,41 0,53 0,85 0,62 0,79
Лббэеииатури и термины ЛПК 0,98 \ 0,92 0,95 0,99 0,97 0,98
Результаты проведенных экспериментов свидетельствуют об эффективности системы информационного поиска на коллекции информационных документов объекта внедрения, так как значение полноты информационного поиска увеличилось на 41 %.
В результате внедрения прототипа размер индексной информации, сформированный по содержанию информационных документов, уменьшился на 32% и составляет около 200 тысяч записей. Данные получены в сравнении с содержанием индекса при использовании встроенных в СУБД Oracle 10g средств решения задачи лингвистической обработки текста.
Среднее время обработки информационного запроса составило 0,92 секунды. Средний размер информационного документа составляет 18 страниц печатного текста размером 14 шрифта Times New Roman полуторного интервата. Среднее время обработки 18-страничного текстового документа составило 2,3 секунды.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
1. Сформированы основные критерии эффективности систем информационного поиска: точность, полнота и время обработки системой информационных документов и запросов. Критерии сформировав на основании анализа функциональных возможностей объектно-реляционных баз данных, математических моделей и задач информационного поиска.
2. Разработанная математическая модель представления информационного документа и информационного запроса позволила обеспечить лингвистическую обработку текста представленного на естественном языке с учётом особенностей предметной области.
3. Предложен и реализован алгоритм лингвистической обработки текста, представленного на естественном языке. В результате использования алгоритма обьем служебной информации в базе данных сократился на 32%.
4. Определена процедура оценки релевантности результатов выполнения информационного запроса на основе экспертной оценки значимости атрибута информационного документа. В результате реализации процедуры пользователю системы информационного поиска предоставляются информационные документы максимально соответствующие его информационной потребности.
5. Предложена методика построения системы информационного поиска в объектно-реляционных базах данных на основе перехода от кибернетической модели системы информационного поиска к структурной модели системы.
6. Разработана программа «Анализатор трудоёмкости алгоритмов» для оценки среднего, минимального и максимапьного времени выполнения алгоритма. Разработанная программа может быть использована для анализа любых процессов, описываемых конечной цепью Маркова.
7. Выполнена структурно-параметрическая оптимизация системы информационного поиска. Для оценки временных характеристик разработана и реализована имитационная модель системы информационного поиска. Имитационная модель системы информационного поиска путём параметрической настройки может быть использована для оценки эффективности информационного поиска при принятии решений в случае модификации существующей системы или разработки новой системы информационного поиска.
8. На основе рассмотренных методов разработан прототип системы информационного поиска, реализованный в информационной системе научно-технической информации в ФГУП ВНИИ «Агросистема» АПК Российской Федерации. Прототип повышает полноту информационного поиска по сравнению с предыдущей системой на 41% при среднем времени обработки информационного запроса 0,92 с.
Основные положения диссертации опубликованы в следующих работах
1. Бородин О. Н. Извлечение информации из полнотекстовых источников данных / О. Н. Бородин // Вестник ФГОУ ВПО МГАУ. - Вып. 1(16). Агроинже-нерия. - М. : ФГОУ ВПО МГАУ, 2005. - С. 42-44.
2. Бородин, О. Н. Информационный поиск в объектно-реляционных базах данных/ О. Н. Бородин // Вестник ФГОУ ВПО МГАУ. - Вып. 1(16). Агроинже-нерия. - М. : ФГОУ ВПО МГАУ, 2008. - С. 37-39.
3. Бородин, О.Н. Структурная модель системы информационного поиска в объектно-реляционных базах данных / О.Н. Бородин, Е.А. Воронин // Журнал научных публикаций аспирантов и докторантов. - 2008,- № 3 - С. 149-152.
4. Бородин, О.Н. Имитационная модель системы информационного поиска в объектно-реляционных базах данных. / О.Н. Бородин, А.А. Евстифгев // Открытое образование - 2008,- № 5 - С. 49-55.
5. Свидетельство № 2008612051 Российская федерация. О государственной регистрации программы для ЭВМ: Анализатор трудоемкости алгоритмов / О.Н. Бородин, С.А. Малинин. - М., 2008.
Подписано в печать 15.04.2009. Формат 60x84/16. Гарнитура Тайме.Бумага офсетная. Печать трафаретная. Усл.-печ. л. 1,2. Тираж 100 экз. Заказ Х«1де0.Отпечатано в издательском центре ФГОУ ВПО МГАУ.Адрес: 127550, Москва, Тимирязевская, 58. Тел. 976-02-64.
Оглавление автор диссертации — кандидата технических наук Бородин, Олег Николаевич
ВВЕДЕНИЕ.
ГЛАВА 1. ПРОБЛЕМЫ ПОСТРОЕНИЯ СИСТЕМ ИНФОРМАЦИОННОГО
ПОИСКА НА ОСНОВЕ ОБЪЕКТНО-РЕЛЯЦИОННЫХ БАЗ
ДАННЫХ.
1.1. Информационный поиск в объектно-реляционных базах данных.
1.2. Обзор возможностей информационного поиска в объектно-реляционных базах данных.
1.3. Извлечение информации из текста.
1.4. Показатели эффективности информационного поиска.
1.5. Анализ математических моделей информационного поиска.
1.6. Индексация информации.
1.7. Основные функциональные требования к системам информационного поиска в объектно-реляционных базах данных.
1.8. Критерии эффективности системы информационного поиска.
1.9. Выводы и постановка задачи исследования.
ГЛАВА 2. СИСТЕМА ИНФОРМАЦИОННОГО ПОИСКА В ОБЪЕКТНО-РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ КАК ОБЪЕКТ
ИССЛЕДОВАНИЯ.
2.1. Кибернетическая модель системы информационного поиска.
2.2.0ценка содержания информационных документов.
2.3. Математическая модель информационного документа.
2.4. Конечный автомат в качестве морфологического анализатора.
2.5. Вероятностная модель анализа содержания информационного документа.
2.6. Определение и классификация источников информации.
2.7. Методы обработки информации.
2.7.1. Индексация информационного документа.
2.7.2. Обработка содержания информационного запроса.
2.8. Определение релевантности результатов информационного запроса.
2.9. Компоненты подсистемы формирования информационного запроса.
2.10. Структурная модель информационного поиска.
2.11. Методика построения систем информационного поиска.
2.12. Результаты и выводы по главе 2.
ГЛАВА 3. АНАЛИЗ ТИПОВОЙ СИСТЕМЫ ИНФОРМАЦИОННОГО
ПОИСКА ДЛЯ ПРЕДПРИЯТИЯ АПК.
3.1. Функциональная модель.
3.2. Разработка и оценка трудоёмкости алгоритмов системы информационного поиска.
3.2.1. Обработка информационного документа.
3.2.1.1. Сохранение информационного документа.
3.2.1.2. Лингвистическая обработка словоформы.
3.2.2. Построение информационного запроса.
3.2.3. Оценка трудоёмкости алгоритмов.
3.3. Структурная оптимизация системы информационного поиска.
3.3.1. Определение целевой функции.
3.3.2. Имитационная модель системы.
3.3.3. Структурная оптимизация.
3.4. Результаты и выводы по главе 3.
ГЛАВА 4. ПРОТОТИП СИСТЕМЫ ИНФОРМАЦИОННОГО ПОИСКА ДЛЯ ПРЕДПРИЯТИЯ АПК.
4.1. Описание объекта внедрения.
4.2. Экспериментальные исследования.
4.2.1. Условия проведения эксперимента.
4.2.1.1. Программно-техническая среда системы информационного поиска.
4.2.1.2. Логическая модель объектно-реляционной базы данных.
4.2.2. Результаты эксперимента и их анализ.
4.3. Выводы по главе 4.
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Бородин, Олег Николаевич
Актуальность проблемы. В государственных организациях агропромышленного комплекса Российской Федерации, выполняются работы, связанные с обеспечением централизованного накопления и оперативного множественного доступа к актуальной информации по основным тематическим направлениям проблематики АПК России. Накапливаемая информация содержит электронные версии юридических документов, новостные публикации средств массовой информации, научно-техническую информацию в виде информационных статей, аналитических справок и монографий. Полнотекстовые информационные ресурсы научно-технической информации о состоянии и тенденциях развития экономики сельского хозяйства России являются информационной основой при принятии управленческих решений. Основной проблемой является поиск информации по информационным документам, находящимся в базах данных. Выполнение функций поиска информации имеет ряд особенностей:
- поиск информации производится по документам, хранящимся в объектно-реляционных базах данных в множестве форматов данных;
- информация, поступающая от пользователей, в виде информационных запросов, представлена на естественном языке;
- информация должна быть предоставлена пользователю в результате выполнения одного-двух информационных запросов без дополнительного уточнения.
В результате возникает проблема своевременного нахождения необходимой информации, которая обусловлена следующими причинами:
- информация, полученная в ответ на информационный запрос, может не соответствовать информационной потребности пользователя;
- для нахождения требуемой информации пользователю необходимо применять дополнительные классификаторы документов.
В связи с этим представляется актуальной задача оптимизации механизмов поиска информации. Решение этой задачи связано с проблемой разработки технологии анализа текстовой информации, представленной на естественном языке.
Цель и задачи исследований. Целью исследований является повышение точности нахождения информации, сокращение времени предоставления информации и обеспечение полноты обзора текстовых информационных ресурсов, представленных на естественном языке в объектно-реляционных базах данных.
Для достижения поставленной цели в диссертационной работе поставлены следующие основные задачи: определить целевую функцию эффективности системы информационного поиска;
- разработать математическую модель информационного документа и информационного запроса;
- разработать алгоритм лингвистической обработки текстового содержания информационного документа;
- разработать вероятностную модель информационного документа;
- разработать алгоритм обработки содержания информационного запроса;
- определить процедуру оценки релевантности результатов выполнения информационного запроса;
- сформировать методы построения технологии информационного поиска в системах управления объектно-реляционными базами данных;
- на основании предложенных методов разработать прототип системы информационного поиска для предприятий АПК;
- провести экспериментальные исследования эффективности прототипа системы информационного поиска.
Объект исследования. Объектом исследования являются средства и процессы информационного поиска в объектно-реляционных базах данных с учётом отраслевых особенностей Агропромышленного комплекса Российской Федерации.
Методы исследования. В диссертационной работе использовались методы системного анализа, теория множеств, реляционная алгебра, элементы теории принятия решений, методы имитационного моделирования.
Научная новизна. Научная новизна работы заключается в следующем:
- сформированы критерии для оценки эффективности системы информационного поиска в объектно-реляционных базах данных;
- разработана математическая модель лингвистического анализа содержания информационного документа;
- предложены метод и методика построения системы информационного поиска в объектно-реляционных базах данных на основе перехода от кибернетической модели системы информационного поиска к структурной модели системы.
Практическая ценность. Практической ценностью работы являются:
- возможность применения алгоритмов лингвистической обработки текста, сформированного на естественном языке, при построении системы информационного поиска в конкретной предметной области на основе модификации словаря морфологических основ слов естественного языка без адаптации алгоритма; возможность инструментальной трансформации разработанной логической модели базы данных в физическую модель при разработке прикладных систем информационного поиска; программный модуль лингвистической обработки текста, реализованный в процессе работы, может быть использован без дополнительной адаптации в процессе разработке прикладных систем информационного поиска; инструментальные средства, реализованные при разработке вероятностной модели анализа содержания информационного документа могут быть использованы для анализа любых процессов, описываемых цепью Маркова;
- имитационная модель типовой системы информационного поиска путём параметрической настройки может быть использована для оценки эффективности информационного поиска при принятии решений в случае модификации существующей системы или разработки новой системы информационного поиска.
Результаты работы реализованы и приняты к использованию в информационной системе научно-технической информации АПК разработанной ФГУП ВНИИ «Агросистема» для информационной поддержки Агропромышленного комплекса Российской Федерации.
Положения, выносимые на защиту:
1. Математическая модель информационного документа и информационного запроса.
2. Методика построения систем информационного поиска в объектно-ориентированных базах данных.
3. Критерии оценки эффективности систем информационного поиска.
4. Прототип системы информационного поиска.
Апробация работы. Основные положения диссертационной работы докладывались на трех научно-технических конференциях МГАУ (г. Москва, Россия 2005-2007 гг.).
Публикации. По материалам диссертационной работы опубликовано 4 печатные работы, получено 1 свидетельство о государственной регистрации программы для ЭВМ:
1. Бородин, О. Н. Извлечение информации из полнотекстовых источников данных / О. Н. Бородин // Вестник ФГОУ ВПО МГАУ. - Вып. 1(16). Агроинженерия. -М.: ФГОУ ВПО МГАУ, 2008. - С. 42^4.
2. Бородин, О. Н. Информационный поиск в объектно-реляционных базах данных / О. Н. Бородин // Вестник ФГОУ ВПО МГАУ. - Вып. 1(16). Агроинженерия. - М.: ФГОУ ВПО МГАУ, 2008. - С. 37-39.
3. Бородин, О.Н. Структурная модель системы информационного поиска в объектно-реляционных базах данных / О.Н. Бородин, Е.А. Воронин // Журнал научных публикаций аспирантов и докторантов. - 2008.- № 3 - С. 149-152.
4. Бородин, О.Н. Имитационная модель системы информационного поиска в объектно-реляционных базах данных. / О.Н. Бородин, А.А. Евстифеев // Открытое образование - 2008.- № 5 - С. 49-55.
5. Свидетельство № 2008612051 Российская федерация. О государственной регистрации программы для ЭВМ: Анализатор трудоемкости алгоритмов / О.Н. Бородин, С.А. Малинин. - М., 2008.
Структура и объем диссертации. Диссертация состоит из введения, четырёх глав, заключения, и списка литературы из 103 наименований, содержит 29 рисунков, 19 таблиц и 4 приложений.
Заключение диссертация на тему "Построение специализированной системы информационного поиска в объектно-реляционной базе данных АПК"
4.3. Выводы по главе 4
В результате проведении эксперимента получены следующие результаты:
1. Сформированы описания объекта внедрения с определением перечня основных поставщиков информационных документов.
2. Разработана и практически реализована логическая модель базы данных описывающая предметную область объекта внедрения.
3. Результаты экспериментальных исследований, проведённые на основе коллекции информационных документов повещенных тематике Агропромышленного комплекса РФ, показывают, что прототип системы информационного поиска обеспечивает улучшение полноты поиска по сравнению с предыдущей системой на 41%.
ЗАКЛЮЧЕНИЕ
В результате выполненных исследований и практической разработки цели диссертационной работы достигнуты. В диссертационной работе рассмотрены теоретические и практические вопросы построения оптимальных систем информационного поиска в объектно-реляционных базах данных.
В процессе исследования получены следующие научные и практические результаты:
1. Сформированы основные критерии эффективности систем информационного поиска: точность, полнота и время обработки системой информационных документов и запросов. Критерии сформированы на основании анализа функциональных возможностей объектно-реляционных баз данных, математических моделей и задач информационного поиска.
2. Разработанна математическая модель представления информационного документа и информационного запроса позволила обеспечить лингвистическую обработку текста представленного на естественном языке с учётом особенностей предметной области.
3. Предложен и реализован алгоритм лингвистической обработки текста, представленного на естественном языке. В результате использования алгоритма объем служебной информации в базе данных сократился на 32%.
4. Определена процедура оценки релевантности результатов выполнения информационного запроса на основе экспертной оценки значимости атрибута информационного документа. В результате реализации процедуры пользователю системы информационного поиска предоставляются информационные документы максимально соответствующие его информационной потребности.
5. Предложена методика построения системы информационного поиска в объектно-реляционных базах данных на основе перехода от кибернетической модели системы информационного поиска к структурной модели системы.
6. Разработана программа «Анализатор трудоёмкости алгоритмов» для оценки среднего, минимального и максимального времени выполнения алгоритма. Разработанная программа может быть использована для анализа любых процессов, описываемых конечной цепью Маркова.
7. Выполнена структурно-параметрическая оптимизация системы информационного поиска. Для оценки временных характеристик разработана и реализована имитационная модель системы информационного поиска. Имитационная модель системы информационного поиска путём параметрической настройки может быть использована для оценки эффективности информационного поиска при принятии решений в случае модификации существующей системы или разработки новой системы информационного поиска.
8. На основе рассмотренных методов разработан прототип системы информационного поиска, реализованный в информационной системе научно-технической информации в ФГУП ВНИИ «Агросистема» АПК Российской Федерации. Прототип обеспечивает полноту информационного поиска по сравнению с предыдущей системой на 41%, при среднем времени обработки информационного запроса 0,92 с.
Библиография Бородин, Олег Николаевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Автоматическая Обработка Текста Электронный ресурс.. - Режим доступа: http://www.aot.ru/index.html, свободный. - Загл. с экрана.
2. Алгоритмы: построение и анализ. 2-е издание / Т.Х. Кормен и др. . -М. : Вильяме, 20054. 1296 с.
3. Александров, П.С. Введение в теорию множеств и общую топологию / П. С. Александров. М. : Наука, 1977. - 368 с.
4. Антонов, А.В. Системный анализ / А.В. Антонов. М. : Высш. шк., 2007.- 454 с.
5. Барсегян, А.А. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, Olap / A.A. Багесян, M.C. Куприянов. СПб.: БХВ-Петербур, 2007.-384 с.
6. Баруча-Рид, А.Т. Элементы теории Марковских процессов и их приложения / А.Т. Баруча-Рид. М: Наука, 1969. - 511 с.
7. Боггс, У. UML и Rational Rose / У. Боггс, М. Боггс. М. : Лори, 2001. - 582 с.
8. Бойцов, Л.И. Синтез системы автоматической коррекции, индексации и поиска информации: дис. .канд. тех. наук : 05.13.01/ Бойцов Л.И. -М., 2003, С. 30-34.
9. Бородин, О. Н. Извлечение информации из полнотекстовых источников данных / О. Н. Бородин // Вестник ФГОУ ВПО МГАУ. Вып. 1(16). Агроинженерия. - М.: ФГОУ ВПО МГАУ, 2008. - С. 42-44.
10. Бородин, О. Н. Информационный поиск в объектно-реляционных базах данных / О. Н. Бородин // Вестник ФГОУ ВПО МГАУ. Вып. 1(16). Агроинженерия. -М.: ФГОУ ВПО МГАУ, 2008. - С. 37-39.
11. Бородин, О.Н. Применение вероятностных моделей для анализа содержания информационных документов / О.Н. Бородин, Е.А. Воронин // Журнал научных публикаций аспирантов и докторантов. 2008.- № 4. - С. 214-217.
12. Бородин, О.Н. Структурная модель системы информационного поиска в объект-но-реляционных базах данных / О.Н. Бородин, Е.А. Воронин // Журнал научных публикаций аспирантов и докторантов. 2008.- № 3 - С. 149-152.
13. Буч, Г. UML. Классика CS / Г. Буч, А. Якобсон, Д Рамбо. СПб.: Питер, 2006. - 736 с.
14. Васвани, В. Справочное руководство по СУБД MySQL / В. Васвани М.: Виль-ямс, 2006. - 528 с.
15. Введение в полнотекстовый поиск в PostgreSQL Электронный ресурс.- Режим доступа:http://www.sai.msu.sU/~megera/postgres/talks/ftsjpgsqlintro.html#ftspgs свобод-ный. Загл. с экрана.
16. Вентцель, Е. С. Исследование операций. Задачи, принципы, методология / Е. С. Вентцель. М.: Дрофа, 2004. - 208 с.
17. Воройский, Ф.С. Информатика. Энциклопедический систематизированный словарь-справочник / Ф.С Воройский. М.: Физматлит, 2003.-760 с.
18. Всеволодова, А. В. Компьютерная обработка лингвистических данных: Учебное пособие для студентов, аспирантов, преподавателей-филологов / А. В. Всеволо-дова. М.: Флинта, 2007. - 96 с.
19. Всероссийский институт аграрных проблем и информатики имени А.А.Никонова Электронный ресурс. Режим доступа: http://www.viapi.ru, свободный. - Загл. с экрана.
20. Всероссийский научно-исследовательский и проектно-технологический институт механизации животноводства" (ГНУ ВНИИМЖ) Электронный ресурс. Режим доступа: http://www.vniimzh.ru/, свободный. -Загл. с экрана.
21. Всероссийский научно-исследовательский институт экономики сельского хозяйства Электронный ресурс. Режим доступа: http://www.vniiesh.ru/, свободный. - Загл. с экрана.
22. Всероссийский научно-исследовательский институт электрификации сельского хозяйства Электронный ресурс. Режим доступа: www.viesh.ru свободный. - Загл. с экрана.
23. Всероссийский научно-исследовательский технологический институт ремонта и эксплуатации машинно-тракторного парка Электронный ресурс. Режим дос-тупа: http://www.gosniti.ru/, свободный. - Загл. с экрана.
24. Гаврилова, Т.А. Базы знаний интеллектуальных систем / Т.А.Гаврилова, В.Г. Хорошевский СПб.: Питер, 2000. - 384 с.
25. Гельбух, А.Ф. К вопросу об автоматическом морфологическом анализе флективных языков / А.Ф. Гельбух, Г.О. Сидоров //Труды Международной конференции Диалог'2005. -2005. С. 92-93.
26. ГОСТ 7.73-96 Межгосударственный стандарт система стандартов по ' информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения.
27. Государственное научное учреждение Всероссийский научно-исследовательский институт механизации сельского хозяйства (ВИМ) :: Главная Электронный ресурс. Режим доступа: http://www.vim.ru/, свободный. - Загл. с экрана.
28. Дейт, К. Д. Введение в системы баз данных / К. Д. Дейт. М. : Вильяме, 2006. - 1328 с.
29. Демьянов, В.Ф. Введение в минимакс / В.Ф. Демьянов, В.Н. Малоземов. М. : Наука, 1972. - 368 с.
30. Дивеев, А.И., Метод выбора оптимального варианта технической системы / А.И. Дивеев, Н.А. Северцев. М. :ВЦ РАН. 2003. -106 с.
31. Ермаков, А.Е. Компьютерная лингвистика и анализ текста /А.Е. Ермаков // Мир ПК. 2002 - № 9. С. 14-15.
32. Ермаков, А.Е. Компьютерная морфология в контексте анализа связного текста /А.Е. Ермаков, В.В Плешко // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. -2004. С. 195-190.
33. Ефремов, В. Особенности умного поиска / В. Ефремов // Открытые системы. 2005. - №11.- С. 24-28.
34. Зализняк, А.А. Грамматический словарь русского языка / А. А. Зализняк. М.: Русский язык, 1980. - 880 с.
35. Ивченко, Г.И. Теория массового обслуживания. Учеб-ное пособие для ВУЗов / Г.И. Ивченко, В.А. Каштанов, И.Н. Коваленко. -М. : Высшая школа. 1982. -256 с.
36. Как классифицировать текстовые документы в Oracle Электронный ресурс.- Режим доступа: http://www.citforum.ru/database/oracle/oratextclass/ свободный. Загл. с экрана.
37. Как работать с картотекой (набором данных с краткими описаниями) Эллек-тронный ресурс. Режим доступа:http://prz.narod.ru/orapapers/textCTXCAT.pdf, свободный. Загл. с экрана.
38. Калянов, Г.Н. CASE: структурный системный анализ (автоматизация и применение) / Г.Н. Калянов. М. : ЛОРИ, 1996. - 242 с.
39. Калянов, Г.Н. Консалтинг при автоматизации предприятий (подходы, методы, средства) / Г.Н. Калянов. М. : Синтег, 1997. - 316 с.
40. Карпов, Ю.Г Теория автоматов / Ю. Г. Карпов. СПб.: Питер, 2002. -224 с.
41. Карпов, Ю.Г. Имитационное моделирование систем. Введение в моделирова-ние с AnyLogic 5 / Ю.Г. Карпов. СПб: БХВ-Петербург, 2006. -400 с.
42. Касевич, В. Б. Семантика. Синтаксис. Морфология / Б. В. Касевич. -М. : Наука, 1988 -311 с.
43. Качала, В.В. Основы теории систем и системного анализа / В.В.Качала. М.: Го-рячая линия — Телеком, 2006. - 216 с.
44. Кемени, Дж. Теория информации и теория алгоритмов / Кемени Дж., Стелл Дж. М.: Наука, 1970. - 272 с.
45. Кемпнер, JI. М. Разработка и исследование алгоритмов многокритериальной оп-тимизации для принятия предпроектных решений: дисс. .канд. тех. наук : 05.13.01/ Кемпнер, JI. М. -М., 1984, -123 с.
46. Клейнрок, JI. Теория массового обслуживания / JI. Клейнрок. -М. : Машино-строение, 1979. -432 с
47. Кнут, Д. Искусство программирования, том 3. Сортировка и поиск / Д. Кнут. М.: Вильяме, 2007.- 824 с.
48. Когаловский, М.Р. Перспективные технологии информационных систем / М.Р. Когаловский. М. : ДМК Пресс, 2003. - 288 с.
49. Колмогоров, А.Н. Теория информации и теория алгоритмов / А. Н. Колмогоров. М.: Наука, 1987. - 304 с.
50. Компания AJIECTA: Программное обеспечение и Услуги Эллектронный ре-сурс.- Режим доступа: http://www.alesta.ru/, свободный. -Загл. с экрана.
51. Коннолли, Т. Базы данных проектироване реализация и сопровождение / Т. Коннолли, К. Бегг, А. Страчан. М. : Вильяме, 2001. -1120 с.
52. Кролл, П. Rational Unified Process это легко. Руководство по RUP для практиков / П. Кролл, Ф. Крачтен. - М.: КУДИЦ-Образ, 2004. - 432 с.
53. Кураленок, И. Е. Оценка систем текстового поиска: дисс. .канд. тех. наук : 05.13.01/ Кураленок И. Е. -СПб., 2004, -112 с.
54. Ландэ, Д. В. Поиск знаний в Internet. Профессиональная работа / Д. В. Ландэ М.: Вильяме, 2005. - 272 с.
55. Линючев, П. Text Mining: современные технологии на информационных рудни-ках / П. Линючев // PC Week. 2008. -№6 (564). - С. 15-16.
56. Лифшиц, Ю. Информационный поиск. Архитектура поисковых систем Эллек-тронный ресурс. Режим доступа:http://logic.pdmi.ras.rn/~yura/internet/03ia.pdf, свободный. Загл. с экрана.
57. Лифшиц, Ю. Современные задачи теоретической информатики (курс лекций) Эллектронный ресурс.- Режим доступа: http://yury.name/modern.html, свобод-ный. Загл. с экрана.
58. Луни, К. Oracle Database 10g. Полный справочник / К. Луни СПб. : Лори, 2006. - 1456 с.
59. Майоров, С.А. Основы теории вычислительных систем / С.А. Майоров.- М.: Высшая школа, 1978. 408 с.
60. Макконелл, Д. Основы современных алгоритмов 2-е дополненное издание / Д. Макконелл М. : Техносфера, 2006. — 368 с.
61. Манд ель, И. Д. Кластерный анализ / И. Д. Мандель. М.: Финансы и статисти-ка, 1988. - 176 с.
62. Матов, В.И. Бортовые цифровые вычислительные машины и системы / В.И. Ма-тов, Ю.А. Белоусов, Е.П. Федосеев. М. : Высшая школа, 1988.-216 с.
63. Microsoft SQL Server 2005 Домашнаяя страница Эллектронный ресурс.- Режим доступа: http://www.microsoft.com/rus/sql/, свободный. Загл. с экрана.
64. МедиаЛингва Поисковые системы Эллектронный ресурс.- Режим доступа:http://www.medialingua.ru ./products.asp?categoryid=8799&productid=8804, сво-бодный. Загл. с экрана.
65. Методы решения многокритериальных задач оптимизации Электронный ресурс. Режим доступа:http://elib.ispu.ru/library/lessons/Koposov/index.html, сво-бодный. Загл. с экрана.
66. Методы сортировки и поиска С.Д. Кузнецов, ИСП РАН, Центр Информационных Технологий Электронный ресурс.- Режим доступа: http:// www.citforum.ru/pro gramming/theory/sorting/sorting2. shtml,свободный. Загл. с экрана.
67. Министерство сельского хозяйства Российской Федерации Электронный ресурс. Режим доступа: http://www.mcx.ru/, свободный. -Загл. с экрана
68. Мюллер, Р. Д. Базы данных и UML. Проектирование / Р. Д. Мюллер.- М.: Лори, 2002. 420 с.
69. Нечеткие множества в моделях управления и искусственного интеллекта / А.Н. Аверкин и др. М.: Наука, 1986. 312 с.
70. Орлов, А.И. Задачи оптимизации и нечеткие переменные. / А. И. Орлов. М.: ДМК Знание, 1980. - 64 с.
71. Плешко, В.В. Изучение основ Oracle Text / В.В. Плешко // Oracle Magazine. 2003. - № 14.
72. Плешко, В.В. Поиск с учетом словоформ русского языка /В.В. Плешко // Oracle Magazine. 2003. - № 14.
73. Плунгян, В. А. Общая морфология: введение в проблематику / В. А. Плунгян. М. : УРСС, 2000 - 384 с.
74. Пушников, А.Ю. Введение в системы управления базами данных. / А. Ю. Пушников. Уфа.: Башкирский университет, 1999. - 108 с.
75. Разработка программных проектов на основе Rational Unified Process (RUP) / Г. Поллис и др. . М.: Эком, 2005. - 256 с.
76. Рассел, С. Искусственный интеллект. Современный подход Artifical Intelligence: A Modern Approach / С. Рассел, П. Норвиг. М.: Вильяме, - 2007. -1048 с.
77. Рыков, А.С. Методы системного анализа: ногокритериальная и нечёткая опти-мизация, моделирование и экспертные оценки / А. С. Рыков. -М. : Экономика, 1999. 120 с.
78. Рыков, А.С. Методы системного анализа: Оптимизация / А. С. Рыков.- М.: Эко-номика, 1999. 255 с.
79. Словарь русского языка для ispell Электронный ресурс. Режим доступа: http://sconl55.phys.msu.su/~swan/orthography.html, свободный. - Загл. с экрана.
80. Соболь, И.М. Выбор оптимальных параметров в задачах со многими критериями / И.М. Соболь, Р.Б. Статников. М.: Наука , 1981. - 110 с.
81. Сухарев, А.Я Большой юридический словарь / А. Я. Сухарев. М. : Инфра, 2006. - 858 с.
82. Текстовые документы в Oracle: разнообразие источников, форматов, запросов Электронный ресурс.- Режим доступа:http://www.citforum.ru/database/oracle/oratextmultiplicity/ свободный. Загл. с эк-рана.
83. Трахтенброт, Б.А. Алгоритмы и машинное решение задач / Б.А. Трахтенброт. М. : Советское радио, 1957 - 95 с.
84. Трахтенброт, Б.А. Алгоритмы и вычислительные автоматы. / Б.А. Трахтенброт. М. : Советское радио, 1974 - 200 с.
85. Учебный курс Проектирование систем искусственного интеллекта: Лекция 10 Машинная эволюция Эллектронный ресурс. - Режим доступа: http://sconl55.phys.msu.su/~swan/orthography.html, свободный. - Загл. с экрана.
86. Хемди, А. Т. Введение в исследование операций / А.Т. Хемди. М.: Вильяме, 2007. - 912 с.
87. Чугреев, В.Л. Модель структурного представления текстовой информации и ме-тод её тематического анализа на основе частотно-контекстной классификации: дисс. .канд. тех. наук : 05.13.01/ Чугреев В.Л. -СПб., 2003,-185 с.
88. Шеннон, Р. Имитационное моделирование систем: искусство и наука / Р. Шеннон. М.: Мир, 1978.-418 с.
89. Шерер, Д. Изучение основ Oracle Text / Д. Шерер, К. Бреннан // Oracle Magazine. 2001. - № 2.
90. Baezo-Yates, R. Modern Information Retrieval / R.Baezo-Yates, B. Ribeiro-Neto. ACM Press Addidon Wesley, - 1999. - 544 c.
91. Bultermann, D. C. A. Is It Time for a Moratorium on Metadata? / D. C. A. Bultermann // IEEE Multimedia. 2004. - № 11(4). - C. 10-17.
92. Cutler, M. Using the structure of html documents to improve retrieval / G. Salton, J. Allan, and C. Buckley // In USENIX symposium on Internet Technologies and Sys-tems (NISTS'97). 1997. - C. 241-251.
93. Data Mining. Теория и практика / Брянцев И.Н. и др. . М.: БДЦ-пресс, 2006. - 208 с.
94. International Ispell Электронный ресурс. Режим доступа: http://www.lasr.cs.ucla.edu/geoff/ispell.html, свободный. - Загл. с экрана.
95. Microsoft SQL Server 2000. Справочник администратора / М.Ф. Гарсиа и др. . М.: Эком, 2004. - 976 с.
96. Oracle interMedia User's Guide lOg Release 2 (10.2) Эллектронный ресурс. Режим доступа:http://stmain.st.utoledo.edu/oracle/db 102/appdev. 102/b 14302/toc.html, свободный. Загл. с экрана.
97. Oracle: работать с текстовыми документами очень просто Электронный ресурс.- Режим доступа:http://www.citforum.ru/database/oracle/oratexteasy/, сво-бодный. Загл. с экрана.
98. Salton, G. Introduction to Modern Information Retrieval / G. Salton, C. Buckley New York: McGraw-Hill, - 1983. - 448 c.
99. Salton, G. Extended Boolean information retrieval / G. Salton, E. A. Fox, H. Wu. // Communications of the ACM. 1983. - № 1 l.-C. 1022-1036.
100. Salton, G. Term-weighting approaches in automatic text retrieval / G. Salton, C. Buckley. // Information Processing & Management. 1988. - № 24 (5). -C.513-523.
101. Salton, G. Term-weighting approaches in automatic text retrieval / G. Salton, C. Buckley. // Information Processing & Management. 1988. - № 24 (5). -C.513-523.
102. Salton, G. Automatic Text Processing the Analysis and retrieval of Information by Computer / G. Salton // Addison Wesley. 1989. - 543 c.
-
Похожие работы
- Интеграция объектных систем обработки информации и реляционных серверов
- Метод автоматизированного синтеза объектно-реляционной базы данных АСУП
- Объектный подход при формировании структур и хранилищ данных в технологической подготовке опытного производства
- Односторонняя интеграция информационных систем в территориально распределённых организациях
- Матрично-реляционная модель данных в организационно-производственных системах мониторинга и управления
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность