автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Разработка моделей и алгоритмов автоматизации полнотекстового поиска документированной информации повышенной релевантности в распределенных производственных структурах

кандидата технических наук
Слюсарь, Валентин Викторович
город
Москва
год
2007
специальность ВАК РФ
05.13.06
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка моделей и алгоритмов автоматизации полнотекстового поиска документированной информации повышенной релевантности в распределенных производственных структурах»

Автореферат диссертации по теме "Разработка моделей и алгоритмов автоматизации полнотекстового поиска документированной информации повышенной релевантности в распределенных производственных структурах"

На правах рукописи

СЛЮСАРЬ Валентин Викторович

РАЗРАБОТКА МОДЕЛЕЙ И АЛГОРИТМОВ АВТОМАТИЗАЦИИ ПОЛНОТЕКСТОВОГО ПОИСКА ДОКУМЕНТИРОВАННОЙ ИНФОРМАЦИИ ПОВЫШЕННОЙ РЕЛЕВАНТНОСТИ В РАСПРЕДЕЛЕННЫХ ПРОИЗВОДСТВЕННЫХ СТРУКТУРАХ

Специальность 05 13 06-Автоматизация технологических процессов и управление производством

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва, 2007

0030713В1

003071361

Работа выполнена на кафедре «Информатики и программного обеспечения вычислительных систем» в Московском государственном институте электронной техники (техническом университете)

Защита состоится «2-5~» <Х 3*- 2007 года • оо на заседании диссертационного совета'Эг^/Н^при Московском государственном институте электронной техники (техническом университете) по адресу: 124498, Москва, Зеленоград, проезд 4806, МИЭТ С диссертацией можно ознакомиться в библиотеке МИЭТ.

Автореферат разослан « гГ » 2007 г

Научный руководитель

Д т н, профессор Л Г Гагарина

Официальные оппоненты

Д т.н, профессор Л А Коледов К т н, доцент С А Каратыгин ОАО "Институт электронных управляющих машин", г Москва

Ведущая организация

Ученый секретарь Диссертационного совета

Д т.н, профессор А И Погалов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. В настоящее время существует острая необходимость разработки моделей и средств, обеспечивающих эффективное управление технологическими и производственными процессами Одной из важных составляющих при реализации систем управления технологическим процессом является организация эффективных процессов поиска документированной информации Указанная проблема особенно актуальна для распределенных производственных структур, отдельные элементы которых территориально разобщены и находятся на значительном удалении друг от друга

В настоящее время существует и активно развивается целая отрасль информационных систем, предназначенных для обработки документированной информации, в частности, современные справочные систем, электронные энциклопедии, справочно-правовые системы, системы управления документами, системы автоматизации деловых процессов (\УогкАо\у-системы), комплексы поддержки групповой работы и т д Для поиска информации, представленной в виде документов используются системы автоматизрфованного поиска документированной информации (САП ДИ) Однако в течение последних нескольких десятков лет список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем (ПС) и пользовательских интерфейсов, языки запросов, и т д

Поскольку в современных производственных системах количество документов, хранящихся в непрерывно пополняющихся электронных архивах зачастую исчисляется десятками тысяч, важнейшим требованием к поисковым системам является обеспечение высокой степени релевантности - соответствия найденных документов информационной потребности пользователя Следует отметить, что применяющиеся средства автоматизации производства ориентированы в первую очередь на управление технологическими процессами, а поиску релевантной документированной информации уделяется недостаточно внимания

Таким образом, исследования, направленные на создание универсальных методов и алгоритмов поиска документированной

информации в распределенных производственных структурах, являются актуальными

Цели и задачи диссертационной работы

Целью диссертационного исследования является разработка моделей и алгоритмов автоматизации поиска документированной информации в распределенных производственных системах, обеспечивающих повышенную релевантность и достоверность находимых документов

Для достижения цели диссертационного исследования необходимо решение следующих задач

1 Анализ структуры и функциональных возможностей современных автоматизированных систем управления производством

2 Формализация задачи поиска документированной информации в распределенных производственных структурах

3 Разработка моделей и алгоритмов полнотекстового запроса и поискового образа документа

4 Разработка комплексного алгоритма нахождения релевантной информации

5 Построение и верификация имитационной модели полнотекстового поиска документированной информации в распределенных производственных структурах на основе предложенных моделей и алгоритмов

Методы исследования В диссертационной работе использованы методы системного анализа, теории информационных систем, элементы теории принятия решений, элементы теории вероятности, методы математического и имитационного моделирования

Научная новизна работы состоит в создании новых моделей и алгоритмов, обеспечивающих повышенную релевантность и достоверность полнотекстового поиска документированной информации в распределенных производственных структурах При этом получены следующие научные результаты

1 Проведен аналитический обзор функциональных возможностей автоматизированных систем управления производством в контексте структурно-функциональной реализации автоматизированного поиска документированной информации

2 Разработано формализованное представление полнотекстового документа в терминологии семантических сетей

3 Разработана математическая модель полнотекстового запроса на основе теории графов, коррелирующая с моделью поискового образа документа (ПОД)

4 Алгоритмически реализовано построение расширенного поискового образа документа, базирующегося на простом ПОД,

' а также комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем

5 Создана концептуальная модель функционирования САП ДИ как составляющая автоматизированной системы управления производством, на базе разработанных математических моделей и алгоритмов

6 Создана и верифицирована имитационная модель поиска релевантной документации в информационном пространстве электронного хранилища документов обеспечивающая увеличение эффективности поиска по сравнению с традиционными методами поиска документированной информации и ее верификация

Практическая значимость работы заключается в расширении возможностей автоматизированного поиска документированной информации на производственных предприятиях Представленные в работе алгоритмическая реализация построения расширенного поискового запроса и комплексный алгоритм нахождения релевантной информации направлены на решение практических задач поиска документированной информации в массивах электронных хранилищах Результаты имитационного моделирования подтверждают повышение эффективности поиска информации на основе предложенных моделей и алгоритмов по сравнению с традиционными Использование предложенной алгоритмической реализации расширенного поискового образа документа, полученного в результате агрегирования знаний экспертов и пользователей САП ДИ при анализе проиндексированных документов, позволяет повысить количество релевантных документов, выдаваемых системой более чем на 20% по сравнению с обычным запросом и долю достоверных документов, выдаваемых системой, на 3-4%

Достоверность полученных результатов подтверждается результатами имитационного моделирования, доказавшими

преимущества предложенных в работе методов и алгоритмов полнотекстового поиска документированной информации, выразившиеся в повышении релевантности находимых документов, а также успешным внедрением и эксплуатацией моделей и алгоритмов на предприятии ООО «ДУЭТ Ко»

Личный вклад автора Все основные результаты получены автором лично Главными из них являются

в проведение аналитического обзора функциональных возможностей автоматизированных систем управления производством в контексте структурно-функциональной реализации автоматизированного поиска документированной информации;

о формализация представления полнотекстового документа в

терминологии семантических сетей, в разработка на основе теории графов математической модели полнотекстового запроса, коррелирующей с математической моделью ПОД,

в алгоритмическая реализация построения расширенного поискового образа документа, базирующегося на простом ПОД, в разработка комплексного алгоритма нахождения релевантной

информации на основе обратной связи с пользователем, в создание концептуальной модели функционирования САП ДИ как составляющей автоматизированной системы управления производством на базе разработанных математических моделей и алгоритмов,

в построение и верификация имитационной модели полнотекстового поиска документированной информации в распределенных производственных структурах; п внедрение разработанных моделей, алгоритмов и программной реализации модели поиска документированной информации в технологический процесс ООО «Дуэт Ко», в внедрение результатов диссертационной работы в учебный процесс кафедры информатики и программного обеспечения вычилительных систем Московского Государственного института электронной техники Реализация полученных результатов

Все работы по реализации и внедрению проводились под руководством или при непосредственном участии автора Результаты

диссертационной работы используются в технологическом процессе фирмы «Дуэт Ко» в рамках опытной эксплуатации автоматизированной системы поиска архивной документации (благодаря использованию разработанных моделей и алгоритмов затраты рабочего времени специалистов на поиск документации снизились более чем в два раза, и на 25% уменьшилось количество нерелевантных документов, ошибочно получаемых пользователями), а также в учебном процессе кафедры ИПОВС Московского Государственного института электронной техники при чтении дисциплин "Автоматизированные информационные системы", "Проектирование информационных систем", "Имитационное моделирование"

На защиту выносятся следующие основные научные результаты

1 Формализованное представление полнотекстового документа в терминологии семантических сетей

2 Математическая модель полнотекстового запроса на основе теории графов, коррелирующая с моделью ПОД

3 Алгоритм построения расширенного поискового образа документа, базирующийся на математической модели полнотекстового запроса

4 Комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем

5 Концептуальная модель функционирования САП ДИ как составляющая автоматизированной системы управления производством, на базе разработанных математических моделей и алгоритмов

6 Имитационная модель поиска релевантной документации в информационном пространстве электронного хранилища документов обеспечивающая увеличение эффективности поиска по сравнению с традиционными методами поиска документированной информации

Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях

1 V Всероссийская международная конференция «Антикризисное управление в России в современных условиях», МГТУ им Баумана, 2003

2 Одиннадцатая межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2004», МИЭТ, 2004

3 VI Всероссийская международная конференция «Антикризисное управление в России в современных условиях», МГТУ им Баумана, 2004

4. Двенадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2005», МИЭТ, 2005

5 V Международная научно-техническая конференция "Электроника и информатика - 2005", МИЭТ, 2005

6 Тринадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2006», МИЭТ, 2006

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, библиографического списка из наименований и приложения, содержит 180 страниц текста, включая 117 страниц основного текста, 27 рисунков, 3 таблицы, 10 страниц списка используемой литературы из 119 наименований и 26 страниц приложений

СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность темы диссертации, формулируются общие проблемы, цели и задачи исследования, научное и практическое значение полученных результатов, рассматривается структура диссертации и взаимосвязь отдельных глав

В первой главе проведен анализ структуры и функциональных возможностей систем управления производственным процессом Исследованы наиболее распространенные математические модели поиска документированной информации, показано, что основным их недостатком является отсутствие универсальных механизмов нахождения термов и построения поисковых образов документов

Представлен аналитический обзор современных методов и средств поиска документированной информации в локальных вычислительных сетях Установлено, что все существующие системы поиска документированной информации обладают следующими недостатками в низкое качество поиска при неоднозначности описания предмета поиска или при несовпадении моделей знаний о предметной

области пользователя и системы, в случае использования таких моделей,

а сильно затруднена интеграция механизмов поиска документированной информации в структуру системы управления производством, в сложность сочетания простого и расширенного поисковых

запросов в рамках одного обращения пользователя, в отсутствие обратной связи с пользователем, что сильно затрудняет задачу поиска и приводит к получению нерелевантных ответов вследствие составления некорректного или неполного запроса В целом, все существующие поисковые системы плохо приспособлены для работы в производственных структурах и существует насущная необходимость в разработке системы, ориентированной на работу в таких структурах и способной успешно решать задачи поиска документированной информации, относящейся к производственной деятельности предприятия

На основе проведенного анализа сформулированы цели и задачи диссертационного исследования, главными из которых являются формализация задачи поиска документированной информации, разработка моделей и алгоритмов полнотекстового запроса и поискового образа документа и разработка комплексного алгоритма нахождения релевантной информации

Во второй главе дается формализованное представление задачи поиска информации Любая поисковая система представляет собой простейший объект, поддающийся математическому описанию и моделированию Процессы системы, являющиеся формальными моделями таких сложных интеллектуальных функций, как анализ, обобщение, логический вывод и др, моделируются с помощью формализованных процедур двух типов

в преобразование потоков сообщений - информационный поиск, отбор из поискового массива множества сообщений, подчиняющихся определенным формальным сообщениям, в преобразование сообщений или документов — составление поисковых образов индексов (индексирование) документов

Принимая во внимание требования, предъявляемые к эффективности поиска информации, в работе предложена обобщенная схема САП ДИ, представленная на рис 1 Для автоматической

индексации документов в структуре САП ДИ выделен контур документов и контур запросов Контур документов включает процессы получения множества документов Ь0 и преобразования каждого документа

4 =

Ь}к

1к' =

-Чк

Ь,к'.

документ представляется в виде вектор-столбца

С Ь

4 =

УД*

Ьл-

"I, если /-й термин входит

в к-й документ, О, в противном случае

Любую систему, в частности САП ДИ, можно рассматривать как конечную совокупность некоторого множества элементов Е = {еу} и управляющего механизма М, устанавливающего связи между элементами системы и управляющего ими, образуя единую функционирующую систему

Множество элементов системы представлено в виде информационных и управляющих элементов, отличающиеся набором выполняемых функций Информационные элементы выполняют исключительно функции преобразования информации и не влияют непосредственно на другие элементы системы Управляющие элементы воздействуют на информационные, но не подверженные влиянию других элементов.

Аналогично связи системы подразделяются на информационные (для передачи преобразуемой информации) и управляющие Поскольку каждая система формируется в определенной среде, то считают, что система формируется множеством внутренних состояний (ресурсов) 2-{2к} Использование множества этих ресурсов, т е переход из одного внутреннего состояния в другое, происходит под воздействием определенной стратегии (плана) Таким планом (стратегией) является функция перехода Н из одного внутреннего состояния системы в другое

Н (Х*2)1' =>2

Предложенная структура характеризуется наличием множества входных значений Х={Х,}, операторов входа К={К,}, выходных значений У={у,} и выходных операторов Q={Q,} (также называемых воздействиями)

Функционирование системы определим как распределенное во времени Т преобразование информации из входного значения X в выходное значение У

Т:{Т->Х,Т->У}

Преобразование информации в каждой системе реализуется через заданный алгоритм, который для системы называется функцией выхода Е

На САП ДИ, те на алгоритм ее функционирования, могут воздействовать некоторые управляющие воздействия 2 Характеристика саморегулирующейся системы выражается через параметр Р Таким образом, систему можно представить как упорядоченную совокупность элементов вида

5 =< Т,К,Х,(),М,У,Н,Р,г,Е>

Функционирование САП ДИ, как и любой системы, основано на математической модели, включающей в себя представление поискового образа документа, представление запроса пользователя и метод вычисления релевантности поискового образа запросу пользователя

С целью унификации процедуры анализа документов различных форматов построена модель полнотекстового документа в терминах семантических сетей При разработке моделей используются не символы, составляющие содержание текстовых блоков, а более высокоуровневые объекты — термы Предложенная модель позволяет представить текст документа в виде сети взаимосвязанных фреймов, взаимодействующих с помощью горизонтальных и вертикальных связей Горизонтальные связи соединяют элементы на одном уровне в иерархии документа Это, как правило, фреймы одного и того же типа Вертикальные связи соединяют фрейм корень и его узловые вершины (у текста это разделы, у абзаца - предложения) и обычно соединяют фреймы разных типов

Такая модель не приспособлена для удобного представления в памяти компьютера С целью облегчения работы программиста и ориентации модели документа на использование в различных алгоритмах, модифицируем полученную модель так, чтобы она имела максимальную регулярность (в идеале реляционная таблица) Для этого выделим общие (или присущие почти всем элементам) поля в фрейм-шаблон, а дополнительные атрибуты свяжем при помощи ссылки (в теории фреймов подразумевается что значением слота может являться другой слот, причем меняющийся от фрейма к фрейму, однако при разработке программ необходимо придерживаться более строгой формализации модели)

Полученная модель шаблона имеет вид

Рг = (1^1Р,Тгт, ГпехпРыр,Айг),

где /ч- - фрейм шаблон, - уникальный идентификатор фрейма, 1Р - вертикальный уровень фрейма, Тгт - текстовое содержимое фрейма (список термов), Рпех, - указатель на фрейм того же уровня или пустой указатель, Рир - указатель на фрейм более низкого уровня или пустой указатель Лиг — указатель на дополнительные атрибуты или 0 в случае их отсутствия

Такое определение позволяет описать все необходимые фреймы в виде регулярной структуры, но при этом, в ряде случаев, не используются некоторые из слотов

Использование предложенной модели позволяет ввести дополнительный уровень абстракции, между исходным документом и

поисковым образом документа Его введение позволяет при разработке алгоритма построения ПОД не вдаваться в особенности конкретного типа документа Алгоритм становится независимым от формата предоставления документа Кроме того, алгоритм построения подобного иерархического объекта может быть далеко не тривиален, поэтому, в данной работе в качестве входных данных для алгоритма построения ПОД выступает подобная структура, уже содержащая в себе всю необходимую для алгоритма информацию в удобном для использования виде

Разработаны модели полнотекстового запроса и поиска документа в распределенной производственной структуре Документ хранится в базе данных САП ДИ в виде своего образа, заменяющего текст документа при выполнении операции вычисления релевантности Задача построения модели ПОД является одной из наиболее важных, так как именно ПОД определяет, насколько точно может быть восстановлено исходное содержание документа, необходимое для вычисления степени релевантности С целью повышения информативности ПОД и учета семантики исходного документа в данной работе предлагается использовать аппарат семантических сетей, позволяющий максимально полно описывать содержание документов Поисковый образ документа представляется в виде неориентированного нечеткого графа второго рода

вё = (Хс1,йс1),

где Хс1 - нечеткое множество вершин, - носитель нечеткого множества Хй

Хй = {< /лха{х)/х >},х 6 Хс1,Хс1

Элементы множества Хс1 соответствуют термам, содержащимся в документе Функция /^(^принадлежности определяет степень принадлежности терма документу (его вес при описании документа списком термов)

Нечеткое множество 1М = {< цш(х,у)1(х,у) >}, х,у<= Х<1 описывает множество ребер, соответствующих отношению «ассоциативной связности» термов документа Функция принадлежности рш (х, у ) определяет степень связанности термов х

и у в пределах документа и зависит от частоты совместной встречаемости термов в документе, близости их положения в тексте

Поисковый запрос определяется как Я = (Хг,

где Хг — нечеткое множество термов запроса, хеХг, Эг - нечеткое неориентированное отношение ассоциативной связанности термов запроса, определяемое через желаемую связность термов х и у в искомом документе, представляющую из себя число от 0 до 1, иг -нечеткое множество, описывающее связность термов запроса аналогично множеству иа Для вычисления релевантности запроса и , на основании отношений 11г и /г, строится объединенное отношение и'г В простейшем случае, оно может быть построено путем объединения этих отношений с использованием операции максимума

(х, о = та х(/ииг (х, (), цГг (х, /)).

Таким образом разработанные модели поиска обеспечивают более высокую информативность запроса по сравнению с традиционными, а также позволяют абстрагироваться от особенностей различных форматов документов при построении их поисковых запросов

Третья глава посвящена разработке и исследованию алгоритмов поиска документированной информации на основе предложенных выше моделей

Алгоритм создания ПОД (рис 2), соответствующего модели, построенной во второй главе, разбивается на две независимые части алгоритм выделения термов документа с вычислением их весов и алгоритм нахождения весов связей между термами Суть алгоритма заключается в последовательном просмотре исходного документа для вычисления статистической информации о встречаемости термов в пределах документа Эта информация используется для вычисления степени принадлежности каждого терма документу Затем из полученного списка термов, содержащихся в документе, выбирается определенное количество наиболее значимых термов (по значению их степени принадлежности) Полученное множество составляет множество вершин ПОД, которое и сохраняется в базе данных

Исходными данными алгоритма являются количество документов, модель документа в виде сети фреймов, содержащая иерархическое

описание текста, количество термов в документе, номер документа, количество термов в базе данных. Выходные данные количество термов в поисковом образе документа; документ, представленный в виде списка термов, степени принадлежности термов документу, модифицированные частоты встречаемости термов в документах.

Данным алгоритмом не предусматривается появление новых термов (новые термы могут появляться либо путем их целенаправленного введения в систему экспертами, либо автоматически при анализе документов), синхронизация добавляемой информации и хранимой базы данных и ряд других особенностей, характерных для реальной САП ДИ, но не существенных при разработке алгоритмов

Для устранения упомянутых недостатков проведена алгоритмическая реализация поискового запроса Использование некоторых запросов основано на предположении, что пользователь обладает некоторой дополнительной информацией о предмете поиска, которая и должна быть указана в запросе Созданный в этом случае запрос уже является расширенным и содержит всю необходимую для поиска информацию В этом случае, задачей САП ДИ является распознавание запроса и построение его модели, являющейся входной информацией для алгоритма поиска релевантных документов Каждому терму устанавливается степень его пригодности для расширения Полученный вариант расширенного запроса предъявляется пользователю, который корректирует его путем исправления весов, удаления или добавления термов Откорректированный таким образом запрос передается на вход САП ДИ, инициируя новую итерацию цикла расширения запроса

На основе предложненных моделей и алгоритмов разработан объединяющий их комплексный алгоритм поиска релевантной информации (рис 3), основанный на следующих предположениях

1) набор документов, среди которых ищутся релевантные ссылки, предварительно проиндексирован и для каждого документа при помощи вышеприведенного алгоритма составлен ПОД, на основании которого делается заключение о релевантности документа запросу,

2) обращение к базе знаний экспертов и базе, полученной на основании обобщения ПОД документов не требуется Вся необходимая информация выражена в расширенном запросе Расширенный запрос является единственным входным параметром для работы алгоритма

Рис. 2 Схема алгоритма создания поискового образа документа

С

Рис. 3 Схема комплексного алгоритма нахождения релевантной информации.

Построена концептуальная модель основных функций модуля поиска информации, создана функциональная (рис 4) и иерархическая структура САП ДИ в составе производственной структуры Функциональные задачи, решаемые САП ДИ, связаны со стратегическим, перспективным и текущим планированием развития предприятия, учетом, контролем и регулированием активов Для этого во всех

структурных подразделениях предприятия создаются АРМ специалистов, обеспечивающие решение задач по управлению активами и ресурсами предприятия - обеспечение непрерывности производственного цикла, поступления сырья, материалов и ресурсов, отгрузку готовой продукции и т д

К)-ст£српряЕтлдадмн1ъ< 12- тапире фост

Рис. 4. Функциональная структура системы автоматизированного поиска документированной информации производственного предприятия.

Выделены основные функции системы и активности, возникающие в процессе ее функционирования

Четвертая глава посвящена программной реализации и имитационному моделированию САП ДИ

Программная реализация имитационной модели, использующей предложенные в диссертационной работе математические модели и алгоритмы, использует объектно-ориентированный подход

При построении имитационной модели особое внимание уделялось организации квазипараллелизма функционирования модели Значительное число функциональных действий компонент САП ДИ одинаково Каждое действие представимо в виде набора простейших операций, кроме того, возможно построение функциональных зависимостей их выполнения друг от друга

Для имитации поведения системы используется так называемый транзактный способ организации квазипаралеллизма, при котором однотипные функциональные действия объединяются Возникновение тех или иных событий в модели становятся так называемые транзакты - запросы на выполнение определенной группы объединенных функциональных действий Связь между компонентами модели устанавливается с помощью системы очередей, выбранных дисциплин поступления и способов извлечения из них транзактов В любой момент времени может выполняться только одно функциональное действие и пользователя интересует влияние этого действия на поведение всей системы

На рис 5 представлена обобщенная схема функционирования имитационной модели функционирования САП ДИ Источниками образования транзактов являются запросы пользователей на поиск информации В блоке «поглотитель» уничтожаются все добравшиеся до него транзакты Блок обработки запросов сканирует списки запросов и создает новее транзакты (запросы либо действия) Для исследования был выбран архив документов, состоящий из управленческих документов административного характера и технической документации производства и реализации осветительного оборудования (технологические нормативы, договоры реализации и доставки, отчеты, накладные и тд) Архив содержит более 2 тысяч документов Размер архива составляет порядка 80 Мб Размер документов колеблется от 1 Кб до 2 Мб

Для моделирования использовался персональный компьютер с процессором Intel Pentium IV 1000, 512 Мб RAM, ОС Windows ХР

&Э4рХЕНеКЭТ+ИСВ&рС1Хв

СЙтужшгеяроаг

JZZ

Ошрзне ютмса

Оерд^офвбомпрЕнаосв (зггроав)

Егоссфйжи Втко^сим бтхефбли

Сбтумеэ+е ДЗ

сбтуиечя

Оэ-цгетче ПЗТОМ0ТЙ

Люпэц«

Оргмдпкгс ереье«

Ч

'Мдепраме4

/Ввгшгмегич Ч. фоаар^ьР /

Оснше МДП^ЕЕЕНЯу

Рис 5. Обобщенная схема имитационной модели функционирования системы автоматизированного поиска документированной информации.

С целью оценки эффективности разработанных моделей и алгоритмов было проведено сравнение эффективности функционирования смоделированной САП ДИ и традиционных информационно-поисковых систем по сравнению с "эталонной поисковой системой" — гипотетической системой, находящей абсолютно все релевантные данному запросу документы, находящиеся в хранилище Сравнение проводилось по двум критериям - количество выданных системами релевантных документов и процентная доля выданных релевантных документов от общего количества выдаваемых в ответ на запрос документов

Следует отметить, что различия в эффективности проявляются по мере увеличения объема обрабатываемого массива Как видно из рис 6 при небольших размерах архивов (до 1000 документов) различия в результатах экспериментального поиска практически незаметны По мере роста обрабатываемого массива различия между традиционной методикой поиска и предложенной становятся все более очевидными При моделировании был использован архив размером около 2000 документов При таком размере архива разница в количестве выдаваемых релевантных документов составляет около 15-20% При увеличении объема архива до 5 000 документов эта разница превысит 30% На рис 7 представлено сравнение процентной доли истинно релевантных (достоверных) документов среди выдаваемых поисковыми системами Как видно из графика, различия эффективности систем также проявляются по мере роста объема обрабатываемого архива При объеме архива в 2 000 документов доля достоверных документов, найденных моделируемой САП ДИ, составляет 99,4%, против 98% у САП ДИ, функционирующей по традиционной методике С ростом объема обрабатываемого архива эта разница также становится более заметной Так, при объеме архива в 5 000 документов, доля достоверных документов, найденных моделируемой САП ДИ, составит почти 99%, в то время как традиционная система выдает менее 96%

Количество выдаваемых релевантных документов

Рис.6. Сравнение количества выдаваемы* поисковыми системами релевантны* документов

Сравнение доли выданных достоверных документов

Рис. 7. Доля выдаваемых достоверных документов

В заключении диссертации сформулированы основные выводы и полученные результаты, поставлены вопросы для дальнейших исследований

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В ходе выполнения диссертационной работы рассмотрены вопросы разработки моделей и алгоритмов автоматизации полнотекстового поиска документированной информации в распределенных производственных системах, при этом получены следующие научные и практические результаты

1 Формализована задача поиска документированной информации, основанная на построении модели запроса пользователя и вычислении релевантности документа (сравнения поискового образа документа и запроса пользователя)

2 Создана обобщенная схема функционирования системы автоматизированного поиска документированной информации (САП ДИ)

3 На основе теории семантических сетей разработано формализованное представление полнотекстового документа, позволяющее абстрагироваться от особенностей конкретных форматов документов при построении их поисковых запросов

4 На основе теории графов созданы и исследованы математические модели полнотекстового запроса и полнотекстового образа документа, обеспечивающие более высокую информативность поискового запроса пользователя по сравнению с традиционными моделями поиска информации

5 Создана алгоритмическая реализация расширенного запроса, заключающаяся в последовательном просмотре термов запроса с последующим поиском и уточнением синонимов и гипонимов для каждого из них

6 На основе предложенных математических моделей и алгоритмов разработан комплексный алгоритм нахождения релевантной информацию, позволяющий по выбору пользователя строить простой, либо расширенный поисковый запрос

7 Построена концептуальная модель функционирования САП ДИ и обоснованна возможность ее интеграции в структуру автоматизированной системы управления производством

8 На основе объектно-ориентированного подхода создана, верифицирована и программно реализована имитационная

модель поиска документации в информационном пространстве электронного хранилища технических документов

9 Результаты имитационного моделирования, проведенные автором, показали, что предложенные модели и алгоритмы обеспечивают повышение полноты ответа при построении расширенного запроса (количества выдаваемых релевантных документов) на 25-27 % по сравнению с обычным запросом и повышение достоверности выданных системой документов на 57%

10 Материалы диссертационной работы использованы при создании учебных материалов дисциплин "Автоматизированные информационные системы", "Проектирование экономических информационных систем", "Имитационное моделирование"

Основные положения и результаты диссертации опубликованы в следующих работах.

2 Слюсарь В В Информационная поддержка стратегического аспекта инновационного развития предприятия Материалы V Всероссийской международной конференции "Антикризисное управление в России в современных условиях", М МГТУ им Баумана, 2003.

2 Слюсарь В В Внедрение автоматизированных информационных систем в государственных учреждениях Тезисы докладов 11-й Всероссийской межвузовской научно-технической конференции студентов и аспиранток "Микроэлектроника и информатика-2004" М МИЭТ, 2004.

3 Гагарина Л Г, Слюсарь В В Электронный офис внедрение автоматизированных информационных систем в государственных учреждениях Журнал "Служба кадров и персонал" №10, 2004.

4 Слюсарь В В Опыт внедрения документоориентированных информационных систем в государственных и бюджетных организациях материалы VI Всероссийской международной конференции "Антикризисное управление в России в современных условиях", М • МГТУ им Баумана, 2004,

5 Слюсарь В В Критерии оценки эффективности работы автоматизированных информацонно- поисковых систем тезисы докладов 12-й Всероссийской межвузовской научно-

технической конференции студентов и аспирантов "Микроэлектроника и информатика-2005" М МИЭТ, 2005.

6 Гагарина JIГ, Слюсарь В В Методы и способы оценки эффективности работы систем поиска электронных документов Оборонный комплекс - научно-техническому прогрессу России Межотр научно-тех Журнал/ВИМИ -М,2005,

7 Разработка математической модели оценки эффективности подсистемы поиска информации в системах автоматизированного делопроизводства и документооборота Тезисы докладов V международной научно-технической конференции "Электроника и информатика - 2005",

8 Гагарина JIГ, Слюсарь В В Методология оценки эффективности работы автоматизированной информационно-поисковой системы на основе интегральных критериев уровня качества поиска Научно-технический журнал "Известия высших учебных заведений Электроника" №2, 2006 М, МИЭТ, 2006.

9 Концептуальная модель оценки эффективности работы информационно-поисковой системы // Тезисы докладов 13-й Всероссийской межвузовской научно-технической конференции студентов и аспирантов "Микроэлектроника и информатика-2006" М МИЭТ, 2006,

10 Румянцева EJT, Слюсарь В В Информационные технологии Учебное пособие М , ИНФРА-М, 2006 .

11 Гагарина Л Г, Маклакова Т Н, Слюсарь В В , Чумаченко П Ю Проблемы обеспечения информационной безопасности VPN-сети в информационной пространстве высшего учебного заведения Оборонный комплекс - научно-техническому прогрессу России Межотр научно-тех Журнал/ВИМИ — М, 200С,

Подписано в печать 20 04 2007 Исполнено 20 04 2007 г Печагь трафаретная

Заказ № 425 Тираж 85 экз

Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш, (495) 975-78-56 www autorefcrat то

Оглавление автор диссертации — кандидата технических наук Слюсарь, Валентин Викторович

ВВЕДЕНИЕ.

Глава 1. Анализ структуры и функциональных возможностей автоматизированных систем управления производством.

1.1 Обобщенная структура и классификация автоматизированных систем управления производством.

1.2. Формализованное представление процесса управления производством

1.3. Анализ современных моделей поиска документированной информации в распределенных структурах.

1.3.1. Теоретико-множественные модели.

1.3.2. Вероятностные модели.

1.3.3. Алгебраические модели.

1.4. Обзор методов и средств поиска документированной информации в распределенных структурах.

1.5. Постановка задачи диссертации.

Выводы по главе 1.

Глава 2. Создание математических моделей представления информации в поисковых системах.

2.1. Формализация задачи поиска информации.

2.2. Моделирование полнотекстового документа в терминах семантических сетей.

2.3. Разработка моделей полнотекстового запроса и образа документа.

2.4. Моделирование экспертной системы поиска документированной информации в терминах теории графов.

Выводы по главе 2.

Глава 3. Разработка алгоритмов функционирования модуля поиска документированной информации.

3.1 Создание алгоритмов функционирования системы автоматизированного поиска документированной информации.

3.1.1. Алгоритмическая реализация создания поискового образа документа.

3.1.2. Поисковый запрос и его алгоритмическая реализация.

3.2. Разработка обобщенного алгоритма поиска релевантной информации

3.3.Выбор и обоснование средств и методов моделирования работы поискового модуля.

3.3.1. Структурирование и классификация существующих методов моделирования.

3.3.2. Содержательное и концептуальное описание модели.

3.4. Построение концептуальной модели основных функций модуля поиска информации.

Выводы по главе 3.

Глава 4. Программная реализация и имитационное моделирование работы модуля поиска документированной информации.

4.1. Разработка программных модулей системы автоматизированного поиска документированной информации.

4.2. Имитационная модель поисковой системы в информационном пространстве электронного хранилища документов.

4.3. Оценка эффективности использования разработанных моделей и алгоритмов.

Выводы по главе 4.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Слюсарь, Валентин Викторович

Актуальность работы. В настоящее время существует острая необходимость разработки методов и средств, обеспечивающих эффективное управление технологическими и производственными процессами. Одной из важных составляющих при реализации систем управления технологическим процессом является организация эффективных процессов поиска документированной информации. Указанная проблема особенно актуальна для распределенных производственных структур, отдельные элементы которых территориально разобщены и находятся на значительном удалении друг от друга. Теоретическим исследованиям и разработке принципов построения автоматизированных систем для управления производственными процессами посвящены работы видных российских и зарубежных ученых: Прохорова Н.Г., Гасанова Э.Э., Кудрявцева В.Б., Егорова ГЛ., Красовского В.Е., Вендрова A.M., Харрисона Т., Ланкастера Ф. и др [1,4-7,23-24,100].

В настоящее время существует и активно развивается целая отрасль информационных систем, предназначенных для обработки документированной информации, в частности, современные справочные систем, электронные энциклопедии, справочно-правовые системы, системы управления документами, системы автоматизации деловых процессов (workflow-системы), комплексы поддержки групповой работы и т.д. Для поиска информации, представленной в виде документов используются системы автоматизированного поиска документированной информации (САП ДИ). Однако в течение последних нескольких десятков лет список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем (ПС) и пользовательских интерфейсов, языки запросов, и т. д. [1-3]

Исходя из необходимости эффективности функционирования современных поисковых систем, основными требованиями, предъявляемыми к ним, являются:

- удобство и полнота представления запросов для пользователя — форма входного запроса должна позволять легко выражать любые требования, относящиеся к интересующей информации, будучи при этом интуитивно понятной и простой в применении;

- точность проводимого поиска — все документы, выдаваемые системой, должны быть релевантны запросу пользователя;

- полнота осуществляемого поиска — необходимо выдавать список, включающий абсолютно все полезные документы, находящиеся в хранилище;

- высокая скорость работы — время обработки запроса должно быть минимальным с учетом функциональных возможностей используемых средств вычислительной техники.

Поскольку в современных производственных системах количество документов, хранящихся в непрерывно пополняющихся электронных архивах, зачастую исчисляется десятками тысяч, важнейшим требованием к поисковым системам является обеспечение высокой степени релевантности - соответствия найденных документов информационной потребности пользователя. Следует отметить, что применяющиеся средства автоматизации производства ориентированы в первую очередь на управление технологическими процессами, а поиску релевантной документированной информации уделяется недостаточно внимания.

Таким образом, исследования, направленные на создание универсальных методов и алгоритмов поиска документированной информации в распределенных производственных структурах, являются актуальными.

Цель работы. Целью диссертационного исследования является разработка моделей и алгоритмов автоматизации поиска документированной информации в распределенных производственных системах, обеспечивающих повышенную релевантность и достоверность находимых документов. Указанная цель достигается созданием математических моделей полнотекстового документа, запроса и поискового образа документа, экспертной модели поиска, алгоритмов построения поисковых образов документов, расширенного поискового запроса, модели нахождения релевантной информации и построении имитационной модели функционирования поисковой системы.

Задачи исследования. В соответствии с указанной целью в работе решаются следующие задачи:

1. Анализ структуры и функциональных возможностей современных автоматизированных систем управления производством.

2. Формализованное представление задачи поиска документированной информации в распределенных производственных структурах.

3. Разработка моделей и алгоритмов полнотекстового запроса и поискового образа документа.

4. Создание экспертной модели поиска документированной информации.

5. Разработка комплексного алгоритма нахождения релевантной информации.

6. Построение и верификация имитационной модели полнотекстового поиска документированной информации в распределенных производственных структурах на основе предложенных моделей и алгоритмов.

Методы исследования. В диссертационной работе использованы методы системного анализа, теории информационных систем, элементы теории принятия решений, элементы теории вероятности, методы математического и имитационного моделирования.

Научная новизна работы состоит в создании новых моделей и алгоритмов, обеспечивающих повышенную релевантность и достоверность полнотекстового поиска документированной информации в распределенных производственных структурах. При этом получены следующие научные результаты.

1. Проведен аналитический обзор функциональных возможностей автоматизированных систем управления производством в контексте структурно-функциональной реализации автоматизированного поиска документированной информации.

2. Разработано формализованное представление полнотекстового документа в терминологии семантических сетей.

3. Разработана математическая модель полнотекстового запроса на основе теории графов, коррелирующая с моделью поискового образа документа (ПОД).

4. Алгоритмически реализовано построение расширенного поискового образа документа, базирующегося на простом ПОД, а также комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем.

5. Создана концептуальная модель функционирования САП ДИ как составляющая автоматизированной системы управления производством, на базе разработанных математических моделей и алгоритмов.

6. Создана и верифицирована имитационная модель поиска релевантной документации в информационном пространстве электронного хранилища документов обеспечивающая увеличение эффективности поиска по сравнению с традиционными методами поиска документированной информации и ее верификация. Практическая значимость работы заключается в расширении возможностей автоматизированного поиска документированной информации на производственных предприятиях. Представленные в работе алгоритмическая реализация построения расширенного поискового запроса и комплексный алгоритм нахождения релевантной информации направлены на решение практических задач поиска документированной информации в массивах электронных хранилищах. Результаты имитационного моделирования подтверждают повышение эффективности поиска информации на основе предложенных моделей и алгоритмов по сравнению с традиционными. Использование предложенной алгоритмической реализации расширенного поискового образа документа, полученного в результате агрегирования знаний экспертов и пользователей САП ДИ при анализе проиндексированных документов, позволяет повысить количество релевантных документов, выдаваемых системой на 25-27% по сравнению с обычным запросом и долю достоверных документов, выдаваемых системой, на 5-8%.

По результатам внедрения семантической сети, построенной на основании объединения поисковых образов проиндексированных документов, решены проблемы повышения точности характеристик предметной области, в частности, при моделировании количество термов с аналогичными семантическими окружениями составило 5-10%.

Личный вклад автора. Все основные результаты получены автором лично. Главными из них являются:

- проведение аналитического обзора функциональных возможностей автоматизированных систем управления производством в контексте структурно-функциональной реализации автоматизированного поиска документированной информации;

- формализация представления полнотекстового документа в терминологии семантических сетей;

- разработка на основе теории графов математической модели полнотекстового запроса, коррелирующей с математической моделью ПОД;

- алгоритмическая реализация построения расширенного поискового образа документа, базирующегося на простом ПОД;

- выведение комплексного алгоритма нахождения релевантной информации на основе обратной связи с пользователем;

- создание концептуальной модели функционирования САП ДИ как составляющей автоматизированной системы управления производством на базе разработанных математических моделей и алгоритмов;

- построение и верификация имитационной модели полнотекстового поиска документированной информации в распределенных производственных структурах на основе предложенных моделей и алгоритмов.

- Внедрение разработанных моделей, алгоритмов и программной реализации модели поиска документированной информации в технологический процесс ООО "Дуэт Ко".

- Внедрение результатов диссертационной работы в учебный процесс кафедры ИПОВС МИЭТ.

Реализация полученных результатов. Все работы по реализации и внедрению проводились под руководством или при непосредственном участии автора. Результаты диссертационной работы используются в технологическом процессе ООО "Дуэт Ко" в рамках опытной эксплуатации автоматизированной системы поиска архивной документации -разработанные модели, алгоритмы и программная реализация модели поиска релевантной информации в информационном пространстве электронного хранилища документов внедрены в автоматизированные рабочие места системных аналитиков и главных специалистов, входящих в единую автоматизированную систему управления производством и поиска архивной документации. Благодаря использованию разработанных моделей и алгоритмов затраты рабочего времени специалистов на поиск документации снизились более чем в 2 раза, и на 25% уменьшилось количество нерелевантных документов, ошибочно получаемых пользователями. Кроме того, результаты работы использованы в учебном процессе кафедры ИПОВС Московского Государственного института электронной техники при чтении дисциплин "Автоматизированные информационные системы", "Проектирование информационных систем", "Имитационное моделирование".

В результате проведенных исследований получены и выносятся на защиту следующие основные научные результаты:

1. Формализованное представление полнотекстового документа в терминологии семантических сетей.

2. Математическая модель полнотекстового запроса на основе теории графов, коррелирующая с моделью ПОД.

3. Алгоритм построения расширенного поискового образа документа, базирующийся на математической модели полнотекстового запроса.

4. Комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем.

5. Концептуальная модель функционирования САП ДИ как составляющая автоматизированной системы управления производством, на базе разработанных математических моделей и алгоритмов.

6. Имитационная модель поиска релевантной документации в информационном пространстве электронного хранилища документов обеспечивающая увеличение эффективности поиска по сравнению с традиционными методами поиска документированной информации.

Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях:

1. V Всероссийская международная конференция «Антикризисное управление в России в современных условиях», МГТУ им. Баумана, 2003.

2. Одиннадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2004», МИЭТ, 2004.

3. VI Всероссийская международная конференция «Антикризисное управление в России в современных условиях», МГТУ им. Баумана, 2004.

4. Двенадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2005», МИЭТ, 2005.

5. V Международная научно-техническая конференция "Электроника и информатика - 2005", МИЭТ, 2005.

6. Тринадцатая Всероссийская межвузовская научно-техническая конференция студентов и аспирантов «Микроэлектроника и информтика-2006», МИЭТ, 2006.

Основные результаты диссертационной работы опубликованы в 12 изданиях в том числе статей в научных журналах - 4, тезисов докладов -7, работ без соавторов - 8.

Достоверность полученных результатов подтверждается результатами имитационного моделирования, доказавшими преимущества предложенных в работе методов и алгоритмов полнотекстового поиска документированной информации, выразившиеся в повышении релевантности находимых документов, а также успешным внедрением и эксплуатацией моделей и алгоритмов на предприятии «ООО ДУЭТ Ко».

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, библиографического списка из наименований и приложения, содержит 180 страниц текста, включая 24 рисунка, 3 таблицы и 10 страниц списка используемой литературы из 119 наименований и 2 приложения.

Заключение диссертация на тему "Разработка моделей и алгоритмов автоматизации полнотекстового поиска документированной информации повышенной релевантности в распределенных производственных структурах"

Выводы по главе 4

1. Построена концептуальная модель функционирования САП ДИ в рамках автоматизированной системы управления производством, не привязанная к типу реализации.

2. На основе объектно-ориентированного подхода разработана программная реализация имитационной модели поиска документации в информационном пространстве электронного хранилища документов, использующая предложенные в работе модели и алгоритмы.

3. Создана и верифицирована имитационная модель поиска документации в информационном пространстве электронного хранилища технических документов на основе разработанных моделей и алгоритмов. Результаты имитационного моделирования показали, что предложенные модели и алгоритмы обеспечивают повышение полноты ответа при построении расширенного запроса (количества выдаваемых релевантных документов) на 25-27 % по сравнению с обычным запросом и повышение доли выданных системой достоверных документов на 5-7%.

4. Предложенные в работе дальнейшие направления совершенствования интеллектуальных поисковых информационных систем в рамках семантико-ориентированной модели поиска позволяют говорить об актуальности развития данного направления, как для науки, так и для практического применения.

Заключение

В ходе выполнения диссертационной работы были рассмотрены вопросы разработки моделей и алгоритмов автоматизации полнотекстового поиска документированной информации в распределенных производственных системах, при этом получены следующие научные и практические результаты.

1. Формализована задача поиска документированной информации: создана обобщенная схема функционирования поисковой системы в рамках математической модели.

2. На основе теории семантических сетей разработано формализованное представление полнотекстового документа, позволяющее абстрагироваться от особенностей конкретных форматов документов при построении их поисковых запросов.

3. На основе теории графов созданы и исследованы математические модели полнотекстового запроса и ПОД, обеспечивающие более высокую информативность поискового запроса пользователя по сравнению с традиционными моделями поиска информации.

4. Алгоритмически реализовано построение расширенного запроса, фактически заключающееся в последовательном просмотре термов запроса с последующим поиском и уточнением синонимов и гипонимов для каждого из них.

5. На основе разработанных математических моделей и алгоритмов создан комплексный алгоритм нахождения релевантной информации на основе обратной связи с пользователем, нормализующий первоначальный запрос и приводящий его к форме списка термов.

6. Получена экспертная модель поиска документированной информации, позволяющая обрабатывать запросы пользователей на естественном языке.

7. Построена концептуальная модель функционирования САП ДИ в рамках автоматизированной системы управления производством, не привязанная к типу реализации.

8. Создана и верифицирована имитационная модель поиска документации в информационном пространстве электронного хранилища технических документов на основе разработанных моделей и алгоритмов. Результаты имитационного моделирования показали, что предложенные модели и алгоритмы обеспечивают повышение полноты ответа при построении расширенного запроса (количества выдаваемых релевантных документов) на 25-27 % по сравнению с обычным запросом и повышение доли выданных системой достоверных документов на 5-7%.

9. На основе объектно-ориентированного подхода разработана программная реализация имитационной модели поиска документации в информационном пространстве электронного хранилища документов, использующая предложенные модели и алгоритмы.

Материалы диссертационной работы использованы при создании учебных материалов дисциплин "Автоматизированные информационные системы", "Проектирование экономических информационных систем", "Имитационное моделирование".

Библиография Слюсарь, Валентин Викторович, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

1. Гасанов Э.Э., Кудрявцев В.Б. Теория Хранения и поиска информации. М., Физматлит, 2002.

2. Тематико-ориентированные методы информационного поиска -http://meta.math.spbu.ru/4hesis/nodel.html.

3. Абчук В.А., Суздаль В.Г. Поиск объектов. М., Советское радио, 1977.

4. Ланкастер Ф.У. Информационно-поисковые системы: пер. с англ. М., Мир, 1972.

5. Карминский A.B., Карминский С.А., Нестеров В.П., Черников Б.В. Информатизация бизнеса: концепции, технологии, системы. М., Финансы и статистика, 2004.

6. Грабауров В.А. Информационные технологии для менеджеров. М., Финансы и статистика, 2001.

7. Титоренко Г.А. Автоматизированные информационные технологии в экономике.-М.: ЮНИТИ, 1998

8. Барановская Т.П., Лойко В.И, Семенов М.И. Информационные системы и технологии в экономике. М., Финансы и статистика, 2005.

9. Гобарева Я.Л. Автоматизированные системы обработки экономической информации.http://www.history.ru/index.php?option=comewriting&Itemid=l 17&func=c hapterinfo&chapter=18068&story=13 827

10. ИС-Букварь http://www.stormsystems.ru/downloads/part01 .pdf

11. Надточий А.И. Технические средства информатизации. М., КОС ИНФ, 2003.

12. Абдикеев Н.М. Автоматизированные информационные системы в производстве, маркетинге и финансах. М, КОС ИНФ, 2003.

13. В.Г. Олифер, H.A. Олифер. Компьютерные сети. СПб., Питер, 2001.

14. Пятибратов А.П. и др. Вычислительные системы, сети и телекоммуникации. М., Финансы и статистика, 2001.

15. Microsoft Press- Компьютерные сети. Учебный курс.

16. Э. Таненбаум. Компьютерные сети. М., 2003.

17. Аппаратные средства локальных сетей. Энциклопедия Михаил Гук, 2000.

18. Казаков С.И. Основы сетевых технологий: Метод, пособие 2-е изд. -М.: Микроинформ, 1995.

19. Гагарина Л.Г., Киселев Д.В., Федотова Е.Л. Разработка и эксплуатация автоматизированных информационных систем. М, ИНФРА-М, 2006.

20. Гагарина Л.Г. Автоматизированные информационные системы. Уч. пос. -М.: МИЭТ, 2003.

21. Исаев Г.Г., Чернышев И.В. Информационные технологии управления: учебно-методический комплекс. Ульяновск, УлГТУ, 2003.

22. Черников Б.В. Новые технологии: создание и внедрение. М., Служба кадров, №12,2000.

23. Информационные системы в экономике. Под ред. В.В. Дика. М., Финансы и статистика, 1996.

24. Смирнов Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем. М., Финансы и статистика, 2002.

25. ERP-системы в России, www.erp.ru.

26. Прохоров Н.Л., Егоров Г.А., Красовский В.Е., и др. Управляющие вычислительные комплексы. М., Финансы и статистика, 2003.

27. Харрисон Т, ред. Управляющие вычислительные машины в АСУ технологическими процессами. М., Мир, 1975.

28. Бунин В., Анопренко В. и др. SCADA-системы: проблема выбора. СТА, №4, 1999.

29. Титоренко Г.А., ред. Информационные технологии управления. М., ЮНИТИ, 2004.

30. Альсведе Р., Вегенер И. Задачи поиска. М., Мир, 1982.

31. Клевердон К. Испытание и оценка эффективности интеллектуальной стадии работы ИПС. Сборник переводов по вопросам информационной теории и практики. М., ВИНИТИ, 1967, № 9.

32. Клевердон К., Ланкастер Ф., Миллз Дж. Проблемы информационного поиска. Сборник переводов по вопросам информационной теории и практики. М., ВИНИТИ, 1967, № 9

33. Белоногов Г. Г., Богатырев В. М. Автоматизированные информационные системы. М.: Советское радио, 1973.

34. Стоянов Е.А., Стоянова Е.С. Экспертная диагностика и аудит финансово-хозяйственного положения предприятия. Киев, Аурум, 1993.

35. Ларичев О.И. Наука и искусство принятия решений. М., Наука, 1979.

36. Salton G. Automatic Text Processing Analysis, transformation and retrieval of text information by computer. Addison-Wesley: Reading, MA, 1989.

37. Robertson S.E., Jones K.S. Relevance Weighing of search terms. JASIS, 1976.

38. Казаков E. H., Копылов В. А. Динамический метод построения автоматизированной системы. Научно-техническая информация., № 5. М., ВИНИТИ, 1974.

39. Казаков Е. Н. Исследование процесса построения информационно-поисковых тезаурусов с применением ЭВМ. Дис. на соискание учен, степени кандидата техн. наук. М., 1976.

40. Казаков Е. Н., Копылов В. А. Динамический метод построения автоматизированной системы. Научно-техническая информация., № 5. М., ВИНИТИ, 1974.

41. Липаев В.В. Распределение ресурсов в вычислительных системах. М., Статистика, 1987.

42. Организация эффективного поиска на основе онтологии -http://www.dialog-21 .ru/Archive/200 l/volume2/249.htm.

43. Тематико-ориентированные методы информационного поиска -http://meta.rnath.spbu.ru/~thesis/node 1 .html.

44. Аграновский A.B., Арутюнян Р.Э. Индексация массивов документов. Мир ПК, №06/2003.

45. Когаловский М.Р. Перспективные технологии информационных систем. М., ДМК Пресс, 2003.

46. Системы поиска по массивам неструктурированной информации. www.relib.com/articles/artcicle.asp?id=216

47. Нетоскоп: три поисковинка рунета, не считая Google. vyww.travin.msk.ru/arc/searchengine.htm

48. Ермаков А.Е. Проблемы полнотекстового поиска и их решение. Мир ПК, №5, 2001.

49. Попов И.И. Автоматизированные информационные системы (по областям применения). Уч. пос./ Под общ. Редакцией К.И. Курбакова . - М.: изд-во Роюэкон. Акад., 1998.50. www.megalib.eom/books/1332/5.pdf

50. Гобарева Я. Л. Автоматизированные системы обработки экономической информации.http://www.history.ru/index.php?option=com ewriting&Itemid=l 17&func=c hapterinfo&chapter=18068&story=13827

51. Каратыгин С.И. Базы данных: простейшие средства обработки информации: системы управления базами данных. ABF. - 1995.

52. ИС-Букварь http://www.stormsystems.ru/downloads/partO 1 .рёГ

53. Система Следопыт компании 1У^1а1лпиа: http://www.medialingua.ru/products.asp7root id=8641&sub id=8674

54. Лингвистическое обеспечение информационно-поисковой системы КеЫеуа^аге. www.citfomm.ru57. www.retrievalware.com

55. Слюсарь В.В. Информационная поддержка стратегического аспекта инновационного развития предприятия. Материалы V Всероссийской международной конференции "Антикризисное управление в России в современных условиях", М.: МГТУ им. Баумана, 2003.

56. Гагарина Л.Г., Слюсарь В.В. Электронный офис: внедрение автоматизированных информационных систем в государственных учреждениях. Журнал "Служба кадров и персонал" №10, 2004

57. Слюсарь В.В. Внедрение автоматизированных информационных систем в государственных учреждениях. Тезисы докладов 11-й Всероссийской межвузовской научно-технической конференции студентов и аспирантов "Микроэлектроника и информатика-2004" М.: МИЭТ, 2004

58. Гагарина Л.Г., Слюсарь В.В. Методы и способы оценки эффективности работы систем поиска электронных документов. Оборонный комплекснаучно-техническому прогрессу России: Межотр. научно-тех. Журнал/ВИМИ. М., 2005.

59. Слюсарь В.В. Концептуальная модель оценки эффективности работы информационно-поисковой системы//тезисы докладов XIII Всероссийской межвузовской научно-технической конференции студентов и аспирантов "Микроэлектроника и информатика-2006" М., МИЭТ, 2006.

60. Анфилатов B.C. Системный анализ в управлении. М.: Финансы и статистика, 2003.

61. Белушкин С.Д., Поляков A.A., Старых В.А. Основные принципы создания интегрированной автоматизированной информационной системы сферы образования. Сборник статей «Индустрия образования. Выпуск 1», М.-2001.

62. Антопольский А. Б., Вайсберг А. М., Зарувинская JI. А. Принципы создания и функционирования автоматизированной системы ведения информационных языков. Научно-техническая информация. Сер. 2,. № 6. М., ВИНИТИ, 1976,

63. Абросов В. И., Хрусталев Е. Ю. Классификация критериев смыслового соответствия. Научно-техническая информация. Сер. 2, № 4. М., ВИНИТИ, 1979.

64. Бакулов А. Д., Федосимов В. И. Морфемный анализ словарных форм. Научно-техническая информация. Сер. 2, № 4. М ВИНИТИ, 1979.71. http://info.territory.ru/univer/info.htm

65. Рабочая программа Бийского технологического института http://do.bti.secna.ru/lib/bookit/it.html

66. Учебник "Информатика" под редакцией Н.В .Макаровой. -М.:Издательство "Финансы и статистика" 3-е издание-1999

67. Когаловский М.Р. Перспективные технологии информационных систем. М.,ДМК Пресс, 2003.

68. Волох Д.А. Резервное копирование базы данных и последующее восстановление. http://zeus.sai.msu.ru:7000/database/interbase/backup/, 2005.

69. Восстановление RAID, http://datarc.narod.ru/

70. Восстановление резервных копий и полное восстановление баз данных SQL 2000http://doc.mpv.ru/Win2kserver/articlel 0-3.htm

71. Когаловский М.Р. Энциклопедия баз данных. М.¡Издательство "Финансы и статистика" 3-е издание-2002. 800с.

72. Мошков М.Ю. Деревья решений. Теория и приложения. Нижний Новогород: изд-во Нижегородского университета, 1994.

73. Ермаков А.Е., Плешко В.В. Ассоциативная модель смысла текста в прикладных задачах компьютерного анализа полнотекстовых документов www.olap.ru/basic/assoc.asp.

74. Романов А.Н., Одинцов Б.Е. Советующие информационные системы в экономике. М., ЮНИТИ, 2000.

75. Дик В.В. Автоматизация экономического анализа основных фондов. М., МЭСИ, 1991

76. Чуев Ю.В., Михайлов Ю.Б., Кузьмин В.И. Прогнозирование количественных характеристик процессов. М., Сов. Радио, 1975.

77. Александров В.В., Алексеев А.И., Горский Н.Д. Анализ данных на ЭВМ (на примере системы СИТО). М., Финансы и статистика, 1990.

78. Трахтенгерц э.А. Компьютерная поддержка принятия решения. М., СИНТЕГ, 1998.

79. Попов Э.В. Общение с ЭВМ на естественном языке. М., Наука, 1983.

80. Карминский A.M., Черников Б.В. Информационные системы в экономике. М., Финансы и статистика, 2006.

81. Макконел Дж. Основы современных алгоритмов. М., Техносфера, 2004.

82. Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ: пер. с англ. М.,МЦНМО, 2002.

83. Блохин Ю. И. Классификация и кодирование технико-экономической информации. М.: Экономика, 1976.

84. Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ: пер. с англ. М.,МЦНМО, 2002.

85. Попов И.И. Автоматизированные информационные системы (по областям применения). Уч. пос./ Под общ. Редакцией К.И. Курбакова . -М.: изд-во Роюэкон. Акад., 1998.

86. Альянах И.Н. Моделирование вычислительных систем. Д.: Машиностроение, 1988.

87. Кузьмичев Д.А., Радкевич И.Л., Смирнов М.А. Автоматизация экспериментальных исследований. М., Наука, 1983.

88. Ермаков С.М., Михайлов Г.А. Статистическое моделирование. М.,Наука, 1982.

89. Советов Б.Я. Яковлев. Моделирование систем: Учебник для вуов. М., Высш. шк., 1985.

90. Алмазов И. А., Блохин Ю. И. Общесоюзный классификатор продукции и стандартизация.—Стандарты и качество, 1972, № 1, с. 62—65.

91. ЮЗ.Вендров A.M. Проектирование программного обеспечения экономических информационных систем. М., Финансы и статистика, 2003.г

92. Румянцева Е.Л., Слюсарь В.В. Информационные технологии. Учебное пособие. М., ФОРУМ, 2006.

93. Ю5.Максимей И.В. Имитационное моделирование на ЭВМ. М., Радио и Связь, 1988.

94. Емельянов A.A., Власова Е.А., Дума Р.В. Имитационное моделирование экономических процессов: Учеб. пособие / Под ред. A.A. Емельянова. -М.: Финансы и статистика, 2004.

95. Ю7.Клейнен Дж. Статистические меоды в имитационном моделировании. М., Статистика, 1978.

96. Клейнрок JI. Теория массового обслуживания. М., Машиностроение, 1979.

97. Калашников В.В., Лутков В.И. Вопросы разработки имитационных систем. Электронная техника. Сер. Экономика и системы управления, Вып.1, 1983.

98. Д. Шмидт, С. Хьюстон. Профессиональный подход к проблеме сложности: АСЕ и паттерны. М., 2003.

99. Базенов В.И., Стрельченко A.M. Основы планирования и моделирования в теории инженерного эксперимента. М., МАИ, 1983.

100. Головкин Б.А. Расчет характеристик и планирование параллельных вычислительных процессов. М., Радио и связь, 1983.

101. Имитационное моделирование производственных систем. Под ред A.A. Вавилова. М., Машиностроение, 1983.

102. М.Киндлер Е. Языки моделирования. М., Энергоатомиздат, 1985.

103. Климов Г.П. Математические модели систем с разделением времени. Кишинев, Штинница, 1983.

104. Пранявичюс Г. Модели и методы исследования вычислительных систем. Вильнюс, Мокслас, 1982.

105. Основы теории вычислительных систем. Под ред. С.А. Майорова. М., Высшая школа, 1978.

106. Феррари Д. Оценка производительности вычислительных систем. М., Мир, 1981.

107. Шеннон Р. Имитационное моделирование систем искусство и наука. М., Мир, 1978.