автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет

кандидата технических наук
Рощин, Сергей Михайлович
город
Брянск
год
2005
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет»

Автореферат диссертации по теме "Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет"

На правах рукописи

Рощин Сергей Михайлович

АВТОМАТИЗАЦИЯ МОНИТОРИНГА И СИСТЕМНОГО АНАЛИЗА РАСПРЕДЕЛЕННОЙ ПРОБЛЕМНО-ОРИЕНТИРОВАННОЙ ИНФОРМАЦИИ

В СРЕДЕ ИНТЕРНЕТ

Специальность 05.13.01 - Системный анализ, управление и обработка информации

(по техническим наукам)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Брянск 2005

Работа выполнена на кафедре «Компьютерные технологии и системы» Брянского государственного технического университета

Научный руководитель: заслуженный деятель науки РФ, д.т.н, профессор

В.И. Аверченков

Официальные оппоненты: д.т.н, профессор А.В. Андрейчиков

к.т.н., доцент Б.И. Квитко

Ведущая организация: Орловский государственный

технический университет

Защита состоится 21 июня 2005 года в 15 часов на заседании диссертационного совета К212.021.01 при Брянском государственном техническом университете по адресу: 241035, Брянск, бульвар 50-летия Октября, д. 7.

С диссертацией можно ознакомиться в библиотеке Брянского государственного технического университета.

Автореферат разослан «20 у> мая 2005 года.

Ученый секретарь диссертационного совета

к.т.н., доцент В.А. Шкаберин

Ж MS?

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы диссертации.

В настоящее время в России принимаются законы, регулирующие действия с информацией. Правительство РФ придает огромное значение научно-техническому прогрессу. Первостепенной задачей становится, прежде всего, его дальнейшее ускорение, направленное на повышение эффективности производства и достижение высокой производительности труда.

Вследствие этого во многих сферах деятельности (промышленности, образовании, и др.) начался процесс освоения новых информационных технологий, в которых компьютерные средства используются не столько для вычислений, сколько для хранения информации и обеспечения доступа к ней. Организации создают информационные системы, переводят информационные ресурсы в электронную форму и устанавливают связи в массиве информации. Электронные информационные ресурсы ежегодно создаются, приобретаются и накапливаются, образуя большие объемы неструктурированной информации. Использование электронной информации требует решения проблемы поиска нужных пользователю сведений в большом объеме неструктурированной информации, хранящейся в компьютерах и компьютерных сетях.

Одной из главных особенностей развития информационно-телекоммуникационных технологий в промышленности, образовании и др. сферах деятельности в последние годы явилось широкое использование информационных ресурсов, доступных через сеть Интернет.

Наиболее распространенной и популярной службой в Интернете является WWW (World Wide Web). Информация в WWW представлена в виде гипертекста. Работа в WWW происходит посредством навигации. Однако поиск информации посредством навигации нельзя признать эффективным.

Другой значимой и популярной службой Интернета является FTP. Использование информации из FTP-ресурсов затруднено ввиду следующих причин. Принятая классификация файлов в каталоге может быть непонятна пользователю, не соответствовать тематике исследуемой предметной области или документы могут быть недостаточно структурированными.

Важной особенностью сети Интернет является то, что информация в ней постоянно изменяется. Предпринимаемые попытки улучшить данную ситуацию (разработка средств поиска, семантической Web, сети знаний и др.) не решают данную проблему, а лишь автоматизируют отдельные ее части.

Таким образом, быстрое развитие глобальной компьютерной сети Интернет обострило проблему поиска содержащейся в ней информации. Из-за изменения информации, доступной через сеть Интернет, навигационные методы поиска быстро достигают предела своих функциональных возможностей и эффективности применения. Основа Сети - протоколы, используемые для передачи информации, - не обеспечена достаточными встроенными функциями поиска. В сложившихся условиях потребность в использовании новых средств поиска информации в глобальной компьютерной,КЦи Ни пшют становится особенно

«*■»—■ i^SSSFi

» О»

' ■ ш

ШНФТЕКА 1

Приведенные особенности глобальной компьютерной сети Интернет ведут к необходимости проведения исследования процессов мониторинга и системного анализа распределенной проблемно-ориентированной информации в компьютерных сетях, а также создания программных продуктов, обеспечивающих точный и оперативный доступ к слабоструктурированной или неструктурированной информации.

Целью диссертационной работы является автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в сети Интернет на основе разработки новых подходов к построению методов информационного поиска, формирования и управления знаниями.

Для достижения указанной цели в работе решались следующие задачи:

1. Построение структуры модели предметной области для автоматизации мониторинга и системного анализа информации.

2. Разработка метода автоматизации мониторинга проблемно-ориентированной информации в сети Интернет.

3. Разработка метода автоматического индексирования текстовой информации.

4. Структурирование (классификация, кластеризация) информации с использованием семантических сетей для построения на основе этого хранилища данных.

5. Представление информации на запрос пользователя в виде, удобном для восприятия и анализа, на основе технологий когнитивной графики.

6. Разработка программного обеспечения, автоматизирующего процессы управления информацией (сбор информации, ее анализ и хранение, представление информации пользователю на запрос).

Объектом исследования является обработка распределенной проблемно-ориентированной информации. Предмет исследования: автоматизация мониторинга и системного анализа информации в среде Интернет.

Методы исследования. Для достижения поставленной цели использованы теория поиска и классификации информации; теория систем и системного анализа; математическое моделирование; теория графов; математический аппарат и методы теории множеств, в том числе и нечетких; теория и методы построения экспертных оценок. В разработанном программном обеспечении использовались технологии реляционных баз данных, а также методы структурного и объектно-ориентированного подхода для проектирования и реализации программных систем.

Научная новизна работы состоит в следующем:

1. Предложены модель и алгоритм мониторинга распределенной, проблемно-ориентированной информации в сети Интернет, которые основаны на комплексном анализе рассматриваемых информационных ресурсов.

2. Разработаны и применены методы системного анализа (индексирование, классификация и кластеризация) для обработки проблемно-ориентированной информации в среде Интернет.

3. Предложены модель и алгоритмы автоматизации системного анализа проблемно-ориентированной информации.

г' *

ц, - -

4. Введены инвариантные понятия и структура системы формирования знаний, показаны пути их использования в различных предметных областях.

Практическая полезность работы

1. Создан программный комплекс для автоматизации мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет, позволяющий реализовать доступ к большим неструктурированным массивам информации, обеспечивая пользователю удобные средства анализа информации всего информационного массива.

2. Разработанное программное обеспечение было проверено при решении задач на машиностроительном предприятии и в медицинских учреждениях, о чем имеются соответствующие акты внедрения. Его применение при поиске н анализе информации Интернета позволило сократить время, затрачиваемое на выполнение этих операций и тем самым ускорить процесс получения информационных ресурсов специалистами и снизить стоимость данной работы.

Публикации. Основные положения диссертационной работы были изложены в двух учебных пособиях. Также докладывались на следующих международных, всероссийских и региональных конференциях и семинарах: международной научно-технической конференции «Машиностроение и техносфера на рубеже XXI века» (Севастополь-2001), всероссийском научно-методическом семинаре «Менеджмент качества подготовки специалистов в техническом вузе» (Брянск-2001), молодежной научно-технической конференции вузов приграничных регионов славянских государств (Брянск-2002), всероссийской научно-методической конференции «Телематика'2004» (Санкт-Петербург-2004) и др.

Всего опубликовано более 30 печатных работ, из них по теме диссертации - 20 работ.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, выводов, списка литературы и 3 приложений. Работа изложена на 172 страницах формата A4 и включает 36 рисунков, 4 таблицы, список литературы из 164 наименований и приложения на 25 страницах. Общий объем работы -197 страниц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проводимой работы, а также необходимость разработки новых подходов и исследования процессов мониторинга и системного анализа распределенной проблемно-ориентированной информации в компьютерных сетях, а также создания программных продуктов обеспечивающих быстрый доступ к слабоструктурированной или неструктурированной информации. Здесь сформулирована цель работы и задачи, которые необходимо решить для достижения поставленной цели, указана научная новизна и приводится краткий обзор структуры работы.

В первой главе анализируются проблемы разработки и применения методов системного анализа обработки распределенной проблемно-ориентированной информации в среде Интернет. На основании работ В.Н. Волковой, A.A. Денисова, О.Г. Тайца, С. Оптнера, Д. Клиланда, H.H. Моисеева,

Ю.И. Черняка, Ф.И. Перегудова и других ученых рассмотрены подходы к выполнению системного анализа информационных ресурсов. Также рассмотрены подходы и пути автоматизации анализа данных (работы: И.Ф. Кодда, Н. Пен-дса, O.K. Дулина, И.А. Киселева, A.B. Заболеева-Зотовой, A.B. Андрейчикова, Т.А. Гавриловой, В.Ф. Хорошевского и др.), мониторинга информации (работы: C.B. Кузнецова, О.Б. Сладковой, С.К. Дулина, Т.Я. Ашихминой, Б.А. Баллода, Э.С. Манелиса и др.), теории информационного поиска (работы: Дж. Солтона, К. Спарк-Джоунз, И.И. Попова, А.Г. Романенко, О.Ф. Самойлюка, В.А. Копы-лова, Ю.И. Шемакина, П.Б. Храмцова и др.)

Анализ результатов научных исследований в области мониторинга и системного анализа информационных ресурсов, а также информации web-серверов компаний-производителей современных средств поиска и систем управления знаниями («Microsoft», «IBM», «Google», «Hndex», «Рамблер Интернет Холдинг» и др.) показал наличие в них средств, позволяющих решать отдельные задачи обработки информации. В связи с этим были сделаны следующие выводы:

1. Ввиду специфики темы работы, ориентированной на обеспечение постоянного мониторинга и системного анализа информации, проанализированы подходы к организации хранения и анализа данных на основе использования технологий хранилищ данных.

2. Методы, используемые для обработки информации Интернета, в том числе для поиска информации, и созданные с их использованием автоматизированные программные системы реализуют лишь часть реально необходимых в организациях функций по управлению информацией. К основным нереализуемым современными подходами и системами функциям относятся:

• описание проблемы в соответствии со структурой предметной области;

• автоматическое расширение накопленных знаний полученных из информации сети Интернет;

• автоматизированный анализ всего перечня результатов в средствах поиска;

• централизованное управление запросами и результатами поиска из различных систем.

На рис. 1 представлен сравнительный анализ основных параметров существующих систем и разработанной в рамках диссертационной работы системы формирования знаний, а также определено место данной информационно-аналитической системы среди этих систем.

Система формирования знаний является для организации связующим звеном между системами информационного поиска Интернета и системами управления знаниями, позволяя накапливать необходимые информационные ресурсы. Проведенный на рис. 1 сравнительный анализ рассматриваемых систем выявил их основные отличительные признаки: использование модели предметной области, возможность кластеризации информации и анализа результата поиска.

И нтернет

Системы информационно!** поиска

Организация

Системы управления

знаниями

Информационно;е пространство

Характеристики систем Системы информационного поиска Системы управления знаниями Система формирования знаний

Описание предметной области нет используется для внутренних ресурсов используется для внешних ресурсов

Мониторинг информации внешний внутренний и внешний внешний проблемно-ориентированный

Индексирование информации да да да

Кластеризация нет нет да

Очищение информации да да да

Согласование информации нет да да

Агрегирование информации нет да да

Анализ результата поиска нет нет да

Хранение информации да да да

Рис. 1. Место системы формирования знаний среди подобных систем и их характеристика

Вторая глава посвящена постановке задачи мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет.

В этой главе приводится обоснование выбора и анализ свойств объекта исследования. Вводится новый тип систем — системы формирования знаний (knowledge forming system), под которыми понимается программное средство, выполняющее специально организованное, систематическое наблюдение за состоянием проблемно-ориентированных данных и получение из них знаний на основе моделей, методов и алгоритмов, опирающихся на комплексный подход и учет взаимосвязей между данными (рис. 2).

Система формирования знаний должна обеспечивать следующие функциональные возможности: 1) описание предметной области;

Рис. 2. Структура системы формирования знаний

2) мониторинг проблемно-ориентированной информации;

3) индексирование информации;

4) предварительная обработка собранной и индексированной информации (очищение, согласование, агрегирование и др.);

5) структурирование (кластеризация, классификация) информации для построения на основе этого хранилища данных;

6) хранение и управление информацией в хранилище данных;

7) понимание запроса, сформулированного пользователем, причем от пользователя не требуется знание способа организации информации в системе;

8) выборка информации, релевантной запросу пользователя, представленной разнотипными документами;

9) представление информации на запрос пользователя в виде удобном для восприятия и анализа.

Рассмотрен принцип работы данного типа систем, которые автоматизируют процесс сбора и анализа информации из сети Интернет, что значительно облегчает работу пользователя. Общая схема работы предлагаемой системы включает два этапа:

1. Периодически с использованием модуля управления системы запускаются на выполнение модули мониторинга и индексирования. Цель работы данных модулей - найти новые и измененные информационные ресурсы в сети Интернет относящиеся к тематике предметной области, на которую ориентирована система, скорректировать хранилище данных системы и базу знаний в соответствии с текущим состоянием информационных ресурсов.

2. Параллельно с модулями мониторинга и индексирования и независимо от них в системе выполняются другие два модуля - модуль аналитики и модуль поиска. Цель этих модулей - отобрать данные, соответствующие запросам пользователей и провести их аналитическую обработку, используя для этого многомерное хранилище данных системы и базу знаний. При этом в ответ на запрос выдаются только те данные, информация о которых уже известна системе к моменту поступления запроса, т.е. эти данные проиндексированы и занесены в хранилище данных.

Следует отметить, что разработанная система универсальна в том смысле, что подходы, используемые в ней, не зависят от конкретной предметной области. Система может быть настроена на работу с информацией из широкого спектра различных предметных областей.

Рассмотренный тип систем, основанный на формировании знаний, позволяет эффективно выполнять мониторинг и системный анализ проблемно-ориентированной информации и таким образом способствует решению многих задач в организации.

Были разработаны общие принципы математического моделирования системы формирования знаний (рис 3.). Математическая модель включает модель предметной области, а также модели процессов мониторинга, индексирования, классификации и кластеризации.

Модель понятия N

Модель связи понятий Ллг

Модель документа £

Модель связи понятий и документов Икс

N. йв. Ят, ЯА)

(Си, Уя, Ыи, вк) ОЪ, Ус, То)

>/>(Рр,Ур,Тр)

МОДЕЛЬ ИНДЕКСИРОВАНИЯ I

Х7ск (С)

МОДЕЛЬ КЛАССИФИКАЦИИ СИ

А«® №,13|0

\7ст(С)_

МОДЕЛЬ КЛАСТЕРИЗАЦИИ СТ

Документы

Ж«))

Информационное сообщение

Проблемно-ориентированная информация

Проблемно-ориентированное информационное сообщение

Поисковые образы документов

° = {Ш<))}

Информационный профиль документа

Классифицированная информация

АЛ«

Релевантность сообщения £, к профилю а

Структурированная информация

Критерий релевантности сообщения ¿„ к профилю а

Рис. 3. Общая структура математической модели задачи

Документы, поступающие на вход в систему, проверяются на соответствие предметной области. Все соответствующие заданной предметной области документы образуют множество проблемно-ориентированных документов, каждый из которых в системе представляется в виде поискового образа. Документы классифицируются в соответствии с построенной моделью. Значительные по объему группы документов разделяются на более мелкие на основе алгоритмов кластеризации.

Сделано описание модели предметной области, на которую ориентирована система. В основе модели, описываемой предметной области, была положена семантическая сеть 5:

где N= {Ni, N2,..., NK} - множество элементов, отражающих понятия предметной области;

RN = Rn( N„ Nj ) - отношение задающее тип и силу взаимодействия между понятиями.

D = {DI, D2,..., Dl) - множество документов, относящихся к заданной предметной области;

Rnd = Rnd(N, Dj)- отношение сопоставляющее понятиям предметной области документы.

Третья глава посвящена исследованию системных связей и закономерностей функционирования процессов мониторинга и анализа распределенной проблемно-ориентированной информации в среде Интернет.

Мониторинг распределенной проблемно-ориентированной информации в сети Интернет осуществляется в разработанной системе формирования знаний на основе модели предметной области (основной частью которой является классифицирующая структура), которая формируется экспертом и выполняется путем взаимодействия системы с существующими в Сети системами информационного поиска (информационно-поисковые системы, каталоги, метапоиско-вые системы), а также самостоятельного исследования всего информационного пространства.

Для формализованного описания процесса мониторинга путем навигации в данных службах используется аппарат теории графов.

Служба WWW представлена в виде ориентированного графа W, состоящего из множества вершин (документов) D - {£)/( D2, ..., DM) и множества дуг (гиперссылок) LINKS'.

Служба FTP представима в виде леса N, состоящего из множества деревьев

S = <N,Rn,D,RND>,

(1)

w = {d, links) .

(2)

w|/=l.....l):

N={N, I i=\,...,L).

(3?

Каждое из деревьев представляет отдельный FTP-pecypc. Узлами FTP-ресурса являются папки F = {F/, F2, ..., FK) и файлы (документы) D={DhD2,...,DM).

Приведенные в работе методы, основанные на формализованных описаниях основных служб Интернета, потенциально позволяют достичь максимальной полноты охвата информационных ресурсов в сети Интернет соответствующих определенной предметной области. Однако на практике в WWW часто бывает сложно выявить замкнутые информационные массивы и найти в них начальные страницы, такие, что предоставляют возможность обойти все документы отдельного массива. В качестве таких начальных страниц могут выступать главные страницы крупных информационных ресурсов (в основном глобальных, региональных, локальных и специализированных каталогов). Универсального алгоритма поиска начальных страниц нет ввиду специфики организации Интернета. Источниками адресов этих страниц могут являться периодическая печать, СМИ, пользователи Интернета и др.

В данной главе подробно рассматривается метод мониторинга информационных ресурсов в системе формирования знаний - доступ к ним через существующие системы информационного поиска Интернета.

После осуществления доступа к информационному ресурсу с использованием любого из изложенных подходов модуль мониторинга выполняет проверку на предмет отсутствия сведений о нем в системе и, если данная проверка успешна, то выполняется еще одна проверка ресурса на предмет его соответствия заданной предметной области (наличие в нем ключевых слов запроса или их синонимов). Обе проверки могут быть выполнены модулем мониторинга автоматически, т.е. без привлечения человека. Если вторая проверка пройдена успешно - документ передается модулю индексирования для последующей обработки.

Обобщенно алгоритм работы модуля мониторинга может быть представлен схемой (рис. 4).

Процесс занесения документа Интернета в систему и формирование сведений о нем осуществляется алгоритмом изображенным на рис. 5

Самый главный этап процесса индексирования - вычисление веса слова. На значение веса слова влияют следующие факторы:

• частота употребления слова в документе,

• место употребления слова;

• наличие у слова синонимов в тексте документа. Значение веса слова в документе определяется по формуле:

а»)=£*/+¿2*/,

,=1 j=1 ,=1

где Dm - текстовый документ (т = 1, ..., М\ М- количество текстовых документов);

Рис. 4. Алгоритм работы модуля мониторинга

/ - слово документа £>„;

и, - количество вхождений слова ? в документ £>„;

I - количество синонимов слова г используемых в документе От;

иI — количество вхождений синонима / слова г в документ

А/ (Л/) - переменная определяющая значимость слова / (/), находящегося в документе £>т на позиции г;

1У(1,От)~ вес слова г в документе Д,.

После завершения выполнения процессов индексирования и классификации может сложиться ситуация, при которой к одному объекту (термину) сети будет сопоставлена большая группа документов, анализ пользователем которой затруднен. В этом случае необходимо выполнить разделение данного объекта на более мелкие разделы, поддающиеся анализу.

Для решения описанной ситуации в системе имеется процесс автоматической кластеризации документов (рис. 6). Сделанное разбиение объектов с использованием данного модуля на части - подразделы в дальнейшем может быть скорректировано инженером по знаниям на основе данных полученных от эксперта.

Поиск и представление найденной, индексированной, классифицированной и кластеризованной информации пользователю выполняется по алгоритму рис. 7.

Рис. 5. Алгоритм индексирования

Ключевым этапом процесса поиска является вычисление меры релевантности документа запросу.

Эта мера показывает, на сколько слова входящие в запрос соответствуют содержимому документа. Она позволяет выявить какой из двух документов соответствует запросу больше. Значение меры сходства определяется по формуле:

C(Q,Dm) =

Z И

/=1

(

где Q - сделанный системе запрос; пч - количество слов в запросе Q; q, - г-ое слово запроса (q, е Q; / = 1,... пя);

- поисковый образ текстового документа, соответствующего запросу

Q (тг = 1, ..., Мг\ Мг - количество релевантных запросу текстовых документов в безе документов);

Рис. 6. Алгоритм кластеризации информации

к4' - коэффициент значимости слова ц, запроса (). Значения этого коэффициента задаются пользователем при вводе запроса. Если коэффициент не задан, то он принимается равным 1;

) - вес слова <7, в документе . Значение веса слова в документе вычисляются по формуле (4) в процессе индексирования документа (см. выше);

С({2, Е>тг) ~ меРа сходства запроса () и документа £>от^.

Блок когнитивного представления базы знаний системы позволяет пользователю представить результат поиска в форме графического изображения. На основе правил данного блока семантическая сеть представляется в виде дерева, различным типам узлов которого сопоставлены информационные пиктограммы и названия. При выборе узла сети, в зависимости от его типа может быть выполнено одно из следующих действий:

• если выбран узел-документ, то автоматически отображается перечень соответствующих ему ключевых слов, а также перечень соответствующих документов с целым рядом наборов атрибутов. При выборе документа он загружается в окно просмотра. Все атрибуты документа можно посмотреть в отдельном- графическом окне и в случае необходимости внести соответствующие изменения;

Рис. 7. Алгоритм поиска и классификации информации

• если выбран узел-документ-папка, то дополнительно к выше описанным действиям может быть выбран просмотр подузлов данного узла с теми же функциональными возможностями;

• узлы-ссылки позволяют выполнить автоматический переход в другие участки семантической сети, которые логически сходны с данным участком;

• узлы-паки служат только для логического объединения узлов-документов, узлов-документов-папок и узлов-ссылок.

Информация о документах Интернета в системе формирования знаний хранится в хранилище данных. Структурно разработанное хранилище данных по предметной области можно представить в виде куба с измерениями: охват, время и потребность.

В четвертой главе освещаются вопросы разработки программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации в среде Интернет.

Требования к программному комплексу формируются с учетом разработанных математических моделей и общих принципов построения распределенных информационных систем.

Приводятся архитектура и функциональная схема программного комплекса (ПК ЛОЦМАН) (рис. 8), реализующего программную поддержку математических моделей и семантического моделирования. В разработанном программном комплексе предусмотрен доступ к хранилищу данных и базе знаний, а также интерфейс системы с пользователем.

Рис. 8. Функциональная схема программного комплекса Лоцман

При создании системы использовалась среда программирования Borland Delphi 7. В главе рассмотрены вопросы организации хранилища данных с использованием языка XML.

Излагается пользовательский интерфейс системы формирования знаний и схема поиска информации с использованием данной системы пользователем. В завершении главы приводится функциональная схема аппаратных средств, необходимых для функционирования разработанной системы. Анализируются возможные направления развития и пути применения программного комплекса.

В пятой главе освещаются вопросы, связанные с применением программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации в среде Интернет. Рассматривается практическое применение разработанной системы при инновационной

деятельности на предприятии, в образовательном процессе и медицине, а также при проведении мониторинга общественного мнения.

Описано применение разработанной системы формирования знаний при инновационной деятельности на предприятии. Управление инновационной деятельности на предприятии включает несколько взаимосвязанных блоков от маркетинга до производства новых изделий. На каждом из этапов требуется своя специфическая информация из сети Интернет. Система была апробирована при сборе информации о конкурентах предприятия. Разработанная система на основе построенной модели предметной области умеет самостоятельно выявлять новые предприятия на рынке, заносить их в различные классы сформированной модели и предоставлять полученную информацию специалистам в виде удобном для просмотра.

Система формирования знаний экономически эффективна. Заложенные в ней методы, позволяют в значительной степени автоматизировать процесс индексирования и поиска документов. Разработанная система универсальна в том смысле, что подходы, используемые в ней, не зависят от конкретной предметной области. Система может быть настроена на работу с информацией из широкого спектра различных предметных областей. Система была апробирована не только в промышленности, но и в медицине. Предложенный в данной работе подход позволяет реализовать эффективный доступ к проблемно-ориентированной информации из больших распределенных неструктурированных массивов информации, в том числе и из сети Интернет.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ При решении задач, направленных на достижение цели диссертационного исследования, были достигнуты следующие основные научные результаты:

1. Проведен анализ существующих средств информационного поиска, систем управления знаниями, а также технологий и подходов к организации хранилищ данных. Методы, используемые для обработки информации Интернета, реализуют лишь часть реально необходимых в организациях функций по управлению информацией.

2. Разработан новый тип систем - системы формирования знаний представляющий собой комплекс, автоматизирующий мониторинг и системный анализ распределенной проблемно-ориентированной информации с целью формирования хранилищ данных. Данный тип систем направлен на повышение эффективности работы пользователей с информацией.

3. Предложена модель организации и структура хранилища данных в виде куба с измерениями: охват, время, потребность, что позволяет оптимальным образом структурировать данные по предметным областям.

4. Создан подход представления найденной информации конечному пользователю в удобном для восприятия и анализа виде на основе технологий семантических сетей и когнитивной графики, что значительно позволяет упорядочить информацию и ускорить процесс ее анализа.

5. Спроектирована функциональная схема программного комплекса, отображающая процесс взаимодействия компонентов системы, а также ряд алго-

ритмов, реализующих теорию, приведенную в рамках диссертационного исследования.

Разработан программный комплекс, реализующий автоматизацию мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет. Данный комплекс эффективно управляет неструктурированной информацией.

Более высокая скорость доступа к информационным ресурсам Сети с меньшими затратами при использовании разработанной системы позволяет повысить эффективность работы пользователей и сократить затраты на передачу данных за счет хранения информационных ресурсов Интернета на локальном компьютере.

Система созданная в рамках диссертационной работы инвариантна относительно предметных областей. Она использует единый механизм обработки и управления потоком информации для различных отраслей знания. Система была апробирована в промышленности и медицине.

Основные положения диссертации опубликованы в следующих работах:

1. Аверченков В.И., Мирошников В.В., Рощин С.М. Автоматизация анализа распределенной информации в среде Интернет // Материалы междунар. конф. по телекоммуникациям «IEEE/ICC 2001» 13-15 июня 2001 г., - СПб.: СПбГЭТУ « ЛЭТИ», 2001. - С. 416-420.

2. Аверченков В.И., Мирошников В.В., Рощин С.М. Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет // Машиностроение и техносфера на рубеже XXI века / Сборник трудов Международной научно-технической конференции в г. Севастополе 10-16 сентября 2001 г. В 3-х томах. - Донецк: ДонГТУ, 2001. Т.1.-С. 15-20.

3. Аверченков В.И., Мирошников В.В., Рощин С.М. Автоматизация мониторинга и анализа информации в среде образования II Менеджмент качества подготовки специалистов в техническом вузе: Матер. Всероссийск. науч,-метод. семин., 17-18 апреля 2001 г., г. Брянск / Под ред. В.И. Попкова. -Брянск: БГТУ, 2001. - с. 83-87.

Аверченков В.И., Мирошников В.В., Рощин С.М. Индексирование и поиск мультимедийных документов в Интернете // Научный сервис в сети Интернет: Труды Всероссийской научной конференции (24-29 сентября 2001г., г. Новороссийск). - М.: МГУ, 2001. - С. 124-126.

5. Аверченков В.И., Мирошников В.В., Рощин С.М. Интернет-технологии как инструментальная основа интеграции образования, науки и производства // Интеграция образования, науки и производства: Матер. V междунар. научн.-метод. конф. (26-29 2001 г.) / Под. ред. О.Ф. Гордеева. - Луцк: ЛДТУ, 2001. -С. 38-40.

6. Аверченков В.И., Мирошников В.В., Рощин С.М. Информационный поиск в сети Интернет: Учеб. пособие / Под общ. ред. В.И. Аверченкова. - Брянск: БГТУ, 2001.-204 с.

7. Аверченков В.И., Мирошников В.В., Рощин С.М. Эффективное использование неструктурированной информации в процессе обучения // Новые ин-

20

№13548

формационные технологии в университетском образовании. Тезисы между-нар. науч.-метод. конф., 6-8 июня 2001 г., - Новосибирск, 2001. - С. 205-206.

8. Аверченков В.И., Рощин С.М. Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет // Труды Всероссийской научно-методической конференции «Те-лематика'2004» (7-10 июня 2004г.). - СПб.: Изд-во Регионального образовательного центра, 2004. - С. 220-221.

9. Аверченков В.И., Рощин С.М. Применение технологий информационного поиска в дистанционном обучении // Единое образовательное пространство славянских государств в XXI веке: проблемы и перспективы: Материалы Междунар. науч.-практ. конф. (2-4 апр. 2002 г., г.Брянск) / Под ред. В.И. Аверченкова. - Брянск: БГТУ; СГУ, 2002. - С. 374-378.

10. Аверченков В.И., Рощин С.М. Система формирования знаний // Материалы международной конференции. В 3-х т. Т. 1./ ВолгГТУ. - Волгоград, 2004. -

11. Аверченков В.И., Рощин С.М., Трифанков Ю.Т. Информационный поиск в Интернете: Учеб. пособие / Под общ. ред. В.И. Аверченкова. - Брянск: БГТУ, 2002.-304 с.

12. Рощин С.М. Интернет для учителя-предметника // Брянская учительская газета №42,24.10.2003 г.-С. 12-13.

13.Рощин С.М. Проблемы информационного поиска в глобальной компьютерной сети Интернет и подход к их решению // Молодежная научно-техническая конференция вузов приграничных регионов славянских государств, 23 - 24 окт. 2001 г., г. Брянск: Материалы конф. / Под ред. O.A. Гор-ленко! - Брянск: БГТУ, 2002. - С. 43-49.

14. Рощин С.М. Системный подход к исследованию методов индексирования информации / Практика системного анализа. - Кострома: 2002. - С. 15-20.

15. Утка В.Г., Рощин С.М. Методика поиска информационных ресурсов в сети Интернет // Брянский медицинский вестник № 5(10), ноябрь 2003 г. -С. 85-90.

Подписано в печать О5-О5 0£Формат 60x84 1/16. Бумага офсетная. Офсетная печать. Печ I 1 Уч.-изд. л.. 1 Тираж 100 экз. Заказ 2.98 ■ Бесплатно.

С. 10-15.

Рощин Сергей Михайлович

Автоматизация мониторинга и системного анализа распр< проблемно-ориентированной информации в среде ИнтеКг.о.

Автореферат

241035, г. Брянск, бульвар 50 летия Октября, д. 7, Брянский государственный технический университет. Лаборатория оперативной полиграфии БГТУ, уч Институтская, 16.

Оглавление автор диссертации — кандидата технических наук Рощин, Сергей Михайлович

Введение.

Глава 1. Анализ проблем разработки и применения методов системного анализа обработки распределенной проблемно-ориентированной информации в среде Интернет.

1.1. Роль мониторинга и системного анализа информации.

1.2. Формализованное описание и классификация методов мониторинга и системного анализа информации.

1.3. Анализ подходов к организации хранилищ данных.

1.4. Обзор существующих систем автоматизации мониторинга и системного анализа распределенной информации.

1.5. Выводы по главе. Цель и задачи диссертационной работы.

Глава 2. Постановка и анализ задачи мониторинга и системного ^ анализа распределенной проблемно-ориентированной информации в среде Интернет.

2.1. Обоснование выбора и анализ свойств объекта исследования.

2.2. Система формирования знаний.

2.3. Структура и обобщенный алгоритм работы системы формирования знаний.

2.4. Общие принципы математического моделирования системы формирования знаний.

2.5. Модель предметной области.

2.6. Выводы по главе.

Глава 3. Исследование системных связей и закономерностей функционирования процессов мониторинга и анализа распределенной проблемно-ориентированной информации.

3.1. Мониторинг распределенной проблемно-ориентированной информации в среде Интернет.

3.2. Системный анализ распределенной проблемно-ориентированной информации.

3.3. Построение хранилище данных.

3.4. Выводы по главе.

Глава 4. Разработка программного комплекса автоматизирующего моннторинг и системный анализ распределенной проблемно-ориентированной информации.

4.1. Архитектура программного комплекса.

4.2. Функциональная схема программного комплекса.

4.3. Выбор и обоснование языка программирования.

4.4. Разработка структуры хранилища данных.

4.5. Конструирование пользовательского интерфейса программного комплекса.

4.6. Схема поиска информации пользователем.

4.7. Функциональная схема аппаратных средств.

4.8. Выводы по главе.

Глава 5. Применение программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации в среде Интернет.

5.1. Применение программного комплекса при инновационной деятельности на промышленном предприятии.

5.2. Применение программного комплекса в образовательном процессе.

5.3. Применение программного комплекса в системе здравоохранения.

5.4. Применение программного комплекса при проведении мониторинга общественного мнения.

5.5. Оценка эффективности системы.

5.6. Выводы по главе.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Рощин, Сергей Михайлович

В развитых странах мира за последние десятилетия создана мощная информационная структура и высокими темпами осуществляется формирование единого информационного пространства. В России на современном этапе также успешно решаются эти задачи. Единое информационное пространство способствует тесному международному сотрудничеству и ведет к экономическому росту.

В настоящее время в России принимаются законы, регулирующие действия с информацией. Правительство РФ придает огромное значение научно-техническому прогрессу. Первостепенной задачей становится, прежде всего, его дальнейшее ускорение, направленное на повышение эффективности производства и достижение высокой производительности труда.

Вследствие этого во многих сферах деятельности (промышленности, медицине, образовании и др.) начался процесс освоения новых информационных технологий (технологии Интернет/интранет, OLAP, Data mining и др.), в которых компьютерные средства используются не столько для вычислений, сколько для систематизации информации, ее хранения и обеспечения доступа к ней. При этом помимо традиционно представляемой в компьютерах символьной информации (числовой и текстовой) все шире используются другие ф ормы представления информации (media): графики и чертежи, карты, рисунки и снимки, видеофильмы, звуковая информация и т.п.

Организации создают информационные системы, переводят информационные ресурсы в электронную форму и устанавливают связи в массиве информации. Электронные информационные ресурсы ежегодно создаются, приобретаются и накапливаются, образуя большие объемы неструктурированной информации.

Созданные информационные системы должны обеспечивать пользователям следующие возможности:

Обмен видеоинформацией. Роль базового элемента в обмене играет сеть Интернет.

Повышение интеллекта аппаратно-программных средств. Сайты Интернет - своего рода интеллект существующих телекоммуникационных сетей.

Предоставление услуг с учетом индивидуальных требований абонентов. Эксплуатируемые сети связи можно рассматривать как один из важнейших аспектов поддержки персональных требований потенциальных абонентов [121].

Использование электронной информации требует решения проблемы поиска нужных пользователю сведений в большом объеме неструктурированной информации, хранящейся в компьютерах и компьютерных сетях.

Одной из главных особенностей развития образования, промышленности, медицины и др. сфер деятельности в последние годы является использование информационных ресурсов доступных через сеть Интернет.

Интернет - это глобальная компьютерная сеть, которая объединяет тысячи региональных сетей. Она охватывает все страны мира и все области знаний общества. Объем Сети - около 600 миллиардов документов [54]. Использование сети Интернет в образовании, промышленности и др. сферах ведет к сокращению издержек на обработку информации, повышению качества предоставляемых услуг, ускорению обмена, накопления, распространения и использования информации.

Интернет в значительной степени изменил способы создания, публикации, поиска и хранения информации. Пользователь, работающий в сети Интернет, имеет широкие возможности для получения разнообразной экономической, социальной, технологической, технической, научной, а также текущей информации. Интернет предоставляет доступ к сотням тысяч электронных каталогов, баз данных, архивов технической и программной документации, библиотек программ, научно-технических справочников, электронных газет и журналов, бюллетеней новостей и многих других информационных материалов, которые можно получить из Сети непосредственно на рабочее место пользователя. При этом пользователь компьютерной Сети, отыскивающий нужные ему данные, легко сканирует информационное пространство, вне зависимости от территориального размещения информации. Практически мгновенно и единообразно он может получить как данные с сервера, соседнего отдела организации, в которой он работает, так и данные с сервера, расположенного на противоположной стороне земного шара. Благодаря возможностям оперативного взаимодействия технологии Интернета быстро проникают во все сферы человеческой деятельности, становясь стандартом делового взаимодействия.

Наиболее распространенной и популярной службой в Интернете является WWW (World Wide Web). Она использует Интернет для передачи разнообразных по тематике гипермедиа-документов (Web-страниц, т.е. документов, содержащих не только текстовую, но графическую и музыкальную информацию) от сервера, на котором эти документы находятся, к компьютеру пользователя. Информация в WWW представляется в виде документов, организованных адекватно ассоциативному мышлению - каждый из документов WWW может содержать как внутренние перекрестные ссылки, так и ссылки на другие документы, хранящиеся на том же самом или на любом другом сервере Сети. Такие ссылки называют гиперссылками, а текст, который включает ссылки - гипертекстом.

Работа в WWW происходит посредством навигации: просмотрев один из документов, пользователь активизирует какую-либо из его ссылок и тем самым вызывает для просмотра другой документ, связанный с данным.

Однако поиск информации посредством навигации нельзя признать эффективным. При наличии большого количества ссылок пользователь теряет ориентацию в гипертексте. Изначально выбрав неверный путь, можно не найти ни одного релевантного документа. Даже если такой документ найден, пользователь может на этом остановиться и тем самым получить неполную информацию. Необходимость просмотра большого количества информации в поисках релевантной ведет к информационным перегрузкам, которые сказываются в усталости, потере внимания, поверхностном понимании информации [20].

Сейчас предпринимаются попытки исправить описанную ситуацию в WWW. Разработаны рекомендации [164] по созданию семантической Web, под которой понимается структура, наполненная информацией о смысловом содержании, понятной автоматизированным системам. Р азрабатывается Сеть знаний (Knowledge Web) с ориентацией на нужды информационных технологий в промышленности, науке и образовании.

Подобные нововведения значительно упрощают процессы обработки информации в Сети и особенно процессы поиска, тем не менее, имеющиеся сейчас в Интернете информационные ресурсы и большинство вновь создаваемых, а также программное обеспечение, осуществляющее доступ к ним, данные подходы не поддерживают.

Другой значимой и популярной службой Интернета является FTP (File Transfer Protocol). Она представляет собой обычную иерархию тематических каталогов в которых, как правило, хранятся файлы с программным обеспечением, мелодиями, документацией, текстами книг и т.п. Перемещение по FTP-ресурсам осуществляется сменой текущего каталога и просмотром содержащихся в нем файлов и подкаталогов.

Использование информации из FTP-ресурсов затруднено ввиду следующих причин. Принятая классификация файлов в каталоге может быть непонятна пользователю, не соответствовать тематике исследуемой предметной области или документы могут быть неструктурированны. FTP-ресурсы не предоставляют возможности просматривать всю иерархию. Особенности файловых систем накладывают ограничения на имена присваиваемые файлам и каталогам, что приводит к использованию в них сокращений, аббревиатур и условных обозначений понятных только узкому кругу лиц.

Еще одной важной особенностью Интернета является, то, что она постоянно изменяется. Организации публикуют в Сети новые, удаляют устаревшие и изменяют существующие документы. Ежедневные операции по ведению и корректировке документов в Интернете проводятся в весьма больших масштабах. Указанная особенность делает невозможным проведение обработки информации Сети без использования специальных автоматизирующих этот процесс средств.

Таким образом, быстрое развитие глобальной компьютерной сети Интернет обострило проблему поиска содержащейся в ней информации. Из-за изменения информации, доступной через сеть Интернет, навигационные методы поиска быстро достигают предела своих функциональных возможностей и предела эффективности применения. Протокол HTTP, используемый в WWW, позволяет лишь проводить навигацию, которая дает возможность только просматривать страницы, но не искать их. Аналогичная ситуация обстоит и с другим основным протоколом Интернета - FTP, который предназначен для передачи файлов. Таким образом, основа Сети - протоколы, используемые для передачи информации, - не обеспечена достаточными встроенными функциями поиска. В сложившихся условиях потребность в использовании средств поиска информации при поиске документов в глобальной компьютерной сети Интернет становится особенно актуальной.

Существующие в сети Интернет средства поиска многочисленны и разнообразны как по тематике, так и по охвату информации. Наряду с преимуществами, которые они предоставляют конечным пользователям, в них содержится и ряд существенных недостатков. Ни одна из систем осуществляющих поиск информации не охватывает весь Интернет. В тоже время значительная часть информации в средствах поиска дублируется. При поиске информации на какую-либо определенную тему пользователю не только надо знать и уметь работать со всеми возможными источниками данной информации (средствами поиска, архивами документов и др.) но и затратить значительное количество времени на систематизацию и анализ полученной от них информации, поскольку маловероятно, что в сети Интернет найдется глобальное средство поиска по выбранной теме (особенно для достаточно узких тем), которое способно предоставить всю доступную в Интернете информацию по этой теме. При этом на обработку информации может уйти значительно больше времени, чем на ее поиск. Информация из Сети, сведения о которой найдены в средстве поиска, к тому времени, когда пользователь решил ее просмотреть может быть перемещена в другое место или удалена. При использовании информации из Интернета велика вероятность заражения компьютера вирусом, что может привести к полной потере имеющейся информации.

Приведенные особенности глобальной компьютерной сети Интернет (являющейся предметом исследования данной диссертационной работы) ведут к необходимости проведения исследования процессов мониторинга и системного анализа распределенной проблемно-ориентированной информации в компьютерных сетях, а также создания программных продуктов обеспечивающих точный и легкий доступ к слабоструктурированной или неструктурированной информации.

Цель работы. Целью диссертационной работы является автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в сети Интернет на основе разработки новых подходов к построению методов информационного поиска, формирования и управления знаниями.

Методология и методы исследования. Для достижения поставленной цели использованы теория поиска и классификации ннформацин; теория систем и системного анализа; математическое моделирование; теория графов; математический аппарат и методы теории множеств, в том числе и нечетких; теория и методы построения экспертных оценок. В разработанном программном обеспечении использовались технологии реляционных баз данных, а также методы структурного и объектно-ориентированного подхода для проектирования и реализации программных систем.

Научная новизна работы состоит в следующем:

1. Предложены модель и алгоритм мониторинга распределенной, проблемно-ориентированной информации в сети Интернет, которые основаны на комплексном анализе рассматриваемых информационных ресурсов.

2. Разработаны и применены методы системного анализа (индексирование, классификация и кластеризация) для обработки проблемно-ориентированной информации в среде Интернет.

3. Предложены модель и алгоритмы автоматизации системного анализа проблемно-ориентированной информации.

4. Введены инвариантные понятия и структура системы формирования знаний, показаны пути их использования в различных предметных областях.

Практическую ценность работы составляют:

1. Создан программный комплекс для автоматизации мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет, позволяющий реализовать доступ к большим неструктурированным массивам информации, обеспечивая пользователю удобные средства анализа информации всего информационного массива.

2. Разработанное программное обеспечение было проверено при решении задач на машиностроительном предприятии и в медицинских учреждениях, о чем имеются соответствующие акты внедрения. Его применение при поиске и анализе информации Интернета позволило сократить время, затрачиваемое на выполнение этих операций и тем самым ускорить процесс получения информационных ресурсов специалистами и снизить стоимость данной работы.

Цель и поставленные задачи определили следующую структуру работы:

В первой главе анализируются проблемы разработки и применения методов системного анализа обработки распределенной проблемно-ориентированной информации в среде Интернет. Рассматривается роль мониторинга и системного анализа информации в среде Интернет. Приводятся примеры типовых задач мониторинга, часто возникающие в организациях. Рассматриваются подходы к структурированию информации.

В главе приводится подробное формализованное описание и классификация методов мониторинга и системного анализа информации. Даются определения основных понятий предметной области. Системный анализ рассматривается как совокупность процессов индексирования, классификации и кластеризации. Приводится анализ представления результатов поиска пользователю.

Подходы к организации хранилищ данных, рассматриваемые в этой главе затрагивают вопросы построения хранилищ, доступ к данным из них с использованием технологий OLAP и Data Mining.

В обзоре существующих систем автоматизации мониторинга и системного анализа распределенной информации в среде Интернет рассматриваются службы поиска: каталоги, информационно-поисковые системы и метапоисковые системы, а также системы управления знаниями.

На основании проведенного анализа литературы сделан вывод об актуальности проблемы автоматизации мониторинга и системного анализа распределенной проблемно-ориентированной информации.

Сделан вывод о целесообразности создания и использования систем автоматизирующих мониторинг и системный анализ информационных ресурсов среды Интернет.

Во второй главе рассматриваются вопросы, связанные с постановкой задачи мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет. Приводится обоснование выбора и анализ свойств объекта исследования. Вводится новый тип систем -системы формирования знаний и делается обоснование его необходимости. Дается принцип работы данного типа систем, которые автоматизируют процесс сбора и анализа информации из сети Интернет, что значительно облегчает работу пользователя. Завершается глава описанием модели предметной области, на которую ориентирована система.

Третья глава посвящена исследованию системных связей и закономерностей функционирования процессов мониторинга и анализа распределенной проблемно-ориентированной информации в среде Интернет. Представлены математические модели и алгоритмы работы блоков мониторинга, индексирования, поиска и классификации информации, а также блока кластеризации информационных ресурсов. Рассмотрен подход к представлению результатов поиска с использованием технологий когнитивной графики. Подробно описано хранилище данных.

В четвертой главе рассматриваются вопросы разработки программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации в среде Интернет. Требования к программному комплексу формируются с учетом разработанных математических моделей и общих принципов построения распределенных информационных систем. Приводятся архитектура и функциональная схема программного комплекса. Делается выбор языка программирования. Рассматриваются вопросы организации хранилища данных. Излагается пользовательский интерфейс системы формирования знаний и схема поиска информации с использованием данной системы пользователем. В завершении главы приводится функциональная схема аппаратных средств, необходимых для функционирования разработанной системы. В главе анализируются возможные направления развития и пути применения программного комплекса.

В пятой главе освещаются вопросы, связанные с применением программного комплекса автоматизирующего мониторинг и системный анализ распределенной проблемно-ориентированной информации в среде Интернет. Рассматривается практическое применение разработанной системы при инновационной деятельности на промышленном предприятии, в образовательном процессе, в системе здравоохранения и при проведении мониторинга общественного мнения.

Кроме того, рассматривается оценка экономической эффективности системы формирования знаний при решении отдельных прикладных задач.

Результаты исследований позволили сформулировать следующие положения, выносимые на защиту.

1. Модель и алгоритм мониторинга распределенной, проблемно-ориентированной информации для сети Интернет, основанный на комплексном анализе всех ресурсов Интернета.

2. Метод комплексного исследования информационных ресурсов Интернета.

3. Модель и алгоритмы системного анализа проблемно-ориентированной информации.

4. Понятие и структура системы формирования знаний.

5. Структура хранилища данных системы формирования знаний.

6. Представление информации пользователю в системе формирования знаний с использованием технологий когнитивной графики.

7. Структура программного комплекса для автоматизации мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет.

Заключение диссертация на тему "Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет"

Результаты работы используются при чтении лекций и проведении лабораторных работ по дисциплинам «Информационные технологии», «Интернет-технологии» и «Технология разработки программного обеспечения», «Информационное обеспечение САПР», «Базы данных», «Языки и системы программирования», «Методы и средства защиты информации», «Защита информации в компьютерных сетях», «Информационные технологии в науке, технике и образовании», «Операционные системы» в Брянском государственном техническом университете.

При выполнении работы были получены следующие основные выводы и результаты:

1. Проведен анализ существующих средств информационного поиска, систем управления знаниями, а также технологий и подходов к организации хранилищ данных, который показал, что методы, используемые для обработки информации Интернета, реализуют лишь часть реально необходимых в организациях функций по управлению информацией.

2. Разработан новый тип систем - системы формирования знаний представляющий собой комплекс, автоматизирующий мониторинг и системный анализ распределенной проблемно-ориентированной информации с целью формирования хранилищ данных. Данный тип систем направлен на повышение эффективности работы пользователей с информацией.

3. Предложена модель организации и структура хранилища данных в виде куба с измерениями: охват, время, потребность, что позволяет оптимальным образом структурировать данные по предметным областям.

4. Создан подход представления найденной информации конечному пользователю в удобном для восприятия и анализа виде на основе технологий семантических сетей и когнитивной графики, что значительно позволяет упорядочить информацию и ускорить процесс ее анализа.

5. Спроектирована функциональная схема программного комплекса, отображающая процесс взаимодействия компонентов системы, а также ряд алгоритмов, реализующих теорию, приведенную в рамках диссертационного исследования.

6. Разработан программный комплекс, реализующий автоматизацию мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет. Данный комплекс эффективно управляет неструктурированной информацией.

7. Разработанная система предоставляет пользователям более высокую скорость доступа к информационным ресурсам Сети с меньшими затратами и позволяет повысить эффективность их работы, а также сократить затраты на передачу данных за счет хранения информационных ресурсов Интернета на локальном компьютере.

8. Система созданная в рамках диссертационной работы инвариантна относительно предметных областей. Она использует единый механизм обработки и управления потоком информации для различных отраслей знания. Система была апробирована в промышленности, а также использовалась в здравоохранении.

Результаты выполненных исследований нашли широкое применение в учебном процессе при анализе информационных ресурсов сети Интернет для разработки курсов лекций и учебных пособий.

ЗАКЛЮЧЕНИЕ

В результате проведенных исследований достигнута основная цель работы - разработана система формирования знаний, улучшающая качество мониторинга и системного анализа распределенной проблемно-ориентированной информации в крупных информационных массивах (в том числе и в сети Интернет), и сделана ее реализация в виде программного комплекса.

Созданная система была использована в ходе работ по автоматизации поиска и анализа информации при инновационной деятельности на промышленном предприятии.

Внедрение разработанной аналитической информационной системы в организации показало возможность значительного сокращения временных и материальных затрат, повышения качества выполнения аналитических работ и производительности труда аналитиков, менеджеров высшего звена и директоров организаций, что в результате позволяет существенно поднять конкурентоспособность организации на внутреннем и международном рынках.

Основные научные и практические результаты работы докладывались и обсуждались на Всероссийских, Международных и региональных научно-технических и научно-практических конференциях. По теме работы выпущено два учебных пособия.

Библиография Рощин, Сергей Михайлович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Аверченков В.И., Малахов Ю.А. Основы научного творчества: Учеб. пособие. Брянск: БГТУ, 2000. - 179 с.

2. Аверченков В.И., Мирошников В.В., Рощин С.М. Автоматизация анализа распределенной информации в среде Интернет // Материалы междунар. конф. по телекоммуникациям «1ЕЕЕ/1СС 2001» 13-15 июня 2001 г., СПб.: СПбГЭТУ «ЛЭТИ», 2001. - С. 416-420.

3. Аверченков В.И., Мирошников В.В., Рошин С.М. Автоматизация мониторинга и анализа информации в среде образования // Менеджмент качества подготовки специалистов в техническом вузе: Матер.

4. Всероссийск. науч.-метод, семин., 17-18 апреля 2001 г., г. Брянск / Под ред. В.И. Попкова. Брянск: БГТУ, 2001. - с. 83-87.

5. Аверченков В.И., Мирошников В.В., Рощин С.М. Индексирование и поиск мультимедийных документов в Интернете // Научный сервис в сети Интернет: Труды Всероссийской научной конференции (24-29 сентября 2001г., г. Новороссийск). М.: МГУ, 2001. - С. 124-126.

6. Аверченков В.И., Мирошников В.В., Рощин С.М. Информационный поиск в сети Интернет: Учеб. пособие / Под общ. ред. В.И. Аверченкова. -Брянск: БГТУ, 2001.-204 с.

7. Аверченков В.И., Рощин С.М. Методология обучения информационному поиску в Интернете // Российская школа и Интернет: Вторая Всерос. науч.-практ. конф. 21-23 ноября 2002 г., СПб. С. 84.

8. Аверченков В.И., Рощин С.М. Система формирования знаний // Материалы международной конференции. В 3-х т. Т.1./ ВолгГТУ. -Волгоград, 2004.-С. 10-15.

9. Аверченков В.И., Рощин С.М., Трифанков Ю.Т. Информационный поиск в Интернете: Учеб. пособие / Под общ. ред. В.И. Аверченкова. Брянск: БГТУ, 2002.-304 с.

10. Авраменко B.C. и др. Математическое обеспечение диалоговых информационных систем. М.: Наука, Гл. ред. физ.-мат. лит., 1990. 192 с.

11. Андрейчиков А.В., Андрейчикова О.Н. Анализ, синтез, планирование решений в экономике. М.: Финансы и статистика, 2000. - 368 с.

12. Андрейчиков А.В., Андрейчикова О.И. Компьютерная поддержка изобретательства. М.: Машиностроение, 1998. - 476 с.

13. Андриенко Г.Л., Андриенко Н.В. Построение информационно-аналитических multimedia-систем основанных на знаниях // Теория и системы управления, 1995, №5.-С. 160-172.

14. Архангельский А.Я. Программирование в Delphi 6. М.: БИНОМ, 2004. -1120 с.

15. Ахо А., Хопкрофт Дж. и др. Структуры данных и алгоритмы. : Пер. с англ. : М.: Издат. Дом «Вильяме», 2003. 384 с.

16. Базы знаний интеллектуальных систем / Т.А. Гаврилова, В.Ф. Хорошевский СПб.: Питер, 2000. - 384 с.

17. Баллод Б.А., Белов А.А, Цуканов П.А. Информационная система проведения мониторинговых исследований общественного мнения «Monitoring». http://ptsukanov.narod.ru/aticles/vl.htmI. - 2001.

18. Башмаков А.И., Башмаков И.А. Разработка компьютерных учебников и обучающих систем. М.: Информационно-издательский дом «Филинъ», 2003.-616 с.

19. Башмаков А.И., Старых В.А. Систематизация информационных ресурсов для сферы образования: классификация и метаданные. М.: «Европейский центр по качеству», 2003. - 384 с.

20. Бирюков А. Системы принятия решений и хранилища данных // Системы управления базами данных, JVb4, 1997. http.7/wwvv.osp.ru/dbms/ 1997/04/3 7.htm.

21. Большая советская энциклопедия. http://\v\v\v.rubricon.com. 2004.

22. Буров К. Обнаружение знаний в хранилищах данных // Открытые системы, №5-6, 1999. http://www.osp.ru/os/l999/05-06/14.htm.

23. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++. Второе издание. http://wvvw.krasu.ru/server/ docs/buch/.-2005.

24. Веревченко А.П. Информационные ресурсы: определение, основные понятия, параметры, особенности открытого потока информации, помехи возникающие в каналах поступления информации. -http://www.unixcenter.ru/~gr08x07/vap/verin010.htm.

25. Волкова В.Н., Денисов А.А. Основы теории систем и системного анализа: Учебник для студентов вузов, обучающихся по специальности «Системный анализ и управление». Изд. 2-е, перераб. и доп. СПб.: Изд-во СПбГТУ, 2001.512 с.

26. Гасников В.К. Основы научного управления и информатизации: учеб. пособие / Под ред. д.м.н. Савельева В.Н., к.э.н. Мартыненко В.Ф. -Ижевск: «Вектор», 1997. 170 с.

27. Гилстер П. Навигатор INTERNET. Путеводитель для человека с компьютером: М.: Джон Уайли энд Санз, 1995. - 735 с.

28. Глоссарий.ру: словари по естественным наукам, http://www.glossary.ru. -2004.

29. Гнеденко В.Г., Дукарский С.М. и др. Автоматизированная классификация и кодирование объектов в процессах конструирования, проектирования технологии и изготовления изделий машиностроения. -http://magazine.stankin.ru/arch/n01/actd/004.html.

30. Гончаров М.В., Шрайберг Я.Л. Введение в Интернет: В 9 ч. М.: ГПНТБ России, 2000. Ч. 3: Интернет для науки, культуры и образования. - 82 с.

31. Гончаров М.В., Шрайберг Я.Л. Введение в Интернет: В 9 ч. М.: ГПНТБ России, 2001. Ч. 4: Интернет для вузов и университетов. - 56 с.

32. Гончаров М.В., Шрайберг ЯЛ. Введение в Интернет: В 9 ч. М.: ГПНТБ России, 2001. Ч. 9: Интернет для библиотек. - 80 с.

33. ГОСТ 19.701 90 (ИСО 5807-85) ЕСПД Схемы алгоритмов, программ, данных и систем. Условные обозначения и правила выполнения. - М.: Издательство стандартов, 1991.

34. ГОСТ Р ИСО/МЭК ТО 12182-2002 Информационная технология. Классификация программных средств. М.: Издательство стандартов, 2002.

35. Григорьев Ю.А., Ревунков Г.И. Банки данных: Учеб. для вузов. М.: Изд-во МГТУ им. Н.Э. Баумана, 2002. - 320 с.

36. Гринберг И., Гарбер JI. Разработка новых технологий информационного поиска, http://www.osp.ru/os/1999/09-10/028.htm.- 1999.

37. Гулаков В.К., Подвесовский А.Г., Попков В.И. Создание аналитических средств обработки хранилища данных по образованию / Практика системного анализа. Кострома: 2002. - С. 116-121.

38. Джалиашвили З.О., Мартынихин А.В., Вечерская M.JI. Интернет для медицинских работников. Ч. 1. Теоретические основы работы в Интернет. СПб.: СПбГМУ им. акад. И.П. Павлова, 2000. - 40 с.

39. Дубинский А.Г. Характеристики эффективности информационного поиска в сети Интернет // Научный сервис в сети Интернет: Труды всероссийской научной конференции (24-29 сентября 2001 г., г. Новороссийск). -М.: Изд-во МГУ, 2001.-С 145-148.

40. Дукарский С.М. и др. Автоматизированная классификация и кодирование изделий и технологических процессов их производства в машиностроении и приборостроении // Стандарты и качество, №6, 1995. С. 27-31.

41. Дукарский С.М., Рубин Г.Я. Унификация процесса автоматизированной классификации объектов и явлений в различных областях науки, техники и медицины. Часть 1 // Стандарты и качество, 1997, №4. С. 48-53.

42. Дукарский С.М., Рубин Г.Я. Унификация процесса автоматизированной классификации объектов и явлений в различных областях науки, техники и медицины. Часть 2 // Стандарты и качество, 1997, №6. С. 34-39.

43. Дулин С.К., Киселев И.А. Структуризация знаний в системах мониторинга. // Известия академии наук. Теория и системы управления, 1999, №5. С. 28-33.

44. Ежедневная электронная газета «УТРО». http://\vw\v.utro.ru. 2001.

45. Ермаков А.Е. Плешко В.В. Тематическая навигация в полнотекстовых Ф базах данных // Мир ПК, №8, 2001. http://wvvw.osp.ru/pcvvorld/2001/08/052.htm.

46. Заболеева-Зотова А.В. Естественный язык в автоматизированных системах. Семантический анализ текстов: Монография / ВолгГТУ. — Волгоград, 2002. 228 с.

47. Информатизация и экономика здравоохранения регионов России // ^ Материалы ежегодной научно-практической конференции 25-26 мая 2000г.- М.: РИО ЦНИИОИЗ, 2000 г. 256 с.

48. Информатизация процессов управления в региональном здравоохранении: Сборник статей. Ижевск, 2001. - 391 с.

49. Информатика: Учебник 3-е переработанное издание / Под ред. проф. Н.В. Макаровой - М.: Финансы и статистика, 1999 - 768.• 61. Информационная технология интеллектуальной поисковой системы. —http://www.stocona.ru/technology/search/.

50. Информационно-аналитические системы и технологии в здравоохранении и обязательном медицинском страховании // Труды всероссийской конференции. Красноярск: КМИАЦ, 2002. - 375 с.

51. Информационно-поисковые системы Internet. http://citforum.ru/ programming/khramtsov/search.shtmi. Центр информационных технологий.1998.

52. Информационные системы и технологии в здравоохранении // Научные труды Российской научно-практической конференции. 28-29 мая 2003г. М.: РИО ЦНИИОИЗ, 2003 г. 239 с.

53. Искусственный интеллект. В 3-х кн. Кн. 1. Системы общения и экспертные системы: Справочник / Под ред. Э.В. Попова - М.: Радио и связь, 1990.-464 с.

54. Искусственный интеллект. В 3-х кн. Кн. 2. Модели и методы: Справочник / Под ред. Д.А. Поспелова - М.: Радио и связь, 1990. - 304 с.

55. Искусство программирования, том 1. Основные алгоритмы, 3-е изд.: пер. с англ. М.: Издат. Дом «Вильяме», 2000. - 720 с.

56. Как выбрать поисковую машину, http://vwv4v.yandex.ru/info/compare.html. CompTek International. 2004.

57. Карташева Елена. Интеллектуальные поисковые системы Excalibur // Сети, №6, 1997.

58. Клуб знатоков Data Warehouse, OLAP, XML. Стратегии консолидации разрозненных аналитических данных и приложений, основные понятия, постановка проблемы. http://vvvvw.iso.ru/journal/articles/353.html. - 2004.

59. Кнут Д. Искусство программирования, том 3. Сортировка и поиск, 2-е изд.: пер. с англ. М.: Издат. Дом «Вильяме», 2000. - 832 с.

60. Козлов Д.Д. Информационный поиск в Рунет // Научный сервис в сети Интернет: Труды всероссийской научной конференции (24-29 сентября 2001 г., г. Новороссийск). -М.: Изд-во МГУ, 2001.-С 133-135.

61. Козлов Д.Д., Смелянский Р.Л. Использование интеллектуальных агентов для поиска информации в Интернет / Искусственный интеллект (Донецк), 2000, №2, -С. 378-382.

62. Колмановская Е. Япёех: система русского поиска Internet/Intranet. ф http://citforum.rU/internet/iinet97/8.shtml.- 1998.

63. Комплексное решение Хранилище данных предприятия. -http://www.elar.ru/resh/hrdpr.html. 2002.

64. Компьютерные сети. Принципы, технологии, протоколы / В.Г. Олифер, Н.А. Олифер. СПб.: Питер, 2001. - 672 с.

65. Коновалов А. Объектная модель данных для хранилищ данных. -http://synthesis.ipi.ac.ru/sigmod/seminar/s20021031. 2005.

66. Копылов В.А. Построение автоматизированных информационно-поисковых систем. М.: Мир, 1974. - 175 с.

67. Крупник А. Поиск в Интернете: самоучитель (знакомство, работа, 9 развлечение). СПб.: Питер, 2001. - 272 с.

68. Кузнецов С.В. Компьютерная конкурентная разведка // PC Week RE, №42(312), 11.2001. http://www.pcweek.ru/?ID=57258.

69. Кучуганов В.Н. Автоматизированный анализ машиностроительных чертежей. Иркутстк: Изд-во Иркут. ун-та, 1985. - 112 с.

70. Левчик В.А. Поиск людей и организаций в Интернете попытка систематизации, http://citrorum.ru/pp/speople.shtml. - 1999.

71. Майли М. Организация хранилищ данных в сети Web. -http://www.oracle.ru/press/oramag/974/pg7.html.

72. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство. http://www.dialog-21.ru/archivearticle.asp.

73. Мамаев М., Петренко С. Технологии защиты информации в Интернете. Специальный справочник. СПб.: Питер, 2002. - 848 с.

74. Мартич А. Через знания к звездам // Управление компанией, №5, май 2001. - http://management.web-standart.net/articleO$id! 1321 l.htm.

75. Матчин В.Т. От данных к знаниям новые возможности обработки хранилищ данных с использованием современных информационных систем. Проектирование ИС. - http://www.aenet.ru/vip-8/second.html. -2005.

76. Менделсон Э. Интернет как база данных // PC Magazine / Russian Edition, №2,2001.

77. Мирошников В.В., Рощин С.М. СУБД гипертекстового и мультимедийного типа. // Тезисы докладов 55-й научной конференции профессорско-преподавательского состава / Под ред. И.В. Говорова. Брянск: БГТУ, 1999.-с. 176-178.

78. Михайлов А.И., Черный А.И., Гиляревский Р.С. Основы информатики. Второе, переработанное и дополненное издание. М.: Наука, 1968. - 756с.

79. Насыров И.З., Егоров Р.В. АСР в системе комплексной автоматизации межрегионального оператора. http://\v\vw.cti-online.ru/magazine/ 5(18)2002reg.shtml.

80. Некрасов В., Кононова О. Распространенные заблуждения о хранилищах данных. http://vvwvv.iso.ru/cgi-bin/main/public.cgi?id=145. - 2005.

81. Никитин И. Microsoft SharePoint Portal как средство управления знаниями // BYTE, №5, 2002. http://www.specialist.ru/news/Publications/ sppsbyte.asp.

82. Ожегов С.И. Словарь русского языка / Под. ред. чл.-корр. АН СССР Н.Ю.Шведовой. — 20-е изд. стереотип. М.: Рус. яз., 1988. 750с.

83. Особенности и преимущества пакета Microsoft Commercial Internet System 2.0. http://www.wiznet.ru/comp/compaq/comp125.htm.

84. Параметры информации. http://www.rol.ru/files/dict/internet/index.htm.

85. Пауэлл Т. Web-дизайн. 2-е изд., перераб. и доп.: Пер с англ. СПб.: БХВ-Петербург, 2004. - 1072 с.

86. Повышение эффективности работы сотрудников в коллективе. Обзор программного обеспечения Lotus. http://www.ibm.com/ru/softvvare/lotus/ groupware/d258ibmlotus.pdf.

87. Подвесовский А.Г. Автоматизация многокритериального выбора технических решений на основе применения нечетких моделей различных типов. Дис. канд. тех. наук. - Брянск.: БГТУ, 2001.- 229 с.

88. Покровская Т. Топология Интернета. http://history.ricn.ru/ib/topo.htm.

89. Попов А. Поиск в Интернете внутри и снаружи. -http://vvvvvv.citforum.ru/pp/search03.shtml.

90. Попов И.И. Моделирование и оптимизация документальных информационных систем: Учебное пособие. М.: РГГУ, 1996. 116 с.

91. Применение Интернет в информационной деятельности. http://dlc.openweb.ru. Центр дистанционного обучения. 1999.

92. Розина И.Н., Соколова О.И. Поиск информации в Интернет на основе автоматизированных информационно-поисковых систем, http://rspu.edu.ru/ search/sok-roz.htm.

93. Романенко А.Г., Самойлюк О.Ф. Информационно-поисковые системы: Учеб. пособие. М.: Рос. гос. гуманит. ун-т, 1997. 85 с.

94. Рощин С.М. Интернет для учителя-предметника // Брянская учительская газета № 42, 24.10.2003 г. С. 12-13.

95. Рощин С.М. Программный модуль «Лоцман» для управления базой данных гипертекстового и мультимедийного типа // Тез. докл. 54-й студ. науч. конф., посвященной 70-летию БГТУ, 1999. С 63-64.

96. Рощин С.М. Системный подход к исследованию методов индексирования информации / Практика системного анализа. Кострома: 2002. - С. 15-20.

97. Саймон А.Р. Стратегические технологии баз данных: менеджмент на 2000 год: Пер. с англ. / Под ред. и с предисл. М.Р. Когаловского. М.: Финансы и статистика. 1999. - 479 с.

98. Свинарев С. В Lotus знают как управлять знаниями // ComputerReview, 11 апреля 2001.

99. Свинарев С. Технологии Web-поиска на перепутье // ComputerReview, 11 апр., 2001.

100. Сегалович И.В. Как работают поисковые системы. http://dialog-21 .ru/directionfulltext.asp?dirid=l 5539.

101. Селезнев К., Борисов В. Визуализация семантической сети // Открытые системы, №11, 2001. http://www.osp.rU/os/2001/l 1/055.htm.

102. Сетевые операционные системы / В.Г. Олифер, Н.А. Олифер. СПб.: Питер, 2001.-544 с.

103. Системы управления документами, знаниями, процессами. -http://www.ask.ru/solut/infosys/index.html.

104. Соколов Н.А. Телекоммуникационные сети. Монография в 4-х главах. Часть 1 (глава 1) М.: Альварес Паблишинг, 2003. - 128 с.

105. Соломатин Н.М. ЭВМ и поиск информации. М.: Машиностроение, 1977.- 127 с.

106. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979.-560 с.

107. Средства дистанционного образования. http://wvvvv.ido.ru/sdo/sred7.html.

108. Стратегия реформирования регионального здравоохранения // Материалы ежегодной научно-практической конференции. 25-26 мая 2000г. М.: РИО ЦНИИОИЗ, 2000 г. - 352 с.

109. Тайц О.Г. Язык БРЯН и системные исследования: интеллектуальные инструменты научного творчества. Брянск: «Придесенье», 1994. — 144 с.

110. Талантов М. Как быстро найти нужную информацию на избранном Web-узле. http://citforum.ru/pp/search02.shtml.- 1999.

111. Талантов М. Поиск в Интернете: использование имен. http://citforum.ru/internet/search/namesearch.shtml. 2000.

112. Талантов М. Поиск информации в Интернете: подводные камни. http://citforum.ru/internet/search/profsearch03.shtml. 1999.

113. Талантов М. Профессиональный поиск в Интернете: планирование поисковой процедуры, http://citforum.ru/internet/search/profsearch02.shtml. 1999.

114. Талантов М. Профессиональный поиск в Интернете: полнота, достоверность, скорость. http://citforum.ru/internet/search/ profsearch01.shtml. 1999.

115. Теневая сеть: 5% Интернета сегодня практически недоступны для пользователей. http://vvwvv.compulenta.ru/nevvs/2001/12/27/23690/.

116. Тихонов В. Поисковые системы в сети Интернет, http://citforum.ru/internet/ search/searchsystems.shtml. 2000.

117. Управление знаниями. http://x.cms.ru/?objid=km.

118. Утка В.Г., Рощин С.М. Методика поиска информационных ресурсов в сети Интернет // Брянский медицинский вестник № 5(10), ноябрь 2003 г. С. 85-90.

119. Хек М. Движущая сила электронного бизнеса // Computerworld, №11, 2001. http://www.osp.ni/cw/2001/l l/0260.htm.

120. Хеннингер М. Эффективные стратегии поиска в Internet / Пер. с англ. М.: Центр-пресс, 1998. - 160 с.

121. Храмцов П. Информационно-поисковые системы Internet // Открытые системы, №5, 1996. http://www.osp.ru/os/1996/03/46.htm. - 1996.

122. Храмцов П. Поиск и навигация в Internet. Ч. 2. Информационно-поисковые языки, http://www.osp.ru/cw/1996/20/31.htm.- 1996.

123. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые системы, №5, 1996.

124. Цимбал А. Аншина М. Технологии создания распределенных систем. Для профессионалов. CNews: Неделя HI-TECH | итоги 1Т-рынка | №15 Май 26, 2003. - http://www.cnews.ru.

125. Черняк JI. От систем документооборота к управлению знаниями // Открытые системы, №10, 2002. http://vvvvw.osp.ru/os/2002/10/043.htm.

126. Черняк Л. Управление знаниями и информационные технологии // Открытые системы, №10, 2000. http://vvvvvv.osp.ru/os/2000/10/074.htm.

127. Чибисов Алексей. Поисковые возможности Excalibur Retrieval Ware // Открытые системы, №5, 1996.

128. Шабанов В.И., Власова А.Е. Алгоритм формирования ассоциативных связей и его применение в поисковых системах. http://wwvv.rambler.ru/ db/rumetrica/article.html?mid=3690476.

129. Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. М.: Воениздат, 1974. - 192 с.

130. Щербина А. Основы извлечения знаний из Internet // Открытые системы, №4, 2003. http://www.osp.ru/os/2003/04/049.htm.

131. Эпштейн В.Л. Гипертекст новая парадигма информатики // Автоматика и телемеханика, 1991, № 11.

132. Borland С++ Builder 6. Для профессионалов / В.А. Шамис. СПб.: Питер, 2003.-768 с.

133. Brown J. Search Engines for Local Web Sites. -http://wvvw.slis.ualberta.ca/538/jbrown/inclex.htm. 1998.

134. Clyde A. The Invisible Web. http://wvvw.teacherlibrarian.com/ pages/infotech294.html.

135. Habib D.P. Balliot R.L. How to Search the World Wide Web: A Tutorial for Beginners and Non-Experts. http://204.17.98.73/midlib/tutor.htm. - 1999.

136. Koster M. Robots in the Web: threat or treat? http://info.webcrawler.com/ mak/projects/robots/threat-or-treat.html. - 1997.

137. Lotus Software от IBM предлагает новое решение для систем управления знаниями. http://www.ibm.eom/ru/news/nfolder/3lI00102.html.

138. Lotus Software. Расширенные возможности сотрудничества, электронное обучение и управление знаниями. http://www.ibm.com/ru/software/ lotus/groupware/coopintro.html.

139. Multi-search Engines a comparison. - http://www.philb.com/msengine.htm. -2000.

140. Pinkerton В. Finding What People Want: Experiences with the WebCrawler. -http://info.webcrawler.com/bp/WWW94.html.

141. Searching the Internet: Recommended Sites and Search Techniques. http://library.albany.edu/internet/search.html. University at Albany Libraries -2001.

142. SpyLOG: сервис интернет-статистики. http://spylog.ru/. - 2001.

143. Sullivan D. Search Engine Size Test, http://searchenginevvatch.com/ reports/sizes.html. 2001.

144. The Web Robots FAQ. http://info.vvebcravvler.com/mak/projects/ robots/faq.html.

145. W3C Semantic Web. http://www.w3.org/200I/sw/.