Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет

Арутюнян, Роман Эрнстович

Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет

кандидата технических наук: Арутюнян, Роман Эрнстович
город: Ростов-на-Дону
год: 2004
специальность ВАК РФ: 05.13.11

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет»

Автореферат диссертации по теме "Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет"

На правахрукописи

Арутюнян Роман Эрнстович

РАЗРАБОТКА АРХИТЕКТУРЫ ПРОГРАММНОЙ СИСТЕМЫ АВТОМАТИЗИРОВАННОГО СБОРА ТЕМАТИЧЕСКОЙ ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей; 05.13.17 —Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Ростов-на-Дону 2004

Работа выполнена на физическом факультете Ростовского государственного университета

Научный руководитель по специальности 05.13.11:

доктор технических наук, старший научный сотрудник Аграновский Александр Владимирович

Научный руководитель по специальности 05.13.17:

доктор технических наук, старший научный сотрудник Захарченко Александр Николаевич

Официальные оппоненты: доктор технических наук, доцент

Божич Владимир Иванович кандидат технических наук, доцент Литвиненко Александр Николаевич

Ведущая организация: Научно-исследовательский институт

многопроцессорных вычислительных систем Таганрогского государственного радиотехнического университета

Защита диссертации состоится " 19. " октября 2004 г. в // часов на заседании диссертационного совета К.212.208.04 по физико-математическим и техническим наукам в Ростовском государственном университете по адресу: 344090, г. Ростов-на-Дону, пр. Стачки 200/1, корпус 2, ЮГИНФО РГУ.

С диссертацией можно ознакомиться в научной библиотеке РГУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148.

Автореферат разосла/^" сентября 2004 г.

Ученый секретарь диссертационного совета,

кандидат физико-математических наук Муратова Г. В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В последнее время в связи с бурным развитием компьютерной техники и телекоммуникационных технологий стала острой задача поиска информации. На сегодняшний день в электронном виде хранится огромное количество документов, руководств, описаний, инструкций, учебников, научных статей и много другой неструктурированной информации. Проблема нахождения среди такого объема информации нужной становится крайне важной и зачастую трудно решаемой без использования специальных средств, даже если область поиска ограничивается одним компьютером. Развитие сети Интернет еще более усугубило данную проблему, поскольку число документов, доступных посредством этой сети, огромно и продолжает постоянно расти.

В связи с этим в сети Интернет огромную популярность завоевали информационные системы, позволяющие различными способами обеспечивать нахождение требуемой информации и предоставление ее пользователю. Без них уже не представляется возможной работа во "всемирной паутине". Такие средства поиска, как информационно-поисковые и метапоисковые системы Интернет, каталоги Интернет и индивидуальные поисковые агенты, а также системы Интернет-мониторинга позволяют упростить различные аспекты решения этой проблемы. Однако, будучи применимыми для решения частных поисковых задач, существующие средства не обеспечивают решения комплексных задач.

Современные компании и корпорации испытывают сильную информационную зависимость. Расширение сферы услуг, разработка и внедрение новых технологий, а также выполнение текущих бизнес-задач тесно связано со сбором и обработкой различной информации. При этом важны такие аспекты данной проблемы, как максимальная полнота информационного массива, автоматизация процесса сбора информации, а также обеспечение средств навигации в ней. Архитектуры существующих программных средств нацелены на решение частных поисковых задач и позволяют осуществлять узкий поиск при непосредственном участии пользователя.

Таким образом, на сегодняшний день существует потребность в проработке целого ряда аспектов, касающихся функционирования систем информационного поиска, среди которых:

- реализация комплексного подхода к решению задачи информационного поиска в сети Интернет, позволяющего задать всю область поиска и обеспечить ее уточнение в процессе работы;

- разработка средств информационного поиска, позволяющих находить документы в соответствии со смысловыми единицами, а не ключевыми словами;

- совмещение информационного поиска, оценки релевантности документов, а также полнотекстовой индексации и классификации найденных документов.

Областью исследования является организация распределенных систем, организация баз данных и знаний, разработка программных средств классификации данных, разработка методов анализа текста и средств поиска

Предметом исследования являются архитектуры программных систем, базы данных, методы и программные средства классификации текстовых данных и поиска.

Цель исследования состоит в разработке архитектуры программной системы сбора информации в сети Интернет, позволяющей автоматизировать процесс информационного поиска в этой сети, обеспечивая возможность задания всей области поиска и нахождения документов в соответствии с ней, осуществляющей индексацию и классификацию • найденных релевантных документов, а также содержащей средства навигации в сформированной базе данных с использованием методов поиска, позволяющих находить релевантные запросу документы, не содержащие его слов.

Задачи исследования. Для решения поставленной цели в диссертационной работе определены следующие задачи исследования:

- разработать масштабируемую распределенную архитектуру программной системы автоматизированного сбора информации в сети Интернет;

- разработать программные компоненты, осуществляющие получение документов из сети Интернет на основе информационной потребности пользователя и их обработку;

- разработать модель контекстного представления содержания текстовых документов, основанную на рассмотрении понятий предметной области и позволяющую решать задачи автоматического формирования поисковых запросов и информационного поиска;

- разработать архитектуру базы данных документов, позволяющую хранить всю необходимую для работы системы информацию, включая контекстный индекс документов и осуществлять поиск релевантных документов, не содержащих слов запроса;

- разработать метод автоматического формирования запросов к поисковым системам сети Интернет, позволяющий в соответствии с информационной потребностью пользователя создавать поток документов при помощи этих систем для дальнейшей обработки.

Методы исследования основаны на использовании теории распределенных систем, теории реляционных баз данных, теории информационно-поисковых систем и теории распознавания образов.

Научная новизна заключается в разработке нового подхода к вопросам организации систем информационного поиска в сети Интернет, позволяющего автоматизировать процесс поиска, задав информационную потребность иерархическим множеством категорий и обучив соответствующую модель на имеющихся документах. При этом распределенная архитектура разработанной системы является масштабируемой и позволяет обеспечить высокую скорость обработки.

Достоверность проведенных исследований обусловлена тем, что представленные в диссертации материалы имеют строгое математическое обоснование. Предложенные методы исследованы теоретически, а также подтверждены практическими результатами.

Практическая ценность и реализация. Результаты проведенных исследований нашли непосредственное применение при создании систем автоматизированного сбора информации в сети Интернет.

Основные результаты исследований использованы при выполнении научно-исследовательских работ

«Штиль-РИ» в ФГУП «Центр космических наблюдений» (г. Москва);

«Тракторист» в МТУСИ (г. Москва);

«Эстамп-С1» в ГНУ НИИ «Спецвузавтоматика» (г. Ростов-на-Дону).

методической конференции «Современные информационные технологии в образовании: Южный Федеральный Округ» (Ростов-на-Дону, 2003), III Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, 2003), Международной конференции «Распознавание-2003» (Курск, 2003), Всероссийской научно-практической конференции «Современные проблемы борьбы с преступностью» (Воронеж, 2004), Международной конференции «Интеллектуальные и многопроцессорные системы-2004» (Таганрог, 2004).

Авторство, новизна и полезность принципиальных технических решений защищены тремя свидетельствами об официальной регистрации программных продуктов.

Публикации. По теме диссертации опубликованы 24 печатные работы. Из них 8 научных статей, 13 тезисов докладов и три свидетельства об официальной регистрации программы для ЭВМ.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 167 страниц основного текста, и включает 54 рисунка и 3 таблицы. Список литературы состоит из 106 наименований на 10 страницах.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обсуждается актуальность и практическая значимость темы, сформулированы цели и предмет исследования, изложено краткое содержание работы.

В первой главе рассматриваются существующие статистические методы обработки текстовых документов, а также архитектуры программных средств информационного поиска и сбора информации в сети Интернет.

Первый раздел главы посвящен исследованию математических методов статистической обработки текстовых документов. В нем рассматривается вопрос выбора признаков при решении задач обработки текстов. Основными объектами, рассматриваемыми в качестве признаков, являются слова, базовые словоформы, словосочетания и группы слов. Для формирования векторов признаков, соответствующих тексту, каждому признаку ставится в соответствие вес, отражающий его информативность в данном тексте. Наиболее часто используемым методом расчета весов является представление TD-IDF, согласно которому вес признака зависит от частоты его встреч во всем множестве текстов и числа встреч признака в тексте:

где NM — число встреч k -го признака в тексте d, Nk - число документов, содержащих k -й признак, N - общее число рассматриваемых документов. Кроме того, используются нормированные модификации данного представления.

В первом разделе главы также рассмотрены методы отсева признаков для снижения размерности признакового пространства. Задача процедуры отсева признаков состоит в том, чтобы определить наиболее информативные признаки для классификации и использовать в работе только их. Далее рассмотрены методы группировки признаков, также предназначенные для решения задачи снижения размерности. Описаны два подхода к группировке: кластеризация и латентное семантическое индексирование (LSI). Первый способ основан на введении функции связи признаков, значения которой используются для их иерархического объединения, а второй использует метод сингулярного разложения матрицы весов для получения новых признаков. Рассмотрены методы выделения базовых словоформ из слов текста, среди которых наиболее широко на сегодняшний день используется метод Портера, состоящий в задании правил отсечения окончаний слов.

Первый раздел главы также включает рассмотрение методов автоматической классификации текстовых документов. Рассмотрены байесовские классификаторы и их наиболее простой представитель - наивный байесовкий классификатор, метод Роччио, основанный на использовании положительных и отрицательных примеров для нахождения вектора признаков категории, метод k ближайших соседей, использующий уже классифицированные тексты для определения категории, и метод классификации SVM, основанный на построении разделяющих гиперплоскостей в пространстве признаков. Последний показывает наибольшую точность работы при классификации текстов.

Классические методы информационного поиска, описанные в первом разделе главы, включают булев поиск, линейный поиск и вероятностный поиск. Первый состоит в создании инвертированного индекса, позволяющего находить документы, относительно которых истинна некоторая булева функция на словах запроса. Линейный метод поиска предназначен для определения релевантностей документов запросу и состоит в нахождении скалярного произведения между их нормированными векторами

признаков. Вероятностный метод поиска основан на вычислении апостериорных вероятностей документа после запроса, которые рассматриваются в качестве релевантностей. Метод булевого поиска обычно используется для определения набора документов, содержащих все слова запроса, после чего при помощи линейного или вероятностного метода вычисляются релевантности документов, в соответствии с которыми осуществляется их сортировка.

Методы автоматического формирования запросов к поисковым системам Интернет нашли применение в индивидуальных поисковых агентах и используются для обнаружения документов, релевантных профилю пользователя. Данные методы рассмотрены в конце первого раздела главы. Они основаны на использовании весов слов в профиле пользователя. Описаны функции, применяемые для отбора слов, включаемых в запрос. Их количество при этом жестко фиксируется.

Второй раздел главы посвящен анализу программных средств информационного поиска и сбора информации в сети Интернет.

Информационно-поисковые системы (ИПС), такие как Google, Yahoo, Rambler, Yandex, являются на сегодняшний день наиболее часто используемым общедоступным инструментом для осуществления поиска в сети Интернет. Их работа основана на объединении булевого метода поиска и методов оценки релевантности документов, различающихся в различных ИПС (рис. 1). Таким образом, эти системы, как правило, находят лишь документы, содержащие слова запроса

Интернет | Поисковый робот

Рисунок 1 - Работа ИПС Интернет

При подсчете релевантностей одну из основных ролей играет индекс цитирования, отражающий априорную информативность документа и вычисляемый путем подсчета количества гиперссылок на него с других ресурсов сети. Документы попадают в индекс с помощью поисковых роботов, осуществляющих просмотр известных системе адресов, список которых формируется как при непосредственной регистрации, так и автоматически при разборе полученных документов и анализе содержащихся в них гиперссылок. Архитектура информационно-поисковых систем

включает также хранилище данных, индексатор, поисковый интерфейс, модуль извлечения адресов.

К индивидуальным средствам информационного поиска относятся индивидуальные поисковые агенты (Letizia, WebWatcher, WebMate, Fab, SurfAgent). Их работа (рис. 2) основана на использовании, хранении и обновлении индивидуальных предпочтений пользователя, касающихся информационного поиска Они хранят профиль пользователя, отражающий его информационную потребность. Этот профиль создается на основе данных, получаемых в процессе мониторинга действий пользователя. К факторам, влияющим на создание профиля, как правило, относятся данные о посещении пользователем веб-страниц, время просмотра им страниц, а также факты возвращения к просмотру некоторых ресурсов.

Работа индивидуальных поисковых агентов сводится к системе рекомендаций пользователю. Для этого агенты анализируют и корректируют просматриваемые пользователем страницы, а некоторые из них также формируют поисковые запросы к ИПС и, находя релевантные документы, предлагают пользователю их просмотреть.

Системы Интернет-мониторинга («Web-Observer» - Finport Technologies Inc., «Интернет-монитор» — OOO Вербин и Партнеры) предназначены для сбора информации с сайтов сети Интернет (рис. 3). Они не являются в полной мере поисковыми системами, хотя могут включать их в качестве одного из элементов. Главным предназначением систем Интернет-мониторинга является обеспечение получения материалов для оперативной работы аналитиков и специалистов в различных областях.

Для выполнения своих задач системы Интернет-мониторинга содержат фиксированный набор источников, предоставляющих документы для обработки. Такими источниками могут быть как информационные веб-ресурсы сети Интернет, локальные каталоги, так и почтовые сообщения, приходящие на почтовые адреса пользователей. В качестве веб-ресурсов, используемых для получения документов, используются веб-

Ни ициин

Рисунок 2 - Работа индивидуальных поисковых агентов

сайты информационных агентств, постоянно предоставляющие новостные сообщения по различным тематикам.

Рисунок 3 - Работа систем Интернет-мониторинга

На основании рассмотренных программных средств информационного поиска и сбора информации в сети Интернет, отмечаются недостатки, присущие существующим системам, состоящие в том, что задача формулировки правильного (с точки зрения ИПС) поискового запроса часто оказывается сложной, если пользователь не является экспертом в области поиска; при поиске с помощью ИПС находятся лишь документы, содержащие слова запроса; необходимо активное участие пользователя в процессе поиска; существующие системы сбора информации не позволяют осуществлять автоматическое нахождение новых информационных ресурсов; у большинства программных систем поиска присутствуют лишь простейшие средства навигации в найденном множестве документов, позволяющие только перебирать документы.

В конце главы осуществляется постановка задачи исследования.

Во второй главе представлены разработанные математические модели и методы, используемые для построения системы сбора информации.

Первой рассматриваемой моделью является модель информационной потребности пользователя. Она задается иерархией категорий, которые делятся на релевантные и нерелевантные. При этом документ считается релевантным информационной потребности, если он попадает только в релевантные категории. Каждый уровень данной иерархии определяется моделью классификации SVM. Для документа вычисляется вектор признаков с элементами, равными

где N(wJ,d) - число повторений словоформы в документе й, /(м^) - частота встреч данной словоформы на всем множестве документов. Для определения релевантности документа уровню иерархии 1 находится знак ул величины и^^ , где и, и V, - параметры гиперплоскости данного уровня иерархии. Во время работы производится уточнение модели информационной потребности с применением инкрементной модификации метода SVM, позволяющей проводить дообучение, используя в качестве обучающих данных опорные векторы предыдущего обучения вместе с векторами признаков, соответствующих вновь обработанным документам.

Далее в главе разрабатывается модель контекстного представления документов. Она основана на введении новых признаков - понятий предметной области. Они задаются распределениями на словоформах вида - словоформа,

е5 - понятие предметной области, у = 1..Л/, к = \..К. Для определения этих распределений используется метод формирования множества понятий. Тексты обучающих документов разбиваются на контекстные группы, состоящие из множеств словоформ, соседствующих в тексте документа. Разбиение может производиться различными способами - либо с использованием естественных смысловых границ текстов (абзацев, глав), либо, в их отсутствии, по количеству словоформ. Для формирования множества понятий рассматривается двумерная задача кластеризации элементов вида (£ м) с полиномиальными распределениями, где / - контекстная группа, w - словоформа. Для решения этой задачи используется схема ЕМ-алгоритма, что приводит к последовательному выполнению следующих шагов:

1. Шаг «Ь>. | />,©(/)) =

Шаг «М».

/члк^е+п)

где 0(?) = (вк (/), Рк (I))£, - параметры обучения на итерации I, к = 1..К, | =

У = \..М, /Г = |5|, М — N - число контекстных групп, ,и<т) - число

повторений словоформы у»т в контекстной группе /п , Формулы второго шага итерации предполагают нормировку полученных значений для того, чтобы их суммы были равны единице. Величины Р(у*>1 15квк (¿)) на последней итерации задают искомые

распределения. Окончание работы этого и последующих методов происходит в момент, когда изменение значения функции правдоподобия становится малым.

Для определения того, какие из сформированных понятий и в какой степени присутствуют в тексте документа, он также разбивается на контекстные группы и для каждой из них производится классификация. При этом применяется итерационная схема, состоящая из двух повторяющихся шагов

где ак(1) — приближение вероятности Р($к \ /¡) на шаге £ - контекстная группа, IV, — множество входящих в нее словоформ. Далее полученные для каждой из контекстных групп значения вероятностей используются для получения значений | с1).

Для получения новых документов из сети Интернет был разработан метод формирования запросов к ИПС. Каждому релевантному уровню иерархии модели информационной потребности ставится в соответствие множество словоформ , таких, что Данное множество обладает тем

свойством, что, будучи рассмотренным как множество словоформ некоторого документа, отнесет его к релевантным. После введения параметра , задающего число запросов, данная задача рассматривается как задача кластеризации. Путем применения к множеству метода классификации контекстных групп, находятся значения

Далее находятся параметры полиномиальных распределений с тем, чтобы максимизировать функцию правдоподобия

Для решения этой задачи используется схема ЕМ-алгоритма, приводящая к формулам:

где к = \..К, / = / = При этом второй шаг предполагает нормировку

значений. Для нахождения запросов применяется метод максимального правдоподобия.

Метод контекстного поиска используется для обеспечения нахождения релевантных документов, не содержащих слов запроса. Каждый документ в базе данных представлен контекстным индексом Путем применения

метода классификации контекстных групп к запросу, находится распределение д —> | | Сама процедура поиска состоит в выполнении двух шагов.

На первом находятся все документы, содержащие все понятия запроса | <1) > О

для таких На втором шаге документы сортируются в порядке

убывания релевантностей, рассчитываемых по формуле информационной меры Кульбака:

В третьей главе представлена архитектура системы автоматизированного сбора информации. Разработанная система является распределенной и состоит из множества программных компонентов, разбитых на группы (рис. 4), включающие модули сбора информации, модуль управления, модули вычислений и интерфейсные модули. Архитектура системы сбора информации также включает хранилища данных, используемые для размещения в них документов, параметров моделей, состояний компонентов и другой информации, а также вспомогательные модули, такие как модули разбора, взаимодействия с ИПС и языковые модули.

Рисунок 4 - Архитектура системы автоматизированного сбора тематической информации в сети Интернет

В начале главы рассмотрены входящие в архитектуру модули, решаемые ими задачи, а также механизмы их взаимодействия. Представленная архитектура является распределенной, и была разработана с учетом требований масштабируемости, открытости и прозрачности.

Модуль управления предназначен для координации работы всех компонентов системы, хранения объектных ссылок на них, их создания, удаления и перемещения, а также содержит средства сбора статистики. В модуле управления функционируют два вычислительных потока, один из которых отвечает за обработку входящих запросов, а другой - за получение статистических данных обработки. При достижении порогового количества вновь обработанных документов, модуль управления посылает асинхронное сообщение вычислительным модулям для пересчета параметров моделей.

Модули сбора информации осуществляют полный цикл по получению документов из сети Интернет. При этом их архитектура является масштабируемой и легко адаптируется к различным потокам информации. Задачи, выполняемые данными модулями, следующие: формирование поисковых задач, формирование поисковых запросов, поиск информации, получение документов из сети Интернет, разбор и обработка документов, сохранение документов в базе данных. Для достижения максимальной производительности взаимодействие модулей сбора информации осуществляется в асинхронном режиме посредством очередей. Очереди являются отдельными компонентами архитектуры и могут размещаться на отдельных компьютерах вычислительной сети. Для всех модулей сбора информации кроме модуля формирования поисковых задач и модуля сохранения документов задается входная и выходная очереди. Из первой извлекаются данные, полученные от предыдущих модулей, а во вторую помещаются результаты обработки текущим модулем. Одну и ту же задачу могут решать одновременно несколько модулей, помещая результаты в выходную очередь. При этом если задача является ресурсоемкой (например, разбор и обработка документов), ее выполнение уместно осуществлять на разных компьютерах. Если же она требует длительных ожиданий (например, задачи, взаимодействующие с ресурсами сети Интернет), ее выполнение может осуществляться на одном и том же компьютере.

Модуль формирования поисковых задач осуществляет циклический перебор релевантных категорий информационной потребности и помещает в выходную очередь информацию, включающую идентификатор текущей категории и число запросов, которые необходимо сгенерировать на данном этапе обработки. Модуль формирования запросов производит генерацию запросов к ИПС по данным, полученным от предыдущего модуля с использованием разработанного метода. Модуль поиска осуществляет обращение к ИПС Интернет и получает список документов, возвращенных этими системами в результате информационного поиска по запросам, извлеченным из входящей очереди. При этом используются отдельные модули взаимодействия с ИПС, обеспечивающие возможность подключения новых систем поиска. Модуль получения документов осуществляет загрузку из сети содержимого документов, адреса которых были извлечены из входящей очереди. Модули обработки документов предназначены для осуществления разбора и математической обработки поступающих документов. При этом используются модули разбора, осуществляющие

извлечение текста из документов различных форматов, а также языковые модули, предназначенные для обработки текстов на различных языках. При обнаружении гиперссылок на другие документы сети, соответствующие им адреса помещаются во входящую очередь модуля получения документов. Модули сохранения данных извлекают из входящей очереди информацию о документе, его принадлежности категориям, его индексах, тексте, а также другие данные и передают их хранимым процедурам индексации, расположенным на серверах подчиненных БД.

Модули вычислений предназначены для выполнения ресурсоемких вычислительных задач, которые не должны мешать выполнению основного процесса получения и обработки документов. Архитектура системы предусматривает два модуля вычислений: модуль уточнения параметров 5>УМ и модуль обновления понятий предметной области. Сигналы начала обработки данных поступают в вычислительные модули от модуля управления при достижении определенного количества вновь обработанных документов.

Модули пользовательских интерфейсов предназначены для обеспечения

возможности взаимодействия пользователей с системой. Имеется три вида исполнителей, осуществляющих работу с системой сбора информации. Это администратор, оператор данных и пользователь информационного поиска. Работа первого состоит в настройке распределенной архитектуры программных модулей системы и хранилищ данных. Пользователь информационного поиска и оператор данных осуществляют

непосредственную работу с документами. Вследствие этого архитектура системы предусматривает два модуля пользовательских интерфейсов: интерфейс администратора и главный интерфейс системы. Первый предназначен для работы администратора, а второй - для работы пользователя информационного поиска и оператора данных. Их полномочия разграничены правами на объекты базы данных.

Подчмюмм бамдмиых

Рисунок 5 - Распределенная архитектура базы данных

Words

PK word Id

И word

j k

Conwords

PK.FK2 PK.FK1 con id word id

weight

CompData

PK çpmp.W

comptype server comp_data comp_state

Queries

PK Her Id

PK Query

docs retrieved

docs relevant

Categories

PK cat id

cat_title b cat_type parent_cat_id

Concepts

PK con id

con_prior

SlaveDBs

PK ÖbJä

db_server dbname

Далее представлена архитектура хранилища данных (рис. 5). Требование масштабируемости системы сбора

информации приводит к необходимости работы с большими потоками

данных. Сохранение

данных при этом является одним из «узких» мест. Дня решения данной проблемы была

разработана распределенная архитектура хранилища. Она включает два типа баз данных: главная БД и

Classifiers

PK.FK1 PK cat id word id

weight

Рисунок 6 - Диаграмма модели главной базы данных

подчиненная БД. В главной БД хранятся параметры моделей обработки, категории и настройки компонентов. Подчиненные БД содержат обработанные документы, их полнотекстовый и контекстный индекс, а также привязку к узлам иерархии категорий.

На рис. 6 представлена диаграмма модели главной базы данных. Она включает таблицы слов, понятий предметной области и их параметров, категорий, параметров классификации, компонентов и их данных, обработанных запросов и подчиненных баз данных. Подчиненные базы данных включают таблицы слов, документов, их взаимных соответствий, принадлежностей документов категориям, содержаний понятий в документах, а также обработанных контекстных групп.

Четвертая глава посвящена описанию практической реализации разработанной в третьей главе архитектуры с применением разработанных во второй главе моделей и методов обработки данных.

Система автоматизированного сбора информации была разработана для работы под управлением операционных систем Microsoft Windows 2000/XP и использует для организации распределенных компонентов архитектуру DCOM. Система была разработана с использованием среды Microsoft Visual Studio .NET на языке

программирования C++. Алгоритмы обучения моделей реализованы с применением библиотеки STL языка C++.

Рисунок 7 - Главный интерфейсный модуль системы

В разработанной системе в качестве компонентов-очередей использовались очереди MSMQ. Данные, передаваемые между компонентами сбора информации, инкапсулировались в структуру документа XML и в виде текстовых строк помещались в очереди. Были разработаны спецификации XML, позволяющие передавать необходимую информацию.

Для хранения данных использовалась СУБД MS SQL Server 2000. При этом архитектура распределенных баз данных была реализована с помощью функции Linked Servers этой СУБД. Также были разработаны две хранимые процедуры, реализующие основные функции по работе с документами — индексацию и информационный поиск. Процедура индексации принимает в качестве параметра XML-строку со всеми необходимыми данными, разбирает ее при помощи конструкции OPENXML и осуществляет добавление документа в БД, а также привязку к нему остальных переданных посредством XML-параметра данных, таких как индексы и привязки категориям иерархии. Процедура информационного поиска также принимает информационный запрос в виде строки XML, инкапсулирующей все параметры поиска, которые, кроме самого запроса, могут содержать временные рамки создания и получения документа, идентификатор категории и число возвращаемых результатов.

Интерфейсные модули реализованы с применением библиотеки MFC. Главный интерфейсный модуль (рис. 7) содержит закладки, соответствующие режимам просмотра различных данных. Основным режимом является режим просмотра категорий, позволяющий изменять их структуру, производить информационный поиск и просматривать результаты. При поиске по ключевым словам производится их подсветка в тексте документа.

Для определения работоспособности предложенной архитектуры на практике был произведен ряд экспериментов. Эксперимент по нахождению параметров распределений, задающих понятия предметной области, показал соответствие математических моделей понятий реальным смысловым единицам (табл. 1).

слово вес:

sport 5.7e-2

champion 2.8e-2

Wilson 1.8e-2

shoe 1.4e-2

golf 8.0e-3

volleyball 6.4e-3

athlete 4.8e-3

football 4.5e-3

medal 4.4e-3

coach. 3.1e-3

слово вес

strike 9.4e-2

union 5.0e-2

worker 3.2e-2

vote l.le-2

labor 9.0e-3

leader 8.9e-3

general 8.8 e-3

blame 5.1e-3

member 4.8 e-3

violence 4.5 e-3

слово вес

software 5.7e-2

computer 4.5e-2

internet 4.4e-2

Microsoft 4.3e-2

company 1.9e-2

web 1.7e-2

browser 1.7e-2

java 1.6e-2

system 1.5e-2

windows 1.2e-2

слово вес

Chechnya 5.3e-2

Russia 3.6e-2

rebel 3.0e-2

Yeltsin 1.8e-2

troop 1.4e-2

separatist 1.3 e-2

Moscow 1.3e-2

military l.le-2

Interfax 9.9e-3

politics 8.5e-3

Таблица 1 - Некоторые сформированные понятия и соответствующие им наиболее

вероятные слова

В ходе поискового эксперимента было доказано превосходство предложенного метода контекстного поиска над поиском по ключевым словам и поиском с использованием метода группировки признаков LSI. В эксперименте использовались запросы, соответствующие названиям категорий третьего уровня иерархии базы текстов Reuters. При этом осуществлялся подсчет количества документов, принадлежащих этим категориям из числа найденных. Значения точности и общности предлагаемого метода контекстного поиска составили 79% и 75%, для булева поиска- 71% и 26%, для поиска с использованием группировки признаков по методу LSI - 69% и 62%.

В ходе эксперимента по сбору информации системе было предоставлено обучающее множество документов по информационным технологиям, распределенных по 20 категориям (рис. 8). Был произведен сбор информации в автоматическом режиме из сети Интернет и получено 12409 релевантных документов, сохраненных и проиндексированных системой, что составляет 34% от общего числа просмотренных системой документов. При использовании иных методов формирования запросов, аналогичные эксперименты приводили к менее точным результатам. В частности, метод, использующий веса TD-IDF для генерации запросов, привел к получению на 63% меньше документов. При этом доля релевантных документов составила 22%.

С целью оценки скоростных характеристик для достижения максимального потока был проведен эксперимент по обработке данных из локального источника, в ходе которого документы подавались на модули обработки. При этом использовалось несколько подчиненных баз данных. Было показано, что при использовании компьютеров класса Pentium IV 2.4 ГГц, 512 Мб. средняя скорость обработки документов одним модулем обработки составляет 6 Мегабит/сек. Средняя скорость записи в базу данных составила 4 Мегабита/сек.

Вышесказанное свидетельствует о работоспособности и высокой точности предложенных решений.

В заключении обобщены итоги и результаты проведенных исследований.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ, ВЫНОСИМЫЕ НА ЗАЩИТУ

1. Разработана масштабируемая распределенная архитектура программной системы автоматизированного сбора информации, совмещающая решение таких задач, как задание информационной потребности, нахождение по ней документов, их классификацию, индексацию, а также поиск в сформированной базе данных.

2. Разработаны программные компоненты, последовательно выполняющие задачу получения документов из сети Интернет в соответствии с предложенными этапами, такими, как формирование поисковых задач, формирование запросов, поиск документов, их загрузка, обработка и сохранение.

3. Разработана модель контекстного представления содержания текстовых документов, основанная на статистическом задании понятий предметной области и позволяющая решать задачи автоматического формирования поисковых запросов и поиска.

4. Разработана архитектура базы данных документов, позволяющая хранить параметры моделей обработки, а также контекстный индекс, иос уществлять поиск релевантных документов, не содержащих слов запроса, на основе модели контекстного представления.

5. Разработан метод автоматического формирования запросов к поисковым системам Интернет, позволяющий создавать поток документов при помощи этих систем для последующей обработки в соответствии с заданной информационной потребностью.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАННЫ В СЛЕДУЮЩИХ РАБОТАХ

1. Арутюнян Р.Э. Бинарная классификация документов// Интеллектуальные и многопроцессорные системы-2003. Материалы Международной конференции. Т.2. Таганрог: Изд-во ТРТУ, 2003, стр. 262-264.

2. Арутюнян Р.Э. Автоматическая рубрикация электронных документов // Моделирование. Теория, методы и средства: Материалы III Междунар. науч.-практ. конф., г. Новочеркасск, 2003 г.: В 5 ч. / Юж.-Рос. гос. ун-т. (НПИ). -Ч .З, стр. 54-55.

3. Арутюнян Р.Э. Индексация текстов с помощью хранимых процедур // Научная мысль Кавказа, Приложение, №6 (60) 2004., стр. 127-130.

4. Арутюнян Р.Э. Иерархическая классификация текстовых сообщений при помощи метода SVM // Методы и алгоритмы прикладной математики в технике, медицине и экономике: Материалы IV Междунар. науч.-практ. конф., г.Новочеркасск, 2004 г.: В 4 ч. / Юж.-Рос. гос. техн. ун-т (НПИ). - 4.1, стр. 44-46.

5. Arutyunyan R.E. Common techniques and challenges of text categorization // РГУ, физфак, 2003, Федеральная целевая программа "Интеграция", 55-я студенческая научная конференция физического факультета, 22-29.04.2003, стр. 42.

6. Арутюнян Р.Э., Куликов Л.С., Телеснин БА. Модульный принцип при разработке систем обработки текстовых документов // М: Машиностроение, Телекоммуникации, №6,2004 г., стр. 6-11.

7. Арутюнян Р.Э., Пилиди B.C. Модель отложенной обработки текстовых документов // Научная мысль Кавказа, Приложение, №7 (61) 2004., стр. 114-118.

8. Арутюнян Р.Э., Телеснин БА., Лазуренко И.П. Моделирование полноты обработки текстовых сообщений в режиме реального времени // Труды XI Всероссийской научно-методической конференции Телематика-2004, Санкт-Петербург, 2004, т. 1, стр. 147-148.

9. Арутюнян Р.Э., Хади РА Комплексный подход к поиску тематической информации в сети Интернет // Всероссийская научно-практическая конференция «Современные проблемы борьбы с преступностью»: Сборник материалов. - Воронеж: ВИ МВД РФ, 2004, стр. 9-15.

10. Аграновский А.В., Арутюнян Р.Э. Индексация массивов документов // Мир ПК, №6,2003, стр. 49.

11. Аграновский А.В., Арутюнян Р.Э. Алгоритмы поиска и рубрикации текстовых документов // Телекоммуникации, №9,2003 г., стр. 2-7.

12. Аграновский А.В., Арутюнян Р.Э. Способы индексации и поиска документов в Интернет-порталах // Труды X Всероссийской научно-методической конференция «Телематика-2003», т.1, Санкт-Петербург, 2003, стр. 204-206.

13. Аграновский А.В., Арутюнян Р.Э. Метод ранжирования документов при поиске // IV Всероссийский Симпозиум по прикладной и промышленной математике, Петрозаводск, 2003, стр. 83-84.

14. Аграновский А.В., Арутюнян Р.Э. Рубрикация текстов с помощью цепей Маркова // IV Всероссийский Симпозиум по прикладной и промышленной математике, Сочи,2003, т.10, вып. 3, стр. 591-592.

15. Аграновский А.В., Арутюнян Р.Э. Навигация в архивах образовательных материалов // Тезисы докладов научно-методической конференции «Современные информационные технологии в образовании: Южный Федеральный Округ», Ростов-на-Дону, 2003, стр. 20-23.

16. Аграновский А.В., Арутюнян Р.Э. Модель бинарной классификации текстов // Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Распознавание-2003: Сб. мат-лов 6-й Межд. конф.: В 2-х ч. Ч.1/Курск. гос. техн. ун-т. Курск, 2003, стр. 101-103.

17. Аграновский А.В., Арутюнян Р.Э. Классификация текстов на дереве категорий // Информационные и телекоммуникационные системы: сетевые технологии. Дагинформ-2003: Материалы III Республиканской научно-практической конференции: Махачкала, 2004, стр. 51-53.

18. Аграновский А.В., Арутюнян Р.Э., Булаев В.В., Хади РА. Рубрика: Система навигации по массивам документов. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2003611314/Р0СПАТЕНТ- М., 29.05.2003.

19. Аграновский А.В., Арутюнян Р.Э., Булаев В.В., Хади РА DocMediaSearcher: хранение и поиск мультимедийных файлов. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2003611309/Р0СПАТЕНТ- М., 29.052003.

20. Аграновский А.В., Арутюнян Р.Э., Куликов Л.С., Леднов Д.А..Система потоковой обработки текстовых сообщений. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2004611737/Р0СПАТЕНТ - М., 23.07.2004.

21. Аграновский А.В., Арутюнян Р.Э., Куликов Л.С. Метод контекстного представления при обработке текстовых документов // Научная мысль Кавказа, Приложение, №7 (61) 2004., стр. 118-125.

22. Аграновский А.В., Арутюнян Р.Э., Телеснин Б А Использование SQL для индексации и обработки текстовых документов // Информационные технологии, №5, 2004, стр. 14-19.

23. Аграновский А.В., Арутюнян Р.Э., Хади РА. Средства поиска в текстовых базах данных // Известия ТРТУ. Тематический выпуск: Материалы Всероссийской научно-технической конференции с международным участием «Компьютерные

24 51 7042'

технологии в инженерной и управленческой деятельности», Таганрог, изд-во ТРТУ, 2003, №3(32), стр. 178-179.

24. Аграновский А.В., Арутюнян Р.Э., Хади РА. Современные аспекты проблемы поиска в текстовых базах данных // Телекоммуникации, №3,2003, стр. 25-30.

В работах, опубликованных в соавторстве, лично Арутюняну Р.Э. принадлежат следующие результаты: в [6] разработана модульная архитектура системы сбора информации в сети Интернет; в [7] предложено разбиение задачи полнотекстовой обработки текстовых документов в потоковом режиме на последовательные этапы; в [8] разработана архитектура системы потоковой обработки текстовых сообщений; в [9] разработаны метод формирования запросов к поисковым системам и модель информационной потребности при поиске; в [10] проведен анализ типов документов, подвергаемых индексации, а также исследование и разработка хранилища для их содержания; в [11] проведено исследование методов классификации текстовых документов и их сравнение; в [12] проведен анализ методов индексации документов при организации поиска в Интернет-порталах; в[ 13] разработана функция релевантности документа запросу, позволяющая осуществлять контекстный поиск документов, в [14] предложено использование контекстных групп при обработке текста; в [15] предложен метод информационного поиска для навигации в массивах образовательных материалов; в [16] исследован метод бинарной классификации SVM для задания информационной потребности пользователя; в [17] исследована модель иерархической классификации, основанная на методе SVM, в применении к задаче автоматизированного сбора информации; в [18] разработаны и реализованы программные компоненты, осуществляющие индексацию и информационный поиск документов; в [19] разработаны и реализованы программные библиотеки, осуществляющие информационный поиск мультимедийной информации; в [20] разработаны и реализованы распределенные компоненты классификации и сохранения текстовых сообщений в потоковом режиме; в

[21] предложен метод контекстного представления содержания текстовых документов; в

[22] разработаны хранимые процедуры для осуществления задач обработки текстов в СУБД MS SQL Server; в [23] проведен анализ метапоисковых систем; в [24] проведен анализ современных архитектур программных систем информационного поиска

Тип. ООО «ФЕНИКС» Заказ № 832 от 31.08.2004 г. Тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Арутюнян, Роман Эрнстович

Принятые обозначения и сокращения.

Введение.

Глава 1 Исследование и анализ методов и систем обработки текстовой информации и информационного поиска.

1.1 Исследование математических методов статистической обработки текстов

1.1.1 Признаки в задачах статистической обработки текстов.

1.1.2 Методы классификации текстов.

1.1.3 Методы информационного поиска текстовых документов.

1.1.4 Методы автоматической генерации запросов к ИПС.

1.2 Анализ программных средств информационного поиска и сбора информации в сети Интернет.

1.2.1 ИПС Интернет.

1.2.2 Интернет-каталоги.

1.2.3 Метапоисковые системы.

1.2.4 Индивидуальные поисковые агенты.

1.2.5 Системы Интернет-мониторинга.

Постановка задачи исследования.

Выводы.

Глава 2 Разработка моделей и методов получения и обработки документов.

2.1 Разработка модели информационной потребности при решении задачи информационного поиска.

2.1.1 Использование разделяющих гиперплоскостей при моделировании информационной потребности.

2.1.2 Пополнение знаний при помощи инкрементной модификации алгоритма SVM.

2.1.3 Представление категорий в виде иерархии.

2.2 Разработка модели контекстного представления документов.

2.3 Разработка метода формирования множества понятий предметной области.

2.4 Разработка метода классификации контекстных групп.

2.5 Разработка метода контекстного поиска документов.

2.6 Разработка метода автоматического формирования тематических запросов к ИПС.

Выводы.

Глава 3 Разработка архитектуры системы автоматизированного сбора информации.

3.1 Разработка программных компонентов системы и интерфейсов их взаимодействия.

3.2 Модуль управления.

3.3 Формирование потока документов.

3.4 Модули сбора информации.

3.4.1 Асинхронное взаимодействие модулей сбора информации.

3.4.2 Модуль формирования поисковых задач.

3.4.3 Модули формирования запросов.

3.4.4 Модули поиска.

3.4.5 Модули получения документов.

3.4.6 Модуль обработки документов.

3.4.7 Модули сохранения документов.

3.5 Модули вычислений.

3.5.1 Модуль уточнения параметров SVM.

3.5.2 Модуль обновления понятий предметной области.

3.6 Модули пользовательских интерфейсов.

3.6.1 Интерфейс администратора.

3.6.2 Главный интерфейс системы.

3.7 Организация хранения данных.

3.7.1 Главная база данных.

3.7.2 Подчиненные базы данных.

Выводы.

Глава 4 Практические аспекты реализации системы автоматизированного сбора тематической информации.

4.1 Использование архитектуры DCOM для реализации программных компонентов системы.

4.2 Реализация очередей и механизмов передачи данных.

4.3 Разработка хранимых процедур для работы с данными.

4.3.1 Хранимая процедура индексации.

4.3.2 Хранимая процедура информационного поиска.

4.4 Реализация алгоритмов обучения.

4.5 Реализация обработки документов.

4.6 Реализация пользовательских интерфейсов.

4.7 Экспериментальная оценка аспектов функционирования системы сбора информации.

Выводы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Арутюнян, Роман Эрнстович

В связи с этим в сети Интернет огромную популярность завоевали информационные системы, позволяющие различными способами обеспечивать нахождение требуемой информации и предоставление ее пользователю. Без них уже не представляется возможной работа во всемирной паутине. Такие средства поиска, как информационно-поисковые и метапоисковые системы Интернет, каталоги Интернет и индивидуальные поисковые агенты, а также системы Интернет-мониторинга, позволяют упростить различные аспекты решения этой проблемы. Однако, будучи применимыми для решения частных поисковых задач, существующие средства не обеспечивают решения комплексных задач.

- автоматизация процесса информационного поиска;

Цель исследования состоит в разработке архитектуры программной системы сбора информации в сети Интернет, позволяющей автоматизировать процесс информационного поиска в этой сети, обеспечивая возможность задания всей области поиска и нахождения документов в соответствии с ней, осуществляющей индексацию и классификацию найденных релевантных документов, а также содержащей средства навигации в сформированной базе данных с использованием методов поиска, позволяющих находить релевантные запросу документы, не содержащие его слов.

Научная новизна заключается в разработке нового подхода к вопросам организации систем информационного поиска в сети Интернет, позволяющего автоматизировать процесс поиска, задав информационную потребность иерархическим множеством категорий и обучив соответствующую модель на имеющихся документах. При этом распределенная архитектура разрабатываемой системы является масштабируемой и позволяет обеспечить высокую скорость обработки.

Основные результаты исследований использованы при выполнении научно-исследовательских работ

- «Штиль-РИ» в ФГУП «Центр космических наблюдений» (г.

Москва);

- «Тракторист» в МТУ СИ (г. Москва);

Эстамп-С1» в ГНУ НИИ «Спецвузавтоматика» (г. Ростов-на-Дону).

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на IV Всероссийском Симпозиуме по прикладной и промышленной математике (Петрозаводск, 2003), X Всероссийской научно-методической конференции «Телематика-2003» (Санкт-Петербург, 2003), Научно-методической конференции «Современные информационные технологии в образовании: Южный Федеральный Округ» (Ростов-на-Дону, 2003), III Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, 2003), Международной конференции «Распознавание-2003» (Курск, 2003), Всероссийской научно-практической конференции «Современные проблемы борьбы с преступностью» (Воронеж, 2004), Международной конференции «Интеллектуальные и многопроцессорные системы-2004» (Таганрог, 2004).

Публикации. По теме диссертации опубликовано 24 печатные работы. Из них 8 научных статей, 13 тезисов докладов и три свидетельства об официальной регистрации программы для ЭВМ.

На защиту выносятся следующие основные положения:

3. Разработана модель контекстного представления содержания текстовых документов, основанная на построении статистических моделей понятий предметной области, и позволяющая решать задачи автоматического формирования поисковых запросов и поиска.

4. Разработана архитектура базы данных документов, позволяющая хранить параметры моделей обработки, а также контекстный индекс, и осуществлять поиск релевантных документов, не содержащих слов запроса, на основе модели контекстного представления.

Краткое описание работы. Диссертационная работа состоит из введения, четырех глав и заключения.

Заключение диссертация на тему "Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет"

Выводы

1. В данной главе рассмотрены вопросы практической реализации разработанной архитектуры системы автоматизированного сбора тематической информации в сети Интернет с учетом разработанных математических методов и моделей получения, обработки и информационного поиска информации в сети Интернет. На основе разработанных архитектуры программного обеспечения и математических методов и моделей для демонстрации возможности реализации предлагаемых принципов была разработана программная системы сбора информации.

2. Рассмотрены вопросы реализации распределенной архитектуры с использованием библиотеки БСОМ, а также вопросы организации очередей и передачи информации между программными компонентами. Кроме того, описаны спецификации ХМЬ-строк, используемых для инкапсуляции и передачи данных.

3. Рассмотрены особенности реализации и алгоритмы работы хранимых процедур, предназначенных для выполнения задач индексации и информационного поиска. Эти хранимые процедуры размещаются на сервере баз данных и позволяют максимально эффективно осуществлять решение данных задач. Кроме того, приведены спецификации ХМЬ-параметров, передаваемых хранимым процедурам.

4. Рассмотрены вопросы реализации алгоритмов обучения системы, включающие разбивку задачи обучения на этапы, разработку множества классов, предназначенных для решения этой задачи. Кроме того, приведены алгоритмы создания множества понятий предметной области и обучения модели информационной потребности.

5. Представлены разработанные интерфейсные модули, предназначенные для взаимодействия различных групп пользователей с системой. Два интерфейсных модуля - модуль работы с документами и модуль администрирования - предоставляют функции по обучению системы, обеспечению возможности информационного поиска и настройки программных компонентов.

6. Приведены результаты проведенных экспериментов по формированию понятий предметной области, оценке скоростных характеристик системы, поиску информации и получению документов из сети Интернет, показывающие высокую точность разработанных методов и подтверждающие работоспособность представленной архитектуры.

Заключение

Диссертация посвящена разработке архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет, а также разработке математических методов и моделей нахождения этой информации и обеспечению расширенных механизмов доступа к ней. В процессе проведения диссертационного исследования были решены все поставленные задачи.

Для этого были проанализированы статистические методы обработки текстовых документов, включающие методы построения векторов признаков, методы классификации, информационного поиска, а также автоматического формирования запросов к ИПС. Были исследованы существующие программные средства информационного поиска в сети Интернет, такие как поисковые и метапоисковые системы, а также индивидуальные поисковые агенты и системы Интернет-мониторинга и выявлены присущие им недостатки, среди которых сложность формулировки правильного с точки зрения ИПС поискового запроса, возможность нахождения помощью ИПС лишь документов, содержащих слова запроса, необходимость активного участия пользователя в процессе поиска с помощью ИПС и индивидуальных поисковых агентов, включающего выполнение однообразных действий, применение несовершенных методов навигации в найденном множестве документов, отсутствие у существующих систем сбора информации возможности автоматического нахождения новых источников данных.

С учетом выявленных недостатков и актуальности выбранной темы исследования была поставлена цель диссертационного работы, которая заключается в разработке архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет, решающей указанные проблемы.

В соответствии с поставленной целью были поставлены и научные задачи исследования: разработать масштабируемую распределенную архитектуру программной системы автоматизированного сбора информации, разработать программные компоненты автоматической классификации документов на основе информационной потребности пользователя, разработать модель контекстного представления содержания текстовых документов, разработать архитектуру базы данных документов, позволяющую осуществлять поиск релевантных документов, не содержащих слов запроса, разработать метод формирования запросов к поисковым системам Интернет для получения новых документов.

Для решения поставленных задач был разработан ряд методов и моделей, среди которых модель информационной потребности пользователя, модель контекстного представления документов, метод классификации контекстных групп, метод формирования множества понятий предметной области, метод автоматического формирования запросов, а также метод контекстного поиска документов. Модель информационной потребности состоит в задании этой потребности иерархии категорий, каждой из которых ставится в соответствие разделяющая гиперплоскость в соответствии с моделью БУМ. Параметры этих гиперплоскостей уточняются в процессе обработки документов. Модель контекстного представления документов состоит в статистическом задании понятий предметной области при помощи вероятностных распределений на множестве словоформ. В соответствии с этой моделью текст документа разбивается на контекстные группы слов по принципу соседства в тексте. На этапе обучения происходит построение распределений, соответствующих понятиям предметной области, в соответствии с моделью формирования понятий. Она основана на кластеризации контекстных групп. Для определения меры содержания понятий предметной области в документах используется разработанный метод классификации контекстных групп, на которые документ предварительно разбивается. Для получения новых документов из сети Интернет был разработан метод автоматического формирования запросов к поисковым системам Интернет, использующий контекстные зависимости между словами запроса в соответствии с моделью контекстного представления. Информационный поиск в сформированной базе данных обеспечивается как при помощи механизмов поиска по ключевым словам, так и с использованием механизмов контекстного поиска.

Разработанная архитектура системы автоматизированного сбора тематической информации в сети Интернет основана на распределении программных компонентов, выполняющих получение и обработку информации по компьютерам локальной или глобальной сети, обеспечивая тем самым максимальную производительность. Задача обработки данных была разбита на этапы, выполнение которых осуществляется в различных программных компонентах. Взаимодействие между ними осуществляется при помощи объектов-очередей, выполняющих буферизацию промежуточной информации и обеспечение ее передачи. Разработанная распределенная архитектура включает модуль управления, модули сбора информации, модули вычислений, модули пользовательских интерфейсов, а также хранилища данных. Модуль управления предназначен для координации работы остальных компонентов системы, создания и удаления их, а также хранения объектных ссылок на них. Кроме того, модуль управления обеспечивает возможность подключения пользовательских интерфейсов. Модули сбора информации осуществляют получение документов из сети, их обработку, классификацию, фильтрацию и сохранение. Архитектура системы предусматривает следующие модули сбора информации: модуль формирования поисковых задач, модули формирования запросов к поисковым системам, модули поиска, модули получения документов, модули обработки документов и модули сохранения документов. Модули вычислений предназначены для выполнения трудоемких задач, таких как обновление параметров моделей классификации и контекстного представления. Разработанная архитектура предусматривает два таких модуля: модуль уточнения параметров SVM и модуль обновления понятий предметной области. Модули пользовательских интерфейсов предназначены для обеспечения взаимодействия конечных пользователей с системой. Предусмотрено два интерфейсных модуля: модуль работы с документами и модуль администрирования. Для хранения данных было разработано распределенное хранилище. Оно предусматривает два типа баз данных. Главная база данных, хранит общие настройки системы и параметры моделей, а также ссылки на подчиненные базы данных, хранящие документы и их индекс.

В работе также описаны вопросы практической реализации разработанной архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет. Система реализована на платформе Windows 2000/ХР с использованием архитектуры DCOM для создания распределенных объектов и MS SQL Server 2000 для хранения данных. Передача данных между компонентами осуществлялась с помощью системы MSMQ. Также были разработаны спецификации XML-документов, позволяющие осуществлять инкапсуляцию промежуточных данных в строки. Для осуществления взаимодействия с базой данных были разработаны и реализованы хранимые процедуры индексации и информационного поиска.

Был проведен ряд экспериментов, среди которых эксперимент по формированию множества понятий предметной области, эксперимент по оценке скоростных характеристик системы, поисковый эксперимент, а также эксперимент по сбору информации. В первых трех в качестве тестовых данных использовалась база текстов Reuters, содержащая новостные сообщения этой компании за 1996 год. Результаты проведенных экспериментов доказали работоспособность и высокую точность работы разработанной архитектуры, а также предложенных методов и моделей.

Библиография Арутюнян, Роман Эрнстович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Аграновский A.B., Арутюнян Р.Э. Индексация массивов документов // Мир ПК, №6, 2003, стр. 49.

2. Аграновский A.B., Арутюнян Р.Э. Алгоритмы поиска и рубрикации текстовых документов // Телекоммуникации, №9, 2003 г., стр. 2-7.

3. Аграновский A.B., Арутюнян Р.Э. Способы индексации и поиска документов в интернет-порталах // Труды X Всероссийской научно-методической конференция «Телематика-2003», Санкт-Петербург, 2003, т.1, стр. 204-206.

4. Аграновский A.B., Арутюнян Р.Э. Метод ранжирования документов при поиске // IV Всероссийский Симпозиум по прикладной и промышленной математике, Петрозаводск, 2003, стр. 83-84.

5. Аграновский A.B., Арутюнян Р.Э. Навигация в архивах образовательных материалов // Тезисы докладов научно-методической конференции «Современные информационные технологии в образовании: Южный Федеральный Округ», Ростов-на-Дону, 2003, стр. 20-23.

6. Аграновский A.B., Арутюнян Р.Э. Классификация текстов на дереве категорий // Информационные и телекоммуникационные системы: сетевые технологии. Дагинформ-2003: Материалы III Республиканской научно-практической конференции: Махачкала, 2004, стр. 51-53.

7. Аграновский A.B., Арутюнян Р.Э. Рубрикация текстов с помощью цепей Маркова // IV Всероссийский Симпозиум по прикладной и промышленной математике, Сочи, 2003, т. 10, вып. 3, стр. 591-592.

8. Аграновский A.B., Арутюнян Р.Э., Булаев В.В., Хади P.A. Рубрика: Система навигации по массивам документов. Версия 1.0 // Свидетельство обофициальной регистрации программы для ЭВМ № 2003611314/РОСПАТЕНТ- М., 29.05.2003.

9. Аграновский A.B., Арутюнян Р.Э., Булаев В.В., Хади P.A. DocMediaSearcher: хранение и поиск мультимедийных файлов. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2003611309/РОСПАТЕНТ М., 29.05.2003.

10. Аграновский A.B., Арутюнян Р.Э., Куликов JI.C. Метод контекстного представления при обработке текстовых документов // Научная мысль Кавказа, Приложение, №7 (61) 2004., стр. 118-125.

11. Аграновский A.B., Арутюнян Р.Э., Куликов J1.C., Леднов Д.А.Система потоковой обработки текстовых сообщений. Версия 1.0 // Свидетельство об официальной регистрации программы для ЭВМ № 2004611737/РОСПАТЕНТ М., 23.07.2004.

12. Аграновский A.B., Арутюнян Р.Э., Телеснин Б.А.Использование SQL для индексации и обработки текстовых документов // Информационные технологии, №5, 2004, стр. 14-19.

13. Аграновский A.B., Арутюнян Р.Э., Хади P.A. Современные аспекты проблемы поиска в текстовых базах данных // Телекоммуникации, №3, 2003 г., стр. 25-30.

14. Арутюнян Р.Э. Бинарная классификация документов // Интеллектуальные и многопроцессорные системы-2003. Материалы Международной конференции. Т.2. Таганрог: Изд-во ТРТУ, 2003, стр. 262-264.

15. Арутюнян Р.Э. Индексация текстов с помощью хранимых процедур // Научная мысль Кавказа, Приложение, №6 (60) 2004., стр. 127-130.

16. Арутюнян Р.Э., Куликов J1.C., Телеснин Б.А. Модульный принцип при разработке систем обработки текстовых документов // М: Машиностроение, Телекоммуникации, №6, 2004 г., стр. 6-11.

17. Арутюнян Р.Э., Пилиди B.C. Модель отложенной обработки текстовых документов // Научная мысль Кавказа, Приложение, №7 (61) 2004., стр. 114-118.

18. Арутюнян Р.Э., Телеснин Б.А., Лазуренко И.П. Моделирование полноты обработки текстовых сообщений в режиме реального времени // Труды XI Всероссийской научно-методической конференции Телематика-2004, Санкт-Петербург, 2004, т. 1, стр. 147-148.

19. Арутюнян Р.Э., Хади P.A. Комплексный подход к поиску тематической информации в сети Интернет // Всероссийская научно-практическая конференция «Современные проблемы борьбы с преступностью»: Сборник материалов. Воронеж: ВИ МВД РФ, 2004, стр. 9-15.

20. Астанин С.В., Андриенко Е.В. Особенности архитектуры полнотекстового интеллектуального поиска // Труды XI Всероссийской научно-методической конференция «Телематика-2003», Санкт-Петербург, 2004., т.1, стр. 198-200.

21. Вентцель Е.С. Теория вероятностей // М.: Высшая школа, 2001. 576с.

22. Гарольд Э., Мине Е. XML. Справочник // Пер. с англ. СПб: Символ-плюс, 2002. - 576 с.

23. Гмурман В.Е. Теория вероятностей и математическая статистика // М.: Высшая школа, 2003. 479 с.

24. Дуда Р., Харт П. Распознавание образов и анализ сцен // Пер. с англ. -М.Мир, 1976.-511 с.

25. Заикин М.Ю., Адамович И.М., Земсков Д.В., Пешков А.Н. Поиск информации в Web. Язык описания поисковых машин // Системы и средства информатики, №13, Москва, «Наука», 2003 г., стр. 136-169.

26. Захаров В.П. Информационные системы (документальный поиск) // СПб.: Изд-во СПбГУ, 2002. 188с.

27. Захарченко А.Н. Обработка информации в комплексных системах мониторинга // Москва, 2001. 147 с.

28. Зацман И.М. Типология знаков и семиотика поиска // Системы и средства информатики, №11, Москва, «Наука», 2001 г., стр. 113-131.

29. Зацман И.М. Семиотическая аппроксимация и вербально-образное представление знаний в электронных библиотеках // Системы и средства информатики, №11, Москва, «Наука», 2001 г., стр. 149-167.

30. Кениг Э., My Б. Эффективное программирование на С++. Серия С++ In-Depth, т. 2 // Пер. с англ. М.: Издательский дом «Вильяме», 2002. - 384 с.

31. Козеренко Е.Б. Исследование семантическо-синтаксической структуры вербальных и вербально-графических компонентов полнотекстовых научных документов // Системы и средства информатики, №11, Москва, «Наука», 2001 г, стр. 202-212.

32. Конструирование распределенных объектов. Методы и средства программирования интероперабельных объектов в архитектурах OMG/CORBA, Microsoft/COM и Java/RMI. // Пер. с англ. М.: Мир, 2002. - 510 с.

33. Мейерс С. Эффективное использование STL. Библиотека программиста // СПб.: Питер, 2002. 224 с.

34. Москвин П.В. Азбука STL. // М.: Горячая линия-Телеком, 2003. 262с.

35. Мюллер Дж. Технология СОМ+: библиотека программиста // СПб.: Питер, 2002. 464 с.

36. Остерн М.Г. Обобщенное программирование и STL: Использование и наращивание стандартной библиотеки шаблонов С++ // Пер. с англ. СПб.: Невский Диалект, 2004 544 с.

37. Питц-Моултис Н., Кирк Ч. XML // Пер с англ. СПб.: BHV - Санкт-Петербург, 2000. - 736 с.

38. Саттер Г. Решение сложных задач на С++. Серия С++ In-Depth, т. 4 // Пер с англ. М.: Издательский дом «Вильяме», 2003. - 400с.

39. Таненбаум Э., ван Стен М. Распределенные системы. Принципы и парадигмы // СПб.: Питер, 2003. 877 с.

40. Фаулер М., Скотт К. UML. Основы // СПб.: Символ-Плюс, 2002. 192с.

41. Ahmed N., Liu Н., Sung К. Incremental Learning with Support Vector Machines // Proceedings of the fifth International Conference on Knowledge Discovery and Data Mining, ACM Press (1999), pp. 317-321.

42. Arutyunyan R.E. Common techniques and challenges of text categorization // РГУ, физфак, 2003, Федеральная целевая программа "Интеграция", 55-я студенческая научная конференция физического факультета, 22-29.04.2003, стр. 42.

43. Attardi G., Gulf A., Sebastiani F. Automatic web page с ategorization by link and context analysis // Proceedings of THAI-99, 1-st European Symposium on Telematics, Hypermedia and Artificial Intelligence, 1999, pp. 105-119.

44. Balabanovic M. An adaptive Web page recommendation service // Proceedings of the first international conference on Autonomous agents, California, United States, pp. 378-385.

45. Bauer Т., Leake D. Calvin: A multi-agent personal information retrieval system // Agent Oriented Information Systems 2002: Proceedings of the Fourth International Bi-Conference Workshop, 2002, pp. 67-74.

46. Bauer Т., Leake D. A research agent architecture for real time data collection and analysis // Proceedings of the Workshop on Infrastructure for Agents, MAS and Scalable MAS, 2001, pp. 171-178.

47. Berendt В., Hotho A., Stumme G. Towards Semantic Web Mining // ISWC 2002, LNCS 2342, Springer-Verlag Berlin Heidelberg, 2002, pp. 264-278.

48. Boley D., Gini M., Gross R., Han E. et al. Document Categorization and Query Generation on the World Wide Web Using WebACE // Artificial Intelligence Review, Volume 13, Issue 5-6, 1999, pp. 365-391.

49. Breunig M., Kriegel H., Kroger P., Sander J. Data bubbles: quality preserving performance boosting for hierarchical clustering // Proceedings of ACM SIGMOD International Conference, Santa Barbara, CA, 2001, pp. 91-102.

50. Brin S., Page L. The anatomy of a large-scale hypertextual web search engine / / Computer Networks 30(1-7), 1998, pp. 107-117.

51. Burges C. A tutorial on support vector machines for pattern recognition // Data Mining and Knowledge Discovery, vol. 2, 1998, pp. 121-167.

52. Chen L., Sycara K. WebMate: A personal agent for browsing and searching // Proceedings of the Second International Conference on Autonomous Agents, Minneapolis, United States, 1998, pp. 132-139.

53. Cortes C., Vapnik V. Support-Vector Networks // Machine Learning, v.20 n.3, Sept. 1995, pp. 273-297.

54. Craven M., DiPasquo D., Freitag D. et al. Learning to construct knowledge bases from the World Wide Web // Artificial Intelligence 118(1-2), pp. 69-113.

55. Cutting D., Pedersen J.O., Karger D., Tukey J. Scatter /Gather: A cluster-based approach to browsing large document collections. // Proceedings of SIGIR'92, Copenhagen, Denmark, June 21-24 1992, pp. 318-329.

56. Dhillon I.S., Fan J., Guan Y. Efficient clustering of very large document collections // Data Mining for Scientific and Engineering Applications, Kluwer Academic Publishing, 2001, pp. 12-31.

57. Dumais S.T., Chen H. Hierarchical classification of web content // Proceedings of the 23rd Int'l ACM Conf. on Research and Development in Information Retrieval (SIGIR), Athens, Greece, 2000, pp. 256-263.

58. Dumais S.T., Letsche A., Littman M.L., Landauer T.K. Automatic cross-language retrieval using latent semantic indexing // Proceedings of AAAI Spring Symposium on Cross-Language Text and Speech Retrieval, March 1997, pp. 124-133.

59. Furey T.S., Cristianini N., Duffy N., Bednarski D.W et al. Support vector machine classification and validation of cancer tissue samples using microarray expression data // Bioinformatics, vol. 16, 2000, pp. 906—914.

60. Goldszmidt M., Sahami M. A probabilistic approach to full-text document clustering // SRI Technical Report ITAD-433-MS-98-044, 1997.

61. Hofman T. Probabilistic latent semantic indexing // Proceedings of the 22-th International Conference on Research and Development in Information Retrieval (SIGIR), 1999, pp. 50-57.

62. Hofman T. Learning the similarity of documents: an information-geometric approach to document retrieval and categorization // Advances in Neural Information Processing Systems 12, MIT Press, 2000, pp. 914-920.

63. Hofman T. Unsupervised Learning of Topic Hierarchies from Text Data // Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 1999, pp. 682 687.

64. Hotho A., Maedche A., Staab S. Ontology-based text clustering // Proceedings of the IJCAI-2001 Workshop "Text Learning: Beyond Supervision", Seattle, USA, 2001, pp. 84-92.

65. Iwayama M., Tokunaga T. A probabilistic model for text categorization: Based on a single random variable with multiple values // Proceedings of the 4-th Conference Applied Natural Language Processing, 1995, pp. 37-56.

66. Joachimes T. Text Categorization with support vector machines: Learning with many relevant features // Technical Report 23, University of Dortmund, LS VIII, 1997.

67. Joachimes T. A probabilistic analysis of Roccio algorithm with td-idf for text categorization // Proceedings of International Conference on Machine Learning (ICML), 1997, pp. 79-86.

68. Joachims T., Freitag D., Mitchell T. Web Watcher: A Tour Guide for the World Wide Web // Proceedings of the 1997 IJCAI, August 1997, pp. 131-140.

69. Lewis D. Representation and learning in information retrieval // Phd Thesis, Department of Computer and Information Science, University of Massachusetts at Amherst, 1992.

70. Lewis, D. An evaluation of phrasal and clustered representations on a text categorization task // Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval, 1992, pp. 37-50.

71. Lewis D., Knowles K. Threading electronic mail: A preliminary study // Information Processing and Management, 33(2):209217, 1997, pp. 45-54.

72. Lewis D., Ringuette M. A comparison of two learning algorithms for text categorization // Third Annual Symposium on Document Analysis and Information Retrieval, 1994, pp. 81-92.

73. Lewis D., Schapire R., Callan J., Papka R. Training algorithms for linear text classifiers // SIGIR '96: Proc. 19th Ann. Int. ACM SIGIR Conf. on Research and Development in Information Retrieval. Konstanz, 1996. Hartung-Gorre Verlag, pp. 298306.

74. Li Y. H., Jain, A. K. Classification of text documents // The Computer Journal 41, 8, 1998, pp. 537-546.

75. Lieberman H. Autonomous interface agents // Proceedings of the SIGCHI conference on Human factors in computing systems, Atlanta, Georgia, United States, 1997, pp. 67-74.

76. Lieberman H., Fry C., Weitzman L. Exploring the Web with reconnaissance agents // Communications of the ACM, August 2001, pp. 69-75.

77. Marx Z., Dagan I., Shamir E. Detecting Sub-Topic Correspondence through Bipartite Term Clustering // Proc. of the Workshop on Unsupervised Learning in Natural Language Processing, 1999, pp. 45-51.

78. Nagy I., Nedoma P., Kârny M.: Factorized EM algorithm for mixture estimation // Artificial Neural Nets and Genetic Algorithms, New York, 2001, pp. 402405.

79. Pazzani M., D. Billsus D. Learning and Revising User Profiles: The identification of interesting web sites // Machine Learning, vol. 27, pp. 313-331.

80. Porter M.F. An algorithm for suffix stripping // Program, 14, no. 3, 1980, pp. 130-137.

81. Roussinov D., Chen H. Document clustering for electronic meetings: an experimental comparison of two techniques // Decision Support Systems, vol. 27, 1999, pp. 67-79.

82. Salton G. Mathematics and information retrieval // Cornell University,1978.

83. Salton G., Buckley C. Term weightening approaches in automatic text retrieval // Information Processing and Management, 24(5), pp. 513-523.

84. Salton G., Fox E., Wu H. Extended Boolean information retrieval // Cornell University, 1982.

85. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing // Cornell University, 1974.

86. Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys (CSUR), Volume 34, Issue 1, 2002, pp. 1-47.

87. Somlo G., Howe A. Using web helper agent profiles in query generation // Proceedings of the second international joint conference on Autonomous agents and multiagent systems, Melbourne, Australia, 2003, pp. 812-818.

88. Sun A., Lim E. Hierarchical text classification and evaluation // Proceedings of the 2001 IEEE International Conference on Data Mining (IDCM 2001), California, USA, 2001, pp. 521-528.

89. Sunderic D. SQL Server 2000 Stored Procedure & XML Programming, Second Edition // McGraw-Hill, USA, 2003.

90. Sycara K., Pannu A, Williamson M., Zeng D et al. Distributed intelligent agents // IEEE Expert: Intelligent Systems and Their Applications, Volume 11 , Issue 6, 1996, pp. 36-46.

91. Taneja I., Pardo L., Morales D., Mendez M. On generalized information and divergence measures and their applications: A brief review // Questiio, 13, pp. 47-73.

92. Theodoridis S., Koutroumbas K. Pattern Recognition //. Elsevier Science (USA), 2003.

93. Tzeras K., Hartmann S. Automatic indexing based on Bayesian inferencetlinetworks // Proceedings of SIGIR-93, 16 ACM International Conference on Research and Development in Information Retrieval (Pittsburgh, US, 1993), 1993, pp. 22-34.

94. Witten I.H., Bell T.C. The zero-frequency problem: estimating the probabilities of novel events in adaptive text compression // IEEE Transactions on information theory, Vol. 37, No. 4, 1991, pp. 80-88.

95. Wu C.F. On the convergence properties of the EM algorithm. // The Annals of Statistics, vol. 11, 1983, pp. 95-103.

96. Yang Y. An evaluation of statistical approaches to text categorization // Technical Report CMU-CS-97-127, Carnegie Mellon University, 1997.

97. Yang Y., Liu X. A re-examination of text categorization methods // Proceedings of the 22-nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 42-29.

98. Yang Y. Pedersen J. A comparative study on feature selection in text categorization // Proceedings of International Conference on Machine Learning (ICML), 1997, pp. 113-121.

99. Yang Y., Wilbur J. Using corpus statistics to remove redundant words in text categorization // Journal of the American Society for Information Science, 47(5), 1996, pp. 357-369.

100. Zelikovitz S., Hirsh H. Using LSI for Text Classification in the Presence of Background Text // Proceedings of CIKM-01, 10 ACM International Conference on Information and Knowledge Management, ACM Press, New York, US, 2001, pp. 113118.

101. Использование полученных результатов позволило обеспечить поиск и получение документов в сети Интернет в автоматическом режиме.1. Председатель комиссии1. Члены комиссии2004 г.1. Аджемов С.С.1. Негрозов Е.А.1. Селиванов В.А.1. УТВЕРЖДАЮ»

102. Заместитель Главного конструктора ФГУП "Цент!м1. Начальник отдела1. УТВЕРЖДАЮ»1 ¥ .•ог-и»*/№об использовании результатов диссертационной работы Арутюняна Р.Э.

103. Разработка архитектуры программной системы автоматизированного сбора тематической информации в сети Интернет» при выполнении НИР «Эстам п-С 1»

Похожие работы

Информатика, вычислительная техника и управление
05.13.00