Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных

Леонов, Евгений Алексеевич

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных

кандидата технических наук: Леонов, Евгений Алексеевич
город: Брянск
год: 2011
специальность ВАК РФ: 05.13.01
цена: 450 рублей

Диссертация по информатике, вычислительной технике и управлению на тему «Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных»

Автореферат диссертации по теме "Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных"

Леонов Евгений Алексеевич

Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных

Специальность: 05.13.01 - Системный анализ, управление и обработка информации (промышленность)

Автореферат диссертации на соискание учёной степени кандидата технических наук

2 2 ДЕН 2011

Волгоград 2011

005005922

Работа выполнена на кафедре "Компьютерные технологии и системы" Брянского государственного технического университета.

Научный руководитель: доктор технических наук, профессор

Аверченков Владимир Иванович

Официальные оппоненты: доктор технических наук, профессор

Лобейко Владимир Иванович

кандидат технических наук, доцент Орлова Юлия Александровна

Ведущее предприятие: ФГБОУ ВПО «Госуниверситет - УПНК» (г. Орел)

Защита состоится 28 декабря 2011 года в 13 часов на заседании диссертационного совета Д212.028.04 при Волгоградском государственном техническом университете по адресу: 400005, Россия, Волгоград, пр. Ленина 28, ауд. 209.

С диссертацией можно ознакомиться в библиотеке Волгоградского государственного технического университета.

Автореферат разослан 25 ноября 2011 года.

Ученый секретарь

диссертационного совета В.И. Водопьянов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. Современные информационные системы (ИС) получили широкое распространение во множестве предметных областей. Начиная с 60-х годов прошлого века велись активные разработки алгоритмов и методов построения интеллектуальных информационных систем, исходными данными которых являлись специализированные базы данных, заполняемые экспертами предметных областей. С повсеместным распространением сети Интернет она стала основным источником информации. В результате чего возникла возможность создания интеллектуальных систем, использующих в качестве основного источника информацию, получаемую из сети Интернет.

При адаптации методов искусственного интеллекта, используемых в классических ИС, к использованию в интернет-ориентированных информационных системах (ИОИС) возник широкий спектр проблем по наполнению хранилищ данных на основе Интернет. Среди таких проблем:

• низкая эффективность методов наполнения хранилищ данных, отсутствие универсальных средств взаимодействия с информационно-поисковыми системами;

• необходимость и недостаточная эффективность существующих алгоритмов ранжирования документов по степени их качества в ограниченных предметно-ориентированных коллекциях;

• большое количество информации, представленной в виде медиа-контента, что требует дополнительных процедур ее анализа;

• общая высокая зашумленность информации в среде Интернет;

• наличие в веб-документах большого количества информации, его не характеризующей.

В связи с этим значительно возрастает роль качественного автоматического сбора информации для формирования предметно-ориентированных хранилищ данных. Так как Интернет является универсальным источником информации, то для ограничения предметной области возникает необходимость предварительного отбора документов и выявления степени их соответствия предметной области информационной системы. Также не менее важным является фильтрация заведомо неперти-нентных документов, появление которых в коллекции может быть вызвано наличием большого объема поискового спама в сети. Имеется высокая зависимость качества работы всей ИС и используемых в ней методов анализа от исходной коллекции анализируемых документов. В связи с этим, данная работа, направленная на формализацию и усовершенствование методов и алгоритмов мониторинга информации в сети Интернет, является актуальной и требующей решения.

Цель работы - формализовать процесс мониторинга информации в сети Интернет и усовершенствовать методы анализа информации, используемые при построении предметно-ориентированных хранилищ данных, с целью повышения эффективности работы Интернет-ориентированных информационных систем. Для достижения поставленной цели необходимо решить следующие задачи.

1. Формализовать процедуры взаимодействия подсистем сбора информации со сторонними информационно-поисковыми системами с целью эффективного наполнения предметно-ориентированного хранилища документов.

2. Разработать алгоритм обработки документов для выявления уникальной значимой смысловой части и определения основных параметров качества документа.

3. Разработать классификатор изображений для обнаружения иллюстраций контента и определения их типа.

4. Разработать методы фильтрации заведомо непертинентных документов в хранилище с целью уменьшения его объема и повышения точности.

5. Создать программные средства для автоматизации мониторинга информации в сети Интернет и построения предметно-ориентированного хранилища данных.

Методология и методы исследования. В основу исследований положены основные научные положения теории информационного поиска и искусственного интеллекта; математический аппарат и методы теории множеств и логики предикатов; теории искусственных нейронных сетей; теории нечетких множеств и лингвистических переменных. При разработке программных средств использовалась объектно-ориентированная технология проектирования, а также теория мультиагентных систем.

Научная новизна работы состоит в разработке моделей и алгоритмов автоматизированного сбора и обработки информации для мониторинга информации в сети Интернет и использовании разработанных алгоритмов в процессе формирования предметно-ориентированных хранилищ данных, а именно:

1) разработана математическая модель формализованного представления веб-сервисов поиска и ИПС в качестве внешних агентов метапоиска;

2) разработаны методы анализа структуры документа для выявления семантически значимых информационных блоков;

3) предложена методика предварительной семантической классификации изображений с использованием каскада простых нейронных сетей;

4) предложено использование алгоритма нечеткого логического вывода типа Мам-дани для ранжирования документов в условиях ограниченности коллекции по предметной области на основе учета их информативности.

Практическую ценность работы составляют:

1) разработанный универсальный программный комплекс, обеспечивающий мониторинг информации в сети Интернет и формирующий предметно-ориентированное хранилище данных;

2) разработанный сервис тестирования искусственных нейронных сетей классификатора и анализа коллекций изображений;

3) классифицированные тестовые и проверочные коллекции изображений для исследований применения методов машинного обучения.

научных организациях с учетом приоритетных направлений развития экономики и социальной сферы федерального округа» (гос. per. № 01 2009 54245); «Разработка математических моделей, информационного и программного обеспечения для поддержки инновационных решений в области высоких технологий наукоёмких производств» (гос. per. № 01 2009 54252).

Апробация работы. Основные научные и практические результаты работы докладывались и обсуждались на 9 различных конференциях и форумах. Работа докладывалась на международном молодежном форуме «Будущее высоких технологий и инноваций за молодой Россией», проводимом в рамках XV международной выставки-конгресса «Высокие технологии. Инновации. Инвестиции» (г. Санкт-Петербург 2009 г.), и была отмечена призовым 3 местом; по итогам открытого конкурса молодых ученых по тематике «Наука и образование против террора» была отмечена в номинации «Оригинальная работа» (МГТУ, г. Москва, 2010 г.); на III Международной научно-практической конференции «Достижения молодых учёных в развитии инновационных процессов в экономике, науке, образовании» отмечена дипломом победителя программы «Участник молодежного научно-инновационного конкурса» («УМНИК») (г. Брянск, 2011 г.); на международной научно-практической конференции «Инновации в условиях развития информационно-коммуникативных технологий» (г. Орел, 2008 г.); и др.

Публикации. По теме диссертации опубликовано 14 печатных работ, из них 1 монография и 3 статьи в журналах, входящих в перечень ведущих российских рецензируемых научных журналов.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения, списка литературы из 160 наименований и 5 приложений. Основная часть работы содержит 198 страниц машинописного текста, 52 рисунка и 3 таблицы.

СОДЕРЖАНИЕ РАБОТЫ

В первой главе проведен обзор существующих современных методов анализа и обработки информации, применяемых при построении предметно-ориентированных хранилищ данных. Показывается значительная роль мониторинга информации в формировании информационных систем. Для этого проведена классификация современных ИС по их назначению и структуре, выделяются основные этапы их работы, изложены основные требования, предъявляемые к различным видам ИС, и как это влияет на их структуру. На основании этого выявлены основные требования к современным предметно-ориентированным хранилищам данных (ХД), основанным на информации из сети Интернет.

В работе проанализированы исследования российских и зарубежных ученых в области информационного поиска и анализа текстов: Заболеева-Зотова A.B., Тарасов В.Б., Аверченков В.И., Агеев М.С., Хорошевский В.Г., Антонов А.Ю, Добров Б.В., Браславский П.И., Андреев A.M., Некрестьянов И.С., Лившиц Ю.М., Saltón G., Page L. и др.

Выполнен обзор основных методов наполнения предметно-ориентированных ХД. Для этого проведена классификация источников информации по их назначению, принципам работы, а также рассмотрены возможности их использования для задач автоматического сбора информации. Рассматриваются достоинства и недо-

статки существующих методов наполнения предметно-ориентированных ХД с точки зрения уровня их автоматизации и качества предоставляемой информации.

В работе выполнен анализ основных математических методов ранжирования документов в ограниченных коллекциях. Подробно рассмотрены алгоритмы, основанные на расчете взвешенной цитируемости (PageRank). Показаны существенные недостатки данного алгоритма (эффект резонанса, низкая устойчивость к методам поисковой оптимизации), рассмотрены современные тенденции его развития в коммерческих модификациях, а также обоснована его низкая эффективность при применении в ИС, основывающихся на ограниченных по предметной области коллекциях документов.

Помимо этого в данной главе проведена постановка и анализ основных задач, возникающих при формировании предметно-ориентированных ХД с использованием распределенной информации из сети Интернет. Для этого в работе анализируются принципы организации ХД, выделены их основные признаки и основные отличия от классических баз данных, проведен анализ различных архитектур построения ХД (OLAP, ROLAP, MOLAP и др.), а также сформулированы основные требования, предъявляемые к организации ХД.

Для разработки алгоритмов эффективного сбора информации были проанализированы основные принципы взаимодействия пользователя с ИПС. Большинство современных ИПС имеют несколько различных интерфейсов взаимодействия с пользователем. Работа каждого такого интерфейса основывается на взаимодействии с браузером по протоколу HTTP, при этом пользователь выражает свою информационную потребность, заполняя визуальные веб-формы, которые предаются к API ИПС в виде набора параметров. Таким образом, для полноценного управления ИПС достаточно посылать модулям корректные HTTP-запросы с учетом синтаксиса параметров и разбирать в соответствии со структурой ответы от ИПС (рис. 1).

Пользователь

Рис. 1. Схема взаимодействия пользователя с ИПС

Поисковый запрос, передаваемый внешней ИПС, можно разделить на три уровня: поисковая фраза, список параметров поиска, параметры НТТР-соединения. Каждому из этих уровней соответствуют отдельные области текста запроса. Анализ современных ИПС показал, что большинство основных параметров имеют схожее назначение для различных ИПС, а значит, могут быть транслированы в соответствии с их синтаксисом.

Проведена классификация ИПС по структуре их ответа и особенностям его разбора. Все ИПС разделены на закрытые, пользовательские, специализированные. В зависимости от типа используются различные языки ответа {HTML, XML, JSON и др.), но при этом имеют схожую структуру. На основании этого показана возможность построения универсальной подсистемы разбора ответов ИПС с учетом их синтаксиса и особенностей предоставления информации о найденных документах.

В рамках задачи разработки алгоритма для обработки документов с целью выявления уникальной значимой смысловой части выполнен обзор существующих смежных решений. Существующие алгоритмы могут быть разделены по уровню анализа - на уровне гипертекста или на основе объектной модели документа, а также по принципу идентификации информационных блоков - основанные на шаблонах типовых структур или на определении повторяющихся фрагментов документов из одного источника.

Дополнительной задачей при формировании предметно-ориентированных ХД является анализ медиа-информации в веб-документах, которая может позволить существенно улучшить качество создаваемых на его базе ИС и расширить функциональные возможности хранилища. Для ее решения проведен обзор существующих методов анализа медиа-информации и выявлены основные их недостатки, ограничивающие их широкое применение в предметно-ориентированных ИС. Показана актуальность применения, наряду с известными методами анализа, дополнительной классификации изображений по следующим классам: схема, диаграмма, таблица, снимок экрана, формула, фотография, чертеж, рисунок, миниатюра, а также расчета общей оценки, характеризующей иллюстративность главного информационного блока документа в целом.

В заключении главы описаны принципы работы систем формирования предметно-ориентированных ХД. Для этого обосновывается выбор мультиагентной стратегии построения ИС; описываются принципы и форматы взаимодействия между агентами (язык управления, принцип обмена данными, подсистема координирования действий); определены необходимые группы агентов, а также описано их назначение и требования к ним по набору входных и выходных данных.

Вторая глава посвящена формализации универсального взаимодействия подсистем метапоиска с ИПС в рамках мультиагентной стратегии.

Первым этапом работы системы является сбор документов из различных источников: электронных энциклопедий, электронных каталогов, тематических ресурсов и ИПС (метапоиск). Для осуществления данной задачи были разработаны математические модели и алгоритмы универсального взаимодействия, позволяющие создать подсистему метапоиска, которая учитывает все особенности, возможности и параметры поиска сторонних ИПС, а также предоставляет возможности быстрой перенастройки и добавления ИПС в подсистему метапоиска.

Разработанная подсистема метапоиска основывается на следующих математических моделях: описания агента метапоиска, описания поисковых систем, функции настройки агента метапоиска, поиска документов. Основной идеей данных моделей является вынесение всех уникальных особенностей подключаемой системы поиска в отдельное описание, не зависящее от программного кода агента метапоиска.

Математическая модель описания агента метапоиска представляется в виде множества

SE,„={F,LM}, (1)

где Lin - описание внутреннего языка запросов; F - множество функциональных возможностей агента, доступных пользователю для взаимодействия с внешней ИПС. Описание языка запросов используется для составления поискового дескриптора и представляет собой множество операций Lm = {0Ш,0!„2,...0,П11\.

Каждая операция Ои, = {i",min,prijrl,Op,Ul}, где С ~ идентификатор операции, используемый в системе для трансляции языков; ты - маска, на основе которой составляется регулярное выражение для поиска операции; priin- приоритет во множестве операций, определяющий порядок поиска операций в выражении (prlm е N); Ор - множество описаний операндов, используемых в рассматриваемой операции; UI -множество, содержащее элементы, описывающие интерфейсное представление операции для пользователя.

Описание операндов для операции является кортежем Op=(rv,Bnp,N^, где Тор -

тип операнда; Вор - предикат прерывания ветвления дерева операций, который определяет, может ли операнд содержать внутри себя операции; Nop - порядковый номер операнда в операции, определяющий отношение между маской операции и описанием операнда.

Функциональные возможности внутреннего агента метапоиска можно представить в виде кортежа

F = {If,P„,A„,Rf), (2)

где If - множество уникальных идентификаторов функциональных возможностей; Р„ - семейство множеств входных параметров, определенных на домене Р и необходимых для обеспечения функциональной возможности агента; RF - предикат необходимости функции для работоспособности системы в целом (/-e/?f,r = {0,l}); Ап -семейство множеств, описывающих конкретные алгоритмы, реализующие функциональную возможность агента взаимодействия с внешними ИПС.

Математическая модель описания внешней ИПС представляется в следующем виде:

= (3)

где Sex - множество описаний подсистем управления внешней ИПС (отдельный интерфейс управления); FSE = {NfSE,VfSE) - особенности работы с системой, Nese - имя (назначение) особенности системы, Vese ~ значение особенности системы.

Опишем множество подсистем управления как Sa = {s,,i2,...s„}, а

(4)

где Рге - правила разбора ответа от подсистемы; Phex - множество всех параметров, которые могут быть переданы подсистеме управления; Тех - множество типов параметров; Lex - описание языка поисковых фраз. При этом

(5)

где ifj - идентификатор параметра, определяющий его назначение; - идентификатор типа параметра; п - символьное имя параметра в описываемой подсистеме управления; v - значение параметра; m — метод передачи параметра.

Математическую модель функции настройки агента метапоиска на работу с внешней ИПС можно представить следующим образом:

fl(SEin,SEtx,Pw„Hj=SE, (6)

где Рш - набор установок пользователя, содержащий связанные пары P = (P„Rj), Ри

- параметры поиска (Ри сР), R,IS - предикат, определяющий обязательность исполнения заданного параметра поисковой системой; Нт - описание настроек соединения по протоколу HTTP.

Данная функция создает урезанное описание, на базе которого строится новый экземпляр универсального агента метапоиска. При этом на рассматриваемом этапе определяется минимально достаточное количество параметров, которые группируются по функциональным возможностям. Результатом функции является SE={S,Fse,HuJ, где S - множество подсистем, доступных для управления S = {s е Sa | Bp е Phac л р е Pah л Phex s j} . При этом состав каждой подсистемы управления определяется множеством s, ={Pr„Fav,Tm,La), где Fav - множество доступных функциональных возможностей для ИПС; Tav - множество доступных типов данных для параметров.

Математическая модель функции поиска документов представляется следующим образом:

f,(SE,SPh) = Dm, (7)

где SPh - поисковое выражение, написанное на внутреннем языке системы (Z.,„); D„„

- упорядоченное множество элементарных кортежей с метаинформацией о найденных документах Dm = {¿„¡,¿„¡,...¿„„1, а dm, = {r,u,dt,s,o}, где г — релевантность документа в ИПС относительно поискового выражения; и - URL документа; dt - дата последнего изменения документа; s - ориентировочный размер документа; о — цитата документа, предоставляемая ИПС пользователю.

Общие принципы взаимодействия разработанных математических моделей представлены на рис. 2.

Коллекция документов

Рис. 2. Принципы взаимодействия математических моделей метапоиска

Для осуществления автономной работы агента для каждой ИПС создается отдельный экземпляр универсального агента взаимодействия, но с уникальным описанием отдельной ИПС. Таким образом, каждый запущенный экземпляр агента взаимодействия является образом внешней ИПС в подсистеме поиска и выглядит для нее как полноценный агент поиска.

Разработанные модели являются универсальными для любого типа ИПС. Для метапоиска могут быть использованы ресурсы следующих типов: универсальные глобальные ИПС (Google, Yandex, Bing, Yahoo, Rambler, Mail и др.); сервисы поиска на отдельных ресурсах (wiki-сайты, форумы, каталоги); автоматические системы поиска, имеющие программные интерфейсы взаимодействия.

Третья глава посвящена разработке и оптимизации методов анализа и обработки информации при создании предметно-ориентированных хранилищ данных.

Первым этапом обработки информации в веб-документах является задача приведения языков гипертекстовой разметки к естественному языку. Для этого был разработан алгоритм выявления семантически значимой части документа. Его основным назначением является фильтрация избыточной информации в рамках одного веб-документа такой как: средства навигации по сайту; информация рекламного характера; информация, предназначенная для создания общего стиля документов одного источника и др.

Для сегментации документа и фильтрации информации содержащейся в нем было предложено использовать следующую модель документа:

D = (AI,SI,DI,TI,M), (8)

где D - анализируемый документ; AI- (advertising information) информация рекламного характера; SI - (service information) вспомогательная служебная информация; D1 - (design information) информация общего оформления; 77 - (technical information) техническая информация; Ml - (main information) основное информационное наполнение.

С другой стороны, веб-документ, написанный с использованием языка гипертекстовой разметки, представляется в виде объектной модели документа, которая является деревом элементов и может быть представлена как граф вида:

D = (E,R,l), (8)

где Е - множество элементов, R - множество отношений наследования, 7 - предикат инциденции l(e,r)={0,\},e£E,reR. Для осуществления стандартных математических операций над мультимножествами определим функцию сравнения элементов множества

с{а,Ь,г):={{а = Ь)л(1(а,г) = 1(Ь,г))}а1еА,Ь1<ЕВ,г£АлгеВ. (9)

Запишем состав веб-документов, используемых для анализа с учетом выявленных свойств информационных блоков (8). Для этого определим состав веб-портала как множество документов Р={РХ,...,Р„...Р„}, где Р: - DOM-модель /-го веб-документа портала, тогда

P,=AIt +SIl+DIl+TIl+MIn (10)

а Ту - DOM-модель повторно загруженного i-ого документа

=л/;+s/;+£>/;+г/;+м;. (li)

При этом порталом будем считать множество всех документов, имеющих одинаковые доменные имена, но различные пути и параметры доступа.

Определим множество узлов ВОМ-модели, которые необходимо выделить из структуры исследуемого документа:

Е = {е\\/е е Л#л Уе ё {/}7,57,7Э7}лЗее 77} = 77+А47. (12)

Запишем свойства информационных блоков, из которых состоит документ: информация рекламного характера обновляется при перезагрузке (А1] * А1\ # А1М); вспомогательная служебная информация и информация общего оформления сохраняется при переходе на другие страницы портала (5/, = 512... = 5/ = 51, В/, =£>/,...= л/ =£)/); техническая и основная информация уникальна для каждого документа и не изменяется при повторной его загрузке (77,' = 'ГГ * Т1М, Щ = Щ * М1м).

На основании зависимостей (8)-(12) и свойств информационных блоков запишем систему уравнений для нахождения множества Е.

Р1 = А1,+81 + 01 + Т11+М11 | (13)

р; = л;+5/+о1+д. + ля,. I.

рм=а1м+51 + 0! + т1ы+м1м\ При решении системы уравнений получена следующая зависимость для определения семантически значимой части документа

е=р,ър;\рм. (14)

На основании зависимости (14) был построен алгоритм (рис. 3), в котором проводится сравнение трех веб-документов: анализируемый документ, его обновленная

Рис. 3. Алгоритм выявления семантически значимой части веб-документа

Разработанный алгоритм имеет высокую производительность и низкую степень ложного срабатывания. Применение метода выявления семантически значимой части перед этапом индексирования документов позволяет значительно повысить точность выборки документов.

В рамках задачи анализа медиа-контента все включения в документ разделяются на три группы: аудио-контент, видео-контент и изображения. Для последующего анализа информации в хранилище данных сохраняется вся метаинформация о медиа-контенте, имеющая для каждой группы различные поля данных. Так как изображения стали наиболее распространенным дополнительным источником информации в сети, был разработан метод семантической классификации изображений на следующие классы: схема, диаграмма, таблица, снимок экрана, формула, фотография, чертеж, рисунок, миниатюра.

Для анализа изображений было принято решение использовать искусственную нейронную сеть (ИНС). В качестве входных сигналов принимались параметры, полученные на основе метаинформации об изображении и информации об изображенных объектах, коррелирующих с определенными классами. Для этого на изображениях производился поиск примитивов: прямоугольников, треугольников, окружностей, элементов управления \Ушс1о\¥з-форм. Поиск осуществлялся за счет обнаружения четких и градиентных контуров, соответствующих набору геометрических правил.

В качестве входных значений для ИНС было принято использовать следующие данные: ширина изображения, высота изображения, размер файла в байтах, тип сжатия файла, степень сжатия изображения (площадь, деленная на размер), количество найденных примитивов по каждому классу, количество ортогонально ориентированных прямоугольников, количество прямоугольников с общими границами. Для шкалирования непрерывных данных использовалась минимаксная нормализация на диапазон [0,1]

г_тмСтш (15)

v -v

пвх тп

где V- исходное значение параметра; V- значение параметра, нормализованное на диапазон [0,1]; - максимальное значение параметра (верхняя граница рассматриваемого диапазона); - минимальное значение параметра (нижняя граница диапазона). В качестве топологии сети использовался полносвязный многослойный пер-септрон.

Реализация классификатора с использованием одной ИНС показала свою неэффективность. Изображения при незначительных размерах сети хорошо разбивались на группы, но для детальной классификации приходилось увеличивать количество скрытых слоев, что приводило к резкому ухудшению производительности всей сети. Поэтому было принято решение построить каскад из нейронных сетей (рис. 4), каждая из которых выполняла отдельную узкую подзадачу.

Нейронная сеть, используемая на каждом этапе классификации, имеет 2 скрытых слоя, в каждом из которых имеется на 2 нейрона больше, чем количество входов. Нейроны имеют функцию активации сигмоид. В качестве метода обучения используется алгоритм обратного распространения ошибки с крупным шагом и моментом коррекции ошибки. Таким образом, достигается высокая производительность всего каскада.

Дополнительная информация об изображениях в документах хранится в ХД и позволяет осуществлять расширенный интеллектуальный поиск с учетом иллюстративности и проводить дополнительный углублённый анализ информации представленной в графическом виде.

Искусственная нейронная сеть (ИНС)

первичной фильтрации

:;:....."7".'..... * ":.'.'.

ИНС

выявления формул

Формула ;

т:

Другое )

Г:

ИНС классификации по суперклассам

..............................т......................................:

; ИНС сортировки изображений с большим кол. примитивов

Схема

Снимок экрана

ИНС сортировки ненасыщенных изображений

Таблица

_ L _ ~i.........

Чертеж I Диаграмма

ИНС сортировки насыщенных изображений

zin

Миниатюра

Рисунок I

Рис. 4. Иерархическая структура каскада нейронных сетей классификатора изображений

Заключительным этапом построения ХД является фильтрация заведомо пеперпшнентных документов. Фильтрация документов производится по итогам ранжирования, проводимого в трех различных аспектах: информативность документа, степень соответствия предметной области, оценка источника информации.

Первым этапом является расчет иллюстративности документа, для этого предложена следующая зависимость

/¿ = /(в/)= " 41 ;-(16)

2>.

i=i

где входным значением функции является множество DI=(K,A,C), содержащее предпочтения эксперта и количество уникальных изображений по каждому классу (d] е DI, d] = {kt, а,, }, / = 1... n, n=|/C|); 1С - множество классов изображений; k, - коэффициент значимости изображений /-ого класса, определяющий предпочтения эксперта между изображениями различных классов; а/ - характеристический параметр; Cj - количество изображений /-го класса в документе.

Сводная оценка источника вычисляется по зависимости, предлагаемой в работах П.И. Браславского и A.C. Шишкина, с введением дополнительных видов источников, а именно: «добавлено экспертом», «добавлено роботом с доверенного источника»

Я=РШ- а- sigdx +1) • \n(abs(x +1)), (17)

где R - сводная оценка источника, Р,т1 - оценка значимости документа для источника, а - положительная константа, определяющая значимость оценки источника, х -оценка вычисленная для источника.

Для ранжирования документов был применен аппарат нечеткой логики. В качестве алгоритма нечеткого логического вывода используется алгоритм Мамдани. Для этого были определены лингвистические переменные, для которых были выбраны следующие критерии: иллюстративность документа; объем текста; процентное со-

держание специальной терминологии (редких по TF*IDF); процентное содержание предметно-ориентированной терминологии (на основе тезауруса); отношение объема динамического контента к статическому; количество ошибок при верификации документа; количество документов с этого же домена в ХД; сводная оценка источника.

Алгоритм ранжирования в этом случае может быть описан следующей системой уравнений:

' Ä,: Д ° г, = Д ° (Д, -» Д,)= В,;' {r }' =,ri-aori=az° (ai ап)=в (18)

B = \jB„z = dfzB,

i-i

где "о" - композиция нечетких отношений; "—>" - нечеткая импликация; Д (/ = 1, А:) — локальный вывод из правила 7?; В - общий вывод из базы правил {Л }*ч; Д (/ = l,i) = fvzá^X Aß = /м=(х х,}, z - искомая оценка; fuzz - операция фаззифика-ции; diz - операция дефаззификации

На этапе фаззификации использовались трапецеидальные функции принадлежности для каждого терма. Составленная база правил позволяет делать выводы на множество «качественный документ». Значение принадлежности к данному классу после дефаззификации сохраняется как общий ранг документа в коллекции. Для обеспечения возможностей гибкой настройки метода ранжирования были предусмотрены возможности по настройке экспертами следующих параметров: предпочтения классов изображений, предпочтения источников информации, настройка функций принадлежности, изменение базы правил. Это позволяет быстро перенастраивать подсистему ранжирования под задачи проектируемой ИС.

В четвертой главе описываются основные этапы разработки программного комплекса (ПК) для формирования предметно-ориентированного ХД. Для этого была разработана структура хранилища данных, основанная на технологии ROLAP и применении схемы типа «звезда» с использованием реляционной СУБД MySQL. Предметно-ориентированное ХД имеет несколько уровней агрегирования данных, что позволяет эффективно проводить анализ данных, вторично используя промежуточные расчеты. Программный комплекс построен по клиент-серверной архитектуре на основе мультиагентной стратегии, при которой каждый агент является независимым, а все управление осуществляется через агент координации (рис. 5).

Все агенты работают на стороне сервера и сохраняют результаты своей работы в ХД. В зависимости от назначения разрабатываемых агентов использовались различные технологии и применялись различные языки программирования (С++, С#, PHP). Программный комплекс может работать под управлением ОС семейства Windows и Linux, для обеспечения кроссплатформенности агент координации определяет тип ОС и в случае использования Windows запускает агентов как службы, а в случае систем Linux используется фоновый запуск процессов. Получение исходных данных и сохранение результатов работы агенты осуществляют через агент обслуживания ХД. Для начала работы агента его необходимо зарегистрировать в системе

через агент координации. При этом агент сообщает о себе информацию, необходимую для работы с ним: название, назначение, параметры запуска, список входных данных необходимых для работы, список модифицируемых данных, перечень собственных настроек со значениями по умолчанию и формат их передачи. Агент координации осуществляет формирование расписания запуска агентов, распределение задач, а также, взаимодействуя с пользовательским интерфейсом, осуществляет детальную настройку ПК под предпочтения эксперта.

Пользовательский интерфейс, выполняемый на стороне клиента, реализован с использованием различных веб-технологий (JavaScript, HTML, CSS, Flash) и представляет собой веб-интерфейс, работающий по принципам приложений web2.0, взаимодействуя с модулями, обслуживающими пользовательский интерфейс на сервере, и обмениваясь данными посредством асинхронных запросов с использованием форматов данных JSON и XML. Посредством пользовательского интерфейса эксперт описывает предметную область, заполняя тезаурус и поисковый дескриптор.

Поисковый дескриптор

Агент координации метапоиска

£ Интернет \

Агент загрузки документов

Яндекс Google | Wiki Тем. Pec.;

Агент 2

Агент 4

Агент б

Агент £

Агент 1

Агент 3 i Агент 5

Агент 7

Агент

Семейство экземпляров универсального агента метапоиска

~ гт; г;:::

Полное описание / / Настройки / / Образ источников инф. //пользователя / / пользователя /

Агент выделения значимой инф. док.

Агент обслуживания ХД

Агент индексации

Группа агентов I анализа медиа-инф-

Агент определения информативности

Группа агентов формирования представлений и аналит. данных

ХРАНИЛИЩЕ ДАННЫХ

Коллекция документов Ч-*

Образ док. в XML Изображения Аудио, Видео

Ч-* Метаинформация

Индекс текста Индекс изображений Ч-*

Агрегированные данные

Наборы представлений Аналитические данные

Агент ранжирования докум. в коллекции

г _

Агент обслуживания ХД

Тезаурус

Модуль описания предметной области

Модуль просмотра аналитических данных

Модуль просмотра представлений ХД

Я Клиентское веб-приложение пользовательского интерфейса

Рис. 5. Структурная схема программного комплекса

Архитектура ПК позволяет гибко расширять функциональность системы и переориентировать под цели использования ИС в целом за счет добавления новых агентов, а также легко изменять возможности пользовательского интерфейса.

В пятой главе выполнен анализ эффективности применения разработанных моделей и методов и исследование возможностей их применения при построении современных ИС. Точность сбора информации во многом зависит от составленного экспертом поискового дескриптора, и при должном его качестве разработанная универсальная модель метапоиска позволяет обеспечить полноту собираемых коллекций документов. Алгоритм выявления семантически значимой информации имеет высокую производительность и низкую степень ложного срабатывания (табл. 1). В работе показано, что применение данного алгоритма перед этапом индексирования документов позволяет значительно повысить точность выборки документов.

Метод семантической классификации изображений имеет высокую скорость работы и удовлетворительную точность классификации (более 75% между значимыми классами и более 98% между информативными и неинформативными классами). Метод ранжирования документов позволяет учитывать предпочтения эксперта. Результаты ранжирования также во многом зависят от настроек эксперта, но при настройке жесткой фильтрации документов удалось обеспечить 99% релевантных документов в коллекции, при этом ложно было отсеяно менее 7% документов. Применение совокупности предлагаемых методов для построения предметно-ориентированного ХД, позволяет обеспечить высокую точность выборки документов при достаточной полноте всей коллекции.

Рассматриваемые в работе методы и алгоритмы ограничены по области их применения и наиболее эффективны при создании предметно-ориентированных ИС, использующих в качестве основного источника информации среду Интернет и базирующихся на применении хранилищ данных (рис. 6).

Таблица } Эффективность фильтрации информационных блоков

"" .....—-__ А1 Ш

Удалено полностью 74 88 95

Удалено частично 18 7 4

Удалено лишнее 1 3 1

Не обнаружено 7 2 0

Наука

единые базы знаний

мониторинг развития научных направлений

обнаружение актуальных направлений в науке

поиск синтеза технологии

Образование

предметно-ориентированные порталы

электронные средства обучения

библиотеки студенческих работ

, Производство

маркетинговые исследования

мониторинг новеиших средств производства

анализ конкурентов

поиск поставщиков

^ Силовые структуры

обнаружение пропаганды экстремизма и терроризма (ситуационные центры)

мониторинг незаконного оборота запрещенной продукции в сети

Л Социология

мониторинг общественного мнения анализ информации в СМИ

системы анализа и прогнозирования ситуации

Рис. 6. Возможные сферы применения разработанных моделей

Гибкая архитектура разработанного программного комплекса и предлагаемых методов анализа и обработки информации позволяет быстро переориентировать систему, как при использовании базового функционала, так и за счет разработки дополнительных агентов: извлечения данных из текста, классификации, кластеризации, лингвистических анализаторов, подсистем логического вывода и др.

Предлагаемые методы и алгоритмы нашли широкое применение при разработке ИС, реализуемых в рамках НИР, имеющих различные направления исследования, показав тем самым универсальность их применения. Методы были опробованы при построении ИС следующих типов и направлений: информационные ресурсы научно-образовательного назначения (предметная область: искусственный интеллект, CALS, CAD, САМ, САЕ-технологии); информационно-аналитическая система мониторинга, анализа и прогнозирования (предметная область: социология); информационная система мониторинга (предметная область: технология машиностроения).

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Проведен анализ современных Интернет-ориентированных информационных систем, показан их структурный состав, основные недостатки и влияние качества используемых предметно-ориентированных ХД на эффективность работы системы в целом.

2. Разработаны математические модели, формализующие процесс взаимодействия с произвольными сторонними информационно-поисковыми системами, с целью использования их в рамках мультиагентного метапоиска.

3. Создана методика выявления семантически значимой части веб-документа, основывающаяся на алгоритме сравнения объектных моделей документов, с целью фильтрации неуникальной и непостоянной информации в веб-документах.

4. Разработан метод семантической классификации изображений по классам (схема, диаграмма, таблица, снимок экрана, формула, фотография, чертеж, рисунок, миниатюра) на основе использования каскада простых нейронных сетей.

5. Предложен алгоритм ранжирования и фильтрации документов в предметно-ориентированных хранилищах данных, опирающийся на оценки иллюстративности и информативности документа, степени соответствия предметной области, оценку источника получения информации.

6. Разработан универсальный программный комплекс, обеспечивающий мониторинг информации в сети Интернет и формирующий предметно-ориентированное хранилище данных по заданной экспертом предметной области.

7. Предложена открытая архитектура построения информационных систем с использованием мультиагентной стратегии, позволяющая перестраивать программные комплексы под различные области применения.

8. Проведена проверка эффективности разработанных методов и алгоритмов анализа информации: они успешно применены при разработке 3-х информационных систем, выполняемых в рамках НИР по различным предметным областям знаний.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Аверченков В.И., Леонов Е.А. Математическая модель универсальной многоагентной подсистемы метапоиска. Вестник БГТУ. -2011. - №2(30). с. 101-110.

2. Аверченков A.B., Леонов Е.А., Кравцов Д.В. Разработка автоматизированной системы мониторинга и анализа распределенной информации в сети Интернет на основе мультиагентной

стратегии. Известия ОрелГТУ. Серия «Фундаментальные и прикладные проблемы техники и технологии: информационные системы и технологии». - 2008. - №1-4/269(544). - с. 127-133.

3. Аверченков В.И., Аверченков A.B., Леонов Е.А., Кравцов Д.В. Применение многоагентных технологий в автоматизации мониторинга и анализа распределенной информации в Интернет. -Известия ТулГУ Серия Технологическая системотехника. Вып. 14. Труды участников Пятой международной электронной научно-технической конференции «Технологическая системотехника -2006». - Тула: Из-во ТулГУ, 2006. - с. 33-42.

4. Аверченков В.И., Заболеева-Зотова A.B., Казаков Ю.М., Леонов Е.А., Рощин С.М. - Система формирования знаний в среде Интернет - Аверченков, В.И. Система формирования знаний в среде Интернет: монография/ В.И. Аверченков, A.B. Заболеева-Зотова, Ю.М. Казаков, Е. А. Леонов, С.М. Рощин. - Брянск: БГТУ, 2008. -181 с.

5. Аверченков В.И., Аверченков A.B., Леонов Е.А. Создание интернет-ориентированных интеллектуальных информационных систем на базе предметно-ориентированных хранилищ данных. Вестник славянских вузов. -2011. -№3. с. 141-150.

6. Аверченков A.B., Леонов Е.А., Кравцов Д.В. Разработка автоматизированной системы мониторинга и анализа распределенной информации в сети Интернет на основе многоагентной стратегии. Будущее высоких технологий и инновации за молодой Россией: материалы Международного молодежного форума. - Рыбинск: РГАТА, 2009. - с. 41-45.

7. Кравцов Д. В., Леонов Е. А., Разработка автоматизированной системы мониторинга информации в сети Интернет в целях борьбы с распространением идей терроризма и экстремизма. Наука и образование против террора - 2010: сборник работ участников Первого Открытого Конкурса «Наука и образование против террора -2010» г. Москва: МГТУ им. Баумана, 2011. с. 5261.

8. В.И. Аверченков,. Ю М. Казаков, Е.А. Леонов Автоматизация мониторинга и системного анализа распределенной информации в Internet/ -Материалы Всероссийской научно-практической конференции "Технико-технологический и информационный сервис: проблемы и перспективы". Кострома. - К ГУ им. H.A. Некрасова, 2007, с. 117-122.

9. Аверченков A.B., Кравцов Д.В., Леонов Е.А. Применение мультиагентной стратегии при построении автоматизированной системы мониторинга и анализа распределенной информации в сети Интернет. Состояние и перспективы белорусско-российского сотрудничества по подготовке специалистов в Белорусско-Российском университете и филиалах вузов на территории государств-участников Союзного государства: материалы междунар. конф. / М-во образования респ. Беларусь, Белорус.-Рос. Ун-т; редкол.: И.С. Сазонов(гл. ред.) [и др.]. - Могилев: Белор.-Рос. Ун-т, 2008. -с. 59-66.

10. Аверченков В.И., Казаков Ю. М., Леонов Е.А. Система мониторинга и анализа распределенной информации в сети Internet как эффективное средство поддержки принятия решения в государственном муниципальном управлении/ - Материалы межрегиональной научно-практической конференции."Инновационные модели государственного и муниципального управления в контексте политических и административных процессов в современной России".Брянск: БрФ ОРАГС,2007. 422-425 с.

11. Аверченков A.B., Кравцов Д.В., Леонов Е.А. Применение многоагентных информационно-поисковых систем и технологий в науке и образовании. Инновационные образовательные технологии. Научный сборник №4; Отв. ред. Шпинько Э.А. - М: МГУТУ, 2008. - с. 192-193.

12. В.И. Аверченков, A.B. Аверченков, Е.А. Леонов, Д.В. Кравцов. Когнитивные технологии в интеллектуализации поиска информации в Интернет. Новые материалы и технологии - НМТ-2008. Материалы всероссийской научно-технической конференции. Москва, 11-12 ноября 2008 г. В 3-х томах. Т 3. - М.: МАТИ, 2008. - с. 161 -162.

13. Леонов Е.А. Разработка системы мониторинга предметно-ориентированной научно образовательной информации в сети Интернет. Материалы III Международной научно-практической конференции «Достижения молодых ученых в развитии инновационных процессов в экономике, науке, образовании»: в 2ч.: [Текст] + [Электронный ресурс] / под ред. И.А. Лагерева. - Брянск: БГТУ, 2011. -Ч. 1. - 268с. - Режим доступа: http://www.elibrary.ru с. 177-178.

Лицензия №020381 от 24.04.97. Подписано в печать 25.11.11. Формат 60x84 1/16. Бумага типографическая №2. Офсетная печать. Печ. л. 1. Уч. - изд. л. 1. Т. 100 экз.

Брянский государственный технический университет, 241035, г. Брянск, б-р 50-летия Октября, д.7. Лаборатория оперативной полиграфии БГТУ, ул. Институтская, 16.

Текст работы Леонов, Евгений Алексеевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

61 12-5/1295

Брянский государственный технический университет

На правах рукописи

Леонов Евгений Алексеевич

ФОРМАЛИЗАЦИЯ ПРОЦЕССА МОНИТОРИНГА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ ПРИ СОЗДАНИИ ПРЕДМЕТНО-ОРИЕНТИРОВАННЫХ ХРАНИЛИЩ ДАННЫХ

Специальность: 05.13.01 -Системный анализ, управление и обработка информации (промышленность)

Диссертация на соискание учёной степени кандидата технических наук

Научный руководитель:

Заслуженный деятель науки РФ, доктор технических наук, профессор В.И. Аверченков

Брянск 2011

ОГЛАВЛЕНИЕ

Введение....................................................................................................................5

Глава 1. Современные математические модели, применяемые для построения предметно-ориентированных хранилищ данных.....................13

1.1. Обзор основных методов наполнения предметно-ориентированных хранилищ данных.................................................................................................13

1.2. Анализ принципов взаимодействия с внешними информационно-поисковыми системами.......................................................................................17

1.3. Обзор структур данных, используемых в информационных системах .. 23

1.4. Анализ современных методов анализа информации................................25

1.5. Описание принципов работы систем формирования предметно-ориентированных хранилищ данных.................................................................36

1.6. Выводы по главе. Цель и задачи диссертационной работы.....................39

Глава 2. Формализация универсального взаимодействия подсистем метапоиска с ИПС в рамках мультиагентной стратегии.............................41

2.1. Обобщенная структура взаимодействия подсистемы метапоиска с внешними ИПС....................................................................................................41

2.2. Математическая модель описания внутреннего агента метапоиска.......44

2.3. Математическая модель описания внешних информационно-поисковых систем....................................................................................................................48

2.4. Математическая модель функции настройки агента метапоиска на работу с внешней информационно-поисковой системой по ее полному описанию. 52

2.5. Математическая модель поиска документов через внешние ИПС с использованием экземпляра агента метапоиска...............................................57

2.6. Описание принципов работы агента метапоиска, его возможностей применения и усовершенствования...................................................................64

2.7. Выводы по главе...........................................................................................68

Глава 3. Разработка и оптимизация методов анализа и обработки информации при создании предметно-ориентированных хранилищ данных.........69

3.1. Моделирование процесса выявления значимой смысловой части документа и приведение его к универсальной иерархической структуре.....69

3.2. Разработка методов анализа медиаинформации и семантической классификации изображений..............................................................................76

3.3. Обоснование выбора и методы выявления основных критериев качества и пертинентности документов...............................................................................99

3.4. Ранжирование и фильтрация заведомо непертинентных документов в хранилище данных.............................................................................................105

3.5. Выводы по главе.........................................................................................113

Глава 4. Разработка программного комплекса для формирования предметно-ориентированного хранилища данных......................................115

4.1. Разработка архитектуры программного комплекса................................115

4.2. Разработка структуры предметно-ориентированного хранилища данных и его представление в базе данных.....................................................................123

4.3. Разработка подсистемы анализа коллекций изображений и тестирования каскада нейронных сетей..................................................................................131

4.4. Разработка принципов клиент-серверного взаимодействия..................137

4.5. Разработка программных модулей пользовательского интерфейса......140

4.6. Выводы по главе.........................................................................................152

Глава 5. Анализ эффективности разработанных моделей, и исследование возможностей их применения при построении современных информационных систем...................................................................................154

5.1. Оценка эффективности разработанных методов и алгоритмов.............154

5.2. Анализ применения разработанных моделей и методов в современных информационных системах...............................................................................158

5.3. Результаты использования разработанных методов в рамках НИР и

конкурсных работ...............................................................................................166

5.4. Анализ возможных сфер применения разработанных методов.............170

5.5. Выводы по главе.........................................................................................174

Заключение...........................................................................................................176

Список использованных источников.............................................................178

ВВЕДЕНИЕ

Современные информационные системы (ИС) получили широкое распространение во множестве предметных областей. Начиная с 60-х годов прошлого века, велись активные разработки алгоритмов и методов построения интеллектуальных информационных систем исходными данными, которых являлись специализированные базы данных, заполняемые экспертами предметных областей. С повсеместным распространением сети Интернет она стала основным источником информации. В результате чего возникла возможность создания интеллектуальных систем, использующих в качестве основного источника информации сеть Интернет.

При адаптации методов искусственного интеллекта, используемых в классических ИС, к использованию в интернет-ориентированных информационных системах (ИОИС), возник широкий спектр проблем по наполнению хранилищ данных на основе Интернет. Среди таких проблем:

• низкая эффективность методов наполнения хранилищ данных в связи с отсутствием универсальных средств взаимодействия с информационно-поисковыми системами;

• большое количество информации, представленной в виде медиаконтента, что требует дополнительных процедур ее анализа;

• общая высокая зашумленность информации в среде Интернет;

• наличие в веб-документах большого количества информации их не характеризующей.

метной области информационной системы. Также не менее важным является фильтрация заведомо непертинентных документов, появление которых в коллекции может быть вызвано наличием большого объема поискового спама в сети. Имеется высокая зависимость качества работы всей ИС и используемых в ней методов анализа от исходной коллекции анализируемых документов. В связи с этим, данная работа, направленная на формализацию и усовершенствование методов и алгоритмов мониторинга информации из сети Интернет, является актуальной и требующей решения.

Цель работы - формализовать процесс мониторинга информации в сети Интернет и усовершенствовать методы анализа информации, используемые при построении предметно-ориентированных хранилищ данных с целью повышения эффективности работы Интернет-ориентированных информационных систем. Для достижения поставленной цели необходимо решить следующие задачи.

3. Разработать классификатор изображений используемых в документах для обнаружения иллюстраций контента и определения их типа.

4. Разработать методы фильтрации заведомо непертинентных документов в хранилище данных, с целью уменьшения его объема и повышения точности.

6. Создать информационную систему, основанную на разработанных программных средствах автоматизации мониторинга сети Интернет, с целью проверки эффективности предлагаемых методов и алгоритмов. Методология и методы исследования. В основу исследований положены основные научные положения теории информационного поиска и искусственного интеллекта; математический аппарат и методы теории множеств и логики предикатов; теории искусственных нейронных сетей; теории нечетких множеств и лингвистических переменных. При разработке программной реализации использовалась объектно-ориентированная технология проектирования, а также теория мультиагентных систем.

4) предложено использование алгоритма нечеткого логического вывода типа Мамдани для ранжирования документов в условиях ограниченности коллекции по предметной области на основе учета их информативности.

Практическую ценность работы составляют:

Реализация результатов работы. Результаты исследований и разработанный программный комплекс нашли широкое применение и были использованы в рамках исследований по следующим НИР: «Создание отраслевой системы доступа к информационным ресурсам научного и образовательного назначения по приоритетным направлениям развития науки и техники в области искусственного интеллекта и CALS-, CAD-, САМ-, CAE-технологий» (гос. per. № 01 2006 05586); «Разработка теории построения инструментальной среды создания многоагентных систем интеллектуализации поиска и анализа данных в глобальных вычислительных сетях» (гос. per. № 01 2009 54253); «Создание информационно-аналитической системы мониторинга, анализа и прогнозирования процесса подготовки научных кадров в вузах и научных организациях с учетом приоритетных направлений развития экономики и социальной сферы федерального округа» (гос. per. № 01 2009 54245); «Разработка математических моделей, информационного и программного обеспечения для поддержки инновационных решений в области высоких технологий наукоёмких производств» (гос. per. № 01 2009 54252).

Выполнен обзор основных методов наполнения предметно-ориентированных ХД. Для этого проведена классификация источников информации по их назначению, принципам работы. Рассматриваются достоинства и недостатки существующих методов наполнения предметно-ориентированных ХД с точки зрения уровня их автоматизации, качеству предоставляемой информации.

Для разработки алгоритмов эффективного сбора информации были проанализированы основные принципы взаимодействия пользователя с ИПС. Проведена классификация ИПС по структуре их ответа и особенностей его разбора.

В рамках задачи разработки алгоритма для обработки документов с целью выявления уникальной значимой смысловой части выполнен обзор существующих смежных решений.

Проведен обзор существующих методов анализа медиаинформации и выявлены основные их недостатки, ограничивающие их широкое применение в предметно-ориентированных ИС. Показана актуальность применения наряду с известными методами анализа, дополнительной классификации изображений по следующим классам: схема, диаграмма, таблица, снимок экрана, формула, фотография, чертеж, рисунок, миниатюра.

В работе выполнен анализ основных математических методов ранжирования документов в ограниченных коллекциях. Подробно рассмотрены алгоритмы, основанные на расчете взвешенной цитируемости {PageRank). Обоснована его низкая эффективность при применении в ИС, основывающихся на ограниченных по предметной области коллекциях документов.

В заключении главы описаны принципы работы систем формирования предметно-ориентированного ХД. Для этого обосновывается выбор мультиа-гентной стратегии построения ИС; описываются принципы и форматы взаимодействия между агентами; определены необходимые группы агентов, а также

описано их назначение и требования к ним и набора входных и выходных данных.

Для осуществления сбора документов из различных источников (электронные энциклопедии, электронные каталоги, тематические ресурсы и ИПС) были разработаны математические модели и алгоритмы универсального взаимодействия, позволяющие создать подсистему метапоиска, которая учитывает все особенности, возможности и параметры поиска сторонних ИПС, а также предоставляет возможности быстрой перенастройки и добавления ИПС в подсистему метапоиска.

В главе описаны математические модели описания агента метапоиска, описания поисковых систем, функции настройки агента метапоиска, поиска документов. Основной идеей данных моделей является вынесение всех уникальных особенностей подключаемой системы поиска в отдельное описание, независящее от программного кода агента метапоиска.

Разработанные модели являются универсальными для любого типа ИПС. Для метапоиска могут быть использованы ресурсы следующих типов: универсальные глобальные ИПС (Google, Yandex, Bing, Yahoo, Rambler, Mail и др.); сервисы поиска на отдельных ресурсах (wiki, форумы, каталоги); автоматические системы поиска, имеющие программные интерфейсы взаимодействия.

Первым этапом обработки информации в веб-документах является задача приведения языков гипертекстовой разметки к естественному языку. Для этого был разработан алгоритм выявления семантически значимой части документа. Основным назначением, которого является фильтрация избыточной информации в рамках одного веб-документа, такой как: средства навигации по сайту; информация рекламного характера; информация, предназначенная для создания общего стиля документов одного источника, и др.

Описан алгоритм, в котором проводится сравнение трех веб-документов: анализируемый документ; его обновленная копия; документ с того же доменного имени и в результате которого удается выделить уникальную статическую часть, представляющую собой главный информационный б�

Похожие работы

Информатика, вычислительная техника и управление
05.13.00