Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации

Чугреев, Валерий Леонидович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации

кандидата технических наук: Чугреев, Валерий Леонидович
город: Санкт-Петербург
год: 2003
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации»

Автореферат диссертации по теме "Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации"

На правах рукописи

Чугреев Валерий Леонидович

МОДЕЛЬ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И МЕТОД ЕЕ ТЕМАТИЧЕСКОГО АНАЛИЗА НА ОСНОВЕ ЧАСТОТНО-КОНТЕКСТНОЙ КЛАССИФИКАЦИИ

Специальность: 05.13.01 - Системный анализ, управление и обработка информации (технические системы)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2003

Работа выполнена в Санкт-Петербургском государственном электротехническом университете «ЛЭТИ» им. В.И. Ульянова (Ленина)

Научный руководитель -

доктор технических наук, профессор Яковлев С.А.

Официальные оппоненты:

доктор технических наук, профессор Осипов Л.А. кандидат технических наук, доцент Татарникова Т.Н.

Ведущая организация - Санкт-Петербургский институт

информатики и автоматизации Российской академии наук

Защита состоится " <о " 2003 г. в часов на заседании

диссертационного совета Д 212.238.07 Санкт-Петербургского государственного электротехнического университета «ЛЭТИ» им. В.И. Ульянова (Ленина) по адресу: 197376, г. Санкт-Петербург, ул. Проф. Попова, 5.

С диссертацией можно ознакомиться в библиотеке университета.

Автореферат разослан " 9 " 2003 г.

Ученый секретарь диссертационного совета

Яшин А.И.

" '57^2-

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Накопленные к настоящему времени колоссальные объемы информации, в совокупности с непрерывно увеличивающимися темпами ее роста, определяют актуальность и значимость исследований в области информационного поиска.

Существует широкий спектр предлагаемых решений и перспективных направлений исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов анализа во многом зависит эффективность существующих поисковых систем, т.к. они являются основой любой поисковой системы и во многом определяют возможности и ограничения этих систем.

Помимо этого существует еще один важный фактор, определяющий, на наш взгляд, эффективность любого информационного поиска - это человеческий фактор. Именно этот фактор не учитывается в достаточной мере в современных информационно-поисковых системах. А именно, не учитывается тот факт, что во многом поиск определяется слабо формализуемыми и нечеткими условиями, в значительной степени зависящими от опыта и предпочтений самого человека. Далеко не всегда пользователь информационно-поисковой системы может четко и однозначно сформулировать именно тот набор ключевых слов, который и приведет его к искомому результату. Речь идет о варианте поиска на основе формирования информационных запросов, состоящих из набора ключевых слов и некоторых управляющих элементов языка запроса.

Сложность формирования информационных запросов может быть обусловлена: незнанием набора ключевых слов, однозначно определяющих искомый документ; отсутствием достаточного опыта и квалификации формирования таких запросов; отсутствием принятой и устоявшейся терминологии в интересующей области. Нередко человек, осуществляющий поиск, имеет самое приблизительное представление об интересующей его тематике.

Все это обуславливает актуальность и значимость исследований, направленных на решение одной из ключевых проблем информационного поиска - проблемы адекватного отображения информационных потребностей пользователей.

Одним из вариантов решения этой проблемы является поиск документов по образцу, когда человек задает некоторый документ в качестве образца, а система, реализующая данный вариант поиска подбирает докумашзл подобные заданному (подобные по содержанию, тeмa^икeX'cf¡^^^AHA5,1

Анализ существующих исследований, посвященных решению задач поиска документов по образцу, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач тематического анализа неструктурированной, естественно-языковой текстовой информации произвольного содержания. Эффективное решение задач такого анализа, применительно к реализации поиска документов по образцу, и составляет суть диссертационной работы.

Цель работы - разработка метода тематического анализа неструктурированной текстовой информации для эффективного решения задач поиска документов по образцу.

Достижение этой цели основывается на представлении запроса пользователя в виде документа образца и реализации метода эффективного анализа тематики документов. В качестве критерия эффективности выступает точность тематического анализа.

Задачи работы. Решение задач поиска документов по образцу предполагает решение двух основных задач:

- выделение тематики документов;

- вычисление тематической близости документов.

Обе эти задачи относятся к задачам классификации - отнесение документа по его тематическому представлению к некоторому классу и определение меры близости между различными классами документов.

Задачи формулируются следующим образом:

1. Тематическая классификация текстовой информации.

2. Вычисление степени тематической принадлежности текста к образцу.

Объект исследования - системы информационного поиска.

В данной работе это одна из разновидностей информационного поиска -поиск документов по образцу. Это вариант поиска, реализуемый на основе предварительного выбора пользователем некоторого документа в качестве образца, по которому затем осуществляется поиск тематически близких ему документов, с последующим ранжированием результатов поиска по величине тематической близости к документу образцу.

Предмет исследования - тематический анализ неструктурированной текстовой информации.

Методы исследования. Для решения поставленных задач использовались статистический анализ, теория множеств и теория графов.

Положения, выносимые на защиту:

1. Графовая модель структурного представления текста произвольного содержания.

2. Метод частотно-контекстной классификации тематики текста.

3. Алгоритм вычисления степени тематической принадлежности текста к образцу.

4. Алгоритм поиска значений информационных признаков тематики текста.

Научная новизна полученных результатов.

Основная научная новизна состоит в том, что разработанная модель, метод и алгоритмы позволяют эффективнее решать задачи поиска документов по образцу, в том числе:

1. Графовая модель структурного представления текста произвольного содержания отличается учетом связности и последовательности текста, что позволяет более полно отразить его семантическое содержание.

2. Метод частотно-контекстной классификации тематики текста отличается дополнением частотно значимых слов контекстно-связанными с ними словами, что позволяет более точно отобразить тематику текста.

3. Алгоритм вычисления степени тематической принадлежности текста к образцу отличается использованием частотных весов отдельных слов с учетом их контекстной спецификации, что позволяет более точно вычислить степень тематической принадлежности произвольного текста к тексту-образцу.

4. Алгоритм поиска значений информационных признаков тематики текста отличается минимизацией разницы экспертных и вычисленных оценок тематической принадлежности, что позволяет более точно классифицировать тематику текста и учесть субъективную составляющую при определении степени тематической принадлежности.

Значимость полученных результатов для теории и практики.

Научная значимость диссертации состоит в развитии методов тематического анализа и решении задач поиска документов по образцу. Полученные результаты могут использоваться как при решении конкретных задач поиска документов по образцу, так и для решения общих задач тематического анализа и обработки речевых высказываний.

Разработанная модель, метод и алгоритмы позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач поиска документов по образцу позволяет значительно повысить качество и эффективность такого поиска.

Также в диссертации заложен базис для дальнейшей теоретической и практической проработки методик экспериментальной оценки корректности и эффективности методов и алгоритмов тематического анализа.

Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в Управлении по делам гражданской обороны и чрезвычайным ситуациям г. Вологды, Администрации г. Вологды, ООО "Премьер-Информ".

Реализация результатов работы. Представленные в работе результаты были успешно реализованы в программном исполнении, в виде объектно-ориентированной библиотеки классов на языке С#.

Данная библиотека нашла свое применение в ряде инженерных проектов, ориентированных на решение задач документооборота и информационно-справочного обеспечения.

Апробация работы. Основные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях и семинарах:

- на общероссийской научно-технической конференции "Вузовская наука - региону" (Вологда 2003 г.);

- на международной научно-технической конференции "Информатизация процессов формирования открытых систем на основе САПР, АСНИ, СУБД и систем искусственного интеллекта (ИНФОС - 2003)" (Вологда 2003 г.).

Публикации. По теме диссертации опубликовано 6 научных статей.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 133 наименования, и одного приложения. Основная часть работы изложена на 139 страницах машинописного текста, содержит 15 рисунков, 55 формул и 14 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, приведено краткое содержание работы.

В первой главе проведен анализ текущего состояния информационно-поисковых систем, современного состояния исследований в области поиска документов по образцу и существующих методов тематического анализа.

Рассмотрены два основных варианта поиска:

1) Библиографический поиск или поиск "по каталогу".

2) Тематический поиск или поиск "по тексту".

Перечислены их достоинства и недостатки.

В соответствии с ними приведена классификация информационно-поисковых систем и рассмотрены их особенности.

Выполнен анализ специфики поиска в Интернете. Отмечены следующие особенности:

• большое количество доступных документов;

• высокая динамика обновления информационных ресурсов;

• взаимосвязь страниц, реализуемая гиперссылками;

• свободная публикация документов и неконтролируемое качество;

• избыточность;

• разнородность пользователей;

• многоязычность документов.

На основе этих особенностей сформулированы основные требования к современным информационно-поисковым системам и перечислены перспективные направления исследований.

Рассмотрены основные модели поиска:

• простейшие модели;

• модели, основанные на классификаторах;

• булевские модели;

• векторные модели;

• вероятностные модели;

• сети вывода.

Проведен анализ существующих методов тематического анализа текстовой информации и выделено две основные группы методов:

• лингвистический анализ;

• статистический анализ.

В группе методов лингвистического анализа рассмотрен лексический, морфологический, синтаксический и семантический анализ. В группе статистических методов рассмотрен латентно-семантический анализ.

Проанализировано современное состояние исследований в области поиска документов по образцу. Общую схему такого поиска можно представить в следующем виде (рис. 1).

Документ-образец Документы, анализируемые

на тематическую близость

Существует документ-образец и некоторая коллекция доступных документов. Выполняется предварительный отбор из коллекции документов, и затем, для отобранных документов вычисляется тематическая близость.

Вычисленные оценки тематической близости .....\у„ используются при

ранжировании документов по тематической близости к документу образцу.

Выполнена постановка задач работы и сформулирована ее цель.

Отмечено, что направленность данной работы - это реализация адекватного отображения информационных потребностей пользователей, на основе представления пользовательских запросов в виде документа-образца. В данной работе основное внимание уделено вопросам вычисления тематической близости документов и решению связанных с ними задач. Вопросы самого поиска, т.е. предварительного отбора документов, в работе не рассматриваются. Реализация предварительного отбора документов из больших коллекций, например Интернета, вполне успешно решается существующими методами поиска.

Во второй главе проведена разработка и теоретическое обоснование модели структурного представления текстовой информации, а также метода и алгоритмов ее тематического анализа.

1. Графовая модель структурного представления текста произвольного содержания.

Суть предложенного подхода заключается в моделировании структуры текста информационным потоком и формировании этим потоком ориентированного мультиграфа, вершинами которого являются слова, а ребрами - связи между словами в тексте. Этот мультиграф является информационной структурой текста.

Информационный поток - это детерминированный поток событий, принадлежащих конечному множеству. Временной интервал между событиями нас не интересует, интересует только последовательность событий. События -это слова, а конечное множество - это множество всех уникальных слов, присутствующих в анализируемом тексте. Информационный поток эквивалентен временному ряду номинальных (категориальных) величин.

Под информационной структурой понимается совокупность всех слов и связей между ними. Информационный поток, по сути, моделирует динамику некоторого процесса, в данном случае текста, а информационная структура является статическим представлением информационного потока.

Переход к модели структурного представления текста осуществляется следующим образом.

1) Текст рассматривается в виде информационного потока, образованного информационными элементами - словами.

Если последовательно брать слова из текста, начиная с самого первого и кончая последним, то это как раз и будет информационный поток Б.

При этом набор всех слов в тексте можно выделить в конечное множество уникальных информационных элементов: I = {¡ь ¡2, ..., ¡п}> где 1 -информационный элемент соответствующий уникальному слову текста.

Информационный поток Б, описывающий текст, будет представлен в виде набора этих элементов: Б = Оь 1Ш), еЛ 1к - соответствует первому, ¡т - последнему слову в тексте.

Порядок чередования информационных элементов в Б зависит от их последовательности в тексте. Информационные элементы в потоке могут повторяться. Обязательное условие - однозначное соответствие информационного элемента слову из текста. Одинаковые слова в тексте соответствуют одному и тому же информационному элементу.

Пример. Информационный поток соответствующий заданному фрагменту текста: Б = (13, ¡6, \ъ Ь, г2, ¡п, ¡9, Ч, Мо> ¡з, "5, Ч. Ь, ¡ь ¡8, ¡9, Ч, Мо, 15)-

2) Поток формирует структуру.

Если учесть, что слова в тексте повторяются, то, соответственно, можно допустить, что информационный поток будет многократно проходить через одни и те же информационные элементы, формируя, таким образом, связанную информационную структуру текста. Для вышеприведенного примера информационная структура будет выглядеть следующим образом (рис. 2).

Для каждого повторного прохождения потока через одну и ту же пару информационных элементов, необходимо формировать дополнительные связи -ребра. Такая структура описывается в виде мультиграфа. Для удобства отображения мультиграфа (рис. 2) информационный поток индексируется, и каждому ребру графа, соединяющего пару вершин, приписывается множество индексов соответствующих прохождению информационного потока через данную пару. Индексация информационного потока означает, что каждому переходу между двумя информационными элементами будет поставлен в соответствие индекс, начиная с единицы, с последовательным его июфементом. Далее в работе приводятся дополнительные обозначения и характеристики информационной структуры.

Рис. 2. Структура, формируемая информационным потоком

На базе представленной модели выполнена разработка метода и алгоритмов тематического анализа для решения задач данной работы;

1) тематической классификации текстовой информации;

2) вычисления степени тематической принадлежности текста к заданному классу.

2. Метод частотно-контекстной классификации тематики текста.

Предлагаемый подход к тематической классификации текстовой информации основывается на гипотезе о том, что словарный запас и частоты использования слов зависят от темы текста.

Тематическая классификация предполагает выделение множества ключевых слов, определяющих тематику текста. При этом каждому из них приписывается вес, определяющий значимость данного слова в тематике, т.е. какие-то ключевые слова играют большую роль в определении тематики, какие-то меньшую, но именно такая совокупность слов, с такой значимостью .каждого из них в тематике и определяет тематическую направленность.

Такой подход обеспечивает снижение размерности решаемой задачи за счет перехода от основного текста к его представлению в виде множества ключевых слов, приближенно описывающих его содержание. Это необходимо, прежде всего, для последующей тематической идентификации сравниваемых текстов. Задача классификации в данном случае сводится к задаче отнесения текста к некоторому тематическому классу, описываемому множеством ключевых слов. Замечание: тематические классы в этом случае не определены заранее, их формирование, а также идентификация и отнесение текста к тому или иному классу происходит в процессе анализа текста.

Ключевые слова определяются по количеству их вхождений в текст, а именно - частота- ключевых слов в тексте выше других слов. В рамках рассматриваемой модели структурного представления текста это будет означать, что через данные слова чаще проходит информационный поток, и информационные элементы, соответствующие этим словам, имеют большее количество связей с другими информационными элементами.

Проблема заключается в определении порога (автоматизированном, машинном определении), который отделяет ключевые слова от всех остальных. у

Автором выдвигается гипотеза о том, что корректное и адекватное машинное представление тематики текста должно включать в себя не только ключевые слова, но и контекст этих слов, т.к. смысл любого слова определяется исключительно в контексте тех слов, которые употреблялись вместе с ним, близко, рядом по тексту. И сами по себе ключевые слова в отрыве от их контекста не отражают в полной мере тематическую направленность текста. Существующие исследования в психолингвистике подтверждают данный тезис.

., .Необходимость дополнения ключевых слов контекстом определяется также соображениями практического характера. Суть этих соображений заключается в следующем.

Особенности частотного распределения слов в тексте могут значительно затруднить выбор пороговой величины и снизить качество последующего анализа документов на тематическую близость. Например, ситуация частотного выброса одного из слов. Непонятно при этом, какой необходимо устанавливать порог отсева, если частота повторений одного слова значительно превосходит все остальные, а все остальные при этом имеют одинаковую частоту. Либо устанавливать порог для выделения одного ключевого слова, или опускать порог и брать все слова текста в качестве тематики. И тот, и другой вариант неприемлемы, в одном случае тематика текста будет представлена в виде одного слова, в другом - тематикой будут все слова. Организация последующего поиска тематически близких документов (текстов), на основе множества ключевых слов, выступающих в качестве поискового запроса, представляется в этом случае весьма проблематичной. Если поисковый запрос представлен одним словом - результат поиска может дать незначительное число тематически близких документов, если поисковый запрос представлен всеми словами документа, то результат поиска может дать слишком много тематически "далеких" документов.

Дополнение ключевых слов контекстом в этом случае является вполне разумным и приемлемым вариантом решения данной проблемы.

Общая последовательность метода выглядит следующим образом.

1) Моделирование текста и формирование его информационной структуры.

2) Выделение множества всех информационных элементов, ранжированных по их числу повторений в тексте.

3) Выделение множества ключевых элементов 8Р.

Из множества всех информационных элементов (полученных на предыдущем этапе) берем п первых (п определяется на основе пороговой величины), которые будут первичным множеством ключевых элементов

8р={к111, к21г.....кп1„}, весовые коэффициенты к], кг, ..., кп определяют

значимость того или иного информационного элемента в данной тематике.

4) Формирование уточняющего множества Б« на основе контекстного анализа информационных элементов множества Бр.

Контекстный анализ основан на анализе окрестностей информационных элементов, по ранее сформированной информационной структуре, подробно он рассматривается в тексте диссертации.

5) Получение общего множество ключевых элементов, определяющее тематику текста: в = Бр +

Результатом метода является множество Б = {к^, к212,..., кп!п}.

3. Алгоритм вычисления степени тематической принадлежности текста к образцу.

Есть текст-образец, и есть некоторый произвольный текст, необходимо количественно оценить, насколько близка тематика произвольного текста к

тематике заданного текста образца, т.е. вычислить степень тематической принадлежности текста к образцу. Далее для краткости будем использовать термин тематическая близость.

И произвольный текст, и текст-образец могут быть представлены в виде тематических классов, метод частотно-контекстной классификации, позволяет это сделать. Необходимо вычислить тематическую близость двух произвольных тематических классов, заданных множествами ключевых элементов (слов).

Пусть S = {kiij, k2i2, ..., k„in} - множество ключевых элементов текста образца; Sf= {knij, kQi2,..., kfti„} - множество ключевых элементов некоторого найденного в результате поиска текста (документа найденного информационно-поисковой системой), который нам необходимо проанализировать на тематическую близость по отношению к тексту образцу.

Тематическую близость со, по каждому из информационных элементов будем вычислять как:

т ^¡тт L. max

^imin = ^I'^lmrn = к <?> k( <kfi, ^¡min = ^fi> ^/max = kl kjj < kj.

Коэффициент общей тематической близости для всего текста, будет вычисляться как сумма всех cot:

а = 2 <»1 ■

i=i

Вычисляя со для каждого найденного текста (документа) можно выполнить ранжирование этих документов по тематической близости.

Учет контекста. Рассмотренный выше способ расчета тематической близости необходимо дополнить одним важным соображением. Как уже было сказано выше, значение слова определяется по его контексту, по тем словам, которые употреблялись вместе с ним. Особенно это значимо при вычислении тематической близости. Одно и то же слово, присутствующее в S и Sf, может нести в себе совершенно разный смысловой оттенок, смысловую нагрузку. И простого сравнения весовых коэффициентов недостаточно для корректного вычисления тематической близости, необходимо еще учитывать контекст слов.

В работе предлагается способ учета контекста на базе самого текста (документа), без дополнительного анализа документов коллекции. Этот способ реализован на основе контекстного анализа, подробно он рассмотрен в диссертации.

4. Алгоритм поиска значений информационных признаков тематики текста.

Вычисление тематической близости текстов предполагает предварительное выделение ключевых слов этих текстов с некоторыми весами

и последующее их сравнение между собой, т.е. вычисление меры их близости. Сами тексты при этом не сравниваются, речь идет о переносе оценки близости ключевых слов на весь текст. Очевидна при этом условность такой оценки и значительное влияние на результат параметров, используемых при выделении тематики. Кроме того, необходимо отметить исключительную субъективность самого понятия тематической близости текстов. Это понятие предполагает значительную роль и участие человека в оценке тематической близости текстов. У человека есть некоторые ожидания относительно искомых текстов (документов) и их соответствия тексту (документу) образцу. Предполагаемая человеком оценка может в значительной мере отличаться от вычисленной оценки приближенного представления текстов.

Для корректного вычисления тематической близости необходимо учитывать как параметры, использованные при выделении тематики, так и субъективную составляющую. Это предполагает реализацию некоторого варианта предварительной настройки и поиска оптимальных параметров тематики текста, названных информационными признаками.

Реализуется такой поиск минимизацией разницы экспертных и вычисленных оценок тематической близости текстов. Подробно алгоритм рассматривается в тексте диссертационной работы.

Третья глава посвящена практической реализация модели структурного представления и метода тематического анализа текста. В ней рассмотрены вопросы организации поиска, на основе предложенных в работе результатов, а также приведена их конкретная реализация в виде объектно-ориентированного программного кода на языке С#.

Рассмотрен вариант тематической классификации нескольких текстов на основе обобщения множества тематически близких документов. Данный вариант реализуется конкатенацией текстовых фрагментов, т.е. один текст добавляется к другому, и информационный поток описывает уже не один, а несколько текстов. Тематическое обобщение множества документов в единую информационную структуру позволяет организовать поиск на основе нескольких, уже найденных к этому моменту, документов. Документом-образцом в этом случае выступает не один, а несколько документов.

Обобщенное множество текстов также позволяет организовать всю терминологическую базу найденных документов в связанную структуру. И эту структуру можно использовать для расширения произвольно заданного набора ключевых слов.

Рассмотрен способ организации поиска документов по образцу на базе представленных в работе результатов. Поиск планируется выполнять с помощью стандартных, отработанных методов, реализуемых в настоящее время поисковыми системами. В частности, это вариант векторной модели поиска или взвешенной булевой. Такой вариант поиска предполагает формирование поискового запроса, состоящего из множества ключевых слов. Это множество

получается с помощью приведенного в работе метода частотно-контекстной классификации. На его основе формируется поисковый запрос, который отрабатывает поисковая система. Это может быть уже существующая поисковая система, с которой интегрируется предложенный метод и алгоритмы, или уникальная реализация под конкретную задачу. По результату поиска получается множество документов. Используя алгоритм вычисления степени тематической принадлежности текста к образцу, эти документы анализируются, вычисляется их тематическая близость по отношению к документу образцу, и затем они ранжируются по величине близости.

Рассмотрены этапы предварительной обработки текста, которая включает в себя.

1) Лексический анализ. На этом этапе выделяются отдельные слова из текста.

2) Исключение часто используемых слов. В любом тексте существует большое количество слов, используемых в качестве союзов, предлогов, местоимений и т.д., так называемые "стоп-слова", ("stop-words"). Такие слова традиционно исключаются поисковыми системами при анализе документов.

Как правило, эти слова не определяют тематику текста, но при этом являются частотно-значимыми. Это затрудняет выделение тематики на основе анализа статистики слов. Такие слова необходимо исключать из текста.

Данная процедура выполняется на основе предварительно составленного списка наиболее часто встречающихся слов в документах - списка игнорируемых слов.

3) Морфологический анализ. На этом этапе слова приводятся к базовой форме. Например, слова: компьютеры, компьютером, компьютера, компьютеру и т.д., заменяются на слово компьютер.

После предварительной подготовки текста, выполняется его обработка и тематический анализ по приведенным ранее модели, методу и алгоритмам.

Также в данной главе приведены фрагменты программного кода, демонстрирующие конкретные аспекты практической реализации представленных в работе результатов.

В четвертой главе представлены результаты экспериментальных исследований разработанных в диссертационной работе метода и алгоритмов тематического анализа на заданной коллекции тестовых документов.

1) Метод частотно-контекстной классификации тематики текста.

Само понятие тематики заведомо предполагает субъективный характер оценки получаемых результатов. Только человек может оценить, насколько тематика (машинное представление темы текста) адекватна субъективному представлению пользователя о содержании текста. Также необходимо отметить сильную зависимость от текста, адекватность и корректность выделения тематики можно оценить только по реальному тексту. Все это определяет характер и особенности проведения экспериментальных исследований метода

частотно-контекстной классификации тематики текста. Единственно возможный способ его прямой оценки - это приведение примеров выделения тематики для некоторых заданных текстов. Эти примеры представлены в диссертационной работе.

Помимо этого, существует возможность косвенной оценки метода на основе экспериментальных исследований алгоритма вычисления степени тематической принадлежности текста к образцу, т.к. корректность вычисления тематической близости напрямую зависит от корректности выделения . тематики. В диссертационной работе разработан один из вариантов такой

оценки, его описание приводится ниже.

2) Алгоритм вычисления степени тематической принадлежности текста к образцу.

Корректность и адекватность данного алгоритма, а вместе с ним метода частотно-контекстной классификации тематики текста можно оценить по сходимости следующего условия:

щ -ИоЦ -и>2|->0, где \У|, \у3 - степени тематической близости текстов Ть Т2, Т3 (рис. 3).

Т,

Смысл этого условия заключается в том, что тематически близкие тексты Тз и Т2, будут одинаково тематически близки по отношению к Т,. Точнее сказать, чем выше тематическая близость текстов Т3 и Т2, тем меньше разница тематической близости этих текстов по отношению к Т^ Единица в нашем случае соответствует максимальному значению тематической близости. На рис. 4 приведен график, соответствующий данному условию.

Рис. 4. Идеальный график распределения величин тематической близости

Оценка сходимости условия выполнена путем вычисления \уь \у2, \уз для множества комбинации из трех документов. Результат распределения вычисленных значений представлен на рис. 5.

Рис. 5. Реальный график распределения величин тематической близости

Как видно из полученных результатов, указанное условие действительно выполняется.

3) Алгоритм поиска значений информационных признаков тематики текста.

Проверка данного алгоритма осуществлена путем проведения нескольких серий экспериментов. Для каждой серии были заданы экспертные оценки тематической близости некоторых текстов, по этим оценкам был осуществлен

подбор оптимальных параметров и последующее вычисление тематической близости текстов. Ошибка вычислений составила не более 8%.

4) Сравнение точности вычисления тематической близости.

Помимо проверки корректности и адекватности метода и алгоритмов, выполнена оценка их эффективности в сравнении с уже существующими подходами. Точность вычислений, предложенным в работе алгоритмом вычисления степени тематической принадлежности к образцу, сравнивалась с точностью вычислений полученных традиционным (для большинства информационно-поисковых систем) способом расчета меры близости векторов по косинусу угла, определяемого через скалярное произведение векторов:

/ ч (Vе-Г") со8(у)= | .

IV • к

где V и Г4-сравниваемые вектора.

Оценка показала, что точность вычислений, полученных с помощью представленного в работе алгоритма вычисления степени тематической принадлежности текста к образцу, выше точности вычислений полученных с помощью косинусной меры, приблизительно на 30%.

Экспериментальные исследования проведены на заданной коллекции текстов, содержание текстов приводится в приложении диссертации.

В заключении подведены итоги проделанной работы, сформулированы основные результаты и направления дальнейших исследований.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Графовая модель структурного представления текста произвольного содержания, позволяющая отобразить семантическую связность и последовательность текста в виде структуры.

2. Метод частотно-контекстной классификации тематики текста, позволяющий выделять тематику текста в виде множества ключевых слов с весами, характеризующими значимость данных слов в тематике.

3. Алгоритм вычисления степени тематической принадлежности текста к образцу, позволяющий получать количественную оценку тематической близости текстов.

4. Алгоритм поиска значений информационных признаков тематики текста, позволяющий учесть субъективный характер оценки тематической близости текстов, и настроить систему, реализующую поиск документов по образцу под конкретного пользователя.

СПИСОК ОПУБЛИКОВ АНН ЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1.Чугреев В.Л., Моделирование систем искусственного интеллекта. // Перспективные технологии автоматизации: Тезисы докладов международной электронной научно-технической конференции. - Вологда: ВоГТУ, 1999. -стр. 151-152.

2. Чугреев В Л., Моделирование систем искусственного интеллекта. // Молодые исследователи - региону: Тезисы докладов Второй областной межвузовской студенческой научной конференции. - Вологда: ВоГТУ, 2000. -стр. 5-6.

3. Чугреев В.Л., Расширение искусственных нейронных сетей применительно к задачам прогнозирования. // Молодые исследователи -региону: Материалы межрегиональной научной конференции студентов и аспирантов. - Вологда: ВоГТУ, 2002. - стр. 231-232.

4. Чугреев В.Л., Яковлев С.А., Выделение критериев поиска текста на основе подобия значимых документов. // ВУЗОВСКАЯ НАУКА - РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. - Вологда: ВоГТУ, 2003. -стр. 200-202.

5. Чугреев В.Л., Яковлев С.А., Анализ структуры текста и прогнозирование нечисловых величин. // ВУЗОВСКАЯ НАУКА - РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. - Вологда: ВоГТУ, 2003. -стр. 202-204.

6. Чугреев В.Л., Яковлев С.А., Анализ текста, применительно к решению задач поиска документов по образцу. // Информатизация процессов формирования открытых систем на основе САПР, АСНИ, СУБД и систем искусственного интеллекта (ИНФОС - 2003): Материалы 2-й Межд. науч.-техн. конф. - Вологда: ВоГТУ, 2003. - стр. 49-52.

Подписано в печать 07.10.2003. Формат 60x84/16. Отпечатано с готового оригинал-макета в типографии ЗАО «КопиСервис». Печать ризографическая. Заказ № 2/710. П. л. 1.0. Уч.-изд. 1.0. Тираж 100 экз.

ЗАО «КопиСервис», 194017, Санкт-Петербург, Скобелевский пр., д. 16 тел.: (812) 234 4333

2.005-/4

^ 15 7 4 2

Оглавление автор диссертации — кандидата технических наук Чугреев, Валерий Леонидович

ВВЕДЕНИЕ.

1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ.

1.1. Введение в информационно-поисковые системы.

1.2. Обзор моделей поиска и методов тематического анализа текстовой информации.

1.4. Постановка задач исследования.

1.5. Выводы.

2. РАЗРАБОТКА МОДЕЛИ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ И МЕТОДА ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА.

2.1. Графовая модель структурного представления текста произвольного содержания.

2.2. Метод частотно-контекстной классификации тематики текста.

2.3. Алгоритм вычисления степени тематической принадлежности текста к образцу.

2.4. Алгоритм поиска значений информационных признаков тематики текста.

2.5. Выводы.

3. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ МОДЕЛИ СТРУКТУРНОГО ПРЕДСТАВЛЕНИЯ И МЕТОДА ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТА.

3.1. Организация поиска.

3.2. Программная реализация графовой модели структурного представления текста произвольного содержания.

3.3. Программная реализация метода частотно-контекстной классификации тематики текста.

3.4. Программная реализация алгоритма вычисления степени тематической принадлежности текста к образцу.

3.5. Программная реализация алгоритма поиска значений информационных признаков тематики текста.

3.6. Выводы.

4. ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ.

4.1. Планирование эксперимента.

4.2. Результаты экспериментальных исследований метода частотно-контекстной классификации.

4.3. Результаты экспериментальных исследований алгоритма вычисления степёни тематической принадлежности текста к образцу.

4.4. Результаты экспериментальных исследований алгоритма поиска значений информационных признаков тематики текста.

4.5. Результаты экспериментальных исследований сравнения точности вычисления тематической близости.

4.5. Выводы.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Чугреев, Валерий Леонидович

Накопленные к настоящему времени колоссальные объемы информации, в совокупности с непрерывно увеличивающимися темпами ее роста определяют актуальность и значимость исследований в области информационного поиска. Бурное развитие сетевых технологий, в том числе и Интернета, способствуют значительному увеличению доступных информационных ресурсов и объемов передаваемой информации. Зачастую это разнородная, слабо структурированная и избыточная информация, обладающая высокой динамикой обновления.

При сегодняшних объемах доступной информации решение задач информационного поиска становится не только приоритетным, но и элементарно необходимым для обеспечения своевременного доступа к интересующей информации.

Существует ряд авторитетных международных конференций, посвященных обсуждению вопросов информационного поиска [13]. Это такие известные конференции как:

TREC (Text REtrieval Conference) - цикл конференций организованный под эгидой NIST (National Institute for Standards and Technology) - одного из авторитетных органов стандартизации информационных технологий в США;

SIGIR (Special Interest Group on Information Retrieval) - цикл конференций проводимых ACM SIGIR (ACM - Association of Computing Machinery) — международной группой специалистов по информационному поиску.

WWW (World Wide Web) Conference - специально организованная конференция по решению задач, связанных с Интернет.

Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.

Из наших отечественных конференций, посвященных вопросам информационного поиска, нужно отметить ежегодную всероссийскую ^ конференцию "Электронные библиотеки" (RCDL) и семинар по компьютерной лингвистике "Диалог".

Также необходимо отметить ряд отечественных научных школ:

• SPBU IR Group — исследовательская группа в области информационного поиска (Санкт-Петербургский Государственный Университет);

• Исследовательский центр ИИ ИПС РАН; у

• Центр информационных исследований (НИВЦ МГУ).

Кроме того, существуют коммерческие организации, занимающиеся не только вопросами исследований, но и вопросами внедрения информационных технологий, это такие известные организации как Яндекс, Рамблер, Апорт, НейрОК, Гарант-Парк-Интернет, Галактика-Зум, ABBYY-FTR, АОТ и др.

Ряд авторитетных исследователей внесли своими научными трудами значительный вклад в развитие информационно-поисковых систем: И.С. Некрестьянов, И.Е. Кураленок, В.Ю. Добрынин, Дубинский А.Г., А.Е. Ермаков, М.Р. Когаловский, А.В. Сокирко, G. Salton, A. Singhal, М. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg.

Существует широкий спектр предлагаемых решений и перспективных направлений исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов анализа во многом Ч зависит эффективность существующих поисковых систем, т.к. они являются основой любой поисковой системы и во многом определяют возможности и ограничения этих систем. Ф

Помимо этого существует еще один важный фактор, определяющий, на наш взгляд, эффективность любого информационного поиска — это человеческий фактор. Зачастую в большинстве исследований, относящихся к информационному поиску, этот фактор либо игнорируется, либо его значение во многом недооценивается. Но именно человек в конечном итоге пользуется разработанными информационно-поисковыми системами. Учет человеческого фактора, специфики его работы, предпочтений и ожиданий является * перспективным и многообещающим направлением исследований.

Представленные на сегодняшний день в большинстве популярных поисковых систем способы организации полнотекстового поиска и методы анализа документов не учитывают в достаточной мере как раз человеческий фактор. А именно, не учитывается тот факт, что во многом поиск определяется слабо формализуемыми и нечеткими условиями, в значительной степени зависящими от опыта и предпочтений самого человека. Далеко не всегда пользователь информационно-поисковой системы может четко и однозначно сформулировать именно тот набор ключевых слов, который и приведет его к ^ искомому результату. Речь идет о варианте поиска на основе формирования информационных запросов, состоящих из набора ключевых слов и некоторых управляющих элементов языка запроса. Этот вариант поиска наиболее распространен и методологически проработан на сегодняшний день.

Сложность формирования информационных запросов может быть обусловлена:

• незнанием набора ключевых слов, однозначно определяющих искомый документ; $ • отсутствием достаточного опыта и квалификации формирования таких запросов;

• отсутствием принятой и устоявшейся терминологии в интересующей области.

Нередко человек, осуществляющий поиск, имеет самое приблизительное представление об интересующей его тематике.

Все это обуславливает актуальность и значимость исследований, направленных на решение одной из ключевых проблем информационного поиска — проблемы адекватного отображения информационных потребностей пользователей.

Одним из вариантов решения этой проблемы является поиск документов по образцу, когда человек задает некоторый документ в качестве образца, а система, реализующая данный вариант поиска подбирает документы подобные заданному (подобные по содержанию, тематике).

Анализ существующих исследований, посвященных решению задач поиска документов по образцу, выявил крайне незначительное число готовых и апробированных, решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач тематического анализа неструктурированной, естественно-языковой текстовой информации произвольного содержания. Эффективное решение задач такого анализа применительно к реализации поиска документов по образцу и составляет суть диссертационной работы.

Цель работы: метод тематического анализа неструктурированной текстовой информации для эффективного решения задач поиска документов по образцу.

В основе работы лежит модель структурного представления текста в виде ориентированного мультиграфа, а также способы формирования и анализа такой модели применительно к решению задач поиска документов по образцу. А именно, решению двух основных задач, позволяющих реализовать поиск документов по образцу [35]:

1. Выделение тематики документа.

Тематика отражает содержание документа и включает в себя множество ключевых слов, находящихся в некоторой зависимости друг от друга. Один из вариантов такой зависимости - весовые коэффициенты, отражающие значимость того или иного слова в конкретной тематике.

В работе представлен метод, реализующий автоматизированное выделение тематики как для одного документа, так и для набора близких в тематическом отношении документов, т.е. тематическое обобщение набора документов.

2. Вычисление тематической близости документов.

Именно результат вычисления тематической близости, в конечном счете, и определяет результат поиска. Как правило, результат поиска дает множество документов, в той или иной мере удовлетворяющим условиям поиска.

Вычисляя значения тематической близости, эти документы можно проранжировать по степени значимости для пользователя. В работе представлен алгоритм вычисления тематической близости документов.

На защиту выносятся следующие результаты:

1. Графовая модель структурного представления текста произвольного содержания.

2. Метод частотно-контекстной классификации тематики текста.

3. Алгоритм вычисления степени тематической принадлежности текста к образцу.

4. Алгоритм поиска значений информационных признаков тематики текста.

Научная новизна полученных результатов.

Основная научная новизна состоит в том, что разработанная модель, метод и алгоритмы позволяют эффективнее решать задачи поиска документов по образцу, в том числе: 9 i

Практическая значимость результатов диссертационной работы состоит в использовании модели, метода и алгоритмов для решения задач поиска документов по образцу, а также для решения общих задач ^ тематического анализа и обработки речевых высказываний.

Модель, метод и алгоритмы, предложенные в диссертационной работе, позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач поиска документов по образцу позволяет повысить качество и эффективность такого поиска.

Практическая значимость диссертации подтверждается актами о внедрении результатов исследования в Администрации г. Вологды, Управлении по делам гражданской обороны и чрезвычайным ситуациям г. Вологды, ООО Ф "Премьер-Информ".

Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения.

Заключение диссертация на тему "Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации"

4.5. Выводы

Результаты экспериментальных исследований успешно подтвердили выдвинутые ранее теоретические положения. Тестирование программной реализации разработанного метода и алгоритмов показало высокую точность и корректность полученных значений.

Вместе с тем, стоит отметить сложность оценки полученных результатов, и значительное влияние субъективной составляющей, присутствующей при оценке. Отчасти это вызвано характером и особенностью решаемых в данной работе задач, отчасти отсутствием формализованных методик оценки подобных исследований. Разработка таких методик может значительно упростить анализ результатов и однозначно определить их корректность и точность.

ЗАКЛЮЧЕНИЕ

В работе рассмотрены теоретические и практические вопросы решения задач поиска документов по образцу. Разработаны: модель структурного представления текстовой информации, метод и алгоритмы ее тематического анализа, позволяющие реализовать тематическую классификацию и вычисление степени тематической принадлежности текста к образцу. Предложенная модель, метод и алгоритмы могут использоваться как для решения конкретных задач поиска документов по образцу, так и для решения общих задач тематического анализа и обработки речевых высказываний.

Можно выделить следующие основные результаты, полученные в диссертации:

1. Анализ текущего состояния информационно-поисковых систем, современного состояния исследований в области поиска документов по образцу и существующих методов тематического анализа.

2. Графовая модель структурного представления текста произвольного содержания, позволяющая отобразить семантическую связность и последовательность текста в виде структуры.

3. Метод частотно-контекстной классификации тематики текста, позволяющий выделять тематику текста в виде множества ключевых слов с весами, характеризующими значимость данных слов в тематике.

4. Алгоритм вычисления степени тематической принадлежности текста к образцу, позволяющий получать количественную оценку тематической близости текстов.

5. Алгоритм поиска значений информационных признаков тематики текста, позволяющий учесть субъективный характер оценки тематической близости текстов, и настроить систему, реализующую поиск документов по образцу под конкретного пользователя.

6. Программная реализация модели структурного представления текстовой информации и методов ее тематического анализа.

7. Экспериментальная оценка корректности и эффективности выносимых на защиту результатов.

Программное обеспечение, разработанное в рамках диссертационной работы, нашло свое применение в ряде инженерных проектов, ориентированных на решение задач документооборота и информационно-справочного обеспечения.

Основные положения и отдельные результаты работы докладывались и обсуждались на следующих конференциях и семинарах:

- на общероссийской научно-технической конференции "Вузовская наука - региону", (Вологда 2003 г.);

В качестве направлений дальнейших исследований можно выделить: разработка методологии оценки качества и эффективности тематического анализа; разработка алгоритма поиска значений информационных признаков тематики текста для произвольного числа оцениваемых экспертом текстов; разработка модели поиска на основе структурного представления текста.

Библиография Чугреев, Валерий Леонидович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Ахутина Т. В. Порождение речи. Нейро-лингвистический анализ синтаксиса М.: МГУ, 1989.-215 с.

2. Белянин В.П. Введение в психолингвистику. — Изд. 2-е, испр. и доп., — М.: ЧеРо, 2000.-128 с.

3. Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-е изд. СПб.: Питер, 2003. - 688 с.

4. Добрынин В.Ю., Некрестьянов И.С., Задача выбора тематических ф коллекций, релевантных запросу. // Труды Всероссийской научнометодической конференции "Интернет и современное сообщество", Санкт-Петербург, декабрь 1998.

5. Дубинский А.Г. Разработка моделей и совершенствование структуры систем информационного поиска в глобальной компьютерной сети: Диссертационная работа к.т.н.: 05.13.06 / Днепропетровский национальный университет. Днепропетровск, 2002.

6. Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. - С. 40-48.

7. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. - №4. - С. 77-83.

8. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение // Мир ПК. — 2000. -N5.

9. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. - N 12.

10. Иванов В., Некрестьянов И., Пантелеева Н. Расширение представления документов при поиске в Веб // Труды четвертой всероссийской конференция RCDL'2002. В двух томах. Т.2. Дубна, 2002. - С. 55-68.

11. Когаловский М. Р. Перспективные технологии информационных систем. — М.: ДМК Пресс; М.: Компания АйТи, 2003. 288 с.

12. Когаловский М.Р. Энциклопедия технологий бах данных. — М.: Финансы и статистика, 2002. 800 с.

13. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. - N4. - С. 226-242.

14. Лурия А.Р. Основы нейропсихологии М.: МГУ, 1973. — 374 с.

15. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. — 2002. — N4.

16. Некрестьянов И.С., Добрынин В.Ю., Клюев В.В. Оценка тематического подобия текстовых документов // Труды второй всероссийской научной конференции "Электронные библиотеки". Протвино, 2000. - С. 204-210.

17. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет — СПб., 2000. 80 с.

18. Романова Е.В., Романов М.В., Некрестьянов И.С. Использование интелектуальных сетевых роботов для построения тематических коллекций // Программирование. — 2000. N3. - С. 63-71.

19. Семенова С.Ю. Поиск параметрической информации в тексте: алгоритмический и лексикографический аспекты // Труды Международного семинара Диалог'96 по компьютерной лингвистике и приложениям. М., 1996. - С. 227-230.

20. Советский энциклопедический словарь / Научно-редакционный совет: A.M. Прохоров (пред.). М.: "Советская энциклопедия", 1981. — 1600 с.

21. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. М.: Советское радио, 1973. - 560 с.

22. Фрумкина P.M. Психолингвистика: Учебник для студентов высших учебных заведений. М.: Издательский центр "Академия", 2001. - 320 с.

23. Чугреев В.Л., Моделирование систем искусственного интеллекта. // Перспективные технологии автоматизации: Тезисы докладов международной электронной научно-технической конференции. — Вологда: ВоГТУ, 1999.- С. 151-152.

24. Чугреев В.Л., Моделирование систем искусственного интеллекта. // Молодые исследователи — региону: Тезисы докладов Второй областной межвузовской студенческой научной конференции. Вологда: ВоГТУ, 2000.-С. 5-6.

25. Чугреев В.Л., Объектно-ориентированное программирование — перспективы развития. // Современные проблемы информатизации в технике и технологиях: Труды 5-й Международной электронной научной конференции. Воронеж: ЦЧКИ, 2000. - С. 99-100.

26. Чугреев В.Л., Расширение искусственных нейронных сетей применительно к задачам прогнозирования. // Молодые исследователи региону: Материалы межрегиональной научной конференции студентов и аспирантов. - Вологда: ВоГТУ, 2002. - С. 231-232.

27. Чугреев В.Л., Яковлев С.А., Выделение критериев поиска текста на основе подобия значимых документов. // ВУЗОВСКАЯ НАУКА РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. — Вологда: ВоГТУ, 2003.-С. 200-202.

28. Чугреев B.JI., Яковлев С.А., Анализ структуры текста и прогнозирование нечисловых величин. // ВУЗОВСКАЯ НАУКА РЕГИОНУ: Материалы 1-й Общероссийской нучн.-техн. конф. - Вологда: ВоГТУ, 2003. — С. 202204.

29. Aalbersberg I.J. Incremental relevance feedback. In Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 11-22, 1992.

30. Aggarwal С. C., Al-Garawi F., Yu P. S. Intelligent crawling on the world wide web with arbitrary predicates. In Proc. of the WWW10, pp. 96-105, May 2001.

31. Agichtein E., Lawrence S., Gravano L. Learning search engine specific query transformations for question answering. In Proc. of the WWW10, pp. 169-178, 2001.

32. Allan J. Incremental relevance feedback. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), pages 298-306, April 1996.

33. Amento В., Terveen L., Hill W. Does "authority" mean quality? Predicting expert quality ratings of web documents. In Proc. of the SIGIR'00, pp. 296-303, 2000.

34. Arasu A., Cho J., Garcia-Molina H., Paepcke A., Raghavan S. Searching the web. ACM Transactions on Internet Technology, l(l):2-43, Aug. 2001.

35. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.

36. Baker D. and McCallum A. Distributional clustering of words for text classification. In Proceedings of the SIGIR'98, pages 96-103,1998.

37. Bharat K., Broder A. A technique for measuring the relative size and overlap of public Web search engines. In Proc. of the WWW7, 1998.

38. Bharat K., Broder A. Z., Dean J., Henzinger M. R. A Comparison of Techniques to Find Mirrored Hosts on the WWW. IEEE Data Engineering Bulletin, 23(4):21-26, 2000.

39. Brown E.W. Execution Perfomance Issue in Full-Text Information Retrieval. Dissertation. University of Massachusetts. Departament of Computer Science. February 1996.

40. Callan J. Learning while filtering documents. In Proc. of SIGIR'98, pages 224231, Melbourne, Australia, 1998.

41. Chakrabarti S., Berg M., Dom B. Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery. In Proc. of the WWW8, May 1999.

42. Chang H., Cohn D., McCallum A. K. Learning to Create Customized Authority Lists. In Proc. of the ICML'OO, pp. 127-134, 2000.

43. Cho J., Garcia-Molina H. The Evolution of the Web and Implications for an Incremental Crawler. The VLDB Journal, pp. 200-209, 2000.

44. Cho J., Shivakumar N., Garcia-Molina H. Finding replicated Web collections. In Proc. of the SIGMOD'OO, pp. 355-366,2000.

45. Cohn D., Chang H. Learning to Probabilistically Identify Authoritative Documents. In Proc. of the ICML'OO, pp. 167-174, 2000.

46. Craswell N., Bailey P. Is it fair to evaluate Web systems using TREC ad hoc methods? In Proc. of the SIGIR'99, 1999.

47. Craswell N., Hawking D., Robertson S. Effective site finding using link anchor information. In Proc. of the SIGIR'01,2001.

48. Cruz I. F., Borisov S., Marks M. A., Webb T. R. Measuring Structural Similarity Among Web Documents: Preliminary Results. In Proc. of the EP'98, pp. 513524,1998.

49. Czumaj A., Finch I., Gasieniec L., Gibbons A., Leng P., Rytter W., Zito M. Efficient Web Searching Using Temporal Factors. In Proc. of the WADS'99, pp. 294-305, 1999.

50. Davison В. D. Topical locality in the Web. In Proc. of the SIGIR'OO, pp. 272279,2000.

51. Dean J., Henzinger M. Finding Related Pages in the World Wide Web. In Proc. of the WWW8, 1999.

52. Ding L., Shivakumar N. Computing Geographical Scopes of Web Resources. In j Proc. of the VLDB'00, Sep 2000.

53. Dreilinger D., Howe A. E. Experiences with Selecting Search Engines Using Metasearch. ACM Transactions on Information Systems, 15(3):195-222,1997.

54. Dublin Core Metadata Element Set Reference Description, Version 1.1, 199907-02. http:/purl.org/dc/documents/proposedrecommendations/pr-dces-19990702.html.

55. Dumais S. Latent semantic indexing: TREC-3 report. In Proc. of the Third Text ф REtrieval Conference, 1995.

56. Edwards J., McCurley K., Tomlin J. An adaptive model for optimizing performance of an incremental web crawler. In Proc. of the WWW10, pp. 106113, May 2001.

57. Finkelstein L., Gabrilovich E., Matias Y., Rivlin E., Solan Z., Wolfman G., Ruppin E. Placing search in context: the concept revisited. In Proc. of the1. WWW10, pp. 406-414, 2001.

58. Flake G., Lawrence S., Giles C. L. Efficient Identification of Web Communities. In Proc. of the SIGKDD'OO, pp. 150-160, Aug. 2000.

59. Foltz P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), pages 40-47, 1990.

60. Gibson D., Kleinberg J. M., Raghavan P. Inferring web communities from link topology. In Proc. of the UK Conference on Hypertext, pp. 225-234, 1998.

61. Gravano L. Querying Multiple Document Collections Accross the Internet. PhD thesis, Stanford University, Aug 1997.

62. Gruber T. A translation approach to portable ontology specifications. Knowledge Acquisition, 5(2), 1993, pp. 199-220.

63. Harman D. Latent semantic indexing (LSI) and TREC-2. In Proc. of the Second Text REtrieval Conference, 1994.

64. Hatano K., Sano R., Duan Y., Tanaka K. An Interactive Classification of Web Documents by Self-Organizing Maps and Search Engines. In Proc. of the DASFAA'99, pp. 35-42, 1999.

65. Hatzivassiloglou V., Gravano L., and Maganti A. An investigation of linguistic features and clustering algorithms for topical document clustering. In Proc. of the SIGIR'2000,2000.

66. Haveliwala T. Efficient computation of PageRank. Technical report, Stanford Database Group, Oct. 1999.

67. Hawking D., Craswell N. Which Search Engine is best at finding Online Services? In Proc. of the WWW10, 2001.

68. Hawking D., Craswell N., Bailey P., Griffiths K. Measuring Search Engine Quality. Information Retieval, 4(l):33-59, 2001.

69. Hawking D., Craswell N., Thistlewaite P. В., Harman D. Results and Challenges in Web Search Evaluation. In Proc. of the WWW8, pp. 243-252, 1999.

70. Henzinger M., Heydon A., Mitzenmacher M., Najork M. Measuring Index Quality Using Random Walks on the Web. In Proc. of the WWW8, 1999.

71. Henzinger M., Heydon A., Mitzenmacher M., Najork M. On Near-Uniform URL Sampling. In Proc. of the WWW9,2000.

72. Heydon A., Najork M. Mercator: A Scalable, Extensible Web Crawler. World Wide Web, 2(4):219-229, 1999.

73. Hirai J., Raghavan S., Garcia-Molina H., Paepcke A. WebBase: A repository of web pages. In Proc. of the WWW9, 1999.

74. Howe A. E., Dreilinger D. SawySearch: A Metasearch Engine That Learns Which Search Engines to Query. AI Magazine, 18(2): 19-25, 1997.

75. Huang L., Hemmje M., Neuhold E. J. ADMIRE: An Adaptive Data Model for Meta Search Engines. In Proc. of the WWW9, pp. 165-174, 2000.

76. Ipeirotis P., Gravano L., Sahami M. Probe, Count, and Classify: Categorizing Hidden-Web Databases. In Proc. of SIGMOD'Ol, 2001.

77. Jansen B. J., Spink A., Saracevic T. The Use of Relevance Feedback on the Web: Implications for Web IR System Design. In Proc. of the WebNet'99, pp. 550-555, 1999.

78. Jansen B. J., Spink A., Saracevic T. Real life, real users, and real needs: a study and analysis of user queries on the web. Information Processing and Management, 36(2):207-227,2000.

79. Jing Y., Croft W.B. An Association Thesaurus for Informationa Retrieval. Department of Computer Science, University of Massachusetts at Amherst, 1994.

80. Kahle B. Preserving the Internet. Scientific American, pp. 82-83, Mar. 1997.

81. Kleinberg J. M. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604-632,1999.

82. Landauer Т., Foltz P., and Laham D. An introduction to latent semantic analysis. Discourse Processes, 25:259-284.

83. Lawrence S. Context in Web Search. IEEE Data Engineering Bulletin, 23(3):25-32,2000.

84. Lawrence S., Bollacker K., Giles C. L. Indexing and Retrieval of Scientific Literature. In Proc of the CIKM'99, pp. 139-146, Nov. 1999.

85. Lawrence S., Giles C. L. Inquirus, The NECI Meta Search Engine. In Proc. of the WWW7, pp. 95-105, 1998.

86. Lawrence S., Giles C. L. Searching the World Wide Web. Science, 280(4):98-100, 1998.

87. Lawrence S., Giles C. L. Searching the Web: General and Scientific Information Access. IEEE Communications, 37(1): 116-122, 1999.

88. Lawrence S., Giles C. L. G. Accessibility of information on the web. Nature, 400:107-109,1999.

89. Lempel R., Moran S. The stochastic approach for link-structure analysis and the TKC effect. In Proc. of the WWW9, 2000.

90. Lifantsev M. Voting Model for Ranking Web Pages. In Proc. of the IC'00, pp. 143-148, 2000.

91. Liu K.-L., Meng W., Yu С. Т., Rishe N. R. Discovery of Similarity Computations of Search Engines. In Proc. of the CIKM'00, pp. 290-297,2000.

92. Mark M., Cornelis J. v. R. The potential and actual effectiveness of interactive query expansion. In Proc. of the SIGIR'97, pp. 324-332, 1997.

93. Maron M.E., Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Jornal of the ACM, No. 7,1960, pp. 216-244.

94. McCurley К. S. Geospatial Mapping and Navigation of the Web. In Proc. of the WWW10, 2001.

95. Melnik S., Raghavan S., Yang В., Garcia-Molina H. Building a distributed full-text index for the web. In Proc. of the WWW10, pp. 396-405, May 2001.

96. Meng W., Liu K.-L., Yu С. Т., Wu W., Naphtali R. Estimating the Usefulness of Search Engines. In Proc. of the ICDE'99, pp. 146-153, 1999.

97. Merkl D. A Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text, chapter Text data mining. Marcel Dekker, New York, 1998.

98. Najork M., Wiener J. L. Breadth-first search crawler yields high-quality pages. In Proc. of the WWW10, pp. 114-118, May 2001.

99. Patel A., Petrosjan L., Rosenstiel W., editors. OASIS: Distributed Search System in the Internet. St. Petersburg State University Published Press, St. Petersburg, 1999.

100. Qui Y. and Frei H. Concept based query expansion. In Proc. of the SIGIR'93, pages 160-169, Pitsburgh, USA, 1993.

101. Raghavan S., Garcia-Molina H. Crawling the hidden web. In Proc. of the VLDB'01, Sept. 2001.

102. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523, 1988.

103. Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

104. Salton G., Allan J., and Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2): 127-138,1996.

105. Salton G., Singhal A., Mitra M., and Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2): 193-208, 1997.

106. Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35-43.

107. Shivakumar N., Garcia-Molina H. Finding Near-Replicas of Documents on the Web. In Proc. of the WebDB'99, 1999.

108. Singhal A. Modern Information Retrieval: A Brief Overview. Data Enginering Bulletin, IEEE Computer Society, Vol. 24, No. 4, December 2001, pp. 35-43.

109. Singhal A., Kaszkiel M. A case study in web search using TREC algorithms. In Proc. of the WWW10, pp. 708-716, 2001.

110. Singhal A., Mitra M., and Buckley C. Learning routing queries in a query zone. In Proc. of the SIGIR'97, pages 25-32, July 1997.

111. Stata R., Bharat K., and Maghoul F. The term vector database: fast access to indexing terms for web pages. In Proc. of the WWW-9, May 2000.

112. Stephen D., Ravi K., Kevin M., Sridhar R., Sivakumar D., Andrew T. Self-similarity in the Web. In Proc. of the VLDB'01, Sept. 2001.

113. Stephen B. Hunter-Gatherer: Applying Constraint Satisfaction, Branch-and-Bound and Solution Synthesis to Natural Language Semantics NMSU CRL Technical Report. MCCS-96-292.

114. Tajima K., Hatano K., Matsukura Т., Sano R., Tanaka K. Discovery and Retrieval of Logical Information Units in Web. In Proc.of the WOWS'99, Aug. 1999.

115. Tajima K., Mizuuchi Y., Kitagawa M., Tanaka K. Cut as a Querying Unit for WWW, Netnews, and E-mail. In Proc. of Hypertextr98, pp. 235-244, June 1998.

116. The 25th ACM SIGIR 2002 Conference, 11-15 August 2002, Tampere, Finland. http://www.sigir2002.org/html/aresofinterest.htm.

117. Turtle H. R. Inference Networks for Document Retrieval. Dissertation. University of Massachusetts. Department of Computer and Information Science. February 1991.

118. Voorhees E., Harman D. Overview of the ninth text retrieval conference. In Proc. of the TREC9, pp. 1-15,2000.

119. Yang Y., Pederson J. Feature selection in statistical learning of text categorization. In Proc. of the ICML'97, pages 412-420, 1997.

120. Zeinalipour-Yazti D., Dikaiakos M. High-Performance Crawling and Filtering in Java. In Proc. of the 8th Panhellenic Conference on Informatics, volume 2, pp. 377-386, Nov. 2001.

121. Zhang D., Dong Y. An efficient algorithm to rank web resources. In Proc. of the WWW9, pp. 449-455,2000.

122. Zhu X., Gauch S. Incorporating quality metrics in centralized/distributed information retrieval on the World Wide Web. In Proc. of the SIGIR'00, pp. 288295,2000.

123. Zonghuan W., Weiyi M., Clement Y., Zhuogang L. Towards a highly-scalable and effective metasearch engine. In Proc. of the WWW10,2001.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00