автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет

кандидата технических наук
Козлов, Артем Владимирович
город
Москва
год
2005
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет»

Автореферат диссертации по теме "Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет"

Московский государственный институт электроники и математики (технический университет)

На правах рукописи

Козлов Артем Владимирович

ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ АВТОМАТИЗИРОВАННОГО ДОКУМЕНТАЛЬНОГО ПОИСКА В ГИПЕРТЕКСТОВЫХ РЕСУРСАХ

ИНТЕРНЕТ

Специальность 05.13.11 -Математическое к программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ Диссертации на соискание ученой степени кандидата технических наук

Москва 2005

Работа выполнена на кафедре «Вычислительная техника» в Московском государственном институте электроники и математики (техническом университете).

Научный руководитель:

доктор технических наук, доцент Мальцева СВ.

Официальные оппоненты: доктор технических наук,

профессор Петров О.М.

кандидат технических наук, доцент Авдошин С.М.

Ведущая организация:

ГНУ «Госинформобр Минобразования России»

Защита состоится «29» марта 2005 г. в 12-00 часов на заседании диссертационного Совета Д 212.133.01 при Московском государственном институте электроники и математики (техническом университете) по адресу: 109028, Москва, Б. Трехсвятительский пер., 3/12.

С диссертацией можно ознакомиться в библиотеке МГИЭМ.

Автореферат разослан 2005 г.

Ученый секретарь

диссертационного Совета Д 212.133.01 кандидат технических наук, доцент

Общая характеристика работы

Актуальность проблемы. Одним из основных источников информации сегодня являются ресурсы глобальной информационной сети Интернет, и обеспечение доступа к информации обычно связывается с обеспечением доступа именно к ресурсам Интернет. Развитие сети Интернет в наши дни связано в первую очередь с ростом объема информационных ресурсов и повышением качества инфраструктуры физических сетей. В течение следующих нескольких лет основными тенденциями дальнейшего развития будут дальнейший рост объемов ресурсов, накопление информации и увеличение числа пользователей имеющих доступ к глобальной информационной сети.

Проблемы поиска и извлечения полезной информации в условиях информационного переполнения Интернет и хаотичности организации данных становятся все более актуальными. Ресурсы Интернет, основой которых является распределенная гипертекстовая база данных, все больше используются в исследованиях, коммерции, информационном обслуживании и многих других областях. Без эффективных механизмов поиска и обработки информации огромные ресурсы глобальной сети оказываются бесполезными.

Основной технологией, обеспечивающей использование ресурсов Интернет в практической деятельности, является автоматизированный поиск информации. Этой проблеме посвящены многие коммерческие и исследовательские проекты, особое внимание уделяется расширению интеллектуальных возможностей средств поиска. Это связано с тем, что поиск нужной информации в Интернет крайне затруднен и рациональное использование его ресурсов все больше осложняется. Автоматизированные системы поиска информации в Интернет необходимы уже сейчас и будут еще более востребованы в ближайшем будущем.

Существующим автоматизированным поисковым системам, занимающимся глобальным индексированием и поиском информации в Интернет становится все трудней поддерживать свой индекс в актуальном состоянии. Объем найденной по запросу информации зачастую таков, что для его анализа требуется довольно много времени и труда специалистов. Кроме этого существующие глобальные поисковые средства почти не предоставляют услуг по анализу найденной информации.

Таким образом, совершенствование автоматизированных средств поиска информации в Интернет является важной и актуальной задачей для эффективного использования гипертекстовых ресурсов Интернет и дальнейшего развития глобальной информационной сети.

Поиск в гипертекстовых ресурсах Интернет основывается на методах документального поиска возникших еще до появления глобальной информационной сети. Этой проблеме посвящено большое количество работ. Еще в 1949 году Г. Зипф опубликовал работу, в которой описал законы, характеризующие внутреннюю структуру текста. X. Лун использовал законы Зипфа и сформулировал правила для определения значимых слов в тексте документа. Идеи, предложенные X. Луном, легли в основу многих работ его последователей. В нашей стране под руководством B.C. Чернявского и Д.Г. Лахути в шестидесятые годы прошлого века была создана первая в мире информационно-поисковая система с автоматическим индексированием документов.

В основе автоматизированного документального поиска лежит понятие модели поиска. В настоящее время разработано много различных моделей. Дж. Сэлтона, одного из основоположников документального поиска, можно отнести к авторам векторной модели документального поиска, кроме этого он также проделал большую работу в области автоматического индексирования документов. С.Джонс СИ. Робертсон описали вероятностную модель документального поиска. Разработке латентно-семантической модели посвящены работы С.Дамайса, Г.Фурнаса, С.Дирвестера. В работах Д.О. Аветисяна и Р.Д. Аветисяна описываются энтропийная модель на основе статистической теории связи Шенона и корреляционная модель документального поиска, кроме этого предлагаются подходы к совмещению различных моделей таких как матричная и корреляционная.

Цели и задачи. Целью работы является создание программных средств для повышения эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет.

Реализация поставленной цели предполагает решение следующих

задач:

- обзор и сравнительный анализ моделей информационного документального поиска в распределенных гипертекстовых базах данных;

- исследование и анализ методов автоматического индексирования гипертекстовых документов;

- разработка метода определения весов терминов в документах при автоматическом индексировании;

- разработка методики автоматизированного формирования запроса;

- создание программного средства реализующего разработанные методы.

Объект исследования. Объектом исследования являются программные средства, модели и методы автоматизированного документального поиска в гипертекстовых ресурсах Интернет.

Методы исследования. При проведении исследований в работе использованы алгебраические методы, методы кластерного анализа и эвристические приемы.

Научная новизна. Научная новизна работы заключается в следующем:

1) разработан метод определения весов терминов в документах при автоматическом индексировании набора документов;

2) разработан метод определения весов терминов в кластерах при автоматическом индексировании кластеров документов;

3) разработана методика автоматизированного формирования запроса на основе кластеризации результатов информационного документального поиска;

4) предложен метод оценки качества распределения ключевых терминов кластеров между документами с использованием коэффициентов точности, полноты и шума, аналогичных коэффициентам использующимся для оценки качества результатов поиска.

Практическая значимость. Результаты проведенных исследований были использованы при создании программных средств. Разработанный метод определения весов терминов при автоматическом индексировании документов обеспечивает более точное дифференцирование терминов индекса документа, что позволяет использовать его для повышения эффективности различных поисковых процессов. Разработанные программные средства позволили использовать предложенные в работе новые методы при создании информационно-аналитической системы использующей информацию Интернет-ресурсов.

Реализация результатов. Разработанные в данной работе программные средства входят в состав информационного и программного обеспечения информационно-аналитической системы сопровождения инвестиционных проектов при исследовании инвестиционных возможностей и технико-экономическом обосновании проектов в Инженерно-техническом центре «ТехИнвестФинанс».

Апробация работы. Результаты диссертационной работы докладывались и обсуждались на научно-технических конференциях студентов, аспирантов и молодых специалистов МИЭМ, Москва 2001 г., 2002 г., 2003 г., 2004 г.; VII Международной научно-практической конференции МГУ Сервиса «Наука - индустрии сервиса» «Информационные технологии в сфере сервиса», Москва МГУС 2002 г.; X Международной научно-

технической конференции «Математические методы и информационные технологии в экономике, социологии и образовании», Пенза 2002 г.; IV Международной ежегодной научно-практической конференции «Информационные технологии XXI века» Москва МГУС 2003 г.

Публикации. По материалам диссертационной работы опубликовано 10 печатных работ.

Структура работы. Диссертационная работа состоит из введения. четырех глав, заключения, списка литературы и приложения.

Содержание работы

Во введении обоснована актуальность работы, сформулированы цель и задачи исследования, его новизна и практическое значение. Кратко изложено содержание диссертации по разделам.

В первой главе рассматриваются вопросы поиска и обработки информации в гипертекстовых ресурсах Интернет. Разбирается структура гипертекстовых ресурсов. Проводится анализ современных средств поиска и обработки информации в Интернет, и обзор методов оценки эффективности документального поиска. Выделяются существующие проблемы автоматизированного документального поиска и ставятся задачи исследования.

Гипертекстовой системой называется система, позволяющая устанавливать связи между фрагментами текста как внутри одного документа, так и в разных документах и осуществлять навигацию пользователя по связанным таким образом документам. Центральным элементом в структуре гипертекстовой системы является хранилище документов или гипертекстовая база данных. По принципу формирования и управления Всемирную Паутину можно отнести к гипертекстовой базе данных открытого типа, имеющей ряд особенностей:

1) однонаправленность ссылок;

2) отсутствие контроля целостности ссылок;

3) отсутствие контроля согласованности данных.

Основными средством поиска в Интернет являются документальные информационно-поисковые системы. Они осуществляют индексирование ресурсов Интернет, хранение проиндексированной информации и выдачи пользователю информации о документах, соответствующих его запросу. Информация может включать название документа, краткое описание документа или его отрывок и ссылку на документ, все основные операции в них автоматизированы.

В поисковых системах принято выделять три основные части: робот, индекс и систему поиска (рисунок 1).

Рис. 1. Общая архитектура информационно-поисковой системы.

Робот - программа, которая, используя определенную стратегию, загружает гипертекстовые страницы с интернет-серверов, считывает полностью или частично их содержимое и индексирует его.

Индекс представляет собой хранилище всех проиндексированных документов. Обычно документы хранятся в формализованном виде.

Система поиска отвечает за отбор документов в индексе, соответствующих запросу пользователя и выдачу информации пользователю.

Принципиальным отличием поисковых систем в Интернет от классических документальных информационно-поисковых систем является необходимость обрабатывать запрос, не имея реального доступа к данным. Так как посещение ресурсов во время обработки запроса связанно с большими временными затратами, хранение постоянно обновляемой копии всех ресурсов также слишком накладно.

Для оценки эффективности методов информационного документального поиска должны быть определены критерии, по которым будет оцениваться эффективность. При этом оцениваются критерии, характеризующие качество результатов поиска. В государственном стандарте определены такие критерии как полнота и точность. Все множество документов может быть разделено на подмножества релевантных и выданных документов (таблица 1).

_Таблица 1. Матрица сопряженности "релевантность - выдача"

Релевантные документы Нерелевантные документы

Выданные документы А в

Не выданные документы с D

Тогда коэффициент точности можно определить как долю истинно релевантных документов в общем числе всех найденных по запросу пользователя документов:

Коэффициент полноты можно определить как долю найденных истинно релевантных документов в общем числе всех истинно релевантных документов:

Для оценки эффективности с помощью таких критериев, должен быть создан набор документов, для которого должны быть определены запросы и отобраны истинно релевантные этим запросам документы. Обычно такие наборы создаются людьми, экспертами в области, к которой относятся документы. Основная проблема, заключается в том, что истинная релевантность документов определяется человеком, причем разными людьми она может быть определена по-разному. По оценкам организаторов ежегодной конференции TREC (Text REtrieval Conference), посвященной проблемам документального поиска, перекрытие множеств релевантных документов, отобранных разными экспертами в среднем составляет 40%, а полнота и точность между экспертами всего около 65%, таким образом, верхняя граница качества поиска ограничивается 65%.

Также распространенным поводом для критических замечаний оценки эффективности информационного документального поиска является использование наборов документов, не отражающих реальной ситуации, например, по количеству документов, структуре набора или общему

8

содержанию. Кроме этого существует проблема сравнения эффективности различных методов документального поиска, если для их экспериментальной проверки использовались различные наборы данных. Решить эти проблемы в настоящее время пытаются с помощью создания стандартных тестовых наборов и использования их для всех экспериментов связанных с проблемами информационного документального поиска. Однако остаются трудности, связанные с тем, что такие наборы создаются для какого-либо определенного языка, т.е. разные наборы для разных языков, а методы информационного поиска могут быть ориентированы только на один язык.

В конце первой главы формулируется цель диссертационной работы и определяются задачи исследований.

Во второй главе рассматриваются вопросы индексирования гипертекстовых документов. Определяются задачи автоматического индексирования. Проводится анализ моделей документального поиска. Проводится анализ методов определения весов терминов в документах и предлагается усовершенствованный метод. Проводятся исследования разработанного метода.

Индексирование - это процедура перевода текста документа с естественного языка на искусственный язык, предназначенный для формализации представления смыслового содержания текста документа, с целью последующего хранения и поиска.

Процедура автоматического индексирования связана с формальным представлением документов и методами его получения. Эта процедура базируется на модели документального поиска, которая используется поисковой системой.

Формально в описании модели документального поиска можно выделить четыре части:

1) формализованное представление документа;

2) формализованное представление запроса;

3) функция определения соответствия запроса и документа, выражающая его некоторым числовым значением;

4) каркас, в рамках которого производится описание документов и запросов, или совокупность методов позволяющих формировать их представления.

Условно модели документального поиска можно разбить на три группы:

1) Теоретико-множественные модели. В качестве каркаса эти модели используют теорию множеств. К этой группе можно отнести такие модели как булева модель и модель нечетких множеств.

2) Алгебраические модели. В качестве каркаса используются алгебраические методы. К этой группе можно отнести векторную модель, латентно-семантическую модель и нейросетевую модель.

3) Вероятностные модели. В качестве каркаса эти модели используют теорию вероятностей.

В работе проведен анализ основных моделей поиска, показывающий преимущества алгебраических моделей и в частности векторной модели документального поиска. Рассматривается задача автоматического индексирования в рамках векторной модели документального поиска:

- множество документов набора, где документ набора, - количество документов в наборе;

/ - информационная потребность;

Ог - запрос пользователя;

М<1 = (ЛА/);1=1,А/й;./ = 1,М - матрица сопряженности «документ -термин», где - количество раз которое термин встретился в документе, N1 - количество различных терминов во всех документах набора;

(1, </,№) вектор г-го документа, формализованное

представление в поисковой системе, где элемент вектора соответствует весу термина в документе

и5 = /(ЛИ) - вес у-го термина в /-м документе;

- вектор запроса, формализованное представление в

поисковой системе;

1а - - фактическая релевантность, определяемая пользователем;

Р = <р(й,формальная релевантность, результат работы поисковой системы;

- разность фактической и формальной релевантности.

Эффективность автоматизированного документального поиска определяется величиной при уменьшении эффективность

увеличивается, т.е. формальная релевантность Д, определяемая поисковой системой, должна совпадать с фактической релевантностью определяемой пользователем.

Так как фактическая релевантность не может быть определена без участия пользователя, оценка эффективности поиска может быть проведена только экспериментальным путем.

В векторной модели формальная релевантность зависит от формального представления запроса q, формального представления документа d и функции определения формальной релевантности <р. Запрос q

представляет собой вектор размерности N1, значение элементов вектора запроса определяется возможностями языка запросов поисковой системы. Документ d также представляет собой вектор размерности №, значение элемента вектора запроса соответствует весу термина. Вес термина определяется с использованием функции на основе матрицы

сопряженности «документ - термин» Md, значения элементов которой соответствуют количеству раз, которое термин встретился в документе. В качестве функции формальной релевантности используется отношение скалярного произведения векторов запроса и документа к произведению их длин, в этом случае наибольшее значение получают те документы, для которых ключевые термины, указанные в запросе, имеют наибольшие веса.

Таким образом, задача повышения эффективности автоматического индексирования сводится к определению такой функции при которой

стремится к нулю.

В работе проведен анализ основных методов определения весов терминов при автоматическом индексировании документов, который позволил выделить общий недостаток - отсутствие учета распределения термина внутри всех документов набора при определении веса термина в отдельном документе набора. На основе анализа разработан метод определения веса термина, позволяющий избавится от этого недостатка. Для этого предлагается добавить величин}' обратную средней частоте термина во всех документа набора в стандартный частотный метод. Эксперименты показали, что для оценки этой величины можно воспользоваться следующим выражением:

где - общее число документов,

- общее число терминов во всех документах, - средняя частота /-Г0 термина во всех документах набора кроме ¡-го документа. Тогда вес термина в документе будет

определяться следующим образом:

частота термина в документе набора, частота документа для термина,

а1 - характеристика, позволяющая учесть распределение /-го термина во всех документах набора кроме документа.

Этот метод позволяет получить более точное распределение терминов в документе по весу и уменьшить долю функциональных терминов среди терминов, обладающих наибольшей важностью, и, следовательно, получить основу для реализации методов выделения устойчивых словосочетаний и зависимостей терминов в документах и кластеризации документов. В работе предлагается использовать этот метод в методике автоматизированного формирования запроса.

Для оценки эффективности предложенного метода оценки весовых характеристик был проведен эксперимент в ходе которого были рассчитаны веса терминов частотным методом, методом дискриминирующей характеристики и разработанным методом. Для проведения эксперимента был сформирован набор документов с заданным распределением терминов, отражающим различные варианты вхождения термина в разные документы набора, такие как редко встречающийся термин и часто встречающийся термин.

При расчете весов разные термины могут иметь одинаковые веса, таким образом, все термины в документе могут быть разбиты на группы терминов с одинаковыми весами. Количество таких групп терминов характеризует качество индексирования, чем больше в одном документе групп с различными весами, тем более детальным получается распределение терминов по весам. В качестве критерия было выбрано количество групп терминов полученных при определении весов разными методами. Результаты эксперимента представлены на рисунке 2.

Анализ результатов эксперимента показал, что разработанный метод позволяет получить более точное распределение терминов по весам, чем частотный метод и метод дискриминирующей характеристики. Разработанный метод разделяет все термины по весу на 12 групп, а частотный метод и метод дискриминирующей характеристики только на 6 групп.

В третьей главе рассматривается поиск информации с уточнением запроса. Проводится анализ методов разбиения документов на группы с использованием кластеризации. Предлагается метод определения весов терминов в кластерах документов и методика автоматизированного формирования запроса. Проводятся исследования разработанной методики.

При формулировании запроса для поиска с использованием поисковых систем пользователь использует:

1) информацию об объекте поиска;

2) информацию о наборе документов, где он будет искать.

Частотный метод | Метод дискриминирующей

> характеристики

Количество терминов

__________I

Рис. 2. Группы терминов с одинаковыми весами

Обычно информация о наборе документов не доступна пользователю на начальном этапе, что не позволяет ему более точно сформулировать запрос. Для повышения эффективности поиска используются различные методы автоматизированного формирования (уточнения) запроса. Задача автоматизированного формирования запроса состоит в предоставлении пользователю информации об объекте поиска или наборе документов, позволяющей более точно сформулировать запрос.

Для автоматизированного формирования запроса предлагается использовать разбиение документов, полученных в результате поиска, на группы документов схожих по тематике, выделение терминов наилучшим образом характеризующих группы и использование этих терминов в качестве ключевых терминов при формулировании уточненного запроса. Для этого необходимо решить задачи разбиения документов на группы и выделения ключевых терминов в группах документов.

Задача разбиения документов, полученных в результате поиска, на группы документов схожих по тематике, представляет собой задачу кластеризации документов в пространстве весовых коэффициентов терминов. Кластеризация документов - процесс выявления семантически похожих групп документов, при этом, в отличие от классификации, никакие

характеристики групп не задаются заранее. Количество и состав групп определяется в процессе кластеризации.

В работе проводится обзор и анализ подходов и методов автоматической кластеризации документов. Для сравнения работы различных алгоритмов кластеризации документов с учетом специфики конкретной задачи проведены эксперименты, в ходе которых было проведено сравнение основных иерархических алгоритмов, таких как метод ближнего соседа, метод дальнего соседа, метод средней связи, и метода К-средних. В результате экспериментов, для выбранного критерия, лучшие разбиения были получены с помощью иерархических методов дальней и средней связи.

Другая задача, требующая решения - выделение ключевых терминов в группах документов. Ключевые термины групп документов предназначены для использования их при построении запроса, следовательно, это должны быть термины позволяющие отличить один кластер от другого. Таким образом, задача выделения таких терминов аналогична задаче определения весов терминов в документах при индексировании документов и для ее решения предлагается использовать подход, аналогичный подходу, используемому в разработанном методе определения весов терминов в документах.

Кластеры представляют собой наборы документов и поэтому для определения веса отдельного термина в кластере для всех кластеров должны быть составлены терминологические портреты. В • качестве терминологического портрета кластера используется объединение множеств всех терминов всех документов входящих в кластер.

Тогда вес термина в кластере может быть вычислен по формуле:

г/"?- частота j-го термина в г-м кластере, с/; - частота кластера для ] -го термина,

ау - характеристика, позволяющая учесть распределение ] -го термина во всех кластерах кроме

На основе представленных методов разработана методика автоматизированного формирования запроса, содержащая следующие основные этапы:

1) индексирование набора документов с использованием разработанного метода определения весов терминов в документах;

2) кластеризация документов с использованием иерархического алгоритма дальнего соседа;

3) определение весов терминов в кластерах с использованием разработанного метода определения весов терминов в кластерах документов;

4) представление результатов пользователю.

Для исследования эффективности методики автоматизированного формирования запроса и применения методов автоматического индексирования для кластеров документов, проведен эксперимент. В эксперименте использовался набор из документов, опубликованных на различных информационно-новостных серверах в Интернет. По тематике документы разделялись на три группы.

Для каждой группы были сформированы списки характеризующих терминов с помощью двух разных подходов:

1) без использования методов автоматического индексирования, способом отбора терминов обладающих максимальными значениями частоты термина из всех документов группы;

2) с использованием разработанного метода определения весов терминов в группе документов.

Для определения критериев сравнения характеризующих терминов, полученных' разными способами, предлагается сравнить матрицу сопряженности документов входящих в группу и документов содержащих термин (таблица 2) и матрицу сопряженности "релевантность - выдача" (таблица I). При рассмотрении этих матриц можно увидеть их сходство. Таким образом, в качестве критериев для оценки распределения характеризующих терминов групп между документами набора предлагается использовать коэффициенты аналогичные рассмотренным выше коэффициентам точности и полноты.

Таблица 2. Матрица сопряженности документов входящих в группу -__документов содержащих термин

Документы, вошедшие в группу Документы, не вошедшие в группу

Документы, содержащие термин А В

Документы, не содержащие термин С Б

Тогда коэффициент точности определяется как доля вошедших в группу и содержащих термин документов в общем числе всех документов, содержащих термин:

Коэффициент полноты определяется как доля вошедших в группу и содержащих термин документов в общем числе всех документов вошедших в группу

Результаты эксперимента приведены на рисунке 3

Средние значения коэффициентов для 10 терминов Разработанный метод Частотный метод

Коэффициент точности 87,4 % 64,2 %

Коэффициент полноты 72,2 % 74,2 %

Рис. 3. Коэффициенты точности и полноты 16

Анализ результатов экспериментов показал, что при незначительном изменении коэффициента полноты - уменьшился на 2 процента, коэффициент точности значительно увеличился - на 23,2 процента. Таким образом, термины, полученные с использованием предложенного метода формирования запроса, обладают лучшими показателями распределения.

Для оценки эффективности метода определения весов терминов в методике автоматизированного формирования запроса был проведен эксперимент с использованием тестового набора Reuteгs-21578.

По тематике все документы набора Reuteгs-21578 разбиты экспертами на группы, а внутри каждой группы выделены категории, при этом один документ может принадлежать нескольким категориям одновременно. Для эксперимента была выбрана группа документов, тематические категории которой соответствовали терминам в документах. При проведении эксперимента такие термины, соответствующие категориям, были выбраны как ключевые термины наилучшим образом характеризующие документ. В эксперименте использовалось 1009 документа из 28 различных категорий и содержащих 10625 различных терминов.

В ходе эксперимента все документы были разбиты на кластеры, в соответствии с тематическими категориями документов. Затем для всех кластеров были рассчитаны веса всех терминов двумя способами: частотным методом и разработанным методом. В результате эксперимента оценивались веса ключевых терминов, в идеальном случае ключевой термин должен обладать максимальным весом во всех кластерах.

В качестве критериев были выбраны следующие характеристики: позиция ключевого термина и отношение позиции ключевого термина к количеству терминов в кластере. Если все термины в кластере отсортировать по убыванию величины веса термина, то на первом месте будет термин обладающий максимальным весом, на втором - термин обладающий вторым по величине весом и так далее. Позиция термина это место в ряду терминов отсортированных по убыванию веса. В идеальном случае позиция ключевого термина должна быть равна единице, а отношение позиции к количеству терминов стремиться к нулю. Результаты эксперимента представлены на рисунке 4.

Таким образом, использование разработанного метода оценки весовых характеристик терминов при автоматизированном формировании запроса позволило получить более точные результаты, чем классический частотный метод.

В четвертой главе рассматривается использование разработанных методов для решения практических задач. Рассматривается информационно-

1) Позиция ключевого термина

2) Отношение позиции ключевого термина к количеству терминов

Критерий Частотный метод Разработанный метод

1) Позиция ключевого термина после расчета весов терминов 4,2857 4,0000

2) Отношение позиции ключевого термина к количеству терминов в кластере 0,0097 0,0085

Рис. 4. Результаты эксперимента с набором Кеи1еге-21578

аналитическая система, использующая разработанные методы, и применение разработанной методики в поисковых агентах Интернет

Предложенные в работе методы и алгоритмы были использованы при создании программного компонента входящего в состав модуля анализа текстов и гипертекстов информационно-аналитической системы для анализа

информационных проектов. Этот модуль используется модулем отбора анализа информационных ресурсов. В компоненте реализованы следующие функции:

1) выделение терминов из текстовых и гипертекстовых документов, при выделении терминов есть возможность использовать стоп-листы для исключения функциональных терминов, а также использовать морфологический анализ для определения начальной формы термина;

2) расчет весов терминов в документах различными методами, включая разработанный метод оценки весов терминов в документах;

3) выделение словосочетаний терминов;

4) разбиение документов на группы с помощью кластерного анализа;

5) расчет весов терминов в кластерах документов различными методами, включая разработанный метод оценки весов терминов в кластерах, для выделения ключевых терминов в кластерах использующихся при формировании запроса.

Информационно-аналитическая система была использована для анализа проектов при исследовании проектов создания высокопроизводительных ресурсов для научной сферы и образования. В ходе этой работы было проанализировано 34 проекта. Отбор информации из Интернет по тематике проектов проводился по следующим основным направлениям:

- математическое моделирование для задач физики, химии, механики, астрономии;

- моделирование экосистем;

- задачи информатики и геоинформатики;

- разработка мультимедиа приложений;

- системы искусственного интеллекта;

- банки образовательной информации;

- системы дистанционного обучения.

Время, затрачиваемое на отбор ресурсов по определенной тематике с использованием информационно-аналитической системы, сократилось в среднем в 1,4 раза, по сравнению с отбором ресурсов по результатам поиска с использованием существующих в Интернет универсальных поисковых систем.

Разработанные методы и алгоритмы могут быть использованы при создании поисковых агентов Интернет. Агентами принято называть программы, обладающие свойством автономности, способные реагировать на внешние стимулы и выполнять действия по собственной инициативе. Можно выделить следующие особенности использования агентов при поиске информации:

1) агенты могут самостоятельно искать информацию по заданию после отключения пользователя;

2) агенты могут создавать свою собственную базу знаний информационных ресурсов Интернет;

3) агенты могут осуществлять поиск интеллектуально, используя словари, распределенные базы данных, выделять контекст запроса, настраиваться на предпочтения пользователя.

Методы автоматического индексирования играют важную роль в работе агентов Интернет и оказывают существенное влияние на эффективность их работы. Основным преимуществом использования разработанной методики автоматизированного формирования запроса в агентах Интернет является отсутствие привязки к тезаурусу, что повышает мобильность агента.

В заключении подводятся итоги проделанной работы. Перечисляются основные результаты диссертации и следующие из них выводы.

Основные результаты работы

Основные результаты работы следующие:

1) на основе проведенного анализа моделей документального поиска и анализа существующих методов определения весов терминов разработан усовершенствованный метод оценки весов терминов в документах набора, позволяющий учесть такой фактор как распределение термина во всех документах набора, на основе использования величины обратной средней частоте термина в документах;

2) разработана методика автоматизированного формирования запроса на основе кластеризации набора документов полученных в результате поиска и разработанного метода определения весов терминов в кластерах документов;

3) разработан метод оценки весов терминов в наборе кластеров документов при автоматическом индексировании, позволяющий учесть распределение термина во всех кластерах набора, на основе использования величины обратной средней частоте термина в кластерах документов;

4) предложен метод оценки качества распределения ключевых терминов кластеров между документами с использованием коэффициентов точности, полноты и шума, аналогичных коэффициентам использующимся для оценки качества результатов поиска;

5) разработано программное средство, реализующее разработанные методы документального поиска, с использованием технологии разработки приложений на основе компонентной объектной модели;

6) проведены эксперименты, исследующие эффективность разработанных методов определения весов терминов в документах, определения весов терминов в кластерах документов, использование методов автоматического индексирования кластеров документов и подтверждающие их преимущества.

Основные положения диссертации изложены в следующих работах:

1. Козлов А.В. Система поиска информации в гипертекстах // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. - М: МИЭМ, 2001.

2. Козлов А.В., Мальцева С.В. Архитектура поисковых машин для шеЪ-ресурсов Интернет. // Автоматизация и информационные технологии. -2001.-№8.

3. Козлов А.В. Методы повышения эффективности автоматического индексирования // Научно-техническая конференция студентов, аспирантов и молодых специалистов института, посвященная 40-летию МИЭМ. Тезисы докладов. - М.: МИЭМ, 2002. - с. 152-153.

4. Козлов А.В. Методы автоматического индексирования и способы повышения их эффективности // Математические методы и информационные технологии в экономике, социологии и образовании: Сборник статей X Международной научно-технической конференции. -Пенза, 2002.- с. 305-307.

5. Козлов А. В., Мальцева СВ. Автоматическое индексирование в гипертекстах // Информационные технологии в сфере сервиса: материалы У11-й Международной научно-практической конференции МГУ сервиса «Наука - индустрии сервиса» / под редакцией Ананьевой Т.Н. - М.: Институт информационного сервиса МГУС, 2002. - с. 22-24.

6. Козлов А.В. Методы автоматизированного информационного поиска в гипертекстах // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. - М.: МИЭМ, 2003, с. 497-498.

7. Козлов А.В. Методы повышения эффективности автоматизированного информационного документального поиска // Информационные технологии XXI века. Материалы IV межвузовской ежегодной научно-практической конференции. - М.: Институт информационных технологий МГУС, 2003. - с. 18-19.

8. Козлов А.В. Автоматизация документального поиска в гипертекстовых ресурсах Интернет // Информационные технологии XXI века.

Материалы V межвузовской научно-практической конференции. - М.: Институт информационных технологий МГУС, 2003.

9. Козлов А.В. Методы повышения эффективности документального поиска в гипертекстовых ресурсах Интернет // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. - М.: МИЭМ, 2004. - с. 581-582.

10. Козлов А.В., Мальцева СВ. Методы повышения эффективности автоматического индексирования документов // Автоматизация и информационные технологии. - 2004. - №6.

ИД №061 17 от 23.10.2001

Подписано в печать 24.02.2005. Формат 60x84/16. Бумага типографская № 2. Печать - ризография. Усл. печ. л. 1,4 Тираж 100 экз. Заказ

Московский государственный институт электроники и математики 109028, Москва, Б.Трехсвятительский пер., 3/12.

Центр оперативной полиграфии (095) 916-88-04, 916-89-25

Ш'Z-05S3

946

Оглавление автор диссертации — кандидата технических наук Козлов, Артем Владимирович

Введение.

Глава 1. Проблемы автоматизации документального поиска в гипертекстовых ресурсах Интернет.

1.1 Структура гипертекстовых ресурсов Интернет.

1.2 Анализ современных средств поиска в гипертекстовых ресурсах Интернет.

1.3 Методы оценки эффективности автоматизированного документального поиска.

1.4 Выводы и постановка задачи.

Глава 2.Повышение эффективности поиска информации в ресурсах Интернет на основе методов автоматического индексирования.

2.1 Задача автоматического индексирования гипертекстовых документов

2.2 Анализ моделей документального поиска.

2.3 Разработка метода определения весов терминов в документах.

2.4 Методика автоматического индексирования.

2.5 Исследование эффективности предложенного метода определения весов терминов.

Выводы.

Глава 3.Разработка методики автоматизированного формирования запроса.

3.1 Поиск информации с уточнением запроса.

3.2 Разбиение документов на группы.

3.3 Выделение ключевых терминов в кластерах документов.

3.4 Методика автоматизированного формирования запроса.

3.5 Исследование эффективности методики автоматизированного формирования запроса.

Выводы.

Глава 4.Применение разработанных методов автоматизированного документального поиска в задачах информационно-аналитического обеспечения.

4.1 Автоматизация поиска и отбора Интернет-ресурсов в системе анализа инновационных проектов.

4.2 Применение разработанных методов при создании агентов Интернет!20 Выводы.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Козлов, Артем Владимирович

Актуальность проблемы. Одним из основных источников информации сегодня являются ресурсы глобальной информационной сети Интернет, и обеспечение доступа к информации обычно связывается с обеспечением доступа именно к ресурсам Интернет. Развитие сети Интернет в наши дни связано в первую очередь с ростом объема информационных ресурсов и повышением качества инфраструктуры физических сетей. В течение следующих нескольких лет основными тенденциями дальнейшего развития будут дальнейший рост объемов ресурсов, накопление информации и увеличение числа пользователей имеющих доступ к глобальной информационной сети.

Проблемы поиска и извлечения полезной информации в условиях информационного переполнения Интернет и хаотичности организации данных становятся все более актуальными. Ресурсы Интернет, основой которых является распределенная гипертекстовая база данных, все больше используются в исследованиях, коммерции, информационном обслуживании и многих других областях. Без эффективных механизмов поиска и обработки информации огромные ресурсы глобальной сети оказываются бесполезными.

Основной технологией, обеспечивающей использование ресурсов Интернет в практической деятельности, является автоматизированный поиск информации. Этой проблеме посвящены многие коммерческие и исследовательские проекты, особое внимание уделяется расширению интеллектуальных возможностей средств поиска. Это связано с тем, что поиск нужной информации в Интернет крайне затруднен и рациональное использование его ресурсов все больше осложняется. Автоматизированные системы поиска информации в Интернет необходимы уже сейчас и будут еще более востребованы в ближайшем будущем.

Существующим автоматизированным поисковым системам, занимающимся глобальным индексированием и поиском информации в Интернет становится все трудней поддерживать свой индекс в актуальном состоянии. Объем найденной по запросу информации зачастую таков, что для его анализа требуется довольно много времени и труда специалистов. Кроме этого существующие глобальные поисковые средства почти не предоставляют услуг по анализу найденной информации.

Таким образом, совершенствование автоматизированных средств поиска информации в Интернет является важной и актуальной задачей для эффективного использования гипертекстовых ресурсов Интернет и дальнейшего развития глобальной информационной сети.

Поиск в гипертекстовых ресурсах Интернет основывается на методах документального поиска возникших еще до появления глобальной информационной сети. Этой проблеме посвящено большое количество работ. Еще в 1949 году Г. Зипф опубликовал работу, в которой описал законы, характеризующие внутреннюю структуру текста. X. Лун использовал законы Зипфа и сформулировал правила для определения значимых слов в тексте документа. Идеи, предложенные X. Луном, легли в основу многих работ его последователей. В нашей стране под руководством B.C. Чернявского и Д.Г. Лахути в шестидесятые годы прошлого века была создана первая в мире информационно-поисковая система с автоматическим индексированием документов.

В основе автоматизированного документального поиска лежит понятие модели поиска. В настоящее время разработано много различных моделей. Дж. Сэлтона, одного из основоположников документального поиска, можно отнести к авторам векторной модели документального поиска, кроме этого он также проделал большую работу в области автоматического индексирования документов. С.Джонс С.И. Робертсон описали вероятностную модель документального поиска. Разработке латентно-семантической модели посвящены работы С.Дамайса, Г.Фурнаса, С.Дирвестера. В работах Д.О. Аветисяна и Р.Д. Аветисяна описываются энтропийная модель на основе статистической теории связи Шенона и корреляционная модель документального поиска, кроме этого предлагаются подходы к совмещению различных моделей таких как матричная и корреляционная.

Цели и задачи. Целью работы является создание программных средств для повышения эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет.

Реализация поставленной цели предполагает решение следующих задач:

- Обзор и сравнительный анализ моделей информационного документального поиска в распределенных гипертекстовых базах данных;

- Исследование и анализ методов автоматического индексирования гипертекстовых документов;

- Разработка метода определения весов терминов в документах при автоматическом индексировании;

- Разработка методики автоматизированного формирования запроса;

- Создание программного средства реализующего разработанные методы. Объект исследования. Объектом исследования являются программные средства, модели и методы автоматизированного документального поиска в гипертекстовых ресурсах Интернет.

Методы исследования. При проведении исследований в работе использованы алгебраические методы, эвристические приемы и методы кластерного анализа.

Научная новизна. Научная новизна работы заключается в следующем:

1) разработан метод определения весов терминов в документах при автоматическом индексировании набора документов;

2) разработан метод определения весов терминов в кластерах при автоматическом индексировании кластеров документов;

3) разработана методика автоматизированного формирования запроса на основе кластеризации результатов информационного документального поиска;

4) предложен метод оценки качества распределения ключевых терминов кластеров между документами с использованием коэффициентов точности, полноты и шума, аналогичных коэффициентам использующимся для оценки качества результатов поиска.

Практическая значимость. Результаты проведенных исследований были использованы при создании программных средств. Разработанный метод определения весов терминов при автоматическом индексировании документов обеспечивает более точное дифференцирование терминов индекса документа, что позволяет использовать его для повышения эффективности различных поисковых процессов. Разработанные программные средства позволили использовать предложенные в работе новые методы при создании информационно-аналитической системы использующей информацию Интернет-ресурсов.

Реализация результатов. Разработанные в данной работе программные средства входят в состав информационного и программного обеспечения информационно-аналитической системы сопровождения инвестиционных проектов при исследовании инвестиционных возможностей и технико-экономическом обосновании проектов в Инженерно-техническом центре «ТехИнвестФинанс».

Апробация работы. Результаты диссертационной работы докладывались и обсуждались на научно-технических конференциях студентов, аспирантов и молодых специалистов МИЭМ, Москва 2001 г., 2002 г., 2003 г., 2004 г.; VII Международной научно-практической конференции МГУ Сервиса «Наука -индустрии сервиса» «Информационные технологии в сфере сервиса», Москва МГУС 2002 г.; X Международной научно-технической конференции «Математические методы и информационные технологии в экономике, социологии и образовании», Пенза 2002 г.; IV Международной ежегодной научно-практической конференции «Информационные технологии XXI века» Москва МГУС 2003 г.

Публикации. По материалам диссертационной работы опубликовано 10 печатных работ.

Структура работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложения.

Заключение диссертация на тему "Повышение эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет"

Основные результаты четвертой главы следующие:

1) предложенные в работе методы и алгоритмы были использованы при создании программного компонента входящего в состав модуля анализа текстов гипертекстов информационно-аналитической системы для анализа инновационных проектов, позволившей сократить время отбор ресурсов Интернет в среднем в 1,4 раза;

2) разработанная методика автоматизированного формирования запроса при использовании ее в агентах Интернет позволяет повысить мобильность агента за счет отсутствия жесткой привязки к тезаурусу.

Заключение

Работа посвящена методам повышения эффективности автоматизированного документального поиска в гипертекстовых ресурсах Интернет. Основные результаты работы следующие:

1) на основе проведенного анализа моделей документального поиска и анализа существующих методов определения весов терминов разработан усовершенствованный метод оценки весов терминов в документах набора, позволяющий учесть такой фактор как распределение термина во всех документах набора, на основе использования величины обратной средней частоте термина в документах;

2) разработана методика автоматизированного формирования запроса на основе кластеризации набора документов полученных в результате поиска и разработанного метода определения весов терминов в кластерах документов;

3) разработан метод оценки весов терминов в наборе кластеров документов при автоматическом индексировании, позволяющий учесть распределение термина во всех кластерах набора, на основе использования величины обратной средней частоте термина в кластерах документов;

4) предложен метод оценки качества распределения ключевых терминов кластеров между документами с использованием коэффициентов точности, полноты и шума, аналогичных коэффициентам использующимся для оценки качества результатов поиска;

5) разработано программное средство, реализующее разработанные методы документального поиска, с использованием технологии разработки приложений на основе компонентной объектной модели;

6) проведены эксперименты, исследующие эффективность разработанных методов определения весов терминов в документах, определения весов терминов в кластерах документов, использование методов автоматического индексирования кластеров документов и подтверждающие их преимущества.

Библиография Козлов, Артем Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Аветисян Д.О., Аветисян Р. Д. Автоматизированная информационно-поисковая система «Бумеранг» // Информационные ресурсы России. - 1995.-№2.

2. Аветисян Р. Д. О некоторых моделях информационного поиска// Информационные процессы и системы // НТИ. 1996. - Серия 2, №4. - с. 1220.

3. Аветисян Р.Д. Разработка и исследование механизмов динамического взаимодействия различных стратегий поиска информации: Дис. канд. тех. наук: Спец.: 05.13.06 / Р.Д. Аветисян. М., 1996. - 122 с.

4. Айзенменгер Р. Справочник HTML 3.2/4.0 / Перевод с немецкого. М.: ЗАО «Издательство Бином», 1998. - 368 с.

5. Ашманов И., Русанова Н. Поисковые системы русскоязычных документов // Электронный офис, 1997. май/июнь.

6. Белоногов Г.Г., Богатырев В.И., Автоматизированные информационные системы. М.: Советское Радио, 1973.

7. Бокарев Т. Поисковые каталоги и системы как средство Интернет-рекламы // Профессиональный журнал о рекламе и маркетинге "Yes", 1999. № 5.

8. Бочаров П.П., Печинкин А.В. Теория вероятностей. Математическая статистика. М.: Гардарика, 1998. - 328 с.

9. Браславский П.И. Методы повышения эффективности поиска научной информации на материале Интернет: Дис. канд. тех. наук: Спец.: 05.13.16/ П.И. Браславский. М., 2000. - 159 с.

10. Браславский П.И., Вовк Е.А., Маслов М.Ю. Фасетная организация интернет-каталога и автоматическая жанровая классификация документов.

11. Диалог'2002, Протвино, 2002. М., "Наука" 2002. - Режим доступа: http://company.yandex.ru/articles/index.html.

12. Васильев П.П. Встроенные функции языка программирования VISUAL BASIC 6.0. М.: ДИАЛОГ-МИФИ, 2000. - 160 с.

13. Волков А.И. Оформление диссертационных работ и подготовка к защите: Методическое пособие в 2-х чатях. М.: МИЭМ, 2004. - 72 с.

14. Выгодский М.Я. Справочник по высшей математике. М., «Джангар», 2000. - 864 с.

15. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс. Учебное пособие. М.: Гелиос АРВ, 2002. -368 с.

16. Гринберг И., Гарбер Л. Разработка новых технологий информационного поиска // Открытые Системы, 1999. №10.

17. ГОСТ 34.003-90 Информационная технология. Комплекс стандартов на автоматизированные системы. Термины и определения.

18. ГОСТ 7.73-96. Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения.

19. ГОСТ 7.74-96 Система стандартов по информации, библиотечному и издательскому делу. Информационно-поисковые языки. Термины и определения.

20. Дьяконов В.П. MATLAB 6/6.1/6.5 + Simulink 4/5. Основы применения. Полное руководство пользователя. М.: СОЛОН-Пресс, 2002. - 768 с.

21. Закон РФ «Об информации, информатизации и защите информации» от 02.02.1995г.-№24-ФЗ.

22. Исследование и решение проблем применения технологий извлечения данных из Интернет-ресурсов в информационном обеспечении принятиярешений в области инновационно-инвестиционной деятельности: Отчет о НИР/ РГУ ИТП; Рук. С.А. Митрофанов. М., 2003. - 105 с.

23. Капустин В. Поиск информации в Интернете // Мир Internet, 1998. №9.

24. Карташева Е. Интеллектуальные поисковые системы Excalibur// Сети, 1997. №6.

25. Кешелава В. Поисковые системы для Интернет // PC Week/RE, 1997. №10.

26. Козлов А.В. Система поиска информации в гипертекстах // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. М.: МИЭМ, 2001.

27. Козлов А.В. Методы повышения эффективности автоматического индексирования // Научно-техническая конференция студентов, аспирантов и молодых специалистов института, посвященная 40-летию МИЭМ. Тезисы докладов. М.: МИЭМ, 2002. - с. 152-153.

28. Козлов А.В. Методы автоматизированного информационного поиска в гипертекстах // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. М.: МИЭМ, 2003, с. 497498.

29. Козлов А.В. Автоматизация документального поиска в гипертекстовых ресурсах Интернет // Информационные технологии XXI века. Материалы V межвузовской научно-практической конференции. М.: Институт информационных технологий МГУ С, 2003.

30. Козлов А.В. Методы повышения эффективности документального поиска в гипертекстовых ресурсах Интернет // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. -М.: МИЭМ, 2004. с. 581-582.

31. Козлов А.В., Мальцева С.В. Архитектура поисковых машин для web-ресурсов Интернет. // Автоматизация и информационные технологии. -2001.-№8.

32. Козлов А.В., Мальцева С.В. Методы повышения эффективности автоматического индексирования документов // Автоматизация и информационные технологии. 2004. - №6.

33. Корнеев В.В., Гарев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. Москва: «Нолидж», 2000. - 352 с.

34. Кудинов Г. Обзор основных способов классификации. 2001. - Режим доступа: http:\\www.dataquality.ru\classification.htm.

35. Кузин Ф.А. Диссертация: методика написания. Правила оформления. Порядок защиты. Практическое пособие для докторантов, аспирантов и магистрантов. 2-е издание, дополненное. - М.: Ось-89, 2001. - 320 с.

36. Кураленок И.Е., Некрестьянов И.С. Автоматическая классификация документов с использованием семантического анализа // Программирование, 2000. №4.

37. Курс лекций по предмету "Основы проектирования систем с искусственным интеллектом". Режим доступа: http://www.aanet.ru/%7ewwwkll/Books/intell/Index.htm.

38. Ланкастер Ф. Информационно-поисковые системы. М.: Мир, 1972.

39. Майкевич Н.В. Ислледование методов анализа Интернет ресурсов и реализация на этой основе мультиагентной системы поиска информации: Дис. канд. тех. наук: Спец.: 05.13.11/ Н.В. Майкевич; ИПС РАН. -Переславль-Залесский, 1999. 140 с.

40. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Дис. канд. тех. наук: Спец.: 05.13.11/И.С. Некрестьянов; СПбГУ. -СПб., 2000. 88 с.

41. Пархоменко В.Ф. Работа с русскоязычными полнотекстовыми базами данных в ИПС АРТЕФАКТ // НТИ. Информационные процессы и системы. -1998. Сер. 2, Вып. 1.-е. 25-29.

42. Пархоменко В.Ф. Система автоматического индексирования документов СКОБКИ ОС ЕС. М.: МЦНТИ, 1983.-79 с.

43. Плеханов А.С., Плеханов С.П. Технология написания выводов и заключения по работе. М.: МИЭМ, 1997. - 20 с.

44. Рофэйл Э., Шохауд Я. СОМ и СОМ+. Полное руководство: Перевод с английского. К.: ВЕК +, К.: НТИ, М.: Энтроп, 2000. - 560 с.

45. Сегалович И. Индексирование русских текстов с использованием словаря, представленного на основе разреженной хэш-таблицы // Диалог'95. Казань, 1995. - июнь. - Режим доступа: http://company.yandex.ru/articles/index.html.

46. Сегалович И. Как работают поисковые системы// "Мир Internet", 2002.-№10.

47. Сегалович И. Яндекс как универсальное поисковое средство для русских текстов. Семинар РОЦИТ "Русскоязычные поисковые системы в Интернет". 1998. - Режим доступа: http://company.yandex.ru/articles/index.html.

48. Степанов В. К. Русскоязычные поисковые механизмы в Интернет // Computer World Россия, 1997. №11.

49. Федоров А.Ф., Ананьев А.И. Самоучитель Visual Basic 6.0. СПб.: БХВ -Санкт-Петербург, 2000. - 624 с.

50. Флореску Д., Леви А., Мендельсон А. Технологии баз данных для WorldWide Web: Обзор // Системы управления базами данных, 1998.- №4.

51. Храмцов П. Информационно-поисковые системы Internet // Открытые системы, 1996.-№3(17).

52. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые Системы, 1996.- №6.

53. Шимко П.Д., Власов М.П. Статистика / Серия «Учебники, учебные пособия». Ростов н/Д: Феникс, 2003. - 448 с.

54. Эпштейн В Л. Введение в гипертекст и гипертекстовые системы. Режим доступа: http://www.ipu.rssi.ru/publ/epstn.htm.

55. Allan J. Incremental relevance feedback. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), 1996.

56. Allen R. В., Obry P. and Littman M. An interface for navigating clustered document sets returned by queries. In Proceedings of the ACM Conference on Organizational Computing Systems, pages 166-71, 1993.

57. Baezo-Yates R. and Ribeiro-Neto B. Modern Information Retrieval. ACM Press Addison Wesley, 1999.

58. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Science Department, Stanford University, Stanford, WWW7, 1998. http://www7.scu.edu.aU/programme/flillpapers/l 921/com 1921 .htm

59. Buckley C., Salton G., Allan J. Automatic Retrieval With Locality Information Using SMART. NIST Special Publication 500-207: The First Text REtrieval Conference (TREC-1). http://trec.nist.gov/pubs/trecl/tlproceedings.html

60. Buckley C., Walz J. SMART in TREC 8. NIST Special Publication 500-246: The Eighth Text REtrieval Conference (TREC 8), 1999. http://trec.nist.gov/pubs/trec8/t8proceedings.html

61. Carpineto C., Romano G., De Mori R. Information term selection for automatic query expansion. NIST Special Publication 500-242: The Seventh Text REtrieval Conference (TREC 7).http://trec.nist.gov/pubs/trec7/t7proceedings.html

62. Cheong F. Internet agents: Spiders, wanders, brokers, and bots. New Riders, 1996.

63. Chun T. Y. World Wide Web Robots: An Overveiw. Online & CD-ROM Review, 1999, Vol. 23, No.3.

64. Croft W. B. Organizing and searching large files of documents. Ph.D. Thesis. University of Cambridge, October 1978.

65. Croft W. В., Xu J. Query expansion using local and global document analysis. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), 1996.

66. Deerwester S., Dumais S.T., Furnas G.W., Landauer Т.К., Harshman R. Indexing by Latent Semantic Analysis. JASIS, 1990. http://citeseer.nj.nec.com/deerwester90indexing.html

67. Daphen К , Mehran S. Hierarchically classifying documents using very few words. In Proceedings of the International Conference on Machine Learning (ICML), 1997.

68. Dumais S. Latent semantic indexing: TREC-3 report. NIST Special Publication 500-226: Overview of the Third Text REtrieval Conference (TREC-3), 1995. http://trec.nist.gov/pubs/trec3/t3proceedings.html

69. Furnas G.W., Deerwester S., Dumais S.T., Landauer Т.К., Harshman R. A., Streeter L.A., Lochbaum K.E. Information retrieval using a Singular Value Decomposition Model of Latent Semantic Structure. ACM SIGIR, 1988.

70. Harman D. What we have learned, and not learned, from TREC. 2000. http://irsg.eu.org/irsg2000online/papers/harman.htm

71. Hert C.A. Understanding information retrieval interactions: theoretical and practical implementations. London: Ablex Publishing Corp., 1997.

72. HTML 4.01 Specification, W3C Recommendation 24 December 1999, http://www.w3 .org/TR/html.

73. Koch Т., Ardo A., Bremmer A., Lundberg S. The building and maintenance of robot based internet search services: A review of current indexing and data collection methods. Technical report, Lund University Library, Sweden, 1996.

74. Koster M. Robots in the Web: threat or treat? Connexions, 1995, №4(9).

75. Leouski A. V., Croft W. B. An evaluation of techniques for clustering search results. Technical Report IR-76, Department of Computer Science, University of Massachusetts, Amherst, 1996.

76. Lewis D. D. Reuters-21578 text categorization test collection. Distribution 1.0. http://www.research.att.com/~lewis

77. Loupy C., Bellot P., EI-Beze M., Martea P.-F. Query Expansion and Classification of Retrieved Documents. NIST Special Publication 500-242: The Seventh Text REtrieval Conference (TREC 7). http://trec.nist.gov/pubs/trec7/t7proceedings.html

78. Microsoft Corporation. Разработка распределенных приложений на Microsoft Visual Basic 6.0. Учебный курс/Перевод с английского. М.: Торгово-издательский дом «Русская редакция», 2000. 400 с.

79. Nelson, T.N. A file structure for the complex, the changing, and the indeterminate // in: ACM 20th National Conference Proceedings, Clevelend, Ohio, 1965.

80. Papka R, Allan J. Document classification using multiword features. In Proceedings of the CIKM'98, New-York, 1998.

81. Qui Y. , Frei. H. P. Concept based query expansion. In Proceedings of the 16th International Conference on Research and Development in Information Retrieval (SIGIR ), 1996.

82. Rijsbergen C. J. Information retrieval. London: Butterworths, 1979.

83. Robertson S.E., Jones K. S. Relevance Weighting of Search Terms. JASIS, 1976.

84. Salton G. Automatic Text Processing The Analysis, Transformation and Retrieval of Information by Computer. Addison-Wesley: Reading MA, 1989.

85. Salton G., Allan J., Singhal A. Automatic text decomposition and structuring. Information Processing & Management, 32(2), 1996, p. 127-138.

86. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24, 1988, p. 513-523.

87. Salton G., Singhal A., Mitra M., Buckley C. Automatic text decomposition and summarization. Information Processing & Management, 33(2), 1997, p. 193-208.

88. Schwarz C. Web Search Engines. Journal of the American Society for Information Science, 1998, №49.

89. Stanley L. Sclove. Notes on Cluster Analysis. IDS 472 Statistics for Information Systems and Data Mining. University of Illinois at Chicago. http://www.uic.edu/classes/idsc/ids472/clustering.htm

90. Stata R, Bharat K, Maghoul F. The term vector database: fast access to indexing terms for web pages. In Proceedings of the WWW-9, 2000.

91. Zamir O. Clustering Web Documents: A Phrase-Based Method for Grouping Search Engine Results. University of Washington, 1999. http://www.cs.washington.edu/research/projects/WebWarel/www/metacrawler/th esis.zip

92. Zamir O., Etzioni O. Web Document Clustering: A Feasibility Demonstration. Department of Computer Science and Engineering University of Washington, 2000,http://www.cs.washington.edU/research/projects/WebWarel/etzioni/www/papers/s igir98.pdf