автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Методы информационного поиска и ранжирования документов в компьютерных сетях

кандидата технических наук
Горбунов, Андрей Леонидович
город
Москва
год
2005
специальность ВАК РФ
05.13.13
Диссертация по информатике, вычислительной технике и управлению на тему «Методы информационного поиска и ранжирования документов в компьютерных сетях»

Автореферат диссертации по теме "Методы информационного поиска и ранжирования документов в компьютерных сетях"

На правах рукописи

Горбунов Андрей Леонидович

МЕТОДЫ ИНФОРМАЦИОННОГО ПОИСКА И РАНЖИРОВАНИЯ ДОКУМЕНТОВ В КОМПЬЮТЕРНЫХ СЕТЯХ

Специальность 05 13 13 - Телекоммуникационные системы и компьютерные сети

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук

!

Москва - 2005

Работа выполнена в Московском Государственном Техническом Университете гражданской авиации (МГТУ ГА).

Научный руководитель: доктор технических наук, профессор

Соломенцев Виктор Владимирович

Официальные оппоненты: доктор технических наук

Мальцева Светлана Валентиновна

кандидат технических наук Дубинина Вера Гавриловна

Ведушаи организация: ГУЛ Государственная корпорация по организации воздушного движения в РФ.

Защита состоится «_»__2О05 г. в_часов на заседании диссертационного

совета Д 212.133.03 в Московском Государственном Институте Электроники и Математики (Техническом Университете) по адресу

109028, Москва, Б Трехсвятительский пер. 3/12

С диссертацией можно познакомиться в библиотеке МГИЭМ (ТУ).

Автореферат разослан «_» 2005 г.

Учёный секретарь

диссертационного совета Д 212.133 03 к.ф.м.н., доцент

^н/ И В. Прокофьев

jwej -

W ¿tffttr

Общая характеристика работы

А1сгуальиость - проблемы Анализ публикаций последних лет в наиболее авторитетной мировой научной периодйке по профилю компьютерных сетей и телекоммуникационных систем показывает, что доминирующим направлением в этой сфере на сегодня является информационный поиск (ИП) - комплекс научных дисциплин, связанных с построением механизмов поиска информации в больших массивах цифровых данных и с выявлением закономерностей, позволяющих их структурировать Именно с эгим направлением в настоящее время в первую очередь связывается совершенствование телекоммуникационных систем и компьютерных сетей в ракурсе разработки научных основ архитектурных и структурных принципов их создания.

Термин «информационный поиск» (Information Retrieval) введён в научный оборот Мстрсом (Calvin Moeers) в 1951 году (66] Исследования в этой области эволюционировали от разработок, сфокусированных на технических аспектах в 50/60-х годах прошлого столетия (информационно-поисковая система с автоматическим индексированием, впервые разработанная в пашей стране под руководством В С Чернявского и ДГ Лахути), через интенсивно развиваемые в 70/80-е годы методы, связанные с ориентированными на пользователя интерфейсами поиска к специализированным поисковым инструментам, получившим мощное развитие в связи с появлением всемирной сети в 90-е годы.

Тематика ИП широко освещается в научной литературе В работах Д Аветисяна и Р Аветисяна описываются энтропийная модель на основе статистической теории связи Шенона и корреляционная модель документарного поиска Заметный вклад в развитие методов ИГ1 внесли своими работами Пархоменко В Ф., Дкж В А, Бухштаб Ю.А, Некрестьянов И С Одним из основоположников ИП является Д Сэлтон (G Saltón) -создатель модели векторного пространства, относящейся к числу базовых моделей построения поисковых процедур Схемы взвешивания при Сравнении векторов запроса и документа исследуются в трудах С Думайса (S Dumais) Хорошо известны работы Ф Гея (F Gey), посвященные поиску с использованием модели логической регрессии, а также исследования Р. Фанга (R Fung) по байесовским моделям ИП Доминирующий в настоящее время подход к организации процедуры установления соответствия запроса и документа (метод индекса цитирования) отражен в работах С Брина (S Впп) и Л Пэйджа (L Page).

Укрепляющийся интерес исследователей к данной тематике обусловлен информационной глобализацией, в сфере телекоммуникационных систем и компьютерных сетей наиболее явно представленной феноменом Интернета Появление огромных и общедоступных хранилищ информации с постоянным и быстрым обновлением отличающихся сильной неоднородностью данных (база данных лидера поисковой индустрии google com содержит информацию о более чем 8,5 миллиардов документов) вывело на первый план сложную комплексную задачу разработки методов, обеспечивающих быстрый и качественный поиск в таких хранилищах, их эффективное автоматическое пополнение, определение связей между хранимыми документами, i структурирование содержимого хранилищ и его доставку потребителю через

телекоммуникационные системы Тенденция лавинообразного роста информационной насыщенности сделала подсистемы ИП не только неотъемлемым, но и наиболее важным элементом архитектуры компьютерных сетей

РОС НАЦИОНАЛЬНАЯ БИБЛИОТЕКА . С.Петер4»*г I Í О»

■I ■■ и^т*

Во многих случаях центральным звеном процедур ИП является ранжирование документов (веб-страницы и сайты в случае Интернета) Показательный пример -ранжирование результатов работы сис1ем-поиска информации (поисковых систем, НС) в Интернете, когда найденный документы ранжируются по степени соответствия запросу (релевантности) Без эффективного ранжирования результаты поиска теряют смысл, так как могут включать в себя ссылки на десятки и сотни тысяч документов В целом ранжирование в Интернете носит характер всеобщего проблемного императива, поскольку обилие неупорядоченной онлайновой информации обусловливает необходимость оценки и выбора в любом аспекте использования Интернета При этом основными проблемами развития научных основ архитектурных принципов компьютерных сетей в ракурсе ИП являются недостаточная теоретическая проработка применяемых на практике подходов, сравни гельно невысокий уровень использования развитых математических механизмов, отставание теоретических разработок от быстро меняющихся поисковых потребностей пользователей компьютерных сетей

Целью настоящей диссертации является совершенствование теоретической базы компьютерных сетей на основе технологий информационного поиска Поставленная цель предполагает решение следующих задач.

• исследование методов и средств поиска релевантной информации в компьютерной сети Интернет,

• разработка методов учета предпочтений пользователей при осуществлении поиска (поисковая персонализация),

• совершенствование методов учета статистики переходов и поискового поведения пользователей в ходе поисковых сессий,

» формирование новых критериев ранжирования документов Интернета, комплексно учитывающих стохастическую природу посещения веб-сайтов;

• улучшение процедур поиска новостной информации в Интернете

В диссертации осуществляется теоретический анализ и экспериментальное исследование функционирования телекоммуникационных систем и компьютерных сетей для специальных приложений - ПС Разрабатываются научные подходы, методы и алгоритмы для ПС ПС, будучи объектами седьмого (прикладного) уровня эталонной модели ОЭЦЗО, в случае Интернета с характерным для этой среды мощным поисковым трафиком, оказывают значительное влияние на архитектуру объектов уровней 2-6 (канальный, сетевой, транспортный, сеансовый, представительный)' разрабатываемые в диссертации методы снижают объем поискового трафика и, тем самым, высвобождают ресурсы уровней 2-6 для полезной нагрузки

На защиту выносятся представленные в диссертации-

• разработка метода персонализированного ИП с ранжированием результаюв поиска через функцию релевантности в виде целевой функции задачи линейною программирования,

• разработка метода персонализированного ИП через ранжирование результатов поиска с учётом статистики переходов по ссылкам на найденные документы и поведения пользователя ПС,

• разработка метода ранжирования веб-страниц по критериям посещаемости и доступности для посетителей, построенным на базе полумарковской модели изменения состояния системы пользователь-сайт;

• разработка метода ранжирования сайтов по критерию общей эффективности, построенной на базе марковской модели, отображающей траекторию перемещения посетителя сайта но его структуре,

• разработка метода ранжирования новостных источников в Интернете по "критерию информативности, основанный на модели, построенной с применением элементов дисперсионного анализа

Научная новизна диссертации заключается в том, что в ней впервые

• предложена новая процедура определения релевантности для результатов поисковых сессий в Ишернете в виде решения задачи линейного математического программирования, применяемая в целях персонализированного ранжирования результатов поиска информации;

• построен оригинальный критерий релевантности для результатов информационно! о поиска в Интернете с учетом статистики переходов по ссылкам на найденные документы и поведения пользователя ПС в течение поисковой сессии,

• предложены базирующиеся на полумарковской модели новые показатели посещаемости сайтов, комплексно учитывающие стохастический характер процесса посещения,

• разработана оригинальная модель поведения пользователя во время работы с сайтом в терминах «погружения» в структуру сайта,

• разработана модель обработки онлайновой новостной информации на базе схемы дисперсионного анализа;

• построен оригинальный критерий категоризации новостных источников с учётом их рыночной востребованности.

Методы исследований При решении поставленных в диссертации задач использованы методы линейного математического программирования, теории марковских процессов, статистического дисперсионного анализа

Апробация полученных результатов. Основные положения диссертационный работы докладывались и обсуждались на кафедрах «Вычислительные _ машины, комплексы, чсистемы и сети» и «Радиотехнические устройоьо» Московского государственного Технического Университета ГА, «Вычислительная техника» Московского Государственного Института Электроники и Математики, на международной конференций «Российский Интернет Форум 2002» Описываемые в диссертации методы ранжирования разработаны и апробированы автором в период работы в проекте Рубрикой (www rubricon com) - крупнейшем энциклопедическом ресурсе Интернета Компания Microsoft включила встроенную функцию прямого поиска по Рубрикону в свой наиболее массовый продукт, присутствующий практически на каждом компьютере в России - пакет MS-Office 2003 (http //www microsoft com/rus/news/issue asp?20-l 1-2003-Microsoft0fficesystem xml) Таким образом проект Рубрикон является наиболее представительной в современных условиях средой для развития и проверки разработанных методик

Практическая ценность работы и реализация результатов. Научные результаты полученные в диссертации, доведены до практического использования в виде специальных программных модулей при выполнении поисковых процедур и реализации промо-стратегий в маркетинговом подразделении компании «Твинком Бизнес» -

генеральном подрядчике по интернет-проекту Рубрикон Полученные результаты позволили построить построить персонализированный поисковый сервис, обеспечивающий сокращение времени поиска информации в Интернете, увеличить эффективность использования веб-страниц и сайтов как рыночюмо инструментария посредством повышения эффективности размещаемых промо-объектов, снизить затраты организаций, использующих Интернет в целях конкурентной разведки, через сокращение времени обработки информации из новостных источников

Публикации По теме диссертации опубликовано 6 печатных работ

Структура диссертации. Диссертация состоит из введения, пяти тлав, заключения, списка литературы и приложения

Содержание работы

Во Введении дается обоснование актуальности работы, формулируются задачи исследования, научная новизна и практическая значимость работы, приводится KpaiKOe изложение диссертации

В первой главе «Особенности совершенствования теоретической базы компьютерных сетей посредством развития методов информационного поиска» обсуждается место ИП в современных компьютерных сетях; раскрываются основные понятия ИП, описываются проблематика конструирования ПС, общая методология кластерного анализа, формулируются главные направления исследований

Указывается, что информационная сверхнасыщенность современных больших компьютерных сетей (Интернет, крупные корпоративные информационные системы класса ERP) делает их компоненты, связанные с поиском информации, самыми важными частями таких структур. Это касается всех уровней, от пользовательского компьютера (что хорошо иллюстрируется заявлением корпорации Microsoft о гом, что поисковые и классификационные механизмы станут ключевым элементом следующей версии операционной системы Windows Longhom, появление которой ожидается в 2005 г), до технических комплексов, обеспечивающих решение задач поиска информации на глобальном уровне (запуск той же корпорацией поисковой системы MSN в феврале 2005 г.) Особенно заметна данная тенденция в Интернете, где лавинообразно растущий поток данных делает решение поисковых ¿адач самостоятельной проблемой областью

Даются базовые понятия комплекса прикладных научных дисциплин, объединяемых понятием «информационный поиск» В общем виде задача ПС определяется как построение отображения R множества J представлений ищущего информацию о характеристиках документов, содержащих требуемые сведения, па множество I свойств всех доступных документов

R J-*I

При этом отображение К ставится в зависимость от ряда факторов, позволяющих сфокусировать его Цель диссертации - разработка методов улучшения качества информационного поиска - связана с фокусировкой отображения К

В случае описания ПС для поиска информации в Интернете речь, как правило, идет о

следующих множествах

• множество Q, элементами которого являются термины из словаря поисковых терминов, к этим терминам приводится сделанный на естественном языке запрос искателя,

• множество S, элементами которого являются характеристики, отражающие поисковые предпочтения искателя; множества Q и S являются подмножествами множества J представлений искателя о характеристиках документов, содержащих требуемые сведения

QczJ, Sc J,

• "множество /, элементами которого являются данные о свойствах документов, обычно

имеет вид индекса базы данных, содержащей документы,

• множество L, элементами которого являются данные о гиперссылках на документы с других документов, часто представляет собой подмножество множества I

Lei

На рис 1 приведена концептуальная модель (ШеСаье-модель в нотации ЦМЬ), иллюстрирующая структуру и функциональность ГГС в терминах множеств ], I, 0_, Ь

Рис. 1. Функциональность ПС

Формулируется последовательность этапов процесса конструирования ПС для Интернета, показывается место разрабатываемых в диссертации механизмов определения релевантности результатов поиска в данной последовательности. Приводится обгций обзор методов кластерного анализа Указывается, что методология дисперсионного анализа применяется в задачах автоматической классификации только как оценочный инструментарий, в го же время для частной, но очень интенсивно решаемой в насюящее время задачи категоризации онлайновых новостных источников гю степени информативности-, базовая схема дисперсионного анализа, классически интерпретируемая как задача оценивания М судьями выступлений N спортсменов, прямо ассоциируется с

задачей освящения (оценки) М новостными источниками N 1ем Предлшае1ся при осуществлении конкурентной разведки задействовать параметры базовой модели дисперсионного анализа для категоризации- новостных источников по категориям информативности

Формулируются направления исследований персонализация поисковых процедур, позволяющая повысить их качество; разработка новых показателей посещаемости вебстраниц и сайтов, комплексно отражающих стохастическую природу этого процесса, разработка методов категоризации онлайновых новостных источников по степени информативности

Во второй главе «Метод повышения качества ИП посредством ранжирования веб-документов- с " использованием дополнительной информации о предпочтениях пользователей» проводится анализ наиболее распространенного в настоящее время подходе к определению релевантности результатов работы ПС с применением индекса цитирования веб-документов (оригинальное название разработчиков Ра§сКапк) Указывается что его использование приводит к повышению показателя полноты поиска и снижению показателя точности поиска, что в случаях использования онлайновых информационных источников для многих практических приложений означает увеличение продолжительности процедур предварительного анализа получаемых данных из-за увеличения доли слаборелевантной информации в массивах результатов поисковых процедур

Рассматривается другой известный подход к определению релевантности результатов поиска - модель векторного пространства В рамках этой модели каждому документу и каждому запросу ставятся в соответствие векторы О и Ъ, координатами которых являются взвешенные частоты к, вхождений термина (для документов) и индикаторы присутствия терминов Г, (для запросов) Эти векторы нормализуются Поиск релевантных документов при этом сводится к вычислению расстояния между векторами как правило, в качестве меры расстояния берется косинус угла а между л-мерными векторами запроса г=(кхи ... и документа ¿=(кц, кц... к^О, координатами которых служат частоты ки и к„¡, с которыми поисковые термины / встречаются в соответственно в запросе или документе

где 1-1,...п, п общее число поисковых терминов.

Указывается, что модели векторного пространства присущи серьезные недостатки

• погрешность метода, которая обусловлена естественной разницей языковой практики и культурного опыта искателя и авторов,

• сложность обнаружения наиболее релевантных документов в наборе результатов с высоким показателем полноты такой набор может включать очень большое количество документов;

1>.А

• ложную повышенную релевангность - большие значения для косинусов углов между векторами d иг для документов малого объема содержащих не все термины из-запроса

Предлагается механизм определения релевантности с использованием информации о поисковых предпочтениях искателя, позволяющий существенно повысить точность поиска при сохранении полноты и основанный на представлении процедуры вычисления критерия релевантности в виде задачи линейного про1раммирования (ЗЛП) В ЗЛП задействованы четыре математических сущности целевая функция Reí, набор переменных х, набор ограничивающих условий и набор весовых коэффициентов целевой функции к Предлагаются следующие ассоциации для этих сущностей

• целевая функция Reí - мера релевантности,

• " набор коэффициентов к - отображение предпочтений автора,

• часть набора ограничивающих условий и переменные х оюбражение предпочтений искателя

При этом переменные х играют роль весов при к и отражают важность критериев к с точки зрения искателя Предпочтения искателя - часть ограничений ЗЛП, формируемая в ходе онлайнового диалога при формулировании запроса Другая часть ограничений ЗЛП задается разработчиками ПС с целью определения базового соотношения между весами х и представляет собой использование опыта экспертов, т.е разработчиков

Синтезируется диалоговая процедура для выявления предпочтений искателя Предлагаются ограничивающие условия для х, которые ставятся в соответствие утверждениям диалоговой процедуры Формулируется алгоритм практической реализации разработанного метода в виде следующей последовательности действий (па рис 2 показана последовательность действий искателя информации и ПС в случае применения разработанного метода персонализации - Activity Diagram в нотации UML)

• Искатель, имеющий намерение воспользоваться сервисом персонализации на основе разработанного метода, формулирует запрос и отмечает желаемые позиции в соответствук>щем_диалоговом окне, а затем вводит запрос к ПС

• ПС генерирует предварительный набор результатов поиска с использованием базового способа определения соответствия документа запросу

• Функция релевантности Relj вычисляется для каждого документа j из предварительно! о набора результатов

• Предварительный набор результатов пересортируется в соответствии со значениями Re/, и данный окончательный результат поиска представляется искателю

Разработанный метод иллюстрируется примером применения усовершенствованного поискового алгоритма с учетом предпочтений искателя.

Рнс.2. Последовательность действий искателя и ПС в случае применения метода

персонализации

Приводятся результаты апробации разработанного метода персонализации- бил реализован эксперимент при решении задачи маркетингового исследования рынка контент-продаж в Рунете Сканирование информационною пространства Интернета производилось ежедневно одним маркетологом с помощью ПС Google, работающей но технологии PageRank, в течение Щ квартала 2003 i на предмет выявления изменений конкурентной ситуации (появление новых участников рынка, новых предложений и т"д ) Полученные от GoogPe первичные результаты поиска подвергались вторичной обработке по разработанному методу При этом фиксировалось время, затрачиваемое на предварительную оценку результатов поиска - его среднее значение для одной поисковой сессии составило 3 часа 24 минуты (204 мин) Данный показатель I квартала 2004 г, когда те же исследования осуществлялись тем же маркетологом в том же режиме без использования разработанного метода, имел значение 4 часа 14 минут (254 мин.)

Информационный поиск с применением разработанного метода Информационный поиск с без применения разработанного метода

Число испытаний 61 56

Статистическая оценка математического ожидания времени предварительной оценки результатов поиска 204 мин 254 мин.

Статистическая оценка среднеквадратического отклонения для времени предварительной оценки результатов поиска - ~ 10,1 мин (4,95%) 8,5 мин (3,35%)

Величина снижения исчисляемого в человеко-часах объёма работ по - < предварительному анализу получаемой из Интернета информации при проведении маркетингового исследования с применением разработанною метода составила 19,7%

В третьей главе «Метод повышения качества информационного поиска путём 1

ранжирования результатов поиска с использованием статистики переходов при поиске по данному запросу» развивается начатый в главе 2 анализ методов определения релевантности и указывается, чго принцип учета опыта авторов сайтов при выработке оценки релевантности не оптимален в часто встречающейся ситуации, когда поиск в Интернете осуществляется с целью нахождения достаточно специфичной информации Известен также подход, когда ранжирование результатов поиска по релевантности осуществляется с учётом статистики переходов, совершёпных раннее по подобным запросам Показывается, что накопленный опыт реализаций такого подхода не демонстрирует высокой" эффективности по сравнению с применением индекса цитирования, раскрываются причины сложившейся ситуации

Предлагается модификация рассмотренного метода определения релевантности с учётом статистики переходов, совершённых раннее по подобным запросам, которая сглаживает снижающие эффективность недостатки данного метода Вычисление оценки релевантности Р" осуществляется с учетом номера открываемого искателем документа в течении поисковой сессии (усреднение Е) а также с низкочастотной фильтрацией (усреднение F) меры релевантности (в виде усреднения на временном лаге Т, исчисляемом в количестве периодов времени t, на которых набирается по К, очередных сессий к=1..К,) уменьшающей зависимость меры от индивидуальною поведения отдельных искателей

р- у 1 Ym,i " N,T V К, 4* Mt

где n,j - количество обращений к документу j (j=l,. ], J - общее число документов) при запросах, содержащих термин i (i-I, 1,1 - общее число поисковых терминов), N, - общее '

количество обращений к документам при запросах, содержащих термин /, Мь -количество документов, о i крытых во время поисковой сессии k, m^ - порядковый номер открытого документа j с начала сессии к На рис 3 показано соотношение сущностей, формирующих разработанный критерий (Class Diagram в нотации UML)

Рис. 3. Соотношение сущностей, формирующих критерий релевантности, учитывающий статистику переходов и поисковое поведение пользователя

Разрабатывается модель учета поведение пользователей Интернета внутри пространства ссылок при выработке меры релевантности. Указывается на возможность формирования на основе разработанного подхода специального рейтшпа сайтов, акцентирующего сайты, находящиеся в поле текущих сильно выраженных интересов пользователей Приводятся результаты апробации предлагаемого метода

Информационный поиск с применением разработанного метода Информационный поиск без применения разработанного метода

Число испытаний 63 56

Статистическая оценка математического ожидания времени предварительной оценки результатов поиска 233 мин 254 мин

Статистическая оценка среднеквадратического отклонения для времени предварительной оценки результатов поиска 8,8 мин (3,78 %) 8,5 мин (3,35%)

В четвёртой главе «Ранжирование веб-страниц и сайтов по критериям привлекательности для пользователей» указывается на недостатки практикуемых в настоящее время методов оценки посещаемости сайтов (частота посещений по уникальным посетителям, хостам, хитам; время просмотра для всего сайга и/или страниц, глубина просмотра количество просмотренных страниц, пути просмогра и др), которое отражают отдельные аспекты данного случайного процесса не отражая связи между ними,

что не дает целостного представления о посещаемости и искажает решение задач совершенствования структуры сайта и построения стратегий рыночного продвижения

С целью выработки показателей посещаемости, свободных от указанных недостатков, предлагаются две марковские модели Первая модель позво.иет генерировать простые и надёжные оценки привлекательности и доступности всб-страниц, являющихся компонентами одного сайта Ранжирование по этим оценкам обеспечивает 1) улучшение коммуникаций с посетительской аудиторией, 2) повышение коммерческой отдачи промо-кампаний путём выбора для размещения рекламных объектов страниц, обеспечивающих максимальное значение показателя [отношение клики/показы] Вторая модель ориентирована на решение задачи ранжирования разных сайтов по критерию сравнительной привлекательности Потребность в таком сравнительном анализе возникает 1) при выборе сайта для размещения рекламных объектов; 2) в компаниях, кон гролирующих не©колько сайтов

Дается обзор литературы тю исследованиям, связанным с- проблематикой посещаемости сайтов и использующим аппарат марковских процессов Показывается, что опубликованные работы, акцентируя«, на описании поведения посетителя, не содержат моделей, которые описывали бы поведение системы «сайт-посетитель»

Обосновывается применимость аппарата марковских процессов для построения моделей посещаемости сайтов Приводятся данные эксперимента, поставленного с целью проверки гипотезы о марковских свойствах процесса посещения сайта

Предлагается модель 1, обеспечивающая комплексные оценки для сравнения посещаемости страниц одного сайта, на базе которых осуществляется конструирование онлайновых рекламных акций В рамках этой модели поведение системы «посетитель-сайт» описывается следующим образом в каждый момент времени система может находиться в одном из К+1 состояний 5' с номерами к=0,1,...Кх где Бо - пребывание посетителя на любом другом сайте Интернета, Ж; - пребывание пользователя на главной (первой) странице рассматриваемою сайта, к - номер страницы рассматриваемого сайта Предлагаются оценки привлекательности страниц для посетителей в виде финальных интервально-переходные вероятности полумарковского цроцесса

где Р, - финальная вероятность, а <7> среднее безусловное время пребывания в состоянии I и = 0..К, у = 0..К)

Предлагаются оценки временной доступное ги страниц через распределение вероятностей'

где g|/ll,t) - совместная вероятность того, что потребуется п переходов и время / для достижения в первый раз состояния 5}, если при 1=0 система находилась в состоянии

Искомые распределения предлагается получать как решение методом преобразований Лапласа системы уравнений

&¿п,0 = Р{п(1)=п, | ¿(0)=/, п(0)=0/

(2,,(п +1, г) = £ (т + 1, г)<2,> -т,г)<1т "чва

где - совместная вероятность того, что система находится в состоянии в момент

I и что она сделала п переходов при условии, что в момен! времени ¿=0 она находилась в состоянии 5;

Предлагается модель 2, позволяющая сравнивать различные сайты по критерию общей эффективности в виде марковской цепи, отражающей перемещения посетителя по сайта в терминах «глубины погружения» в его структуру, для чего во множестве результатов наблюдений о повелении системы выделяются события, соответс тующис

- перемещению посетителя по страницам, которое приводит к его удалению от состояния 5';, т е от посещения вершины структуры сайта - его главной страницы (Спуск),

- перемещению посетителя по страницам, которое приводит к его приближению посетителя к вершине сайта (Подъйм),

- перемещению посетителя по страницам, равноудалённым от вершины (Горизонтальное движение)

Расстояние между некоторым состоянием X, и состоянием 5/ выражается в минимальном количестве переходов между состояниями на маршруте (или маршрутах), связывающем 5, и 5;,

где 5,1 - состояние «подъема», 5/> - состояние «спуска», 5с - состояние «горизонтального движения Если описать процесс изменения состояния системы «посетитель-сайт» с помощью числового ряда, состоящего из расстояний от главной страницы для страниц, по которым перемещается посетитель, то модель 2 можно представить как аппроксимацию случайного процесса с произвольным счётным количеством состояний с помощью процесса на уровне знака первых разностей, чья область изменения содержит только три элемента 5л (Л^-Л',-¡<0), 5х> (Щ-К г>0), апс! 5с .¡=сопз(=0)

Рис. 4 Граф процесса посещения сайта по модели 2

Финальные вероятности пребывания в состояниях Рл, Рп и Рс предлагается использовать в целях оценивания полезности сайта для посетителя

Приводятся результаты апробации разработанных моделей На двух страницах сайта www rubncon com примерно одинакового контентного профиля (страницы справочников ООН и Всемирного Банка) в течение сентября 2003 г. был размещен баннер книги - учебника по маркетингу За период эксперимента баннер на странице справочника ООН был показан 3893 раза, баннер на странице справочника Всемирного Банка - 3276 раз По полученной статистике для данных страниц был рассчитан параметр Q, для баннера - показатель CTR (click-throw ratio - отношение клики/показы)

Q CTR%

Справочник ООН 0,023 0,19

Справоишк ВЬ 0,013 0,08

Приведенные результаты эксперимента показывают "прямую связь между величинами (2 и СТЯ, те имея показатели б для страниц сайта, рассматриваемого как потенциальный рекламоноситель баннеров компаний, возможно до начала рекламной кампании определить страницу сайта, которая обеспечила бы максимум параметра СШ

В пятой главе «Ранжирование источников новостей в Интернете по степени информативности» показывается актуальность проблематики задействования онлайновых источников новостной информации в практике конкурентной разведки и выявляются наиболее затратные составляющие такой работы, связанные с «ручной» обработкой данных.

Дается обзор публикаций на тему автоматической категоризации информационных объектов Интернета вообще и новостных онлайновых текстов в частности Показано, что среди публикаций не встречается постановка вопроса об категоризации источников новостей, а использование аппарата дисперсионного анализа в исследованиях, связанных с автоматической категоризацией, не выходит за рамки обычной для данного инструментария оценочной постановки задач

Разрабатывается модель процедуры обработки новостей с использованием аппарата дисперсионного анализа, в которой процесс обработки новое гной информации представляется в виде матрицы «источник-тема»

T, r2 Tj

R,i R,2 Rn

Ri, Rj2 R23

s. Rsi R32 R33

где Т„ 1=1..1 - новостные 1емы, 7=/ .] - источники новостей в электронном виде Поиск осуществляется по характерным для тем Т, ключевым словам т~1..М Каждому из ключевых слов методом экспертной оценки поставлен в соответствие нормализованный коэффициент иш„ , отражающий важность данного слова в контексте темы Результат поиска новостей по теме Т, в источнике .9/

Я, =ХХ ия

т- 1

Сеансы поиска новостей представляют собой измерения, которые дают реализации случайных величин Я,^, к-] ...К Величину можно интерпретировать как количественную оценку отклика элемента какой-либо информационной среды (в данном случае - Интернета) на новостные поводы, связанные с темой Т,

Классическая постановка задачи дисперсионного анализа предполагает, что представима в виде

= а, + Ь1; + ,

где а/ - в данном контексте некоторый «естественный», средний уровень отклика информационной среды на новостной повод, связанный с темой Т„

Ьч - доля отклика, привносимая элементом которая, вообще говоря, может зависеть от а, Ь,] огражает специфику редакционной политики источника Х,, тематические предпочтения журналистов данного источника и т д,

уи1 случайная составляющая к-й реализации (ошибка измерения) уф являются независимыми, одинаково распределёнными случайными величинами, имеющими нулевое математическое ожидание

Предлагается использование предложенных Фишером параметров этой схемы а, Д у и б, связанных с а, Ь и у, для ранжирования онлайновых новостных источников по категориям информативности сумма а + Д используется как показатель интереса, проявляемого информационным пространством Интернета к теме Т, Величина у1 трактуется как показатель полноты освещения любых тем новостным источником т е применяется в качестве критерия ранжирования источников вне зависимости от тем Т, Функция <Уассоциируется со степенью внимания, оказываемого источником теме Т, и используется для автоматического ранжирования источников новостей по степени информативности в отношении различных тем

Формулируются условия, при которых возможно ранжирование на основе статистических оценок а, Д у ид Приводятся выражения для таких статистических оценок и для ранжирования на базе дисперсионных отношений

Разрабатывается процедура ранжирование с учётом востребованности новостных источников на основе критерия

(3 - гшп 3 ) у г

1 1

где V - параметр посещаемости, £ - число гиперссылок, указывающих на сайт новостного источника

Приводятся результаты апробации Сканирование новостных источников в Интернеге с применением специальною модуля автоматической категоризации

источников по категориям информативности производилось ежедневно двумя экспертами-аналитиками для нескольких тем в течение декабря 2003 г - января 2004 г При этом фиксировалось время, затрачиваемое на работу с новостными источниками - его среднее значение для ежедневной сессии одного эксперта составило 2 часа 12 минут(132 мин )

Данный показатель февраля 2004 г, когда та же работа осуществлялась теми же экспертами без автоматической категоризации новостных источников по категориям информативности, имел значение 2 часа 28 минут (148 мин ).

Сканирование новостных источников с применением категоризации по информативности Сканирование новостных источников без применения категоризации по -информативности

Число испытаний - 70 40 '

Статистическая оценка математического ожттдания времени работы с новостными источниками 132 мин 148 мин

Статистическая оценка среднеквадратического отклонения для времени работы с новостными источниками 5,8 мин. (4,39 %) 6,2 мин (4,19%)

«

Основные результаты и выводы

Разработанные в диссертации методы, находясь в русле доминирующих сеюдня -направлений исследовательской активности в сфере телекоммуникационных систем и компьютерных сетей, обеспечивают совершенствование теоретической базы компьютерных сетей на основе технологий информационного поиска. В ходе исследований, проведённых в настоящей диссертационной работе, получены следующие основные результаты

1 На основе проведенного исследования методов поиска релевантной информации в компьютерной сеш Интернет сформулирована в общем-виде задача ПС как построение отображения множества представлений ищущего информацию о характеристиках документов, содержащих требуемые сведения, во множество свойств всех доступных документов

2 Разработан новый метод персонализированного ИП с процедурой определения релевантности для результатов поисковых сессий в Интернете в виде решения задачи линейною математического программирования

3 Определена структура диалоговой сессии для выявления предпочтений искателя при персонализированном поиске информации

4 Сконструированы зависимости, связывающие результаты диалоговой сессии с параметрами задачи линейного программирования

5 Разработан новый метод ИП с критерием релевантности для результатов информационного поиска в Интернете с учётом статистики переходов по ссылкам на найденные документы и поведения пользователя ПС в течении поисковой сессии

6 Разработана модель учёта поведения пользователей Интернета внутри пространства ссылок при выработке критерия релевантности с учетом статистики переходов

7 Разработан новый метод ранжирования веб-страниц, страниц по критериям посещаемости и доступности для посетителей, построенным на ба)е полумарковской модели изменения состояния системы пользователь-сайт,

8 Разработан новый метод ранжирования сайтов но критерию общей эффективности, построенной на базе марковской модели, отображающей траекторию перемещения посетителя сайта по его структуре,

9 Разработан новый метод ранжирования новостных источников в Интернете по критерию информативности, основанный на модели, построенной с применением элементов дисперсионного анализа

10 Сконструирован критерий категоризации новостных источников с учётом их рыночной востребованности

11 Построены программные модули, реализующие разработанные методы

Полученные результаты позволяют сформулировать следующие основные выводы

Улучшение качества поиска информации в Интернете связано с механизмами персонализации поисковых процедур, реализация которых требует применения развитых математических аппаратов, обеспечивающих широкие возможности настройки на предпочтения искателя К таковым относится аппарат математического программирования, использованный в настоящей диссертации для выработки новых критериев релевантности

Разработанные в диссертации методы специального ранжирования информационных объектов Интернета с учётом статистики переходов пользователей ПС и их поискового поведения являются серьёзным базисом для повышения качества ИП

Поиск оптимальных площадок для реализации задач рыночного продвижения в Интермете не обеспечивается"В должной мерс существующими методами оценки посещаемости веб-сайтов Обращение к марковским моделям позволило выработать набор новых оценок, комплексно учитывающих стохастическую природу процесса посещения сайта

Доля ручного труда при обработке первичной информации из онлайновых новостных источников при осуществлении конкурентной разведки весьма значительна и во многом связана с оценкой информативности источников. Разработанная автомагическая процедура категоризации источников новостей по степени информативности снижает эту долю и, соответственно, повышает эффективность работы маркетинговых подразделений компаний и организаций

Публикации по теме диссертации

[11 I орбунов А Л Построение сканирующего-полумарковского процесса

Межвузовский сборник научных трудов "Автоматизация обработки первичной информации" -Пенза ППИ, 1988, вып 13, с 42-48

[21 J орбунов А Л Массовый платный контент Материалы Шестою Российскою Интернет Форума 2002 (РИФ-2002), с с 119-120,-M РОЦИТ, 2002

[3] Горбунов А Л Об учете опыта коллег argc & argv,Журнал для программистов №2 - Киев Сич, Украина, 2004

[4] 1 орбунов А Л О"методе ранжирования новостных источников в Интернете Научный вестник МГТУ ГА Сер Информатика Прикладная математика - M МГТУ ГА, 2005

[5] GoibunovA (2002) Relevance of Web Documents'Ghosts Consensus Method Journal of the American Society for Information Science and Technology Vol 53, No 10, pp 783788 NY John Wiley & Sons

[6] GoibunovA (2005) Markov Models of WebSite Visitation. Applied Stochastic Models in Business and Industry NY John Wiley & Sons Forthcoming

Подписано в печать 02 06 05г Печать офсетная Формат 60x84/16 1,16уч-шдл 1,25 услпечл_Заказ Х° 1436/гс?£?/с?_Тираж 100 экз

Московский государственный технический университет ГА 125993 Москва, Кронштадтский бульвар, д 20 Редакционно-издательский отдел 125493 Москва, ул Пулковская, д 6а

(С) Московский государственный технический университет ГА, 2005

*' 9271

РНБ Русский фонд

2006-4 6697

Оглавление автор диссертации — кандидата технических наук Горбунов, Андрей Леонидович

Введение.

1 Особенности совершенствования теоретической базы компьютерных сетей посредством развития методов информационного поиска (ИП).

1.1 Место методов ИП в современных компьютерных сетях и проблема показателей качества ИП.

1.2 Анализ методов ИП.

1.2.1 Поисковые системы.

1.2.2 Кластерный анализ.

1.3 Основные направления исследований.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Горбунов, Андрей Леонидович

Анализ публикаций последних лет в наиболее авторитетной мировой научной периодике по профилю информационных технологий [58] показывает, что доминирующим направлением в этой сфере на сегодня является Information Retrieval (информационный поиск, ИП) - комплекс научных дисциплин, связанных с построением механизмов поиска информации в больших массивах цифровых данных и с выявлением закономерностей, позволяющих их структурировать. Именно с этим направлением в настоящее время в первую очередь связывается совершенствование телекоммуникационных систем и компьютерных сетей в ракурсе разработки научных основ архитектурных и структурных принципов их создания.

Термин «информационный поиск» (Information Retrieval) введён в научный оборот Моирсом (Calvin Moeers) в 1951 году [66]. Исследования в этой области эволюционировали от разработок, сфокусированных на технических аспектах в 50/60-х годах прошлого столетия (информационно-поисковая система с автоматическим индексированием, впервые разработанная в нашей стране под руководством B.C. Чернявского и Д.Г. Лахути), через интенсивно развиваемые в 70/80-е годы методы, связанные с ориентированными на пользователя интерфейсами поиска к специализированным поисковым инструментам, получившим мощное развитие в связи с появлением всемирной сети в 90-е годы.

Тематика ИП широко освещается в научной литературе. В работах Д. Аветисяна и Р. Аветисяна описываются энтропийная модель на основе статистической теории связи Шенона и корреляционная модель документарного поиска. Заметный вклад в развитие методов ИП внесли своими работами Пархоменко В.Ф., Дюк В.А., Бухштаб Ю.А., Некрестьянов И.С. Одним из основоположников ИП является Д. Сэлтон (G. Salton) -создатель модели векторного пространства, относящейся к числу базовых моделей построения поисковых процедур. Схемы взвешивания при сравнении векторов запроса и документа исследуются в трудах С. Думайса (S. Dumais). Хорошо известны работы Ф. Гея (F. Gey), посвященные поиску с использованием модели логической регрессии, а также исследования Р. Фанга (R. Fung) по байесовским моделям ИП. Доминирующий в настоящее время подход к организации процедуры установления соответствия запроса и документа (метод индекса цитирования) отражен в работах С. Брина (S. Brin) и JI. Пэйджа (L. Page).

Укрепляющийся интерес современных исследователей к данной тематике очевидно обусловлен информационной глобализацией, в сфере компьютерных сетей наиболее выпукло представленной феноменом Интернета. Появление огромных и общедоступных хранилищ информации с постоянным и быстрым обновлением отличающихся сильной неоднородностью данных (база данных лидера поисковой индустрии google.com содержит информацию о более чем 8,5 миллиардов документов) вывело на первый план сложную комплексную задачу разработки методов, обеспечивающих быстрый и качественный поиск в таких хранилищах, их эффективное автоматическое пополнение, определение связей между хранимыми документами, структурирование содержимого хранилищ. Тенденция лавинообразного роста информационной насыщенности сделала подсистемы ИП не только неотъемлемым, но и наиболее важным элементом архитектуры компьютерных сетей.

Во многих случаях центральным звеном процедур ИП является ранжирование документов (веб-страницы и сайты в случае Интернета). Показательный пример - ранжирование результатов работы систем поиска информации (поисковая система, ПС) в Интернете, когда найденные документы ранжируются по степени соответствия запросу (релевантности). Без эффективного ранжирования результаты поиска теряют смысл, так как могут включать в себя ссылки на десятки и сотни тысяч документов. В целом ранжирование в Интернете носит характер всеобщего проблемного императива, поскольку обилие неупорядоченной онлайновой информации создаёт ситуацию оценки и выбора в любом аспекте использования Интернета. При этом основными проблемами развития научных основ архитектурных принципов компьютерных сетей в ракурсе ИП являются недостаточная теоретическая проработка применяемых на практике подходов, сравнительно невысокий уровень использования развитых математических механизмов, отставание теоретических разработок от быстро меняющихся поисковых потребностей пользователей компьютерных сетей.

Целью настоящей диссертации является совершенствование теоретической базы компьютерных сетей на основе технологий информационного поиска. Поставленная цель предполагает решение следующих задач:

• исследование методов и средств поиска информации в компьютерной сети Интернет;

• разработка методов учета предпочтений пользователей при осуществлении поиска (поисковая персонализация);

• совершенствование методов учета статистики переходов и поискового поведения пользователей в ходе поисковых сессий;

• формирование новых критериев ранжирования документов Интернета, комплексно учитывающих стохастическую природу посещения веб-сайтов;

• улучшение процедур поиска новостной информации в Интернете.

В диссертации осуществляется теоретический анализ и экспериментальное исследование функционирования телекоммуникационных систем и компьютерных сетей для специальных приложений - ПС. Разрабатываются научные подходы, методы и алгоритмы для ПС. ПС, будучи объектами седьмого (прикладного) уровня эталонной модели OSI ISO, в случае Интернета с характерным для этой среды мощным поисковым трафиком, оказывают значительное влияние на архитектуру объектов уровней 2-6 (канальный, сетевой, транспортный, сеансовый, представительный): разрабатываемые в диссертации методы снижают объём поискового трафика и, тем самым, высвобождают ресурсы уровней 2-6 для полезной нагрузки.

На защиту выносятся представленные в диссертации:

• метод персонализированного ИП с ранжированием результатов поиска через функцию релевантности в виде целевой функции задачи линейного программирования;

• метод персонализированного ИП через ранжирование результатов поиска с учётом статистики переходов по ссылкам на найденные документы и поведения пользователя ПС;

• метод ранжирования веб-страниц по критериям посещаемости и доступности для посетителей, построенным на базе полумарковской модели изменения состояния системы пользователь-сайт;

• метод ранжирования сайтов по критерию общей эффективности, построенной на базе марковской модели, отображающей траекторию перемещения посетителя сайта по его структуре;

• метод ранжирования новостных источников в Интернете по критерию информативности, основанный на модели, построенной с применением элементов дисперсионного анализа.

Научная новизна диссертации заключается в том, что в ней впервые

• предложена новая процедура определения релевантности для результатов поисковых сессий в Интернете в виде решения задачи линейного математического программирования, применяемая в целях персонализированного ранжирования результатов поиска информации;

• построен оригинальный критерий релевантности для результатов информационного поиска в Интернете с учётом статистики переходов по ссылкам на найденные документы и поведения пользователя ПС в течение поисковой сессии;

• предложены базирующиеся на полумарковской модели новые показатели посещаемости сайтов, комплексно учитывающие стохастический характер процесса посещения;

• разработана оригинальная модель поведения пользователя во время работы с сайтом в терминах «погружения» в структуру сайта;

• разработана модель обработки онлайновой новостной информации на базе схемы дисперсионного анализа;

• построен оригинальный критерий категоризации новостных источников с учётом их рыночной востребованности.

Апробация полученных результатов. Основные положения диссертационный работы докладывались и обсуждались на кафедрах «Вычислительные машины, комплексы и сети» и «Радиотехнические устройства» Московского государственного Технического Университета ГА, «Вычислительная техника» Московского Государственного Института Электроники и Математики, на международной конференции «Российский Интернет Форум 2002». По теме диссертации опубликовано 6 печатных работ. Описываемые в диссертации методы ранжирования разработаны и апробированы автором в период работы в проекте Рубрикон (www.rubricon.com). Рубрикон - крупнейший в мире энциклопедический Интернет-ресурс: более 590 тыс. полнотекстовых энциклопедических статей, более 86 тыс. карт и иллюстраций, 81 наименование энциклопедий, справочников и книг, включая 30 томов главной на сегодня российской национальной энциклопедии БСЭ. Компания Microsoft включила встроенную функцию прямого поиска по Рубрикону в свой наиболее массовый продукт, присутствующий практически на каждом компьютере в России - пакет MS-Office 2003 (http://www.microsoft.com/rus/news/issue.asp720-ll-2003-MicrosoftOfficeSystem.xml). Инфраструктура контент-продаж Рубрикона используется старейшей и самой известной в мире энциклопедией на английском языке -энциклопедией «Британика» - для организации доступа российских подписчиков к своим онлайновым ресурсам. Рубрикон имеет совместные проекты с лидирующей российской ПС Яндекс («Яндекс-Энциклопедии» http://encycl.yandex.ru). Таким образом, проект Рубрикон является наиболее представительной в современных условиях средой для развития и проверки разработанных методик.

Исследования базируются на использовании математических аппаратов:

• линейного математического программирования;

• теории марковских процессов;

• статистического дисперсионного анализа.

Практическая ценность работы состоит в разработке технологий, позволяющих

• построить специализированный поисковый сервис, обеспечивающий персонализацию информационного поиска в Интернете;

• увеличить эффективность использования веб-страниц и сайтов как рыночного инструментария;

• снизить затраты организаций, использующих Интернет в целях конкурентной разведки.

Диссертация состоит из введения, пяти глав, заключения, списка литературы и приложения.

Заключение диссертация на тему "Методы информационного поиска и ранжирования документов в компьютерных сетях"

ЗАКЛЮЧЕНИЕ

Разработанные в диссертации методы замыкают универсальный дискурс оптимального выбора в виде его проекции на пространство Интернета - как суперпозиции проблем оценки онлайновых объектов с наибольшими весами бизнес-практик - на свободный член ранжирования, основанного на развитых математических механизмах.

Данные методы, находясь в русле доминирующих сегодня направлений исследовательской активности в сфере телекоммуникационных систем и компьютерных сетей, обеспечивают совершенствование теоретической базы компьютерных сетей на основе технологий информационного поиска.

В ходе исследований, проведённых в настоящей диссертационной работе, получены следующие основные результаты:

1. На основе проведенного исследования методов поиска релевантной информации в компьютерной сети Интернет сформулирована в общем виде задача ПС как построение отображения множества представлений ищущего информацию о характеристиках документов, содержащих требуемые сведения, во множество свойств всех доступных документов.

2. Разработан новый метод персонализированного ИП с процедурой определения релевантности для результатов поисковых сессий в Интернете в виде решения задачи линейного математического программирования.

3. Определена структура диалоговой сессии для выявления предпочтений искателя при персонализированном поиске информации.

4. Сконструированы зависимости, связывающие результаты диалоговой сессии с параметрами задачи линейного программирования.

5. Разработан новый метод ИП с критерием релевантности для результатов информационного поиска в Интернете с учётом статистики переходов по ссылкам на найденные документы и поведения пользователя ПС в течении поисковой сессии.

6. Разработана модель учёта поведения пользователей Интернета внутри пространства ссылок при выработке критерия релевантности с учётом статистики переходов.

7. Разработан новый метод ранжирования веб-страниц, страниц по критериям посещаемости и доступности для посетителей, построенным на базе полумарковской модели изменения состояния системы пользователь-сайт;

8. Разработан новый метод ранжирования сайтов по критерию общей эффективности, построенной на базе марковской модели, отображающей траекторию перемещения посетителя сайта по его структуре;

9. Разработан новый метод ранжирования новостных источников в Интернете по критерию информативности, основанный на модели, построенной с применением элементов дисперсионного анализа.

10. Сконструирован критерий категоризации новостных источников с учётом их рыночной востребованности.

11. Построены программные модули, реализующие разработанные методы.

Полученные результаты позволяют сформулировать следующие основные выводы: i. Улучшение качества поиска информации в Интернете связано с механизмами персонализации поисковых процедур, реализация которых требует применения развитых математических аппаратов, обеспечивающих широкие возможности настройки на предпочтения искателя. К таковым относится аппарат математического программирования, использованный в настоящей диссертации для выработки новых критериев релевантности. ii. Разработанные в диссертации методы специального ранжирования информационных объектов Интернета с учётом статистики переходов пользователей ПС и их поискового поведения являются серьёзным базисом для повышения качества ИП. iii. Поиск оптимальных площадок для реализации задач рыночного продвижения в Интернете не обеспечивается в должной мере существующими методами оценки посещаемости веб-сайтов. Обращение к марковским моделям позволило выработать набор новых оценок, комплексно учитывающих стохастическую природу процесса посещения сайта. iv. Доля ручного труда при обработке первичной информации из онлайновых новостных источников при осуществлении конкурентной разведки весьма значительна и во многом связана с оценкой информативности источников. Разработанная автоматическая процедура категоризации источников новостей по степени информативности снижает эту долю и, соответственно, повышает эффективность работы маркетинговых подразделений компаний и организаций.

Библиография Горбунов, Андрей Леонидович, диссертация по теме Телекоммуникационные системы и компьютерные сети

1. Адамович И.М., Заикии М.Ю., Земсков Д.В., Пешков А.И. Поиск информации в WEB. Сравнительная оценка поисковых машин. Системы и средства информации. 2003, № 13, с. 84-105.

2. Барзилович Е.Ю. Модели технического обслуживания сложных систем. М.: Высшая школа, 1982.

3. Вентцель Е.С., Овчаров Л.А. Теория случайных процессов и её инженерные приложения. М.: Наука, 1991.

4. Горбунов А.Л. Массовый платный контент. Материалы Шестого Российского Интернет Форума 2002 (РИФ-2002), с.с. 119-120. М: РОЦИТ, 2002.

5. Горбунов А.Л. Об учёте опыта коллег, argc & argv. Журнал для программистов. № 2. Киев: Сич, Украина, 2004.

6. Горбунов А.Л. Построение сканирующего полумарковского процесса. Межвузовский сборник научных трудов "Автоматизация обработки первичной информации". Пенза: ППИ,1988,вып. 13 с.42-48.

7. Елисов Л.Н., Баранов В.В. Управление и сертификация в транспортной системе. -М.: Воздушный транспорт, 1999.

8. Исикава К. Японские методы управления качеством./Под ред. Гличева А.В. М.: Экономика, 1998.

9. Казаков В.Н. Введение в теорию марковских процессов и некоторые радиотехнические задачи. М: «Советское радио», 1973.

10. Карасева Н.В. Применение технологий Data Mining для анализа данных. Сборник трудов научной сессии МИФИ-2004. Т. 12 М.: Изд-во МИФИ. 2004, с. 59-61.

11. Касумов В.А. Методы информационного поиска в Internet на основе нечётких отношений предпочтений. Автоматика и вычислительная техника. 2003, №4, с. 7178.

12. Комаров И.И. Методы автоматического поиска релевантной информации в тексте на естественном языке. Автореф. на соиск. уч. степени к.ф.м.н. С.-Петербургский Государственный университет. С.-П. 2003.

13. Кулик С.Д. Исследование нейросетевых программ и автоматизированные фактографические ИПС. Нейрокомпьютеры: разработка, применение. 2003, № 8-9, с. 38-50.

14. Курилец М.А. Транспортный менеджмент: Учебное пособие. М.: МГТУ ГА, 2001.

15. Мамедова Г. А. Сравнительный анализ современных методов поиска информации в Интернет-среде. Материалы семинара «Информационные сети, системы и технологии». -М.: Информсвязьиздат. 2003, с.121-122.

16. Миронов М.А., Тихонов В.И. Марковские процессы. Москва: Радио, 1977.

17. Некрасов И.В., Толчеев В.О. Сравнительный анализ методов классификации текстовых документов. Сборник трудов научной сессии МИФИ-2004. Т. 2 М.: Изд-во МИФИ. 2004, с. 169-170.

18. Некрестьянинов И., Павлова Е. Обнаружение структурного подобия HTML-документов. Труды 4-й Всероссийской конференции «RCDL'2002». Дубна: Изд-во ОИЯИ. 2002, с. 38-54.

19. Сальникова С.М., Попов Ю.А. Развитие проекта «Система поиска знаний в INTERNET». Сборник трудов научной сессии МИФИ-2004. Т. 11 М.: Изд-во МИФИ. 2004, с. 172-177.

20. Шабанов В.И., Власова А.Е. Алгоритм формирования функциональных связей и его применение в поисковых системах. Труды Международной конференции Диалог-2003. М.: Наука. 2003, с. 603-608.

21. Шеффе Г. Дисперсионный анализ. Пер. с англ. М: Мир, 1963.

22. Arasu A., Cho J., Garcia-Molina Н., Paepcke A., Raghavan S. (2001). Searching the Web. ACM Transactions on Internet Technology, Vol. 1, No. 1

23. Baeza-Yates R., Ribiero-Neto B. (1999). Modern Information Retrieval. Reading, MA: Addison Wesley.

24. Berry M., Brown M. (1999). Understanding Search Engines: mathematical modeling and text retrieval. Philadelphia: SIAM.

25. Bharucha-Reid A. (1960). Elements of the Theory of Markov Processes and ТЬеИП Applications. NY: McGraw-Hill.

26. Bolch G., Greiner S., Meer H., Trivedi K. (1998). Queueing Networks and Markov Chains. NY: John Wiley & Sons.

27. Boyce В., Kraft D., Meadow C. (1999). Text Information Retrieval Systems (Library and Information Science Series). Academic Pr.

28. Brin S., Page L. (2001). The Anatomy of a Large-Scale Hypertextual Web Search Engine. On-line]. Available: http://www7.scu.edu.au/programme/fullpapers/1921/coml921.htm

29. Bucy E., Lang A., Potter R., Grabe M. (1999). Formal features of cyberspace: Relationships between Web page complexity and site traffic. Journal of the American Society for Information Science. Volume 50, Issue 13, pp. 1246-1256. NY: John Wiley & Sons.

30. Calvo R., Williams K. (2002). Automatic Categorization of Announcements on the Australian Stock Exchange. On-line. Available: http://www.ted.cmis.csHno.au/adcs2002/papers/calvo-williams.pdf

31. Chen Н., Cooper М. (2001а). Predicting the Relevance of a Library Catalog Search. Journal of the American Society for Information Science and Technology. Vol. 52, No. 10. NY: John Wiley & Sons.

32. Chen H., Cooper M. (2001b). Using Clustering Techniques to detect Usage Patterns in a Web-Based Information System. Journal of the American Society for Information Science and Technology. Vol. 52, No. 10. NY: John Wiley & Sons.

33. Chen H., Cooper M. (2002). Stochastic Modeling of Usage in a Web-Based Information System. Journal of the American Society for Information Science and Technology. Vol. 53, No. 7. NY: John Wiley & Sons.

34. Cothey V. (2002). A Longitudinal Study of World Wide Web Users' Information Searching Behavior. Journal of the American Society for Information Science and Technology. Vol. 53, No. 2. NY: John Wiley & Sons.

35. Cristianini N., Shawe-Taylor J. (2000). An Introduction to Support Vector Machines. Cambridge University Press, 2000.

36. Dumais S. (1991). Improving the retrieval of information from external sources. Behavior Research Methods, Instruments & Computers, 23, pp. 211-218.

37. Fisher R. (1925). Statistical methods for research workers. Edinburgh.

38. Frommholz I. (2001). Automatic Categorization of Web Documents. On-line]. Available: http://www.is.infoimatik.uni-uisburg.de/teaching/seminars/dido/2001-01-16-frommholz-slides.pdf

39. Fung R., Favero B. (1995). Applying networks to information retrieval. Communications of the ACM, 58, pp. 27-30.

40. Gey F. (1994). Inferring probability of relevance using the method of logistic regression. In Processing of the Seventeenth Annual ACM-SIGHIl Conference, W. B. Croft and C. Van Rijsbergen, eds., London, Springer-Verlag, Berlin, New York, pp. 222-241.

41. Gorbunov A. (2002). Relevance of Web Documents: Ghosts Consensus Method. Journal of the American Society for Information Science and Technology. Vol. 53, No. 10, pp. 783788. NY: John Wiley & Sons.

42. Gorbunov A. (2005). Markov Models of WebSite Visitation. Applied Stochastic Models in Business and Industry. NY: John Wiley & Sons. Forthcoming.

43. GregoMlI S., Lenglart F. (2000). Measuring the probability of a business cycle turning point by using a multivariate qualitative hidden Markov model. Journal of Forecasting. Volume 19, Issue 2, p.p. 81-102. NY: John Wiley & Sons.

44. Guedon Y. (1999). Computational methods for discrete hidden semi-Markov chains. Applied Stochastic Models in Business and Industry. Volume 15, Issue 3, pp. 195-224. NY: John Wiley & Sons.

45. H. Luo, Q. Huang (2002). Automatic categorization design for broadcast news. Proc. SPIE Vol. 4676, Storage and Retrieval for Media Databases 2002, p.p. 285-295.

46. Hung С. ,Wermter S. (2004). A Dynamic Adaptive Self-Organising Hybrid Model for Text Clustering. On-line]. Available: http://www.his.sunderland.ac.uk/ps/hungcclustering.pdf

47. Jansen В., Spink A., Saraevic T. (2000). Real Life, Real users and Real needs: a Study and Analysis of User Queries on the Web. Information Processing and Management. 36: 207227.

48. Janssen J. (ed). (1986). Semi Markov Models: Theory and Applications. NY: Plenum Press

49. Jing H., Tzoukermann E. (1999). Information retrieval based on context distance and morphology. In Proceedings of the 22nd annual international ACM SIGMII conference on Research and development in information retrieval, p.p. 90 96.

50. Kohonen T. (2001). Self-organizing maps. Springer-Verlag, 2001.

51. Korfhage R. (1997) Information Storage and Retrieval. New York : John Wiley & Sons.

52. Korolyuk V., Swishchuk A. (1994). Semi-Markov Random Evolutions. Mathematics and its applications. Hardbound: Kluwer Academic Publishers

53. Kuo J., Chen H., Huang S., Lin C., Wung H. (2003). A Summarization System for Chinese News from Multiple Sources. Journal of the American Society for Information Science and Technology. Vol. 54, No. 13, pp. 1224- 1227. NY: John Wiley & Sons.

54. Lam W., Ruiz M., Srinivasan P. (1999). Automatic Text Categorization and Its Application to Text Retrieval. IEEE Transactions on Knowledge and Data Engineering. November/December 1999 (Vol. 11, No. 6), p.p. 865-879.

55. Lamb R., King J., Kling R. (2003). Informational EnvHFIonments: Organizational Contexts of Online Information Use. Journal of the American Society for Information Science and Technology. Vol. 54, No. 2., pp. 97-114. NY: John Wiley & Sons.

56. Liere R., Tadepalli P. (2004). Active Learning with Committees: Preliminary Results inComparing Winnow and Perceptron in Text Categorization. On-line]. Available: http://www.rdrop.com/~lierer/conald98.ps

57. Moens M., Dumortier J. (2004). Automatic Categorization of Magazine Articles. On-line]. Available: http://wwwis.win.tue.nl/infwet99/proceedings/moens.html

58. Morris S., Yen G., Wu Z., Asnake B. (2003). Time Line Visualization of Research Fronts. Journal of the American Society for Information Science and Technology. Vol. 54, No. 5, pp. 413-422. NY: John Wiley & Sons.

59. Qiu I. (1993). Markov Models of Search State Patterns in a Hypertext Information Retrieval System. Journal of the American Society for Information Science and Technology. Vol. 44: 413-427. NY: John Wiley & Sons.

60. Salton G., Buckley C. (1983). Introduction to Modern Information Retrieval. New York : McGraw-Hill.

61. Salton G., Buckley С. (1988). Term weighting approaches in automatic text retrieval. Information Processing and Management. No. 24, pp. 513-523.

62. Salton G., Buckley C. (1990). Improving retrieval performance by relevance feedback. Journal of the American Society for Information Science. Vol. 41, pp. 288-297.

63. Shamim Khan M., Khor S. (2004). Enhanced Web Document Retrieval Using Automatic Query Expansion. Journal of the American Society for Information Science and Technology. Vol. 55, No. 1, pp. 29-35. NY: John Wiley & Sons.

64. StatSoft, Inc. Электронный учебник по промышленной статистике. М: StatSoft, 2001.

65. Stewart W. (1991). Numerical Solution of Markov Chains. NY: Dekker.

66. Moeers C. (1951). Zatocoding applied to mechanical organization of Knowledge. American documentation. Vol. 2, No. 1, pp. 20-32.

67. Горбунов A.JI. О методе ранжирования новостных источников в Интернете. Научный вестник МГТУ ГА. Сер. Информатика. Прикладная математика. М.: МГТУ ГА, 2005.