автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах
Автореферат диссертации по теме "Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах"
На правах рукописи
ТЕРЕХОВ Алексей Андреевич
0046
РАЗРАБОТКА МЕТОДОВ И ИНСТРУМЕНТАЛЬНЫХ СРЕДСТВ ПОВЫШЕНИЯ ПЕРТИНЕНТНОСТИ ПОИСКА В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СРЕДАХ
0261
Специальность 05.13.17 - «Теоретические основы информатики»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва 2010
1 к ОПТ 2010
004610261
Работа выполнена на кафедре вычислительной и прикладной математики ГОУВПО «Рязанский государственный радиотехнический университет».
Научный руководитель: доктор технических наук, профессор
Белов Владимир Викторович
Официальные оппоненты: доктор технических наук, профессор
Ковшов Евгений Евгеньевич
кандидат технических наук, доцент Елхов Алексей Викторович
Ведущая организация: Филиал ФГУП
ГНПРКЦ «ЦСКБ Прогресс» ОКБ «Спектр»
Защита состоится «11» ноября 2010 г. в 14 часов на заседании диссертационного совета Д 212.147.03 при Московском государственном университете печати по адресу 127550, г. Москва, ул. Прянишникова, дом 2А
С диссертацией можно ознакомиться в библиотеке Московского государственного университета печати
Автореферат разослан "24" сентября 2010 г.
Ученый секретарь I к у доктор технических наук
диссертационного совета: профессор Агеев В.Н.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. Накопленные к настоящему времени колоссальные объемы информации в совокупности с непрерывно увеличивающимися темпами её роста определяют актуальность и значимость исследований в области информационного поиска. Бурное развитие сетевых технологий, в том числе и Интернета, способствуют значительному увеличению доступных информационных ресурсов и объемов передаваемой информации. Зачастую это разнородная, слабо структурированная и избыточная информация, обладающая высокой динамикой обновления.
При сегодняшних объемах доступной информации решение задач информационного поиска является приоритетным для обеспечения своевременного доступа к интересующим данным в рамках информационной среды (ИСр).
Концепция информационной среды впервые была предложена Ю.А. Шрейдером, который рассматривает информационную среду не только как проводника информации, но и как активное начало, воздействующее на её участников. Информационная среда - совокупность технических и программных средств хранения, обработки и передачи информации, а также социально-экономических и культурных условий реализации процессов информатизации.
В настоящее время работает ряд авторитетных международных конференций, посвященных обсуждению вопросов информационного поиска, например, таких как:
• TREC (Text Retrieval Conference) - цикл конференций организованный под эгидой NIST (National Institute for Standards and Technology) -одного из авторитетных органов стандартизации информационных технологий в США;
• SIGIR (Special Interest Group on Information Retrieval) - цикл конференций проводимых ACM SIGIR (ACM - Association of Computing Machinery) -международной группой специалистов по информационному поиску;
• WWW (World Wide Web) Conference - специально организованная конференция для решения задач, связанных с Интернет.
Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.
Из отечественных конференций, посвященных вопросам информационного поиска, нужно отметить ежегодную всероссийскую конференцию «Электронные библиотеки» (RCDL) и семинар по компьютерной лингвистике «Диалог».
Также необходимо отметить ряд отечественных научных школ:
• SPBU IR Group - исследовательская труппа в области информационного поиска (Санкт-Петербургский Государственный Университет);
• Исследовательский центр ИИ ИПС РАН;
• Центр информационных исследований (НИВЦ МГУ).
Кроме того, существуют коммерческие организации, занимающиеся не только вопросами исследований, но и вопросами внедрения информационных технологий, это такие известные организации как Яндекс, Рамблер, Апорт, НейрОК, Гарант-Парк-Интернет, Галактика-Зум, ABBYY-FTR, АОТ и др.
Ряд авторитетных исследователей внесли своими научными трудами значительный вклад в развитие информационно-поисковых систем: И.О. Некрестьянов, И.Е. Кураленок, В.Ю. Добрынин, А.Г. Дубинский, А.Е. Ермаков, М.Р. Когаловский, A.B. Сокирко, G. Saltón, A. Singhai, M. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, К. Tajima, С. Van Rijsbergen, L. Gravano, J. Kleinberg, J. Sparck, D. Carmel, S. Brin, L. Page, A. Singhal., T. Haveliwala.
Существует широкий спектр предлагаемых решений и перспективных направлений исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов при помощи латентно семантического анализа. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов анализа во многом зависит эффективность существующих поисковых систем, т.к. они являются основой любой поисковой системы и во многом определяют возможности и ограничения этих систем.
Представленные на сегодняшний день в большинстве популярных поисковых систем способы организации полнотекстового поиска не учитывают в достаточной мере семантику. В то же время, именно семантическое сходство непосредственно обусловливает высокую степень перти-нентности. Далеко не всегда пользователь информационно-поисковой системы может четко и однозначно сформулировать именно тот набор ключевых слов, который и приведет его к искомому результату.
Целью работы является разработка и исследование способа повышения показателей пертинентности информационного поиска, основанного на концепции интерфейсной поисковой системы (ИнтПС), осуществляющей объединение и переупорядочивание откликов на запросы пользователей популярных поисковых систем сети Интернет.
Задачи исследования. Для достижения целей диссертационной работы необходимо решение следующих задач.
1. Формализация описаний факторов ранжирования поисковых систем сети Интернет.
2. Модификация существующих факторов ранжирования, слабо защищенных от влияния искусственно создаваемых непродуктивных связей между компонентами сети.
3. Создание методологии оценки пертинентности информационного поиска на основе экспертных оценок.
4. Разработка концепции поисковой системы многоальтернативного поиска и адаптивного переранжирования.
Методы исследования. Исследования осуществлялись на основе методов системного анализа, линейной алгебры, теории вероятностей, математической статистики, математической логики, теории графов, теории множеств, методов структурного и объектно-ориентированного программирования.
Научная новизна работы состоит в следующем.
1. Созданы новые методики: 1) расчета основных факторов ранжирования документов с алгоритмической завершённостью вычислительных процедур; 2) экспертной оценки пертинентности документов на основе показателей контентной эквивалентности; 3) вычисления PageRaIlk страниц для произвольного фрагмента сети.
2. Предложены новые количественные показатели: 1) контентной эквивалентности двух последовательностей разной длины как числовых, так и лингвистических; 2) пертинентности откликов поисковых систем на запросы пользователей (пертинентностная точность выдачи; подлинная пертинентность документа; максимальная пертинентность документов выдачи; кумулятивная пертинентность выдачи; векторная пертинентность выдачи; средние значения указанных ранее показателей, вычисляемые по 32-м точечным значениям); 3) авторитетности страниц ресурсов сети Интернет.
3. Сформулированы и доказаны теоремы, определяющие: 1) свойства показателей контентной эквивалентности; 2) диапазон возможных значений показателя авторитетности страниц произвольного фрагмента сети Интернет; 3) зависимость показателя авторитетности страниц произвольного фрагмента сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент.
4. Разработана концепция интерфейсной поисковой системы многоальтернативного поиска и адаптивного переранжирования, отличающаяся формированием точечных и средних значений оценок подлинной пертинентности документов, выдаваемых системой, контролем указанного среднего значения и изменением способа формирования итоговой выдачи при попадании этого значения в критическую область.
5. Разработан рекурсивный алгоритм определения структуры произвольного фрагмента сети Интернет, отличающийся рекурсивным использованием стандартного сервиса определения обратных ссылок.
Практическая ценность. Совокупность полученных теоретических и практических результатов может использоваться для построения метапо-исковых и интерфейсных информационно-поисковых систем, позволяющих повысить эффективность информационной поддержки профессиональной целенаправленной деятельности сотрудников малых и средних предприятий и организаций, для которых гипотеза о тематической однородности запросов наиболее правдоподобна.
Для практического воплощения концепции интерфейсной поисковой системы в диссертации созданы два программных продукта (AltoSearch/АльтПоиск и БеагсИАпаНгег/ПоискАнализатор), позволяющие автоматически формировать общую выдачу - обобщённый набор документов, получаемых от нескольких поисковых систем сети Интернет в ответ на запрос пользователя и расчет показателей контентной эквивалентности. Создан макет интерфейсной поисковой системы, опытная эксплуатация которого в рабочем процессе ООО «Мегапром» показала повышение подекадного среднего значения подлинной пертинентности на 10 - 18 % по сравнению с популярными поисковыми системами.
Достоверность и обоснованность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечиваются использованием надежных методов исследования и подтверждаются: корректностью использования адекватного математического аппарата; хорошей апробацией материалов диссертации; успешным.внедрением результатов в практику.
Реализация и внедрение результатов работы. Разработанные в диссертационной работе теоретические и практические результаты внедрены в ООО «Мегапром», ОАО «Рязанский проектно-технолошческий институт» (ОАО РПТИ), в ГОУВПО «Рязанский государственный радиотехнический университет» (ГОУВПО РГРТУ).
Разработанные программные продукты имеют свидетельства об официальной регистрации программных систем и баз данных в Российском агентстве по патентам и товарным знакам (РОСПАТЕНТ):
1) программная система SearchAnalizer/ ПоискАнализатор. Зарегистрировано в Реестре программ для ЭВМ 24.04.2009 г., per. № 2009612105;
2) программа AltoSearch/АльтПоиск. Зарегистрировано в Реестре программ для ЭВМ 24.04.2009 г., № 2009612104.
Информация о регистрации указанных программ содержится в журнале: Программы для ЭВМ, базы данных, топологии интегральных микросхем (RU ОБПБТ) № 3 (68). 2009 г. С. 90.
Основные положения, выносимые на защиту.
1. Формализованные описания основных факторов ранжирования поисковых систем сети Интернет и методика их расчета.
2. Показатели контентной эквивалентности двух последовательностей разной длины как числовых, так и лингвистических.
3. Теоремы, определяющие свойства показателей контентной эквивалентности.
4. Показатели пертинентности откликов поисковых систем на запросы пользователей.
5. Методика экспертной оценки пертинентности на основе показателей контентной эквивалентности.
6. Теорема, определяющая диапазон возможных значений показателя авторитетности страниц произвольного фрагмента сети Интернет.
7. Теорема, определяющая зависимость показателя авторитетности страниц произвольного фрагмента сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент.
8. Методика вычисления Ра§еИ.апк страниц для произвольного фрагмента сети.
9. Методика исследования зависимости авторитетности страниц произвольного фрагмента сети от внешнего потока Ра«е11апк.
10. Дополнительный показатель авторитетности страницы как фактор ранжирования в поисковых системах - 8оИс1Ра§еКапк.
11. Концепция интерфейсной поисковой системы многоальтернативного поиска и адаптивного переранжирования.
12. Рекурсивный алгоритм определения структуры произвольного фрагмента сети Интернет.
Апробация работы. По теме диссертации сделаны доклады на 15-й Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», Рязань, 2008 г.; XII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2007 г.; XIII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2008 г.; XIV Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2009 г.; 4-й межвузовской научно-технической студенческой конференции «Актуальные проблемы персональных компьютеров и сетей», Москва, 2006 г.; Международной конференции «Инновационное управление в информационной среде», Рязань, 2007 г.; Третьей международной конференции «Инновационное управление в информационной
среде», Рязань, 2008 г.;., а также на научных семинарах кафедры ВПМ РГРТУ.
Публикации. По теме диссертации опубликовано 20 научных работ, в том числе 11 материалов и тезисов докладов на международных и всероссийских конференциях и семинарах. Опубликовано 5 статей, из них 2 в издании, включённом в список ВАК. В Реестре программ для ЭВМ зарегистрированы 2 программы.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, основных обозначений и сокращений, списка использованной литературы и приложений. Основной текст содержит 146 страниц, 5 таблиц, 38 рисунка. Список литературы состоит из 117 наименований. Приложения выполнены на 5 страницах.
СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении дается обоснование актуальности темы работы, формулируются цели и задачи исследований, представляются основные положения диссертационной работы, выносимые на защиту.
Первая глава посвящена обоснованию темы диссертации. В главе определяются основные цели и задачи разработки информационно-поисковых систем, проблемы современных поисковых систем, приводятся основные направления исследований данной проблемы и обзор работ. Описаны принципы работы документальных поисковых систем, интеллектуальных поисковых систем. Более подробно рассмотрены компоненты поисковых систем сети Интернет.
Во второй главе представлена классификация поисковых запросов сети Интернет: по многословности, по четкости формулировки, по конкурентности запроса, на основе частотности запроса, по коммерческой привлекательности запроса, по целям пользователей.
Описаны основные факторы ранжирования поисковых систем, влияющих на позиции документов в выдаче в ответ на запрос пользователя: внешние факторы ранжирования (ссылочное ранжирование) La(x); внутренние факторы ранжирования Та(х); собственные факторы ранжирования поисковых систем Са{х)\ авторитетность страницы PRa. Дня указанных факторов определены расчётные , формулы, используемые для вычисления релевантности выдачи поисковой системы;
W = [*, ■ Т(х) + К ■ L(x) + к, ■ СДх)] • F(PRJ, где кп к2, кг - аппроксимирующие коэффициенты, для каждой ПС свои; F(PRa) = (1 + q- PRJ - монотонно неубывающая функция, и F(0) = 1.
Определены новые показатели пертинентности откликов поисковых систем на запросы пользователей, предназначенные для реализации процедур адаптации алгоритмов формирования итоговой выдачи: 1) перти-
нентностная точность выдачи 9У; 2) подлинная пертинентность документа ц/; 3) максимальная пертинентность документов выдачи ; 4) кумулятивная пертинентность выдачи ; 5) векторная пертинентность выдачи т) — (ч*, МГ:га); 6) средние значения указанных показателей, вычисляемые по 32-м точечным значениям: Э('.32!, \у[321, , ХР'321,
Определена методика оценки пертинентности на основе экспертных суждений и следующих формальных показателях степени контентной эквивалентности.
Степень емкостной контентной эквивалентности
если К >0;
РЛЛ„Л2) = <
ЛеСЛИКтт =^тах =0-Степень относительной контентной эквивалентности
, если Утп > 0;
Рс(ЛРЛ2)=' "
[0, еслиИт(„ = 0. Степень абсолютной контентной эквивалентности
Сот
Рл(А,,А2) =
Сот
, если Ктах >0;
[0, если Ктах = 0. Степень эквивалентности по обобщенной ранговой корреляции
ря(Л,,Л2) = -{1-——--, если л > 0;
0, если г) = 0.
Степень эквивалентности по условной ранговой корреляции
Рш(Л-!,Л2) =
зК^11-^21)2
1 —
-, если г| >1;
л(л2-0
0, если г) < 1.
Степень эквивалентности по плотности общих элементов
шш(к1м!1-к^„1ш-1Р1г,) ^ если ^ _ _ ^ > 0;
Рсо(Л1'Лг)= тах(^« ~ кЯп„1и„ - 1Р„)
0, если тах^, - кгш,1Ьт, - /я„) = 0.
Для показателей степени контентной эквивалентности указана семантика предельных значений и сформулировано пять теорем, определяющие их взаимосвязи.
В третьей главе рассматриваются вопросы, связанные с использованием и вычислением показателя авторитетности страниц Интернет. Сформулирована теорема, определяющая диапазон возможных значений указанного показателя для произвольного фрагмента сети.
Теорема 6. Пусть задан произвольный фрагмент сети Интернет следующими признаками: 1) матрицей смежности страниц сайтов
М = [Му]1; 2) значением коэффициента затухания с1 < \. Тогда:
п
1) сумма Ра§е11апк всех страниц рассматриваемого фраг-
/=1
мента равна п, если каждая страница имеет хотя бы одну ссылку на другие страницы, или формально:
\ (" Л
->
V'! • У
и
2) сумма ^Р/ Р^еЯапк всех страниц рассматриваемого фраг-
1=1
мента меньше п, если фрагмент содержит хотя бы одну страницу, не имеющую ссылок на другие страницы, или формально:
< И ^ (п >
^ ;=1 у \'=1 )
п
3) наименьшее значение суммы PageRank всех рассматри-
<=1
ваемых страниц фрагмента равно «(1 - и имеет место в том случае, когда ни одна страница фрагмента не имеет ссылок, или формально:
г " Л (" \
V 7=1 У ч'=1 )
Следствием из указанной теоремы является следующее свойство суммы Ра£еЯапк страниц произвольного фрагмента сети:
п
Описаны особенности и недостатки различных методы вычисления Ра«еЯапк: итерационный, матричный, функциональный. Предложена методика расчета PageRank на основе оригинального способа формирования системы линейных алгебраических уравнений, использующего модифицированное определение показателя авторитетности, содержащего в правой части сумму авторитетностей всех п вершин графа и фильтрующие
V"» Р
константы \ + с12_1311-^-,
У'1
если ] - я вершина ссылается на 1-ю вершину;
где 8/. = •!
(О, в противном случае.
СЛАУ имеет вид:
( а 4 5П —-1 С, у
с ^ я <1 л ,
Р\ + 5и ТГРг + - + К—Р„
■с,
с„
4тР\ + Ь,Ч4гРг + -■+ 3„„ Рп - 1 •
С,
с,
с„
Или в матричной форме: А • р = Ь , где А = [А ]", р =
- искомыи
вектор PageRank; Ь = {й -1], ; =
5„- —, если / Ф ;'; С,
5„--1, если /' = /.
Сформулирована теорема, определяющая зависимость показателя авторитетности страниц произвольного фрагмента сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент.
Теорема 7. Пусть задан фрагмент сети Интернет следующими признаками: 1) матрицей смежности страниц сайтов М = [А-/Д!; 2) значением коэффициента затухания й; 3) вектором внешних «входных» PageRank для каждой страницы фрагмента 8 = .
Тогда PageRank каждой страницы рассматриваемого фрагмента сети представляет собой линейную форму элементов вектора в, т.е.
и ___ ___
Pi = ßo + /CPA ' ' = 1>«, гДе ß> > 7 = 0,« - некоторые неотрицательные y=i
вещественные числа.«
Изложена новая методика исследования зависимости авторитетности страниц произвольного фрагмента сети от внешнего потока PageRank, предусматривающая, в частности, использование аппарата символьного решения СЛАУ среды MathCAD.
Разработан дополнительный показатель авторитетности страниц Интернет — Solid PageRank, семантически представляющий собой нижнюю оценку показателя авторитетности страницы, позволяющий избежать искусственной накрутки собственного значения за счет организации топологии фрагмента сети Интернет. Solid PageRank представляет собой нижнюю пессимистическую оценку показателя авторитености страницы, для его расчета используются те же самые исходные данные, что и для классического PageRank.
Реализован необходимый инструментарий для вычисления значений показателей авторитетности PageRank и Solid PageRank. В качестве программной платформы использовались среда MathCad и С# Developer Studio.
В четвертой главе сформулирована концепция интерфейсной поисковой системы (ИнтПС), реализующая в себе элементы персонифицированного поиска от Google, социального поиска на основе социальных закладок.
Описана методика формирования выдачи ИнтПС. Общая горизонтальная релевантная выдача
а\*} = ' = 1»2,...7я где к = arg^max fey))] ■
Вертикальная релевантная выдача
В= RowsSort (а), В = [\,.]:;
W = kL. wk =bu> fc=j + (i-l)n, j = l,n, i = l,m;
W = DelEquiv(W);
4?=w„ l = VL-
где DelEquivO - функция удаления совпадающих элементов в векторе; L - количество элементов в векторе W после удаления совпадающих.
Пользовательский интерфейс
Классификатор предметных областей
i 1 L Г
Модули доступа к поисковым системам
Общая релевантная выдача
V = [v(L,vi=aW; Л = 7 + 0'-1)и-
W= Sort (V), W = [u-,]_,
l£*£nf'n£(vtlx)i
W = DelEquiv(W).
где DeffiquivO - функция удаления совпадающих элементов в векторе; L - количество элементов в векторе W после удаления совпадающих Выдача на основе поведенческой стратегии пользователя.
V = [v,L. vk=ay;k=j + (i-l)n;
W= Sort (V),
где RUserAcccm„, — релевантность с учетом персонифицированного поискового аккаунта, учитывающего поисковое предпочтение пользователя.
W = DelEquiv(W);
a\y=Wl,l= il,
где DeffiquivO - функция удаления совпадающих элементов в векторе; L - количество элементов в векторе W после удаления совпадающих;
Возможны так же следующие способы формирования выдачи: пользовательская выдача с пользовательской корректировкой; общая выдача с пользовательской корректировкой; общая выдача с групповой корректировкой; общая групповая выдача.
Описаны принципы контроля качества функционирования ИнтПС и адаптации алгоритма формирования итоговой выдачи. Сформулированы потенциально возможные ситуации и рекомендации, генерируемые подсистемой контроля. Определены предикаты возможных рекомендаций:
1)/>„ =Ч(а™<0,9)лЖ>10)л N¡^2 > 10 ] л ( *P[32i > 0,75 );
2) PR = - [( < 0,9 ) л ( N™ > 10) л ( у[32] < 0,5 )] л (У[32) > 0,75 );
3) PF = ( Щ,2] > 0,9 ) л ( > 0,5 )л ( Т[32] < 0,75 );
4) Р№ = [( < 0,9 ) V ( < 0,5 )] л (Трч < 0,75 )],
где 9j,32] - средняя пертинентная точность выдачи; jV^32J - среднее количество документов, просматриваемых пользователем; у[32] - среднее
значение подлинной пертинентности; Ч7'32' - среднее значение кумулятивной пертинентности; N - нормальная ситуация, R - необходимо изменить правило ранжирования; F - необходимо изменить правило формирования общей выдачи; RF - необходимо одновременно изменить правила ранжирования и формирования общей выдачи.
Правила управления текущей ситуацией в ИнтПС таковы:
1) PN V —tРр —> Actions are not carried out;
2) Pp л Pr -t Change a rule of ranking;
3) PF л Pj —» Change a rule of filling;
4) РЫ: aPt —> (Change a rule of ranking) and (Change a rule offilling), где PT = P, aP+l vP_2 - предикат ситуации «Необходим запуск изменений алгоритма формирования итоговой выдачи ИнтПС»; Р, = Т1321 < 0,75 - предикат ситуации «Предыдущее значение средней кумулятивной пертинентности меньше допустимого значения»; P+l = 1 <0,75 - предикат ситуации «Прогнозируемое на один шаг будущее значение средней кумулятивной пертинентности меньше допустимого значения»; Р_2 = (TÎf1 < 0,75) л (Tif1 < 0,75) - предшсат ситуации «Два предыдущих значения средней кумулятивной пертинентности меньше допустимого значения».
Подсистема управления качеством информационного обслуживания клиентов ИнтПС имеет некоторую стартовую инерцию: даже если предикат нормального функционирования PN принял значение False, а значение True принял один из предикатов PR, PF или PI(F признаков необходимости изменения алгоритма формирования итоговой выдачи, механизм адаптации не начинает свою работу до тех пор, пока не примет значение
True предикат Рт запуска изменений. При этом задержка включения механизмов изменения состава источников общей выдачи не превышает двух последовательных шагов, поскольку PFv Р^ = PD = V13'"1 < 0,75, поэтому на третьем шаге предикат Р_г примет значение True и, как следствие, значение True примет предикат Рт. В то же время, чисто теоретически задержка включения механизма изменения алгоритма ранжирования документов может быть неограниченно долгой, поскольку Рк -> -,PD и
-iPD = ¥132] > 0,75, вследствие чего теоретически предикат I) может сохранять значение False сколь угодно долго.
Разработаны теоретические основы для работы с временными рядами оценок пертинентности. Определены алгебраические операции над временными рядами, описаны ситуации, возникающие в процессе решения задач манипулирования временными рядами схожих процессов. Для формирования исходных данных для расчета PageRank разработан рекурсивный алгорипш определения структуры произвольного фрагмента сети Интернет. В качестве поисковой базы данных, содержащий данные о структуре сети Интернет, используется поисковая система Yahoo, предоставляющая свободный доступ к структуре сети.
Для практической реализации для доступа к поисковой выдаче разработано программное обеспечение ALtoSearch. Для расчета показателей контентной эквивалентности на основе экспертных оценок пользователя разработано программное обеспечение SearchAnalyzer.
В заключении приводится обобщение основных результатов диссертационной работы. .:•'■■
В приложениях копии актов о внедрении результатов диссертационной работы.
ЗАКЛЮЧЕНИЕ
Основные научные и практические результаты состоят в следующем.
1. Рассмотрены подходы к информационному поиску, выявлены преимущества и недостатки документального поиска, интеллектуального поиска, технологии Semantic Web. Указана проблема низкой пертинентности информационного поиска, обусловленная сложностью формализации информационной потребности пользователя в поисковый запрос, используемый поисковыми системами. Предложен новый подход многоальтернативного информационного поиска, позволяющий в конечном итоге увеличить пертинентность.
2. Представлены и алгоритмизированы основные факторы ранжирования поисковых систем сети Интернет: внутренние факторы, внешние факторы, собственные факторы.
3. Конкретизирована общая формула расчета релевантности поисковыми системами Интернет за счет формализации влияния собственных и внутренних факторов ранжирования поисковых систем.
4. Предложены новые показатели пертинентности откликов поисковых систем на запросы пользователей, предназначенные для реализации процедур адаптации алгоритмов формирования итоговой выдачи.
5. Предложен способ сравнения качества двух альтернативных откликов поисковых систем по векторному показателю пертинентности г) .
6. Определено понятие информационного набора и информационной единицы, описаны структура и базовые признаки определенных понятий, основные характеристики.
7. Предложены новые показатели контентной эквивалентности, применяемые для экспертной оценки пертинентности результатов поиска ПС сети Интернет - емкостной, относительной, абсолютной контентной эквивалентности, эквивалентности по обобщенной ранговой корреляции, по условной ранговой корреляции, по плотности общих элементов.
8. Сформулированы теоремы, определяющие свойства показателей контентной эквивалентности, которые могут использоваться при создании правил логического вывода в процедурах адаптации алгоритма формирования итоговой выдачи в интерфейсной поисковой системе.
9. Разработана методика экспертной оценки пертинентности на основе показателей контентной эквивалентности, позволяющая многосторонне сравнить пертинентности выдач нескольких информационно-поисковых систем.
10. Сформулирована теорема, характеризующая свойства значений PageRallk страниц произвольного фрагмента сети Интернет, в том числе определяющая диапазон возможных значений показателя авторитетности отдельных сайтов.
11. Сформулирована теорема, описывающая зависимость PageRank страниц сайтов от интегрального потока авторитетности со стороны не учтённой части сети.
12. Разработана методика изучения влияния оставшейся вне рассмотрения части сети на PageRank страниц рассматриваемого фрагмента.
13.Предложен новый альтернативный показатель авторитетности страницы - БРЯ (жесткий показатель авторитетности), позволяющий избежать искусственных накруток значения.
14. Предложена новая методика вычисления Ра§еЯапк страниц для произвольного фрагмента сети, обеспечивающая наивысшую точность вычислений, определяемую только погрешностью представления вещественных данных и ошибками округления.
15. Предложена архитектура интерфейсной поисковой системы (ИнтПС).
16. Описаны элементы персонифицированного поиска Google, применимые для повышения пертинентности в ИнтПС.
17. Разработан рекурсивный алгоритм идентификации структуры произвольного фрагмента сети Интернет на основе базы данных поисковой системы Yahoo!.
18. Разработан программный продукт AltoSearch, интегрирующий результаты поиска информационно-поисковых систем, представленных в сети Интернет.
19. Разработан программный продукт SearchAnalyzer, который может быть использован для оценки качества алгоритмов функционирования конкурирующих информационно-поисковых систем.
20. Разработана первая версия интерфейсной поисковой машины, опытная эксплуатации которой показала наличие выигрыша по среднему значению подлинной пертинентности в сравнении с популярными поисковыми системами Интернет.
21. Определены алгебраические операции над временными рядами, позволяющие манипулировать наборами данных с целью консолидации пользовательских и экспертных оценок пертинентности откликов поисковых систем на запросы пользователей.
СПИСОК ПУБЛИКАЦИЙ
Статьи, опубликованные в ведущих рецензируемых научных журналах, определенных ВАК РФ
1. Белов В.В., Терехов A.A. Показатель авторитетности страниц сайтов фрагмента сети Интернет // Известия ВУЗов. Проблемы полиграфии и издательского дела. 2009. № 6. С. 85-101.
2. Терехов A.A. Идентификация статистического материала и консолидация временных рядов // Вестник РГРТУ. 2009. № 1 (Вып. 27). С. 62 -70.
Другие публикации
3. Терехов A.A. Идентификация информации на основе комбинации семантического и классического информационного поиска // Задачи системного анализа, управления и обработки информации: Межвузовский сборник научных трудов. Вып. 2. М.: МГУП, 2008. Стр. 158 - 167.
4. Терехов A.A., Алещенко И.А. SolidPageRank и программа вычисления на языке С# // Новые информационные технологии в научных исследованиях и образовании: Материалы XIV Всероссийской научно-технической конференции студентов, молодых учёных и специалистов. РГРТУ. 2009. С. 229 - 230.
5. Терехов A.A., Клюев A.C. Методика функционального исследования PageRank в среде MathCAD // Новые информационные технологии в научных исследованиях и образовании: Материалы XIV Всероссийской
научно-технической конференции студентов, молодых учёных и специалистов. РГРТУ. 2009. С. 236-237.
6. Терехов A.A. Идентификация структуры фрагмента сети Интернет // Новые информационные технологии в научных исследованиях и образовании: Материалы XIV Всероссийской научно-технической конференции студентов, молодых учёных и специалистов. РГРТУ. 2009. С. 239 -241.
7. Терехов A.A. Исследование алгоритмов идентификации временных рядов на основе анализа метаинформации // Проблемы передачи и обработки информации в сетях и системах телекоммуникаций: Материалы 15-й Междунар. науч.-техн. конф. Рязань, РГРТУ, 2008. С. 35 - 37.
8. Терехов A.A. Накопление данных в системе прогнозирования // Программное и информационное обеспечение систем различного назначения на базе персональных ЭВМ: Межвуз. сб. науч. тр. М.: МГУПИ, МГИЭМ (ТУ), МИРЭА (ТУ), РГРТУ, 2006. С. 236 - 239.
9. Терехов A.A. Определение алгебраических операций над временными рядами для решения задачи идентификации // Новые информационные технологии в научных исследованиях и в образовании: Материалы ХШ Всероссийской научно-технической конференции студентов, молодых ученых и специалистов. Часть I. Рязань: РГРТУ. 2008. С. 55 - 57.
10. Терехов A.A. Принципы идентификации временных рядов системы регулярного прогнозирования структурно-неустойчивых процессов // Новые информационные технологии в научных исследованиях и в образовании: Материалы XII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов. Часть I. Рязань: РГРТУ. 2007. С. 9-11.
П.Терехов A.A., Белов В.В. SearchAnalizer/ПоискАнализатор. Зарегистрировано в Реестре программ для ЭВМ 24.04.2009 г., per. № 2009612105 // Программы для ЭВМ, базы данных, топологии интегральных микросхем (RU ОБПБТ) № 3 (68). 2009 г. С. 90.
12. Терехов A.A. Программа АльтПоиск. Зарегистрировано в Реестре программ для ЭВМ 24.04.2009 г., № 2009612104 // Программы для ЭВМ, базы данных, топологии интегральных микросхем (RU ОБПБТ) № 3 (68). 2009 г. С. 90.
ТЕРЕХОВ Алексей Андреевич
РАЗРАБОТКА МЕТОДОВ И ИНСТРУМЕНТАЛЬНЫХ СРЕДСТВ ПОВЫШЕНИЯ ПЕРТИНЕНТНОСТИ ПОИСКА В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СРЕДАХ
Автореферат диссертации на соискание ученой степени кандидата технических наук
Подписано в печать__. Формат бумаги 60x84 1/16.
Бумага офсетная. Печать трафаретная. Усл. печ. л. 1,0. Уч.-изд. л. 1,0. Тираж 100 экз. Заказ. ГОУВПО "Рязанский государственный радиотехнический университет". 390005, Рязань, ул. Гагарина, 59/1. Редакционно-издательский центр РГРТУ.
Оглавление автор диссертации — кандидата технических наук Терехов, Алексей Андреевич
ВВЕДЕНИЕ.
1. ПРОБЛЕМЫ ПОИСКА ИНФОРМАЦИИ В СОВРЕМЕННОЙ ИНФОРМАЦИОННОЙ СРЕДЕ.
1.1. Предварительные замечания.
1.2. Поиск информации в документальных системах.
1.2.1. Понятие документальных систем.
1.2.2. Общая функциональная структура документальных информационно-поисковых систем.
1.3. Семантический поиск и технология Semantic Web.
1.3.1. Технология Semantic Web.
1.3.2. Формализация и обработка знаний на основе онтологического подхода.
1.4. Интеллектуальные поисковые системы.'.
1.4.1. Принципиальный алгоритм работы системы.
1.4.2. Концептуальная архитектура интеллектуальных поисковых систем
1.5. Поиск в сети Интернет.
1.5.1.1. Поисковые роботы.
1.5.1.2. Использование поисковых роботов.
1.5.1.3. Комбинированное использование.
1.5.2. Повышение затрат и потенциальные опасности при использовании поисковых роботов.
1.5.2.1. Сетевой ресурс и загрузка сервера.
1.5.2.2. Обновление документов.
1.5.2.3. Проблемы индексации документов.
1.6. Основные результаты.
2. РАЗРАБОТКА МЕТОДИКИ ЭКСПЕРИМЕНТАЛЬНОЙ ОЦЕНКИ ПЕРТИНЕНТНОСТИ РЕЗУЛЬТАТОВ ПОИСКА.
2.1. Предварительные замечания.
2.2. Классификация поисковых запросов.
2.2.1. Классификация поисковых запросов по многословности.
2.2.2. Классификация по четкости формулировки.
2.2.3. Классификация по конкурентности запроса.
2.2.4. Классификация на основе частотности запроса.
2.2.5. Классификация по коммерческой привлекательности запроса.
2.2.6. Классификация по целям пользователей.
2.3. Характеристики поисковых систем Интернет, механизмы обеспечивается релевантности и пертинентности.
2.3.1. Статические факторы ранжирования.
2.3.2. Ссылочное ранжирование.
2.3.3. Внутренние факторы ранжирования.
2.3.4. Влияние собственных ресурсов поисковых машин.
2.3.5. Персонализация поиска.
2.4. Методика определения пертинентности поиска при помощи экспертных оценок.
2.4.1. Количественные оценки пертинентности.
2.4.2. Описание эксперимента.
2.4.3. Список определений и обозначений при проведении эксперимента
2.4.3.1. Информацинная единица.
2.4.3.2. Степень емкостной контентной эквивалентности.
2.4.3.3. Степень относительной контентной эквивалентности.
2.4.3.4. Степень абсолютной контентной эквивалентности.
2.4.3.5. Степень эквивалентности по обобщённой ранговой корреляции
2.4.3.6. Степень эквивалентности по условной ранговой корреляции.
2.4.3.7. Степень эквивалентности по плотности общих элементов.
2.5. Основные результаты.
3. РАЗРАБОТКА МЕТОДОВ ВЫЧИСЛЕНИЯ ПОКАЗАТЕЛЕЙ ССЫЛОЧНОЙ АВТОРИТЕТНОСТИ СТРАНИЦ И САЙТОВ В СЕТИ ИНТЕРНЕТ.
3.1. Предварительные замечания.
3.2. Определение PageRank.
3.3. Методы вычисления PageRank.
3.3.1. Итерационный метод расчета PageRank.
3.3.2. Матричный метод расчета PageRank.
3.3.3. Недостаток итерационных методов расчета PageRank.
3.3.4. Функциональный метод расчета PageRank.
3.3.5. Специфика функционального метода.
3.3.6. Предлагаемый метод расчета PageRank.
3.3.6.1. Вычисление PageRank как решение СЛАУ.
3.3.6.2. Методика формирования матрицы коэффициентов СЛАУ.
3.3.6.3. Учёт внешнего окружения или «функциональность» в предложенном методе.
3.4. Недостатки вычисления авторитетности страницы с помощью алгоритма расчета классического показателя PR.
3.5. Понятие SolidPageRank.
3.6. Преимущества Solid PageRank.
3.7. Инструментарий для реализации предложенного метода.
3.8. Основные результаты.'.
4. РАЗРАБОТКА ИНТЕРФЕЙСНОЙ ПОИСКОВОЙ СИСТЕМЫ СЕТИ ИНТЕРНЕТ.
4.1. Предварительные замечания.
4.2. Концепция интерфейсной поисковой системы.
4.2.1. Персонализированный поиск в Google.
4.2.2. Сервисы социальных закладок в, сети Интернет как источник определения пертинентности поиска.
4.2.3. Структура интерфейсной поисковой системы.
4.2.4. Методика формирования выдачи ИнтПС.
4.3. Реализация многоальтернативного поиска и последующего адаптивного переранжирования.
4.3.1. Текущая и специальная оценка показателей качества ИнтПС.
4.3.1.1. Схема формирования общей выдачи.:.
4.3.1.2. Выбор показателей для контроля качества результатов поиска
4.3.1.3. Организация процесса оценивания качества ИнтПС.
4.3.2. Контроль и прогнозирование оценок пертинентности.
4.3.3. Хранение оценок качества ИнтПС в виде временных рядов. Определение алгебраических операций над временными рядами
4.3.4. Ситуации, возникающие в процессе решения задачи идентификации статистического материала.
4.3.5. Формирование консолидированного временного ряда.
4.4. Идентификация структуры фрагмента сети Интернет.
4.4.1. Предварительные замечания.
4.4.2. Алгоритм построения матрицы смежности для произвольного фрагмента сети Интернет.
4.5. Методика определения пертинентности поиска на основе программы AltoSearch и Search Analyzer.
4.5.1. Общий алгоритм расчета оценок пертинентности.
4.5.2. Программа AltoSearch.
4.5.2.1. Аннотация.
4.5.2.2. Модули програмы.
4.5.3. Программа SearchAnalyzer: аннотация.
4.5.4. Результаты опытной эксплуатации первой версии интерфейсной поисковой машины.
4.6. Основные результаты.
Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Терехов, Алексей Андреевич
Актуальность проблемы; Накопленные к настоящему времени колоссальные объемы информации в совокупности с непрерывно увеличивающимися темпами её роста определяют актуальность и значимость; исследований в области информационного поиска. Бурное развитие сетевых технологий, в том числе и Интернета, способствуют значительному увеличению доступных информационных ресурсов и: объемов передаваемой информации. Зачастую это разнородная; слабо структурированная:и избыточная информация, обладающая высокой динамикой обновления.
При сегодняшних объемах доступной информации решение; задач информационного поиска является, приоритетным для обеспечения своевременного доступа к интересующим данным в рамках информационной среды (ИСр).
Концепция информационной среды впервые была предложена Ю.А. Шрейдером [83], который рассматривает информационную среду не только как проводника информации, но и как активное начало; воздействующее на её участников. Инфорлшционная среда - совокупность технических и программных средств хранения, обработки и передачи информации,. а также социально-экономических и культурных условий реализации процессов/информатизации.
В настоящее время работает ряд авторитетных международных конференции, посвящённых обсуждению вопросов информационного поиска [24], например, таких как: ; •
• TREC (Text Retrieval Conference) - цикл конференций организованный под эгидой! NIST (National Institute for Standards and TecHnology) - одного из авторитетных органов стандартизации информационных технологий в США [110,111] i
• SIGIR (Special Interest Group on Information Retrieval);- цикл конференций проводимых ACM SIGIR (ACM - Association of Computing Machinery) -международной группой специалистов по информационному поиску;
• WWW (World Wide Web) Conference - специально организованная конференция для решения задач, связанных с Интернет [-107,1.11,114,115,117]
Высокий авторитет конференций TREC, SIGIR, WWW и участие в них ведущих исследовательских коллективов и разработчиков технологий информационного поиска во многом определяет приоритетные направления исследований и задает общие принципы развития поисковых систем.
Из отечественных конференций, посвященных вопросам информационного поиска, нужно отметить ежегодную всероссийскую конференцию «Электронные библиотеки» (RCDL) и семинар по компьютерной лингвистике «Диалог».
Также необходимо отметить ряд отечественных научных школ:
• SPBU IR Group - исследовательская группа в области информационного поиска (Санкт-Петербургский Государственный Университет);
• Исследовательский центр ИИ ИПС РАН;
• Центр информационных исследований (НИВЦ МГУ).
Кроме того, существуют коммерческие организации, занимающиеся не только вопросами исследований, но и вопросами внедрения информационных технологий, это такие известные организации как Яндекс, Рамблер, Апорт, НейрОК, Гарант-Иарк-Интернет, Галактика-Зум, ABBYY-FTR, АОТ и др.
Ряд авторитетных исследователей внесли своими научными трудами значительный вклад в развитие информационно-поисковых систем: И.С. Некресть-янов, И.Е. Кураленок, В.Ю. Добрынин, А.Г. Дубинский, А.Е. Ермаков, М.Р. Ко-галовский, А.В. Сокирко, G. Salton, A. Singhal, М. Mitra, S. Lawrence, P. Foltz, E. Fox, J. Cho, R. Baeza-Yates, K. Tajima, C. Van Rijsbergen, L. Gravano, J. Kleinberg, J. Sparck, D. Carmel, Si Brin, L. Page, A. Singhal., T. Haveliwala.
Существует широкий спектр предлагаемых решений и перспективных направлений исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем, заканчивая элементарными на первый взгляд вопросами анализа документов при помощи латентно семантического анализа [94,96,97]. Все они, безусловно, важны и полезны при решении своих специфических задач. Тем не менее, именно от методов анализа во многом зависит эффективность существующих поисковых систем, т.к. они являются основой любойшоисковош системы^ и. во многом? определяют возможности и ограничения этих систем [89].
Современные информационно-поисковые системы, в основе которых по большей степени лежит полнотекстовый поиск, позволили добиться высокой степени классической релевантности — соответствия запроса пользователя результатам выдачи поиска. Однако качество информационного поиска характеризуется не только релевантностью; но и пертинентностыо — соответствием результатов- поиска, информационной- потребности: пользователя. Результаты работы поисковой; системы часто не удовлетворяют требованиям; высокой пер-тинентности. Это связано с такими свойствами; естественного языка; как синонимия, полисемия; омонимия.и другие [99,100,102,104,88].
Представленные на сегодняшний день в большинстве-популярных поисковых систем! способы^ организации полнотекстового• поиска не учитывают в достаточной мере семантику. В то же время, именно семантическое;сходство непосредственно обусловливает высокую; степень пертинёнтности. Далеко не всегда пользователь информационно-поисковой системы может четко и однозначно сформулировать именно тот набор ключевых слов^ который; и»: приведет его к искомому результату. Зачастую; низкая пертинентность обусловлена сложностью; формирования информационных, запросов для полнотекстового поиска. Эти сложностшвызваны следующими причинами: ; ■ '
• незнанием набора;ключевых слов;;однозначно определяющих семантику искомых документов;
• отсутствием достаточного опыта и квалификации формированияшоиско-вых запросов;
• - отсутствием принятойt и устоявшейся терминологии в интересующей предметной области.
Нередко человек, осуществляющий поиск, имеет самое: приблизительное представление об интересующей его тематике. Все это обусловливает актуальность и. значимость исследований, направленных на решение одной из. ключевых проблем информационного поиска - проблемы адекватного отображения информационных потребностей пользователей,, и, как следствие, повышения пертинентности поиска.
Одним из вариантов решения проблемы низкой пертинентности в настоящее время является динамично развивающаяся технология Semantic Web [21,22]. В основе актуальности этой технологии лежит уже осознанная человечеством необходимость представления информационных ресурсов не просто как единиц хранения информации, но как носителей знаний. То есть документы, отчеты, статьи, банки данных интересуют специалиста, главным образом, своей семантической составляющей. Семантический подход к глобальным информационным1 ресурсам, предполагающий не только их индексацию, но и сопровождение семантическим описанием, было предложено реализовать в технологии «Semantic Web», разработанную W3C-K0HC0p4HyM0M, занимающимся разработкой и внедрением Web-технологий: В1 наиболее завершенной' форме требования ю, описанию и стандартизация описания знаний в этой* технологии были предложены в 2004 г.
Как правило, авторы' программных средств, предназначенных для формального описания знаний в Semantic Web; не претендуют на завершенность своей разработки и отсутствие возможности создания более эффективных теоретических концепций и версий программных систем этого назначения. В то же время нужно согласиться! с тем, что принятие единого стандарта в описании знаний - важнейший фактор реальной работы Semantic Web. Исходя из этого, новые формализмы, представления знаний целесообразно разрабатывать на принципах совместимости с существующими средствами; такими, как RDF и OWL DL.
Диссертационная работа посвящена вопросам повышения пертинентности поиска в современной информационной среде.
Целью работы является разработка и исследование способа повышения показателей пертинентности информационного поиска, основанного на концепции интерфейсной поисковой системы (ИнтПС), осуществляющей объединение и переупорядочивание откликов на запросы пользователей популярных ■. ■■■ 9 ■ . , поисковых-систем: сети Интернет. .
Для достижения;поставленной цели решаются следующие задачи:
- формализация описаний-факторов ранжирования поисковых систем; 1
- модификация существующих факторов ранжирования; слабо -защищенных от искусственного влияния структуры информационной;среды; создание методологии оценки пертинентности информационного поиска на основе экспертных оценок; разработка: концепции поисковой системы многоальтернативного поиска и адаптивного переранжирования: .
Методы исследования; Исследования» осуществлялись-на основе теории нечетких, множеств, теории графов, теории баз. данных, методов:, системного' анализа; методов структурного и компонентно-ориентированного- программирования.
Научная--новизна.- . .
1;. Разработаны формализованные описания основных .факторов^ранжирования поисковых систем сети Интернет и-методика.их: расчета, отличающиеся-алгоритмической- завершённостью вычислительных: процедур; позволяющие рассчитывать факторы-ранжирования в собственных поисковых машинах. .
2. Предложены новые показатели; контентной эквивалентности, двух последовательностей разной длины как числовых, так и лингвистических;, которые могут использоваться в различных! приложениях, в том числе и в статистических исследованиях аналогично коэффициентам ранговой корреляции; в диссертации используются для сравнения альтернативных откликов поисковых систем на один и тот же запрос пользователя с упорядоченным экспертным набором: документов с целью формирования суждения о степени пертинентности отклика конкретной поисковой системы. ; :
3. Сформулированы и доказаны теоремы, определяющие свойства показателей контентной эквивалентности, которые могут использоватьсяшри создании правил логического вывода в процедурах адаптации алгоритма формирования итоговой выдачи в интерфейсной поисковой системе.
4. Предложены новые показатели пертинентности откликов поисковых систем на запросы пользователей, предназначенные для реализации процедур адаптации алгоритмов формирования итоговой выдачи: 1) пертинентностная точность выдачи 2) подлинная пертинентность документа \\i; 3) максимальная пертинентность документов выдачи vymax; 4) кумулятивная пертинентность выдачи 5) векторная пертинентность выдачи fj = (Ч^Л^,); 6) средние значения указанных показателей, вычисляемые по 32-м точечным значениям: a,1-321, v1321, v™. W32' = (?I32,,iv!2).
5. Разработана методика экспертной оценки пертинентности на основе показателей контентной эквивалентности, позволяющая многосторонне, сравнить пертинентности выдач нескольких информационно-поисковых систем в процессе начальной настройки и последующей адаптации алгоритма формирования итоговой выдачи в собственной поисковой системе.
6. Сформулирована и доказана теорема, определяющая диапазон возможных значений показателя авторитетности страниц произвольного фрагмента сети Интернет, которая может использоваться для контроля корректности результатов в процедурах вычисления PageRank.
7. Сформулирована и доказана теорема, определяющая зависимость показателя авторитетности страниц произвольного фрагмента сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент, которая может практически использоваться для контроля корректности результатов в процедурах символьного вычисления PageRank при исследовании влияния внешней части сети Интернет.
8. Предложена новая методика вычисления PageRank страниц для произвольного фрагмента сети, не использующая итерационный способ решения СЛАУ, обеспечивающая наивысшую точность вычислений, определяемую только погрешностью представления вещественных данных и ошибками округления.
9. Предложена новая методика-' исследования, зависимости авторитетности страниц произвольного - фрагмента сети от внешнего потока; PageRank, отличающаяся' способом формирования4 системы,линейных алгебраических? уравнений в блоке решения рабочего листа среды MathCAD и, применением: символьного решения сформированной системы.
10.Предложен новый показатель авторитетности страницы как фактор ранжирования в поисковых системах — SolidPageRank, отличающийся тем, что позволяет избежать накрутки PageRank за счет циклической перелинковки страниц, позволяет повысить релевантность: итоговой выдачи документов в собственных поисковых машинах как в метапоисковых, так и интерфейсных.
1 Г.Разработана концепция интерфейсной, поисковой системы многоальтернативного поиска и адаптивного перерапжпрования, отличающаяся формированием точечных и средних значений оценок подлинной пертинентности документов, выдаваемых системой, контролем указанного среднего значения и; изменением способа формирования;итоговой выдачшпри попадании этого значения в критическую область. ' . |
12.Разработан рекурсивный алгоритм определения структуры произвольного фрагмента сети Интернет, отличающийся рекурсивным использованием стандартного сервиса определения, обратных ссылок.
Практическая ценность.
Совокупность полученных теоретических и практических результатов может использоваться для: построения метапоисковых ^ интерфейсных информационно-поисковых систем, позволяющих повысить эффективность информационной поддержки профессиональной целенаправленной деятельности сотрудников малых и средних предприятий и организаций, для которых гипотеза о тематической однородности запросов наиболее правдоподобна.
Для практического воплощения концепции интерфейсной поисковой системы в диссертации созданы два программных продукта (AltoSeareh/АльтПоиск и SearchAnalizer/ПоискАнализатор), позволяющие автоматически формировать общую выдачу - обобщённый набор документов, получаемых от нескольких поисковых систем сети Интернет в ответ на запрос пользователя и расчет показателей контентной эквивалентности. Создан макет интерфейсной поисковой системы, опытная эксплуатация которого в рабочем процессе ООО «Мегапром» показала повышение подекадного среднего значения подлинной пертинентности на 10 - 18 % по сравнению с популярными1 поисковыми системами.
Внедрение результатов работы. Разработанные в диссертационной работе теоретические и практические результаты внедрены в ООО «Мегапром», ОАО «Рязанский проектно-технологический институт» (ОАО РПТИ), в ГОУВПО «Рязанский государственный радиотехнический университет» (ГОУВПОРГРТУ).
Разработанные программные продукты имеют свидетельства1 об официальной регистрации программных систем и баз данных в Российском агентстве по патентам и товарным знакам (РОСПАТЕНТ):
1) программная система SearchAnalizer/ ПоискАнализатор. Зарегистрировано в Реестре программ для ЭВМ 24.04.20091г., per. № 2009612105 // Программы для ЭВМ, базы данных, топологии интегральных микросхем (RU ОБПБТ). Программы для* ЭВМ № 3 (68). 2009'г. С. 90. (Доступно для просмотра на сайте http://wwwl.fips.ru/ Electronicbulletin/Programsdbtopology/0 lPR.pdf);
2) программа AltoSearch/АльтПоиск. Зарегистрировано в Реестре программ для ЭВМ 24.04.2009 г., № 2009612104 // Программы для ЭВМ, базы данных, топологии интегральных микросхем (RU ОБПБТ). Программы для ЭВМ № 3 (68)i 2009 г. С. 90. (Доступно для просмотра на сайте http://wwwl .fips.ru/Electronicbulletin/Programsdbtopology/01 PR.pdf).
Основные результаты выносимые на защиту
1. Формализованные описания основных факторов ранжирования поисковых систем сети Интернет и методика их расчета.
2. Показатели контентной эквивалентности двух последовательностей разной длины как числовых, так и лингвистических. ;
3. Теоремы, определяющие свойства показателей контентной эквивалентности.
4. Показатели пертинентности откликов поисковых i систем на, запросы пользователей.,
5. Методика экспертной оценки пертинентности на основе показателей контентной эквивалентности.
6. Теорема, определяющая диапазон возможных значений показателя авторитетности^страницпроизвольного фрагмента сети Интернет.
7. Теорема, определяющая зависимость показателя авторитетности страниц произвольного фрагмента' сети Интернет от авторитетности страниц, не вошедших в рассматриваемый фрагмент.
8. Методика вычисления PageRank страниц для произвольного фрагмента сети. • • ,
9г Методика исследования зависимости: авторитетности страниц произвольного фрагмента сети от внешнего потока PageRank.
10.Дополнительный показатель авторитетности страницы как фактор, ранжированиям поисковых системах - SolidPageRank. "
11 .Концепция интерфейсной- поисковой системы многоальтернативного поиска и адаптивного переранжирования;
12.Рекурсивный;алгоритм определения структуры произвольного фрагмента сети Интернет.
Апробация работы. По теме диссертации: сделаны доклады на 13-й Международной научно-технической- конференции «Проблемы передачи и? обработки информации в^сетях и,системах телекоммуникаций», Рязань, 2004 г.; 14-й Международной* научно-технической конференции «Проблемы передачи и обработки информации; в сетях и системах телекоммуникаций», Рязань, 2005 г.; 15-й Международной научно-технической конференции «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций», Рязань, 2008 г.; X Всероссийской научно-технической конференции студентов; молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2005 г.; XII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2007 г.; XIII Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2008 г.; XIV Всероссийской научно-технической конференции студентов, молодых учёных и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2009 г.; 4-й межвузовской научно-технической студенческой конференции «Актуальные проблемы, персональных компьютеров и сетей», Москва, 2006 г.; Международной конференции «Инновационное управление в! информационной среде», Рязань, 2007 г.; Третьей международно№конференции «Инновационное управление в информационной- среде», Рязань, 2008 г.; 52-й студенческой научно-технической конференции, Рязань, 2005 г., а также на научных семинарах кафедры ВПМ РГРТУ.
Публикации. По- теме диссертации опубликовано 20 научных работ, в том числе 13 материалов^ тезисов, докладов на международных и всероссийских конференциях и семинарах. Опубликовано1 5 статей, из них 2 в-издании, включённом в список ВАК. В-Реестре программ для ЭВМ зарегистрированы 2 программы. s
Структура диссертационной^ работы. Диссертационная работа состоит из введения, четырех глав, заключения,,основных обозначений и сокращений, списка использованной литературы и приложений. Основной текст содержит 165 страниц, 5 таблиц, 38 рисунка. Список литературы состоит из 119 наименований. Приложения выполнены на 5 страницах.
Заключение диссертация на тему "Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах"
Основные результаты работы состоят в следующем.
1. Рассмотрены подходы к информационному поиску, выявлены преимущества и недостатки документального поиска, интеллектуального поиска, технологии Semantic Web. Указана проблема низкой пертинентности информационного поиска, обусловленная сложностью формализации информационной потребности пользователя в поисковый запрос, используемый поисковыми системами. Предложен новый подход многоальтернативного информационного поиска, позволяющий в конечном итоге увеличить пертинентность.
2. Представлены и алгоритмизированы основные факторы ранжирования^ поисковых систем сети Интернет: внутренние факторы, внешние факторы, собственные факторы.
3. Конкретизирована общая формула расчета релевантности поисковыми системами Интернет за счет формализации влияния собственных и внутренних факторов ранжирования поисковых систем.
4. Предложены новые показатели пертинентности откликов поисковых систем на запросы пользователей, предназначенные для реализации процедур адаптации алгоритмов формирования итоговой выдачи: 1) пертинентностная точность выдачи ; 2) подлинная пертинентность документа \\j ; 3) максимальная пертинентность документов выдачи vj/max; 4) кумулятивная пертинентность выдачи 5) векторная пертинентность выдачи fj = (Ч*,Nyien)-, 6) средние значения указанных показателей, вычисляемые по 32-м точечным значениям:
Г321, vl32], Г2] =
5. Предложен способ сравнения качества двух альтернативных откликов поисковых систем по векторному показателю пертинентности f\.
6. Определено понятие информационного набора и информационной единицы, описаны структура и базовые признаки определенных понятий, основные характеристики.
7. Предложены новые показатели контентной эквивалентности, применяемые для экспертной оценки пертинентности результатов поиска ПС сети Интернет - емкостной, относительной, абсолютной контентной эквивалентности, эквивалентности по обобщенной ранговой корреляции, по условной ранговой корреляции, по плотности общих элементов.
8. Сформулированы теоремы, определяющие свойства показателей контентной эквивалентности, которые могут использоваться при создании правил логического вывода в процедурах адаптации алгоритма формирования итоговой выдачи в интерфейсной поисковой системе.
9. Разработана методика экспертной оценки пертинентности на основе показателей контентной эквивалентности, позволяющая многосторонне сравнить пертинентности выдач нескольких информационно-поисковых систем в процессе начальной настройки и последующей адаптации алгоритма формирования итоговой выдачи в собственной поисковой системе.
10.Сформулирована теорема, характеризующая свойства значений PageRank страниц произвольного фрагмента сети Интернет, в том числе определяющая диапазон возможных значений показателя авторитетности отдельных сайтов.
11. Сформулирована теорема, описывающая зависимость PageRank страниц сайтов от интегрального потока авторитетности со стороны не учтённой части сети.
12.Разработана методика изучения влияния оставшейся вне рассмотрения части сети на PageRank страниц рассматриваемого фрагмента.
13.Предложен новый альтернативный показатель авторитетности страницы - SPR (жесткий показатель авторитетности), позволяющий избежать искусственных накруток значения.
14.Предложена новая методика вычисления PageRank страниц для произвольного фрагмента сети, не использующая итерационный способ решения СЛАУ, обеспечивающая наивысшую точность вычислений, определяемую только погрешностью представления вещественных данных и ошибками округления.
15 .Предложена архитектура интерфейсной поисковой системы (ИнтПС).
16.Описаны элементы персонифицированного поиска Google, применимые для повышения пертинентности в ИнтПС.
17.Разработан рекурсивный алгоритм идентификации структуры произвольного фрагмента сети Интернет на основе базы данных поисковой системы Yahoo!.
18.Разработан программный продукт AltoSearch, интегрирующий результаты поиска информационно-поисковых систем, представленных в сети Интернет.
19.Разработан программный продукт Search Analyzer, который может быть использован для оценки качества алгоритмов функционирования конкурирующих информационно-поисковых систем.
20.Разработана первая версия интерфейсной поисковой машины, опытная эксплуатации которой показала наличие выигрыша по среднему значению подлинной пертинентности в сравнении с популярными поисковыми системами Интернет.
21.Определены алгебраические операции над временными рядами, позволяющие манипулировать наборами данных с целью консолидации пользовательских и экспертных оценок пертинентности откликов поисковых систем на запросы пользователей.
Указанные результаты могут быть использованы при построении собственных информационно-поисковых систем, в том числе метапоисковых или интерфейсных.
Дальнейшее направление развития проведённых исследований может состоять в разработке и исследовании достаточно сложных алгоритмов адаптации процедур переранжирования документов общей выдачи и разработка полнофункциональных интерфейсных поисковых систем.
• 149
ЗАКЛЮЧЕНИЕ
Выполненная диссертационная работа включает исследования, направленные на разработку методов, алгоритмов и программ для решения задач, связанных с повышением пертинентности информационного поиска в современных информационных средах. Крупнейшим представителем информационной среди является сеть Интернет. Предметными областями применения результатов диссертации явились поисковые системы Интернет Yandex и Google, на основании поисковых алгоритмов которых проводились исследования. В диссертации представлен анализ факторов ранжировании поисковых систем, формализованы их описания. Реализовано программное обеспечение для решения задач экспертной оценки пертинентности информационного поиска. Разработан жесткий показатель авторитетности страницы Solid PageRank, представляющий1 собой нижнюю пессимистическую, в то же время адекватную оценку авторитетности страницы. В качестве иллюстрирующих примеров в работе приведены решения конкретных задач расчета Solid Page Rank и классического PageRank.
Библиография Терехов, Алексей Андреевич, диссертация по теме Теоретические основы информатики
1. Автоматизированные информационные технологии в экономике: Учебник / Под ред. проф. Г.А. Титоренко. М.: Компьютер, ЮНИТИ, 1998. 400 с.
2. Барановская Т.П., Лойко В.И., Семенов М.И., Трубилин А.И. Информационные системы и технологии в экономике: Учебник. 2-е изд. / Под ред.
3. B.И. Лойко. М.: Финансы и статистика, 2003. 416 с.
4. Белов В.В., Терехов А.А. Показатель авторитетности страниц сайтов фрагмента сети Интернет // Известия ВУЗов. Проблемы полиграфии и издательского дела. 2009. № 6. С. 85-101.
5. Благодатских В.А., Волнин В.А., Поскакалов К.Ф. Стандартизацияразработки программных средств: Учеб; пособие. М.: Финансы и статистика, 2003.288 с.
6. Бройдо В.Л. Вычислительные системы, сети и-, телекоммуникации: Учебник. 2-е изд. СПб.: Питер, 2003. 704 с.
7. Введение в информационный бизнес: Учеб: пособие. / О.В. Голосов,
8. C.А. Охрименко, А.В. Хорошилов. М.: Финансы и статистика, 1996. 240 с.
9. Вендров A.M. Проектирование программного обеспечения экономических информационных систем. М.: Финансы и статистика, 2000. 352 с.
10. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учеб. пособие. М.: Гелиос АРВ, 2002. 368 е.
11. Годин В.В., Корнеев И.К. Управление информационными ресурсами: 17 модульная программа для менеджеров «Управление развитием организации». Модуль 17. М.: ИНФРА-М, 1999. 432 с.
12. Грабауров В.А. Информационные технологии для менеджеров. М.: Финансы и статистика, 2001. 368 с.
13. Гулин А., Маслов М., Сегалович И. Алгоритм текстового ранжирования Яндекса на РОМИП-2006 // Труды четвертого российского семинара по оценке методов информационного поиска / Под ред. И.С. Некрестьянова. Спб: НИИ Химии СПбГУ, 2006.
14. Добрынин В.Ю. Теория информационно-логических систем. Информационный поиск: Метод, указания к курсу информационного поиска. СПб.: Изд-во СПбГУ, 2002.
15. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. № 4.
16. Н.Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. М.: Наука, 2003.
17. Золотова Г.А. Синтаксический словарь. Репертуар элементарных единиц русского синтаксиса. М.: Эдиториал, 2001.
18. Золотова Г.А., Онипенко Н.К., Сидорова М.Ю. Коммуникативная грамматика русского языка. М.: МГУ, 1998.
19. Информатика: Учебник. / Под ред. Н.В. Макаровой. 3-е изд. М.: Финансы и статистика, 2001. 768 с.
20. Информационные системы в экономике: Учебник. / Под ред. В.В. Дика. М.: Финансы и статистика, 1996. 272 с.
21. Информационные технологии управления: Учеб. пособие / Под ред. Г.А. Титоренко. М.: ЮНИТИ-ДАНА, 2002. 280 с.
22. Капустин В.А. Основы поиска информации в Интернете. Методическое пособие. СПб.: Институт «Открытое общество», С.-Петерб. отд-ние, 1998.
23. Каширин Д.И. Повышение эффективности поиска документов с помощью унификации признаковых структур // Современные проблемы информатизации в моделировании и анализе сложных систем: Сб. трудов. Вып. 12 (по итогам
24. XII международной конференции) / Под ред. О.Я.Кравца Воронеж: Издательство «Научная книга», 2007. с. 173-175.
25. Когаловский М.Р. Основы информационного поиска М.: ДМК Пресс; М.: Компания АйТи, 2002. 312 с.
26. Когаловский М.Р. Перспективные технологии информационных систем. М.: ДМК Пресс: Компания АйТи, 2003. 288с
27. Козлов Е.В., Метелкин А.В., Хорошевский В.Ф. Мультифасептная система поиска информации в Интернет // Труды седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000.—М.: Физматлит, 2000, с.840 850.
28. Колин К.К. Социальная информатика: Учеб. пособие. М.: Академический проект. М.: Фонд «Мир», 2003. 432 с.
29. Кормалев Д.А., Куршев Е.П., Осипов Г.С., Сулейманова Е.А., Трофимов И.В.: Препринт // Методы поиска и анализа информации. Автоматическое извлечение данных. Переславль-Залесский, ИПС РАН, 2003.
30. Кромер В.В. Об одной поправке к каноническому закону // Телеконференция «Информационные технологии в гуманитарных науках». Казань, 1998.
31. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. № 4.
32. Куршев Е. П. Метод извлечения полуструктурированных данных из Интернет // Труды седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. М.: Физматлит, 2000, с. 260 -263.
33. Липаев В.В. Системное проектирование сложных программных средств для информационных систем. М.: СИНТЕГ, 1999. 224 с. (Серия «Информатизация России на пороге XXI века»).
34. Людкевич С, Есипов Е. Основные факторы, влияющие на релевантность сайта для поисковых систем // «Промо.Текарт», 2003. http://www.seop.ru/ sitesrelevant.html.
35. Людкевич С, Есипов Е. Наиболее часто встречающиеся ошибки, препятствующие хорошему ранжированию сайта в поисковых машинах. Пути их решения. // «Промо.Текарт», 19.11.2004. http://httpd.apache.org/docs/mod/modrewrite.html.
36. Малыхина М.П. Базы данных: основы, проектирование, использование: Учеб. Пособие. СПб.: БХВ-Петербург, 2004. 512 с.
37. Мишенин А.И. Теория экономических информационных систем: Учебник. 4-е изд. М.: Финансы и статистика, 2003. 240 с.
38. Морозов В.П., Тихомиров В.П., Хрусталев Е.Ю. Гипертексты в экономике. Информационная технология моделирования: Учеб. пособие. М.: Финансы и статистика, 1997. 256 с.
39. Некрестьянов И.С. Пантелеева Н.В. Системы текстового поиска для Веб // Программирование. 2002. № 4.
40. Ойхман Е.Г., Попов Э.В. Реинжиниринг бизнеса: реинжиниринг организации и информационные технологии. М.: Финансы и статистика, 1997. 336 с.
41. Орлов Е.С. Технологии разработки программного обеспечения: Учебник. СПб.: Питер, 2002. 464 с.
42. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. М.: Наука, Физматлит, 1997.
43. Осипов Г.С., Куршев Е.П., Кормалев Д.А., Трофимов И.В., Рябков О.В., Тихомиров И.А.: Препринт // Семантический поиск в среде интернет. Пе-реславль-Залесский, ИПС РАН, 2003.
44. Острейковский В.А. Информатика: Учебник. М.: Высш. шк., 2000. 511с.
45. Першиков А.И., Савинков В.М. Толковый словарь по информатике. 2-е изд. М.: Финансы и статистика, 1995. 544 с.
46. Петров В.Н. Информационные системы. СПб.: Питер, 2002. 688 с.
47. Попов А. Поиск в Интернете внутри и снаружи // Internet. 1996. № 2.
48. Райдингс К., Садовский А. Растолкованный PageRank, или все, что вы всегда хотели знать о PageRank: сайт. URL: http://digits.ru/ articles/promotion/ pagerank.html (дата обращения 25.12.2009).
49. Романов А.Н., Одинцов Б.Е. Советующие информационные системы в экономике: Учеб. пособие. М.: ЮНИТИ-ДАНА, 2000. 487 с.
50. Романов В.П. Интеллектуальные системы в экономике: Учеб. пособие / Под ред. Н.П. Тихомирова. М.: Экзамен, 2003. 496 с.
51. Сахаров А.А. Концепции построения и реализации информационных систем, ориентированных на анализ данных // Системы управления базами данных. 1996, №4. С. 55-70
52. Сегалович И. В. Как работают поисковые системы // Мир Internet. 2002. № 10.
53. Семантическое ядро ресурса сети Интернет, http://me.miralab.ru/2007/ 11/21/ sos tavly aem-semanticheskoe-yadro/
54. Смирнова Г.Н., Сорокин А.А., Тельнов Ю.Ф. Проектирование экономических информационных систем: Учебник. / Под ред. Ю.Ф. Тельнова. М.: Финансы и статистика, 2001. 512 с.
55. Советов Б.Я., Цехановский В.В. Информационные технологии: Учебник. М.: Высш. шк., 2003. 263 с.
56. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979.
57. Терехов А.А. Подсистема накопления данных в интеллектуальной системе прогнозирования // Задачи системного анализа, управления и обработки информации: Межвузовский сборник научных трудов. Вып. 1. М.: МГУПИ, 2006. Стр. 64 67.
58. Терехов А.А. Накопление данных в системе прогнозирования // Программное и информационное обеспечение систем различного назначения на базе персональных ЭВМ: Межвуз. сб. науч. тр. М.: МГУПИ, МГИЭМ (ТУ), МИРЭА (ТУ), РГРТУ, 2006. С. 236 239.
59. Терехов А.А. Представление данных в интеллектуальной системе прогнозирования // 4 межвузовская научно-техническая студенческая конференция «Актуальные проблемы персональных компьютеров и сетей»: Тезисы докладов конференции. Москва: МГУПИ. 2006. С. 27.
60. Терехов А.А. Применение механизма нечеткого вывода для решения задачи идентификации временных рядов // Инновационное управление в информационной среде: Материалы третьей/ международной конференции / Под ред. Е.Н. Мооса. Рязань, 2008. С. 79 80.
61. Терехов А.А. Идентификация информации на основе комбинации семантического и классического информационного поиска // Задачи системного анализа, управления и обработки информации: Межвузовский сборник научных трудов. Вып. 2. М.: МГУП, 2008. Стр. 158 167.
62. Терехов А.А. Идентификация статистического материала и консолидация-временных рядов // Вестник РГРТУ. 2009. № 1 (Вып. 27). С. 62 70.
63. Терехов А.А. Организация жданных для решения задачи прогнозирования // Материалы международной конференции «Инновационное управление в информационной среде» / Под ред. Е.Н. Мооса. Рязань, 2007. С. 64-65.
64. Трофименко Е. PageRank: начала анализа: сайт URL: http:// promosite.ru/articles/pagerank-begin.php (дата обращения 25.05.2009).
65. Уткин В.Б., Балдин К.В. Информационные системы и технологии в экономике. М: ЮНИТИ-ДАНА, 2003. 335 с. (Серия «Профессиональный учебник: Информатика»).
66. Фаулер М., Скотт К. UML в кратком изложении. Применение стандартного языка моделирования: Пер. с англ. М.: Мир, 1999.
67. Хорошилов А., Селетков С. Мировые информационные ресурсы: Учеб. пособие. СПб.: Питер, 2003. 176 с. (Серия «Учебники для вузов»).
68. Храмцов П. Информационно-поисковые системы' Internet // Открытые системы. 1996. № 3(17).
69. Храмцов П. Моделирование и анализ работы информационно-поисковых систем Internet // Открытые системы. 1996. № 6(20).
70. Чурсин Н.Н. Популярная информатика. Киев: Техника, 1982.
71. Шрейдер Ю.А. Социокультурные и технико-экономические аспекты развития информационной среды // Информатика и культура. Новосибирск: Наука. Сибирское отделение. 1990. С. 50 82.
72. Экономика, разработка и использование программного обеспечения ЭВМ: Учебник /В.А. Благодатских, М.А. Енгибарян, Е.В. Ковалевская и др. М.: Финансы и статистика,- 1995. 288 с.
73. Экономическая информатика. / Под ред. П.В. Конюховского и Д.Н.' Колесова. СПб.: Питер, 2000. 560 с.
74. Экономическая информатика: Учебник / Под ред. В.П. Косарева и Л.В. Еремина. М.: Финансы и статистика, 2002. 592 с.
75. Электронные библиотеки: перспективные методы и технологии, электронные коллекции // Сборник трудов пятой всероссийской научной конференции, 29 31 октября 2003 г. / Науч. ред. Л.А. Калиниченко. СПб, 2003.
76. Якубайтис Э.А. Информационные сети и системы: Справочная книга. М.: Финансы и статистика, 1996. 368 с.
77. Ярочкин В.И. Информационная безопасность: Учебник. М.: Академический проект; Фонд «Мир», 2003. 640 с.
78. Baeza-Yates R. Ribeiro-Neto B. Modern Information Retrieval // ACM Press Series. New York: Addison Wesley, 1999. http://citeseer.ist.psu.edu/ baezayates99modern.html (дата обращения 26.12.2009).
79. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine // Computer Networks and ISDN Systems. 1998. № 30.
80. Carmel D., Soffer A. Probabilistic Models of Information Retrieval. Israel: Haifa University, 2003.
81. Draper S. Mizzaro's Framework for Relevance. 1998. http://www.psu.gla. ac.uk/~steve/stefano.htm (дата обращения 26.12.2009).
82. Dumais S.T. Using Latent Semantic Indexing (LSI) for Information Retrieval, Information Filtering, and Other Things // Talk at Cognitive Technology Workshop. April 4-5, 1997.
83. Osipov G.S., Smirnov I.V., Tikhomirov I.A., Vybornova O.V., Zavjalova O.S. Linguistic Knowledge for Search Relevance Improvement // Papers of Joint conference on knowledge-based software engineering JCKBSE'06, IOS Press, 2006. P:. 294-302.
84. Gabrielli S., Mizzaro S. Negotiating a Multidimensional Framework for Relevance Space // Proc. of the MIRA'99. 1999.
85. Greisdorf H. Relevance: An Interdisciplinary and Information Science Perspective. Informing Science, N3 (2), 2000.
86. Haveliwala T. (1999) Efficient Computation of PageRank. Technical Report. Stanford: сайт. URL: http://ilpubs.stanford.edu: 8090/386/ (дата обращения 25.05.2009).
87. Hofmann Т. Probabilistic Latent Semantic Indexing. // 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Berkeley, CA, USA, 1999.
88. Indexing by Latent Semantic Analysis / S. Deerwester and others.'// Journal of the American Society for Information Science. 1990. № 41(6),
89. Inmon W. H. Building The Data Warehouse (Second Edition). NY, NY: Wiley John, 1993.
90. Larry Page, Sergey Brin, The PageRank Situation Ranking: Bringing Order to the Web. http://devaka.ru/files/ThePageRankCitationRanking.pdf (дата обращения 26.12.2009).
91. Lin JJ. Indexing and Retrieving Natural Language Using Ternary Expressions // Master's Thesis of Massachusetts Institute of Technology. 2001.
92. Mizzaro S. How Many Relevances in Information Retrieval? // Interacting With Computers. 1998. № 10(3).
93. Mizzaro S. Relevance: The Whole History // Journal of the American Society of Information Science. 1997. № 48(9).
94. Pinkerton B. Finding What People Want: Experiences with the Web-Crawle // Proc. of the 2nd World Wide Web conference. 1994.
95. Robins D. Interactive Information Retrieval: Context and Basic Notions // Informing Science. 2000. № 3(2).
96. Saracevic T. Relevance Reconsidered '96 // Proc. of the Second Conference on Conceptions of Library and Information Science (CoLIS 2). Copenhagen, 1996.
97. Searching the Web. / A. Arasu, and others. // ACM Trans, on Internet Technology/2001. № 1(1).
98. Singhal A., ICaszkiel M. A Case Study in Web Search Using TREC Algorithms // Proc. of the 10th International World Wide Web Conference. Hong Kong, 2001.
99. Sparck J.K., Walker S., Robertson S.E. A Probabilistic Model of Information Retrieval: Development and Comparative Experiments // Information Processing and Management. 2000. № 36(6).
100. Sparck J. K. Reflections on TREC. // Information Processing & Management. 1995. №31.
101. The Term Vector Database: fast access to indexing terms for Web pages. / R. Stata, K. Bharat, F. Maghoul // Proceedings of WWW9, 2000: сайт URL: http://www9.org/w9cdrom/159/159.html (дата обращения 26.12.2009).
102. Vakkari P. Cognition and Changes of Search Terms and Tactics During Task Performance: A Longitudinal Study // Proceedings of the RIAO 2000 Conference. Paris, 2000.
103. Wallis P., Thom J.A. Relevance Judgements for Assessing Recall // Information Processing & Management. 1996. № 32(11).
104. Wiemer-Hastings P., Wiemer-Hastings K., Graesser A. How Latent is Latent Semantic Analysis? // Proceedings of the Sixteenth International Joint Congress on Artificial Intelligence. San Francisco, 1999.
105. Yuwono В., Lam S.L.Y., Ying J.H., Lee D.L. A World Wide Web Resource Discovery Systems // World Wide Web Journal. 1996. № 1(1).
106. Yuwono В., Lee D. Search and Ranking Algorithms for Locating Resources on the World Wide Web // Proc. of the 12th International Conference on the Data Engineering. New Orleans (Louisiana), 1996.161
-
Похожие работы
- Аналитические и процедурные модели для информационной системы распознавания графических объектов в условиях неопределенности
- Математическое и программное обеспечение интеллектуальных поисковых систем на основе использования мультиагентной архитектуры
- Исследование и разработка автоматизированной информационно-управляющей системы с интегрированной функцией поиска в массиве неструктурированных данных
- Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП
- Математическое и программное обеспечение семантического поиска в портально-сетевых комплексах учебного назначения
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность