автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности
Автореферат диссертации по теме "Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности"
На правах рукописи
Беляев Дмитрий Владимирович
КОНТЕКСТНО-АССОЦИАТИВНЫЙ МЕТОД УТОЧНЕНИЯ ПОИСКОВЫХ ЗАПРОСОВ С ОБРАТНОЙ СВЯЗЬЮ ПО РЕЛЕВАНТНОСТИ
Специальность 05.13.11 — Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Москва — 2006
Работа выполнена на кафедре математической кибернетики Московского авиационного института (государственного технического университета)
Научный руководитель: кандидат физико-математических наук, доцент
Официальные оппоненты: доктор физико-математических наук, профессор
кандидат физико-математических наук, доцент
Ведущая организация:
Волкова Татьяна Борисовна
Клименко Станислав Владимирович
Сошников Дмитрий Валерьевич
Институт проблем информатики Российской академии наук (ИПИ РАН)
Защита состоится " 3 " М^уОТСЧ 200.6 г. в часов на заседании диссертационного совета Д 212.125 04 Московского авиационного института (государственного технического университета) по адресу: 125993, г. Москва, Волоколамское шоссе, 4.
Отзывы в двух экземплярах, скрепленные гербовой печатью, просим направлять по адресу: 125993, г Москва, Волоколамское шоссе, 4, ученому секретарю диссертационного совета Д 212 125.04.
С диссертацией можно ознакомиться в библиотеке МАИ.
Автореферат разослан
"31" 5» 200От.
Ученый секретарь
диссертационного совета Д 212.125 04 4—' / М В Ротанина
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. Большинство современных информационно -поисковых систем (ИПС) основаны на хорошо известных и апробированных методах информационного поиска, теоретические исследования которых начались в связи с появлением первых компьютерных хранилищ электронных текстовых документов. Эти методы ориентированы, прежде всего, на решение общей задачи информационного поиска в хранилищах электронных документов и учитывают специфику и тенденции их развития. К таким тенденциям можно отнести' быстрый рост числа новых электронных документов и высокие темпы изменения уже имеющихся; низкую степень структурированности хранимых документов, а также избыточность (дублирование) информации.
Несмотря на достаточно высокий современный уровень исследований, в теории информационного поиска остается ряд открытых проблем, одной из которых является проблема неоднозначного выбора терминов, вводимых пользователями ИПС в поисковых запросах. Практика показывает, что в общем случае два различных человека (автор искомого документа и пользователь ИПС) часто используют различные ключевые слова для описания одного и того же понятия. Эта проблема стоит еще более остро в случае коротких поисковых запросов потому, что чем короче запрос, тем больше вероятность того, что наиболее важные термины из искомых документов не попадут в поисковый запрос. Тем не менее, пользователи ИПС обычно не склонны выражать свою информационную потребность в виде длинных поисковых запросов или использовать специальные средства, позволяющие более точно формулировать запрос (например, языки поисковых запросов).
В результате поиска найденные электронные документы оказываются в большинстве случаев нерелевантными (т.е не соответствующими по смыслу или требованиям) информационной потребности пользователя ИПС, что обусловлено неумением большинства пользователей ИПС сформулировать запрос, используя средства языка запросов конкретной ИПС; отсутствием у ряда пользователей ИПС предметных знаний, позволяющих подобрать правильные ключевые термины; различием между поисковой релевантностью, являющейся оценкой степени соответствия документов запросу, и релевантности, которая является мерой соответствия этих документов информационной потребности пользователя ИПС.
В большинстве случаев решение этой проблемы сводится к работе, связанной с итерационным переформулированием исходного запроса, которую пользователь ИПС берет на себя. Несмотря на высокий уровень исследований в теории информационного поиска, методики уточнения поисковых запросов "вручную" в настоящее время играют ключевую роль для эффективного применения ИПС.
Это обуславливает актуальность разработки и внедрения специальных средств автоматизации процесса уточнения поисковых запросов, в связи с чем в теории информационного поиска возникло направление, связанное с исследованием методов решения соответствующих задач. В рамках этого направления актуальной остается проблема разработю
модели остоственнгугязыковых текстов, РвС НАЦИОНАЛЬНАЯ §ИБЛПОТЕКА | С.Петербург /А!, ОЭ 1М£*«т /VI „
которая позволила бы проводить их совместный анализ с целью выделения и оценки значимости общих ключевых терминов, что, в частности, позволило бы применять их в алгоритмах уточнения поисковых запросов с обратной связью по релевантности (т.е. по соответствию результатов поиска информационным потребностям пользователей ИПС).
Цель работы. Целью настоящей работы является разработка независимого от применяемой ИПС (в классе полнотекстовых ИПС, реализующих поиск по ключевым словам) метода уточнения поисковых запросов с использованием обратной связи по релевантности, основанного на анализе найденных в результате поиска по исходному запросу документов, которые пользователь ИПС указал в качестве релевантных его информационным потребностям.
Задачи исследования:
1. Выделение смысловых контекстов текстовых документов, представляющих собой фрагменты текста, в которых наблюдаются устойчивые связи между определенными группами терминов.
2. Построение контекстно-ассоциативной модели документов, позволяющей оценить значимость смысловых контекстов в рамках текстового документа, определить ключевые термины документа и дать количественную оценку их смысловой значимости в анализируемом текстовом документе.
3. Разработка метода уточнения поисковых запросов посредством использования ключевых терминов из документов, помеченных пользователем ИПС в качестве релевантных его информационным потребностям,
4. Планирование и проведение экспериментальной оценки эффективности метода уточнения поисковых запросов путем анализа результатов поиска с использованием критериев оценки точности и полноты поиска, а также сравнительного критерия оценки качества поиска по исходному и уточненному запросам.
Методы исследования. Поставленные задачи исследования решены с использованием аппарата линейной алгебры, а также методов, используемых в теории множеств, теории информационного поиска, прикладной лингвистики и математического моделирования.
Научная новизна выполненных в диссертационной работе исследований заключается в разработке контекстно-ассоциативной модели текстовых документов, основанных на ней алгоритмов определения ключевых терминов документа и количественной оценки их смысловой значимости, а также в исследовании эффективности применения контекстно-ассоциативных моделей для решения задачи уточнения поисковых запросов методом обратной связи по релевантности с пользователями ИПС.
Практическая ценность работы заключается в возможности применения полученных моделей, алгоритма и метода для решения задач уточнения поисковых запросов в прикладных ИПС, а также в задачах, связанных с анализом терминологического состава исследуемых текстов.
Пакет программ, реализующий разработанные алгоритмы, автономен, не тре-
бует от пользователей ИПС предварительного изучения применяемых в нем методов и может использоваться в качестве модуля уточнения поисковых запросов в ИПС, реализующих полнотекстовые методы информационного поиска по ключевым словам.
Апробация работы. Основные положения и результаты диссертационной работы обсуждались и докладывались на:
- VIII Международном научно-техническом семинаре "Современные технологии в задачах управления, автоматики и обработки информации" (Алушта, 1999);
- Научной сессии "МИФИ 2000" (Москва, 2000);
- VI Международном совещании-семинаре "Информационные технологии в учебном процессе кафедр физики и математики" (ИТФМ'2002, Ульяновск, 2002);
- III Международной конференции "Авиация и космопавтика-2004" (Москва, 2004);
- XIV Международной конференции по Вычислительной Механике и Современным Прикладным Программным Системам (ВМСППС'2005, Алушта, 2005);
- III Российском семинаре по Оценке Методов Информационного Поиска (РОМИП'2005, Ярославль, 2005).
Публикации. По теме диссертационной работы опубликовано 9 печатных работ. Из них: 3 статьи, 6 тезисов докладов и статей в сборниках трудов вышеперечисленных конференций.
Основные положения, выносимые на защиту:
1. Математическая постановка задачи уточнения поисковых запросов с использованием обратной связи по релевантности и выбор критериев оценки эффективности ее решения.
2. Модель смысловых контекстов, учитывающая терминологический состав произвольных текстов на естественном языке и отражающая наличие смысловых связей между группами терминов в различных фрагментах анализируемых текстов.
3. Контекстно-ассоциативная модель, позволяющая количественно оценивать значимость ассоциативных связей между смысловыми контекстами, выделять и оценивать значимость ключевых терминов анализируемых текстов.
4. Метод уточнения поисковых запросов с обратной связью по релевантности, использующий свойства контекстно-ассоциативной модели.
5. Экспериментальная оценка эффективности применения предложенного метода, позволившая выявить его применимость к коллекциям электронных документов различного типа, оценить оптимальные параметры используемых в нем моделей и выявить устойчивость метода к ошибкам пользователей.
Структура и объем работы. Диссертационная работа состоит из введения, 3 глав, заключения, списка использованных источников из 108 наименований и 2 приложений. Общий объем работы — 135 страниц. Основная часть работы изложена на 112 страницах машинописного текста, содержит 12 рисунков и 17 таблиц
КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении обоснована актуальность темы исследования, определена научная проблема, поставлены цели и задачи исследования, дан обзор содержания работы.
В первой главе на основе анализа отечественной и зарубежной литературы производится оценка текущего уровня исследований методов информационного полнотекстового поиска и проблемы автоматического уточнения поисковых запросов, а также дается формальная постановка задачи уточнения поисковых запросов и критериев оценки эффективности ее решения. Модель ИПС рассматривается в виде тройки
(А <?,/), (1)
где D — конечное множество документов, Q — множество поисковых запросов (в общем случае бесконечное), J:DxQ-»[ 0,1] — мера релевантности документа d, е D запросу q &Q.
Отклик ИПС на запрос q € Q обозначается Dq и представляется в виде упорядоченной последовательности документов из D, в которой документ с индексом г предшествует элементу с индексом j, если f(d,,q) > f(dvq), с точностью до перестановок документов с равными оценками релевантности. Интегральная оценка качества отклика ИПС имеет вид:
quality(5g, Dqel) = £ ^ (2)
deD
где Drqei — релевантная выборка — подпоследовательность документов из Д?, которые пользователь ИПС указал в качестве релевантных, pos(d) — порядковый номер документа d в отклике Dq.
Задача уточнения запроса q состоит в построении нового запроса q* € Q,
ТаК0Г° ЧТ° quality> quality (Д, Drql). (3)
Так как интегральная оценка качества отражает близость документов из релевантной выборки к началу отклика ИПС и не учитывает положения всех релевантных документов в отклике, то также рассматривается общий критерий уточнения исходного запроса: .
quality (Dq,Drqei), (4)
где DTd С D - множество всех документов, релевантных q, а также критерии оценки полноты и точности поиска среди Л первых элементов Д
я
TV^
precision(X) — -f^, recall^ Л) =
А птн
где Пщ — число релевантных документов среди А первых элементов Д. а пгег — общее число релевантных документов в Д.
В рамках рассматриваемой задачи можно выделить:
- задачу расширения поисковых запросов, состоящую в добавлении в исходный запрос синонимов или словоформ ключевых терминов запроса без изменения смыслового содержания исходного запроса;
- задачу переформулирования поисковых запросов, состоящую в изменении исходного запроса посредством учета ключевых слов из релевантных документов с целью уточнения смыслового содержания запроса и, как следствие, точности поиска.
Методы решения этих задач можно разделить на два класса:
- методы автоматического уточнения запросов, не требующие получения в ходе своей работы дополнительной информации от пользователей ИПС;
- методы интерактивного уточнения запросов, использующие обратную связь с пользователем, в ходе работы которых пользователь должен предоставить дополнительную информацию, позволяющую осуществить более точный поиск.
Обзор методов решения задачи уточнения поисковых запросов и критериев оценки эффективности их работы позволил выявить специфику рассматриваемой задачи, актуальность поиска и исследования новых методов ее решения. Проведенный анализ достоинств и недостатков различных методов позволил оценить их применимость к решению поставленной задачи. В частности, выявлены преимущества методов, использующих локальный анализ перед методами глобального анализа, а также методов, основанных на принципе обратной связи по релевантности с пользователями ИПС, перед методами автоматического уточнения поисковых запросов.
Установлено, что выбор подхода к уточнению запросов зависит от многих факторов, в частности, тематической специфики и объема коллекции электронных документов, числа документов, релевантных запросу пользователя, а также предрасположенности (или непредрасположенности) пользователей ИПС к интерактивному поиску в несколько итераций.
Выявлена актуальность решения задачи выбора ключевых терминов и применения универсальных методов уточнения поисковых запросов, не требующих знаний о специфике искомых документов и не использующих в ходе своего применения тезаурусов или иных моделей знаний предметных областей, к которым относятся искомые документы.
Во второй главе диссертационной работы приводится описание контекстно-ассоциативной модели, позволяющей количественно оценивать значимость ассоциативных связей между смысловыми контекстами естественно языковых текстов и выделять ключевые термины, а также метод и алгоритмы уточнения поисковых запросов с обратной связью по релевантности, использующие свойства контекстно-ассоциативной модели.
Основная идея построения модели смысловых контекстов произвольного текстового документа состоит в выявлении устойчивых смысловых связей между терминами в различных предложениях документа.
Анализируемый текстовый документ Л рассматривается как последователь-
ность предложений
и представляется в виде множества предложений
Л* = я*,. ■■,*■»}, (5)
пронумерованных в порядке их следования в документе <1, где п — число предложений документа.
Под терминами понимаются слова или словосочетания, обозначающие в документе некоторые сущности. Множество Т4* — словарь терминов объема т = \ТЛ\, полученный в процессе последовательного терминологического разбора каждого из предложений документа (I.
На множестве Т4 х Па вводится отношение вхождения терминов в предложения, задаваемое матрицей вхождения ЗУ* — ||5У|| размерности тпх п, где: ^ _ Г 1, если термин встречается в предложении 4 — | 0, иначе.
Множество предложений Щ С Пл, в которых встречается термин ± € Тл, называется носителем этого термина в документе й:
Щ = {ж 6 П* : ¿тс1(() тф) = 1}, где тс1(£) — индекс термина £ в тс1(7г) — индекс предложения 7г в Пл, и вводится оператор носителя терминов как отображение Тл —+ 2пЛ:
ШеТ1 вирр{<} = Щ. (6)
Продолжение оператора носителя терминов на все множество подмножеств Тл задается в виде отображения 2Т*< —» 2П* следующим образом: УТ С Т^
Г П Пи если Т ф 0, 8ирр(Г) = \ гет (7)
[ П*, если Т = 0.
Множество терминов Т„ СТ^, которые входят в предложение 7Г € Я*2, называется контентом этого предложения:
Т, = {г 6 Т"* : <?шс1(01па(7г) = 1} и вводится оператор контента предложений как отображение Па —► 27"':
УтгбЯ* Со1й{1г} = Г„ (8)
который продолжается аналогичным образом на все множество подмножеств Пл в виде отображения 2я* —► 2Т*: VII С Пл
« /т Г П если П
Сотй(П) = < (9)
[ Тл, если Я = 0.
Для определения понятия смыслового контекста рассматриваются подмножества терминов документа й, которые встречаются совместно в различных его предложениях Множество пар
& = {(Т,П)-.ТСТ*,ПСП*}, (10)
являющихся нетривиальными решениями ({Т, Я) / (0,0)) системы уравнений.
ГЯ = 8иРР(Г)
\т = Сотл(п) (п;
называются смысловыми контекстами документа с? и обозначаются |Т, Щ Далее для удобства записи вводятся обозначения:
Со1^ирр(Г) = Сой(8ирр(Г)),
ЗиррСоп^Г) = 8ирр(Со^(Т)) (и)
и рассматриваются свойства смысловых контекстов текстового документа позволяющие найти общее решение системы уравнений (11). Утверждение 1.
1. VТиТ2 с Т* : Тх С Т2 Зирр(Т2) С Эирр^).
2. УЯЬ #2 СПЛ-.П1СП2 => СопЬ(Л2) С СоШ^). Показано, что обратное утверждение, в общем случае, неверно.
Так как операторы Бирр и Согй не являются взаимообратными, то, в общем случае, Т ф Со^Зирр(Г) и П ф ЭиррСоп^Я), однако имеют место следующие включения.
Утверждение 2. Х УГСТ* Т С Сог^Зирр(Т). 2.УЯ С Пл Я С 8иррСоп1(Я).
Устанавливаются критерии, при которых включения, приведенные в Утверждении 2, выполняются в виде равенств: Утверждение 3.
1. Т = Со1й8ирр(Т) ЗП С Па : Т = Со^(Я),
2. Я = ЭиррСоп^Я) <&ЗТСТЛ:П = 8ирр(Т).
Из Утверждения 3 непосредственно следует, что УТ СТ'и У Я С Па имеют место тождественные равенства:
8иррСа1й(8щ>р(Т)) = 8ирр(Т), .
СогЛЭирр (Со1й (Я)) = СопЪ(П), ( )
а пары |Со^8ирр(Г),8ирр(Т)| и |Со^(Я),8иррСой(Я)] являются смысловыми контекстами документа 6.
Это означает, что в любом текстовом документе <1 произвольное подмножество терминов Т С Та или предложений П С Пл однозначно задают некоторый соответствующий им смысловой контекст:
Щ [ОтЙщф(10,Эирр(Г)1. (14)
Щ = [Сой(Я),8иррСо^(Я)1,
где множества терминов Т и предложений Я называются образующими соответствующих смысловых контекстов В то же время по заданному смысловому контексту нельзя в общем случае однозначно определить его образующие. Образующие, задающие один и тот же смысловой контекст, называются эквивалентными.
Далее рассматриваются свойства смысловых контекстов, связанных с пересечением и объединением их образующих.
Утверждение 4. Для V р1, Д], IТ2,Я2| € С имеют место равенства.
г.щищ^^пщ}, 2.{Т1пТ,\ = 1П1иПг].
На множестве смысловых контекстов С* вводится отношение включения С одного смыслового контекста в другой. Пусть [Т^ Щ}, [Т2, € С*. Тогда
Ръ Ях1 С (Га, Я3] Пх С Я2. (15)
Это отношение включения на множестве С* является рефлексивным, антисимметричным и транзитивным отношением и задает частичный порядок
Вводятся операции объединения смысловых контекстов р\, Я^, |Тг, Я2] € С: рь Л^Ур*. Я2] = [Я,иЯ21; и их пересечения: \Ти П^АЩ, Я2] = [ЯПЯ^.
Операции V и Л ассоциативны в силу их определения через операции объединения и пересечения множеств. Исходя из этого операции объединения и пересечения по произвольному множеству смысловых контекстов УС С Сл определяются следующим образом: ^ ,, у ^
рг,Я]еС
АС =' Д [Г,Я],
[Т,П]еС
Утверждение 5. Для УСЬС2 6 С'
1.У(С1иС2) = У{УС1^С2},
2. Л(С1 и С2) = Л{ЛСЬ ЛС2}.
Теорема. Множество смысловых контекстов Сл документа й является замыканием множества базовых смысловых контекстов С^ относительно операции объединения смысловых контекстов V, где
С? {[М]:»€ Я*} и |[0]. (17)
Далее в работе рассматривается контекстно-ассоциативная модель произвольного текстового документа <£
Пусть с = |Т, Я| € С*1, где Я — носитель смыслового контекста с. Предложение с наименьшим индексом во всем множестве Я называется порождающим предложением смыслового контекста с. Подмножество носителя смыслового контекста без его порождающего предложения называется областью существования смыслового контекста с: П = П\{п}.
Область существования Я может быть пустым множеством в случае, когда носитель смыслового контекста состоит только из порождающего предложения. Я = {7г}. Это имеет место, когда смысловой контекст с задается в документе (I только одним предложением 7г: [Т| = |{7г}|. Такие смысловые контексты образуют подмножество базовых смысловых контекстов документа.
Два контекста са, £ С* связаны в документе й непосредственной ассоциативной связью «->, если выполняется условие:
Со <-> с0 ПаГ\Пр^ 0.
16)
В противном случае наличие ассоциативной связи между двумя смысловыми контекстами определяется как наименьшая длина последовательности смысловых контекстов с3 € Сл, j — 1,2,...,к:
Са * > С^ * ^ . . . с]к С.0
(если такая последовательность существует) и обозначается са <-*-> Ср Непосредственная ассоциативная связь двух смысловых контекстов — это ассоциативная связь уровня 0.
Вес ассоциативной связи рассчитывается через ее уровень к:
ш(со,С0) = 1/2*. (18)
Ассоциативной мощностью уровня I смыслового контекста с € С* называется средневзвешенная сумма весов ассоциативных связей уровней 0,1,...,/ этого смыслового контекста с другими смысловыми контекстами документа Л-
к=0 1 с1 с'бС£
где — множество смысловых контекстов, связанных с контекстом с ассоциативной связью уровня к. Уровень I является эвристическим параметром контекстно-ассоциативной модели и выбирается экспериментальным путем.
На основе ассоциативных мощностей смысловых контекстов делается количественная оценка терминов из документа <1: чем выше ассоциативные мощности смысловых контекстов, содержащих термин тем выше должен быть его вес в
документе й\ 1
= (20)
где С( = {|Т, 77| € Сй : < € Т}.
Экспериментальная проверка ранжирования терминов показала, что ключевые термины располагаются ближе к началу списка терминов, отсортированного в порядке убывания их весовых коэффициентов. Этот факт позволяет применять контекстно-ассоциативные модели в алгоритме уточнения поисковых запросов
Пусть в процессе поиска по исходному запросу <? пользователь ИПС на основе анализа отклика Бч сформировал релевантную выборку Г)™1. Алгоритм уточнения поискового запроса ц:
1. Для всех документов й 6 ТУ^ строятся их контекстно-ассоциативные модели С.
2. Для каждого термина из анализируемых релевантных документов по формуле (20) вычисляются локальные весовые коэффициенты.
3. Для всех терминов вычисляются обобщенные весовые коэффициенты терминов по всем документам из релевантной выборки:
гие1дЫ?(Ь) = Д \¥1{ис1). (21)
4 В уточненный запрос включаются первые т терминов, имеющих наибольшие значения весовых коэффициентов. Параметр т может устанавливаться пользователем ИПС или выбираться экспериментальным путем
Предлагаемый алгоритм содержит следующие параметры, влияющие на его работу, оптимальные значения которых могут быть получены экспериментально-1 — уровень применяемой контекстно-ассоциативной сети; п — число документов в релевантной выборке; m число терминов, на основе которых строится уточненный запрос Третья глава диссертационной работы посвящена описанию планирования и проведения экспериментов по оценке эффективности применения разработанного алгоритма уточнения поисковых запросов с обратной связью по релевантности.
Наборы тестовых заданий включали: тестовую коллекцию электронных документов объема, близкого к объему данных, на которых будет эксплуатироваться ИПС; тестовый набор заданий — список запросов и таблицу релевантности, моделирующую информационную потребность пользователя ИПС.
Для проведения экспериментов использовались следующие тестовые коллекции электронных документов:
- коллекция новостей 'Lenta.Ru" — коллекция, полученная посредством случайной выборки новостных статей сайта Lenta. Ru;
-коллекция технической документации "CITForum Ru— копия справочной части сайта CITForum.Ru, содержащая техническую документацию из областей знаний, связанных с вычислительной техникой и программированием;
- объединенная коллекция 'РОМИП'2005" (Mixed), применявшаяся в 2005 году на семинаре РОМИП в дорожке поиска по документу-образцу в Web (коллекция "Narod.Ru") и нормативно-справочных документах (коллекция 'Legal").
Общие характеристики коллекций электронных документов, выбранных для проведения экспериментальных оценок, приведены в табл. 1.
Таблица 1.
Коллекция Lenta. Ru CITForum Ru РОМИП
Объем*, Мб 36 455 6 871
Кол-во документов 23 805 26 911 398 579
Средний объем документа*, Кб 1,5 17,3 17,7
Кол-во запросов 43 31 58
* Для коллекций "ClTFonim.Ru" и "РОМИП" приведены объемы электронных документов, включающих (помимо их текста) разметку HTML
Кроме оценок точности и полноты поиска, рассчитываемых по методике TREC, для оценки качества поиска по всему множеству тестовых запросов Q использовалась оценка, учитывающая расположение всей совокупности релевантных документов в усеченном отклике
АЧшгШу = Л У (22)
\Q\ti quality (Dq„Dq,«)
Эксперименты с коллекциями "Lenta.Ru" и "CITForum.Ru" проводились при длине релевантной выборки от 1 до 6 документов, число ключевых терминов, на основе которых строился уточненный запрос, также изменялось от 1 до 6.
Пример результатов экспериментальной оценки представлен на рис. 1 и 2
Терм=1 — Терм--2 —о~ Терм=3 Терм=4 --»-Терм=5 — Терм=6
1 2 3 4 5
Длина релевантной выборки (Док) Рис. 1. Зависимость изменения качества поиска от дайны релевантной выборки
1 2 3 4 5 6
Число ключевых терминов (Терм) Рис 2. Зависимость изменения качества поиска от числа ключевых терминов
Из графиков зависимости изменения качества поиска от длины релевантной выборки (рис. 1) видно, что большинство из них достигают в некоторых точках наибольших значений Исходя из этого можно сделать вывод, что рекомендуемое число документов в релевантной выборке составляет 3 или 4 документа
В свою очередь из графиков зависимости изменения качества поиска от числа ключевых терминов (рис. 2) видно, что улучшение качества поиска достаточно
быстро достигает наибольших значений при 4-5 ключевых терминах в уточненном запросе.
Подробные результаты оценки эффективности алгоритма уточнения поисковых запросов при значениях Док=3 и Терм=4 приведены, соответственно в таблицах 2 и 3.
Таблица 2.
Число ключевых терминов 1 | 2 | 3 | 4 1 5 | 6
Общее число запросов 43
Число улучшенных запросов 11 21 25 34 34 34
Процент улучшенных запросов 25,6% 48,8% 58,1% 79,1% 79,1% 79,1%
Начальная средняя оценка качества 0,9771
Конечная средняя оценка качества 0,6604 1,0869 1,3461 1,5132 1,5059 1,5976
Средний процент улучшения качества -32,4% 11,2% 37,8% 54,9% 54,1% 63,5%
Таблица 3
Объем релевантной выборки: 1 | 2 | 3 | 4 | 5 | 6
Общее число запросов 43
Число улучшенных запросов 33 34 34 31 30 28
Процент улучшенных запросов 76,7% 79,1% 79,1% 72,1% 69,8% 65,1%
Начальная средняя оценка качества 0,9771
Конечная средняя оценка качества 1,3575 1,4559 1,5132 1,4660 1,4083 1,2376
Средний процент улучшения качества 38,9% 49,0% 54,9% 50,0% 44,1% 26,7%
Относительно высокую эффективность алгоритма уточнения запросов (свыше 60%) можно объяснить сравнительно низким качеством исходных запросов, длина которых не превышала 3 слов, что не позволяет в полной мере выразить информационную потребность поиска.
Эксперименты с коллекцией "РОМИП'2005" проводились исходя из условия, что известен лишь один релевантный документ (решалась задача поиска по образцу, принадлежащему коллекции электронных документов). Результаты показали, что предложенный метод уточнения поисковых запросов не применим непосредственно к задаче поиска по образцу При этом лишь в случае 3 или 4 ключевых терминов наблюдалось незначительное увеличение точности поиска на небольших значениях полноты. Это означает, что только среди первых результатов поиска наблюдается увеличение числа релевантных документов.
Так как при поиске по образу известен 1 заведомо релевантный документ-образец, был предложен более эффективный алгоритм, основанный на том, что если положение документа-образца после поиска по уточненному запросу ухудшилось (т.е. он оказался дальше от начала результата поиска, по сравнению с результатом поиска по исходному запросу), то можно попытаться подобрать оптимальное значение числа ключевых терминов, при которых документ-образец оказывается как можно ближе к началу отклика ИПС.
На рис. 3 показаны сравнительные результаты такого эксперимента для исходных запросов и запросов, полученных при выборе оптимального значения параметра Терм и уровне ассоциативной сети, равном 2.
Полнота
Рис. 3 Результаты сравнительной оценки уточнения запросов на РОМИП'2005
Оценка влияния уровня ассоциативной сети на эффективность алгоритма уточнения запросов можно проиллюстрировать результатами, полученными в ходе экспериментов с коллекцией "Lenta.Ru" при фиксированных параметрах Док-=3 и Терм=4 (табл. 4) и с коллекций РОМИП'2005 Mixed (табл. 5) при оптимальном выборе параметра Терм.
____Таблица 4.
Уровень ассоциативной сети- 0 I 1 | 2 [ 3 | 4
Общее число запросов 43
Число улучшенных запросов 25 34 35 35 35
Процент улучшенных запросов 58,1% 79,1% 81,4% 81,4% 81,4%
Начальная средняя оценка качества 0,9771
Конечная средняя оценка качества 1,0886 1,5132 1,5227 1,5529 1,5529
Средний процент улучшения качества 11,4% 54,9% 55,8% 58,9% 58,9%
Таблица 5.
Уровень ассоциативной сети. 0 | 1 | 2 | 3 | 4
Общее число запросов 58
Число улучшенных запросов 19 25 26 26 26
Процент улучшенных запросов 32,8% 43,1% 44,8% 44,8% 44,8%
Начальная средняя оценка качества 2,2873
Конечная средняя оценка качества 2,3407 2,4823 2,5296 2,5296 1 2,5210
Средний процент улучшения качества 2,3% 8,5% 10,6% 10,6% 1 10,2%
Из таблицы видно, что добавление в модель ассоциативных связей более высокого уровня приводит к улучшению эффективности работы алгоритма уточнения запросов. При этом наблюдается замедление роста качества поиска начиная с уровня к = 1. С учетом того, что вычислительная сложность алгоритма увеличивается с ростом уровня к, можно предположить, что не имеет смысла рассмат-
ривать контекстно-ассоциативные модели выше 2-го уровня.
Относительно низкая эффективность применения метода для коллекции "Lenta Ru" объясняется более высоким качеством исходных запросов, применявшихся для экспериентов с коллекцией РОМИП'2005, что следует из сравнения величин начальных средних оценок качества поиска.
Сравнительный анализ применимости предлагаемого метода к коллекциям различных типов показал, что при незначительном отличии в проценте уточненных запросов существенное улучшение качества поиска достигается при поиске в Web (более чем на 25% — для коллекции Narod.Ru и примерно на 8% — для коллекции Legal) Это можно объяснить тем, что предметная область, к которой относятся нормативно-правовые документы, является существенно более формализованной и обладает хорошо устоявшейся терминологией, что также влечет хорошее качество исходных запросов.
Одним из важных свойств алгоритма уточнения поисковых запросов является его устойчивость к ошибкам пользователей ИПС, связанным с добавлением в релевантную выборку нерелевантных документов. В таблице б показаны экспериментальные результаты оценки такого влияния в случае, когда в релевантной выборке, состоящей из 4 документов (Док=4), присутствуют от 1 до 3 случайных нерелевантных документов, оказавшихся рядом с релевантными в результатах поиска по исходному запросу.
__Таблица 6.
Число "ошибочныхпдокументов: 1 1 2 1 3
Начальная средняя оценка качества 0,9771
Конечная средняя оценка качества 1,2376 0,9627 0,0214
Средний процент изменения качества 26,7% -1,5% -97,8 %
Для проведения сравнительной оценки эффективности применения различных методов выделения ключевых терминов и их использования в задаче уточнения поисковых запросов, были выбраны следующие методы:
1. Метод, основанный на оценке TF*IDF в следующей реализации:
tm-m) t (23)
'£(tm-idmy
I UZT*
где tf(t) — частота встречаемости термина t в документе d, idfit) — инверсная частота встречаемости термина t во всей коллекции документов D, с использованием корректирующего коэффициента учета HTML-разметки.
2. AMT — метод, основанный на ассоциативной модели текста, предложенной Чанышевым О Г.
3. CRF — метод Conceptual Relevance Feedback, разработанный и проанализированный авторами Grootjen F.A. и Th.P. van der Weide.
В таблице 7 приведены результаты экспериментов с поиском в коллекции Mixed, глубине котла 50 документов и оценке OR (relevant-minus).
Таблица 7.
Init | ACK ] TF*IDF j AMT | CRF
Полнота Точность
0,0 0,690 0,790 (14,4%) 0,767 (11,0%) 0,773 (12,0%) 0,941 (36,3%)
од 0,601 0,721 (20,0%) 0,650 (8,1%) 0,697 (15,9%) 0,642 (6,7%)
0,2 0,549 0,663 (20,8%) 0,548 (-0,3%) 0,631 (14,9%) 0,457 (-16,7%)
0,3 0,524 0,623 (19,0%) 0,455 (-13,2%) 0,562 (7,2%) 0,381 (-27,4%)
0,4 0,470 0,577 (22,7%) 0,418 (-11,0%) 0,479 (1,9%) 0,322 (-31,4%)
0,5 0,390 0,444 (13,9%) 0,329 (-15,6%) 0,428 (9,8%>) 0,276 (-29,3%)
0,6 0,314 0,349 (11,4%) 0,245 (-22,0%) 0,347 (10,6%) 0,219 (-30,1%)
0,7 0,253 0,288 (13,8%) 0,172 (-32,1%) 0,250 (-1,3%) 0,173 (-31,9%)
0,8 0,133 0,166 (25,2%) 0,093 (-30,0%) 0,155 (16,5%) 0,138 (3,8%)
0,9 0,082 0,090 (9,3%) 0,049 (-40,4%) 0,093 (13,3%) 0,053 (-35,1%)
1,0 0,036 0,035 (-3,6%) 0,021 (-40,8%) 0,037 (2,2%) 0,025 (-31,7%)
Ргес(б) 0,591 0,681 (15,2%) 0,641 (8,4%) 0,679 (14,9%) 0,708 (19,8%)
Ргес(М) 0,524 0,626 (19,4%) 0,536 (2,2%) 0,591 (12,8%) 0,495 (-5,6%)
Ргес(15) 0,515 0,617 (19,7%) 0,482 (-6,5%) 0,558 (8,4%) 0,398 (-22,8%)
Ргес(20) 0,464 0,542 (16,7%) 0,402 (-13,3%) 0,502 (8,2%) 0,331 (-28,6%)
AvgPrec 0,359 0,424 (18,1%) 0,302 (-15,8%) 0,396 (10,3%) 0,284 (-20,9%)
Precision 0,395 0,467 (18,3%) 0,343 (-13,3%) 0,443 (12,0%) 0,288 (-27,2%)
Recall 0,478 0,470 (-1,7%) 0,414 (-13,3% 0,531 (11,1%) 0,378 (-20,9%)
Анализ результатов сравнительной оценки позволяет сделать следующие выводы:
1 Предложенный метод эффективно работает на коллекциях слабоструктурированных документов (коллекция "Legal"), представленных в виде текстовых файлов, в которых отсутствует явное выделение заголовков, разделов, подразделов и т.д., а также нет выделенных фрагментов, характеризующих наиболее значимые термины и ключевые фразы. При этом предложенный метод:
- дает выигрыш в точности поиска на всем объеме результатов поиска, при этом полнота поиска не снижается;
- приводит к увеличению точности поиска уже па "первой странице" результатов (среди первых 5 документов);
- хорошо применим к документам, в которых встречаются сложные синтаксические конструкции, в результате чего смысловые контексты, объединяющие связанные по смыслу термины, разделены другими, менее значимыми терминами.
2. Поиск в смешанной коллекции "Mixed" показал, что предложенный метод хорошо применим при поиске в разнородных коллекциях документов. При этом наблюдается увеличение точности за счет несущественного снижения полноты поиска, что дает выигрыш в увеличении точности поиска уже на первой странице результатов (среди первых 10 документов)
В целом можно утверждать, что предложенный метод применим в качестве математического обеспечения модуля уточнения поисковых запросов при поиске по ключевым словам:
- в тематических коллекциях текстов небольшого объема (новостные статьи),
- в коллекциях текстов из областей с устоявшейся терминологией (техническая документация);
- в Web.
Анализ влияния параметров предложенной контекстно-ассоциативной модели на эффективность работы алгоритма уточнения поисковых запросов позволил дать рекомендации по выбору:
- уровня контекстно-ассоциативной модели — не выше 2,
- числа терминов, используемых при построении уточненных запросов — 4-5 ключевых терминов;
- объема релевантной выборки — 3-4 документа.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Основным итогом диссертационной работы является метод уточнения поисковых запросов с применением обратной связи по релевантности с пользователями ИПС (в классе полнотекстовых ИПС, реализующих поиск по ключевым словам), использующий свойства контекстно-ассоциативных моделей документов, указанных пользователями ИПС в качестве релевантных их информационным потребностям в результах поиска по исходному запросу.
В работе получены следующие результаты:
1. Сформулирована математическая постановка задачи уточнения информационно-поисковых запросов с использованием обратной связи по релевантности, рассмотрены критерии оценки эффективности ее решения и сформулирован сравнительный критерий оценки качества поиска по исходному и уточненному запросу.
2. Разработана и апробирована математическая модель смысловых контекстов, учитывающая терминологический состав произвольных текстов на естественном языке и отражающая наличие смысловых связей между группами терминов в различных фрагментах анализируемых текстов. Исследованы свойства модели смысловых контекстов и доказана возможность ее построения для произвольного текстового документа.
3 Разработана и апробирована контекстно-ассоциативная модель, позволяющая количественно оценивать значимость ассоциативных связей между смысловыми контекстами и эффективно выделять ключевые термины анализируемых текстов.
4. Разработан и исследован метод уточнения поисковых запросов с обратной связью по релевантности, использующий свойства контекстно-ассоциативной модели и позволяющий строить уточненные поисковые запросы, улучшающие качество поиска.
5. Осуществлена программная реализация модели смысловых контекстов, контекстно-ассоциативной модели и метода уточнения поисковых запросов в виде модуля, который может применяться совместно с различными информационно-поисковыми системами, основанными на методах поиска по ключевым словам.
6. Проведена экспериментальная оценка эффективности применения предложенного метода, позволившая выявить его применимость к коллекциям электронных документов различного типа, оценить оптимальные параметры используемых в нем моделей и выявить устойчивость метода к ошибкам пользователей.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Беляев Д.В , Семенов В В Семантический поиск в текстовых массивах — В кн.: Научная сессия МИФИ-2000. Сборник научных трудов В 13 томах. Т.2 М.: МИФИ, 2000. - с. 124^125.
2. Беляев Д. В , Семенов В. В Применение семантического поиска в текстовых массивах в технологии компьютерного обучения В кн.- Современные технологии в задачах управления, автоматики и обработки информации- Сборник трудов IX международного научно-технического семинара, посвященного 70-летию МАИ и 70 летию МЭИ. М.: Изд-во "Научтехлитиздат", 2000. — с. 291-292.
3. Беляев Д.В. Применение информационно-поисковых систем в технологии дистанционного обучения. — В. сб. трудов VI Международного совещания-семинара (24-26 сентября 2002 г.), под ред Климовского A.B. — Ульяновск УлГТУ, 2002. - с. 71-73.
4. Беляев Д В. Ассоциативная модель структурированной коллекции текстовых документов и ее применение для уточнения запросов. — В кн.: Тезисы докладов III Международной выставки-конференции "Авиация и Космонавтика-2004"
- М.: Изд-во МАИ, 2004. - с. 134-136.
5. Беляев Д.В. Ассоциативная модель смысловых контекстов и ее применение в задаче уточнения поисковых запросов.// Электронный журнал "Труды МАИ". - 2005, N18 — http://www mai.ru/projects/mai_works/articles/numl8/article9/auther htm — 17 с
6. Беляев Д.В Контекстный анализ естественно-языковых текстов в задаче уточнения поисковых запросов. — В кн.- Материалы XIV Международной конференции по вычислительной механике и современным прикладным программным системам (ВМСППС-2005). — М,- Вузовская книга, 2005 - с. 297-298
7. Беляев Д.В. Экспериментальная проверка применения контекстно ассоциативных моделей в задаче уточнения поисковых запросов // Информационные технологии и програм-мирование- Межвузовский сборник статей. Вып. 2 (14)
- М.: МГИУ, 2005. - с. 19-30.
8 Беляев ДВ. Оценка эффективности применения контекстно-ассоциативных моделей текстов в задаче поиска по образцу на РОМИП'2005 — В кн • Труды третьего российского семинара РОМИП'2005 (Ярославль, 6 октября 2005 г.) - Санкт-Петербург: НИИ Химии СПбГУ, 2005. - с. 89-105.
9. Беляев Д В. Повышение эффективности поиска экономической и правовой информации.// Экономические науки- Современная экономика (Приложение) N 4, 2005. - с. 5-18.
¿S7JT
Оглавление автор диссертации — кандидата физико-математических наук Беляев, Дмитрий Владимирович
ВВЕДЕНИЕ.
Глава 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ. ПОСТАНОВКА
ЗАДАЧ ИССЛЕДОВАНИЯ.
1.1. Определения используемых терминов.
V|Tv 1.2. Постановка задачи уточнения поисковых запросов.
1.3. Подходы к решению задач полнотекстового информационного поиска.
1.3.1. Виды полнотекстового информационного поиска.
1.3.2. Классификация моделей полнотекстового поиска.
1.3.3. Обзор моделей полнотекстового поиска.
1.4. Подходы к решению задачи уточнения поисковых запросов
1.4.1. Классификация методов уточнения поисковых запросов
1.4.2. Обзор методов уточнения поисковых запросов.
1.5. Выводы по главе.
Глава 2. КОНТЕКСТНО-АССОЦИАТИВНАЯ МОДЕЛЬ ТЕКСТОВЫХ ДОКУМЕНТОВ ф 2.1. Модель смысловых контекстов текста.
2.1.1. Построение словаря терминов.
2.1.2. Определение смысловых контекстов текстового документа
2.1.3. Свойства смысловых контекстов текстового документа
2.2. Контекстно-ассоциативная модель текста.
2.3. Алгоритм решения задачи уточнения запросов.
2.4. Выводы по главе.
Глава 3. ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДА УТОЧНЕНИЯ
• ПОИСКОВЫХ ЗАПРОСОВ.
3.1. Планирование экспериментов.
3.1.1. Тестовые коллекции электронных документов.
3.1.2. Тестовые наборы заданий
3.1.3. Выбор информационно-поисковой системы.
3.1.4. Критерии оценки.
3.2. Эффективность решения задачи уточнения поисковых запросов
3.2.1. Оценка оптимальных параметров.
3.2.2. Анализ влияния уровня контекстно-ассоциативной сети
3.2.3. Оценка устойчивости к ошибкам пользователей.
3.3. Эффективность решения задачи поиска п,о документу-образцу
3.4. Сравнительный анализ применения контекстно-ассоциативного метода.
3.4.1. Подготовка и проведение экспериментов.
3.4.2. Результаты экспериментов.
3.5. Выводы по главе.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Беляев, Дмитрий Владимирович
Теоретические исследования в области автоматизированных полнотекстовых информационно-поисковых систем (ИПС) начались в связи с появлением первых компьютерных хранилищ электронных текстовых документов [39, 50, 21, 100]. В настоящее время миллиарды документов стали доступными в электронной форме, созданы десятки тысяч электронных библиотек практически по всем областям человеческих знаний, многие из которых носят распределенный характер. Важную роль в этом процессе сыграло появление и развитие глобальных сетей передачи данных, и, в первую очередь, сети Интернет.
Большинство существующих в настоящее время современных ИПС основаны на хорошо известных и апробированных методах информационного поиска [33, 49, 50, 18]. Эти методы ориентированы, прежде всего, на решение общей задачи информационного поиска в хранилищах электронных документов, расположенных в компьютерных сетях общего пользования, и учитывают специфику и тенденций развития этих сетей [80, 44]. К таким тенденциям можно отнести: быстрый рост числа новых документов и высокие темпы изменения уже имеющихся, низкую степень структурированности документов и избыточность (дублирование) информации [47, 13] и т.д.
По типу и целевому назначению хранилища электронных документов можно условно разделить на несколько видов:
• электронные средства массовой информации, такие как Gazeta.Ru, RBC.Ru, ленты новостей (Lenta.Ru, Top.RBC.Ru и т.д.), электронные версии традиционных "бумажных" периодических изданий (Kommersant.Ru, Vedomosti.Ru и т.д.);
• электронные библиотеки — книжно-журнальная продукция, хранящаяся в электронном виде в фондах обычных или полностью электронных библиотек — электронные каталоги и хранилища Российской государственной библиотеки (RSL.Ru), Государственной публичной научно-технической библиотеки России (GPNTB.Ru), других библиотек, фондов, таких как Научная электронная библиотека, созданная при содействии РФФИ (ELibrary.Ru), а также электронные библиотеки ряда высших учебных заведений, охватывающих большой объем публикаций в виде научных статей, книг, рефератов научно-технических журналов, патентной информации и учебной литературы;
• коллекции документов целевого назначения — тексты, вводимые в компьютер специально для информационного обеспечения определенных видов деятельности (например, информационно-поисковые правовые системы "Консультант Плюс", "Кодекс", "Гарант" и т.п.)
Одной из наиболее известных электронных библиотек общего доступа в сети Интернет является архив научных статей из области компьютерных и информационных технологий CiteSeer (http://citeseer.ist.psu.edu/), созданный в NEC Research Institute и содержащий библиографические ссылки, тексты и индекс цитирования публикаций, сделанных в этой области за последние 20 лет.
Тенденции быстрого роста числа и объема электронных хранилищ текстов обуславливают интерес к решению задач полнотекстового поиска в предметно-ориентированной литературе, которые имеют свою специфику и требуют разработки новых или модификации уже имеющихся информационно-поисковых методов, использующих анализ особенностей терминологического состава и структуры хранилищ электронных документов [31, 29, 26, 27].
В России проблемами исследования методов информационного поиска занимается достаточно большое число групп специалистов, среди которых И.Е. Кураленок, И.С. Некрестьянов, В.Ю. Добрынин (СПбГУ, Санкт-Петербург), М.С. Агеев (НИВЦ МГУ, Москва), Б.В. Добров (УИС РОССИЯ, Москва), П.И. Браславский (ИМаш УрО РАН, Екатеринбург), В.В. Плешко, А.Е. Ермаков ("Гарант-Парк-Интернет", Москва), М. Губин ("Кодекс", Санкт-Петербург), М.Р. Когаловский (ИПР РАН, Москва), А.В. Сокирко ("АОТ", Москва), И.В. Сегалович ("Яндекс", Москва), И.С. Ашманов, В.И. Шабанов ("Рамблер", Москва), А.В. Антонов, B.C. Мешков ("Галактика", Москва), А.Н.Федоровский ("Mail.Ru", Москва), О.Г. Чанышев (ИИТПМ СО РАН, Омск), В.Л. Чугреев (ЛЭТИ, Санкт-Петербург) и др.
Вопросам исследований в области информационного поиска посвящены всероссийская конференция "Электронные библиотеки: перспективные методы и технологии"(RCDL), являющаяся одной из секций АСМ SIGMOD, международная конференция по компьютерной лингвистике и интеллектуальным технологиям "Диалог", а также Российский семинар по Оценке Методов Информационного Поиска (РОМИП), начавший свою ежегодную работу в 2003 году и ставший российским аналогом международных конференций по исследованиям, анализу и оценке методов информационного поиска: Text Retrieval Conference (TREC, США), Cross Language Evaluation Forum (CLEF, EC), ACM Special Interest Group on Information Retrieval (SIGIR), NII-NACSIS Test Collection for IR Systems (NTCIR, Япония).
Несмотря на достаточно высокий современный уровень исследований, в теории информационного поиска остается ряд открытых проблем, одной из которых является проблема неоднозначного выбора терминов, используемых пользователями ИПС в поисковых запросах. Эта проблема состоит в том, что пользователи ИПС часто применяют для описания ключевых понятий термины, отличные от терминов, которые используют авторы для описания тех же понятий в текстах [24]. Эта проблема является особенно актуальной в случае поиска в технической и специализированной литературе. В общем случае данную проблему можно сформулировать следующим образом: новые или неопытные пользователи неверно или неточно выражают свою информационную потребность ключевыми словами и, как следствие, получают информацию, не соответствующую их информационным потребностям [74].
В большинстве случаев найденные в ходе поиска документы оказываются нерелевантными (т.е. не соответствующими по смыслу или требованиям) информационной потребности пользователя ИПС, что обусловлено:
• неумением большинства пользователей ИПС сформулировать запрос, используя средства языка запросов конкретной ИПС;
• отсутствием у ряда пользователей ИПС предметных знаний, позволяющих подобрать правильные ключевые термины;
• различием между поисковой релевантностью, являющейся оценкой степени соответствия найденных документов запросу, и релевантностью, которая является мерой соответствия этих документов информационной потребности пользователя ИПС.
Несмотря на то, что ключевые термины не всегда хорошо описывают смысловое содержание искомых документов, подавляющее большинство ИПС основываются исключительно на поиске по ключевым словам. Это объясняется тем, что пользователям ИПС проще выразить свою информационную потребность на привычном им естественном языке в виде нескольких, по их мнению - ключевых, терминов.
Однако, практика показывает, что в общем случае два различных человека (автор искомого документа и пользователь ИПС) используют один и тот же термин для описания одного и того же понятия менее чем в 20% случаев [74].
Эта проблема стоит еще более остро для коротких поисковых запросов: чем длиннее запрос, тем больше вероятность того, что наиболее важные термины из искомых документов попадут в поисковый запрос. Тем не менее, пользователи ИПС обычно не склонны выражать свою информационную потребность в виде длинных поисковых запросов или использовать специальные средства, позволяющие более точно формулировать запрос (например, языки поисковых запросов). Практика показывает, что поисковые запросы, включающие более 2-х терминов, встречаются реже чем в 25% от общего числа случаев, а запросы из 4-х и более терминов — менее чем в 2% случаев [13].
В большинстве случаев решение этой проблемы сводится к работе, связанной с итерационным переформулированием исходного запроса, которую пользователь ИПС берет на себя. Несмотря на высокий уровень исследований в теории информационного поиска, методики уточнения поисковых запросов "вручную" в настоящее время играют ключевую роль для эффективного применения ИПС. Тот факт, что в настоящее время проводятся соревнования среди специалистов по поиску в Web (например, "Кубок Яндекса"), лишний раз показывает актуальность подобных методик и сложность их практического использования.
Вышеперечисленное обуславливает актуальность разработки и внедрения специальных средств, связанных с решением задачи уточнения поисковых запросов, в связи с чем в теории информационного поиска возникло направление, связанное с исследованием, методов автоматизации процесса уточнения поисковых запросов. В рамках этого направления актуальной остается проблема разработки модели естественно-языковых текстов, которая бы позволила проводить их совместный анализ с целью выделения и оценки значимости общих ключевых терминов, что, в частности, позволило бы применять ее в алгоритмах уточнения поисковых запросов с обратной связью по релевантности с пользователями ИПС.
Цель работы — разработка независимого от применяемой ИПС метода уточнения поисковых запросов с использованием обратной связи по релевантности (т.е. по соответствию результатов поиска информационным потребностям пользователей ИПС), основанного на анализе найденных в результате поиска по исходному запросу документов, которые пользователь ИПС выделил в качестве релевантных его информационным потребностям.
Для достижения цели диссертационной работы решаются следующие основные задачи:
1. Выделение смысловых контекстов текстовых документов, представляющих собой фрагменты текста, в которых наблюдаются устойчивые связи между определенными группами терминов.
2. Построение контекстно-ассоциативной модели для структурированной коллекции документов, позволяющей оценить значимость смысловых контекстов в рамках текстового документа, определить ключевые термины документа и дать количественную оценку их смысловой значимости в анализируемом текстовом документе.
3. Разработка метода уточнения запросов посредством использования ключевых терминов из документов, помеченных пользователем ИПС как релевантные исходному запросу.
4. Планирование и проведение экспериментальной оценки эффективности метода уточнения поисковых запросов путем анализа результатов поиска с использованием критериев оценки точности и полноты поиска, а также сравнительного критерия оценки качества поиска по исходному и уточненному запросам.
На защиту выносятся следующие результаты:
1. Модель смысловых контекстов текстового документа.
2. Контекстно-ассоциативная модель текстового документа.
3. Алгоритм определения ключевых терминов документа и количественной оценки их смысловой значимости в анализируемом текстовом документе.
4. Метод уточнения поисковых запросов посредством обратной связи по релевантности с применением контекстно-ассоциативной модели.
Научная новизна полученных результатов состоит в разработке контекстно-ассоциативной модели текстовых документов и исследовании эффективности ее применения для решения задачи уточнения поисковых запросов методом обратной связи по релевантности.
Методы исследования. При проведении исследований был использован математический аппарат алгебры множеств и методов прикладной лингвистики.
Практическая ценность работы позволяет использовать полученные модели, алгоритмы и метод для решения задач уточнения поисковых запросов при разработке прикладных информационно-поисковых систем, а также в задачах, связанных с анализом терминологического состава исследуемых текстов.
Пакет программ, реализующий разработанные в диссертационной работе методы и алгоритмы, автономен, не требует от пользователей предварительного изучения применяемых в нем методов и может использоваться в качестве модуля уточнения поисковых запросов в информационно-поисковых системах, реализующих полнотекстовые методы информационного поиска по ключевым словам.
Результаты работы внедрены в качестве математического и программного обеспечения:
• модуля информационного поиска в электронной библиотеке учебно-методических пособий кафедры N805 "Математическая кибернетика" МАИ;
• подсистемы информационного поиска "Медицинской информационно-консультационной системы (МИС)" (патент на изобретение N 2207623 от 16.02.2001).
Апробация работы. Основные положения и результаты диссертационной работы обсуждались и докладывались на:
• VIII Международном научно-техническом семинаре "Современные технологии в задачах управления, автоматики и обработки информации" (Алушта, 1999);
• Научной сессии "МИФИ-2000" (Москва, 2000);
• III Международной конференции "Авиация и космонавтика-2004" (Москва, 2004);
• XIV Международной конференции по Вычислительной Механике и Современным Прикладным Программным Системам (ВМСППС'2005, Алушта).
Экспериментальная проверка эффективности применения разработанного метода на различных тестовых коллекциях электронных документов была осуществлена в рамках участия в III Российском семинаре по Оценке Методов Информационного Поиска (РОМИП'2005, Ярославль).
Публикации. По теме диссертационной работы опубликовано 9 печатных работ.
Структура и объем работы. Диссертационная работа состоит из введения, 3 глав, заключения, списка использованных источников из 108 наименований и 2 приложений. Общий объем работы - 135.страниц. Основной текст работы изложен на 1-12 страницах, из которых 8 страниц занимают графики и таблицы.
Заключение диссертация на тему "Контекстно-ассоциативный метод уточнения поисковых запросов с обратной связью по релевантности"
3.5. Выводы по главе
1. Поведено планирование эксперимента для оценки эффективности применения разработанного алгоритма уточнения поисковых запросов с обратной связью по релевантности, в ходе которого были созданы:
• тестовые коллекции электронных документов;
• тестовые задания, моделирующие информационную потребность пользователей ИПС.
2. Осуществлена экспериментальная проверка эффективности применения алгоритма уточнения поисковых запросов с обратной связью по релевантности, основанного на предложенной контекстно-ассоциативной модели. Оценка эффективности, проведенная на коллекциях электронных документов различной тематической направленности выявила хорошую применимость предложенного алгоритма для уточнения поисковых запросов:
• при поиске в тематических коллекциях текстов небольшого объема (новостные статьи, страницы Web-сайтов);
• при поиске в коллекциях текстов из областей с устоявшейся терминологией (техническая документация, нормативно-правовые документы);
• в качестве математического обеспечения модуля уточнения запросов в ИПС, осуществляющих поиск в Web.
3. Осуществлена экспериментальная проверка применимости алгоритма уточнения поисковых запросов в задаче поиска по документу-образцу, принадлежащему коллекции электронных документов, в которой производится поиск. Оценка эффективности решения задачи поиска по документу-образцу показала применимость предложенного алгоритма к этому виду задач. При этом для его эффективного применения необходим контроль за положением документа-образца при поиске по исходному и уточненному запросу.
4. В ходе экспериментов проведен анализ влияния параметров предложенной контекстно-ассоциативной модели на эффективность работы алгоритма уточнения поисковых запросов и даны рекомендации по выбору:
• уровня контекстно-ассоциативной сети — не выше 2;
• числа терминов, используемых при построении уточненных запросов — 4-5 ключевых термина;
• объема релевантной выборки (рекомендуемого числа документов, которые пользователь ИПС должен указать в качестве релевантных) — 3-4 документа.
5. Получена экспериментальная оценка влияния ошибок пользователей ИПС на результаты работы алгоритма.
ЗАКЛЮЧЕНИЕ
Основным итогом диссертационной работы является метод уточнения поисковых запросов с применением обратной связи по релевантности с пользователями информационно-поисковых систем, использующий контекстно-ассоциативные модели документов, признанных релевантными среди результатов поиска по исходному запросу.
В работе получены следующие результаты:
1. Сформулирована математическая постановка задачи уточнения информационно-поисковых запросов с использованием обратной связи по релевантности, рассмотрены критерии оценки эффективности ее решения и сформулирован сравнительный критерий оценки качества поиска по исходному и уточненному запросу.
2. Разработана и апробирована математическая модель смысловых контекстов, учитывающая терминологический состав произвольных текстов на естественном языке и отражающая наличие смысловых связей между группами терминов в различных фрагментах анализируемых текстов. Исследованы свойства модели смысловых контекстов и доказана возможность ее построения для произвольного текстового документа.
3. Разработана и апробирована контекстно-ассоциативная модель, позволяющая количественно оценивать значимость ассоциативных связей между смысловыми контекстами и эффективно выделять ключевые термины анализируемых текстов.
4. Разработан и исследован метод уточнения поисковых запросов с обратной связью по релевантности, использующий свойства контекстно-ассоциативной модели и позволяющий строить уточненные поисковые запросы, улучшающие качество поиска.
5. Осуществлена программная реализация модели смысловых контекстов, контекстно-ассоциативной модели и метода уточнения поисковых запросов в виде модуля, который может применяться совместно с различными информационно-поисковыми системами, основанными на методах поиска по ключевым словам.
6. Проведена экспериментальная оценка эффективности применения предложенного метода, позволившая выявить его применимость к коллекциям электронных документов различного типа, оценить оптимальные параметры используемых в нем моделей и выявить устойчивость метода к ошибкам пользователей.
Библиография Беляев, Дмитрий Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Беляев Д.В. Экспериментальная проверка применения контекстно-Ф ассоциативных моделей в задаче уточнения поисковых запросов.//Информационные технологии и програм-мирование: Межвузовский сборник статей. Вып. 2 (14) - М.: МГИУ, 2005. - с. 19-30.
2. Беляев Д.В. Повышение эффективности поиска экономической и правовой информации.// Экономические науки: Современная экономика*(Приложение) N 4, 2005. - с. 5-18.
3. Беляев Д.В. Ассоциативная модель смысловых контекстов и ее применение в задаче уточнения поисковых запросов.'// Электронный журнал "Труды МАИ". — 2005, N18 — http://www.mai.ru/projects/maiworks/articles/numl8/article9/auther.htm— 17 С.
4. Беляев Д.В. Ассоциативная модель структурированной коллекции текстовых документов и ее применение для уточнения запросов. —^ В кн.: Тезисы докладов III Международной выставки-конференции"Авиация и Космонавтика-2004". — М.: Изд-во МАИ, 2004. — с. 134136.
5. Беляев Д.В. Применение информационно-поисковых систем в технологии дистанционного обучения. — В. сб. трудов VI Международного совещания-семинара (24-26 сентября 2002 г.), под ред. Климовско-го А.Б. — Ульяновск: УлГТУ, 2002. - с. 71-73.
6. Беляев Д.В., Семенов В.В. Семантический поиск в текстовых массивах. — В кн.: Научная сессия МИФИ-2000. Сборник научных трудов. В 13 томах. Т.2. М.: МИФИ, 2000. - с. 124-125.
7. Агеев М.С., Кураленок И.Б. Официальные метрики РОМИП. — В кн.: Труды третьего российского семинара РОМИП'2005 (Ярославль, 6 октября 2005 г.) - Санкт-Петербург: НИИ Химии СПбГУ, 2005. -224 с.
8. Альсведе Р., Вегенер И. Задачи поиска. М.: Мир, 1982.
9. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. М.: Мир, 1979.
10. Ашманов И.С. Национальные особенности поисковых систем// Компьютер в школе, N1, 2000.
11. Ашманов И.С. Автоматический поиск документов: осознанная необходимость/ / http://www.medialingua.ru/dos/mlingua/Refs/autosrch.htm
12. Враславский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов// Труды третьего российского семинара РОМИП'2005 (Ярославль, 6 октября 2005 г.)- Санкт-Петербург: НИИ Химии СПбГУ, 2005. - с. 40-53.
13. Гаскаров Д.В. Интеллектуальные информационные системы. М.: Изд-во "Высшая школа", 2003.
14. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. — М.: Наука. Главная редакция физико-математической литературы, 1985. — 144 с.
15. Гринберг И., Гарбер Ли. Разработка новых технологий информационного поиска. Открытые системы, NN9-10, 1999.
16. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры// Информационные технологии. — 2000. — N 11.щ 24. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение//
17. Мир ПК. N5, 2000. - http://www.osp.ru/pcworld/2001/05/064.htm щ (15.05.2001)
18. Зацман И.М. Электронные библиотеки научных документов в Интер-ф нет: структуризация, формальное описание и поиск невербальной информации// Научно-техническая информация (серия 2 "Информацией1 онные процессы и системы"). - 1998. No 11.
19. Когаловский М.Р. Перспективные технологии информационных систем. - М.: ДМК-Пресс, 2003, 288 с.
20. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска// Программирование.28(4), 2002. - С. 226-242.
21. Лукашевич Н.В., Салий А.Д. Представление знаний в системе автоматической обработки текстов// НТИ, Сер.2. 1997. N3. С. 1-6.
22. Некрестьянов И.С., Некрестьянова М.С., Нозик А. К вопросу об эффективности метода общего котла. — В кн. Труды Седьмой Всероссийской научной конференции (RCDL'2005). Ярославль, 4-6 октября 2005 г. — Ярославль: ЯрГУ им. П.Г. Демидова, 2005. - 288 с.
23. Некрестьянов И.С., Пантелеева Н. Системы текстового поиска в Web// Программирование.28(4), 2002. - С.207-225.
24. Попов И.И. Оценка и оптимизация информационных систем. — М.: МИФИ, 1981.
25. Попов И.И., Храмцов П.Б. Распределение частоты встречаемости терминов для линейной модели информационного потока. НТИ, Сер.2, N2, 1991, стр. 23-26.
26. Попов Э.В. Общение с ЭВМ на естественном языке. — М.: Наука, 1982. - 360 с.
27. Попов Э.В. Разработка технологии и методов общения конечных пользователей с реляционными БД на ограниченно естественном языке. — Научная сессия МИФИ-2000. Сборник научных трудов В 13 томах.■ Т.З. М.: МИФИ, 2000. - 228 с.
28. Решентников В.Н. Алгебраическая теория информационного поиска// Программирование. — 1979, N3. — С.68-74.
29. Сэлтон Дж. Динамические библиотечно-информационные системы. М.: Мир, 1979.
30. Уилкинсон Дж. X. Алгебраическая проблема собственных значений М., 1970 г. 564 с.
31. Финн В.К. К формальному определению понятия информационно-поисковой системы// Науч.-техн. информ. Сер. 2, Информ. процессы и системы. 1981. N5. С. 5-15.
32. Форсайт Дж., Малькольм М., Моулер К. Машинные методы математических вычислений./Пер. с англ.-М.:Мир, 1980. 279 с.
33. Хан У, Мани И. Системы автоматического реферирования// Открытые системы, 2000. — N12. Эл. версия: http://www.osp.ru/os/2000/12/067print.html
34. Храмцов П.Б. Информационно-поисковые системы в Internet, Открытые системы, N3, 1996, стр. 46-51.
35. Allan J. Relevance Feedback With Too Much Data. Research and Development in Information Retrieval, 337-343, 1995.
36. Arsau A., Cho J., Garcia-Molina H., Paepcke A. and Raghavan S. Searching the web. ACM Transactions on Internet Technology, 1(1), pp. 2-43, 2001.
37. Attar R., Fraenkel T.S. Local feedback in full-text retrieval systems. Journal of the Association for Computing Machinery, 24(3), July 1977, pp. 397-417.
38. Baeza-Yates R.A., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.
39. Bartschi M. An Overview of Information Retriveal Subjects, IEEE Computer, N5, 1985, pp. 67-84.
40. Belkin N.J., Vickery A. Interaction in Information Systems: A Review of Research from Document Retrieval to Knowledge-Based Systems. London: British Library; 1985.
41. Berry M.W., Dumais S.T., and Letsche T.A. Computational Methods for Intelligent Information Access. Proceedings of Supercomputing'95, San Diego, CA, December 1995.
42. Bookstein A., Swanson D.R. Probabilistic models for automatic indexing. Journal of the American Society for Information Science 25 (5), 1974, pp. 313-318.
43. Brooks T. The Semantic Distance Model of Relevance Assessment. In Proc. of the annual meeting of ASIS, pp. 33-44, 1998.
44. Buckley C., Singhal A., Mitra M., Salton G. New retrieval approaches using SMART: TREC 4. In Harman D., editor, Proceedings of the TREC-4 Conference, pages 25-48, 1996.
45. Buckley C., Salton G., Allan J., Singhal A. Automatic query expansion using SMART, TREC 3. Overview of the Third Text REtrieval Conference (TREC-3), NIST, November 1994, pp. 69-80.
46. Buckley C., Mitra M., Walz J., Cardie C. Using clustering and superconcepts within SMART. In Proceedings of the 6th text retrieval conference (TREC-6), E. Voorhees ed., 1998, pp. 107-124.
47. Caid W., Dumais S., Gallant S. Learned vector-space models for document retrieval. Information Processing and Management, 31(3):419-429, 1995.
48. Carpineto C., Romano G. Effective reformulation of Boolean queries with concept lattices, In Proceedings of the 3rd International Conference on Flexible Query-Answering Systems, Roskilde, Denmark, 1998, pp. 83-94.
49. Carpineto C., Romano G., Bigi B. An information-theoretic approach to automatic query expansion, ACM Transactions on Information Systems, 19(1), January 2001, pp. 1-27.
50. Cody Т.К., Oren E., and Daniel S.W. Scaling question answering to the web. In Proc. of the WWW10, pages 150-161, May 2001.
51. Croft W.B., Harper D.J. Using probabilistic models of document retrieval without relevance information. Journal of Documentation, 35:285-295, 1979.
52. Crouch C.J., Yang B. Experiments in automatic statistical thesaurus construction, In Proceedings of the ACM-SIGIR Conference on Researchand Development in Information Retrieval, Copenhagen, Denmark, 1992, pp. 77-88.
53. Cutting D., Karger D., Pedersen J., and Tukey J. Scatter/gather: A cluster-based approach to browsing large document collections. In Proc. ACM SIGIR, pages 318-329, 1992.
54. Draper S. Mizzaro's framework for relevance// http://staff.psy.gla.ac.uk/ steve/stefano.html
55. Dublin Core Metadata Element Set Reference Description, Version 1.1, 02.07.1999// http://dublincore.org/documents/.
56. Dumais S., Furnas G., and Landauer T. Using latent semantic analysis to improve access to textual information. In Proceedings of Computer Human Interaction '88, pp. 281-285, 1988.
57. Dumais S., Deerwester S., Furnas G., Landauer Т., and Harshman R. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6):391-407, 1990.
58. Efthimiadis E. Query expansion, In: Williams, Martha E., ed, Annual Review of Information Systems and Technology, Vol.31, 1996, pp. 121— 187.
59. Efthimiadis E., Biron P. UCLA-Okapi at TREC-2: Query Expansion Experiments, In D. K. Harman, editor, Proceedings of the Second Text Retrieval Conference (TREC-2), NIST Special Publication, 1994.
60. Evans D., Lefferts R. Design and Evaluation of the CLARIT-TREC-2 system, In D. K. Harman, editor, Proceedings of the Second Text Retrieval Conference (TREC-2), NIST Special Publication, 1994.
61. Furnas G.W., Landauer Т.К., Gomez L.M., Dumais S.T. The vocabulary-problem in human-system communication. Communications of the ACM, 30(11):964-971, November 1987.
62. Gabrielli S., Mizzaro S. Negotiating a multidimensional framework for relevance space. In Proc. of the MIRA'99, pp. 1-15, 1999.
63. Grootjen F.A., Th.P. van der Weide. Conceptual Query Expansion. Technical Report NIII-R0406, Nijmegen Institute for Information and Computing Sciences, University of Nijmegen, Nijmegen, The Netherlands, EU, 2004.
64. Harman D.K. Relevance Feedback Revisited, In Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Copenhagen, Denmark, June 2124, 1992, pp. 2-10.
65. Harter S.P. An algorithm for probabilistic indexing. Journal of the American Society for Information Science 26 (4), 1975, pp. 280-289.
66. Harter S.P. Online Information Retrieval: Concepts, Principles, and Techniques. Orlando: Academic Press, 1986.
67. Hawking D., Craswell N., Thistlewaite P.B., and Harman D. Results and challenges in web search evaluation. In Proc. of the WWW8, pp. 243-252, 1999.
68. Hofmann T. Probabilistic latent semantic indexing. In Proc. of the SIGIR'99, Berkley, USA, 1999, pp. 50-57.
69. Jing Y., Croft W.B. An association thesaurus for information retrieval. In Proceedings of RIAO-94, 146-160, 1994.
70. Jones K.S. Information Retrieval Experiment. Butterworth, London, 1981.
71. Lee J.H. Analyzing the effectiveness of extended boolean models in information retrieval. Technical Report TR95-1501, Cornell University, 1995.
72. Lesk M.E. Word-Word Associations in Document Retrieval Systems, American Documentation. 1969, 20(1), pp. 27-38.
73. Lu A., Ayoub M., Dong J. Ad hoc experiments using EUREKA. TREC-5, 1997, pp. 229-240.
74. Luhn H.P. A statistical approach to mechanised encoding and searching of literary information. IBM Journal of Research and Development 1(4), 1957, pp.309-317.
75. Maron M.E. and Kuhns J.L. On relevance, probabilistic indexing and information retrieval. Journal of the Association for Computing Machinery 7, 1960, pp. 216-244.
76. Meadow C.T., Cochrane P.A. Basics of Online Searching. New York, N.Y.: John Wiley & Sons, 1981.
77. Minker J., Wilson G., Zimmerman B. An evaluation of query expansion by the addition of clustered terms for a document retrieval system. Information Storage and Retrieval, 8:329-348, 1972.
78. Mitra M., Singhal A., Buckley C. Improving Automatic Query Expansion. In Proc. of the 21st Annual Int. ACM SIGIR Conf. on Research and Development in Information Retrieval, Melbourne, August 24-28, 1998, pp. 206-214.
79. Paice C.P. Soft evaluation of boolean search queries in information retrieval systems. Information Technology: Research and Development 3 (1), 1984, 33-42.
80. Qiu Y., Frei H.P. Concept based query expansion. In Proceedings of ACM SIGIR International Conference on Research and Development in Information Retrieval, 160-169, 1993.
81. Robertson S.E. The probability ranking principle in IR. Journal of Documentation 33 (4), 1977, pp. 294-304.
82. Robertson S.E., van Rijsbergen C.J., Porter M. F. Probabilistic models of indexing and searching. In R. N. Oddy et al. (Eds.), Information Retrieval Research, 1981, pp. 35-56. Butterworths.
83. Robertson S.E., Walker S., Sparck-Jones M. Okapi at TREC-3, In D. K. Harman, editor, Proceedings of the Second Text Retrieval Conference (TREC-3), NIST Special Publication, 1995.
84. Rocchio J.J. Relevance feedback in information retrieval. In G. Salton (Ed.), The SMART Retrieval System: Experiments in Automatic Document Processing, Prentice Hall, 1971, pp. 313-323.
85. Sakai Т., Robertson S.E., Walker S. Flexible Pseudo-Relevance Feedback via Direct Mapping and Categorization of Search Requests, BCS-IRSG ECIR 2001 Proceedings, pp. 3-14.
86. Salton G., Buckley C. Term weighting approaches in automatic text retrieval. Information Processing and Management, 24(5), 1988, pp. 513— 523.
87. Salton G. and McGill M.J. Introduction in modern Information Retrieval. McGraw-Hill Computer Science Series. New York, 1983.
88. Salton G., Buckley C. Improving retrieval performance by relevance feedback. Journal of the American Society for Information Science, 41(4), pp. 182-188, 1990.
89. Salton G., Fox E.A., and Wu H. Extended boolean information retrieval. Communications of the ACM 26(11), 1983, pp.1022-1036.
90. Silverstein C., Henzinger M., Marais H. Moricz M. Analysis of a very large altavista query log. Technical Report 1998-014, COMPAQ System Research Center, October 1998.
91. Sparck-Jones K., Jackson D.M. The use of automatically-obtained keyword classifications for information retrieval. Information Processing and Management, 5:175-201, 1970.
92. Van Rijsbergen C.J. Information Retrieval, second edition. Butterworths, 1979// http://www.dcs.gla.ac.uk/Keith/Preface.html
93. Xu J., Croft W.B. Improving the effectiveness of information retrieval with local context analysis. ACM Transactions on Information Systems, 18(1), 2000, pp. 79-112.
94. Xu J., Croft W.B. Query expansion using local and global document analysis. In Proceedings of.the 19th International Conference on Research and Development in Information Retrieval, 1996, pp. 4-11.
95. The Twelfth Text Retrieval Conference (TREC'2003). Appendix 1. http://trec.nist.gov/pubs/trecl2/appendices / measures.ps
-
Похожие работы
- Моделирование и разработка средств и технологий поиска документальной информации
- Методы и алгоритмы повышения эффективности функционирования информационно-справочной подсистемы АСУП
- Исследование и разработка методов и моделей поиска адекватной информации в полнотекстовых базах данных
- Математическое моделирование и программная реализация семантического преобразования поисковых запросов
- Информационный запрос и его представление для поиска в библиографических и реферативных базах данных
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность