автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет

кандидата технических наук
Тихомиров, Илья Александрович
город
Москва
год
2006
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет»

Автореферат диссертации по теме "Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет"

На правах рукописи

Тихомиров Илья Александрович

ИССЛЕДОВАНИЕ МЕТОДОВ И РАЗРАБОТКА СРЕДСТВ ПОВЫШЕНИЯ ТОЧНОСТИ И ПОЛНОТЫ ПОИСКА

В СЕТИ ИНТЕРНЕТ

Специальность 05.13.01 Системный анализ, управление и обработка информации

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва - 2006

Работа выполнена в Институте системного анализа Российской академии наук

Научный руководитель:

доктор физико-математических наук, профессор

Осипов Геннадий Семенович

Официальные оппоненты: доктор технических наук, доцент

Хорошевский Владимир Федорович кандидат технических наук, доцент Чеповский Андрей Михайлович

Ведущая организация:

Институт проблем передачи информации РАН

Защита состоится "20" ноября 2006 г., в II часов на заседании диссертационного совета Д.002.086.02 при Институте системного анализа Российской академии наук по адресу: 117312, Москва, проспект 60-летия Октября, 9.

С диссертацией можно ознакомиться в библиотеке Института системного анализа Российской академии наук.

Автореферат разослан и17" октября 2006 г.

Ученый секретарь

диссертационного совета Д.002.086.02 доктор технических наук

А.И. Пропой

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования

В связи с резким ростом объемов информации, циркулирующей в современных телекоммуникационных системах, появился ряд новых задач поиска и анализа полуструктурированной информации. Среди них следует отметить задачи повышения эффективности алгоритмов поиска информации, повышение их степени универсальности (независимости от предметных областей), полноты и точности. Существующие методы поиска способны предоставить большие списки более или менее релевантных документов в ответ на запросы пользователей, однако в действительности интерес для пользователя представляют лишь очень немногие документы из этих списков. Хорошо известно, что среди найденных поисковыми системами документов достаточно большое число последних имеют слабое отношение к запросу пользователя, а ряд документов представляет собой шум. Совершенствование методов, применяемых современными поисковыми машинами, ограничено использованием в качестве запроса набором ключевых слов. Таким образом, весьма актуальным является разработка новых методов поиска, обладающих высокой степенью точности и использующих в качестве запроса связный текст на естественном языке.

Цели н задачи исследования

Целью диссертационной работы является разработка основных архитектурных и научно-технических решений построения поисковых систем нового поколения.

Для достижения поставленной цели в работе решены следующие задачи:

1. Выполнен анализ существующих поисковых систем и применяемых в них методов поиска.

2. Предложена модель текста для задачи поиска полуструктурированной информации.

3. Исследованы семантические структуры естественно-языковых высказываний с точки зрения коммуникативной грамматики.

4. Применен ДСМ-метод машинного обучения для решения задачи распознавания интерфейсов поисковых ресурсов.

5. Разработан ряд архитектурных решений системы семантического метапоиска.

6. Разработана методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

Методы исследования

В диссертационной работе использованы методы математической логики, системного анализа, теория множеств, теория представления знаний, теория коммуникативной грамматики русского языка, теория неоднородных семантических сетей.

Результаты» выносимые на защиту

1- Применение теории коммуникативной грамматики русского языка для задач информационного поиска

2. Модель текста, ориентированная на решение задач информационного поиска, на основе семантической сети.

3. Применение ДСМ-метода машинного обучения для решения задачи распознавания интерфейсов поисковых ресурсов.

4. Методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

5. Программная реализация предложенных методов и алгоритмов.

Научная новизна работы

Дня выражения поисковых потребностей пользователя следует предоставить ему адекватные средства. К таковым относится, в частности, использование естественного языка для написания запросов. Отсюда следует необходимость анализа (в том числе семантического) текста запроса и текстов искомых документов. Это означает, что для повышения точности поиска требуется привлечение новых методов компьютерной лингвистики и искусственного интеллекта.

В существующих системах имеются серьезные ограничения по полноте и релевантности поиска. Ограничения по полноте поиска связаны с тем, что недостаточно используются лингвистические знания (расширение запроса

синонимами и синонимическими именными труппами, кореферентными конструкциями, конверсивами и т.д.). Ограничения по точности (релевантности поиска) связаны с тем, что используемые средства написания запроса (набор словоформ) не позволяют отразить действительные поисковые потребности пользователя и смысл его запроса. Существуют веские соображения в пользу того, что решение подобных задач можно получить на пути применения методов искусственного интеллекта, в частности, использования методов семантического анализа информации. Однако при решении указанных задач приходится иметь дело с полуструктурированной информацией, например, с текстами на естественном языке, Ьгш1-документами и т. д. Это, в свою очередь приводит к отсутствию замкнутых постановок и корректных алгоритмов решения.

Разрешение этих проблем возможно на пути взаимодействия механизмов увеличения полноты и релевантности поиска с методами метало иска, машинного обучения и лингвистической семантики. Применение указанных методов и их взаимодействие целесообразно не только для выполнения семантической фильтрации информации, но и для обнаружения и автоматического анализа интерфейсов поисковых ресурсов.

Настоящая работа посвящена применению методов метало иска, искусственного интеллекта и лингвистической семантики к задачам увеличения полноты и релевантности поиска, что свидетельствует о ее научной новизне.

Практическая ценность работы.

Разработанный прототип системы семантического метапоиска может быть использован как в качестве корпоративной поисковой системы, так и в качестве системы глобального поиска с функциями семантической обработки текстов и анализа естественно-языковых запросов.

Реализация результатов работы

Методы и алгоритмы реализованы в виде независимых программных модулей и используются в следующих проектах:

I. «Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в научной печати и в Интернете» шифр ИТ-13.5/001, выполняемого в рамках федеральной целевой научно-технической программы

«Исследования и разработки по приоритетным направлениям

развития науки и техники» на 2002-2006 годы.

2. Государственный контракт № 10002-251/ОИТВС-01/097-111/210503-178 от 6 мая 2003 г.

3. Программа фундаментальных исследований отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН) "Фундаментальные основы информационных технологий и систем", проект № 2.9.

4. Проект Российского Фонда Фундаментальных Исследований № 04-0790097.

Апробация работы

Основные положения работы докладывались и обсуждались на следующих научных конференциях:

1. IV российско-украинский научный семинар "Интеллектуальный анализ информации" (Киев 2004).

2. Международная конференция "Программные системы: теория и приложения" (Переславль-Залесский 2004).

3. Всероссийская научно-техническая конференция "Моделирование и обработка информации в технических системах" (Рыбинск 2004).

4. Шестая международная конференция по программированию на основе знаний ДСКВ5Е*2004 (Протвино 2004).

5. 9-я национальная конференция по искусственному интеллекту с международным участием (Тверь 2004).

6. Компьютерная лингвистика и интеллектуальные технологии. Международная конференция Диалог'2005 (Звенигород 2005).

7. V международная конференция "Интеллектуальный анализ информации" (Киев 2005).

8. Российский семинар по Оценке Методов Информационного Поиска (Ярославль 2005).

9. VI международная конференция "Интеллектуальный анализ информации" (Киев 2006).

Публикации

Основные результаты, полученные по теме диссертационной работы, опубликованы в 11 печатных работах (в том числе 1 публикация в ведущем рецензируемом научном издании, рекомендованном ВАК, 10 публикаций в трудах научных конференций).

Личный вклад соискателя

Результаты, выносимые на защиту, получены автором самостоятельно. Личный вклад соискателя в совместно опубликованных работах составляет 2 пл.

Структура и объем работы

Диссертация состоит из введения, четырех глав, основных выводов и результатов, списка литературы и приложений. Работа изложена на 170 стр. машинописного текста, содержит 4 таблицы, 16 рисунков, 4 приложения, библиография включает 90 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертации, её научная новизна, раскрывается цель диссертационной работы и практическая значимость.

В первой главе дается определение задачи поиска, приводятся метрики оценки качества поиска, проводится исследование существующих поисковых систем и их ограничений, приводится классификация существующих поисковых систем, формулируются основные причины низкой точности и полноты поиска, делаются выводы и формулируются задачи исследования.

Поиск в классическом понимании представляет собой следующий процесс: пользователь формулирует запрос в виде фразы или набора ключевых слов и отправляет этот запрос поисковой машине. Поисковая машина осуществляет некоторые операции над множеством хранящихся в ее индексе документов и выдает список ссылок на эти документы пользователю. Этот список, как правило, упорядочен в соответствии с некоторой метрикой (релевантностью, датой и т.д.).

Общепринятыми критериями оценки качества поиска являются точность (precision) и полнота (recall). Полнота R определяется как отношение количества правильно найденных при поиске документов к общему числу существующих по данному запросу документов. Точность Р определяется как отношение количества правильно найденных документов к общему количеству найденных документов.

_ D а

Полнота: л =--(1)

а+с

где:

а— количество правильно найденных документов;

с — количество правильных документов, которые система не смогла обнаружить.

_ а

Точность: " --г (2)

а + Ь 4 '

где:

а - количество правильно найденных документов;

b - количество неверно найденных документов.

Кроме того, для оценки существует еще ряд критериев, например, F-мера, учитывающая одновременно полноту и точность, 11-и точечный график полноты/точности, показывающий зависимость точности от полноты при шаге полноты в 10% и т.д. Немаловажным фактором являются технические критерии качества поисковой системы. Среди них можно выделить: скорость поиска по запросу, объём проиндексированной базы документов, насколько правильно учтено ссылочное ранжирование документов и т.д. Однако, в виду того, что многие критерии такого рода субъективны, основными рассматриваемыми в работе критериями качества являются классические понятия точности и полноты.

В диссертационной работе представлен обзор поисковых систем, проведена их классификация. Выделено несколько классов поисковых систем: традиционные поисковые системы глобального поиска (www.google.com. www.km.ru1>: метапоисковые системы (www.nigma.ru. Quintura); поисковые

утилиты рабочего стола (персональный поиск Яндекса); системы-надстройки над существующими продуктами (RCO for Oracle); системы глобального поиска с функциями семантической обработки текстов (Stocona Search, Excalibur).

Автором проведен анализ существующих систем и методов поиска, который показал, что в них недостаточно применяются методы лингвистической семантики для увеличения точности поиска. Зачастую для целей повышения точности поиска используются неадекватные лингвистические и статистические методы. Развитие существующих методов векторного поиска на основе TF*IDF алгоритма является малоэффективным и не позволит существенно увеличить точность поиска в условиях постоянно растущих объемов данных. Недостаток традиционного поиска по ключевым словам заключается в том, что с помощью простого набора ключевых слов невозможно передать семантическую направленность запроса, выполнить его "фокусировку", иными словами, невозможно сформулировать поисковую потребность пользователя. Запрос - это не просто группа слов. Это предложение/словосочетание, в котором слова соединяются друг с другом не просто путем их "склейки", а по определенным законам, которые изучает синтаксис.

Для увеличения полноты поиска в существующих поисковых машинах применяются методы метапоиска, которые не позволяют пользователям самостоятельно настраиваться на новые информационные источники, либо являются малоэффективными и часто ошибаются при настройке, что приводит к ухудшению результатов поиска или даже невозможности производить поиск метапоисковой системой. Следовательно, для повышения точности поиска следует разрабатывать новые методы и алгоритмы семантического поиска с использованием методов лингвистической семантики. Для увеличения полноты следует разрабатывать новые методы распознавания интерфейсов поисковых машин, ориентированные на решение именно поисковых задач.

Задача исследования разбита на три части. Первая — разработка метода распознавания интерфейсов поисковых машин Интернет для задач метапоиска на основе супервизорного метода машинного обучения. Вторая - применение элементов теории коммуникативной грамматики русского языка для учета лингвистической семантики в задачах поиска. Третья — разработка системы семантического метапоиска и проверка эффективности разработанных методов и моделей по сравнению с аналогами.

Во второй главе рассматривается применение средств метапоиска для повышения полноты поиска, ставится задача полуавтоматического распознавания интерфейсов поисковых ресурсов, приводится теоретико-множественное описание ДСМ-метода, а также его применение к задаче распознавания интерфейсов поисковых ресурсов.

В сети Интернет находятся терабайты различной информации, и вся эта информация является полуструктурированной. Это означает, что человек может легко распознать и обработать в ручном режиме данные, полученные при визуальном отображении в окне браузера, а машина (компьютер) с применением простых методов, к сожалению, нет.

Задача распознавания интерфейсов поисковых ресурсов заключается в построении образов поисковых ресурсов (в качестве образов могут выступать шаблоны, правила и т. д.), которые позволили бы в дальнейшем в автоматическом режиме выделять полуструктурированной информацию (в виде фрагмента HTML-кода или нескольких фрагментов) среди других фрагментов такой же полуструктурированной информации.

Исследование показало, что существующие методы распознавания интерфейсов поисковых ресурсов сфокусированы на автоматической генерации врапперов (wrappers) с использованием тех или иных методов машинного обучения. Враппером называется автоматически сконструированная функция или процедура, которая позволяет извлекать целевые данные. Методы различаются способом генерации врапперов. Основным недостатком существующих методов распознавания интерфейсов поисковых ресурсов

является неориентированность используемого метода машинного

обучения на семантику НТМЬ-деревьев, которая скрыта в них в неявном виде.

Автором диссертационной работы предложено применять ДСМ-метод для задач распознавания интерфейсов Итнернет-ресурсов. Метод позволяет автоматически выявлять скрытую семантику \уеЪ-документов, при этом позволяет легко интерпретировать результаты обучения.

Приведем формулировку метода сходства, которая лежит в основе ДСМ-метода:

Если два или более случаев подлежащего исследованию явления имеют общим лишь одно обстоятельство, то это обстоятельство, в котором только и согласуются все эти случаи, есть причина (или следствие) данного явления.

Итак, пусть задано множество структур типа объект — свойство. Задача состоит в том, что для некоторого объекта требуется установить его неизвестное свойство. Для этого анализируются структуры объектов, и выполняется поиск объектов, имеющих структурное сходство и совпадающие фрагменты. Полагается, что именно общие фрагменты объектов, обладающих совпадающими свойствами, являются причиной этих свойств. Затем выполняется поиск такого рода фрагментов в новых объектах и если такие фрагменты обнаружены, объектам приписываются свойства, причинами которых являются обнаруженные фрагменты.

В работе рассматривается вариант ДСМ метода без учета контекстной зависимости, или, иначе говоря, не учитывающий несводимость свойств целого к сумме свойств его частей. Далее рассмотрим применения ДСМ-метода к задаче распознавания интерфейсов поисковых ресурсов.

Основная идея применения ДСМ-метода к задаче распознавания интерфейсов поисковых ресурсов, состоит в следующем: НТМЬ-документ представляется как набор объектов, обладающих определенными свойствами и позиционированных сложным образом друг относительно друга. Предполагается, что именно в позиционировании объектов и некоторых их свойствах скрывается причина того, что они относятся к классу целевых данных. Целевыми данными применительно к задаче распознавания

интерфейсов поисковых ресурсов являются; ссылки на найденные документы, аннотации к найденным документам, ссылки на следующие страницы поиска.

Под множеством О-объектов будем понимать множество объектов в HTML-дереве. Эксперт указывает, какие объекты являются положительными примерами для обучения (эксперту достоверно известно к какому классу целевых данных они принадлежат). Значениями множества /^-свойств являются имена классов целевых данных {«ссылки на документы», «аннотации к документам», «ссылки на следующие страницы поиска»}.

Введем отношения на атрибутах объектов:

Equals(attrname, value) - отношение определяет наличие у всех объектов атрибута с именем attrname, причем значения атрибута равно value (жесткое совпадение значения атрибута);

Has(attrname) - у всех объектов должен присутствовать атрибут с указанным именем attrname (наличие атрибута без учета его значения);

NotHas(attrname) — у всех объектов отсутствует атрибут с именем attrname (отсутствие атрибута);

SubStr(attrname, value) — у всех объектов значение атрибута содержит подстроку value.

Отношения диктуются предметной областью и фактически доопределяют операцию сходства между объектами — сходство по атрибутам.

Первая фаза ДСМ-метода - поиск причин того, почему объекты матрицы F-примеров относятся к классу целевых данных. Для этого требуется построить гипотезы Н(с, р), где с - максимальное пересечение свойств объектов обучающей выборки, реР. Гипотезы строятся в соответствии с алгоритмом, подробно описанном в диссертационной работе. На вход алгоритму подаются положительные примеры для обучения, принадлежащие одному классу, и параметр Е, задающий максимальное расстояние от искомого объекта в дереве до текущего объекта при обходе. На выходе алгоритма имеем дерево, которое является результатом обучения (фрагмент с).

Вторая фаза ДСМ-метода — доопределение исходных данных. Осуществляется поиск фрагмента с в объектах, для которых Гу = г(неизвестно, обладает объект свойством р или нет). Соответственно, если фрагмент с присутствует у объекта, то этот объект относится к классу целевых данных. Фрагменты с для каждого класса целевых данных могут быть сохранены и использованы в последствии для определения свойств новых объектов, изначально не вошедших в матрицу Г.

В третьей главе приводится краткое введение в теорию коммуникативной грамматики русского языка, обосновываются принципы семантического поиска и семантической обработки текстов, приводится модель текста в виде семантической сети.

Для поиска документов соответствующих запросу по смыслу нужно понимать, что поисковый запрос - это не просто группа слов. Это предложение/словосочетание, в котором слова соединяются друг с другом по определенным законам, которые изучает синтаксис. Теория коммуникативной грамматики опровергает традиционное противопоставление синтаксиса семантике, которое предполагает разделение знаний о законах формирования связной речи на два уровня: знания о форме (синтаксис) и знания о значении (семантика). Основополагающая идея коммуникативной грамматики заключается в том, что синтаксис должен изучать именно осмысленную речь, а синтаксические правила должны учитывать категориальные значения слов, чтобы иметь возможность определять обобщенный смысл любой синтаксической конструкции - от слова до словосочетания и простого предложения.

С точки зрения семантического поиска слова запроса нельзя рассматривать только как слова-лексемы (единицы словарного состава языка в совокупности его конкретных грамматических форм и выражающих их флексий). Слово-лексема еще не является синтаксической единицей, слово — единица лексики, а в разных его формах могут реализоваться или актуализироваться разные стороны его общего значения. Таким образом, решающую роль играет обобщенное значение, то есть категориально-семантический класс слова. Обобщенное значение определяет синтаксические возможности слова и способы его функционирования. Формируя и изучая связную речь, синтаксис

имеет дело с осмысленными единицами, несущими свой не индивидуально-лексический, а обобщенный, категориальный смысл в конструкциях разной степени сложности. Эти единицы характеризуются всегда взаимодействием морфологических, семантических и функциональных признаков. Они получили название синтаксем.

В процессе семантического поиска целью должна стать не лексема, а синтаксема, не только лексическое, но и производное от него синтаксическое значение компонента запроса. Основной идеей семантического поиска является семантическая обработка текстов запросов пользователей и возвращаемых документов. Семантическая обработка включает в себя построение семантического поискового образа запроса, построение семантического образа документов и сравнение получившихся образов друг с другом. В результате вычисляются дополнительные виды релевантности, позволяющие отбросить документы явно не соответствующие поисковому запросу по смыслу.

Семантическая обработка текста выполняется в три этапа: морфологический, синтаксический и семантический анализ.

На этапе морфологического анализа в тексте распознаются слова и разделители. Для каждого слова на основании его морфологии определяется список всех возможных грамматических форм. Словоформы, соответствующие одной нормальной форме слова и одной части речи, а также стоящие в одном числе (для изменяющихся по числам частей речи), объединяются в группы, которые далее будем условно называть «лексемами».

Основной задачей синтаксического анализа является установление различных зависимостей между лексемами, в частности, выделение синтаксем. Вход синтаксического анализа представляет собой предложение на выходе морфологического анализа. Выход — предложение в виде списка деревьев синтаксического подчинения (на основании эвристических правил выбирается наиболее вероятный вариант синтаксического разбора).

Основная задача семантического анализа заключается в выявлении значений синтаксем и семантических связей между ними. Под семантической связью в общем случае будем понимать отношение понятий в понятийной системе предметной области. Представителями семантических связей в лексике являются предикатные слова. Главное место здесь занимают глаголы, имеющие, как правило, центральное положение в семантической структуре

предложения и оказывающие решающее влияние на именные словосочетания и предложения,

В результате морфологического, синтаксического и семантического анализа строится модель предложения в виде семантической сети.

Рисунок 1. Модель предложения в ввде семантической ст.

Формально, под моделью М текста Т понимаем: М= {вО, С1,...Оп), где

- модель предложения 51, принадлежащего множеству Б всех предложений текста Т,

п — количество предложений текста Т.

Моделью предложения в! является:

01 = N0, Ув, ЫвЕ, УвЕ, Я, ЯЕЬ, Е1, Е2, ЕЗ), где

W — множество всех слов 31,

N0 — множество всех именных групп 51,

Ув - множество всех глагольных групп Бц

КОЕ - множество всех именных групп, синонимичных N0,

\ЧЗЕ - множество всех глагольных групп, синонимичных Ув,

Я — множество всех значений синтаксем из 51

КЕЬ - множество всех семантических связей из Б!,

Е1 — множество дуг между N0, определяющий порядок следования именных или предложных групп в 51,

Е2 — множество дуг между словами \У предложения Б1, определяющий порядок их подчинения в N0 или УО

ЕЗ - множество дуг, связывающих именные группы N0 и МОЕ или глагольные группы УО и УОЕ

Приведем пример модели текста из единственного предложения 81 = «Президент Российской Федерации ненадолго приехал в США»:

Р1К

Рисунок 2. Пример модели текста.

в = {\У, N0, Ув, ЫвЕ, УвЕ, Я, ЯЕЬ, Е1, Е2, ЕЗ}

\У = {«Президент», «Российской», «Федерации», «ненадолго», «приехал», «в», «США»}

N0 = {«Президент Федерации Российской») Ув = {«приехал», «ненадолго приехал»} КОЕ = {«Путин»} УвЕ — {«прибыл»}

К = {(«субъект», «Президент Федерации Российской»), («директив», «в США»)}

ИЕЬ = {(«ОПЪ>, «субъект», «директив»)}

Е1 = {(«Президент Федерации Российской», «приехал ненадолго»), («приехал ненадолго», «в США»)}

Е2 = {(«президент», «Федерации»), («Федерации», «Российской»), («приехал», «ненадолго»), («в», «США»)}

ЕЗ = {(«Президент Федерации Российской», «Путин»), («приехал», «прибыл»)}

В четвертой главе описаны основные научно-технические решения системы семантического метапоиска, приводится описание режимов работы и модулей системы, приводится методика оценки эффективности поисковой системы. Описана архитектура экспериментальной установки для оценки точности поиска, приводятся результаты оценки точности поиска разработанной

системы, точности и полноты алгоритма настройки на поисковые ресурсы Интернет, приведена оценка надежности разработанной системы. Система состоит из нескольких компонент, связанных друг с другом. Под

компонентом понимается набор логически связанных модулей, имеющих

общее назначение и представляющих собой законченную подсистему.

Основное связующее звено компонентов системы — база данных, в которой

централизованно хранится основная информация. Кроме реляционной базы

данных используются файловые хранилища, которые применяются в случае,

когда некоторые данные нерационально хранить в общей базе данных системы.

Компонентная модель системы представлена на рис. 3:

Расуаок 3. Компоневтааа модель системы семантического метяновскя.

Основными научно-техническими решениями системы являются:

1. Модуль \УЕВ-интерфейса пользователя (позволяет пользователю вводить запросы на естественном языке и просматривать результаты поиска).

2. Модуль подключения поисковых ресурсов (служит для распознавания интерфейсов поисковых машин с целью использования их поисковых механизмов и индексов в качестве источника данных для метапоиска).

3. Модуль метапоиска (необходим для повышения полноты поиска за счет отправки поисковых запросов пользователя сразу на несколько поисковых машин Интернет).

4. Модуль загрузки документов (осуществляет загрузку документов, определяет их формат и кодировку, преобразует к plane text в рабочей кодировке системы и помещает в собственное хранилище документов).

5. Модуль лингвистического анализа (состоит из морфологического, синтаксического и семантического анализаторов. Модуль включает специфические функции обработки текстов и применяется для построения семантического образа запроса и найденных документов и вычисления релевантности).

6. Модуль семантической фильтрации (осуществляет фильтрацию найденных документов с учетом их релевантности).

7. Модуль управления словарем синонимов (используется для расширения запроса пользователя синонимами).

8. Модуль управления словарем предикатных слов (используется в процессе семантического анализа).

Для оценки эффективности разработанной системы, автором была разработана методика, ориентированная, прежде всего, на оценку семантической точности работы поисковых машин. Именно семантическая точность поиска представляется наиболее существенным показателем качества работы системы, т.к. при осуществлении поиска пользователь чаще всего ищет документы, близкие именно по смыслу запроса, а не по ключевым словам.

Адекватная оценка точности поисковой машины возможна лишь в случае использования одних и тех же исходных данных, а именно индекса документов с которым работает поисковая машина. Сравнение результатов работы алгоритмов является корректным, так как они применяются к тем же самым данным на том же самом оборудовании.

Для проведения экспериментов использовалась существующая промышленная поисковая система www.km.ru с ее индексом. Сравнение

проводилось на одном и том же индексе в одно и то же время, одними и теми же экспертами, что позволило соблюсти чистоту эксперимента.

Экспериментальная установка состояла из:

Банков данных индекса (общий объем проиндексированных данных составляет I Терабайт, индекс располагается на 10 серверах).

Модулей системы семантического метапоиска.

Агрегатора системы семантического метапоиска.

Модулей поисковой машины КМ.

Агрегатора поисковой машины КМ.

Рабочих станций тестеров.

Роль поисковых ресурсов (источников данных для метапоиска) играли банки данных индекса поисковой машины КМ. Тестирование проводилось с использованием трех тестеров, которым было предложено заранее определенное множество тестовых запросов (приведено в приложении 4 диссертационной работы). Поисковые системы тестировались параллельно, одни и те же запросы в одно и то же время направлялись поисковым машинам и тестеры оценивали результаты. Результаты заносились в специализированные формы MS Excel, которые потом использовались для дальнейших расчетов.

Рассмотрим главные результаты, полученные в ходе проведения эксперимента (приведены в таблице 1).

Таблица 1. Результаты оценки точности алгоритмов поиска._

Точность Точность на уровне первых 10 документов Среднее время запроса

Система семантического метапоиска 0,58 0,57 5 сек.

КМ 0,49 0,53 4,5 сек.

Проведенные эксперименты показывают выигрыш в точности разработанного автором алгоритма по сравнению с алгоритмом промышленной поисковой машиной КМ на 9%. Кроме того, замерялся вспомогательный критерий оценки качества поисковой машины, а именно среднее время отработки запроса. Система семантического метапоиска показала

незначительное отставание по времени от промышленного образца при существенном улучшении качества результатов поиска. Результаты тестирования и расчетные формы приведены в Приложении 3.

Для оценки качества работы метапоисковой системы использовались классические метрики оценки точности и полноты. Испытания проводились на трех самых популярных машинах российской части Интернет (www,vandex.ru. www.rambier.ru.www.google.ru). Результаты приведены в таблице 2.

Таблиц» 2. Результаты оценки качества модуля метапоиска.

Точность Полнота

распознавание ссылок на документы 98% 99%

распознавание ссылок на следующие страницы поиска 85% 99%

распознавание аннотаций 97% 96%

СРЕДНЕЕ 93% 98%

Аналоги в среднем дают 83% полноты при 94% точности при настройке на интерфейсы поисковых машин. Предложенный автором метод дает существенное увеличение полноты без значительной потери точности.

Для оценки надежности системы в целом в длительном промежутке времени прототип системы семантического метапоиска был установлен на сервере www.exactus.ru. Испытания проводились естественным образом, путем входа на поисковую систему всех желающих пользователей сети Интернет. Модуль метапоиска был настроен на поисковые машины: www.vandex.ru: www.rambler.ru и www.google.ru. Испытания проводились с 15 февраля 2006 года по 15 сентября 2006 года. За время испытаний системой воспользовались 2217 уникальных пользователей, было задано 6735 уникальных запросов. Среднее время обработки поискового запроса составило 8 секунд.

В заключении приведены основные выводы и результаты, полученные в диссертационной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

I. Для задачи распознавания интерфейсов поисковых ресурсов применен

ДСМ-метод машинного обучения.

2. Для задачи поиска полуструктурированной информации предложена модель текста, ориентированная на семантический поиск. Исследованы семантические структуры естественно-языковых высказываний с точки зрения коммуникативной грамматики русского языка.

3. Разработан ряд архитектурных решений системы семантического метапоиска и методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

4. Предложенные автором методы и модели использовались в разработке и реализации системы семантического метапоиска, в которой автор принимал участие в качестве ответственного исполнителя. Испытания системы подтвердили, что она обладает качественно новыми характеристиками, превосходящими характеристики аналогов.

Точность и полнота поиска достигается за счет применения методов лингвистической семантики, в частности применения теории коммуникативной грамматики русского языка. Установлено, что несмотря на ограниченную скорость лингвистических процессоров, возможно создание прототипа поисковой системы, укладывающейся в разумные рамки по скорости поиска.

Точность и полнота распознавания в HTML-документах данных для метапоиска достигается за счет применения ДСМ-метода машинного обучения к задаче распознавания интерфейсов поисковых ресурсов. Метод по сравнению с аналогами дает существенное увеличение полноты при незначительном уменьшении точности.

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Осипов Г.С., Куршев Е.П., Кормалев Д.А., Трофимов И.В., Рябков О.В., Тихомиров И.А. Семантический поиск в среде Интернет. // Препринт. Переславль-Залесский: ИПС РАН, 2003.

2. Тихомиров И.А. Представление текста в задачах семантического поиска.

// Сборник трудов 4-го российско-украинского научного семинара "Интеллектуальный анализ информации", Киев: Просвита 2004. — С. 200-209.

3. Осипов Г.С., Тихомиров И.А., Смирнов И.В. Интеллектуальный поиск в глобальных и локальных вычислительных сетях и базах данных. // Труды

международной конференции "Программные системы: теория и

приложения", Переславль-Залесский: ИПС РАН 2004. т2. - С.7-21.

4. Тихомиров И.Л. Распознавание интерфейсов интернет-ресурсов на основе использования неоднородньк семантических сетей. // Труды 9-й национальной конференции по искусственному интеллекту с международным участием КИИ-2004, т. I Москва: Физматлит, 2004. - С. 179-183.

5. Осипов Г.С., Тихомиров И.А., Смирнов И.В., Кузнецов И.А., Завьялова О.С., (Слимовский А. А. Сириус - система интеллектуального поиска в локальных и глобальных сетях и базах данных. // Труды 9-й национальной конференции по искусственному интеллекту с международным участием КИИ-2004, т.З, М: Физматлит, 2004. - С. 902-907.

6. Осипов Г.С., Кормалев Д.А., Куршев Е.П., Сулейманова Е. А., Тихомиров И.А., Трофимов И.В. Методы и программные средства семантического поиска и анализа информации. // Труды Института Системного Анализа РАН, Москва, 2004. Т.9-С. 221-230.

7. Осипов Г.С., Завьялова О.С., Смирнов И.В., Тихомиров И.А. Интеллектуальный семантический поиск с привлечением средств метапоиска. // Труды международной конференции ИАИ'2005, Киев: Просвита, 2005. — С. 214-224.

8. Осипов Г.С., Завьялова О.С., Климовский А.А., Кузнецов И.А., Смирнов И.В., Тихомиров И.А. Проблемы обеспечения точности и полноты поиска: Пути решения в интеллектуальной метапоисковой системе "Сириус". // Труды международной конференции Диалог'2005, Москва: Наука, 2005. - С. 390-395.

9. Осипов Г.С., Выборнова О. Е., Завьялова О.С., Смирнов И.В., Тихомиров И.А. Методика оценки эффективности систем информационного поиска. // Сборник трудов VI международной конференции Интеллектуальный Анализ Информации ИАИ'2006, Киев: Просвита, 2006. - С. 214-227,

10. Осипов Г.С., Тихомиров И.А., Смирнов И.В. Exactus — система интеллектуального метапоиска в сети Интернет. // Труды десятой национальной конференции по искусственному унтеллекту с международным участием КИИ-2006. М: Физматлит, 2006. т. 3. - С. 859-866.

11. Osipov G. S., Smirnov I. V., Tikhomirov I. A., Vybornova O.V, Zavjalova O. S. Linguistic Knowledge for Search Relevance Improvement. // Proceedings of Joint conference on knowledge-based software engineering JCKBSE'06, IOS Press, 2006. -P. 294-302.

Подписано в печать 16.10.2006 Формат 60x90/16 Объем 1.00 п. л. Тираж 100 экз. Заказ №20061016-7

Отпечатано в коп и центре «Наука-сервис» Москва, проспект 60-летня Октября, 9.

Оглавление автор диссертации — кандидата технических наук Тихомиров, Илья Александрович

ВВЕДЕНИЕ.

Актуальность темы.

Новизна.

Цель работы.

Методы исследования.

Научная новизна.

Практическая значимость работы.

Апробация работы.

Структура и объём диссертации.

1. СУЩЕСТВУЮЩИЕ ПОИСКОВЫЕ СИСТЕМЫ И ИХ ОГРАНИЧЕНИЯ

1.1. Задача поиска и методы оценки качества поиска.

1.2. Существующие поисковые системы.

1.2.1. Традиционные системы глобального поиска.

1.2.2. Метапоисковые системы.

1.2.3. Поисковые утилиты рабочего стола.

1.2.4. Системы-надстройки над существующими продуктами.

1.2.5. Системы глобального поиска с функциями семантической обработки текстов.

1.3. Причины низкой точности и полноты поиска в современных поисковых системах.

1.4. Выводы.

1.5. Формулировка задач исследования.

2. ПРИМЕНЕНИЕ СРЕДСТВ МЕТАПОИСКА ДЛЯ ПОВЫШЕНИЯ ПОЛНОТЫ ПОИСКА.

2.1. Полуавтоматическое распознавание интерфейсов поисковых ресурсов.

2.2. Теоретико-множественное описание ДСМ-метода.

2.3. Применение ДСМ-метода для распознавания интерфейсов поисковых ресурсов.

2.4. Выводы.

3. ПРИМЕНЕНИЕ ЭЛЕМЕНТОВ ТЕОРИИ КОММУНИКАТИВНОЙ ГРАММАТИКИ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ПОИСКА.

3.1. Семантический поиск и элементы теории коммуникативной грамматики.

3.2. Принципы семантической обработки текстов

3.3. Модель текста в виде семантической сети.

3.4. Выводы.

4. РАЗРАБОТКА И РЕАЛИЗАЦИЯ ОСНОВНЫХ НАУЧНО-ТЕХНИЧЕСКИХ РЕШЕНИЙ СИСТЕМЫ СЕМАНТИЧЕСКОГО МЕТАПОИСКА.

4.1. Основные научно-технические решения.

4.1.1. Режим настройки на поисковые ресурсы.

4.1.2. Режим семантического метапоиска.

4.1.3. Описания модулей системы.

4.2. Методика оценки эффективности работы поисковой системы.

4.3. Описание экспериментальной установки для оценки точности поиска.

4.4. Результаты экспериментов оценки точности поиска.

4.5. Результаты оценки качества работы модуля метапоиска.

4.6. Оценка надежности разработанной системы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Тихомиров, Илья Александрович

Актуальность темы

В связи с резким ростом объемов информации, циркулирующей в современных телекоммуникационных системах, появился ряд новых задач поиска и анализа полу структурированной информации. Среди них следует отметить задачи повышения эффективности алгоритмов поиска информации, повышение их степени универсальности (независимости от предметных областей), полноты и точности. Существующие методы поиска способны предоставить большие списки более или менее релевантных документов в ответ на запросы пользователей, однако в действительности интерес для пользователя представляют лишь очень немногие документы из этих списков. Хорошо известно, что среди найденных поисковыми системами документов достаточно большое число последних имеют слабое отношение к запросу пользователя, а ряд документов представляет собой шум. Совершенствование методов, применяемых современными поисковыми машинами, ограничено использованием в качестве запроса набором ключевых слов. Таким образом, весьма актуальным является разработка новых методов поиска, обладающих высокой степенью точности и использующих в качестве запроса связный текст на естественном языке.

Новизна

Для выражения поисковых потребностей пользователя следует представить ему адекватные средства. К таковым относится, в частности, использование естественного языка для написания запросов. Отсюда следует необходимость анализа (в том числе семантического) текста запроса и текстов искомых документов. Это означает что для повышения точности поиска требуется привлечение новых методов компьютерной лингвистики и искусственного интеллекта.

В существующих системах имеются серьезные ограничения по полноте и релевантности поиска. Ограничения по полноте поиска связаны с тем, что недостаточно используются лингвистические знания (расширение запроса синонимами и синонимическими именными группами, кореферентными конструкциями, конверсивами и т.д.). Ограничения по точности (релевантности поиска) связаны с тем, что используемые средства написания запроса (набор словоформ) не позволяют отразить действительные поисковые потребности пользователя и смысл его запроса. Существуют веские соображения в пользу того, что решение подобных задач можно получить на пути применения методов искусственного интеллекта, в частности, использовании методов семантического анализа информации. Однако при решении указанных задач приходится иметь дело с полуструктурированной и, следовательно, неформализованной информацией, например, с текстами на естественном языке, html-документами и т. д. Это, в свою очередь приводит к отсутствию замкнутых постановок и корректных алгоритмов решения.

Путь разрешения этих проблем состоит во взаимодействии механизмов увеличения полноты и релевантности поиска с методами метапоиска, машинного обучения и лингвистической семантики. Применение указанных методов и их взаимодействие целесообразно не только для выполнения семантической фильтрации информации, но и для обнаружения и автоматического анализа интерфейсов поисковых ресурсов.

Настоящая работа посвящена применению методов метапоиска, искусственного интеллекта и лингвистической семантики к задачам увеличения полноты и релевантности поиска, что свидетельствует о ее научной новизне.

Методы и алгоритмы реализованы в виде независимых программных модулей и используются в следующих проектах:

1. «Разработка программных средств смыслового поиска и анализа материалов научных исследований в области наук о жизни, опубликованных на естественных языках в научной печати и в Интернете» шифр ИТ-13.5/001, выполняемого в рамках федеральной целевой научно-технической программы «Исследования и разработки по приоритетным направлениям развития науки и техники» на 2002-2006 годы.

2. Государственный контракт № 10002-251 /ОИТВС-01/097-111/210503-178 от 6 мая 2003 г.

3. Программа фундаментальных исследований отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН) "Фундаментальные основы информационных технологий и систем", проект № 2.9.

4. Проект Российского Фонда Фундаментальных Исследований № 04-0790097.

Цель работы

Целью диссертационной работы является разработка основных архитектурных и научно-технических решений построения поисковых систем нового поколения.

Для достижения поставленной цели в работе решены следующие задачи:

1. Выполнен анализ существующих поисковых систем и применяемых в них методов поиска.

2. Предложена модель текста для задачи поиска полуструктурированной информации.

3. Исследованы семантические структуры естественно-языковых высказываний с точки зрения коммуникативной грамматики.

4. Применен ДСМ-метод машинного обучения для решения задачи распознавания интерфейсов поисковых ресурсов.

5. Разработан ряд архитектурных решений системы семантического метапоиска.

6. Разработана методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

Методы исследования

В диссертационной работе использованы методы математической логики, системного анализа, теория множеств, теория представления знаний, теория коммуникативной грамматики русского языка, теория неоднородных семантических сетей [9, 36, 37].

Научная новизна

1. Впервые для задач поиска полуструктурированной информации применена теория коммуникативной грамматики русского языка [1,2] .

2. Впервые для задач поиска и семантической фильтрации информации применен формализм неоднородных семантических сетей [9].

3. Разработана модель текста, ориентированная на решение задач поиска.

4. Применен ДСМ-метод машинного обучения для решения задачи распознавания интерфейсов поисковых ресурсов.

5. Разработана методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

Практическая значимость работы

Разработанный прототип системы семантического метапоиска может быть использован как в качестве корпоративной поисковой системы, так и в качестве системы глобального поиска с функциями семантической обработки текстов и анализа естественно-языковых запросов.

Апробация работы

Основные положения работы докладывались и обсуждались на следующих научных конференциях:

1. IV российско-украинский научный семинар "Интеллектуальный анализ информации" (Киев 2004).

2. Международная конференция "Программные системы: теория и приложения" (Переславль-Залесский 2004).

3. Всероссийская научно-техническая конференция "Моделирование и обработка информации в технических системах" (Рыбинск 2004).

4. Шестая международная конференция по программированию на основе знаний JCKBSE'2004 (Протвино 2004).

5. 9-я национальная конференция по искусственному интеллекту с международным участием (Тверь 2004).

6. Компьютерная лингвистика и интеллектуальные технологии. Международная конференция Диалог'2005 (Звенигород 2005).

7. V международная конференция "Интеллектуальный анализ информации" (Киев 2005).

8. Российский семинар по Оценке Методов Информационного поиска (Ярославль 2005).

9. VI международная конференция "Интеллектуальный анализ информации" (Киев 2006).

10. 10-я национальная конференция по искусственному интеллекту с международным участием (Обнинск 2006).

Основные результаты, полученные по теме диссертационной работы, опубликованы в 11 печатных работах (в том числе 1 публикация в ведущем рецензируемом научном издании, рекомендованном ВАК, 10 публикаций в трудах научных конференций).

Структура и объём диссертации

Диссертация состоит из введения, четырех глав, основных выводов и результатов, списка литературы и приложений. Работа изложена на 170 стр. машинописного текста, содержит 4 таблицы, 16 рисунков, 4 приложения, библиография включает 90 наименований.

Заключение диссертация на тему "Исследование методов и разработка средств повышения точности и полноты поиска в сети Интернет"

3.4. Выводы

Построенная синтактико-семантическая модель воплощается при программной реализации в семантический образ текста. Образ текста - это отображение текста на формальную модель. Образ состоит из программных структур, реализующих элементы модели. Для семантического анализа текста используется семантический словарь.

Следует отметить, что сеть может иметь свободные вершины, например, свободная вершина может появиться, если в запросе есть вопросительное слово. При сравнении сетей запроса и найденных документов свободную вершину будет замещать не вопросительное слово, а та синтаксема, которой оно соответствует в найденных документах. Таким образом реализуются возможность вопросно-ответного поиска.

4. Разработка и реализация основных научно-технических решений системы семантического метапоиска

4.1. Основные научно-технические решения

Автор диссертационной работы принимал непосредственное участие в разработке основных научно-технических решений в качестве ответственного исполнителя. Для описания основных научно-технических решений использована объектно-ориентированная методология, в качестве основного языка моделирования системы язык UML [45, 89].

Система состоит из нескольких компонент, связанных друг с другом. Под компонентом понимается набор логически связанных модулей, имеющих общее назначение и представляющих собой законченную подсистему. Основное связующее звено компонентов системы - база данных [90], в которой централизованно хранится основная информация. Кроме реляционной базы данных используются файловые хранилища, которые применяются в случае, когда некоторые данные нерационально хранить в общей базе данных системы. Компонентная модель системы представлена на рис. 11:

Рисунок 11. Компонентная модель системы семантического метапоиска.

Основными научно-техническими решениями системы семантического метапоиска являются:

1. Модуль WEB-интерфейса пользователя (позволяет пользователю вводить запросы на естественном языке и просматривать результаты поиска).

2. Модуль подключения поисковых ресурсов (служит для настройки на интерфейсы поисковых машин Интернет с целью использования их поисковых механизмов и индексов в качестве источника данных для метапоиска).

3. Модуль метапоиска (необходим для повышения полноты поиска за счет отправки поисковых запросов пользователя сразу на несколько поисковых машин Интернет).

4. Модуль загрузки документов (осуществляет загрузку документов, определяет их формат и кодировку, преобразует к plane text в рабочей кодировке системы и помещает в собственное хранилище документов).

5. Модуль лингвистического анализа (состоит из морфологического, синтаксического и семантического анализаторов. Модуль включает специфические функции обработки текстов и применяется для построения семантического образа запроса и найденных документов, а также вычисления релевантности).

6. Модуль семантической фильтрации (осуществляет фильтрацию найденных документов с учетом их релевантности запросу пользователя).

7. Модуль управления словарем синонимов (содержит функции по доступу к словарю и используется при расширении запроса пользователя синонимами).

8. Модуль управления словарем предикатных слов (содержит функции по доступу к словарю предикатных слов и используется в процессе семантического анализа).

Система семантического метапоиска функционирует в двух режимах:

1. Режим настройки на поисковые ресурсы.

2. Режим семантического метапоиска.

4.1.1. Режим настройки на поисковые ресурсы

Администратор запускает модуль подключения поисковых ресурсов и в полуавтоматическом режиме осуществляет настройку на интерфейс поискового ресурса. Процесс настройки представляет собой последовательный процесс.

Определяются общие параметры поискового ресурса, в которые входят: URL поискового ресурса; название ресурса; параметры html-формы поискового запроса; знаки логических операций.

Определяются контексты: ссылок на найденные документы; ссылок на следующие страницы отклика; аннотаций к найденным документам. Для определения контекстов используется супервизорный метод машинного обучения, описанный в п. 3. настоящей диссертационной работы. Администратор в интерактивном режиме предъявляет множество положительных примеров для обучения. По ним вычисляются общие для всех предоставленных примеров фрагменты HTML-кода, которые и являются результатом обучения (структурой описания поисковых ресурсов).

По завершению обучения осуществляется сборка результатов обучения и администратор осуществляет проверку сформированной структуры, а именно производит поиск с использованием поискового ресурса, на который осуществлялась настройка. В случае успешной настройки, структура описания ресурса сохраняется в хранилище, для ресурса задается название-идентификатор, и краткое описание ресурса.

Схема данных для режима настройки на поисковые ресурсы представлена на рисунке 12.

Запрос пользователя

HTML-страницы поискового ресурса

Определение общих параметров

Общие параметры

Определение контекста ссылок на найденные документы

Контекст ссылок

Получение HTML-страниц поискового ресурса

Определение контекста ссылок на следующие страницы отклика

Контекст ссылок на следующие страницы отклика

Определение контекста аннотаций

Контекст аннотаций

Рисунок 12. Схема данных для режима настройки на поисковые ресурсы.

Сначала производится настройка на общие параметры поискового ресурса, далее запускается функция интерактивного обучения. Управление временно передается программам: предоставления положительных примеров ссылок на найденные документы; предоставления положительных примеров ссылок на следующие страницы отклика; предоставления положительных примеров аннотаций к документам. Далее процесс управления передается программе автоматического обучения. Результаты интерактивного обучения сохраняются в хранилище описаний поисковых ресурсов. У администратора есть возможность произвести проверку результатов обучения. В случае успешной настройки запускается функция сохранения настроечных параметров в специализированном файловом хранилище. Схема взаимодействия программ для режима настройки на поисковые ресурсы приведена на рисунке 13.

Рисунок 13. Схема взаимодействия программ для режима настройки на поисковые ресурсы.

В таблице 1 приведены функции, действия и программы, которые их выполняют, в процессе настройки на поисковые ресурсы.

Заключение

В ходе диссертационной работы был выполнен анализ существующих поисковых систем и применяемых в них методов поиска. Анализ показал, что в существующих поисковых системах недостаточно применяются методы лингвистической семантики и методы машинного обучения.

Для задачи распознавания интерфейсов поисковых ресурсов был применен ДСМ-метод машинного обучения.

Для задачи поиска полуструктурированной информации автором была предложена модель текста, ориентированная именно на семантический поиск. Для этих целей были исследованы семантические структуры естественно-языковых высказываний с точки зрения коммуникативной грамматики русского языка.

Чтобы оценить точность поиска, а также точность и полноту метапоисковой системы, автором разработан ряд архитектурных решений системы семантического метапоиска и разработана методика оценки качества работы поисковой системы на основе использования понятия семантической релевантности поиска.

В результате диссертационной работы удалось создать прототип системы семантического метапоиска и провести его исследование. Испытания подтвердили, что прототип обладает качественно новыми характеристиками по сравнению с аналогами.

Точность и полнота поиска достигается за счет применения методов лингвистической семантики, в частности применения теории коммуникативной грамматики русского языка. Испытания подтвердили, что не смотря на медленную скорость лингвистических процессоров возможно создание прототипа поисковой системы, укладывающейся в разумные рамки по скорости поиска.

Точность и полнота распознавания в HTML-документах данных для метапоиска достигается за счет применения ДСМ-метода машинного обучения к задаче распознавания интерфейсов поисковых ресурсов. Метод по сравнению с аналогами дает существенное увеличение полноты при незначительном уменьшении точности.

Библиография Тихомиров, Илья Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Золотова Г.А., Онипенко Н. К., Сидорова М. Ю. Коммуникативная грамматика русского языка. Институт русского языка РАН им. В. В. Виноградова, М. 2004 544 с.

2. Золотова Г.А. Синтаксический словарь: Репертуар элементарных единиц русского синтаксиса. М.: Наука, 1988 - 440 с.

3. Золотова Г.А. Коммуникативные аспекты русского синтаксиса. М.: Наука, 1982.

4. Лингвистический энциклопедический словарь. Под. ред. Ярцевой В.Н. 2-е изд., доп., М.: Большая Российская Энциклопедия, 2002.

5. Осипов Г.С., Кормалев Д.А., Куршев Е.П., Сулейманова Е. А., Тихомиров И.А., Трофимов И.В. Методы и программные средства семантического поиска и анализа информации.//Труды Института Системного Анализа РАН, т.9 с. 221-230, Москва, 2004.

6. Куршев Е.П., Осипов Г.С., Рябков О.В., Самбу Е.И., Соловьева Н.В., Трофимов И.В. Интеллектуальная метапоисковая система // Труды международного семинара Диалог'2002 «Компьютерная лингвистика и интеллектуальные технологии». М., Наука, 2002. С. 320-330.

7. Осипов Г. С., Куршев Е. П., Кормалев Д.А., Трофимов И.В., Рябков О.В., Тихомиров И.А. Препринт. Семантический поиск в среде Интернет. Переславль-Залесский: ИПС РАН 2003. 37 с.

8. Тихомиров И.А. Полуавтоматическое распознавание интерфейсов Интернет-ресурсов. // Материалы первой международной дистанционной научно-практической конференции "Инновации и инвестиции: региональный опыт". Рыбинск: РГАТА, 2003.

9. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. М.: Наука, Физматлит, 1997.

10. Ю.Осипов Г.С., Выборнова О. Е., Завьялова О.С., Смирнов И.В., Тихомиров И.А. Методика оценки эффективности систем информационного поиска//

11. Сборник трудов VI международной конференции Интеллектуальный Анализ Информации ИАИ'2006, г. Киев, стр. 214-227

12. П.Арутюнова Н.Д. Предложение и его смысл. М.: Наука, 1976.

13. Кормалев Д.А., Куршев Е.П., Осипов Г.С., Сулейманова Е.А., Трофимов И.В. Методы поиска и анализа информации. Автоматическое извлечение данных. Препринт. Переславль-Залесский: ИПС РАН, 2003.

14. Nahm U. Y., Mooney R. J. Mining soft-matching rules from textual data // IJCAI-2001 Pp. 979-986.

15. Кормалев Д. А., Куршев Е. П., Сулейманова Е. А., Трофимов И. В. Приложения технологии извлечения информации из текстов: теория и практика // Вестник РУДН. М., 2003. - Т. 2 №1. - С. 118-125.

16. Агеев М.С., Вершинников И.С., Добров Б.В. Извлечение значимой информации из web-страниц для задач информационного поиска // "Интернет-Математика-2005": семинар в рамках Всеросс. науч. конф. RCDL'2005 Яндекс, 2005. - С.283-301.

17. Keijola М. On Smart and Natural Language Technology Support of Strategy Work. Helsinki University of Technology, 2003.

18. Tapanainen P., Jarvinen T. A non-projective dependency parser // Proceedings of the 5th Conference on Applied Natural Language Processing, USA, 1997.

19. Ермаков A.E., Плешко B.B., Митюнин B.A. RCO Pattern Extractor: компонент выделения особых объектов в тексте. // Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. Сборник трудов М., 2003.

20. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста // Информационные технологии. 2002. -N7.

21. Ермаков А.Е. Компьютерная лингвистика и анализ текста // Мир ПК. -2002.-N9.

22. Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Москва, Наука, 2003.

23. Ajay Hemnani and Stephane Bressanlnformation Extraction Tree Alignment Approach to Pattern Discovery in Web Documents.//Proceedings of the 13th International Conference on Database and Expert Systems Applications. Springer-Verlag, London, UK 2002.

24. Freitag, D. Information Extraction from HTML: Application of a general Machine Learn-ing Approach.// In Proc. 15th National Conference on Artificial Intelligence, 1998.

25. Soderland, S. Learning Information Extraction Rules for Semi-structured and Free Text.// Machine Learning, 1999, vol. 34.

26. Rahardjo, В.: Information Extraction from Web using Matching techniques. PhD Dissertation, National University of Singapore (2001).

27. Doorenbos, R.B., Etzioni, O., Weld, D. S.: A scalable comparison-shopping agent for the World Wide Web. In Proc. 1st international conference on Autonomous Agents. ACM Press., NewY ork (1997) 39-48

28. Yih, W.T.: Template-based Information Extraction from Tree-structured HTML Documents. PhD Dissertation, National Taiwan University (1997).

29. Финн В.К. Правдоподобные рассуждения в интеллектуальных системах типа ДСМ. Итоги науки и техники. Информатика, Т.15, М.: 1991, с. 54101.

30. Финн В.К. Об особенностях ДСМ-метода как средства интеллектуального анализа данных, НТИ, сер.2, №5,2001, с. 1-4.

31. Козлов Е.Б., Метелкин А.В., Нарушев Е.С., Соколов Д.И., Хорошевский В.Ф. Метапоиск в Интернет на основе онтологий предметных областей Труды Всероссийской научной конференции "Научный сервис в сети Интернет 2001" стр. 57-60

32. Khoroshevsky V.F., Maikevich N.V. Intelligent Processing of Web-Resourses: Ontology-Based Approach and Multiagent Support, Accepted to CEEMAS-99, St.-Peterburg, Junel999.

33. Беляев А.Б., Голубев С.А., Сулейманова Е.А. Система выявления семантической структуры текста. В сб. Программные системы: теоретические основы и приложения, М. Физматлит, 1999, стр.122-130

34. Г. К. Бронников. Семантика без синтаксиса. // Труды международного семинара Диалог'2002 по компьютерной лингвистике и ее приложениям. -Протвино, 2002, т. 1, с. 27-34.

35. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. Москва, "Наука", 1967.

36. Сокирко А. В. Морфологические модули на сайте www.aot.ru, // Труды Международного семинара Диалог'2004 по компьютерной лингвистике и ее приложениям. Верхневолжский, 2004,

37. Зализняк А.А. Грамматический словарь русского языка М.: Русский язык, 1980 г.

38. Кормалев Д.А., Куршев Е.П., Сулейманова Е.А., Трофимов И.В. Извлечение данных из текста. Анализ ситуаций ньюсмейкинга. // КИИ-2002. Труды конференции, т.1 М., Физматлит, 2002.

39. Г. Буч. Объектно-ориентированный анализ и проектирование. М.: «Издательство Бином», 2000.

40. Эрик Дж. Нейбург, Роберт А. Максимчук; Проектирование баз данных с помощью UML. 288 стр., 2002 г.

41. A. Arampatzis, Т. van der Weide, С. Koster, and P. van Bommel. Linguistically motivated information retrieval. 69, December 2000. To appear. Currently available on-line from http://www.cs.kun.nl/ avgerino/encyclopTR.ps.Z.

42. Sergey Brin, Lawrence Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(17):107117, 1998.

43. Яндекс: Базовые поисковые возможности.http ://help .yandex.ru/search/?id=481936.

44. James A. Danowski. Wordij: A word-pair approach to information retrieval. In TREC, pages 131J36, 1992.

45. Adelberg В.: NoDoSE: A Tool for Semi-Automatically Extracting Structured and Semi-Structured Data from Text Documents. SIGMOD Record, 27(2), (1998), 283-294.

46. Ashish N. and Knoblock C.: Wrapper Generation for Semi-structured Internet

47. Sources. In Proc. of Workshop on Management of Semi-structured Data, (1997)

48. Baumgartner R., Flesca S. and Gottlob G.: Visual Web Information Extraction with Lixto. In Proceedings of the 27th International Conference on Very Large Data Bases, (2001), 119-128

49. Berners-L.T., Hendler J., Lassila 0.: Semantic Web. Scientific American, (2001)

50. Buttler D., Liu L. and Pu C.: A Fully Automated Object Extraction System for the World Wide Web. In Proceedings of the 21th International Conference on Distributed Computing Systems, (2001), 361-370

51. Cohen W. W. and Jensen L. S.: A Structured Wrapper Induction System for Extracting Information from Semi-structured Documents. In Proceedings of IJCAI2001 Workshop on Adaptive Text Extraction and Mining, (2001)

52. Document Object Model (DOM): http://www.w3.org/DOM/

53. Embley D. W., Campbell D. M., Jiang Y. S., Liddle S. W., Ng Y.-K., Quass D. and Smith R. D.: A Conceptual-Modelling Approach to Extracting Data from the Web. In Proc. of Int. Conference on Conceptual Modelling. (1998), 78-91

54. Gerbe O. and Mineau G. W.: The CG Formalism as an Ontolingua for Web

55. Oriented Representation Languages. In Proceedings of the ICCS 2002, Springer

56. Verlag, LNAI2392, (2002), 205-219

57. Kokkoras F., Sampson D. and Vlahavas I.: A Knowledge Based Approach on Educational Metadata Use. Post-proc. 8th Panhellenic Conf. in Informatics, Y.Manolopoulos, S. Evripidou and A. Kakas (Eds.), Springer, LNCS 2563, (2003)

58. Kokkoras F., Jiang H., Vlahavas I., Elmagarmid A. K., Houstis E. N. and Aref W. G.: Smart VideoText: A Video Data Model based on Conceptual Graphs. ACM-Multimedia Systems Journal, Springer, Vol.8, (2002), 328-338

59. Kushmerick N., Weld D. S. and Doorenbos R. В.: Wrapper Induction for Information Extraction. In Proceedings of the 15th International Joint Conference on Artificial Intelligence, (1997), 729-737

60. Laender A.H.F., Ribeiro-Neto В .A. and da Silva A.S.: DEByE Data Extraction by Example. Data and Knowledge Engineering, 40(2), (2001), 121154

61. Laender A., Ribeiro-Neto В., da Silva A. and Teixeira J.: A Brief Survey of Web Data Extraction Tools. SIGMOD Record, 31(2), (2002)

62. Liu L., Pu C. and Han W.: XWRAP: An XML-Enabled Wrapper Construction System for Web Information Sources. In Proceedings of the 16th IEEE International Conference on Data Engineering, (2000), 611-621

63. Muslea I., Minton S. and Knoblock C.: Wrapper induction for semi structured information sources. Journal of Autonomous Agents and Multi-Agent Systems, 16(12), (1999)

64. Sahuguet A. and Azavant F.: Building intelligent web applications using lightweight wrappers. Data and Knowledge Engineering, 36(3), (2001), 283316

65. Sowa J.: Conceptual Structures: Information Processing in Mind and Machine. Addison-Wesley Publishing Company, (1984)

66. Yamada Y., Ikeda D. and Hirokawa S.: Automatic Wrapper Generation for Multilingual Web Resources. In Proceedings of the 5th International Conference on Discovery Science, Springer-Verlag, LNCS 2534, (2002), 332339

67. G. Dias, S. Guillore, J-C. Bassano, and J.G. Pereira Lopes. Combining linguistics with statistics for multiword terra extraction: A fruitful association?

68. Proc. of Recherche (informations Assistee par Ordinateur 2000 (RIAO'2000), 2000.

69. Massimo Melucci Franco Crivellari. Web document retrieval usingcppsage retrieval, connectivity information, and automatic link weighting. In The Tenth Text REtrieval Conference (TREC 2001), pages 624633, 2001.

70. Donna Harman. What we have learned, and not learned, from tree. In Proc. of the BCS IRSG'2000, pages 220.

71. Hideki Kozima. Text segmentation based on similarity between words. In Meeting of the Association for Computational Linguistics, pages 286 288, 1993.

72. George A. Mihaila Krishna Bharat. Hilltop: A search engine based on expert documents, http://www.cs.toronto.edu/~georgem/hilltop/, 2003.

73. M.L. Mauldin. Lycos: Design choices in an internet search service. Technical report, 1997.

74. Markus Mittendorfer and Werner Winiwarter. Exploiting syntactic analysis of queries for information retrieval. Data Knowl. Eng., 42(3):315325, 2002.

75. Christof Monz. Computational semantics and information retrieval. In Proceedings of the 2nd Workshop on Inference in Computational Semantics (ICoS-2), pages 15,2000.

76. G.B. Newby. Information space based on html structure. In Proceedings of TREC9, pages 600601, 2000.

77. Jay M. Ponte and W. Bruce Croft. Text segmentation by topic. In European Conference on Digital Libraries, pages 113125, 1997.

78. M. Cutler Y. Shih and W. Meng. Using the structure of html documentsto improve retrieval. In USENIX symposium on Internet Technologiesand Systems (NISTS'97), pages 241251, 1997.

79. Amit Singhal and Marcin Kaszkiel. A case study in web search using tree algorithms, pages 708716, 2001.

80. Fei Song and W. Bruce Croft. A general language model for information retrieval (poster abstract). In Research and Development in Information Retrieval, pages 279280, 1999.

81. T. Takaki. Ntt data: Overview of system approach at trec-8 ad-hoc and question answering. In Proc. of the 8'th Text REtrieval Conference, 2000.

82. Ellen M. Voorhees. Natural language processing and information retrieval. In Information Extraction: Towards Scalable, Adaptable Systems, pages 3248, 1999.

83. C. Zhai, X. Tong, N. Milic-Frayling, and D. Evans. Evaluation of syntactic phrase indexing clarit nip track report. In The Fifth Text Retrieval Conference (TREC-5). NIST Special Publication, 1997.

84. Губин M.B. Исследование качества информационного поиска с использованием пар слов. In Труды RCDL-2003, pages 186 191, 2003.

85. Российский Семинар по Оценке Методов Информационного Поиска. http ://romip .narod .ru.

86. Booch G. Object-Oriented Analysis And Design With Application, second edition. The Benjamin/Cummings Publishing Company, Inc. 1994. 589 p.

87. Эрик Дж. Нейбург, Роберт А. Максимчук; Проектирование баз данных с помощью UML. 288 стр., 2002 г.