автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Модели и методы поиска информационных ресурсов с использованием семантических технологий

кандидата технических наук
Нгуен Ба Нгок
город
Томск
год
2012
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и методы поиска информационных ресурсов с использованием семантических технологий»

Автореферат диссертации по теме "Модели и методы поиска информационных ресурсов с использованием семантических технологий"

005055228

На правах рукописи

Я -----/

\ К У

Нгуен Ба Нгок

МОДЕЛИ И МЕТОДЫ ПОИСКА ИНФОРМАЦИОННЫХ РЕСУРСОВ С ИСПОЛЬЗОВАНИЕМ СЕМАНТИЧЕСКИХ ТЕХНОЛОГИЙ

Специальность 05.13.11 — Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 5 НОЯ 2012

Томск

-2012

005055228

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Национальный исследовательский Томский политехнический университет».

Научный руководитель: доктор технических наук, профессор

Тузовский Анатолий Федорович

Официальные оппоненты: Марчук Александр Гурьевич

доктор физико-математических наук, профессор Федеральное государственное бюджетное учреждение науки Институт систем информатики им. А.П. Ершова Сибирского отделения РАН, директор

Привезенцев Алексей Иванович

кандидат технических наук

Федеральное государственное бюджетное учреждение науки Институт оптики атмосферы им. В.Е. Зуева СО РАН, научный сотрудник

Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Новосибирский государственный технический университет»

Защита состоится «27» ноября 2012 года в 15:00 часов на заседании диссертационного совета Д 003.061.02 на базе Федерального государственного бюджетного учреждения науки Института вычислительной математики и математической геофизики Сибирского отделения Российской академии наук по адресу: 630090, г. Новосибирск, пр. академика Лаврентьева, 6, тел. (383)330-71-59.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Института вычислительной математики и математической геофизики Сибирского отделения Российской академии наук.

Автореферат разослан «18» октября 2012 г

Ученый секретарь

диссертационного совета Д 003.061.02 д.ф.-м.н.

Актуальность исследования. Огромный объем доступных в компьютерных сетях электронных ресурсов является ценным источником информации. Однако поиск в таком источнике может быть выполнен только с помощью поисковых систем.

Исследования, связанные с поиском информации, начались еще в середине прошлого века вскоре после изобретения электронно-вычислительных машин (ЭВМ). В результате этих исследований были разработаны сотни поисковых систем, однако большинство из них в основном базируется на общем методе, в соответствии с которым искомые документы описываются (индексируются) наборами содержащихся в них терминов (ключевых слов), и для выполнения поиска пользователи вводят запрос, также состоящий из набора терминов, описывающих их информационные потребности. После обработки такого запроса поисковая система возвращает документы (или ссылки на них), содержащие термины, заданные в запросе пользователя.

Классический метод является эффективным в том случае, когда у пользователей имеется информация о содержании требуемых документов. Однако с использованием классического метода трудно выполнять запросы исследовательского характера, когда пользователи не имеют информации о нужных документах, но могут сформулировать свои информационные потребности. Ограниченность классических систем поиска информации связана с отсутствием возможности понимания ими базовой концептуализации информационных потребностей пользователей и смысла искомых документов.

В связи с этим для преодоления ограниченности классического метода и достижения высокого качества поиска требуется выполнять работы с семантикой (смыслом) документов. В этом случае требуется описывать документы на более высоком концептуальном уровне с использованием понятий из семантических моделей знаний предметной области. Подходы информационного поиска, в которых используется такое представление документов, обычно называются семантическими подходами поиска информации.

Целью диссертационной работы является разработка комплекса моделей, методов и алгоритмов выполнения поиска информационных ресурсов на основе использования онтологических моделей знаний и семантических технологий.

Для достижения цели необходимо было решить следующие задачи:

1) Разработать метод описания документов и запросов с использованием семантических моделей знаний, которые позволяют выполнять работу с их семантикой;

2) Разработать алгоритмы вычисления семантической близости между ме-таописаниями документов и запросов;

3) Разработать эффективную систему поиска информационных ресурсов с возможностью работать с семантикой.

Объектом исследования является процесс поиска пользователями интересующих их информационных ресурсов в компьютерных сетях.

Предметом исследования являются методы и алгоритмы выполнения поиска информационных ресурсов с использованием семантических технологий для реализации концепции семантического поиска информации. '

Методы исследования. При выполнении диссертационной работы использовались методы математической логики, семантического моделирования, системного анализа, а также проведения и обработки экспериментов с использованием экспертных оценок.

Научная новизна диссертационной работы заключается в следующем:

1) Разработана новая модель семантического поиска с использованием онтологических моделей знаний. В отличие от существующих моделей поиска информации, в разработанной модели документы и запросы описываются с использованием простых фраз (триплетов), составленных на основе онтологических моделей знаний предметной области (их метаописания).

2) Разработаны новые методы вычисления семантической близости между метаописаниями, между триплетами и между компонентами триплетов. Выполнено теоретическое обоснование и экспериментальные проверки предложенных методов вычисления семантической близости.

3) Разработан эффективный алгоритм поиска текстовых меток элементов онтологии в документах, который востребован для реализации метода полуавтоматического создания метаописаний.

4) Разработаны новый метод оптимизации хранения наборов триплетов с использованием числовых идентификаторов и алгоритм сжатия словарей строк URI, позволяющие значительно сократить требуемые объемы памяти.

5) Разработана новая архитектура системы семантического поиска на основе метаописаний. Описаны базовые функции системы и структуры данных необходимых индексов для её работы.

Практическая значимость диссертационной работы заключается в возможности использования разработанных методов, алгоритмов и прототипов программного обеспечения для выполнения поиска информации в компьютерных сетях. Разработанные алгоритмы вычисления близости также могут быть применены для решения таких задач, как классификация семантических данных, автоматическое разрешение многозначности терминов и т.п.

Предложенные в диссертационной работе модели, методы и алгоритмы были внедрены в одной вьетнамской и двух российских компаниях, а также использованы в учебном процессе кафедры оптимизации систем управления Института кибернетики Томского политехнического университета.

Получено два свидетельства Роспатента на программное обеспечение, разработанное в рамках выполнения диссертационной работы: «TST - инструментальное программное обеспечение для организации поиска по семантическим метаописаниям» [10] и «Triple - редактор семантических метаданных» [11].

На защиту выносятся следующие результаты:

1) Разработанная модель семантического поиска информации, основанная на метаописаниях, которые формируются с использованием онтологических моделей знаний.

2) Разработанные методы вычисления близости между метаописаниями, триплетами и компонентами триплетов.

3) Метод оптимизации хранения наборов триплетов с использованием числовых идентификаторов и алгоритм сжатия словарей [//¿/-идентификаторов.

4

4) Алгоритм быстрого поиска меток элементов онтологии в документах.

5) Разработанная архитектура системы семантического поиска информационных ресурсов.

Личный вклад автора. Все выносимые на защиту результаты получены автором лично.

Апробация работы. Основные положения и отдельные результаты исследования докладывались и обсуждались на следующих конференциях:

1) VI Международная научно-практическая конференция «Электронные средства и системы управления» (Томск, 2010);

2) IV университетская научно-практическая конференция иностранных студентов, магистрантов и аспирантов, обучающихся в ГПУ, «Коммуникация иностранных студентов, магистрантов и аспирантов, в учебно-профессиональной и научной сферах» (Томск, 2010);

3) Интеллектуальные информационно-телекоммуникационные системы для подвижных и труднодоступных объектов (Томск, 2010);

4) IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии» (Томск, 2011);

5) Vin Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011);

6) IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2012).

Публикации. Основные результаты диссертационного исследования изложены в 11 печатных работах, в том числе в 4 статьях из списка рецензируемых журналов, рекомендованных ВАК РФ.

Структура и объем диссертации. Диссертация содержит введение, 5 глав, заключение, список использованной литературы, содержащей 157 наименования. Общий объем диссертации составляет 198 страниц машинописного текста, включающих 38 рисунков, 18 таблиц, и 3 приложения.

Основное содержание диссертации

Во введении обосновывается актуальность темы диссертации, определяются цели, задачи, объект и предмет исследования, рассматривается методологическая база исследований, определяется научная новизна работы и личный вклад автора, формулируются результаты, выносимые на защиту, поясняется практическая значимость проведенного исследования, описывается апробация полученных результатов, кратко поясняется структура диссертации.

В первой главе сформулирована постановка решаемой задачи, сделан обзор существующих моделей информационного поиска на основе ключевых слов и популярных методов для оценки поисковых системах.

Постановка задачи поиска информационных ресурсов:

Заданы множество документов D~{d(\i- \...п}, где п - количество документов коллекции, и описание информационной потребности q.

5

Требуется найти подмножество Я множества документов £), которое состоит из релевантных документов для запроса <7 - результирующее множество.

Кроме текстовых документов также может выполняться поиск мультимедийных ресурсов (изображений, аудиозаписей, видеороликов и т.п.). Однако для этого требуется создавать текстовые описания, которые включаются во множество документов £) в качестве входных ресурсов.

Описание процесса поиска информации представлено на рис. 1.

формирование использовать использовать обработать

Рис. 1. Процесс поиска информации С одной стороны, у человека-пользователя есть информационная потребность, представляемая некоторым требованием, которое затем преобразуется в запрос. С другой стороны, в поисковых северах имеются коллекции электронных ресурсов, которые индексированы для цели выполнения поиска В результате обработки запросов поисковые серверы возвращают множество релевантных документов пользователям.

В настоящее время существует большое количество поисковых систем. Однако все они имеют общую архитектуру, которая представлена на рис. 2.

Рис. 2. Общая архитектура систем информационного поиска

Как показано на рис. 2 любая система информационного поиска выполняет следующие три базовые функции:

1) Индексирование - сбор электронных ресурсов и создание их логических представлений, а также хранение этих представлений с использованием индексов (оптимизированных структур данных для быстрого выполнения поиска).

2) Формирование запросов - описания информационных потребностей пользователя на языке, поддерживаемом поисковой системой.

3) Сравнение - вычисления оценок близости (релевантности) между запросами и документами. На основе оценок релевантности определяется множество результатов, которое затем возвращается пользователям.

Связь между системными сообщениями и подсистемой формирования запроса означает возможность использования результатов поиска пользователями для уточнения информационных потребностей.

Отмечается, что система информационного поиска обычно реализуется на основе соответствующей теоретической модели, в которой описываются ее основные особенности: логические представления документов и запросов, а также алгоритмы вычисления оценки релевантности между ними. В общем случае модель информационного поиска состоит из следующих 4-х компонентов:

Model = [Д Q, F, R(q, d)], (1)

где D - множество логических представлений документов (логические представления документов являются их упрощенными моделями в поисковых системах); Q - множество логических представлений информационных потребностей (запросов); F - платформа для моделирования документов, запросов и для реализации функции вычисления близости между документами и запросами

функции R((l qy

Подход к обработке документов на синтаксическом уровне в большинстве существующих моделей (например, модель булевого поиска, модель векторного пространства, вероятностная модель, модель нечеткого множества, модели обобщенного векторного пространства) вызывает следующие фундаментальные проблемы, которые затрудняют работу пользователей при поиске нужной информации: 1) синонимичность терминов; 2) многозначность терминов.

Кроме того, из-за отсутствия семантических отношений между терминами системы не способны найти документы, которые являются релевантными по смыслу, но не содержат термины запроса В связи с этой проблемой снижается полнота множества результатов.

Решение этих проблем требует выполнять работу с семантикой документов и представлять документы на более высоком концептуальном уровне с использованием понятий из семантических моделей знаний предметных областей.

Во второй главе сделан обзор и классификация существующих подходов семантического поиска с целью формирования общего представления о данном направлении информационного поиска

Отмечается, что важной особенностью подходов семантического поиска является использование концептуальных представлений документов, которые создаются на основе семантических моделей знаний предметных областей, а среди существующих инструментов представления знаний онтология считается наиболее выразительном. В онтологиях знания предметных областей описываются с помощью иерархий понятий и свойств, а также семантических сетей связанных экземпляров понятий.

Отмечается, что только использование онтологических моделей знаний позволит достигнуть значительного улучшения качества поиска по сравнению с существующими подходами. В связи с этим, несмотря на сложность и трудоемкость создания онтологических моделей, охватывающих области знаний поис-

7

ковой системы, а также сложность и трудоемкость создания семантических описаний существующих текстов, считается, что семантический поиск на основе онтологии является наиболее перспективным направлением развития методов информационного поиска.

В третьей главе рассматривается предлагаемая модель семантического поиска с использованием онтологических моделей знаний. Задана следующая обобщенная структура онтологии О:

О = <С, Е, Т, R>, (2)

где С — множество элементов, называемых понятиями (классами); Е - множество экземпляров понятий (классов); R -свойство (предикатов); Т - множество отношений, которые включают: частичный порядок на С и R, задающий отношения «подкласс-суперкласс»; отношение типа «экземпляр-родительское понятие» - instanceOf, семантические отношения между экземплярами.

Онтология является моделью знаний реального мира, в которой каждое понятие, вещь идентифицируется с помощью уникальной строки (которая известна как £Ж/-идентификатор). Предлагается использовать онтологии в качестве словарей терминов формального языка, в котором терминами являются {/^/-идентификаторы, следовательно, решены основные проблемы естественного языка (синонимичность и многозначность).

На основе такого языка и естественного языка предлагается составить фразы формата «субъект-предикат-объект» (триплеты) для описания информационных ресурсов. При этом субъект есть LW-идентификатор понятия или экземпляра понятия; предикат - ШУ-идентификатор свойства; объект - URI-идентификатор понятия или экземпляра, или литеральное значение, а триплеты обозначаются как <s-p-o> или p(s, о), где s - субъект; р - предикат; о - объект.

На основе таких фраз создаются логические представления документов -их метаописаний. При этом метаописания m{d) документа d представляют собой набор триплетов с весовыми коэффициентами, выражающими степени значимости триплетов:

и(<0 = {(Л&,о,)Л)1' = 1...и}. (3)

где п - количество триплетов; к, -весовой коэффициент триплета pi (s,, ot).

Аналогично документам, информационные потребности пользователя также описываются в виде метаописаний (запроса)

q = {{Pi{si,oi),ki)\i = \...m}, (4)

где m — количество триплетов запроса q.

Метаописания позволяют более точно описать семантики документов (и информационных потребностей) по сравнению с известными форматами набора слов (BOW- bag of words) и набора понятий (ВОС - bag of concepts) за счет формального представления знаний с помощью онтологий и явного описания связи между сущностями.

Для вычисления семантической близости между метаописаниями предложен метод, согласно которому близость между наборами триплетов вычисляется путем комбинирования оценок близости между составляющими их триплетами, а близость между триплетами вычисляется путем комбинирования оценок

близости между их компонентами. Возможные случаи сравнения компонентов триплетов представлены в табл. 1.

Компоненты Понятие Экземпляр Предикат Литерал

Понятие сем сем - _

Экземпляр сем сем - —

Предикат - - сем _

Литерал - - - несем

В табл. 1 используются следующие обозначения: «сем» - семантическая оценка близости; «несем» - несемантическая оценка близости; знак «-» означает невыполнимое сравнение. Среди возможных случаев семантической является оценка близости между элементами онтологии. При этом предполагается, что два элемента онтологии являются семантическими близкими, если они являются связанными (существуют пути между ними), а степени близости между элементами онтологии определяются на основе путей между ними.

Для вычисления оценки близости элементов онтологии в работе предложена мера GWSP (generalized weighted shorted path), согласно которой пусть РАТН= {PuP2,...,Pk} (5)

является множеством всех возможных путей между элементами х и у онтологии О, тогда близость между ними определяется следующим образом:

sim.

GWSP

р

(х,у),

где Рпих определяется по следующему условию: I simaTsp 0> У) 1= maхРеРАТН (| sim^mP (х, у) |),

(6) (7)

где

"gwsp у

„р

sim'nwsp(х,у) = • specs(P) ■ gen^ ■ dir,c{P) ■ dra(P)

oth(P)

Чс • '"а - - -иг ■ (8) где ятд1Г5Р(х,у) - есть близость между х и у на основе пути Р, параметры которого представлены в табл. 2.

Тип ребра Весовой коэффициент Количество

От общего понятия до более детального понятия spec s(P)

От детального понятия до более общего понятия gen X(P)

От экземпляра до родительского понятия die HP)

От родительского понятия до экземпляра dCt ci(P)

Инверсное отношение (/тегЮ!) -1 inv(P)

Остальные отношения wr oth(P)

В случае если PATH =0, то значение близости считается равным нулю: simawsp(х,д>) = 0, если PATH =0. (9)

Вычисления близости между триплетами. Предполагается, что близость двух триплетов пропорциональна абсолютной величине оценки близости предикатов и сумме оценок близости субъектов и объектов.

Отмечается, что если р\ и р2 составляют инверсную пару отношений (р\ in-vertOf р2), то триплет t2=<s2,p2,o2> имеет такое же значение как триплет

t2 =<o2,pl,s2>. Поэтому при сравнении субъектов и объектов двух триплетов имеются два случая:

1) Если 5//и(р1; р2) < 0 (путь между предикатами в онтологии содержит нечетное количество отношений тгегЮ/), то сравнивается с 02, а 01 сравнивается с «2 (перекрестное сравнение),

2) иначе £1 сравнивается с б2, а о1 сравнивается с о2 (прямое сравнение).

В данной работе предлагается следующее определение близости между триплетами ^ =< х1,рьо] >и г2 =< з2,р2,о2 > (метод «обратное отношение»):

IAI--1 2-' 2 ,еслиА:>0,

2 (1°) 11 1 «Vm (i., o,) + sirnKm (o.,s2) I k I--'m 2 --, если иначе,

где A = simsem(pl,p2)-оценка близости между предикатами.

Оценки семантической близости между документами и запросами вычисляются с использованием их метаописаний, т.е.

sim(g, d) = sim(#, tn(dj). (11)

Для вычисления близости между метаописаниями предложены два метода: 1) метод «суммирования»; и 2) метод «максимального паросочетания». Согласно первому методу, оценка близости между q и m(d) вычисляется по формуле • („„.(¿ъ - \4^m{d) 1 qom(d) maxflm(dj)\) \q\-\m(d)\ где | * | - размер множества; max(|m(i/()|) - максимальное количество триплетов метаописаний документов; q ° m(d) - сумма оценок близости триплетов:

qom(d)=Z Jisim(t„tj)-krkj, (13)

t^qtj^d)

где kt и kj являются весовыми коэффициентами триплетов f, и tj.

По методу «максимальное паросочетание», для вычисления оценки близости между q и m(d) вначале формируется двудольный взвешенный граф

BG = <V, Е>,

где множество вершин графа V является объединением левого множества вершин VL=q (множество триплетов запроса) и правого множества вершин VR = m(d) (множество триплетов метаописаний документа)

V = VlkjVR-

Е - множество ребер с весовыми коэффициентами, которые равны значениям близости между триплетами.

£ = {(<vr(/).vrO) >'ev)\vt(i)eVL'vtU)eVR^' (14)

где

eij = е<Л(/) > V,(j) ) = Simsem С, >';)■ К (15)

На основе графа BG близость между метаописаниями q и m(d) вычисляется по следующей формуле:

, , ... maxPeP (sum£G(P))

max(| m(di)\)

где Р) - множество всех возможных паросочетаний; sumBa{P) - сумма весовых

10

коэффициентов ребер паросочетания Р в графе ВО:

яитт(Р) = £ Фип^гО))- (17)

В четвертой главе рассмотрена проблема реализации системы семантического поиска на основе метаописаний. Предложена общая схема системы семантического поиска, которая показана на рис. 3.

Рис. 3. Общая схема системы семантического поиска с использованием

метаописаний.

Базовыми компонентами системы являются онтологии предметных областей. Такие онтологии могут быть созданы ручным путем с помощью редакторов онтологий, например Protégé, либо автоматическим путем.

В отличие от классических систем поиска информации (рис. 2), в предлагаемой схеме при индексировании и формировании запросов создаются метао-писания на основе онтологий предметных областей, а обработка запросов выполняется на основе оценок семантической близости между метаописаниями.

Для повышения эффективности создания семантических метаописаний документов в диссертационной работе предложен полуавтоматический метод, согласно которому при создании метаописаний документов система автоматически выделяет элементы онтологии, а человек с помощью редактора выбирает необходимые данные для составления метаописаний. Предложенный метод автоматического выделения элементов онтологии выполняется двумя этапами: 1) поиск меток элементов онтологии в тексте; 2) разрешение многозначности.

Проблема поиска меток элементов онтологии в тексте сформулирована следующим образом:

Заданы текстовый документ Д и набор меток элементов онтологии Die, состоящий из m текстовых меток:

Die = {метка/, метка^, ..., меткат}.

При этом документ Д и каждая метка может быть представлена в виде последовательности лемм (лемма - это основная форма слова).

Д— лемма/ —> лемма?—» ... —>• лемма„ и метка, = лемма/ —» ... -»леммавд, где п - количество лемм документа Д. k(i) - количество лемм метки,.

Каждая j-я лемма документа Д и j-я лемма i-й метки обозначаются соответственно как Д(/) и метка,(/').

Требуется найти все пары индексов (/, j), для которых строковое значение строка(/, j, Д) = ДО) —> Д{г + ] ) Д(]) (18)

является элементом множества меток Die и j является максимальным значением среди возможных для фиксированного индекса i.

Блок-схема предложенного алгоритма решения поставленной задачи показана на рис. 4. Функция зеагсЬ(Д г) либо возвращает максимальное значение индекса j > i, если существуют метки на i-й позиции документа Д, либо —1, если не существуют метки на i-й позиции документа Д.

Начало

/= 1;У= г, у'=8еагсЬ(Д ;); N. н i = i+ 1;

1да 1 нет

вывод(/,/); Конец ^

I-J+1;

Рис. 4. Блок-схема алгоритма поиска меток элементов онтологии в тексте Для оптимизации выполнения функции 8еагсЬ(Д г) при проверке принадлежности метки набору меток предполагается сохранить наборы текстовых меток с использованием структуры данных, представленной на рис. 5.

Леммы Уровни иерархии

1 д □

2 А □ О зО О Ф

4 о д о □

Метки

Множество следующих лемм Ч 5 : (~)Д | | Леммы (/\Г"Повторения Индикатор конец i-й метки

Рис. 5. Структура данных наборов меток На основе предложенной структуры данных имеется следующее пошаговое описание алгоритма функции search(Zf, i): Шаг 1. Начало алгоритма^' = i'Jaax - -1; pointer = root;

Шаг 2. pointer = pointer.next(4(/)) - переход на следующий узел, содержащий лемму Д(/).

Если существует узел р е pointer.next, содержащий уникальный идентификатор, то:

обновить значениеУтах -j',j—j + Ц повторить шаг 2; иначе если pointer != null, то:

j —j + 1; повторить шаг 2; иначе на шаг 3. Шаг 3: выводу'шах; конец алгоритма.

Следующим шагом после поиска меток является разрешение многозначности, т. е. определение подходящего элемента онтологии для каждой метки. Для этой цели в работе рассмотрены два существующих методов разрешения многозначности: 1) разрешение многозначности на основе оценок семантической близости; 2) разрешение многозначности на основе степени популярности.

Для обеспечения функционирования предложенной системы семантического поиска требуется создание индексов, показанных на рис. 6.

Рис. 6. Структура индексов предложенной системы семантического поиска Как показано на рис. 6, при индексировании онтологий создаются индексы 1Ю, ОС, УТ и ЬС, а при индексировании метаописаний электронных ресурсов создаются индексы £М и 1Т. Индексы УТ и ЬС используются в основном функциями формирования триплетов для выборов элементов онтологии, а индекс ОС используется для нахождения путей между элементами онтологии, на основе которых вычисляются их близости.

В индексе ЛМ сохраняются оценки близости между элементами онтологии для цели исключения их повторных вычислений, а в индексе 1Т сохраняются инвертированные списки метаописаний для выполнения их фильтрации при обработке запросов.

На основе индекса 1Ю разработан метод оптимизации хранения коллекции триплетов с использованием числовых идентификаторов, предназначенный для сокращения требуемых объемов памяти при хранении наборов триплетов. Основная идея предложенного метода заключается в замене каждого иШ-идентификатора на уникальный числовой идентификатор, который затем может быть преобразован обратно в строку иш. Сопоставления между иЫ-идентификаторами и числовыми идентификаторами сохраняются в словаре иШ-идентификаторов, структура которого показана на рис. 7.

Словарь ¿/^/-идентификаторов без сжатии после сжатим

i строки URI в явном виде d[¡] P[i] НД строки URJ после сжатия

1 http://dbpedia.org/resource/Alexei Gusarov -> 0 1 1 http://dbpedia.org/resource/AIexei Gusarov

2 http://dbpedia.orR/resource/James R. Russell -> 28 1 2 James R. Russell

3 http://dbpedia.org/resource/Martina Hellmann -> 28 1 3 Martina Heitmann

Рис. 7. Структура словаря URJ с использованием метода сжатия С целью сокращения требуемого объема оперативной памяти для хранения словаря {//¿/-идентификаторов разработан специальный метод сжатия без потери для набора строк URI и соответствующий метод декодирования. Как показано на рис. 7, с использованием разработанного метода сжатия потребуется меньше памяти для сохранения строки URI за счет удаления их общих фрагментов (например, если все строки URI начинаются с http://..., data://... и т.п.).

В пятой главе описаны результаты тестирования предложенных алгоритмов оптимизации хранения коллекции триплетов, сжатия словаря строк URI и вычисления семантической близости.

Полученными результатами указанных экспериментов подтверждают следующие выводы: 1) Предложенный метод сжатия без потери позволяет уменьшить требуемые объемы памяти для хранения словарей {//¿/-идентификаторов и декодировать строки {//¿/-идентификаторов с высокой скоростью; 2) Использование числовых идентификаторов для представления триплетов позволяет одновременно значительно сократить требуемые объемы памяти для хранения наборов триплетов и повысить скорости поиска триплетов в коллекциях; 3) Предложенные алгоритмы вычисления семантической близости между компонентами триплетов, между триплетами и между метаописаниями обеспечивают эффективность, достаточную для их использования в системах семантического поиска на основе метаописаний.

Основные результаты работы

1) Разработана модель семантического поиска информации с использованием онтологических моделей знаний, обоснован метод представления документов и запросов в виде семантических метаописаний.

2) Разработаны методы вычисления семантической близости между метаописаниями, между триплетами и между компонентами триплетов.

3) Разработаны алгоритмы автоматического выделения элементов онтологии в тексте, а также рассмотрена возможность их применения в задаче полуавтоматического создания метаописаний.

4) Разработан метод оптимизации хранения коллекции триплетов с использованием числовых идентификаторов, предложен специализированный алгоритм сжатия без потери для словарей ^/-идентификаторов.

5) Проведены эксперименты для проверки эффективности предложенного метода хранения триплетов и алгоритма сжатия словарей строк URI, и точности предложенных методов вычисления оценок семантической близости.

6) Разработана архитектура системы семантического поиска информации на основе метаописаний, предложены структуры данных для хранения индексов и алгоритмы их создания.

7) Реализовано инструментальное программное обеспечение для выполнения поиска по семантическим метаописаниям «TST» и редактор семантических метаданных «Triple». Разработанное программное обеспечение официально зарегистрировано в Роспатенте.

8) Выполнено практическое внедрение основных результатов работы. Предложенная в работе модель семантического поиска, методы и алгоритмы использованы в учебном процессе кафедры оптимизации систем управления Института кибернетики Томского политехнического университета, а также использованы: вьетнамской компанией «Nam Thanh» LLC для разработки подсистемы поиска профилей сотрудников; ООО «Томский завод резиновой обуви» для создания подсистемы «Поиск электронных документов предприятия»; ООО «Мегаполис» (г. Томск) для создания подсистемы «Поиск документов в системе электронного документооборота». Результаты опытной эксплуатации созданных подсистем подтвердили высокий уровень качества поиска документов.

Список основных публикаций

В журналах, рекомендованных ВАК РФ для публикации результатов диссертационных исследований:

1. Нгуен Б. Н. Обзор подходов к семантическому поиску документов / Ба Нгок Нгуен, А. Ф. Тузовский // Доклады Томского государственного университета систем управления и радиоэлектроники. — 2010. — Т. 2, № 2. — С. 109—111.

2. Нгуен Б. Н. Классификация текстов на основе оценки семантической близости терминов / Б. Н. Нгуен, А. Ф. Тузовский // Известия Томского политехнического университета. - 2012 - Т. 320, № 5 - С. 43 - 48.

3. Нгуен Б. Н. Метод семантического поиска в коллекции интеллектуальных документов / Б. Н. Нгуен, А. Ф. Тузовский // Научно-технический вестник Поволжья. - 2012 - № 2 - С. 246-254.

4. Нгуен Б. Н. Оптимизация хранения словаря триплетов с использованием числовых идентификаторов / Б. Н. Нгуен, А. Ф. Тузовский // Научно-технический вестник Поволжья. - 2012 — № 2 — С. 235—245.

В сборниках трудов и тезисов конференций-.

5. Нгуен Б. Н. Обзор подходов семантического поиска / Б. Н. Нгуен, А. Ф. Тузовский // III Всероссийский смотр научных и творческих работ иностранных студентов и аспирантов вузов. — Томск, 2010. — С. 117—121.

15

v\

6. Нгуен Б. Н. A survey of semantic search engines / Б. H. Нгуен, А. Ф. Тузовский // IV университетская научно-практическая конференция «Коммуникация иностранных студентов, магистрантов и аспирантов в учебно-профессиональной и научной сферах». — Томск, 2010. — С. 82-85.

7. Нгуен Б. Н. Семантический поиск документов с использованием онтологического подхода / Б. Н. Нгуен, А. Ф. Тузовский // IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии». - Томск, 2011. - С. 308-309.

8. Нгуен Б. Н. Оптимизация хранения словаря триплетов с использованием числовых идентификаторов / Б. Н. Нгуен, А. Ф. Тузовский // IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования». - Томск, 2012.-С. 176-182.

9. Нгуен Б. Н. Метод семантического поиска документов по метаописаниям / Б. Н. Нгуен, А. Ф. Тузовский // IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования». — Томск, 2012. — С. 182—190.

Свидетельства об официальной регистрации программных систем, разработанных на основе результатов диссертации".

10. Программная система «TST - инструментальное программное обеспечение для организации поиска по семантическим описаниям» / Ба Нгок Нгуен, А. Ф. Тузовский // Свидетельство о государственной регистрации программы для ЭВМ № 2012618280. М.: Федеральная служба по интеллектуальной собственности (Роспатент). — 2012.

11. Программная система «Triple — редактор семантических метаданных» / БаНгок Нгуен, А.Ф. Тузовский // Свидетельство о государственной регистрации программы для ЭВМ в Роспатенте РФ № 2012618289. М.: Федеральная служба по интеллектуальной собственности (Роспатент). — 2012.

Подписано в печать 16.10.2012г. Формат 60x84 1 \ 16 Усл. печ. л. 1 Объем 16 стр. Тираж 100 экз. Заказ № 182

Отпечатано ООО «Омега Принт» 630090, г. Новосибирск, пр. Ак.Лаврентьева,6

Оглавление автор диссертации — кандидата технических наук Нгуен Ба Нгок

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА.

1.1. Постановка задачи информационного поиска.

1.2. Классические модели информационного поиска.

1.2.1. Булевый поиск.

1.2.2. Модель векторного пространства.

1.2.3. Вероятностная модель.

1.3. Дополнительные модели информационного поиска.

1.3.1. Модель нечетких множеств.

1.3.2. Модель обобщенного векторного пространства.

1.4. Оценки эффективности системы информационного поиска.

1.4.1. Полнота и точность.

1.4.2. Нормализованное расстояние между результатами.

1.5. Выводы.

ГЛАВА 2. ПРИМЕНЕНИЕ СЕМАНТИЧЕСКИХ ТЕХНОЛОГИЙ В РЕШЕНИИ ЗАДАЧИ ПОИСКА ИНФОРМАЦИИ.

2.1. Семантические технологии.

2.1.1. Мотивация.

2.1.2. Методы представления знаний.

2.1.3. Классификация онтологии.

2.2. Подходы поиска информации на основе семантики.

2.2.1. Семантические методы, разрабатываемые в области информационного поиска.

2.2.2. Методы семантического поиска, разрабатываемые в области создания семантической веб-сети.

2.2.3. Классификации подходов семантического поиска.

2.2.4. Ограничения подходов семантического поиска.

2.3. Выводы.

ГЛАВА 3. ПРЕДЛАГАЕМАЯ МОДЕЛЬ СЕМАНТИЧЕСКОГО ПОИСКА ИНФОРМАЦИИ НА ОСНОВЕ МЕТАОПИСАНИЙ.

3.1. Семантическое обеспечение системы.

3.1.1. Математическая модель онтологии предметной области.

3.1.2. Семантические модели объектов знания.

3.2. Логические представления документов и запросов.

3.2.1. Набор триплетов.

3.2.2. Концепция RDF-графов.

3.3. Методы семантической близости.

3.3.1. Оценка семантической близости между компонентами триплетов.

3.3.2. Семантическая близость между триплетами.

3.3.3. Семантическая близость между документами и запросами.

3.4. Пример вычисления семантической близости.

3.5. Оптимизация обработки запросов.

3.6. Выводы.

ГЛАВА 4. АРХИТЕКТУРА СИСТЕМЫ СЕМАНТИЧЕСКОГО ПОИСКА.

4.1. Общая схема процесса поиска информации.

4.2. Формирование метаописаний.

4.2.1. Ручное формирование метаописаний.

4.2.2. Полуавтоматическое формирование метаописаний.

4.3. Структуры индексов и алгоритмы индексирования.

4.3.1. Поиск элементов онтологии с помощью SPARQL-запросов.

4.3.2. Оптимизация хранения триплетов с использованием числовых идентификаторов.

4.3.3. Индексирования базы знания с помощью системы Lucene.

4.3.4. Представление онтологии предметной области в виде графа.

4.3.5. Индексирование метаописаний.

4.4. Программная реализация.

4.5. Выводы.

ГЛАВА 5. ИССЛЕДОВАНИЯ АЛГОРИТМОВ.

5.1. Метод оптимизации хранения набора триплетов.

5.1.1. Эксперимент 1: объем оперативной памяти.

5.1.2. Эксперимент 2: время поиска триплета.

5.2. Алгоритмы вычисления семантической близости.

5.2.1. Эксперимент 3: оценка близости между понятиями.

5.2.2. Эксперимент 4: близость между метаописаниями.

5.4. Выводы.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Нгуен Ба Нгок

Задача поиска информационных ресурсов заключается в нахождении информации, соответствующей потребностям пользователей. Исследования по решению данной задачи начались еще в середине прошлого века вскоре после изобретения электронно-вычислительных машин (ЭВМ).

Вначале поиск информации был небольшой научной и прикладной областью, в которой работало незначительное количество ученых. Бурный рост глобальной сети Интернет (в особенности Web-cera) в конце прошлого - начале нынешнего века стал мощнейшим стимулом развития данной дисциплины. Современный информационный поиск - это миллионы пользователей, огромные объемы данных, мощные вычислительные системы, сложные алгоритмы. Для решения задачи поиска информации привлекаются методы машинного обучения, анализа мультимедийной информации, компьютерная лингвистика, геоинформационные сервисы, исследуется психология пользователей и их социальные связи, и т.д.

Большинство существующих систем информационного поиска базируются на общих механизмах, в соответствии с которыми для выполнения поиска пользователи вводят запрос, описывающий информационные потребности, состоящие из набора терминов. После обработки такого запроса поисковая система должна вернуть документы (или ссылки на документы), содержащие термины, заданные в запросе пользователя. При этом терминами являются либо специальные ключевые слова, либо любые слова - строковые литералы, которые встречаются в содержании коллекции документов. Такой метод поиска информации считается классическим методом, или методом поиска информации с использованием ключевых слов.

Проблеме разработки таких методов поиска посвящены работы зарубежных авторов: Рикардо Баеса-Ятеса (.Ricardo Baeza-Yates), Сергея Брина (iSergey Brin), Шандора Доминича {Sandor Dominich), Джеральда Ковальски {Gerald Kowalski), Кристофера Маннинга (Christopher Manning), Ларри Пейджа (Larry Page), а также российских ученых: А. Ю. Воложа, В. К. Иванова, Е. С. Колмановской, Г. В. Никитина, В. Н. Романенко, И. В. Сегановича.

Ограниченность классических систем поиска информации связана с отсутствием возможности понимания ими базовой концептуализации информационных потребностей пользователей и смысла искомых документов. Отсюда возникают следующие две фундаментальные проблемы информационного поиска:

1) синонимичность терминов - можно использовать различные термины для обозначения одного понятия (например «машина» и «автомобиль»). Следовательно, документы, использующие термины, которые не совпадают с терминами запроса, не будут найдены при поиске;

2) многозначность терминов - один термин может иметь много значений (например, «лук» как овощ или «лук» как спортивный инвентарь). В связи с этой проблемой система может возвращать нерелевантные результаты.

Кроме того, эти системы обычно не учитывают семантические отношения между терминами, из-за чего классические системы информационного поиска не способны найти документы, которые являются релевантными по смыслу, но не содержат термины запроса.

Для решений указанных проблем классического метода поиска информации требуется работать с семантиками документов, для чего обычно используются семантические модели знаний предметной области и семантические технологии. При этом предлагается представить документы на более высоком концептуальном уровне с использованием понятий из семантических моделей знаний предметной области. Методы информационного поиска, в которых учитываются семантики документов, обычно называются методами семантического поиска информации.

Необходимость использования семантических моделей (концептуализации) для улучшения качества поиска была отмечена в работе [51] еще в 1986 г., но проблема семантического поиска еще далека от своего решения. Актуальными являются задачи семантической обработки неструктурированных электронных ресурсов, к которым относятся разработка методов описания их семантики с использованием моделей знаний предметной области и методов оценки семантической близости между ними. Этому посвящены работы следующих зарубежных ученых: Раманатана Гуха (Ramanathan Guha), Брюса Крофта {Bruce Croft), Джорда Миллера {George Miller), а также российских ученых: Б. В. Доброва, Н. В. Лукашевича, А. Ф. Тузовского, В. 3. Ямпольского.

В связи с актуальностью этих технологий, данная диссертационная работа посвящена развитию методов семантического поиска информации с использованием онтологических моделей и семантических технологий. Целью диссертационной работы является разработка комплекса моделей, методов и алгоритмов выполнения поиска информационных ресурсов на основе использования онтологических моделей и семантических технологий.

Для достижения цели необходимо было решить следующие задачи:

1) Разработать метод описания документов и запросов (их системные представления) с использованием онтологических моделей, которые позволяют выполнять работу с их семантикой;

2) Разработать алгоритм вычисления семантической близости между метаописаниями документов и запросов;

3) Разработать методы повышения эффективности выполнения поиска с использованием предложенного метода описания документов и оценки близости между ними.

4) Разработать программную реализацию поиска информационных ресурсов с использованием семантических метаописаний и онтологий.

Объектом исследования является процесс поиска пользователями интересующих их информационных ресурсов в локальных компьютерных сетях.

Предметом исследования - методы и алгоритмы выполнения поиска информационных ресурсов с использованием семантических технологий для реализации концепции семантического поиска информации.

Методы исследования. При выполнении диссертационной работы использовались методы математической логики, семантического моделирования, математического моделирования, системного анализа и проведения и обработки экспериментов с использованием экспертных оценок.

Научная новизна диссертационной работы заключается в следующем:

1) Разработана новая модель семантического поиска с использованием онтологических моделей знаний. В отличие от существующих моделей поиска информации, в разработанной модели документы и запросы описываются с использованием простых фраз, составленных на основе онтологических моделей знаний предметной области (их метаописания), а для обработки запросов используются оценки семантической близости между метаописания-ми. Предложенный подход поиска информации является особенно актуальным в тех случаях, когда требуется описывать сложные информационные потребности и обеспечить высокую точность поиска документов.

2) Разработаны новые методы вычисления семантической близости между метаописаниями, триплетами и компонентами триплетов. Выполнено теоретическое обоснование и экспериментальные проверки предложенных методов вычисления семантической близости.

3) Разработан эффективный метод поиска текстовых меток элементов онтологии в документах, который востребован для реализации метода полуавтоматического создания метаописаний.

4) Разработан новый метод оптимизации хранения наборов триплетов с использованием числовых идентификаторов и метод сжатия без потери для словаря ^/-идентификаторов. Использование разработанных методов позволяет значительно сократить требуемые объемы памяти. Данная задача является особенно актуальной в тех случаев, когда требуется хранить онтологии предметных областей полностью (или большую их часть) в оперативной памяти для обеспечения быстрого вычисления оценок близости.

5) Разработана новая архитектура программной системы семантического поиска на основе метаописаний. Описаны базовые функции системы и структуры данных необходимых индексов для её работы.

Практическая значимость диссертационной работы заключается в возможности использования разработанных методов, алгоритмов и прототипов программного обеспечения для выполнения семантического поиска информации на основе онтологий в информационных системах организаций. Разработанные алгоритмы вычисления близости также могут быть применены для решения таких задач, как классификация семантических данных, автоматическое разрешение многозначности терминов и т.п.

Предложенные в диссертационной работе модель и алгоритмы поиска информации были внедрены в учебном процессе Кафедры оптимизации систем управления Института кибернетики, а также использованы в одной вьетнамской компании «Nam Thanh» Limited Liability и двух российских компаниях ООО «Мегаполис» и ООО «Томский завод резиновой обуви» для разработки программных продуктов (приложение 3).

Получено два свидетельства Роспатента на программное обеспечение разработанное в рамках выполнения диссертационной работы: «TST - инструментальное программное обеспечение для организации поиска по семантическим метаописаниям» [17] и «Triple - редактор семантических метаданных» [18] (приложение 3).

На защиту выносятся следующие результаты:

1) новая модель семантического поиска на основе метаописаний, формируемых на основе онтологической модели;

2) эффективные алгоритмы вычисления близости между метаописаниями, триплетами и компонентами триплетов;

3) метод оптимизации хранения триплетов с использованием числовых идентификаторов и метод сжатия без потери для словаря URI-идентификаторов;

4) метод автоматического выделения текстовых меток элементов онтологии в документе;

5) новая архитектура построения системы семантического поиска информационных ресурсов.

Личный вклад автора. Все выносимые на защиту результаты получены автором лично.

Апробация работы. Основные положения и отдельные результаты исследования докладывались и обсуждались на следующих конференциях:

1) VI Международная научно-практическая конференция «Электронные средства и системы управления» (Томск, 2010);

2) IV университетская научно-практическая конференция иностранных студентов, магистрантов и аспирантов, обучающихся в ТПУ «Коммуникация иностранных студентов, магистрантов и аспирантов, в учебно-профессиональной и научной сферах» (Томск, 2010);

3) Интеллектуальные информационно-телекоммуникационные системы для подвижных и труднодоступных объектов (Томск, 2010);

4) IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых с международным участием «Молодежь и современные информационные технологии» (Томск, 2011);

5) VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011);

6) IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2012).

Структура и объем диссертации. Диссертация содержит введение, 5 глав, список литературы (156 наименований) и 3 приложения. Общий объем диссертации составляет 198 страниц, включающих 16 таблиц и 38 рисунков.

Заключение диссертация на тему "Модели и методы поиска информационных ресурсов с использованием семантических технологий"

5.4. Выводы

Описаны результаты экспериментов для проверки эффективности предложенного метода оптимизации хранения коллекции триплетов с использованием числовых идентификаторов, и результаты экспериментов для проверки предложенных алгоритмов вычисления близости. Полученными результатами экспериментов подтверждают следующие выводы:

1) Использование числовых идентификаторов для представления триплетов позволяет одновременно значительно сократить требуемые объемы памяти для хранения наборов триплетов и повысить скорости поиска триплетов в коллекциях.

2) Предложенные алгоритмы вычисления семантической близости обеспечивают эффективность достаточную для их использования в системах семантического поиска на основе метаописаний.

3) Использование предложенной модели информационного поиска позволяет получить высокое качество поиска.

Следующим шагом исследования является разработка метода распараллеливания предложенных алгоритмов для обработки большого объема данных с использованием вычислительных кластеров.

Заключение

В рамках выполнения данной диссертационной работы сформированы теоретические и практические основы для решения задачи семантического поиска информации в различных предметных областях. К основным полученным результатам относятся следующие:

1) Разработана модель семантического поиска информации с использованием онтологический моделей знаний и метода представления документов и запросов в виде семантических метаописаний.

2) Предложены методы вычисления семантической близости между ме-таописаниями, между триплетами и между компонентами триплетов;

3) Проведены эксперименты для проверки качества предложенных алгоритмов, которые используются для вычисления близости.

4) Разработан метод оптимизации хранения коллекции триплетов с использованием числовых идентификаторов, предложен специализированный метод сжатия без потери для словаря ¿//^-идентификаторов.

5) Проведены эксперименты для проверки эффективности предложенного метода хранения триплетов с использованием числовых идентификаторов и алгоритма сжатия словари ¿//«'/-идентификаторов.

6) Разработан метод быстрого выделения текстовых меток элементов онтологии, а также рассмотрены возможности его применения в задаче полуавтоматического создания метаописаний.

7) Разработана архитектура системы семантического поиска информации на основе метаописаний, предложены структуры данных для хранения индексов и алгоритмы их создания.

8) Реализовано инструментальное программное обеспечение для выполнения поиска по семантическим метаописания («7IST») на основе предложенной модели и редактор семантических метаданных («Triple»), в котором используется предложенный метод полуавтоматического создания метаописаний. Разработанное программное обеспечение официально зарегистрировано в Роспатенте.

9) Выполнено практическое внедрение основных результатов работы. Предложенная модель семантического поиска и алгоритмы вычисления близости использованы в учебном процессе Кафедры оптимизации систем управления Института кибернетики Томского политехнического университета, а также использованы: вьетнамской компанией «Nam Thanh» Limited Liability в 2011 г. для разработки подсистемы поиска профилей сотрудников; ООО «Томский завод резиновой обуви» в 2012 г. для создания подсистемы «Поиск электронных документов предприятия»; ООО «Мегаполис» (г. Томск) в 2012 г. для создания подсистемы «Поиск документов в системе электронного документооборота». Результаты опытной эксплуатации созданных подсистем подтверждают высокий уровень качества поиска документов.

Библиография Нгуен Ба Нгок, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Гэри, М. Вычислительные машины и труднорешаемые задачи / М. Гэри, Д. Джонсон. -М: Мир, 1982. 192 с.

2. Карпенко, А. П. Оценка релевантности документов онтологической базы знаний // Электронное научно-техническое издание «Наука и образование». URL: http://technomag.edu.ru/doc/157379.html (дата обращения: 23.07.2012).

3. Кнут Д. Искусство программирования / Д. Кнут. М.: Вильяме, 2000. -Т.3.-703 с.

4. Крюков, К. В. Меры семантической близости в онтологиях / К. В. Крюков, JI. А. Панкова, В. А. Пронина, JI. Б. Шипилина // Проблемы управления. 2010. - № 2. - С. 2-14.

5. Нгуен, Б. Н. Обзор подходов к семантическому поиску документов / Нгуен Ба Нгок, А. Ф. Тузовский // Доклады Томского государственного университета систем управления и радиоэлектроники. 2010 - Т. 2 - № 2. - С. 109-111.

6. Нгуен, Б. Н. Классификация текстов на основе оценки семантической близости терминов / Нгуен Ба Нгок, А. Ф. Тузовский // Известия Томского политехнического университета. 2012 - Т. 320 - № 5 - С. 43 - 48.

7. Нгуен, Б. Н. Метод семантического поиска в коллекции интеллектуальных документов / Нгуен Ба Нгок, А. Ф. Тузовский // Научно-технический вестник Поволжья. 2012 - № 2 - С. 246-254.

8. Нгуен, Б. Н. Оптимизация хранения словаря триплетов с использованием числовых идентификаторов / Нгуен Ба Нгок, А. Ф. Тузовский // Научно-технический вестник Поволжья. 2012 - № 2 - С. 235-245.

9. Нгуен, Б. Н. Обзор подходов семантического поиска / Нгуен Ба Нгок, А. Ф. Тузовский // III Всероссийский смотр научных и творческих работ иностранных студентов и аспирантов вузов. Томск, 2010. - С. 117-121.

10. Панкова, JI. А. Онтологические модели поиска экспертов в системах управления знаниями научных организаций / JI. А. Панкова, В. А. Пронина, К. В. Крюков // Проблемы управления. 2011. - № 6. - С. 52-60.

11. Тузовский, А. Ф. Онтолого-семантические модели в корпоративных системах управления знаниями: дис. д-тр. тех. наук / А. Ф. Тузовский. -Томск, 2007.-С. 175-182.

12. Agirre, Е. Word sense disambiguation using conceptual density / E. Agirre, G. Rigau // Proc. of COLING 96. Copenhagen, Denmark, 1996. pp. 16-22.

13. Agosti, M. An approach to conceptual modelling of IR auxiliary data / M. Agosti, F. Crestani, G. Gradenigo, P. Mattiello // IEEE Inter. Conf. on Computer and Communications. Arizona, USA, 1990. - pp. 500-505.

14. Agosti, M. Automatic authoring and construction of hypertext for Information Retrieval / M. Agosti, M. Melucci, F. Crestani // ACM Multimedia Systems. 1995.-pp. 15-24.

15. Andreasen, T. Domain-specific similarity and retrieval / T. Andreasen, R. Knappe, H. Bulskov //11th Int. Fuzzy systems association world congress. V. l.-P. 496-502.

16. Andreasen, T. Similarity from conceptual relations / T. Andreasen, H. Bulskov, R. Knappe // 22nd Int. Conf. of the North American Fuzzy Information processing society. Chicago, USA, 2003. - pp. 179 - 184.

17. Ask Jeeves. Homepage of the Ask search engine // Доступ осуществлен 16.08.2012 по адресу http://www.ask.com/.

18. Baeza-Yates, R. Modem information retrieval / R. Baeza-Yates, B. Ribeiro-Neto // Wokingham, UK: Addison-Wesley. 1999. 517 p.

19. Balabanovic, M. Content-based, collaborative recommendation / M. Balabanovic, Y.F. Shoham // Communication of the ACM. 1997. - V. 40, № 3. -pp. 66 - 72.

20. Baziz, M. Semantic cores for representing documents in information retrieval / M. Baziz, M. Boughanem, N. Aussenac-Gilles, C. Chrisment // In Proc. Of 2005 ACM symposium on applied computing. New Mexico, 2005. - pp. 1011— 1017.

21. Bernstein, A. Gino a guided input natural language ontology editor / A. Bernstein, E. Kaufmann // 5th Inter. Semantic Web Conf. - Athens: Springer Verlag, 2006.-pp. 144-157.

22. Bondy, J. Graph theory / J. Bondy. N. Y.: Springer, - 2008. - 651 p.

23. Budanitsky, A. Semantic distance in WordNet: an experimental, application-oriented evaluation of five measures / Budanitsky A., G. Hirst // Workshop on WordNet and other lexical resources. 2001.

24. Bulskov, H. On measuring similarity for conceptual querying / H. Bul-skov, R. Knappe, T. Andreasen // Proc. 5th Int. FQAS Conf. LNCS. Berlin: Springer, - 2002. - V. 2522. - P. 100-111.

25. Burger, J. Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) // DARPA/NSF committee publication. 2001.

26. Castano, S. Semantic information interoperability in open networked systems / S. Castano, A. Ferrara, S. Montanelli, G. Racca // Proc. Of the Int. Conf. SNW. Paris, 2004. - P. 215-230.

27. Castells, P. Semantic Web Technologies for a Digital Newspaper Archive / P. Castells, F. Neptuno // 1st European Semantic Web Symposium (ESWS 2004). -2004. V. 3053. - pp. 445-458.

28. Chang, Y. A new query reweighting method for document retrieval based on genetic algorithms / Y. C. Chang, S. M. Chen // IEEE transactions on evolutionary computation. 2006. V. 10, № 5. - pp. 617 - 622.

29. Chapman, R. Roget's International Thesaurus / R. Chapman // NY: Harper and Row, 1977.

30. Chen, H. Automatic construction of networks of concepts characterizing document databases / H. Chen, K.J. Lynch // IEEE Trans, on Systems, Man and Cybernetics. 1992. - V. 22, № 5. - pp. 885-902.

31. Chirita, P. A. Activity based metadata for semantic desktop search / P. A. Chirita, R. Gavriloaie, S. Ghita, W. Nejdl, R. Paiu // Proc. of the 2nd European Semantic Web Conference. Heraklion, Greece, 2005. - pp. 439-454.

32. Cimiano, P. Porting Natural Language Interfaces between Domains An Experimental User Study with the ORAKEL System / P. Cimiano, P. Haase, J. Heizmann // Inter. Conf. on Intelligent User Interfaces. - NY: USA, 2007. - pp. 180-189.

33. Cohen, P. Information Retrieval by constrained spreading activation on Semantic Networks / P. Cohen, R. Kjeldsen // Information Processing & Management. 1987. - pp. 255-268.

34. Cohen, S. XSEarch: A Semantic Search Engine for XML / S. Cohen, J.1. J.L

35. Mamou, Y. Kanza, Y. Sagiv // 29 Inter. Conf. on Very Large Data Bases. Berlin, Germany, 2003. - pp. 45-56.

36. Cooper, W. S. Getting beyond boole / W. S. Cooper // reading in information retrieval. 1997. - pp. 265 - 267.

37. Crestani, F. Application of Spreading Activation Techniques in Information Retrieval / F. Crestani // Artificial Intelligence Review. 1997. - V. 11, № 6.-pp. 453-482.

38. Croft, W. B. User-specified domain knowledge for document retrieval // 9th Annual Inter / W. B. Croft // ACM Conf. on Research and Development in Information Retrieval (SIGIR 1986). Pisa, Italy, 1986. - pp. 201-206.

39. Cross, V. Fuzzy information retrieval / V. Cross // Journal of Intelligent information systems. 1994. - V. 3, № 1. - pp. 29-56.

40. Crouch, C. J. An approach to the Automatic Construction of Global Thesauri / C. J. Crouch // Information Processing and Management. V. 26, № 5. -pp. 629-640.

41. Davies, J. Quizrdf: search technology for the semantic Web / J. Davies, R. Weeks, U. Krohn // workshop on RDF and Semantic Web Applications 11th Int. WWW Conf. Hawaii, USA, 2002.

42. Deerwester, S. Indexing by LSA / S. Deerwester, S.T. Dumais, G.W. Furnas, T. K. Landauer, R. Harshman // Journal of the Society for Information Science. 1990. - V. 41, № 6. - pp. 391^07.

43. Dumais, S. Latent semantic indexing (LSI) and TREC-2 / S. Dumais// 2nd Text Retrieval Conf. (TREC2). 1994. - pp. 105-116.

44. Ehrig, M. Ontology mapping an integrated approach / M. Ehrig, Y. Sure // The semantic web: Research and applications. Proc. 1st European Semantic Web Symposium. - Berlin: Springer. - V. 3053. - P. 76-91.

45. Feigenbaum, E. A. The art of artificial intelligence: Themes and case studies knowledge engineering / E. A. Feigenbaum // Inter. Joint Conf. on Artificial Intelligence. -Nagoya, Japan, 1997. pp. 1014-1029.

46. Feigenbaum, E. A. Knowledge engineering: the applied side of artificial intelligence / E. A. Feigenbaum // Symposium on Computer culture: the scientific, intellectual, and social impact of the computer. NY, USA, 1984. - pp. 91-107.

47. Fellbaum, C. WordNet: An Electronic Lexical Database / C. Fellbaum. -Cambridge: MIT Press, 1998. 423 p.

48. Fernandez, M. Semantic search meets the web / M. Fernandez, V. Lopez, M. Sabou, V. Uren, D. Vallet, E. Motta, P. Castells // Proc. of the 2nd IEEE inter, conf. on semantic computing (ICSC 2008). Santa Clara, USA, 2008. - pp. 253-260.

49. Finin, T. Information retrieval and the semantic Web / T. Finin, J. May-field, C. Fink, A. Joshi, R. S. Cost // 38th Annual Hawaii international Conference on System Sciences (Hicss'05). 2005.

50. Fuhr, N. Probabilistic models in information retrieval // The computer journal. 1992. - V. 35, № 3. pp. 243-255.

51. Haase, P. Peer selection in peer-to-peer networks with semantic topologies / P. Haase, R. Siebes, F. Harmelen // Proc. Of Int. Conf. on semantics in a networked world. Paris. - 2004. - P. 108-125.

52. Giunchiglia, F. Concept search / F. Giunchiglia, U. Kharkevich, I. Zai-hrayeu // Proc. of the 6th European SW conf. (ESWC 2009). Heraklion, Greece, 2009. - pp. 429-444.

53. Gonzalo, J. Indexing with WordNet synsets can improve Text Retrieval / J. Gonzalo, F. Verdejo, I. Chugur, J. Cigarran // COLING/ACL Workshop on Usage of WordNet for NLP. Montreal, Canada, 1998.

54. Google. The knowledge graph // Доступ осуществлен 16.08.2012 по адресу http://www.google.corn/insidesearch/features/search/knowledge.html /.

55. Gospodnetic, О. Lucene in action / О. Gospodnetic, E. Hatcher. USA.: Manning publications Co., 2010. - 486 p.

56. Gruber, T. R. Collective Knowledge Systems: Where the Social Web meets the Semantic Web // Journal of Web Semantics. 2008. - V. 6, № 1. - pp. 4-13.

57. Guha, R. V. Semantic search / R. V. Guha, R. McCool, E. Miller // Proc. of the 12th inter. WWW conf. (WWW 2003). Budapest, Hungary, 2003. - pp. 700-709.

58. Hakia. Homepage of the Hakia search engine // Доступ осуществлен 16.08.2012 по адресу http://www.hakia.com/.

59. Harabagiu, S. Falcon Boosting Knowledge for Answer Engines / S.

60. Harabagiu, D. Moldovan, M. Pasca, R. Mihalcea, M. Surdeanu, R. Bunescu, R.fh

61. Girju, V. Rus, P. Morarescu // 9 Text Retrieval Conference (Trec-9). 2000. - pp. 479-488.

62. Harbourt, A. M. Kingsland L.C. The ranking algorithm of the Coach browser for the UMLS Metathesaurus / A. M. Harbourt, E. J. Syed, W. T. Hole, L.

63. C. Kingsland // 17th Annual Symposium on Computer Applications in Medical Care. NY, USA, 1993. - pp. 720-724.

64. Herlocker, J. L. Evaluating collaborative filtering recommender systems / J. L. Herlocker, J. A. Konstan, L. G. Terveen, J. T. Riedl // ACM transactions on Informations Systems. 2004. - V. 22, № 1. - pp. 5-53.

65. Hersh, W. R. SAPHIRE An information retrieval system featuring concept matching, automatic indexing, probabilistic retrieval, and hierarchical relationships / W. R. Hersh, R. A. Greenes // Computers and Biomedical Research. -1990.-pp. 410-425.

66. Hersh, W. R. Words, concepts, or both: Optimal indexing units for autVitomated information retrieval / W. R. Hersh, D. D. Hickam, T. J. Leone //16 Annual Symposium on Computer Applications in Medical Care. Baltimore, 1992. -pp. 644—648.

67. Hirst, G. Lexical chains as Representations of context for the detection and correction of Malapropisms / G. Hirst, D. St-Onge // WordNet: an electronic lexical database. Cambridge: The MIT Press. - 1998. - P. 305-322.

68. Hovy, E. H. Question Answering in Webclopedia / E. H. Hovy, L. Gerber, U. Hermjakob, M. Junk, C. Y. Lin // TREC-9 Conf. 2000.

69. Jàrvelin, K. ExpansionTool: Concept-based query expansion and construction / K. Jàrvelin, J. Kekàlàinen, T. Niemi // Information retrieval. Springer Netherlands, 2001. - V. 22, № 1. - pp. 231-255.

70. Jiang, J. Semantic similarity based on corpus statistics and lexical taxonomy / J. Jiang, D. Conrath // Proc. Int. Conf. on Computational Linguistics. -Taiwan. 1997.-P. 19-33.

71. Joachims, T. Optimizing search engines using clickthrough data / T. Joachims // In Proc. of the eighth ACM SIGKDD int. conf. on knowledge discovery and data mining. NY, 2002. - V. 1. - pp. 133 - 142.

72. Jones, S. A. Thesaurus data model for an intelligent retrieval system / S. A. Jones // Journal of Information Science. 1993. - V. 19. - pp. 167-178.

73. Kiryakov, A. Semantic Annotation, Indexing, and Retrieval / A. Kirya-kov, B. Popov, I. Terziev, D. Manov, D. Ognyanoff// Journal of Web Semantics. -2004. V. 2, № 1. - pp. 49-79.

74. Klir, G. J. Fuzzy sets and fuzzy logic : theory and applications / G. J. Klir, B. Yuan. -N. Y.: Prentice Hall PTR, 1995. 574 p.

75. Knappe, R. Measures of semantic similarity and relatedness for use in ontology-based information retrieval: PhD thesis / R. Knappe. Roskilde University, 2006. - 143 P.

76. Knappe, R. Perspectives on Ontology-based querying / R. Knappe, H. Bulskov, T. Andreasen // Int. journal of intelligent systems. 2007. - V. 22, № 7. -pp. 739-761.

77. Kobayashi, M. Information retrieval on the web / M. Kobayashi, K. Ta-keda // ACM computing surveys. 2000. - V. 32. - pp. 144-173.

78. Landauer, T. K. A solution to Plato's problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge / T. K. Landauer, S. T. Dumais // Psychological Review. 1997. - pp. 211-240.

79. Landauer, T. K. Introduction to LSA / T. K. Landauer, P. W. Foltz, D. Laham // Discourse Processes. 1998. - V. 25. - pp. 259-284.

80. Lay, J. A. Semantic retrieval of multimedia by concept languages: treating semantic concepts like words / J. A. Lay, G. Ling // Signal Processing Magazine, IEEE. 2006. - V. 23. - pp. 115-123.

81. Leacock, C. Combining local context and wordnet similarity for word sense identification / C. Leacock, M. Chodorow // WordNet: An electronic lexical database. Massachusetts: MIT Press. - 1998. - P. 265.

82. Letsche, T. A. Large-Scale Information Retrieval with LSA / T. A. Let-sche, M. W. Berry // Information Sciences Applications. - 1997. - V. 100, № 1-4.-pp. 105-137.

83. Levenshtein, I. V. Binary codes capable of correcting delation, insertion and revercals /1. V. Levenshtein // Cybernetics and control theory. 1966. - V. 10, № 8. - P. 707-710.

84. Lopez, V. PowerAqua: Fishing the Semantic Web / V. Lopez, E. Motta, V. Uren // European Semantic Web Conference. Montenegro. 2006.

85. Lopez, V. AquaLog: An Ontology-portable QA System for the Semantic Web / V. Lopez, M. Pasin, E. Motta // European Semantic Web Conf. Creete. -Greece, 2005. pp. 546-562.

86. Luke, S. Ontology-Based Knowledge Discovery on the WWW / S. Luke, L. Spector, D. Rager // Internet-Based Information Systems: Papers from the AAAI Workshop. Menlo Park, California, 1996. - pp. 96-102.

87. Lin, D. An information-theoretic definition of similarity / D. Lin // Proc. 15th Int. Conf. on Machine Learning. Massachusetts: Morgan Kaufmann, 1998. -P. 296-304.

88. Madala, R. The use of WordNet in information Retrieval / R. Madala, T. Takenobu, T. Hozumi // Use of WordNet in Natural Language Processing Systems. Montreal, Canada, 1998. - pp. 31-37.

89. Madala, R. Complementing WordNet with Rogert's and Corpus-basedth

90. Thesauri for Information Retrieval / R. Madala, T. Takenobu, T. Hozumi // 9 Conf. of the European Chapter of the Association for Computational Linguistics (EACL). Bergen: Norway, 1999. - pp. 94-101.

91. Maedche, A. SEmantic portAL: The SEAL Approach / A. Maedche, S. Staab, N. Stojanovic, R. Studer, Y. Sure // Spinning the Semantic Web. NY, USA: MIT Press, 2003. - pp. 317-359.

92. Maedche, A. Clustering ontology-based metadata in the Semantic Web / A. Maedche, V. Zacharias // Proc. 6th European PKDD Conf. LNCS. Berlin: Springer, 2002. - V. 2431. - P. 348-360.

93. Manning, C. D. Introduction to information retrieval / C. D. Manning, P. Raghavan, H. Schutze. N. Y.: Cambridge University Press. - 2008. - 482 p.

94. Mayfield, J. Information retrieval on the Semantic Web: Integrating inference and retrieval / J. Mayfield, T. Finin // Workshop on the Semantic Web at the 26th International ACM SIGIR Conf. on Research and Development in IR. -Toronto, Canada, 2003.

95. Miller, A. A semantic concordance / A. Miller, C. Leacock, R. Tengi, R. T. Bunker // 93rd proc. of the workshop on Human Language Technology. PA: USA, 1993.-pp. 303-308.

96. Miller, G. WordNet: A lexical database / G. Miller // Communications of the ACM, 1995.-V. 38, № 11.-pp.39-41.

97. Miller, G. Contextual correlates of semantic similarity / G. Miller, W. Charles // Language and cognitive processes. 1991. - V. 6, № 1. - P. 1-28.

98. Motta, E. MnM: Ontology-driven semi-automatic and automatic support for semantic markup / E. Motta, M. Margas-Vera, J. Domingue, M. Lanzoni,it.

99. A. Stutt, F. Ciravegna //13 Inter. Conf. on Knowledge Engineering and Knowledge Managment (EKAW02). Siguenza, Spain, 2002. - pp. 379-391.

100. Moldovan, D. LASSO: A Tool for Surfing the Answer Net / D. Mol-dovan, S. Harabagiu, M. Pasca, R. Mihalcea, R. Goodrum, R. Girju, V. Rus // Text Retrieval Conference (TREC-8). 1999.

101. Moldovan, D. Using WordNet and Lexical Operators to Improve Internet Searches / D. Moldovan, R. Mihalcea // IEEE Internet Computing. 2000. - V. 4, № l.-pp. 34-43.

102. Navigli, R. Word sense disambiguation: a survey / R. Navigli // ACM computing surveys. 2009. - V. 41, № 2. - pp. 1-69.

103. Nguyen, H. A. New semantic similarity techniques of concepts applied in the biomedical domain and wordnet / H. A. Nguyen // Thesis for the Degree Master of Science. University of Houston-Clear Lake, 2006. - 108 p.

104. Paice, C. D. A thesaural model of information retrieval / C. D. Paice // Information Processing and Management. 1991. - V. 27. - pp. 433-447.

105. Pedersen, T. Measures of semantic similarity and relatedness in the medical domain / T. Pedersen, S. Pakhamov, S. Patwardhan // University of Minnesota digital technology center research report DTC 2005/12.

106. Penin, T. Snippet generation for semantic web search engines / T. Penin, H. Wang, T. Tran, Y. Yu // Proc. of the 3rd Asian semantic web conf. on the semantic web. Berlin: Springer-Verlag, 2008. - P. 493-507.

107. Popov, В. KIM A Semantic Platform for Information Extraction and Retrieval / B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov // Journal of NLP. - Cambridge University Press, 2004. - V. 10, № 4. - pp. 375-392.

108. Prud'hommeaux, E. SPARQL Query Language for RDF / E. Prud'hommeaux, A. Seaborne // W3C Working Draft, 2006. http://www.w3.org/TR/rdf-sparql-query (дата обращения 30-июля-2012).

109. Rada, R. Development and application of a metric on semantic nets / Rada R., Mili H., Bicknell E., M. Blettner. // IEEE Transactions on Systems, Man, and Cybernetics. 1989. -V. 19, № 1. - P. 17-30.

110. Ran, L. Knowledge organization and access in a conceptual information system / L. Rau // Information Processing and Management. 1987. - V. 23, №4.-pp. 269-283.

111. Resnik, P. Using information content to evaluate semantic similarity in a taxonomy / P. Resnik // Proc. 14th Int. Joint Conf. on Artificial Intelligence. -1995.-P. 448-453.

112. Resnik, P. Semantic similarity in a taxonomy: An information-based measures and its application to problems of ambiguity in natural language / P. Resnik // Journal of artificial intelligence. 1999. - pp. 95-130.

113. Richardson, R. Using WordNet in a knowledge-base approach to Information Retrieval / R. Richardson, A. Smeaton // BCS-IRSG Colloquium on Information Retrieval. 1995.

114. Robertson, S. The probabilistic relevance framework: BM25 and beyond / S. Robertson, H. Zaragoza // Foundation and Trends in information retrieval. 2009. - V.3, № 4. - pp. 333-389.

115. Rocha, C. A Hybrid Approach for Searching in the Semantic Web / C. Rocha, D. Schwabe, M. P. Aragâo // Proc. of the 13th Inter. WWW Conf. (WWW 2004). NY, USA, 2004. - pp. 374-383.

116. Rubinstein, H. Contextual correlates of synomymy / H. Rubinstein, J. Goodenough // Communications of the ACM. 1965. - V. 8, № 10. - P. 627-633.

117. Salton, G. The SMART Retrieval System Experiments in Automatic Document Processing / G. Salton // N.J., USA: Prentice-Hall, 1971.

118. Salton, G. Introduction to modern information retrieval / G. Salton, M. J. McGill. N.Y., USA: McGraw-Hill, 1986. - 448 p.

119. Shah, U. Information Retrieval on the Semantic Web / U. Shah, T. Finin, A. Joshi, R. Cost, J. Mayfield // 10th Inter. Conf. on Information and Knowledge Management. N.Y., USA: ACM Press, 2003. - pp. 461^68.

120. Seaborne, A. RDQL A Query Language for RDF / A. Seaborne // W3C Member Submission, 2004. http://www.w3.org/Submission/2004/ SUBM-RDQL-20040109 (дата обращения 30-июля-2012).

121. Srihari, K. Information Extraction Supported Question- Answering / K. Srihari, W. Li, X. Li // In Advances in Open- Domain Question Answering. N.Y., USA, 2004.-pp. 185-196.

122. Stojanovic, N. An Approach for the Ranking of Query Results in the Semantic Web / N. Stojanovic, R. Studer, L. Stojanovic // 2nd Inter. Semantic Web Conf. (ISWC2003). Berlin Heidelberg: Springer Verlag, 2003. - № 2870. - pp. 500-516.

123. Spârck, J. Synonymy and Semantic Classification : Ph.D. thesis / J. Sparck. University of Cambridge, UK. - 1964.

124. Sparck, J. Document Retrieval: Shallow Data, Deep Theories, Historical Reflections, Potential Directions / J. Sparck // 25 th European Conf. on IR Research. Pisa, Italy: Springer Verlag, 2003. - V. 2633, № 77. - pp. 1-11.

125. Spasic, I. Supervised learning of term similarities / I. Spasic, G. Ne-nadic, K. Manios, S. Ananiadou // Proc. 3rd Int. IDEAL Conf. LNCS. Berlin: Springer, 2002. - V. 2412. - P. 429-434.

126. Sussna, M. Word sense disambiguation for free-text indexing using a massive semantic network / M. Sussna // Proc. 2nd Int. Conf. IKM. N. Y.: ACM Press.- 1993.-P. 67-74.

127. Tsinaraki, C. Ontology-Based Semantic Indexing for MPEG-7 and TV-Anytime Audiovisual Content / C. Tsinaraki, P. Polydoros, F. Kazasis // Multimedia Tools and Applications. 2005. - V. 26. pp. 299-325.

128. Tversky, A. Features of similarity / A. Tversky // Psychological rev. -1977.-V. 84.-P. 325-352.

129. Ukkonen E. Approximate string matching with q-grams and maximal matches // Theoretical computer sience. 1992. - V. 92, № 1. - pp. 191-211.

130. Van, R. Information Retrieval / R. Van. London: ButterworthHeinemann, 1979. - 224 p.

131. Vallet, D. An ontology-based information retrieval model / D. Vallet, M. Fernandez, P. Castells // In Proc. of 2nd European semantic web conf. Berlin: Springer, 2005. - pp. 455-470.

132. Vet, P. E. The Plinius ontology of ceramic materials / P. E. Vet, P. H. Speel, N. J. I. Mars // Poc. Of ECAI94's workshop on comparison of impl. ontologies. Amsterdam: Springer-Verlag, 1994.-pp. 187-205.

133. Vorhees, E. Query expansion using lexical semantic relations / E. Vorthhees //17 Annual international ACM SIGIR Conf. on Research and Development in information Retrieval. Dublin, Ireland: Springer-Verlag, 1994. - pp. 61-67.

134. Yahoo. Project Search Monkey // Доступ осуществлен 16.08.2012 по адресу http://developer.yahoo.com/searchmonkey/siteowner.html/.

135. Yang, Y. Words or concepts: The features of indexing units and their optimal use in information retrieval / Y. Yang // 17th Annual Symposium on Computer Applications in Medical Care. Washington, USA, 1993. - pp. 685-689.

136. Yao, Y. Measuring retrieval effectiveness based on user preference of documents / Y. Yao // Journal of the American society for information sience. -1995.-V. 46.-pp. 133-145.

137. Zhang, L. An enhanced model for searching in semantic portals / L. Zhang, Y. Yu, J. Zhou, C. Lin, Y. Yang // Proc. of the 14th Inter. WWW Conf. -Chiba, Japan, 2005. pp. 453^162.

138. Zhu, H. An approach for semantic search by matching RDF graphs / H. Zhu, J. Zhong, J. Li, Y. Yu // Proc. LAIRS conf. 2002. - P. 450-454.

139. Wikipedia. Company Powerset // Доступ осуществлен 16.08.2012 по адресу http://en.wikipedia.org/wiki/Powerset(company)/.

140. Wikipedia. Virtuoso universal server // Доступ осуществлен 16.08.2012 по адресу http://en.wikipedia.org/wiki/VirtuosoUniversalServer/.

141. Wilks, Y. A. A Retrospective View of Synonymy and Semantic Classification / Y. A. Wilks, J. I. Tait // In Charting a New Course: NLP and IR. -Springer Netherlands, 2005. pp. 1-11.

142. Weaver, W. Translation / W. Weaver // In machine translation of languages: Fourteen Essays. 1955. Cambridge: Technology press of MIT. - pp. 186-197.

143. Wong, S. Generalized vector space model in information retrieval / S. Wong, W. Ziarko, P. Wong // In Proc. 8th ACM SIGIR Conf. on research and development in information retrieval. NY, USA, 1985. - pp. 18-25.

144. Wu, Z. Verbs semantics and lexical selection / Z. Wu, M. Palmer // Proc. 32nd ann. meeting ACL. NJ, USA. - 1994. - P. 133-138.