автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математическая модель семантического поиска с использованием онтологического подхода

кандидата физико-математических наук
Захарова, Ирина Викторовна
город
Челябинск
год
2010
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Математическая модель семантического поиска с использованием онтологического подхода»

Автореферат диссертации по теме "Математическая модель семантического поиска с использованием онтологического подхода"

884604134

На правах рукописи.

Захарова Ирина Викторовна

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СЕМАНТИЧЕСКОГО ПОИСКА С ИСПОЛЬЗОВАНИЕМ ОНТОЛОГИЧЕСКОГО ПОДХОДА

05.13.18 — Математическое моделирование, численные методы и комплексы

программ

АВТОРЕФЕРАТ на соискание ученой степени кандидата физико-математических наук

1 7 ИЮН 2010

004604134

На правах рукописи.

Захарова Ирина Викторовна

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СЕМАНТИЧЕСКОГО ПОИСКА С ИСПОЛЬЗОВАНИЕМ ОНТОЛОГИЧЕСКОГО ПОДХОДА

.13.18 — Математическое моделирование, численные методы и комплексы

программ

АВТОРЕФЕРАТ на соискание ученой степени кандидата физико-математических наук

Работа выполнена на кафедре вычислительной механики и информационных технологий в ГОУ'ВПО «Челябинский государственный университет»

Научный руководитель: Мельников Андрей Витальевич,

доктор технических наук, профессор

Официальные оппоненты: Соколинский Леонид Борисович,

доктор физико-математических наук, профессор

Гольдштейн Сергей Людвигович, доктор технических наук, профессор

Ведущая организация:

Санкт-Петербургский государственный политехнический университет

Защита диссертации состоится 17 июня 2010 г. в _10_часов _00_минут

на заседании диссертационного совета при ГОУ ВПО «Челябинский государственный университет» по адресу: 454001, г. Челябинск, ул. Братьев Кашириных, д. 129.

С диссертацией можно ознакомиться в библиотеке Челябинского государственного университета.

Автореферат разослан / ' мая 2010 г.

Ученый секретарь диссертационного совета

канд. физ.-мат. наук, доцент

Долбеева С. Ф.

Общая характеристика работы

Актуальность исследования

Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых способов доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта — систем обработки знаний.

Основной задачей, возникающей при работе с полнотекстовыми базами данных, является задача поиска документов по их содержанию. Однако, ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные, в частности, информационно-поисковыми системами в Интернет, не всегда обеспечивают адекватного выбора информации по запросу пользователя. Это может быть связано с рядом причин такими, как недостаточное знание пользователем терминологии предметной области, наличие в языке многозначных и синонимичных слов.

В ходе развития информационно-поисковых систем было предложено достаточно много моделей информационного поиска, повышающих его релевантность. Еще в 1957 году Joyce и Needham предложили учитывать частотные характеристики слов и векторная модель была с успехом реализована в 1968 году основателем науки об информационном поиске Джерардом Солтоном в поисковой системе SMART (Saltan's Magical Automatic Retriever of Text). В 1977 году Robertson и Sparck-Jones обосновали и реализовали вероятностную модель, также положившую начало целому семейству.

Одно из перспективных направлений развития информационно-поисковых систем — построение моделей «семантического», т. е. «смыслового» поиска — поиска ресурсов, наиболее релевантных запросу, а не просто содержащие слова из запроса.

Попытки реализации семантического поиска начались в конце XX века, как зарубежными, так российскими учеными. В 2000 году P. Vakkari предложил способ поиска схожих по семантике документов на основе сопоставления их лексических векторов. В трудах Т. А. Гавриловой, В. Ф. Хорошевского исследуется вопрос о применении онтологического подхода для информационного поиска. В России информационная-поисковая система с использованием онтологии была впервые реализована авторами Б. В. Доброе, Н. В. Лукашевич, С. В. Сыромятников, Н. Г. Загоруйко в информационно-поисковой системе УИС «Россия». И. В. Смирнов, И. В. Со-ченков, В. В. Муравьев, И. А. Тихомиров предложили собственную модель семантического поиска, в которой объединены статистические и лингвистические методы поиска, реализовав ее в информационно-поисковой системе «Exactus». Основная проблема при реализации данного подхода —

отсутствие достаточно больших и качественных онтологий предметных областей, особенно на русском языке.

Онтологии включают доступные для компьютерной обработки определения основных понятий и объектов предметной области, свойства объектов и связи между ними, при этом онтологии обычно формируются экспертами в данной предметной области, преимущественно вручную. Последние несколько лет в работах Н. Г. Загоруйко, А. М. Налетов, А. А. Соколова рассматриваются различные методы для автоматического формирования онтологий, для чего используется лексический и синтаксический анализ документов. Но релевантность полученных онтологий достаточно низкая, и вопрос автоматического построения онтологий остается актуальным.

Цель работы

Основной целью диссертационного исследования является разработка математической модели семантического полнотекстового поиска на основе онтологии предметной области, автоматически построенной на базе информационных библиографических коллекций с классификационными кодами.

Для достижения этой цели необходимо решить следующие задачи:

1. Провести анализ различных моделей информационного поиска, использующих, в том числе семантические методы;

2. разработать модель онтологии, способной отражать понятия и структуры, свойственные текстам естественного языка;

3. предложить алгоритмы для создания подобной онтологии на основе распределенных информационных коллекций с классификационными кодами;

4. разработать математическую модель семантического поиска, использующую созданную онтологию;

5. реализовать систему формирования обобщенной онтологии на основе распределенных информационных коллекций по протоколу 239.50;

6. разработать информационную систему «зетатюБеагсЬ», осуществляющую семантический поиск ресурсов по запросу пользователя в больших электронных коллекциях полнотекстовых документов.

Научная новизна и практическая ценность диссертационного

исследования:

1. Построена новая расширенная модель онтологии предметной области, в которой определены формальные функции интерпретации концепций

2. Построена математическая модель семантического поиска использующей расширенные функции интерпретации онтологии предметной области, что обеспечивает увеличение коэффициента полноты информационного поиска.

3. Предложен новый метод автоматического построения онтологии на основе информационных библиографических коллекций, распределенных в сети Интернет, позволяющий сформировать более релевантную онтологию, базирующуюся на результатах работы экспертов.

Основными практическими результатами исследования является следующее:

1. Разработаны алгоритмы построения онтологии на основе распределенных библиографических баз данных с использованием протокола г39.50.

2. Разработаны, реализованы и внедрены в рамках библиотечной информационной системы ЧелГУ алгоритмы семантического поиска на основе полученной онтологии.

Методы исследований

При решении задач использовался математический аппарат теории множеств, теории вероятности, когнитивные модели представления знаний.

Основные научные результаты, полученные автором:

1. Математическая модель семантического поиска на основе онтологического подхода, учитывающая все виды отношений в онтологии и функции интерпретации.

2. Расширенная математическая модель обобщенной онтологии, специализированной для задач информационного поиска с формализованными функциями интерпретации концепций и интерпретации терминов.

3. Новый метод автоматизированного построения обобщенной онтологии на основе библиографических баз данных, распределенных в сети Интернет.

4. Практическое применение предложенного метода для создания обобщенной онтологии с использованием возможностей протокола г39.50.

5. Предложен ряд алгоритмов на основе модели семантического поиска для практической реализации в информационно-поисковой системе.

Апробация работы

Основные результаты работы были представлены на следующих конференциях:

1. Международная конференция «Компьютерные науки и информационные технологии CSIT2005» — Уфа, 2005.

2. Всероссийская конференция «Математика. Механика. Информатика», Челябинск, ЧелГУ, 2006.

3. Международная конференция «Компьютерные науки и информационные технологии CSIT2007» — Уфа, 2007.

4. Международная конференция «ИТ-технологии в образовании». — Москва, МГУ, 2006.

5. Международная конференция «Компьютерные науки и информационные технологии CSIT2006» — Karlsruhe, Germany, 2006.

6. Международная конференция «Информационно-математические технологии в экономике, технике и образовании» — Екатеринбург, 2007.

7. Международная конференция «Компьютерные науки и информационные технологии С8ГГ2008» — Antalya, Turkey, 2008.

8. 4-я региональная зимняя школа-семинар аспирантов и молодых ученых. — УГАТУ, Уфа, 2007.

9. 10-я Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» — Москва, 2009.

Публикации

Основные материалы диссертационной работы были опубликованы в 12 работах, в том числе одна статья в издании, рекомендованном ВАК, 11 — в материалах и трудах конференций.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 119 страниц машинописного текста и библиографический список из 88 наименований.

Основное содержание работы

Во введении обосновывается актуальность темы диссертационной работы, формулируется цель и задачи исследования, научная новизна и практическая значимость результатов работы, дается краткое описание работы.

В первой главе вводится определение семантического поиска и рассматриваются три его основные составляющие: информационный поиск, * релевантность и онтологии.

6 1

Информационный поиск — процесс выявления в некотором множестве документов всех таких, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Все многообразие моделей традиционного информационного поиска принято делить на три вида:

• теоретико-множественные (булевская, нечетких множеств, расширенная булевская);

• алгебраические (векторная, обобщенная векторная, латентно-семантическая, нейросетевая);

• вероятностные.

Булевская модель — модель поиска, опирающаяся на операции пересечения, объединения и вычитания множеств. Запросы представляются в виде булевских выражений из слов и логических операторов И, ИЛИ, НЕ. Релевантными считаются документы, которые удовлетворяют булевскому выражению в запросе.

Критика булевской модели, вполне справедливая, состоит в ее крайней жесткости и непригодности для ранжирования. Поэтому еще в 1957 году Joyce и Needham предложили учитывать частотные характеристики слов, чтобы «... операция сравнения была бы отношением расстояния между векторами...». Векторная модель и была с успехом реализована в 1968 году основателем науки об информационном поиске Джерардом Солтоном в поисковой системе SMART (Salton's Magical Automatic Retriever of Text).

Документы и запросы представляются в виде векторов в jV-мерном евклидовом пространстве. Компоненты вектора соответствуют N терминам, образующим пространство. Релевантность выражается через подобие векторов. Для вычисления подобия векторов используется косинусная метрика.

Наконец, в 1977 году Robertson и Sparck-Jones обосновали и реализовали вероятностную модель, также положившую начало целому семейству. Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной, «нерелевантной» части коллекции.

Недостатки рассмотренных моделей:

1. Булева модель — невысокая эффективность поиска, жесткий набор операторов, невозможность ранжирования.

2. Векторно-пространственная модель связана с расчетом массивов высокой размерности, малопригодна для обработки больших массивов данных.

3. Вероятностная модель характеризуется низкой вычислительной масштабируемостью, необходимостью постоянного обучения системы.

Степень соответствия найденных документов запросу пользователя характеризуется понятием релевантность. Оно не является специфичным для систем информационного поиска. Это понятие появилось из философских теорий, объясняющих относительную связь между источниками информации, и изучается многими направлениями науки. Для организации наиболее релевантного поиска авторами Б. В. Добров, Н. В. Лукашевич, С. В. Сыромятников, Н. Г. Загоруйко предлагается использовать онтологии.

Онтологии являются новыми интеллектуальными средствами для поиска ресурсов в сети Интернет, новыми методами представления и обработки знаний и запросов. Они способны точно и эффективно описывать семантику данных для некоторой предметной области и решать проблему несовместимости и противоречивости понятий. Онтологии обладают собственными средствами обработки (логического вывода), соответствующими задачам семантической обработки информации. Поэтому онтологии получили широкое распространение в решении проблем представления знаний и инженерии знаний, семантической интеграции информационных ресурсов, информационного поиска и т. д.

Сам термин «онтология» заимствован из философии. Он означает учение о бытии (в отличие от гносеологии — учения о познании), в котором исследуются всеобщие основы, принципы бытия, его структура и закономерности. Исследования в области формализации, компьютерной обработки и использования знаний также не могли обойти вопрос о том, как устроены человеческие знания.

Центральным понятием инженерии знаний является понятие «представление знаний». Под этим термином может пониматься либо способ кодирования знаний в базе знаний, либо формальная система, которая используется для формализации знаний. Практика разработки систем, основанных на знаниях, для сложных предметных областей и задач показала, что в каждой предметной области существует некоторая структура, занимающая промежуточное положение между представлением знаний, используемым в модели предметной области, и моделью предметной области (базой знаний), т. е. между структурой, определяющей, что может быть представлено, и тем, что существует в действительности.

В работах R. S. Patil, S. М. Weiss, С. А. Kulikovski, S. Amarel эта структура для конкретных предметных областей была описана словесно. С начала 80-х годов эта структура изучалась в работах М. Ю. Черняховской. С конца 80-х годов началось систематическое изучение этой структуры в работах зарубежных авторов. В этих работах эта структура получила название «онтология предметной области».

Т. R. Gruber в работе «А Translation Approach to Portable Ontology Specifications» дано определение онтологии, наиболее часто впоследствии использовавшееся в работах ученых, а именно: эксплицитная, т. е. явная спецификация концептуализации, где в качестве концептуализации выступает описание множества объектов и связей между ними.

В работах В. Wielinga, А. Т. Schreiber, W. Jansweijer сделана попытка дать математические определения понятий «модель концегпуализации предметной области», «база знаний предметной области» и «модель онтологии предметной области».

Онтология определяет общий словарь для ученых, которым нужно совместно использовать информацию в предметной области. Она включает машинно-интерпретируемые формулировки основных понятий предметной области и отношения между ними.

Почему возникает потребность в разработке онтологии? Вот некоторые причины:

• Для совместного использования людьми или программными агентами общего понимания структуры информации.

• Для возможности повторного использования знаний в предметной области.

• Для того чтобы сделать допущения в предметной области явными.

• Для отделения знаний в предметной области от оперативных знаний.

• Для анализа знаний в предметной области.

Совместное использование людьми или программными агентами общего понимания структуры информации является одной из наиболее общих целей разработки онтологий.

Обеспечение возможности использования знаний предметной области стало одной из движущих сил недавнего всплеска в изучении онтологий. В данной работе предлагается применить онтологический подход для реализации семантического поисковой системы.

Семантический поиск — вид автоматизированного полнотекстового информационного поиска с учетом смыслового содержания слов и словосочетаний запроса пользователя и предложений текстов проиндексированных информационных ресурсов.

Семантический поиск, например, позволяет найти документы, вовсе не содержащие слов из поискового запроса, но имеющие к ней отношение' (например, по запросу «низшие формы жизни» могут быть найдены документы, содержащие слова «бактерии» и «вирусы»).

Основная задача семантического поиска заключается в анализе текста, т. е. извлечение смысла из текста и отображение его в формальную модель, которая позволяет находить смысловую близость двух текстов. Применительно к задаче поиска — близость запроса и документа.

Во второй главе строится формальная модель онтологии и математическая модель семантического поиска.

Л _ ^Г р Г Г I) \

Формально определим онтологию как множество ' ' " " н),

где

Ь — словарь терминов предметной области, —термин, возможно более одного слова, —его рейтинг относительно других терминов в концепции,

С—набор понятий (концепций), С = {с< }/=1_ш,

функция интерпретации терминов, сопоставляющая набору терминов из словаря подмножество концепций,

^— функция интерпретации концепций, сопоставляющая каждой концепции набор терминов из словаря,

К/,—отношения иерархии между концепциями.

Введем следующие обозначения:

Wi е — один термин из словаря,

м — запрос представляется в виде множества терминов из Ь,

т

построенных на основе слов из этого запроса.

— вероятность выбора концепции с> при условии запроса и.

Итоговая формула для Р(с, | «) выглядит следующим образом

Р(у» | с,.) ^ соип^н», I)

Итоговая формула ' для выглядит следующим образом

\

P(w | Ci ) country, L)

2>(w|c') ^couni(w\L)

Vc'eC w'&t

(i),

где P(w\Ci) —вероятность вхождения термина w в концепцию '''.Эта

вероятность известна из модели нашей онтологии и имеет значение x'w (вес данного термина в данной концепции).

count (w,L) — отношение количества вхождений термина w к общей сумме вхождений всех терминов из запроса в словарь. Функция интерпретации терминов принимает вид: ( f

= 1 cf J I w) = max

count(w, L)

^count(w\L)

)J

(2)

Определение. Назовем запрос и корректным, если существует хоть одно и', такое что М> (=.и /\ М> 6 £.

Лемма 1. Для любого корректного непустого запроса и, множество

не пусто, т. е. будет найдена хотя бы одна концепция, соответствующая запросу.

Доказательство.

и — {м'/}"_1 , существует , где wi е ^ следовательно для wi

выполняются следующие два условия:

rl

1.

2 >0 ^ГсОиП/(\¥, I)

По определению функции интерпретации есть хотя бы одно с,, для которого выполняется Р(С/1 и) > 0.

Определим обратную функцию интерпретации как множество терминов, относящихся к данной концепции с весом большим, чем средний вес всех терминов для данной концепции.

где I. = у и*' — множество всех терминов, соответствующие концепции с..

1

Лемма 2. Для любой концепции 6 С множество не пусто,

т. е. найдется хотя бы один термин, уточняющий данную концепцию. Доказательство.

Мах(х.,...х.) > х' +"'Х* Исходя из неравенства о средних, 1 * £ , из чего

X ■

следует, что существует хотя бы одно ], которое больше либо равно

среднему арифметическому. Т.о. множество ^ (с<) состоит хотя бы из одного элемента.

Модель поисковой системы с использованием полученной онтологии.

Два варианта обработки поискового запроса:

1) и - С, — поисковый запрос совпадает с названием какой-либо концепции в онтологии;

2) £ м>! & и — поисковый запрос или его часть совпадает с

подмножеством словаря онтологии.

В первом случае расширяем поисковый запрос, применяя функцию интерпретации концепций, т. е. дополняя запрос терминами из найденной концепции

Е/ = «и^(с,). (4)

Во втором случае применяем функцию интерпретации терминов, получая множество наиболее релевантных концепций. К полученным концепциям применяем функцию интерпретации терминов, дополняя запрос терминами, уточняющими данную концепцию

и=иц(фс (ед)1к)). (5)

В результате алгоритм расширения запроса сводится к заданию наиболее релевантных прямой и обратных функций интерпретации.

Теорема. Если и— корректно, то т. е. и дополняется не пустым

множеством.

Доказательство.

Рассмотрим случай когда и = с,. По лемме 2 множество ^(с,) не пусто, а следовательно множество также не пусто.

Рассмотрим случай, когда е и. По лемме 1 и 2 множество

Ре (г,(и))* 0 ,аследовательно множество [Ли*0.

В четвертой главе формализуется метод построения онтологии на основе библиографических баз данных.

В нашей стране все информационные материалы в области естественных и технических наук издаются с индексами Универсальной десятичной классификации (УДК).

Пример дерева УДК для «ветки» 004.8. (в связи с ограниченностью объема данного исследования, дерево представлено только до 2-го уровня).

004.8, Искусственный интеллект.

004.81, Модели когнитивных процессов.

004.82, Представление знаний.

004.822, Сети знаний.

004.823, Фреймы. Фреймовые системы.

004.89, Прикладные системы искусственного интеллекта. Интеллектуальные системы, обладающие знаниями.

004.891, Экспертные системы.

004.896, Искусственный интеллект в промышленных системах. Интеллектуальные САПР и АСУ. Интеллектуальные роботы.

В результате, мы имеем экспертную базу, на многих языках, где для каждого классификационного кода определено подмножество различных публикаций, содержащих знания по данной теме. Наша задача выделить эта знания и представить их в виде набора терминов, наиболее характерных для данной рубрики.

Поясним, что библиографической записью является элемент библиографической информации, фиксирующий в документальной форме сведения о документе, позволяющие его идентифицировать, раскрыть его состав и содержание в целях библиографического поиска. В состав библиографической записи входит библиографическое описание, дополняемое, по мере необходимости, заголовком, терминами индексирования, аннотацией, шифром хранения документа, справками о добавочных библиографических записях и другой информацией.

Рассмотрим, что представляет из себя библиографическая запись об одной книге:

Ирбенек, В. С. Алгоритмы проектирования топологии электрических соединений в САПР электронной аппаратуры // Зарубежная ра-

индексирования, аннотацией, шифром хранения документа, справками о добавочных библиографических записях и другой информацией.

Рассмотрим, что представляет из себя библиографическая запись об одной книге:

Ирбенек, В. С. Алгоритмы проектирования топологии электрических соединений в САПР электронной аппаратуры // Зарубежная радиоэлектроника. Успехи современной радиоэлектроники. — 2002. — № 7. — С. 71—79.

Аннотация: Представлен обзор наиболее эффективных точных и эвристических алгоритмов построения и оценки длин минимальных связывающих деревьев без дополнительных вершин (деревья Краскала-Прима)и с дополнительными вершинами (деревья Штейнера). Предложена параметрическая процедура для практически важного случая ортогональной метрики, которая в зависимости от размерности задачи обеспечивает оптимальное соотношение времени счета и качества получаемых решений для задач, возникающих в процессе проектирования топологии межсоединений в САПР электронной аппаратуры.

Ключевые слова: автоматизация; автоматизированное проектирование; алгоритмы; деревья Краскала-Прима; деревья Штейнера; ортогональная метрика; проектирование автоматизированное; САПР; электроника; электронная аппаратура.

Код УПК: 004.896.

Библиографическая запись состоит из многих полей, но в данном случае нас интересуют конкретно

- Код УДК

• Ключевые слова.

• Аннотация, если она есть.

Все эти поля являются обязательными при составлении библиографического описания книги.

Математическая модель библиографических баз данных

Рассмотрим множество библиографических баз данных как кортеж

где С — набор понятий (концепций УДК), С = ,

— множество ключевых терминов, ^"{^Ыл,

В — множество библиографических записей,

ЗДа.)) = (с|.0<») (Н -

количество ключевых терминов, заданных

экспертом для этой книги

Метод построения онтологии

Для преобразования кортежа в в кортеж О (онтологию), нам необходимо построить отображение Яс '■ С —> Ь. Определим отношение ЯЬс, выбрав множество библиографических записей, соответствующих

N

конкретной концепции: ^(¿(/».сЛ-и^,«). Данное отношение означает,

Л=1

что для каждой библиографической записи и отнесенной к ней концепции существует свой набор терминов.

Свернув множество отношений по всем библиографическим записям,

д/ к

получим л».(с,) = ил),е(6(/т),с,.) = ум'4. Поскольку термины в разных записях

т=1 4=1

могут повторятся, то вводим коэффициент повторения х[ - соиШ(Ьи т) | т) е Ь0 Л. Чем больше экспертов определили данный

термин для соответствующего кода УДК, тем выше его вес .

Итак, мы получили отображение К(с,) — {(К>**)}*=и,, т. е. что соответствует функции интерпретации концепций в нашей модели онтологии.

Сам метод можно представить в виде рис. 1.

;ТШе __ Автор Заглавие Издательство

Ключевые слова Код УДК

А ■!» л . .

Рис. 1

Общая архитектура приведена на рис. 2. Фактически, для построения онтологии, нужно разработать программу сканирования распределенных каталогов, имеющихся в Интернете с использованием протокола 239.50.

Общая архитектура приведена на рис. 2. Фактически, для построения онтологии, нужно разработать программу сканирования распределенных каталогов, имеющихся в Интернете с использованием протокола г39.50.

Программа сканирования распределенных каталогов

Рис.2

Система построения онтологии в качестве исходных данных использует готовый классификатор УДК, состоящий из 133 тысяч концепций, организованных в таксономию. Используя поисковый протокол г39.50 для доступа к библиографическим базам данных, мы формируем словарь онтологии на основании экспертной оценки библиографов более 300 библиотек нашей страны.

Для собственно обработки поисковых запросов используется г-сервер. 2-сервер последовательно устанавливает соединения с различными библиографическими каталогами, поддерживающими реализацию протокола 239.50. Для связи с каталогами используется сеть Интернет.

Для каждого поискового запроса программе возвращаются наборы библиографических записей, удовлетворяющих запросу, в данном случае, описаний книг и статей, имеющих указанный классификационный код УДК. Программа преобразует эти описания в словарь.

При построении онтологии были использованы преимущественно базы данных Арбикон. На данный момент онтология включает 133 151 концепцию и от 1000 до 50 терминов для каждой концепции.

В четвертой главе описывается экспериментальная система семантического поиска и сравнительный анализ эффективности системы в сравнении с 3 наиболее популярными коммерческими системами

Рис. 3.

Рассмотрим по шагам работу системы.

1. Модуль формирования онтологии подробно описан в главе 3.

2. Ввод пользователем поискового запроса " ~ У, состоящий из множества терминов.

3. Модуль интерпретации запроса использует онтологию для выявления множества понятий (концепций), семантически эквивалентных запросу. Для этого используется функция интерпретации терминов

Ъ(и) = \с„р(с, | и) = тах(р(с} |и)

1 = 1, п

, определяющие вероятность для

каждой концепции и возвращающая множество концепции с максимальной вероятностью.

каждой концепции и возвращающая множество концепций с максимальной вероятностью.

4. Модуль уточнения запроса предоставляет пользователю интерфейс для выбора из полученного множество вероятных концепций той, которую он считает наиболее соответствующей теме запроса.

5. Модуль расширения запроса работает только для одной, указанной пользователем концепции. Для расширения запроса применяется функция

интерпретации концепций, = {wy]y=1 „ формирующая для указанной

концепции список наиболее релевантных, семантически связанных с данным понятием терминов.

6. Множество полученных терминов передается поисковой системе Yandex Standard. ИПС ищет документы, содержащие все или часть терминов из расширенного запроса.

7. Найденные ссылки передаются модулю вывода результатов, который предоставляет пользователю возможность просмотреть найденные документы.

При анализе эффективности информационно-поисковых систем оценивается качество возвращаемых ответов. Вьщеляют 4 класса ресурсов по отношению к ответу системы и экспертным оценкам релевантности (см. таб. 1). Количество ресурсов в каждом из классов (R и т. п.) представляет собой первичную характеристику ответа системы. Эти характеристики и являются основой для большинства оценок.

Точность выдачи — отношение числа выданных релевантных документов к сумме числа выданных релевантных и числа выданных нерелевантных

документов.

R+K (6)

Полнота выдачи — отношение числа выданных релевантных документов к сумме числа выданных релевантных и числа невыданных релевантных документов.

* + (7)

На практике для сравнения ИПС используются усредненные графики зависимости полноты от точности.

В качестве тематики коллекции документов, на которой проводилось тестирование поисковой системы была выбрана математика. Коллекция документов предоставлена библиотекой ЧелГУ. Отбор документов проводился на основе УДК и экспертной оценки сотрудников библиотеки.

устойчивости и надежности, теория автоматов, алгебраические многообразия, степенные рядь1, факториальные кольца.

Результаты экспериментов для каждой системы приведены на рис. 4.

................ Windows IIS

___ Яндекс

-------Google

-SemanticSearch

0,3 0,4 0,5 0,6 0,7 0,8 0,9

Полнота

РИС. 4.

Для одного и того же уровня точности значения полноты на средней части графика для системы ЗетапйсЗеагсЬ заметно лучше, что обусловлено тем, что было найдено больше релевантных документов за счет расширения запроса семантически связанными терминами.

Основные результаты работы

Проведенные в рамках данной работы исследования образуют теоретическую и практическую основу для решения задачи семантического поиска в полнотекстовых коллекциях документов. К основным результатам диссертационного исследования следует отнести следующее:

1. Разработана математическая модель семантического поиска, использующая онтологию предметной области, доказано существование непустого решения — семантической интерпретации запроса пользователя к ИПС.

2. Разработана математическая модель онтологии ориентированной на задачи информационного поиска, определены и математически обоснованы формальные функции интерпретации концепций и терминов.

3. Предложен метод для автоматического создания онтологии на основе распределенных информационных библиографических коллекций, имеющихся в сети Интернет.

3. Предложен метод для автоматического создания онтологии на основе распределенных информационных библиографических коллекций, имеющихся в сети Интернет.

4. Реализованы алгоритмы формирования обобщенной онтологии на основе протокола Z39.50, в том числе:

- алгоритм формирования автоматизированных запросов к протоколу Z39.50;

- алгоритм обхода сети Интернет, в частности серверов с библиографическими и полнотекстовыми информационными коллекциями и отбора необходимой информации по запросу;

- алгоритм слияния результатов поиска от различных серверов в единую обобщенную онтологию.

5. Разработана информационная система «semanticSearch», реализующая семантический поиск ресурсов по запросу пользователя в больших электронных коллекциях полнотекстовых документов на основе обобщенной онтологии. Система реализована на основе указанных выше методов.

Все основные положения диссертационного исследования полностью

опубликованы в следующих работах:

В рецензируемых журналах из списка ВАК

1. Об одном подходе к реализации семантического поиска документов в электронных библиотеках / И.В. Захарова / Вестник УГАТУ: Научн. журнал Уфимского гос. авиац.-техн. ун-та / Серия «Управление, вычислительная техника и информатика», 2009. Т. 12 № 1 (30). С. 133—138.

В других изданиях

2. Об одном подходе к автоматическому построению онтологии для задач анализа текстов / И. В. Захарова, П. П. Городечный // Компьютерная лингвистика и интеллектуальные технологии: труды Междунар. конф. Диалог'2009 (Бекасово, 27—31 мая 2009 г.). Вып. 8(15) — М. : РГГУ, 2009. —С. 116—120.

3. Способы автоматического построения онтологии для задач анализа текстов / И. В. Захарова, М. С. Тимченко // Знания—Онтологии— Теории» : труды Всеросийск. конф. 30HT-09 (Новосибирск, 22—24 октября 2009 г), Новосибирск: 2009. — Т. 2. С.164—167.

4. Оценка эффективности семантического поиска/ И. В. Захарова, А. В. Мельников, М. С. Тимченко // Компьютерные науки и информационные технологии : труды 8-го Междунар. сем. (CSIT'2008). : изд-во Уфимс. гос. авиац.-техн. ун-та, 2006. Т. 1. С. 177—178. (англ. язык).

2Q

Уфа : изд-во Уфимс. гос. авиац.-техн. ун-та, 2007. Т. 2. С. 203—206. (англ. язык).

5. Автоматическое построение онтологии для задач анализа текстов / И. В. Захарова, А. В. Мельников, Я. А. Вохминцев // Компьютерные науки и информационные технологии : тр. 8-го Междунар. сем. (CSIT'2006). : изд-во Уфимс. гос. авиац.-техн. ун-та, 2006. Т. 1. С. 177—178. (англ. язык).

6. Метод автоматического построения онтологии на основе библиографических баз данных / И. В. Захарова, А. В. Мельников // Компьютерные науки и информационные технологии : тр. 7-го Междунар. сем. (CSIT'2005). : изд-во Уфимс. гос. авиац.-техн. ун-та, 2005. Т. 3. С. 270—272. (англ. язык).

7. Метод организации семантического поиска документов в электронных библиотеках / И. В. Захарова // II Междунар. науч.-практ. конф. «Современные информационные технологии и ИТ-образование», 18— 22 декабря 2006 г. М.: С. 458—462.

8. Математическая модель онтологии для задач анализа текстов / И. В. Захарова // Актуальные проблемы в науке и технике: труды 4-й Всероссийск. школы сем. Уфа: 2009. Т. 1 С. 210—215.

9. Об одном подходе к автоматическому построению онтологии для задач анализа текстов / И. В. Захарова, А. В. Мельников // Тезисы Всероссийск. науч. конф. «Математика. Механика. Информатика», 19—22 сентября 2006 г. Челябинск. С. 57.

10. Метод организации семантического поиска документов в полнотекстовых коллекциях / И. В. Захарова // Междунар. науч. конф. «Информационно-математические технологии в экономике, технике и образовании», 22—24 ноября 2007 г., Екатеринбург: УГТУ-УПИ, 2007. С. 95—97.

11. Расчет книгообеспеченности учебного процесса средствами протокола Z39.50 / Г. Н. Зеленина, И. В. Захарова // Библиотеки учебных заведений, 2005. № 16. С. 40—49.

Подписано в печать 13.05.10. Формат 60x84 1ц6. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,0. Уч.-изд. л.1,25. Тираж 110 экз. Заказ 131. Цена бесплатно

ГОУ ВПО «Челябинский государственный университет» 454021, г. Челябинск, ул. Бр. Кашириных, 129 Издательство ГОУ ВПО ЧелГУ 454021, г. Челябинск, ул. Молодогвардейцев, 576 Полиграфический участок Издательства ГОУ ВПО «ЧелГУ» 454021, г. Челябинск, ул. Молодогвардейцев, 576

Оглавление автор диссертации — кандидата физико-математических наук Захарова, Ирина Викторовна

1 ИНФОРМАЦИОННЫЙ поиск.ю

1 1 ИНФОРМАЦИОННЫЙ поиск

1.1.1 Модели информационного поиска

1.12 Булевское семейство моделей.

1.13 Векторные модели.

1 1.4 Вероятностные модели.

12 Релевантность

1 3 онтологии как интеллектуальные средств а представления знаний

1 3.1 Онтологии — определения и возникновение

13 2 Типы онтологии.

13 3 Разработка онтологии.

13 4 Применение онтологий

1.4 Поиск по контексту или семантический поиск.

2 ФОРМАЛЬНАЯ МОДЕЛЬ СЕМАНТИЧЕСКОГО ПОИСКА.

21 Формальные модели онтологий

2 2 Модель онтологии, специализированной для задач полнотекстового поиска

2 3 Функция интерпретации терминов

2 4 Функция интерпретации концепгдий

2 5 Математическая модель поисковой системы

2 6 Пример работы алгоритма.

3 ГЛАВА. МЕТОД ПОСТРОЕНИЯ ОНТОЛОГИИ НА ОСНОВЕ ББД.

3 1 Логическое представление библиографических баз данных

3.1.1 Система классификации УДК.

3 1.2 Описание библиографической записи.

3 2 Математическая модель библиографических баз данных

3 3 Метод построения онтологии

3 4 Структура библиографических баз данных и распределенный поиск по ним.

341 Физическая структура ББД.

3 4 2 Управление доступо и к информационным ресурсам • протокол Z39.50.

3 4 3 Особенности существующих систем распределенного поиска.

3.4.4 Техническая реализация поддержки протокола.

3 5 Архитектура предлагаемого решьния.

3.5.1 Общая логика работы системы.

3.5.2 Структуры данных и алгоритм работы клиентской программы.

3.4.3. Проблемы распределенного поиска.

3.6 Описание полученной онтологии.

4 ГЛАВА 4. АРХИТЕКТУРА, РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ ЭКСПЕРИМЕНТАЛЬНОЙ СИСТЕМЫ СЕМАНТИЧЕСКОГО ПОИСКА.

4.1 Описание ИПС, участвующих в тестирова! ши.

4.2 Архитектура и реализация системы.

4.2.1 Архитектура системы.

4.2.2 Реализация алгоритма семантического поиска с использованием онтологии.

4.3 Оценка эффективности модели.

4.3.1 Метод оценки.

4.3.2 Описание тестов.

4.3.3 Сравнительная характеристика эффективности модели.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Захарова, Ирина Викторовна

Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта - систем обработки знаний.

Основной задачей, возникающей при работе с полнотекстовыми базами данных, является задача поиска документов по их содержанию. Однако, ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные, в частности, поисковыми машинами в интернет, зачастую не обеспечивают адекватного выбора информации по запросу пользователя.

Первые информационно-поисковые системы (ИПС) появились более тридцати лет назад [0,2], и с тех произошли существенные изменения, как в поисковых алгоритмах, так и в техническом оснащении. Современные поисковые системы [85, 86, 87, 54] автоматически собирают информацию в Интернете, учитывают морфологические особенности и производят оценку значимости найденных документов. В настоящее время в поисковых системах используется релевантная модель оценки соответствия исследуемого документа поисковому запросу [67]. Основная проблема заключается в сложности точной формулировки запроса - подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом причин, как недостаточным знанием пользователем терминологии предметной области, наличием в языке многозначных и синонимичных слов, и даже орфографическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе.

Другая фундаментальная причина заключается в том, что иногда пользователь не знает точно, какую именно информацию ему хотелось бы получить, имея лишь общее представление о границах своих интересов.

Одно из перспективных направлений развития информационно-поисковых систем - построение моделей «семантического», т.е. «смыслового» поиска - поиска ресурсов, наиболее релевантных запросу, а не просто содержащие слова из запроса [27].

Попытки реализации семантического поиска начались в конце 20 века, как зарубежными, так российскими учеными В 2000 году был предложен способ поиска схожих по семантике документов на основе сопоставления их лексических векторов [14]. В 1999-2002 годах как зарубежными так и российскими учеными было предложено использовать в модели семантического поиска онтологии предметных областей [29,82,88].

Онтологии включают доступные для компьютерной обработки определения основных понятий и объектов предметной области, свойства объектов и связи между ними, при этом онтологии обычно формируются экспертами в данной предметной области, преимущественно вручную [24].

В России информационно-поисковая система с использованием онтологии была впервые реализована в информационно-поисковой системе УИС «Россия» [6]. Смирнов И.В., Соченков И.В.Муравьев В. В., Тихомиров И. А. предложили собственную модель семантического поиска, в которой объединены онтологические, статистические и лингвистические методы поиска, реализовав ее в информационно-поисковой системе «Exactus» [7]. Основная проблема при реализации данного подхода - отсутствие достаточно больших и качественных онтологии предметных областей, особенно на русском языке.

Последние несколько лет в работах [37, 62 ,63, 61, 65] рассматриваются различные методы для автоматического формирования онтологии, для чего используется лексический и синтаксический анализ документов. Но релевантность полученных онтологий достаточно низкая, и вопрос автоматического построения онтологий остается актуальным.

Основные задачи диссертационного исследования.

Основной целью диссертационного исследования является разработка математической модели семантического полнотекстового поиска на основе онтологии предметной области, автоматически построенной на базе информационных библиографических коллекций.

Для достижения этой цели необходимо решить следующие задачи:

1. Провести анализ различных моделей информационного поиска, использующих, в том числе семантические методы;

2. разработать модель онтологии, способной отражать понятия и структуры, свойственные текстам естественного языка;

3. предложить алгоритмы для создания подобной онтологии на основе распределенных информационных библиографических коллекций с классификационными кодами;

4. разработать математическую модель семантического поиска, использующую созданную онтологию;

5. реализовать систему формирования обобщенной онтологии на основе распределенных информационных коллекций по протоколу Z39.50;

6. разработать информационную систему «semanticSearch», осуществляющую семантический поиск ресурсов по запросу пользователя в больших электронных коллекциях полнотекстовых документов.

Научная новизна и практическая ценность диссертационного исследования:

1. Построена новая расширенная модель онтологии предметной области, в которой определены формальные функции интерпретации концепций и терминов, что повышает эффективность ее применения для задачи семантического поиска.

2. Построена математическая модель семантического поиска использующей расширенные функции интерпретации онтологии предметной области, что обеспечивает увеличение коэффициента полноты информационного поиска.

3. Предложен новый метод автоматического построения онтологии на основе информационных библиографических коллекций, распределенных в сети Интернет, позволяющий сформировать более релевантную онтологию, базирующуюся на результатах работы экспертов.

При выполнении исследования используется математический аппарат теории множеств, теории вероятности, когнитивные модели представления знаний.

Основными практическими результатами исследования является следующее:

1. Разработана технология построения онтологии на основе распределенных библиографических баз данных с использованием протокола z39.50.

2. Разработаны, реализованы и внедрены в рамках библиотечной информационной системы ЧелГУ алгоритмы семантического поиска на основе полученной онтологии.

На защиту выносятся:

1. Математическая модель семантического поиска на основе онтологического подхода, учитывающая все виды отношений в онтологии и функции интерпретации.

2. Расширенная математическая модель обобщенной онтологии, специализированной для задач информационного поиска с формализованными функциями интерпретации концепций и интерпретации терминов.

3. Новый метод автоматизированного построения обобщенной онтологии на основе библиографических баз данных, распределенных в сети Интернет.

4. Практическое применение предложенного метода для создания обобщенной онтологии с использованием возможностей протокола Z39.50

5. Предложен ряд алгоритмов на основе модели семантического поиска для практической реализации в информационно-поисковой системе.

Заключение диссертация на тему "Математическая модель семантического поиска с использованием онтологического подхода"

Заключение

Проведенные в рамках данной работы исследования образуют теоретическую и практическую основу для решения задачи семантического поиска в полнотекстовых коллекциях документов. К основным результатам диссертационного исследования следует отнести следующее:

Windows lis Яндекс Google SemanticSearch

Личность----

-•л.

А А |

Полнота

1. Разработана математическая модель семантического поиска, использующая онтологию предметной области, доказано существование непустого решения - семантической интерпретации запроса пользователя к ИПС.

2. Разработана математическая модель онтологии ориентированной на задачи информационного поиска, определены и математически обоснованы формальные функции интерпретации концепций и терминов.

3. Предложен метод для автоматического создания онтологии на основе распределенных информационных библиографических коллекций, имеющихся в сети Интернет.

4. Реализованы алгоритмы формирования обобщенной онтологии на основе протокола Z39.50, в том числе:

5. алгоритм формирования автоматизированных запросов к протоколу Z39.50;

6. алгоритм обхода сети Интернет, в частности серверов с библиографическими и полнотекстовыми информационными коллекциями и отбора необходимой информации по запросу;

7. алгоритм слияния результатов поиска от различных серверов в единую обобщенную онтологию.

8. Разработана информационная система «semanticSearch», реализующая семантический поиск ресурсов по запросу пользователя в больших электронных коллекциях полнотекстовых документов на основе обобщенной онтологии. Система реализована на основе указанных выше методов.

Библиография Захарова, Ирина Викторовна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. LUHN, Н.Р. A statistical approach to mechanised encoding and searching of library information// IBM Journal of Research and Development, 1, 1957, P. 309-317.

2. Stephen E. Robertson, C. J. van Rijsbergen, Martin F. Porter: Probabilistic Models of Indexing and Searching. SIGIR, 1980. P.35-56

3. O.J1. Голицына, H.B. Максимов. Технология и средства доступа к распределенным ресурсам электронных библиотек и баз данных.//Электронные библиотеки, 2000, Т 3, вып. 1.

4. Мидоу Ч., Анализ информационно-поисковых систем, М., Мир, 1970

5. Мальковский М. Г., Грацианова Т. Ю., Полякова И. Н. Прикладное программное обеспечение: системы автоматической обработки текстов//Учебное пособие для студентов факультета ВМиК МГУ, Москва, МГУ,2000

6. И.В. Смирнов, И.В.Соченков, В.В. Муравьев, И.А. Тихомиров. Результаты и перспективы поискового алгоритма

7. Exactus. // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2007-2008: Семинар в рамках Всероссийской науч. конф. RCDL'2008. 9 окт. 2008 г., Дубна изд-во Санкт-Петербург: НУ ЦСИ, 2008. С.66-76.

8. Modern Information Retrieval. Baezo-Yates R. and Ribeiro-Neto B. ACM Press Addison Wesley, 1999.

9. Information retrieval using a Singular Value Decomposition Model of Latent Semantic Structure. G. W. Furnas, S. Deerwester, S. T. Dumais, Т. K. Landauer, R. A. Harshman, L.A. Streeter, and K.E. Lochbaum. ACM SIGIR, 1988.

10. Greisdorf H. Relevance: An Interdisciplinary and Information Science Perspective. Informing Science, 3(2):67-72, 2000.

11. Mizzaro S. Relevance: The Whole History. Journal of the American Society of Information Science, 48(9):810-832, 1997.

12. Gabrielli S., Mizzaro S. Negotiating a multidimensional framework for relevance space. In Proc. of the MIRA'99, pp. 1-15, 1999.

13. Draper S. Mizzaro's framework for relevance. Available from http://staff.psy.gla.ac.Uk/~ steve/stefano.html.

14. Vakkari P. Cognition and Changes of Search Terms and Tactics during Task Performance: A Longitudinal Study. In Proc. of the RIAO'2000, pp. 894-907, 2000.

15. Saracevic T. Relevance reconsidered 1996. In Proc. of the CoLlS2, pp. 201-218, 1996.

16. Vakkari P. Relevance and contributory information types of searcheddocuments in task performance. In Proc. of the SIGIR'OO, 2000.

17. Studer R., Benjamins V.R., Fensel D. Knowledge Engineering: Principles and Methods. In Data & Knowledge Engineering, 25, 1998, pp. 161 -197.

18. Patil R.S. Causal Representation of Patient Illness for Electrolyte and Acid-Base Diagnosis. PhD Thesis, Laboratory for Computer Science, MT, 1981.

19. Weiss S.M., Kulikovski C.A., Amarel S. & Safir A. A Model-Based Method for Computer-Aided Medical Decision Making. In Clancey W.J. & Shortliffe E.H. Editors, Reading in Medical Artificial Intelligence, the First Decade. Addison Wesley, 1984.

20. Черняховская М.Ю. Представление знаний для диагностических экспертных систем в медицине. Владивосток: ДВО РАН СССР, 1983.

21. Проблемно-ориентированные представления. Препр. Владивосток: ИАПУ ДВНЦ АН СССР, 1985.

22. Genesereth, M.R., Fikes R.E. et al. Knowledge Interchange Format (version 3.0) Reference Manual. Interlingua Working Group of the DARPA Knowledge Sharing Effort. Computer Science Department, Stanford University. Report Logic-92-1.

23. Gruber T.R. Ontolingua: A Mechanism to Support Portable Ontologies. Technical Report KSL-91-66, Stanford University, Knowledge Systems Laboratory, 1992.

24. G ruber T.R. A Translation Approach to Portable Ontology

25. Specifications. In Knowledge Acquisition, 1993, 5: 199-220.

26. Wielinga, В., Schreiber A.T., Jansweijer W., Anjewierden A. and van Harmelen F. Framework and Formalism for Expressing Ontologies (Version 1). ESPRIT Project 8145 KACTUS, Free University of Amsterdam Deliverable, D01b.1, 1994.

27. Mike Ushold, Michael Gruninger (1996) Ontologies: Principles, Methods and Applications, Knowledge Engineering Review, Volume 11,Number 2.

28. Mike Ushold, Martin King (1995) Towards a Methodology for Building Ontologies, Workshop on Basic Ontologica Issues in Knowledge Sharing.

29. Jeff Heflin. James A. Hendler. Sean Luke: Applying Ontology to the Web: A Case Study. IWANN (2) 1999. P. 715-724

30. Richard Fikes, Adam Farquhar (1997) Large-Scale Repositories of Highly Expressive Reusable Knowledge.

31. Nicola Guarino (1999) OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, May/June , pp. 70-80.

32. H. Takeda, M. Takaai, and T. Nishida (1998) Collaborative developmentand Use of Ontologies for Design, Proceedings of the Tenth International IFIP WG 5.2/5.3 Conference PROLAMAT 98, September 9-10-11,12,Trento, Italy.

33. V.F. Khoroshevsky. (1998) Knowledge v. s. data spaces: how an applied semiotics to work on web. //Proceedings of САГ98, Pushchino, Russia, C. 7-16.

34. Ю.А. Загорулько, И.Г. Попов (1997) Описание сложных предметных областей на основе интеграции средств представления знаний. // Труды международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям, Москва, -С. 110-115.

35. Н. В. Майкевич.(1998) От информационного пространства к пространству знаний. Онтологии в Интернет. //Труды конференции КИИХ98, Пущино, Россия. С.152-158.

36. Andreas Hotho, Alexander Maedche, Steffen Staab. Ontology-based Text Clustering. In Proc. of IJCAI 2001. 2001.

37. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Karen Sparck Jones. Journal of Documentation, 1972.

38. Relevance Weighting of Search Terms. S.E. Robertson and Sparck Jones K. JASIS, 1976.

39. On relevance, probabilistic indexing and information retrieval. M. E. Maron and J. L. Kuhns. Journal of the ACM, 1960.

40. Information retrieval using a Singular Value Decomposition Model of Latent Semantic Structure. G. W. Furnas, S. Deerwester, S. T. Dumais, Т. K. Landauer, R. A. Harshman, L.A. Streeter, and K.E. Lochbaum.1. ACM SIGIR, 1988.

41. The approximation of one matrix by another of lower rank. C. Eckart, G. Young, Psychometrika, 1936.

42. Семантические поисковые системы. http://asknet.ru/Analytics/semantics.htm.

43. Смирнов А.В., Пашкин М.П., Шилов Н.Г., Т.В. Левашова. Онтологии в системах искусственного интеллекта: способы построения и организации (часть 1) // "Новости искусственного интеллекта" № 1 (49) 2002 г.

44. Alexander S. Kleshchev, Irene L. Artemjeva. Mathematical Models Of Domain Ontologies. //Technical Report, Vladivostok2000

45. Hinkelmann K. and Kieninger Th., 1997 Task-oriented web-search refinement and information filtering.

46. T. Joyce and R.M. Needham// The Thesaurus Approach to Information Retrieval American Documentation, 1958

47. Karen Sparck Jones.A Statistical Interpretation of Term Specificity and Its Application in Retrieval.Journal of Documentation, 1972

48. W. Furnas, S. Deerwester, S.T. Dumais, Т.К. Landauer, R. A. Harshman, L.A. Streeter, and K.E. Lochbaum.Information retrieval usinga Singular Value Decomposition Model of Latent Semantic Structure. GACM SIGIR, 1988

49. The approximation of one matrix by another of lower rank C. Eckart, G. Young. Psychometrika, 1936

50. S.E. Robertson and Sparck Jones K.Relevance Weighting of Search Terms//JASIS, 1976

51. E. А. Гребеников Метод усреднения в прикладных задачах. М.-.Наука, 1986 г.

52. Borlund P., Ingwersen P. Measures of relative relevance and ranked half-life: Performance indicators for interactive IR. In Proc of the SIGIR'98, pp. 324-331, 1998.

53. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.

54. Большая Российская энциклопедия, 1969-1978

55. RUSMARC в примерах : учебное пособие для каталогизаторов / Национальный информационно-библиотечный центр «ЛИБНЕТ». — М. : ФАИР-ПРЕСС : Центр «ЛИБНЕТ», 2003.

56. Боровков, А. А. «Теория вероятностей», М.: Наука, 1986.

57. Максимов Н.В., Сысойкина М.А. О реализации электронной библиотеки с использованием протоколов HTTP и Z39.50// Электронные библиотеки, 2002, Т 5, вып. 1.

58. Жижимов О.Л. Введение в Z39.50. Новосибирск: Изд-во НГОНБ, 2000.

59. Indexing by Latent Semantic Analysis. S. Deerwester, S.T.116

60. Dumais, G.W. Furnas, Т.К. Landauer, R. Harshman. JASIS, 1990.

61. Браславский П.И., Соколов Е.А. Сравнение пяти методов извлечения терминов произвольной длины//Материалы международной конференции «Диалог 2008», Москва. С.67-75

62. Ермаков А.Е. Автоматизация онтологического инжиниринга в системах извлечения знаний из текста//Материалы международной конференции «Диалог 2008», Москва. С. 154-159

63. Лукашевич Н.В., Добров Б.В., Чуйко Д.С. Отбор словосочетаний для словаря системы автоматической обработки текстов. //Материалы международной конференции «Диалог 2008», Москва. С.339-345

64. Рубашкин В.Ш., Пивоварова Л.М Онторедактор как комплексный инструмент онтологической инженерии. //Материалы международной конференции «Диалог 2008», Москва. С. 453-460

65. Сидорова Е. А., Кононенко И. С. Подход к извлечению фактов из текста на основе онтологии. //Материалы международной конференции «Диалог 2009», Москва. С.451-458

66. М. Овдей, Г.Ю. Проскудина. Обзор инструментов инженерии онтологий. Электронные библиотеки, 2004, Том 7, Выпуск 4.

67. Guido Zuccon, Leif Azzopardi, Keith van Rijsbergen: The Quantum Probability Ranking Principle for Information Retrieval. ICTIR 2009.P. 232-240.

68. Дональд Кнут. Искусство программирования, том 3. Сортировка и поиск = The Art of Computer Programming, vol.3. Sorting and Searching. — 2-е изд. — M.: «Вильяме», 2007. — С. 824

69. Когаловский М. Р. Энциклопедия технологий баз данных. М.: Финансы и статистика, 2002. - 800 с.

70. Когаловский М. Р. Электронные библиотеки развитие продолжается//Программирование, МАИК,"Наука"/ Интерпериодика. - 2002. -№ 4.

71. Когаловский М. Р. Интеграция данных в информационных системах./Яруды третьей Всероссийской конференции "Стандарты в проектах современных информационных систем", Москва, 23-24 апреля 2003 г.

72. Snow R., Jurafsky D., Ng A.Y. Semantic taxonomy induction from heterogenous evidence // Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL. Sydney, Australia. - 2006. pp.801-808.

73. Nedellec C.,Nazarenko C. Ontology and Information Extraction: A Necessary Symbiosis II Ontology Learning from Text: Methods, Evaluation and Applications. BuitelaarP., Cimiano P. and Magnini B.(eds .), lOS Press Publication:2005.

74. Nicola Guarino. The Ontological Level: Revisiting 30 Years of Knowledge Representation. Conceptual Modeling: Foundations and Applications, 2009. P. 52-67

75. Гаврилова T.A. Извлечение знаний: лингвистический аспект // Корпоративные системы (Enterprise Partner), 2001. № 10 (25). - с. 24-285.

76. Страуструп, Бьерн. Язык программирования С++/ Б. Страуструп ; пер. с англ. С. Анисимова, М. Кононова ; под ред. Ф.

77. Андреева, А. Ушакова .— спец. изд. — М.: Бином-Пресс, 2007

78. Роман Гадиатулин, Светлана Чуприна. Rule-Mining: подход к автоматизированному извлечению онтологий //Xlll-th International Conference,Knowledge-Dialogue-Solution, june 18-24, 2007, Varna (Bulgaria). C.445-451.

79. Mike Taylor. Zthes: A Z39.50 Profile for Thesaurus Navigation. Version 0.3b.

80. ANSI/NISO Z39.50-1995. Information Retrieval (Z39.50): Application Service Definition and Protocol Specification. Z39.50 Maintenance Agency Offical Text for Z39.50-1995, July 1995.

81. Жижимов О.Л., Мазов H.A., Болванов А.Ю. Опыт построения распределенной информационной системы на базе протокола Z39.50. Матер. 6 Междунар. Конф. "Крым-99", т.1, стр. 249-252.

82. Воскресенский А.Л., Хахалин Г.К. Средства семантического поиска. //Материалы международной конференции «Диалог 2006», Москва. С.100-105.

83. Лукашевич Н.В., Добров Б.В. Тезаурус русского языка для автоматической обработки больших текстовых коллекций.// Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. семинара Диалог'2002. М.: Наука, 2002. Т.2, С. 338-346.

84. Осипов Г. С., Куршев Е. П., Кормалев Д. А., Трофимов И. В., Рябков О. В., Тихомиров И. А.// Семантический поиск в среде интернет. ИПС РАН, 2003.

85. Ермаков А. Е. Эксплицирование элементовсмысла текста средствами синтаксического анализа-синтеза // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. — М.: Наука, 2003.

86. Lawrence Page, Sergey Brin, Rajeev Motwani and Terry Winograd. The PageRank Citation Ranking: Bringing Order to the Web. — 1998 r.

87. Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — 1998 r.

88. Гусев Владимир Сергеевич. Яндекс: эффективный поиск информации в Интернет. Краткое руководство. — М.: «Диалектика», 2007. — 224 с.

89. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. Учебник. -СПб.: Питер, 2000.