автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модели и алгоритмы обработки корпуса документов научной информации

кандидата технических наук
Седова, Яна Анатольевна
город
Астрахань
год
2011
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы обработки корпуса документов научной информации»

Автореферат диссертации по теме "Модели и алгоритмы обработки корпуса документов научной информации"

4845703

СЕДОВА ЯНА АНАТОЛЬЕВНА

МОДЕЛИ И АЛГОРИТМЫ ОБРАБОТКИ КОРПУСА ДОКУМЕНТОВ НАУЧНОЙ ИНФОРМАЦИИ

Специальность: 05.13.01 - Системный анализ, управление и обработка информации (промышленность, информатика)

АВТОРЕФЕРАТ

диссертации па соискание ученой степени кандидата технических наук

1 2 МАЙ 2011

Астрахань - 2011

4845703

Работа выполнена в Федеральном государственном образовательном учреждении высшего профессионального образования «Астраханский государственный технический университет»

Научный руководитель:

доктор технических наук, профессор Квятковская Ирина Юрьевна.

Официальные оппоненты:

заслуженный деятель науки РФ, доктор технических наук, профессор Камаев Валерий Анатольевич,

кандидат технических наук, доцент Щербатов Иван Анатольевич.

Ведущая организация:

ГОУ ВПО «Тамбовский государственный технический университет».

Защита состоится 14 мая 2011 г. в 12 часов 00 минут на заседании диссертационного совета Д.307.001.06 при Астраханском государственном техническом университете по адресу: 414025, г. Астрахань, ул. Татищева 16, ауд. Г. 305.

Отзывы на автореферат в двух экземплярах, заверенные гербовой печатью организации, просим направлять по адресу: 414025, г. Астрахань, ул. Татищева, 16, ученому секретарю диссертационного совета Д.307.001.06.

С диссертацией можно ознакомиться в библиотеке Астраханского государственного технического университета.

Автореферат разослан <(/?>» апреля 2011 г.

Ученый секретарь

диссертационного совета А. А. Ханова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Современный этап развития науки характеризуется значительными темпами увеличения объема научного знания, представленного в виде диссертаций и авторефератов. Согласно статистике, в последние годы количество диссертаций, ежегодно утверждающихся Высшей аттестационной комиссией, в среднем растет на 5% в год. Часть научных знаний хранится в виде корпусов документов, содержащих монографии, публикации, эссе, диссертации и т. д. Наибольшей информативностью и достоверностью обладает автореферат диссертации, который полностью повторяет ее терминологию и позволяет представить диссертацию в сжатом виде.

Особенностью представления документальных научных знаний является их слабая структурированность, что делает невозможным их автоматическую обработку для организации эффективного доступа к знаниям.

Вопросами автоматизации анализа естественного языка занимались многие ученые как в нашей стране, так и за рубежом: в области автоматического понимания текстов - Р. Шенк, Э. В. Попов, Н. Н. Леонтьева, Э. Ф. Скороходько, в области разработки информационно-поисковых систем - П. И. Браславский, И. Е. Кураленок, И. С. Некрестьянов, Б. В. Добров, Д. В. Ланде, Н. В. Лукашевич, в области разработки семантических моделей текста - Т. А. Гаврилова, В. Ф. Хорошевский, А. Е. Ермаков, A. Maedche, Е. Alfonseca, Е. Agirre, в области выделения терминов из текста - Е. И. Большакова, К. Frantzi.

Работы этих авторов привели к созданию ряда методов анализа естественного языка, позволяющих в автоматизированном режиме обрабатывать неструктурированные тексты. Однако существующие модели информационного поиска обладают рядом недостатков: традиционные модели отличаются низкой эффективностью поиска, сложностью формулировки запроса, новые модели - необходимостью создания вручную хранилищ знаний, используемых для поиска.

Таким образом, в настоящее время существует актуальная научная и техническая задача, состоящая в разработке методик, позволяющих автоматизировать анализ представленного документально научного знания. Решение такой задачи позволит повысить эффективность обработки информации при анализе научного знания.

Объектом исследования является корпус документов научной полнотекстовой информации.

Предмет исследования - методы, модели и алгоритмы обработки текстовой информации.

Целью настоящей работы является повышение эффективности аналитической обработки научной информации, представленной в виде распределенных корпусов текстовых документов.

Поставленная цель достигается решением следующих задач:

1. Провести системный анализ процесса обработки неструктуриро-

Л

ванной текстовой информации для выявления системных характеристик корпуса документов.

2. Разработать семантическую модел ь корп уса документов и алгоритм ее построения на основе латентно-семантического анализа, использующий статистические меры оценки веса терминов.

3. Разработать алгоритм уточнения поискового запроса на сгенерированной семантической модели корпуса, использующий поиск в глубину и в ширину и кластерный анализ множества терминов.

4. Модифицировать существующую информационную технологию поиска и анализа документов путем применения разработанных алгоритмов и разделения этапа семантического анализа текста на локальный и глобальный этапы.

5. Апробировать модифицированную информационную технологию обработки информации с использованием вновь разработанной автоматизированной системы.

Методы исследования. Для решения поставленной задачи применялись методы системного анализа, линейной алгебры, кластерного анализа, теории графов, теории множеств, теории информации, теории алгоритмов.

Научная новизна.

1. По результатам теоретико-множественного и теоретико-информационного анализа выделены системные характеристики корпуса документов, позволяющие расширить набор параметров информационного поиска.

2. Модифицирована информационная поисковая технология в части анализа и систематизации распределенного научного знания, позволяющая в процессе интеллектуального анализа неструктурированной текстовой информации генерировать семантические модели корпуса документов.

3. Разработан алгоритм построения трехмерной семантической модели корпуса документов, позволяющей представить его в форме графа для дальнейшей визуализации и анализа с использованием введенной системы количественных оценок свойств корпуса.

4. Разработан алгоритм уточнения поискового запроса, осуществляющий кластерный анализ множества терминов и эмулирующий движение по семантической модели корпуса документов как поиск на графе в глубину и ширину. Предложены критерии останова: достижение заданного уровня энтропии, измеряющей детализацию термина, достижение заданного порога количественных характеристик термина.

Практическая ценность работы. Результаты работы могут применяться для анализа как распределенных, так и централизованных хранилищ данных и использоваться для обработки любых документальных знаний, содержащих персоналии, названия организаций, даты и другие устойчивые выражения.

Реализация результатов работы. Результаты исследования реализованы в госбюджетных научно-исследовательских работах ФГОУ ВПО «Астраханский государственный технический университет» «Теоретический анализ и математическое моделирование информационных систем», «Теоретический анализ и математическое моделирование систем поддержки принятия управленческих решений»; внедрены в учебный процесс Астраханского государственного технического университета и в муниципальном бюджетном учреждении г. Астрахань «Информационно-аналитический центр»

На основе модифицированной информационной технологии разработана автоматизированная система «Информационно-аналитическая система интеллектуального анализа текстовых электронных ресурсов», прошедшая государственную регистрацию.

Личный вклад автора. В работах, выполненных в соавторстве, автору принадлежат формализация задачи, построение моделей, разработка алгоритмов, проектирование и реализация программного обеспечения.

Апробация научных результатов. Основные положения докладывались и обсуждались на конференциях студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Нижний Новгород, 2007-2009), XIV-XVI Международных молодежных научных форумах «Ломоносов» (Москва, 2007-2009), V Всероссийской межвузовской конферен ции молодых ученых (Санкт-Петербург, 2008), XXI—XXIII Международных научных конференциях «Математические методы в технике и технологиях» (Саратов, 2008; Псков, 2009), I Международной научно-практической конференции «Эволюция системы научных коммуникаций ассоциации университетов прикаспийских государств» (Астрахань, 2008), Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Москва, 2009), V Всероссийской научно-инновационной конференции студентов, аспирантов и молодых ученых (Москва, 2009), 54-ой Научно-практической конференции профессорско-преподавательского состава Астраханского государственного технического университета (Астрахань, 2010), Международной научно-практической конференции «Фундаментальные и прикладные исследования университетов, интеграция в региональный инновационный комплекс» (Астрахань, 2010).

Публикации. Основные положения диссертационной работы отражены в 16 опубликованных научных работах, среди которых 3 статьи в журналах, рекомендованных ВАК, 1 свидетельство о регистрации программы для ЭВМ и 12 публикаций в сборниках международных, всероссийских научных конференций.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав основного текста, заключения, списка литературы из 96 наименований и 2 приложений. Общий объем работы 107 страниц

машинописного текста, который включает 38 рисунков, 16 таблиц и 39 формул.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, определены цель и задачи исследования.

Первая глава посвящена обзору и анализу результатов исследований по системному анализу и автоматизированной обработке неструктурированной текстовой информации. Рассмотрены существующие типы моделей информационного поиска, типовая архитектура современных информационно-поисковых систем.

Практика показывает слабую востребованность методов семантической обработки текстовой информации, поскольку они опираются на онтологии, тезаурусы или семантические сети, создание которых требует привлечения экспертов. Практическое применение получили методы, использующие статистическую обработку текста и не осуществляющие его семантический анализ.

Для оценки эффективности информационного поиска общепринятыми являются метрики, использующиеся конференцией по оценке систем текстового поиска Text Retrieval Conference (TREC) и Российским семинаром по оценке методов информационного поиска (РОМИП): полнота, точность, аккуратность, ошибка и F-мера. Данные характеристики взяты за основу для оценки достижения цели исследования.

Во второй главе произведен системный анализ неструктурированной текстовой информации, представленной в виде корпуса текстов научного знания, позволивший отделить ряд системных характеристик объекта исследования.

Текстовый корпус рассматривается в работе как система, а термины и документы - как системные признаки корпуса. С помощью теоретико-множественного моделирования текстовый документ представлен в виде D =< T,W > , где Т - {/, 11 = \...т} - множество доминантных терминов документа, W = {w,} - множество весов терминов, показывающих важность термина tl для документа D . Корпус текстовых документов представлен в виде матрицы С «термин-документ» вида

С =

А D2 . • Dn

и>„ wl2 . ■ wln

w2] ^22 • ■ W2„

V'm

TV

(1)

ут\ *ут2 ••• "тпу

где - доминантные (ключевые) термины всех документов корпу-

са Д ...£>„, - веса терминов в соответствующих документах.

Разработана семантическая модель корпуса документов:

А=<О,Т,80,8,,8'° > (2)

где 2) = {Dj | у = 1 ...я} - множество документов корпуса; Т = } ~ множество терминов корпуса; = (/ = 1,...,и) - матрица, в которой элемент отражает меру сходства между документами DJ и £>,; 5' =(4<) = - матрица, в которой элемент отражает меру

сходства между терминами и ; =(4°) - матрица, в которой элемент отражает меру сходства между термином и документом DJ.

Кортеж А позволяет представить корпус в виде взвешенного графа Сг =< Х,Н >, где X =< О,Т > - множество вершин графа, состоящее из множества документов корпуса и множества входящих в них терминов, Я =< > - множество ребер, соединяющих документы и тер-

мины между собой и друг с другом, и определена функция : Я -> , на множестве ребер принимающая значения в действительных числах (рис. 1).

/ Л П / >'« / ' и

/

Рис. 1. Представление корпуса в виде графа

Ребра (Оу,/),) е , (Г*,г,) е К', (/,,£>7) е существуют при выполнении условий > е0 , > £■,, > £,0, где ер,?, и ~ заданные пороги.

Графовое представление корпуса документов позволяет выделить системные характеристики корпуса и его элементов (табл. 1).

Таблица 1.

Системные характеристики термина, документа и корпуса

Характеристика Формула

Характеристики термина

Эксцентриситет ecc(tj ) = шах d(tntA 7=1. ..m

Степень

Характеристики документа

Эксцентриситет ecc(Dt) = max d{D,,Dj) ./=1 ...m

Степень

Характеристики корпуса

Радиус словаря radr(G) = min (eccQj )) <=1...CT

Радиус корпуса rad{G)~ min(ecc(Dj)) 1=1.. Л

Диаметр словаря diamr (G) = ma x(ecc(i,)) i=l...m

Диаметр корпуса diam(G) = max. (ecc(D, )) /=1..л

d(tj,tj)- расстояние между вершинами t, и tj

Теоретико-информационный анализ корпуса позволяет сформулировать новую системную характеристику, определяющую степень детализации термина tj, - информационную энтропию:

Я(/7) =(3)

где г., = —--, М, - количество терминов , для которых существует

м !

Л!=1

ребро (^.,/га)е Д', - длина этого ребра.

Разработан алгоритм построения семантической модели корпуса документов (рис. 2), включающий три этапа обработки информации:

1. Формирование списка терминов корпуса. 1.1. Лексический, морфологический, синтаксический анализ текста

документа.

Рис. 2. Алгоритм построения семантической модели корпуса

Из текста извлекаются термины-кандидаты (словосочетания, которые соответствуют заданным грамматическим шаблонам), для которых выполняются условия:

• 1 < |а| < L, где |а| - количество слов, входящих в словосочетание a, L - заданный порог;

• fre4Ía) > £/ > гДе freq(a) — частота употребления в документе

термина-кандидата а, е f - заданный порог.

Для каждого термина-кандидата вычисляется значение: log 2 tal * freq{á), если строка а не вложена

C-value(a) =

1 ' (4)

log2 jal--* £ freq(b), в противном случае'

Р{Та) ЬеТа

где Та - множество терминов-кандидатов, содержащих строку а, Р(Та) — их количество.

2. Определение для каждого документа доминантных терминов.

Осуществляется контрастный тест: с помощью меры ТР*ГОР терминам, которые часто встречаются в других документах корпуса, присваивается низкий вес, а терминам, которые в данном документе встречаются часто, а в других - редко, высокий вес. В общем случае мера ТР*ГОР вычисляется по формуле:

гю-^юЛе, (5)

И ^

где | й | - количество слов в документе, N п - количество документов в анализируемом корпусе, - количество документов в корпусе, содержащих термин /.

В отличие от традиционного подхода в предложенном алгоритме ТР*ГОР вычисляется дважды. В первый раз данное значение вычисляется на этапе индексации одного документа, что позволяет сразу же сравнить полученное значение с пороговым е^ и исключить из множества терминов-кандидатов наиболее употребительные слова, не характерные для какой-либо предметной области. Так как весь корпус еще не обработан, то вместо него рассматривается корпус общей тематики Су и в формуле (5) пр инимается Nв = , Л^ = /геду (/), где Ыу - размер корпуса Су, ]геду (*) - частота употребления термина / в корпусе Су .

После обработки всего корпуса производится расчет ТР*ГОР для всех найденных терминов-кандидатов, причем для повышения точности ре-

и

значения

/гед(1) используется

зультатов алгоритма вместо 0Л/^('),еслит=1 [С- \alueit), если |г|>1 Доминантными для документа терминами считаются те, значение меры ТР*ГОР для которых превышает заданный порог £у2.

3. Для построения семантической модели корпуса применен метод латентного семантического анализа (Ь8А), который заключается в сингулярном разложении матрицы С

Щ

1п

V,

т\

и,

О

О

1 V, Ц [ V/ ]

(6)

.., VI

левый и правый

т

где - сингулярные числа, и1,...,и1 и V,

сингулярные вектора, и аппроксимации ее матрицей Ск ~ик2кУк меньшего ранга к . Сходство между двумя терминами определяется по какой-либо метрике сходства (например, косинус угла) между соответствующими векторами, представляющими собой строки матрицы 1/к 2к. Аналогично, сходство между двумя документами определяется с помощью матрицы Ук2к, а сходство между терминами и документами - с

помощью матрицы ик и -у/^ГР*.

Ребра между соответствующими вершинами графа корпуса определяются путем отбора пар, значение сходства для которых превышает заданные пороговые значения е0, е, и ею.

Разработанная семантическая модель позволяет применить к анализу корпуса документов алгоритмы поиска на графе, а также расширить набор параметров информационного поиска выделенными системными характеристиками.

В третьей главе описан разработанный алгоритм уточнения запроса пользователя. Описана модифицированная информационная поисковая технология.

Сформулирована задача информационного поиска на вновь разработанной семантической модели:

Для заданного запроса Тч = {(?,..., *9 } необходимо построить подграф

-<Х9> графа О, где Хч -< В4,ТЧ > - множество вершин, а Я4 - множество ребер, соединяющих документы и термины между собой и друг с другом, причем О4 = ^ е £> | Э(] е Тч : (/] ,0,)еКю}.

Решена задача уточнения поискового запроса путем добавления к нему новых терминов, семантически связанных с терминами ^,..., г4.

Алгоритм уточнения запроса пользователя — человеко-машинная интерактивная процедура, в процессе которой существующий запрос дополняется новыми терминами по мере вербализации информационной потребности пользователя (рис. 3).

Втед лоископмо запроса, громичиих значений ларзиотрои

поиска

Выбор первого термина из запроса

да

Поиск озяаанного термина обходом графа в ширину или гпувику

Переход« еявдаоешму ТврУМйу из запроса

«3

Интерпретация »про£.ч как операций над коитекЕтзш!

Удаэемие / нвт

пользователем / неингертеучкцих / кластеров /

Рис. 3. Алгоритм уточнения поискового запроса

Для уточнения поискового запроса введем понятия:

т-ыйуровень детализации термина г - множество Т'т, такое что:

^ [{/, е Г| (/,,/) еЛ'},те = 1

* [{г,- е 7* | е Г*', А = 1,..., т -1, Згу е Г^, : (*„ ) е Я'}, т > 1 Контекст термина г - множество Е = Т( и... и Г,,' и... и Т^ , состоящее из /7£ уровней.

Параметры алгоритма уточнения поискового запроса приведены в табл. 2.

Таблица 2.

Параметры алгоритма уточнения запроса_

Название Граничное значение

Глубина поиска - количество уровней в контексте термина ^тах

Количество терминов в контексте N

Количество терминов в запросе N4 1 * тах

Степень вершины йе8тт

Эксцентриситет вершины есстгл

Энтропия ТТ лтт

Вариант алгоритма, использующий поиск в ширину, сводит участие пользователя в процессе построения расширенного запроса к минимуму, реализуя автоматическое построение контекста. При этом контексты терминов могут пересекаться. Вариант алгоритма, использующий поиск в глубину, требует участия пользователя уже на первом этапе, однако позволяет точнее подобрать множество терминов. При этом контексты терминов пересекаться не могут.

Если поисковый запрос задан в виде

? = ),<?,■ е {/?,-,*?}, (8)

/

то может быть использован как поиск в глубину, так и поиск в ширину, а если поисковый запрос задан в виде

Ч = (9)

/

то используется только поиск в ширину, т.к. при поиске в глубину отсутствие пересечений между контекстами дало бы в результате пустое множество.

После построения множества контекстов Ех,...,ЕтЧ, соответствующих терминам запроса, запрос интерпретируется как операции над множествами {/19}и£1,...,{/??}и£п, по следующим правилам:

(10)

гЧ г, {11,1]) гу Е1слЕ1 (11)

(12)

-»{<?}и(£(\£у) (13)

Если мощность получившегося в результате множества терминов превышает , то производится кластерный анализ данного множества и пользователь удаляет не интересующие его кластеры.

Для полученного в результате выполнения алгоритма множества терминов решается классическая задача информационного поиска.

В целях экономии вычислительных ресурсов при обработке корпуса по описанным выше принципам предлагается использовать распределенную обработку данных и проводить индексацию документов непосредственно на тех веб-серверах, на которых они находятся.

При обработке распределенного корпуса документов используется набор текстовых корпусов О1,02,..., И", хранящихся на п веб-серверах, причем каждый корпус представлен в виде графа Ск =< Хк ,Як >, где Хк =<£>*,Г* >, Л =< ,Я'к ЛЮк >■ Граф распределенного корпуса имеет вид где Х=<И,Т>, В = £1 и£>2 ,

Т = Т1 и Тг и... и Т", а ребра графа определяются следующим образом: При заданных новых пороговых значений е0, е, и %> для пары (£>,,/),) рассчитывается

корпусе Вк. При > е0 ребро ) е добавляется к графу в .

Для пары (/, ,/у) рассчитывается

где р ~ номер документа £>, в корпусе Dl, q - номер документа Dj в

номер термина в наборе терминов Тк, у - номер термина tj в наборе терминов Тк. При s'y > s, ребро (t,,tj)e. R' добавляется к графу G. Для пары (ti,Dj ) рассчитывается

и при sjf > elD ребро (titDj) е R,d добавляется к графу G.

Распределенная обработка данных и разработанные алгоритмы были использованы для модификации существующей информационной поисковой технологии (рис. 4) путем разделения этапа семантического анализа текста на локальный и глобальный этапы и применения алгоритмов: построения семантической модели - для семантического анализа, расширения поисковогозапроса - на этапе анализа запроса._

ЙЗ, Яетаотьиый аиапиз^Х /^Тг^обалыый онзлиз'Ч, / распределения о корпуса л

Опрсдя-'юнно доминантных терминов

" "гзхг: *

сиексвязей «термин- \ термин» )

~тг

С Поиск сояэей «термин-?* ^ " документ» )

"ТЕ

'Помок связей »документ документ»

Ж

Объедииеанв множеств ■документов

Ж

Объединение множеств

- терминоа - -

Расчет весов ребер, соединяющих термины и ......документы

5. Анализ запроса

Построение «текста кэадого термина из запроса .

Ж

{Интерпретгщия запроса как [операций над контекстами

^ЖЖЖ-

' : Кластерный анализ <••. полученного И1 южества

^ _•„._________'

! Индекс - информационный <®осив,' в которой хранятся результаты анализа документов

¿7

1. Лк-ш

Посещений веб-страниц ,

тг

Изопеченио текста I

.....' ' Ц-

Извл&шив ссылок не Л файлы I

ццг

Отбор файлов зддаитй"") структуры ]

Я

/' 2 Индексатор /"" 1 б. Поис*

Лексический анализ

3

С Морфологический анализ | --

Синтаксический анализ

"ГТ---

С Генерация списка I ториинои

J

Попек о индексе соответствий терминам

~ж=:

' Поиск дохумеитов, в которьа утютреблмотся : дай термины

Ж

V4

'. Сортировка гюлуяенного списка документов па ■-■ ■■> релевантности

- Распредаийный корпус докутентоа

Рис. 4. Модифицированная информационная технология

В четвертой главе рассмотрена архитектура разработанной автоматизированной системы и описан эксперимент по сравнению разработанной системы с одним из популярных программных аналогов.

Эксперимент показал, что по ряду параметров разработанная автоматизированная система опережает «Персональный поиск Яндекса», а по остальным параметрам несущественно отстает от него (табл. 3).

Таблица 3.

Сравнение разработанной системы с системой «Персональный поиск

Яндекса»

5 0 я

н о Я § С о X т о я >> £ а й а ё а \о к 3 я а си г

И н «С в О и.

Разработанная система 0,97 0,76 0,99 0,008 0,81

«Персональный поиск 0,35 0,82 0,91 0,09 0,33

Яндекса»

В приложениях приведены свидетельство о государственной регистрации программы для ЭВМ и акты о внедрении результатов научной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. На основе теоретико-множественного и теоретико-информационного анализа выявлены характеристики корпуса документов, используемые в задачах информационного поиска.

2. Разработана трехмерная семантическая модель корпуса документов, позволяющая структурировать содержащиеся в нем научные знания в виде графа для последующего анализа. На основе латентно-семантического анализа разработан алгоритм построения семантической модели.

3. Сформирован алгоритм расширения поискового запроса, уточняющий информационные потребности пользователя с использованием пороговых значений количественных характеристик терминов и их энтропии.

4. Модифицирована информационная технология поиска и анализа данных в части систематизации распределенного научного знания, позволяющая в процессе интеллектуального анализа неструктурированной текстовой информации генерировать семантические модели корпуса документов.

5. На основе модифицированной информационной технологии разработано программное обеспечение, апробация которого продемонстрировала повышение характеристик информационного поиска: полноты -на 62%, аккуратности - на 8% по сравнению с известными программными аналогами.

6. Результаты работы внедрены в муниципальном бюджетном учреждении г. Астрахань «Информационно-аналитический центр» и использованы при выполнении госбюджетных научно-исследовательских работ

Астраханского государственного технического университета. Учебный вариант программного обеспечения используется в Астраханском государственном техническом университете.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в периодических изданиях, включенных в список ВАК РФ

1. Седова, Я. А. Интеллектуальный анализ корпуса документов научной информации / Я. А. Седова, И. Ю. Квятковская // Вестник Астраханского государственного технического университета. Серия «Управление, вычислительная техника и информатика». - 2011. - №1. - С. 128-136.

2. Седова, Я. А. Системный анализ корпуса текстов научного знания / Я. А. Седова, И. Ю. Квятковская // Вестник Саратовского государственного технического университета. - 2011. - №4 (50). Выпуск 2. - С. 197206.

3. Седова, Я. А. Применение стохастических фракталов к некоторым задачам информационного поиска // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. Выпуск 46. - 2008. - С. 19-22.

Статьи в межвузовских научных сборниках, сборниках трудов международных, всероссийских конференций

4. Седова, Я. А. Анализ несловарных слов русского языка как элемент семантического анализа текста // Вестник Астраханского государственного технического университета. - 2007. - №2(37). - С. 170-172.

5. Седова, Я. А. Принципы и методы построения словаря русского языка для алгоритмов морфемного и морфологического анализа текста на естественном языке // Материалы докладов XIV Международной конференции студентов, аспирантов и молодых ученых «Ломоносов» [Электронный ресурс] - М.: Издател. центр Факультета журналистики МГУ им. М.В. Ломоносова, 2007. - I электрон, опт. диск (CD-ROM); 12 см. -Систем, требования: ПК с процессором 486 +; Windows 95; дисковод CD-ROM; Adobe Acrobat Reader.

6. Седова, Я. А. Разбор текста на русском языке на основе усовершенствованного алгоритма стемминга Портера // Инновационные технологии в управлении, образовании, промышленности «Астинтех-2007»: матер. Всерос. конф. 18-20 апреля 2007 г. в 2 ч. / Сост. И. Ю. Петрова. -Астрахань: Издательский дом «Астраханский университет», 2007. - Ч. 2. -С. 139-141.

7. Седова, Я. А. Построение поисковых роботов в рамках системы фрактального анализа Web-пространства // Технологии Microsoft в теории и практике программирования. Материалы конференции / Под ред. проф. Р. Г. Стронгина. - Нижний Новгород: Изд-во Нижегородского госуниверситета, 2008. - С. 310-313.

8. Седова, Я. А. И нтеллектуальная система кластерного анализа электронных текстовых ресурсов // Материалы докладов XV Междуна-

родной конференции студентов, аспирантов и молодых ученых «Ломоносов» / Отв. ред. И. А. Алешковский, П. Н. Костылев, А. И. Андреев. [Электронный ресурс] - М.: Изд-во МГУ; СП МЫСЛЬ, 2008. -1 электрон, опт. диск (CD-ROM); 12 см. - Систем, требования: ПК с процессором 486 +; Windows 95; дисковод CD-ROM; Adobe Acrobat Reader.

9. Седова, Я. А. Применение фрактального подхода к некоторым задачам информационного поиска / Я. А. Седова, И. Ю. Квятковская // Математические методы в технике и технологиях (ММТТ-21): сб. трудов XXI Междунар. науч. конф.: в 10 т. / Под общ. ред. В. С. Балакирева. -Саратов: Сарат. гос. техн. ун-т, 2008. - Т. 8. - Секция 8. - С. 220-221.

10. Седова, Я. А. Система эффективного поиска в объединенном информационном пространстве Ассоциации университетов Прикаспийских государств // Сб. матер. Междунар. науч.-практ. конф. «Эволюция системы научных коммуникаций Ассоциации университетов Прикаспийских государств». - Астрахань: РГНФ, АГТУ, 2008. - С. 22-24.

П.Седова, Я. А. Автоматизация сбора данных для построения онто-логий // Технологии Microsoft в теории и практике программирования. Материалы конференции / Под ред. проф. В. П. Гергеля. - Нижний Новгород: Изд-во Нижегородского госуниверситета, 2009. - С. 396-400.

12. Седова, Я. А. Автоматизация анализа данных для построения он-тологий // Технологии Microsoft в теории и практике программирования: тр. VI Всерос. конф. студентов, аспирантов и молодых ученых. Центральный регион. Москва, 1-2 апреля 2009 г. - М. : Вузовская книга, 2009.-С. 99-100.

13. Седова, Я. А. LSPL-шаблоны для решения задачи автоматизированного построения онтологий // Материалы докладов XVI Международной конференции студентов, аспирантов и молодых ученых «Ломоносов» / Отв. ред. И. А. Алешковский, П. Н. Костылев, А. И. Андреев. [Электронный ресурс] - М. : МАКС Пресс, 2009. - 1 электрон, опт. диск (CD-ROM); 12 см. - Систем, требования: ПК с процессором 486 +; Windows 95; дисковод CD-ROM; Adobe Acrobat Reader.

14. Седова, Я. А. Автоматизация проектирования предметных онтологий с использованием интеллектуальных агентов // Сборник трудов конференции молодых ученых. Выпуск 6. Информационные технологии / Главный редактор д.т.н., проф. В. Л. Ткалич. - СПб: СПбГУ ИТМО, 2009. - С. 429-432.

15. Седова, Я. А. Архитектура автоматизированной системы построения предметных онтологий / Я. А. Седова, И. Ю. Квятковская // Математические методы в технике и технологиях (ММТТ-22): сб. тр. XXII Междунар. науч. конф.: в 10 т. / Под общ. ред. В. С. Балакирева. - Псков: Псков, гос. политехи, ин-т, 2009. - Т. 7. - Секция 8. - С. 134-135.

Свидетельство о государственной регистрации программы для ЭВМ 16. Автоматизированная система «Информационно-аналитическая система интеллектуального анализа текстовых электронных ресурсов. Св. о гос. per. прогр. для ЭВМ №2009610640. / Квятковская И. Ю., Седова Я. А., Филандыш Н. И. Зарег. 28.01.2009._

Подписано в печать /■/■ Qff. /У**.. Формат 60x90/16. Гарнитура Times New Roman. Усл. печ. л. 1,0. Тираж 100 экз. Заказ № L59

Отпечатано в типографии издательства ФГОУ ВПО «АГТУ». 414025, Астрахань, Татищева, 16.

Оглавление автор диссертации — кандидата технических наук Седова, Яна Анатольевна

Введение.

Глава 1. Современное положение и результаты исследований по системному анализу неструктурированной текстовой информации.

1.1 Основные понятия информационного поиска.

1.2 Информационная технология поиска текстовых документов.

1.2.1 Агент.

1.2.2 Индексатор.

1.2.3 Семантический анализ корпуса.

1.2.4 Анализ запроса.

1.2.5 Поиск.

1.3 Модели информационного поиска.

1.4 Поиск по смыслу и латентно-семантический анализ.

1.5 Модели процесса поиска информации.31'

1.6 Сравнительная характеристика групп ИПС.

1.7 Оценка поисковых систем.

1.8 Анализ научной информации.

1.9 Постановка задачи исследования.

РЕЗУЛЬТАТЫ И ВЫВОДЫ К ПЕРВОЙ ГЛАВЕ.

Глава 2. Системный анализ неструктурированной текстовой информации, представленной в виде корпуса текстов научного знания.

2.1 Основные определения.

2.2 Алгоритм построения семантической модели корпуса.

2.2.1 Получение списка терминов из документа.

2.2.2 Выделение доминантных терминов.

2.3 Латентный семантический анализ.

2.4 Пример применения латентного семантического анализа.

2.5 Поиск по корпусу.

РЕЗУЛЬТАТЫ И ВЫВОДЫ КО ВТОРОЙ ГЛАВЕ.

Глава 3. Интеллектуальный анализ корпуса текстов научного знания.

3.1 Поиск по корпусу.

3.2 Алгоритм уточнения запроса пользователя.

3.3 Пример работы алгоритма уточнения запроса.

3.4 Описание модифицированной информационной технологии.

РЕЗУЛЬТАТЫ И ВЫВОДЫ К ТРЕТЬЕЙ ГЛАВЕ.

Глава 4. Автоматизированная система анализа корпуса текстов научного знания.

4.1 Описание разработанного программного продукта.

4.2 Структура индекса.

4.3 Информационный агент и индексация.

4.4 Описание исходных данных.

4.5 Морфологический анализ текста.

4.6 Тестирование системы.

4.6.1 Тестирование на одном компьютере.

4.6.2 Индексация распределенного текстового корпуса.

4.6.3 Латентный семантический анализ распределенного корпуса. 103 РЕЗУЛЬТАТЫ И ВЫВОДЫ К ЧЕТВЕРТОЙ ГЛАВЕ.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Седова, Яна Анатольевна

Современный этап развития науки характеризуется увеличением темпа роста научного знания, в том числе представленного документально. Ежегодно в мире появляется 5 млрд. научных книг и статей, 250 тыс. диссертаций и отчетов[17]. Фонд диссертаций Российской государственной библиотеки, в котором хранятся отечественные кандидатские и докторские диссертации с 1944 года, на 1 января 2010 года насчитывал свыше 976 тыс. экземпляров[21].

Согласно статистике, опубликованной веб-ресурсом «Кадры высшей научной квалификации» [13], количество кандидатских диссертаций, утвержденных ВАК, в последнее десятилетие значительно выросло (рис. 1).

Лица, утвержденные ВАК Минобнауки России в ученых степенях

34613 34494

1 16000 14000 12000 10000 8000 6000 4000 2000 -о

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 годы

Доктора наук

I Кандидаты наук

-Всего

Рис. 1. Количество лиц, утвержденных Высшей аттестационной комиссией в ученых степенях в 1994-2009 гг.

Объем электронных архивов, содержащих научное знание, растет не только за счет появления нового знания, но и за счет перевода в цифровую форму старого.

Данная тенденция будет продолжаться. 8 июля 2010 г. на заседании Президентского совета по развитию информационного общества президент РФ Д.А.Медведев сказал: «Особое внимание. должно быть уделено формированию единой базы научных диссертаций в электронном виде и обеспечению прозрачности процедуры их защиты»[14].

На момент написания данной работы электронная библиотека диссертаций РГБ содержала более 620 ООО полных текстов диссертаций и авторефератов, а электронный архив авторефератов докторских диссертаций на сайте Высшей аттестационной комиссии - почти 10 ООО авторефератов.

Создание базы диссертаций или авторефератов ведет к необходимости их автоматизированного анализа для повышения эффективности доступа к этим документам. Однако современные информационно-поисковые системы стремятся в первую очередь к повышению скорости обработки запросов пользователей и поэтому используют достаточно простые алгоритмы и эвристики.

Важнейшим недостатком большинства существующих информационно-поисковых систем является отсутствие интеллектуального анализа данных, что ведет к большим затратам на поиск данных. Как указывалось в работе[17, с. 119], «по расчетам американских ученых, если открытие или изобретение предполагает стоимость 10 тыс. долларов, то их дешевле открыть заново, нежели отыскать в завалах информации».

Вопросами автоматизации анализа естественного языка занимались многие ученые как в нашей стране, так и за рубежом:

• в области автоматического понимания текстов — Р. Шенк, Э. В. Попов, Н. Н. Леонтьева, Э. Ф. Скороходько;

• в области разработки информационно-поисковых систем -П. И. Браславский, И. Е. Кураленок, И. С. Некрестьянов, Б. В. Добров, Д. В. Ланде, Н. В. Лукашевич;

• в области разработки семантических моделей текста -Т. А. Гаврилова, В. Ф. Хорошевский, А. Е. Ермаков, A. Maedche, Е. Alfonseca, Е. Agirre;

• в области выделения терминов из текста — Е. И. Большакова, К. ¥тп1г[.

Работы этих авторов привели к созданию ряда методов анализа естественного языка, позволяющих в автоматизированном режиме обрабатывать неструктурированные тексты.

Однако существующие модели информационного поиска обладают рядом недостатков: традиционные модели отличаются низкой эффективностью поиска, сложностью формулировки запроса, новые модели - необходимостью создания вручную хранилищ знаний, используемых для поиска.

Таким образом, в настоящее время существует актуальная научная и техническая задача, состоящая в разработке методик, позволяющих автоматизировать анализ представленного документально научного знания. Решение такой задачи позволит повысить эффективность обработки информации при анализе научного знания.

Объектом исследования является корпус документов научной полнотекстовой информации.

Предмет исследования - методы, модели и алгоритмы обработки текстовой информации.

Целью настоящей работы является повышение эффективности аналитической обработки научной информации, представленной в виде распределенных корпусов текстовых документов.

Поставленная цель достигается решением следующих задач:

1. Провести системный анализ процесса обработки неструктурированной текстовой информации для выявления системных характеристик корпуса документов.

2. Разработать семантическую модель корпуса документов и алгоритм ее построения на основе латентно-семантического анализа, использующий статистические меры оценки веса терминов.

3. Разработать алгоритм уточнения поискового запроса на сгенерированной семантической модели корпуса, использующий поиск в глубину и в ширину и кластерный анализ множества терминов.

4. Модифицировать существующую информационную технологию поиска и анализа документов путем применения разработанных алгоритмов и разделения этапа семантического анализа текста на локальный и глобальный этапы.

5. Апробировать модифицированную информационную технологию обработки информации с использованием вновь разработанной автоматизированной системы.

Методы исследования. Для решения поставленной задачи применялись методы системного анализа, линейной алгебры, кластерного анализа, теории графов, теории множеств, теории информации, теории алгоритмов.

Научная новизна.

1. По результатам теоретико-множественного и теоретико-информационного анализа выделены системные характеристики корпуса документов, позволяющие расширить набор параметров информационного поиска.

2. Модифицирована информационная поисковая технология в части анализа и систематизации распределенного научного знания, позволяющая в процессе интеллектуального анализа неструктурированной текстовой информации генерировать семантические модели корпуса документов.

3. Разработан алгоритм построения трехмерной семантической модели корпуса документов, позволяющей представить его в форме графа для дальнейшей визуализации и анализа с использованием введенной системы количественных оценок свойств корпуса.

4. Разработан алгоритм уточнения поискового запроса, осуществляющий кластерный анализ множества терминов и эмулирующий движение по семантической модели корпуса документов как поиск на графе в глубину и ширину. Предложены критерии останова: достижение заданного уровня энтропии, измеряющей детализацию термина, достижение заданного порога количественных характеристик термина.

Практическая ценность работы. Результаты работы могут применяться для анализа как распределенных, так и централизованных хранилищ данных и использоваться для обработки любых документальных знаний, содержащих персоналии, названия организаций, даты и другие устойчивые выражения.

Реализация результатов работы. Результаты исследования реализованы в госбюджетных научно-исследовательских работах ФГОУ ВПО «Астраханский государственный технический университет» «Теоретический анализ и математическое моделирование информационных систем», «Теоретический анализ и математическое моделирование систем поддержки принятия управленческих решений»; внедрены в учебный процесс Астраханского государственного технического университета и в муниципальном бюджетном учреждении г. Астрахань «Информационно-аналитический центр»

На основе модифицированной информационной технологии разработана автоматизированная система «Информационно-аналитическая система интеллектуального анализа текстовых электронных ресурсов», прошедшая государственную регистрацию.

Личный вклад автора. В работах, выполненных в соавторстве, автору принадлежат формализация задачи, построение моделей, разработка алгоритмов, проектирование и реализация программного обеспечения.

Апробация научных результатов. Основные положения докладывались и обсуждались на конференциях студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Нижний Новгород, 2007-2009), XIV-XVI Международных молодежных научных форумах «Ломоносов» (Москва, 2007-2009), V Всероссийской межвузовской конференции молодых ученых (Санкт-Петербург, 2008), XXI-XXIII Международных научных конференциях «Математические методы в технике и технологиях» (Саратов, 2008; Псков, 2009), I Международной научно-практической конференции «Эволюция системы научных коммуникаций ассоциации университетов прикаспийских государств» (Астрахань, 2008), Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Москва, 2009), V Всероссийской научно-инновационной конференции студентов, аспирантов и молодых ученых (Москва, 2009), 54-ой Научно-практической конференции профессорско-преподавательского состава Астраханского государственного технического университета (Астрахань, 2010), Международной научно-практической конференции «Фундаментальные и прикладные исследования университетов, интеграция в региональный инновационный комплекс» (Астрахань, 2010).

Публикации. Основные положения диссертационной работы отражены в 16 опубликованных научных работах, среди которых 3 статьи в журналах, рекомендованных ВАК, 1 свидетельство о регистрации программы для ЭВМ и 12 публикаций в сборниках международных, всероссийских научных конференций.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав основного текста, заключения, списка литературы из 96 наименований и 2 приложений. Общий объем работы 107 страниц машинописного текста, который включает 38 рисунков, 16 таблиц и 39 формул.

Заключение диссертация на тему "Модели и алгоритмы обработки корпуса документов научной информации"

6. Результаты работы внедрены в муниципальном бюджетном учреждении г. Астрахань «Информационно-аналитический центр» и использованы при выполнении госбюджетных научно-исследовательских работ Астраханского государственного технического университета. Учебный вариант программного обеспечения используется в Астраханском государственном техническом университете.

Библиография Седова, Яна Анатольевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Автоматизированная система «Информационно-аналитическая система интеллектуального анализа текстовых электронных ресурсов. Св. о гос. per. прогр. для ЭВМ №2009610640. / Квятковская И. Ю., Седова Я. А., Филандыш Н. И. Зарег. 28.01.2009.

2. Агеев, М. Официальные метрики РОМИП'2009 / М. Агеев, И. Кураленок, И. Некрестьянов // Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2009. (Петрозаводск, 16 сентября 2009г.). Санкт-Петербург: НУ ЦСИ, 2009. - С. 175-185

3. Ашманов, И. С. Продвижение сайта в поисковых системах / И. С. Ашманов, А. А. Иванов. М.: Вильяме, 2007. - 304 с.

4. Барсегян, А. А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / А. А. Барсегян, M. С. Куприянов, В. В. Степаненко, И. И. Холод. СПб.: БХВ-Петербург, 2007. - 384 е.: ил.

5. Башмаков, А. И. Интеллектуальные информационные технологии / А. И. Башмаков, И. А. Башмаков. М.: Изд-во МГТУ им. Н. Э. Баумана, 2005. -304 е.: ил. — (Информатика в техническом университете).

6. Большакова, Е. И. Формализация лексико-синтаксической информации для распознавания регулярных конструкций естественного языка / Е. И. Большакова, Н. Э. Васильева // Программные продукты и системы. -2008.-№4.-С. 103-106.

7. Гаврилова, Т. А. Базы знаний интеллектуальных систем / Т. А. Гаврилова, В. Ф. Хорошевский. СПб.: Питер, 2000. - 384 с.

8. Диссертации РГБ в сети Интернет Электронный ресурс. -Официальный сайт Российской государственной библиотеки, 2010. Режим доступа: http://www.rsl.ru/ru/news/1307102, свободный. - Загл. с экрана.

9. Еляков, А. Д. Информационная перегрузка людей // Социологические исследования. 2005. - № 5. - С. 114 - 121.

10. Зубов, A.B. Основы искусственного интеллекта для лингвистов / А. В. Зубов, И. И. Зубова. М.: Университетская книга; Логос, 2007. - 320 с.

11. Когаловский, М. Р. Перспективные технологии информационных систем. М.: ДМК Пресс, Компания Ай Ти, 2003. - 288 с.

12. Краткая статистическая справка (по состоянию на 01.01.2010). Электронный ресурс. [М.]: Российская государственная библиотека, 2010. — Режим доступа: http://www.leninka.ru/index.php?doc=2661, свободный. - Загл. с экрана.

13. Ландэ, Д. В. Интернетика. Навигация в сложных сетях: модели и алгоритмы / Д. В. Ландэ, А. А. Снарский, И. В. Безсуднов. М.: Либроком, 2009.-264 с.

14. Ландэ, Д. В. Поиск знаний в Internet. Профессиональная работа. М: Издательский дом Вильяме, 2005. - 272 с.

15. Лацис, А. О. Как построить и использовать суперкомпьютер. — М.: Бестселлер, 2003. 274 с.

16. Леонтьева, H. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учебное пособие для студентов лингвистических факультетов вузов. -М.: Издательский центр «Академия», 2006. 304 с.

17. Маннинг, К. Д. Введение в информационный поиск / К. Д. Маннинг, П. Рагхаван, X. Шютце. М.: Вильяме, 2011. - 528 с.

18. Национальный корпус русского языка Электронный ресурс. [М.], 2011. - Режим доступа: http://ruscorpora.ru/, свободный. - Загл. с экрана.

19. Новый частотный словарь русской лексики Электронный ресурс. / Ляшевская О. Н., Шаров С. А. Электрон, дан. - [М.]: Институт им. В. В. Виноградова РАН, 2008. — Режим доступа: http://dict.ruslang.ru/freq.php, свободный. — Загл. с экрана.

20. Поиск в интернете: что и как ищут пользователи. По данным поиска Яндекса. Осень 2008 года. Электронный ресурс. «Яндекс», 2008. - Режим доступа: http ://do wnload.yandex.ru/company/yandexsearchautumn2008ru.pdf, свободный. - Загл. с экрана.

21. Попов, Э. В. Общение с ЭВМ на естественном языке. М.: Наука. Главная редакция физико-математической литературы, 1982. - 360 с.

22. Прангишвили, И. В. Системный подход и общесистемные закономерности. М.: СИНТЕГ, 2000. - 528 с. - (Системы и проблемы управления).

23. Рунет в 2009 и 2010 году: аналитика по итогам РИФ+КИБ Электронный ресурс. Региональный общественный центр Интернет-технологий, 2010. — Режим доступа: http://www.rocit.ru/analyst/index.php?id=23381, свободный. -Загл. с экрана.

24. Сегалович, И.В. Как работают поисковые системы // Мир Internet.v -2002.-№ 10.-С. 24-32.

25. Седова, Я. А. Анализ несловарных слов русского языка как элемент семантического анализа текста // Вестник Астраханского государственного технического университета. 2007. - №2(37). - С. 170-172.

26. Седова, Я. А. Применение стохастических фракталов к некоторым задачам информационного поиска // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. Выпуск 46. 2008. - С. 19-22.

27. Седова, Я. А. Системный анализ корпуса текстов научного знания / Я. А. Седова, И. Ю. Квятковская // Вестник Саратовского государственного технического университета. — 2011. №4 (50). Выпуск 2. - С. 197-206.

28. Солтон, Дж. Динамические библиотечно-информационные системы. -М.: Мир, 1979.-558 с.

29. Тарасов, В. Б. Агенты, многоагентные системы, виртуальные сообщества: стратегическое направление в информатике и искусственном интеллекте // Новости искусственного интеллекта. 1998. — №2. - С.5-63.

30. Теоретические основы системного анализа / В. И. Новосельцев и др.. -М.: Майор, 2006. 592 е.: ил.

31. Терехина, А. Ю. Анализ данных методами многомерного шкалирования. М.: Наука. Главная редакция физико-математической литературы, 1986. -168 с.

32. Чанышев, О. Г. Автоматическое построение терминологической базы знаний // Труды 10-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» -RCDL'2008. Дубна, 2008. С.85-92.

33. Шенк, Р. Обработка концептуальной информации. М.: Энергия, 1980. -360 с.

34. Arthur, D. K-means++: The advantage of careful seeding / D. Arthur, S. Vassilvitskii // Proceedings of the eighteenth annual ACM-SIAM Symposium on Discrete Algorithms. Philadelphia, 2007. - P. 1027-1035.

35. Bates, M. J. The design of browsing and berrypicking techniques for the online search interface // Online Review. 1989. -№5(13). -P.407-431.

36. Buckley, C. Automatic Routing and Retrieval Using Smart: TREC-2 / C. Buckley, J. Allan, G. Salton // Information Processing & Management. 1995. -№3(31).-P. 315-326.

37. Buitelaar, P. Ontology learning from text: methods, evaluation andapplications / P. Buitelaar, P. Cimiano, B. Magnini. Amsterdam, IOS Press, 2005. -180 p.

38. Cimiano, P. Learning concept hierarchies from text corpora using formal concept analysis / P. Cimiano, A. Hotho, S. Staab // Journal of artificial intelligence research. 2005. - №24. - P. 305-339.

39. CIRI — an ontology-based query interface for text retrieval / Airio E. et al. // IWeb Intelligence: STeP 2004. The 11th Finnish Artificial Intelligence Conference. -Helsinki, Finnish Artificial Intelligence Society, 2004. №20. - P. 73-82.

40. Cooper, J. W. The Technology of Lexical Navigation // Workshop on Browsing Technology, First Joint Conference on Digital Libraries. Roanoke, VA, 2001.

41. Dahab, M. TextOntoEx: Automatic Ontology Construction from Natural English Text / M. Dahab, H. Hassan, A. Rafea // Proceedings of AIML 06 International conference. Sharm El Sheikh, 2006. - P.51-57.

42. Del Peso, J. Automatic construction of ontologies for intelligent e-learning systems / J. del Peso, F. de Arriaga // Proceedings of the World congress on engineering and computer science (WCECS 2007). San Francisco, 2007. - P.464-467.

43. Dillon, M. A Prevalence Formula for Automatic Relevance Feedback in Boolean Systems / M. Dillon, J. Ulmschneider, J. Desper // Information Processing & Management. 1983. -№1(19). - P. 27-36.

44. Faatz, A. Ontology enrichment with texts from the WWW / A. Faatz, R. Steinmetz // Semantic Web Mining 2nd Workshop at ECML/PKDD-2002, 20th August 2002. Helsinki, 2002.

45. Frantzi, K. Automatic recognition of multi-word terms: the C-value/NC-value method / K. Frantzi, S. Ananiadou, H. Mima // International Journal of Digital Libraries. 2000. - №3. - P. 115-130.

46. Grootjen, F. A. Conceptual query expansion / F. A. Grootjen, T. P. van der Weide // Data and Knowledge Engineering. 2006. - №2(56). -P. 174-193.

47. Gruber, T. R. A translation approach to portable ontologies // Knowledge Acquisition. 1993. - №2(5). - P.199-220.

48. Handbook of latent semantic analysis / T. K. Landauer, D. S. McNamara, S. Dennis, W. Kintsch. New Jersey, Lawrence Erlbaum Associates, 2007. - 532 p.

49. Harris, Z. Mathematical Structures of Language. — New York, Wiley-interscience, 1968.

50. Hearst, M. Search user interfaces. Cambridge, Cambridge University Press, 2009. - 404 p.

51. Hierarchical Presentation of Expansion Terms / H. Joho, C. Coverson, M. Sanderson, M. Beaulieu // Proceedings of the 17th ACM Symposium on Applied Computing. Madrid, 2002. - P.645-649.

52. Indexing by latent semantic analysis / S. Deerwester et al. // Journal of the American society for information science. 1990. - №6(41). - P.391-407.

53. Keyword suggestion using concept graph construction from Wikipedia rich documents / H. Ainiri et al. // Proceedings of Workshop on exploiting semantic annotations for information retrieval. Glasgow, 2008. - P.63-66.

54. Kietz, J. U. A Method for Semi-Automatic Ontology Acquisition from a Corporate Intranet / J. U. Kietz, A. Maedche, R. Volz // Proceedings of EKAW'2000 Workshop on Ontologies and Texts. Juan-Les-Pins, 2000. - №4(51). - P.l-14.

55. Kuhlthau, C.C. Inside the search process: Information seeking from the user's perspective // Journal of the American Society for Information Science. 1991. -№5(42). - P.361-371.

56. Landauer, T. K. Introduction to latent semantic analysis / T. K. Landauer, P. W. Foltz, D. Laham // Discourse Processes. 1998. - №25. - P.259-284.

57. Maedche, A. Ontology Learning for the Semantic Web / A. Maedche, S. Staab // IEEE Intelligent Systems, Special Issue on the Semantic Web. — 2001. — №2(16). P.72-79.

58. McEnery, T. Corpus linguistics / T. McEnery, A. Wilson. Edinburgh: Edinburgh University Press, 2004. - 236 p.

59. Missikoff, M. The Usable Ontology: An Environment for Building and Assessing a Domain Ontology/ M. Missikoff, R. Navigli, P. Velardi // Proceedings of 1st International Semantic Web Conference (ISWC 2002). Berlin, Springer-Verlag, 2002. -P.39-53.

60. Multiagent systems. A modern approach to distributed artificial intelligence / G. Weiss. Cambridge, Massachusetts, 1999. - 620 p.

61. Porter, M. F. An algorithm for suffix stripping // Program. 1980. - Vol.14, №3. - P. 130-137.

62. Query expansion using associated queries / B. Billerbeck et al. // Proceedings of the CIKM International Conference on Information and Knowledge Management. New Orleans, Louisiana, 2003. - P. 2-9.

63. Query Expansion Using Wikipedia Concept Graph / A. Hadi et al. // University of Wollongong in Dubai — Papers. Jan. 2008.

64. Robertson, S.E. Relevance weighting of search terms / S. E. Robertson, K. Spärck Jones // Journal of the American Society for Information Science. 1976. -Vol. 27.-P. 129-146.

65. Salton, G. A vector space model for automatic indexing / G. Salton, A. Wong, C. S. Yang // Communications of the ACM. 1975. - Vol. 18, №11. - P. 613-620.

66. Singhai, A. Modern Information Retrieval: A Brief Overview // Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. 2000. -№4(24). -P.35-43.

67. Smeaton, A. F. The Retrieval Effects of Query Expansion on a Feedback Document Retrieval System / A. F. Smeaton, C. J. van Rijsbergen // Computer Journal. 1983. - Vol. 26, №3. - P. 239-246.

68. The Vocabulary Problem in Human-System Communication / G. W. Furnas et al. // Communications of the ACM. 1987. - Vol. 30, №11. - P. 964-971.

69. Van Rijsbergen, C.J. Information Retrieval. Boston, Butterworths, 1979. -224 p.