автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий

кандидата технических наук
Манучарян, Левон Ашотович
город
Тамбов
год
2012
специальность ВАК РФ
05.25.05
цена
450 рублей
Диссертация по документальной информации на тему «Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий»

Автореферат диссертации по теме "Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий"

На правах рукописи

/ (

и (..„Л

МАНУЧАРЯН Левон Ашотович

РАЗРАБОТКА СРЕДСТВ ПОВЫШЕНИЯ РЕЛЕВАНТНОСТИ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ НА БАЗЕ ОНТОЛОГИЙ

Специальность 05.25.05 - Информационные системы и процессы (технические науки)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

- 8 НОЯ 2012

Тамбов 2012

005054676

005054676

Работа выполнена на кафедре «Вычислительная техника и информационные системы» федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Воронежская государственная лесотехническая академия» (ФГБОУ ВПО «ВГЛТА»),

Научный руководитель Зольников Владимир Константинович,

доктор технических наук, профессор, ФГБОУ ВПО «Воронежская государственная лесотехническая академия», заведующий кафедрой «Вычислительная техника и информационные системы»

Официальные оппоненты: Еременко Юрий Иванович,

доктор технических наук, профессор, Старооскольский технологический институт им. A.A. Угарова (филиал) федерального государственного образовательного учреждения высшего профессионального образования «Национальный исследовательский технологический университет «МИСиС» (СТИ НИТУ «МИСиС»), заведующий кафедрой «Автоматизированные и информационные системы управления»

Абрамов Геннадий Владимирович,

доктор технических наук, профессор, ФГБОУ ВПО «Воронежский государственный университет инженерных технологий», заведующий кафедрой «Информационные технологии моделирования и управления»

Ведущая организация ФГБОУ ВПО «Воронежский государственный

технический университет» (г. Воронеж)

Защита диссертации состоится 15 ноября 2012 г. в 1500 часов на заседании диссертационного совета Д 212.260.05 при ФГБОУ ВПО «ТГТУ» по адресу: 392000, г. Тамбов, ул. Советская, д. 106, Большой актовый зал.

Отзывы в двух экземплярах, заверенные гербовой печатью, просим направлять по адресу: 392000, г. Тамбов, ул. Советская, 106, ФГБОУ ВПО «ТГТУ», ученому секретарю.

С диссертацией и авторефератом можно ознакомиться в научной библиотеке ФГБОУ ВПО «ТГТУ».

Автореферат разослан 14 октября 2012 г.

Ученый секретарь диссертационного совета

Селиванова Зоя Михайловна

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Современные проблемы информационно-управляемого искусственного интеллекта, а также проблемы семантических вычислений в области связанных данных обосновали потребность в предметно-структурированной потребляемой информации. Модели описания, средства анализа и выявления закономерностей в информационных потоках, а также методы извлечения информации значительно развились за последние два десятилетия, однако, данное направление находится в ранней стадии развития и требует решения многих актуальных задач, таких как контекстно-независимое извлечение информации и его конечное представление в общепринятом формате.

В настоящей работе рассматриваются проблемы поиска и анализа неструктурированной информации произвольного направления в глобальной сети с целью извлечения смысловой информации и формального представления результатов в виде онтологии, а также повышения эффективности результатов поисковых запросов, в контексте разрешения неоднозначностей в результатах при поиске имен в сети. Разрешение неоднозначностей в результатах при поиске имен в сети является востребованной задачей из-за требований растущего числа коммерческих приложений и поисковых систем предоставить автоматизированную всеобъемлющую информацию о конкретной именной Сущности. Из-за недостоверности и противоречивости онлайн информации такая задача является сложной, и представленные на данный момент решения не являются эффективными.

Основные методологические подходы извлечения сетевой информации были заложены в публикациях Доброва Б.В. (2009), Смирнова И.В., Соченкова И.В., Муравьева В.В., Тихомирова И.А. (2007), Симакова К.В. (2008), Сидорова Е.А.

(2006), Хлопотова М.В. (2004), R. McDonald (2005), P.N. Mendes (2008), A. Nicu-lescu-Mizil (2006), E. Agichtein (2000), A. Yates (2007), D. Zelenko (2003), а в направлении устранения неоднозначностей при поиске персональных имен в глобальной сети выделяются работы следующих авторов - Н. Pasula (2006), J. Artiles

(2007), A. Bagga (1998) и L. Azzopardi (2005). Несмотря на то, что существует достаточно работ, сосредоточенных на извлечении предметно-ориентированной информации, которые охватывают много форм связей и предлагают общую парадигму извлечения связей при помощи правил, все они мотивированы целями извлечения, специфическими для конкретной предметной области.

Цель работы: разработка методик, моделей и алгоритмов для повышения релевантности информационно-поисковых систем (ИПС) на базе онтологии.

Для достижения поставленной цели необходимо решить следующие задачи:

■ провести анализ современных технологий построения моделей систем извлечения информации из глобальной сети с целью выявления преимуществ и недостатков и нахождения путей повышения релевантности ИПС;

■ разработать методику повышения релевантности информационно-поисковых систем для извлечения конкретных типов сложных связей и представления результатов в виде онтологий для дальнейшего использования в практических приложениях;

■ разработать модель и алгоритмы извлечения сложных связей;

■ разработать модель поиска персональной информации в глобальной сети с устранением неоднозначности в результатах при поиске персональных имен;

■ на основании предложенных средств повышения релевантности на базе онтологий создать информационно-поисковую систему извлечения и семантического представления структурированной информации из неструктурированного текста.

Объектом исследования является информационно-поисковая система извлечения структурированной информации из неструктурированного текста.

Предметом исследования являются средства повышения релевантности информационно-поисковых систем.

Методы исследования основываются на теории множеств; синтаксического анализа; теории векторного пространства; теории графов; анализа и оптимизации программных систем; теории построения программ; концепций создания онтологии; методах модульного, структурного и объектно-ориентированного программирования; вычислительных экспериментах.

Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:

■ методика извлечения информации из сетевых информационных ресурсов, отличающаяся независимостью от предметной области;

■ модель и алгоритмы извлечения информации из неструктурированного текста, отличающиеся использованием закономерностей в правилах образования языковых структур без ограничений привязки к конкретной предметной области;

■ автоматизированная технология формирования информации из сетевых ресурсов в виде онтологий, отличающаяся применением модуля обогащения извлеченной информации с целью повышения релевантности;

■ модель поиска персональной информации, основанная на текстовой кластеризации по тематическим признакам, отличающаяся использованием шести идентификационных признаков (название \¥еЬ-страницы, 1Л1Ь-адрес документа, метаданные, фрагменты, контекстное предложение, совокупность слов) для повышения релевантности поисковых результатов.

Основные положения, выносимые на защиту:

> методика извлечения информации из сетевых информационных ресурсов;

> модель и алгоритмы извлечения информации из неструктурированного текста;

модель поиска персональной информации в распределенных информационных системах.

Практическая ценность. Предложенные разработки были внедрены в основу информационно-поисковой системы «Агш-РегзопАпёег» компании «ЭсеопОеу». Эксплуатация информационно-поисковой системы показала высокую эффективность разработанных средств релевантности (более 5%).

Основные методические и программные разработки диссертации используются для проведения лекционных и лабораторных занятий в рамках учебного процесса Воронежской государственной лесотехнической академии по дисциплинам «Вычислительная техника и сети», «Моделирование и оптимизация».

Апробация работы. Основные положения работы докладывались и обсуждались на Международной научно-практической конференции «Идеология XXI века: противоречия развития современного общества» (Саратов, 2011), V Международной научно-практической конференции «Перспективы развития информационных технологий» (Новосибирск, 2011), 59-й Международной молодежной научно-технической конференции (Владивосток, 2012) и ежегодных научно-практических конференциях профессорско-преподавательского состава ВГЛТА (Воронеж, 2010, 2011,2012).

Соответствие диссертации паспорту научной специальности. Диссертация соответствует следующим пунктам области исследования паспорта специальности 05.25.05 - Информационные системы и процессы.

1. Методы и модели описания, оценки, оптимизации информационных процессов и информационных ресурсов, а также средства анализа и выявления закономерностей в информационных потоках. Когнитивные модели информационных систем, ориентированных на человеко-машинное взаимодействие.

6. Сетевые информационные ресурсы и технологии, в том числе разработка и исследование принципов организации и функционирования распределенных информационных систем и баз данных, прикладных протоколов информационных сетей, форматов представления данных и языков информационного поиска в распределенных информационных ресурсах.

Публикации. По теме диссертации опубликовано 18 работ, в том числе в двух изданиях, рекомендованных ВАК МИНОБРНАУКИ РФ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников, 26 рисунков и 17 таблиц. Общий объем диссертации составляет 145 страниц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, научная новизна и практическая значимость результатов.

В первой главе формулируется общая проблема извлечения смысловой информации из сетевых информационных ресурсов, приводится обзор существующих систем (Wien, BWI, iAsa и т.д.) и методов извлечения (статистические, основанные на правилах, классификации, гибридные модели и т.д.). Рассматриваются концепции и принципы применения, составляющие основу предложенной модели извлечения, такие как дерево грамматического разбора, графы зависимостей, онтологии с экземплярами, процесс валидации (проверки) и представления информации. Методы и подходы моделей, основанных на правилах, охватывают много форм связей и предлагают общую парадигму извлечения связей при помощи правил. Однако все они мотивированы целями извлечения, специфическими для конкретной области дискурса, и недостаточным образом охватывают извлечение сложных связей. Принимая во внимание данные недостатки, предлагаются методики и алгоритмы, охватывающие комплексные связи общей формы, которые имеют отношение напрямую с лингвистическими структурами, вместо привязки к предметной области.

Во второй главе предлагается модель извлечения информации из сетевых информационных ресурсов. Описываются следующие методики/модели: методика формирования правил извлечения информации, полностью независимых от предметной области; модель извлечения информации из неструктурированного текста; алгоритмы извлечения предметно-независимой информации.

Будем считать, что обработка текста идет предложение за предложением. Для каждого предложения создаются дерево грамматического разбора и граф зависимостей (при помощи Stanford parser). Дальнейшая обработка идет согласно этим структурам данных. Для начала дается формулировка правила извлечения, которое представляет собой совокупность некоторых правил, применяемых к графу зависимостей или дереву грамматического разбора, а также описываются действия, которые должны быть выполнены в случае, если имеют место заданные условия.

Для описания будем использовать следующие понятия:

— pt : i'h - условие или предпосылка для правила (определено в следующем пункте);

— Cj : j'h — действие или следствие для правила, соответствующее множеству предпосылок {р,};

— G{V,E)- граф зависимостей со множеством вершин К и множеством ребер Е;

— GS(Vr)- подграф графа G, вызванный (рожденный) множеством вершин V;

— D:A- множество меток, обозначающих типизированные зависимые связи;

— I: Е -+ D - функция пометки, которая определяет специфическую метку из множества D, для ребер графа G;

— P{ej} — помеченная цепь в графе G, состоящая из множества ребер {е,}.

Правила извлечения информации, используемые алгоритмами, имеют следующую общую форму. Для графа зависимостей G определяется правило извлечения в виде {/?,} —► {с,}, означающее, что если {р,} удовлетворяет, выполнить {с,}.

Это общее определение правила извлечения может иметь разные реализации, в зависимости от контекста употребления и сложности связей, встречающихся при выполнении задачи извлечения информации, одно из которых описано далее в виде поясняющего примера rt■ : {з/^, j|{/(e, )}= D',D' с d\—»{Извлечь все вершины,

связашше со множеством краев {е,}}.

Здесь г,- шифрует правило, что если существует специфическая последовательность меток зависимостей, без учета порядка (определенная множеством D), вместе с некоторой цепью в графе зависимостей данного предложения, тогда последовательность ребер (которые представляют слова в соответствующем предложении) формирует информационную составляющую и, таким образом, алгоритму поручается их извлечение. До того, как перейти к обсуждению конкретных правил извлечения, описываются связи, которые должны быть охвачены и извлечены при разборе предложений. Описание связей дается при помощи Стенфорд-ских типизированных зависимостей. В рамках диссертации описываются три типа сложных связей:

1. Случай со внутрентш предложением. В данном случае имеется субъект, глагол и одно подчиненное предложение, которое ведет себя как объект, но может представить некоторый полноценный факт. Предложения такого типа связывают не две сущности, а одну сущность с одним фактом. Такие типы связей могут быть представлены в разных вариациях, все из которых невозможно охватить. Поэтому выделяется несколько распространенных случаев, и формулируется правило извлечения.

2. Случай, когда модификаторы неявно квалифицируют значение связи. В таком типе связей существует главное предложение, смысл которого определяется либо предложным модификатором, либо присутствие модификатора придает совершенно другой смысл главному предложению.

3. Случай, когда множественные связи формируются сочинительным союзом. Этот тип связей включает все предложения с по крайней мере одним союзом -в, но, или, все еще, для, не, так/таким образом (and, but, or, yet, for, nor, so).

Для каждого из трех вышеприведенных случаев проверяется, какие пометки из списка Стенфордской библиотеки зависимостей описывают соответствующий случай и формулируется соответствующее правило извлечения, которое выражается встречаемостью некоторых пометок (или последовательностей пометок) в гра-

фе зависимостей, и решаются действия правила, определяющие, какие ребра графа следует извлечь в виде информационных составляющих. Связи в словах в предложении присваиваются ребрам графа и находятся при помощи Стенфордской библиотеки типизированных зависимостей.

В первом случае в графе делается поиск ребер с метками ссотр (дополнение выражений) или parataxis (тип синтаксической связи грамматически равноценных языковых единиц, осуществляемой без помощи союзов или с помощью сочинительных союзов). Если последние найдены, значит, предложение является подчиненным - ребро связывает предикат главного предложения с подчиненным (рис. 1).

Рис. 1. Применение правила извлечения для связей с подчиненными предложениями

Для нахождения субъекта главного предложения из той же вершины графа должно выходить ребро с пометкой nsubj (именное подлежащее), указывающее на главный субъект. Последнее в свою очередь может иметь связанный модификатор, который легко охватить, просматривая, с какой вершиной со связями пп (модификатор существительного соединения) или quantmod (количественный модификатор) связана вершина главного субъекта. Получается, что в виде субъекта главного предложения берется главный субъект, а также, при наличии, его модификатор, а в виде предиката - вершина, от которой выходят два ребра - nsubj к главному субъекту и ccomp/parataxis к подчиненному предложению. Таким образом, нужно извлечь следующие составляющие для данного случая:

predi = {Вершина с двумя ребрами с метками "nsubj" и "ссотр"}; sub] = {Вершина) - вершина, которая связана с вершиной predi ребром с меткой "nsubj", и вершина, связанная с Вершина] ребром с меткой "пп" или "quantmod"}.

Рассмотрение составляющих в подчиненном предложении пропущено, так как они включают несложные связи, которые могут быть с легкостью извлечены, используя правила для извлечения несложных связей.

Выражаясь формально, используя логику обозначения первого порядка, общий набор правил для данного случая можно описать следующим образом.

Правило извлечения 1 (правило извлечения для связей с внутренними предложениями). Если имеется граф зависимостей G(V,E) с функцией метки L для предложения i, набор правил извлечения информации для идентификации и извлечения сложных связей с внутренними предложениями, описанных в случае 1, будет иметь вид:

r¡ :{Bu,v,we V,3e¿u,v\e2{v,w)^ E\l{ex)=" nsubj" гл{1{е2) =

~'ccomp"(J¡(e2 ) ="parataxis"}) {pred¡ = {v},sub¡ = {г/}}; (1)

r2 :{3w,v,w,í6 V,3el(и, v),e2(v,w),e3(w,t)e. E\l(ex)="nsubf'n.{l[e2) =

=" ccomp"kjl{e2)=" parataxis") n/(e3)e{'W\" quant mod"} }->{«<£] = s«^ U {г}}. (2)

Правило расшифровывается следующим образом - если в графе зависимостей существуют 4 вершины (и, v, w, t), которые соединены ребрами e¡, е2, и е}, и если на этих ребрах есть метки "nsubj", "ccomp", "parataxis" и "nn" или "quantmod" соответственно, тогда можно извлечь информационную составляющую, где v, и будут соответствовать предикату и субъекту. Далее в правилах будет использован тот же принцип. Если находятся дополнительные связи, они также извлекаются. Результат применения этого правила к предложению иллюстрирован на рис. 1. Во втором случае квалифицирующий модификатор охватывается следующим образом: должен быть предлог, например, ребро в графе с пометкой prep with, который соединяет главное предложение с квалификатором. С другой стороны, квалификатор должен соединяться при помощи ребра с amod, со словом, который определяет «оценку» квалификатора, в рассматриваемом случае слово «high (высокой)». Главное предложение определяется так: вершина] - nsubj, вер-шинаг — dobj, вершиназ — pred, где вершины 1, 2 и 3 являются соответственно субъектом, предикатом и объектом. Как и в предыдущем случае, если есть ребра с nn или quantmod, которые выходят из субъекта или объекта, они тоже берутся как часть субъекта/объекта (рис. 2, two thousand (две тысячи), George Smith). Таким образом, определяются пять типов составляющих - субъект, предикат, объект, квалификатор и значение (оценка). В общей сложности нужно извлечь следующие составляющие для данного случая:

pred] = {Вершина с двумя ребрами с метками "nsubj" и "dobj"}; sub! = {Вершина! - вершина, которая связана с вершиной predi ребром с меткой "nsubj", и вершина, связанная с Вершина! ребром с меткой "nn" или "quantmod"};

obji = {Вершина] - вершина, которая связана с вершиной predi ребром с меткой "dobj", и вершина, связанная с Вершина] ребром с меткой "nn" или "quantmod"}; quai] = {Вершина с двумя ребрами с метками "prep" и "amod"}; val] = {Вершина, которая связана с quai] ребром с меткой "amod"}. Правило извлечения 2. Имея граф зависимостей G(V, Е) с функцией метки L для предложения /, правило извлечения для идентификации и извлечения сложных связей с подходящими модификаторами, как описано в случае 2, будет дано как:

гъ :{Эu,v,w,x,y,t е V,3e1(u,v),e2(y,w),e3(w,x),e4(x,y),e5(w,t)e Я|/(е,)="nsubf'rj(e2) = ="dobfnl(ei)="prep"nl(e4)="amod"nl(e5)e {"nn","quantmod"} }->{oZ>/, =obj\ и{/}};

r¡ :{3u,v,w,x,ye V,3e,(«,v),e2(v,w),e3(w,x),e4(x,>>)e E\l(et)="nsubfnl(e2) = — 'dobj'ri{eJ) — 'prep'nl{eA) — 'amod'^{pred[ ={v},íu¿} ={и},оЬд =\y?¡,qua\ ={х\,уа1х ={>'}};

r3 \^u,v,w,x,y,t& V,3e¡(u,v),e2(v,wle3(w,x),e4(x,y),es(w,t)e E\l(ei)="nsubf'nl(e2) = =" dob/гл^ ) =" prep"nl(e4 ) =" amod"rl(e5)e {'nn"," quant mod"} =sub¡ и {/}}•

Результат применения данного правила иллюстрирован на рис. 2.

Рис. 2. Применение правила извлечения для связи с квалифицированными модификаторами

В третьем случае для организации извлечения используется дерево грамматического разбора вместо графа зависимостей. Тут могут быть три наиболее вероятных сценария:

1) если это простое повествовательное предложение, то оно считается отдельным предложением и обрабатывается отдельно;

2) если включает и именную, и глагольную группу, после обработки левой части субъект левой части прикрепляется к правой, и все вместе считаются одним общим предложением;

3) если включает только именную, из левой части берутся субъект и предикат, прикрепляются к правой, предложение рассматривается как отдельное и используется существующая система правил для извлечения информации.

Осталось рассмотреть случай с простыми связями, при этом извлекаются следующие составляющие:

pred, = {Вершина с двумя исходящими ребрами с метками "nsubj" и "dobj"};

subi = {Вершина] -- вершина, которая связана с вершиной predi ребром с меткой "nsubj", и вершина, связанная с Вершина! ребром с меткой "пп" или "*mod"};

obji = {Вершина! - вершина, которая связана с вершиной predi ребром с меткой "dobj", и вершина, связанная с Вершина! ребром с меткой "пп" или "*mod"}.

Здесь "*mod" является сокращенным обозначением, используемым только для данного случая, для обозначения любой зависимости модификаторного типа.

Если выразить эти правила формальным образом, используя логику обозначения первого порядка, общий набор правил для этого случая будет выглядеть следующим образом.

Правило извлечения 3 (правило извлечения для несложных связей).

Если имеется граф зависимостей G(V, Е) с функцией метки L для предложения /, набор правил извлечения для идентификации и извлечения непростой связи будет иметь следующий вид:

г :{аu,v,we V,3e,(«,v),e2(v,w)e E\l{e1)=^nsubj"rJ(e2)="dobf}-*

—> {predl = {v},.h<6] = \ii\obj{ = {iv}}.

r2 :{3«,v,w,ie V,3e](u,v),e2(v,w\ei(u,t)e £|/(e,) = = "nsubj"nJ(e2) =Vo6/'n/(e3)e {'W,"*mod'}}-> {sz/6, = sub, u{i}}; r :{3u,v,w,te F,3el{u,v\e2(v,w),e3(u,t)e £'|/(e1) = = " nsubj"nl(e2) =" dobj"nl(e3) e {"wj',"*mod"}}-> -^{obj^obj^lt}}.

Извлеченные составляющие, до представления в виде RDF триплетов, должны пройти валидацию. Для упрощения валидации и системы представления в данной работе не рассматриваются связи с отрицательными модификаторами. Проверяется наличие neg зависимости, если оно найдено, предложение не рассматривается.

Применяются два типа валидации - простая, основанная на онтологии предметной области, и комплексная, при которой используются обогащения.

Онтология является структурой в виде О = (R, С), такой, что:

- множества Л и С не пересекаются и их элементы именуются соответственно «связи» и «концепции»;

- элементы R стимулируют строгую чистичную упорядоченность в элементах С. Следующая упорядоченность в виде с, -< cj,ct,cj е С называется концепцией иерархии.

Онтология с образцами (база знаний) является комбинацией описания предметной области (в форме онтологии с концепциями и связями) и определенных конкретных утверждений (образцов этих концепций) о данной области и определяется как структура в виде DOI = (О, Г) таким образом, что:

— /является множеством, элементы которого называются экземплярами;

— существует функция h : / —> Р(С), где Р(С) является показательным множеством (совокупностью всех подмножеств) множества концепций для онтологии О.

Простая валидация: если есть триплет (субъект, предикат, объект), проверяется, существуют ли соответствующие экземпляры для субъекта и объекта из множества экземпляров, а также связи — для предикатов. Если выразить формально, должны существовать экземпляры у\,}>2 из множества экземпляров и связь г из множества R так, чтобы пары (wi = subj, у\), (iv3 = pred, г), (w2 = obj, y2) принадлежали функции F, которая отображает множество слов в множестве экземпляров У и связей R, т.е., определяет, какое слово какому экземпляру или связи принадлежит. После этого проверяется, связана ли /--связь с найденными экземплярами. Полное определение валидации следующее: если существуют два экземпляра (уь у2), соответствующие триплетам (субъект, предикат, объект), одна связь г и две концепции (сь с2), соответствующие экземплярам, так, что г связывает эти две концепции, то триплет (ylt г, у2) считается прошедшим валидацию — валидным составляющим. Формальное определение вышесказанного следующее.

Правило проверки. Для текстового фрагмента Z, состоящего из предложений {7}} со множеством слов {W^, набор Тсш потенциальных составляющих, извлеченных при помощи алгоритма извлечения, описания предметной области, охваченной в онтологии 0(R, С), множества экземпляров У, функции h : Y —► Р(С) и отображения F из множества Wк RvjY , которое может классифицировать слова в предложении согласно экземпляру в Y или связи в R (покуда такое отображение интуитивно, на основах области дискурса), процесс проверки (валидации) в ре-

зультате должен привести к множеству {К= {shp¡, о,}} 3-кортежей s¡,p¡, o¡ (проверенных составляющих) при условии, что имеет место следующее:

3y„;y2¡ е У,Бп е Щуи,ц,уг)& \К <=> 3wu,w2l,w3¡ е Щ,си,с21 е

е CjK,w3¡,w2¡}e Тст n^yje Fn{w2¡,y2¡)e F n{w}i,r¡)e

e Fncu e h(yh)nc2j e h[y2i)r\cu e Предм.облас/т^г^п c2¡ e Диапазон[r¡).

Модуль обогащения. В случае с определениями (квалификаторами) создаются новые определения в модели онтологии, чтобы вычислить подходящие связи. В данном случае алгоритм извлечения вызывает модуль обогащения до того, как запускается процесс проверки для составляющих.

В особых случаях, когда не работает один из совпадений в подходе с базовой проверкой, модуль обогащения вызывается после того, как процесс проверки вычислит необходимость в обогащении. Процесс обогащения необходим для удостоверения в том, что:

а) процесс вызывает модуль проверки (валвдации), чтобы проверить составляющие, которые были переданы ему, в зависимости от рассматриваемого случая;

б) обогащает онтологию таким образом, чтобы охватывались подходящие составляющие в связях;

в) возвращает список проверенных и обогащенных составляющих.

Рассмотрим вышеописанные шаги.

1. Проверка соответствующих составляющих:

а) используется правило проверки для валидации {sub, pred, obj};

б) далее находится соответствие val (от слова value - значение) в наборе экземпляров. Для этого, как и ранее, используются синтаксические сравнения.

Если соответствие для val найдено, делается переход к следующему шагу обогащения. Если соответствия не найдены, никакие действия для обогащения не предпринимаются.

2. Обогащение онтологии.

Для нахождения дополнительных соответствий к предметной области онтологии делаются следующие добавления:

а) как одноразовое совершенствование, создается новая концепция, соот-ветствующаяСвязь. Также создаются три новых связи - имеетСоответствую-щийПредикат, имеетСоответствующийСубъект и гшеетСоответствующий-Объект, все в области соответствующаяСвязь и занимают место наиболее общих концепций в иерархии заданной онтологии;

б) далее каждый раз, когда делается запрос модулю обогащения на соответствия, произведение обогащений для соответствий, модуль создает новый экземпляр (скажем, соответствующаяСвязь_1) типа соответствующаяСвязь, создает новое свойство-спецификатор в области соответствующаяСвязь и области концепций, для которого утвержден данный экземпляр. Модуль создает такое свойство для каждой пары {определитель, значение}.

3. Возвращение обогащенных составляющих.

В конечном счете возвращаются следующие составляющие в {субъект, предикат, объект} нотации:

а) {соответствующаяСвязь_1, имеетСоответствующийСубъект, sub}, {соответствующаяСвязь_1, имеетСоответствующийПредикат, pred}, { соответствующаяСвязь_1, имеетСоответствующийОбъект, obj};

б) далее, для каждой пары {определитель, значение} возвращается триплет { соответствующаяСвязь!, определитель, значение}.

Предложенные модель извлечения и модуль обогащения позволяют извлекать смысловую информацию из неструктурированных данных в контекстно-независимой манере.

В третьей главе представлена модель системы поиска персональной информации, в которой используется предметно-ориентированная информация для улучшения результатов поиска имен в сети, основанная на текстовой кластеризации по тематическим признакам. Предлагается модель системы поиска персональной информации, основанная на текстовой кластеризации по тематическим признакам, суть которой состоит в следующем.

В рассматриваемой модели применяется стандартная модель пространства векторов. Каждый документ представлен в виде вектора, сформированного шестью типами признаков, извлеченных из локальных данных:

1. Название веб-страницы разбивается на одиночные слова и добавляется к вектору признаков, представляющему собой N-размерный вектор, число компонентов которого равняется числу всех рассматриваемых слов в документе.

2. URL-адрес документа включает имя хоста и URL-страницы и путь на сервере.

3. Метаданные: только два типа метаданных используются при условии, что они существуют, "ключевые слова" и "описание", так как такие метаданные являются крайне информативными.

4. Фрагменты: возвращают некоторые поисковые системы (напр., Yahoo), которые зачастую ссылаются на имя; являются обобщенными фрагментами текста, из которых можно вычислить контекст запроса и соответствие информации по данному запросу к нужному контексту.

5. Контекстное предложение: полное предложение, включающее имя запроса.

6. Совокупность слов: регулярно используемый признак для представления документа. В предлагаемой системе все слова в документе индексируются в виде признаков в «пространстве признаков».

Для словах используется схема взвешивания TF.IDF с весом Z'x :

где ¡/х - частота слова х в документе; N4 — общее число рассматриваемых документов (\уеЬ-страниц); с1/х - число документов, в которых присутствует слово х.

Если 1/х = 0, т.е. слово не встречается в документе, тогда \оц,(1/х +1) = 0 для весового коэффициента. Далее дается весовой коэффициент каждому из шести вышеописанных типов признаков, который помечен как ZF(x), так как некоторые слова могут быть более важны, чем другие. Таким образом, окончательный нормализованный вес для каждого признака имеет вид:

При нормализации в качестве нормирующей величины берется квадратный корень суммы квадрата весовых коэффициентов всех слов (множество X).

Z>log20/i+l)log2 , \dfx)

(3)

Z'xZF(x)

(4)

Предложенная модель кластеризации основана на алгоритме Иеарархиче-ской агломерационной кластеризации (далее — АИАК). В АИАК все документы изначально рассматриваются как одиночные кластеры, при этом каждый вектор считается кластером. При каждой итерации два самых похожих кластера (согласно стандартной модели пространства векторов) объединяются в больший кластер. Таким образом, при каждой итерации на один кластер становится меньше, и новый объединенный кластер уже определяется не двумя, а одним вектором, который является средним двух векторов и называется центроидным вектором. Цен-троидные векторы двух кластеров объединяются в новый центроидный вектор.

Алгоритм АИАК обычно хорошо работает в начале кластеризации. Однако по мере роста числа итераций эффективность начинает падать. Алгоритм может по ошибке объединить два больших кластера из-за большого числа признаков. Также некоторые вновь добавленные признаки могут привести к неправильному направлению поиска из-за расхождений в тематике.

На рис. 3 наборы кластеров о журналисте могут быть ошибочно объединены с кластером о солдатах на войне из-за неправильного соответствия некоторых слов, не связанных с рассматриваемой темой. Для того, чтобы получить ключевые слова, определяющие данную тематику, во время кластеризации создается вектор, называемый золотой список (hit list), в котором и хранятся эти ключевые слова. Этот вектор поддерживается для каждого неодиночного кластера вдобавок к цен-троидному вектору, который используется в АИАК. Стоит отметить, что суммарный вес золотого списка является скалярным произведением центроидных векторов в кластерах Q и Cj. Так как векторы уже нормализованы, скалярное произведение представляет косинусное сходство между Q и С2. Таким образом, золотой список записывает вклад каждого признака в образование нового кластера С. На основе этого предположения делается попытка объединить кластеры документов, если они разделяют совместимую тематику. Золотой список для объединенного кластера С является вектором, включающим общие признаки двух первичных кластеров, на основе которых образуется кластер С. Каждый признак в золотом списке ассоциирован с весом, который является результатом, полученным от нормализованных векторов в двух исходных кластерах. Если признак получает больший вес в золотом списке, он также должен иметь большой вес в своих исходных кластерах. Это значит, что признаки с большим весом в золотом списке обычно являются ключевыми словами в документах, содержащихся в кластере. Соответственно, они могут представлять тематику в кластере.

/ Статья / Журналист : ■ Герой ■: 'У Войка \

1 Расследовать (азета Страна: 1 Сопдат s

У Демократия

Журналист Солдат на койне ...........................X

Рис. 3. Расхождения в теме

С помощью золотого списка может быть модифицирован метод измерения сходства, использованный в АИАК, на основе применения простой схемы: если два кластера скорей всего не указывают на одну и ту же тематику, их значение сходства будет снижено на «штрафную» величину. Для определения, указывают ли кластеры на одну и те же тематику, рассматриваются два случая. Первый, когда золотой список объединенного кластера включает только несколько слов, что означает, что два кластера в целом соответствуют друг другу по тематике, судя по большому числу признаков с низким весом. Второй, когда золотой список объединенного кластера имеет только несколько совпадений с соответствующими золотыми списками исходных кластеров, что свидетельствует о расхождении тематики. Для первого случая используется показатель - Необходимое Соотношение Соответствий (НСС). Если даны два кластера Ci и С2, соответствующие золотым спискам Нх и Я2, объединенный кластер золотого списка Яс, НСС, помеченный как НССс, рассчитывается при помощи следующей формулы:

колич.(Яг)

НССс =-(г\ ' <5>

КОЛИЧ.(С| ) + колич.(С2 )

где колич. (Нс), колич. (С]), и колич. (С2) обозначают соответствующее количество элементов в соответствующих векторах. Если НССс меньше, чем порог (значение порога экспериментальным путем установлено в 0,1), будет применен штраф сходства с вычитанием соответствующего «штрафного» значения, величина которого определена экспериментальным путем и равна 0,2.

Для второго случая используются пересекающиеся схожести (ПС) между Я] и Яс и между Я2 и Яс для обнаружения расхождений тематик в кластерах для возможного применения штрафа. Для двух произвольных векторов V и V используем v(z) и v'(z) для обозначения веса слова z в соответствующих векторах. В этом случае ПС определяется следующим образом:

Если один из объединенных кластеров является единичным кластером, т.е. не имеет ассоциированного с ним золотого списка, предполагается, что ПС равняется некоторому порогу (который можно определить экспериментально). Далее определяется Значение Расхождений (ЗР) как гармоническое среднее двух пересекающихся схожестей:

ЗР= 1 ' 1-- <7>

ПС(Я„Яс) + ПС(Я2,Яс)

В частности, значение ЗР будет 0, если любой из пересекающихся схожестей равен 0. Если значение ЗР ниже значения порога, применяется штраф с вычитанием определенных очков. Этот порог и штраф определяются посредством эксперимента.

Оценка эффективности модели. В модели для тестов используются наборы данных WePS2. Для оценки эффективности модели используются B-cubed значения и четкостные значения (purity scores). Официальной основой оценки модели в WePS2 является F-измерение (среднее гармоническое) B-cubed точности и полноты.

В локальной совокупности данных \VePS2 минимальное число кластеров 1, а максимальное - 56. Число документов может варьироватся от одного в одном кластере до 99 - в другом. В предлагаемом подходе измерением схожести является косинусная схожесть двух векторов. Алгоритм прекращает работу, если максимум схожести между кластерами меньше, чем порог косинусной схожести. Значение порога экспериментальным путем установлено в 0,1. Весовые коэффициенты для разных слов настраиваются на основании важности для кластеризации, их значения представлены в табл. 1. Все эти параметры устанавливаются согласно результатам экспериментов на тестовых данных \VePS2.

1. Типы признаков, влияющих на весовой коэффицент

Признаки Заголовок URL-адрес Метаданные Фрагменты Контекстные предложения Совокупность слов

Весовые коэффиценты 1 1 2 0,8 2 1

Пороговые значения для НСС, значения расхождения и соответствующие штрафные значения должны быть установлены согласно требованиям конкретного приложения. Более высокие значения помогают устанавливать лучший контроль над тематикой. Верхняя и нижняя граница для этих значений принимают соответственно значения 1 и 0. Эти значения также должны быть пропорциональны порогу косинусной схожести. Обычно установление значения штрафных очков, аналогичных порогу косинусной схожести, должно обеспечить достаточную эффективность. Применяются следующие значения порога штрафных очков: НСС порог -0,02, НСС штрафные очки - 0,08.

В таблице 2 приведена эффективность предложенной модели по сравнению с тремя самыми эффективными на данный момент алгоритмами согласно оценкам WePS2. Таблица 3 иллюстрирует оценку эффективности предложенной модели по сравнению с двумя другими моделями с известным верхним порогом и тремя самыми эффективными на данный момент моделями согласно оценкам WePS2. Из таблицы видно, что предложенная модель превосходит все топ-системы по F = 0,5 и F = 0,2 измерениям. По сравнению с другими системами, предложенная модель дает улучшение на 5,5%.

Высокая эффективность в обеих схемах измерения доказывает, что предложенную модель можно применить в реальных приложениях.

2. Эффективность WePS2 данных на B-Cubed измерении

Системы F-измерение B-cubed

а = 0,5 а = 0,2 Pre, Rec,

PolyUHK 0,82 0,80 0,87 0,79

UVA1 0,81 0,80 0,85 0,80

ITC-UTJ 0,81 0,76 0,93 0,73

Предложенная 0,85 0,83 0,92 0,82

3. Эффективность WePS данных на F-измерении четкости

Системы F-измерение

а = 0,5 а = 0,2

BEST-HAC-TOKENS 0,85 0,84

BEST-HAC-BIGRAMS 0,85 0,83

PolyUHK 0,82 0,79

UVA 1 0,81 0,80

ITC-UT 1 0,81 0,76

Предложенная модель 0,85 0,83

В четвертой главе описывается предложенная оригинальная система извлечения информации (СИИ), использующая автоматизированную технологию формирования информации из сетевых ресурсов в виде онтологии (рис. 4).

.......... - .-чП'.' '■"■'

Произвольный

нестру1"- текст

В

01сиед»ис

Утяврждвн«>о экземпляры

пользователь

KüfífíXVi/Kip CftyW&l ЗйГруЛОК

Щх&яык 1J

с . п -

Г—

модель ВОЯ граф Грамматика ]

L- J

Рис. 4. Архитектурная диаграмма системы извлечения информации

СИИ - это система, основанная на онтологиях, для извлечения и семантического представления структурированной информации из неструктурированного текста, выполненная в виде веб-приложения, которая может извлечь, представить и изобразить предметно-специфическую информацию из необработанного текста в виде сложных (или несложных) связей. Это делается, применяя алгоритмы извлечения, основанные на правилах, применимых к произвольному необработан-

ному тексту, выявляя ключевые сущности и связи, ссылаясь на определенные фундаментальные знания, которые даны на входе, сопоставляя извлеченные составляющие с базовыми знаниями для достижения логически последовательных результатов согласно данной предметной области, и, наконец, представления результатов в виде ТЮР-графов. СИИ включает несколько рабочих режимов, основанных на желаемом показателе сложности анализа и полноты описания данной предметной области.

Результаты. В таблице 4 приведены результаты извлечения простых связей и рассмотренных трех типов сложных связей.

4. Результаты: точность, полнота и F-измерение

Текст № Простые связи Тип 1 Тип 2 Tim 3

Точность 0,86 0,96 1,0 1,0

Полнота 0,95 0,80 0,57 1,0

F-измерение 0,90 0,87 0,73 1,0

Предложенная система в среднем превосходит существующие на данный момент системы с одинаковым кругом задач (TextEspresso, SHOE, ВМС Bioinformatics) на 3 - 10% по параметрам точности, полноты и F-измерения.

В заключении приведены основные результаты диссертационной работы. В диссертации получены следующие основные результаты.

1. Выполнен анализ современных технологий построения моделей систем извлечения информации и выявлены их недостатки, что позволяет оптимизировать научные исследования в области извлечения сложных связей смысловой информации из текста независимо от предметной области.

2. Предложена методика формулирования правил извлечения, основанная на концепции независимости от предметной области посредством использования языковых конструкций, позволяющая повысить релевантность результатов поиска.

3. Разработаны модель и базирующиеся на ней алгоритмы для извлечения сложных структурных связей из неструктурированного текста, что позволяет извлечь информацию без привязки к предметной области.

4. Предложена модель поиска персональной информации в глобальной сети, позволяющая повысить эффективность устранения неоднозначности в результатах.

5. Разработана информационно-поисковая система, основанная на онтологи-ях, для извлечения и семантического представления структурированной информации из неструктурированного текста, которая позволяет извлечь, представить и изобразить предметно-специфическую информацию из необработанного текста в виде сложных связей.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В СЛЕДУЮЩИХ РАБОТАХ

Публикации в изданиях, определенных ВАК РФ

1. Манучарян, Л.А. Извлечение персональной информации in сети [Текст] / Л-А. Ма-нучарян // Информация и безопасность. - 2011. - № 3 (14). - С. 417 - 424.

2. Манучарян, Л.А. Извлечение информации из текста: прогнозировать связей между заданной парой сущностей [Текст] / Л.А. Манучарян // Современные проблемы науки и образования. - 2011. -№ 6. - URL: http://www.science-education.ru/100-4989.

Статьи и материалы международных конференций

3. Зольников, В.К. Алгоритм извлечения информации из неструктурированного текста согласно модели онтологии [Текст] / В.К. Зольников, JI.A. Манучарян // Моделирование систем и процессов. - 2012. - № 2. — С. 60 - 64.

4. Зольников, В.К. Преобразование информации, извлеченной из неструктурированного текста, в виде RDF триплетов [Текст] / В.К. Зольников, JI.A. Манучарян // Моделирование систем и процессов. - 2012. - № 2. - С. 64 - 69.

5. Зольников, В.К. Валидация извлеченной информации на основе онтологического описания [Текст] / В.К. Зольников, JI.A. Манучарян // Моделирование систем и процессов. - 2012. - № 3. - С. 54 - 59.

6. Манучарян, JI.A. Неточности при извлечении информации из неструктурированного текста [Текст] / JI.A. Манучарян // Вестник инженерной академии Армении. -Ереван, 2011. - № 3 (8). - С. 553 - 557

7. Манучарян, JI.A. Система извлечения информации из необработанного текста [Текст] / JI.A. Манучарян // Журнал научных публикаций аспирантов и докторантов. - 2011. - № 9. - С. 100 - 102.

8. Манучарян, Л.А. Определение правил грамматического разбора для извлечения смысловой информации из неструктурированных данных с использованием онтологии [Текст] / JI.A. Манучарян // Моделирование систем и процессов. — 2011. - № 1—2. -С. 44-46.

9. Манучарян, JI.A. Формулирование правил для извлечения сложных связей с внутренними предложениями из необработанного текста [Текст] / JI.A. Манучарян // Моделирование систем и процессов. - 2010. - №1-2. - С. 47 - 49.

10. Манучарян, JI.A. Алгоритмы по обучению правилам извлечения информации [Текст] / JI.A. Манучарян // Научная перспектива. - 2010. - № 9. - С. 82 - 84.

11. Манучарян, JI.A. Формулирование правил для извлечения сложных связей из необработанного текста в случае с модификаторами, неявно определяющими значите связи [Текст] / JI.A. Манучарян // Научная перспектива. - 2011. - № 9. - С. 85 - 87.

12. Манучарян, JI.A. Оптимизация производительности систем извлечения информации [Текст] / JI.A. Манучарян // Альманах современной науки и образования. -2011,-№9.-С. 35 -37.

13. Манучарян, JI.A. Системы извлечения информации, основанные на правилах: (LP)2 [Текст] / JI.A. Манучарян // Моделирование систем и процессов. - 2011. - № Ъ-4. -С. 84 - 86.

14. Манучарян, JI.A. Системы извлечения информации, основанные на оберточной индукции: BWI и Wien [Текст] / Л.А. Манучарян // Моделирование систем и процессов. - 2011. - № 3-4. - С. 87 - 89.

15. Манучарян, Л.А. Обзор системы по извлечению подклассов из глобальной сети [Текст] / Л.А. Манучарян // Альманах современной науки и образования. - 2011. -№ 10.-С. 52-54.

16. Манучарян, Л.А. Применение систем извлечения в наукоемких индустриях [Текст] / Л.А. Манучарян // Идеология XXI века: противоречия развития современного общества : материалы по итогам работы международной научно-практической конференции. - Саратов, 2011. - Ч. 2. - С. 24 - 27.

17. Манучарян, Л.А. Метод формирования правил для извлечения сложных связей из произвольного текста [Текст] / Л.А. Манучарян // Перспективы развития информационных технологий : сборншс материалов V международной научно-практической конференции. - Новосибирск, 2010. - С. 57 - 61.

18. Манучарян, Л.А. Проблемы при извлечении смысловой информации из неструктурированного текста [Текст] / Л.А. Манучарян // 59-я Международная молодежная научно-техническая конференция. — Владивосток, 2010. - С. 54 - 56.

Подписано в печать 12.10.2012. Формат 60x84/16. 0,93 усл. печ. л. Тираж 100 экз. Заказ № 520

Издательско-полиграфический центр ФГБОУ ВПО «ТГТУ» 392000, г. Тамбов, ул. Советская, д. 106, к. 14

Оглавление автор диссертации — кандидата технических наук Манучарян, Левон Ашотович

Введение.

1 Состояние и задачи развития методов извлечения информации из неструктурируемого текста.

1.1 Современные методы извлечения информации из неструктурированного текста.

1.1.1 Методы, основанные на правилах.

1.1.2 Методы извлечения, основанные на классификации.

1.1.3 Методы извлечения, основанные на последовательной маркировке.

1.1.4 Дискриминационные модели.

1.1.5 Условные случайные поля (Conditional Random Fields).

1.2 Анализ систем извлечения информации из неструктурируемого текста.

1.2.1 Алгоритм извлечения информации iAsa.

1.2.2 Алгоритм извлечения информации (LP)".

1.2.3 Алгоритм извлечения информации Wien.

1.2.4 Алгоритм извлечения информации BW1.

1.2.5 Алгоритм со Скрытыми Марковскими Моделями.

1.3 Неточности результатов извлечения информации в разных моделях.

1.3.1 Доверительные величины при одиночных извлечений.

1.3.2 Мультиатрибутные извлечения.

1.3.3 Множественные избыточные извлечения.

1.4 Результаты анализа современных методов, моделей и систем извлечения информации.

1.5 Выводы.

2 Методика релевантности извлечения конкретных типов сложных связей на основе онтологий.

2.1 Производные структуры. Дерево грамматического разбора и графы зависимостей.

2.1.1 Дерево грамматического разбора.

2.1.2 Граф зависимостей.

2.2 Онтология предметной области. Представление информационных составляющих сетевых ресурсов.

2.2.1 Использование онтологии для представления сложных связей.

2.3 Методика извлечения информации на базе онтологий.

2.3.1 Обработка текста пофразовым методом.

2.3.2 Проверка потенциальных связей, согласно модели онтологии.

2.4 Алгоритмы извлечения и валидации информации на базе онтологий.

2.4.1 Разрешение местоимений в алгоритме 1.

3 Модель поиска персональной информации в глобальной сети с устранением неоднозначности в результатах при поиске персональных имен.

3.1 Основные положения.

3.2 Модель поиска при помощи кластеризации документов.

3.4 Выводы.

4 Моделирование и архитектура системы извлечения информации. Результаты внедрения.

4.1 Обзор архитектуры.

4.2 Детали архитектуры и реализации.

4.2.1 Служебная система запросов и ответов.

4.2.3 Пользовательский интерфейс, визуализация и система анализа.

4.3 Практическая оценка и анализ использования Системы извлечения.

Онтологии и примеры данных.

4.4 Результаты и интерпретация.

4.4.1 Интерпретация.

4.4.2 Обсуждение ошибок.

4.5 Запросы к графам.

4.6 Выводы.

Введение 2012 год, диссертация по документальной информации, Манучарян, Левон Ашотович

Актуальность темы. Современные проблемы информационно-управляемого искусственного интеллекта, а также проблемы семантических вычислений в области связанных данных обосновали потребность в предметно-структурированной потребляемой информации. Модели описания, средства анализа и выявления закономерностей в информационных потоках, а также методы извлечения информации значительно развились за последние два десятилетия, однако, данное направление находится на ранней стадии развития и требует решения многих актуальных задач, таких как контекстно-независимое извлечение информации и его конечное представление в общепринятом формате.

В настоящей работе рассматриваются проблемы поиска и анализа неструктурированной информации произвольного направления в глобальной сети с целыо извлечения смысловой информации и формального представления результатов в виде онтологий, а также эффективности результатов поисковых запросов, в контексте разрешения неоднозначностей в результатах при поиске имен в сети. Решение неоднозначностей в результатах при поиске имен в сети является востребованной задачей из-за требований растущего числа коммерческих приложений и поисковых систем предоставить автоматизированную всеобъемлющую информацию о конкретной именной сущности. Из-за недостоверности и противоречивости онлайн информации такая задача является сложной, и представленные на данный момент решения не являются довольно эффективными.

Основные методологические подходы извлечения сетевой информации были заложены в публикациях Доброва Б. В. (2009), Смирнова И. В., Соченкова И. В., Муравьева В. В., Тихомирова И. А. (2007), Симакова К. В. (2008), Сидоровы Е. А. (2006), Хлопотова М. В. (2004), R. McDonald (2005), Р. N. Mendes (2008), А. Niculescu-Mizil (2006), Е. Agichtein (2000), A. Yates (2007), D. Zelenko (2003), а в направлении устранения неоднозначностей при поиске персональных имен в глобальной сети отделяются работы следующих авторов - II. Рази1а (2006), .1. АгШеэ (2007), А. В১а (1998) и АггорагсП, Ь (2005). Несмотря на то, что существует много работ, сосредоточенных на извлечении предметио-ориентированной информации, которые охватывают много форм связей и предлагают общую парадигму извлечения связей при помощи правил, все они мотивированы целями извлечения, специфическими для конкретной предметной области.

Цель работы. Разработка методик, моделей и алгоритмов для повышения релевантности информационно-поисковых систем (ИПС) на базе онтологий.

Для достижения поставленной цели необходимо решить следующие задачи:

1. провести анализ современных технологий построения моделей систем извлечения информации из глобальной сети с целью выявления преимуществ и недостатков и нахождения путей повышения релевантности ИПС;

2. разработать методику повышения релевантности информационно-поисковых систем для извлечения конкретных типов сложных связей и представления результатов в виде онтологий для дальнейшего использования в практических приложениях;

3. разработать модель и алгоритмы извлечения сложных связей;

4. разработать модель поиска персональной информации в глобальной сети с устранением неоднозначности в результатах при поиске персональных имен;

5. на основании предложенных средств релевантности на базе онтологий создать поисково-информационную систему извлечения и семантического представления структурированной информации из неструктурированного текста.

Объектом исследования является информационно-поисковая система извлечения структурированной информации из неструктурированного текста.

Предметом исследования являются средства повышения релевантности информационно-поисковых систем.

Методы исследования основываются на теории множеств; синтаксического анализа; теории векторного пространства; теории графов; анализа и оптимизации программных систем; теории построения программ; концепций создания онтологии; методах модульного, структурного и объектно-ориентированного программирования; вычислительных экспериментах.

Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:

1. методика извлечения информации из сетевых информационных ресурсов, отличающаяся независимостью от предметной области;

2. модель и алгоритмы извлечения информации из неструктурированного текста, отличающиеся использованием закономерностей в правилах образования языковых структур без ограничений привязки к конкретной предметной области;

3. автоматизированная технология формирования информации из сетевых ресурсов в виде онтологий, отличающаяся применением модуля обогащения извлеченной информации с целью повышения релевантности;

4. модель системы поиска персональной информации, основанная на текстовой кластеризации по тематическим признакам, отличающаяся использованием шести идентификационных признаков (название Web страницы, URL адрес документа, метаданные, фрагменты, контекстное предложение, совокупность слов) для повышения релевантности поисковых результатов.

Основные положения, выносимые на защиту: методика извлечения информации из сетевых информационных ресурсов; ^ модель и алгоритмы извлечения информации из неструктурированного текста; ^ модель системы поиска персональной информации в распределенных информационных системах.

Практическая ценность. Предложенные разработки были внедрены в основу информационно-поисковой системы "Arm-Person finder" компании

БсеопЭеу». Эксплуатация информационно-поисковой системы показала высокую эффективность разработанных средств релевантности (более 5%).

Основные методические и программные разработки диссертации используются для проведения лекционных и лабораторных занятий в рамках учебного процесса Воронежской государственной лесотехнической академии по дисциплинам «Вычислительная техника и сети», «Моделирование и оптимизация».

Апробация работы. Основные положения работы докладывались и обсуждались на Международной научно-практической конференции «Идеология XXI века: противоречия развития современного общества» (Саратов, 2011), V международной научно-практической конференции «Перспективы развития информационных технологий» (Новосибирск, 2011), 59-ой Международной молодежной научно-технической конференции (Владивосток, 2012) и ежегодных научно-практических конференциях профессорско-преподавательского состава ВГЛТА (Воронеж, 2010, 2011, 2012).

Соответствие диссертации паспорту научной специальности.

Диссертация соответствует следующим пунктам области исследования паспорта специальности 05.25.05 - «Информационные системы и процессы. 1. Методы и модели описания, оценки, оптимизации информационных процессов и информационных ресурсов, а также средства анализа и выявления закономерностей в информационных потоках. Когнитивные модели информационных систем, ориентированных на человеко-машинное взаимодействие. б. Сетевые информационные ресурсы и технологии, в том числе разработка и исследование принципов организации и функционирования распределенных информационных систем и баз данных, прикладных протоколов информационных сетей, форматов представления данных и языков информационного поиска в распределенных информационных ресурсах.

Публикации. По теме диссертации опубликовано 19 работ, в том числе в двух изданиях рекомендованных ВАК РФ.

Заключение диссертация на тему "Разработка средств повышения релевантности информационно-поисковых систем на базе онтологий"

4.6 Выводы

1. Представлена архитектура системы извлечения информации, базированной на применении моделей и алгоритмов, полученных в главе 2. Извлеченные связи представляются в виде RDF графов, которые могут быть помещены в RDF базы знания и к ним могут быть применены запросы, используя языки запросов для RDF.

2. Было создано и представлено несколько аналитических экспериментов, которые доказывают полезность предложенного подхода, базированного на онтологиях, для извлечения сложных связей из текста.

ЗАКЛЮЧЕНИЕ

В результате проведенных исследований была достигнута цель диссертационной работы - разработаны методики, модели и алгоритмы повыпения релевантности поисково-информационных систем на базе онтологий.

Достижение цели потребовало решение следующих задач.

1. Выполнен анализ современных технологий построения моделей систем извлечения информации и выявлены их недостатки, что позволяет оптимизировать научные исследования в области извлечения сложных связей смысловой информации из текста независимо от предметной области.

2. Предложена методика формулирования правил извлечения, основанная на концепции независимости от предметной области посредством использования языковых конструкций, позволяющая реализовать принцип максимизации пертинентности.

3. Разработаны модель и алгоритмы для извлечения сложных структурных связей из неструктурированного текста, что позволяет повысить релевантность запросов.

4. Предложена модель поиска персональной информации в глобальной сети, позволяющая повысить эффективность устранения неоднозначности в результатах.

5. Разработана поисково-информационная система, основанная на онтологиях, для извлечения и семантического представления структурированной информации из неструктурированного текста, которая позволяет извлечь, представить и изобразить предметно-специфическую информацию из необработанного текста, в виде сложных связей.

Библиография Манучарян, Левон Ашотович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Зольников В.К., Манучарян, Л.А. Алгоритм извлечения информации из неструктурированного текста согласно модели онтологии Текст. / В.К. Зольников, Л.А. Манучарян // Моделирование систем и процессов. — 2012. -№2. - С. 60-64.

2. Зольников В.К., Манучарян, Л.А. Валидация извлеченной информации на основе онтологического описания Текст. / В.К. Зольников, Л.А. Манучарян // Моделирование систем и процессов. 2012. - №3. - С. 54-59.

3. Зольников В.К., Манучарян, Л.А. Преобразование информации, извлеченной из неструктурированного текста, в виде RDF триплетов Текст. / В.К. Зольников, Л.А. Манучарян // Моделирование систем и процессов. -2012.-№2.-С. 64-69.

4. Манучарян, Л.А. Извлечение персональной информации из сети Текст. / Л.А. Манучарян // Информация и безопасность. 2011. -№3 (14). - С. 417424.

5. Манучарян, Л.А. Извлечение информации из текста: прогнозирование связей между заданной парой сущностей Текст. / Л.А. Манучарян // Современные проблемы науки и образования. 2011. - №6. - URL: http://www.science-education.ru/100-4989

6. Манучарян, Л.А. Неточности при извлечении информации из нетруктурированного текста Текст. / Л.А. Манучарян // Вестник инженерной академии Армении. Ереван, 2011.-№3 (8).-С. 553-557

7. Манучарян, J1.A. Система извлечения информации из необработанного текста Текст. / JI.A. Манучарян // Журнал научных публикации аспирантов и докторантов. -2011.- №9. С. 100-102.

8. Манучарян, JI.A. Определение правил грамматического разбора для извлечения смысловой информации из неструктурированных данных с использованием онтологий Текст. / JI.A. Манучарян // Моделирование систем и процессов. 2011. - №1-2. - С. 44-46.

9. Манучарян, JI.A. Формулирование правил для извлечения сложных связей с внутренними предложениями из необработанного текста Текст. / JI.A. Манучарян // Моделирование систем и процессов. 2011. - №1-2. - С. 4749.

10. Манучарян, JI.A. Алгоритмы по обучению правилам извлечения информации Текст. / JI.A. Манучарян // Научная перспектива. 2011. -№9. - С. 82-84.

11. Манучарян, JI.A. Формулирование правил для извлечения сложных связей ин необработанного текста в случае с модификаторами, неявно определяющими значение связи Текст. / J1.A. Манучарян // Научная перспектива. 2011. - №9. - С. 85-87.

12. Манучарян, JI.A. Оптимизация производительности систем извлечения информации Текст. / JI.A. Манучарян // Альманах современной науки и образования. 2011. - №9. - С. 35-37.

13. Манучарян, JI.A. Системы извлечения информации, основанные на правилах: (LP)2 Текст. / JI.A. Манучарян // Моделирование систем и процессов. 2011. - №3-4. - С. 84-86.

14. Манучарян, JI.A. Системы извлечения информации, основанные на оберточной индукции: BWI и Wien Текст. / J1.A. Манучарян // Моделирование систем и процессов. 2011. -№3-4. - С. 87-89.

15. Манучарян, Л.А. Оптимизация производительности систем извлечения информации Текст. / Л.А. Манучарян // Обзор системы по извлечению подклассов из глобальной сети. 2011. - № 10. - С. 52-54.

16. Манучарян, Л.А. Извлечение информации из текста: прогнозирование связей между заданной парой сущностей Текст. / Л.А. Манучарян // Современные проблемы науки и образования 2011. - №7. - С. 38-44.

17. Манучарян, Л.А. Проблемы при извлечении смысловой информации из неструктурированного текста Текст. / Л.А. Манучарян // 59 международная молодежная научно-техническая конференция. г. Владивосток, 2012. - С. 54-56.

18. Рабинович Павел Давидович. Исследование и разработка моделей, алгоритмов и программного обеспечения в компьютерных обучающих системах :

19. Дис. . канд. техн. наук : 05.13.18 Москва, 2005 150 с. РГБ ОД, 61:06-5/256

20. Сидорова Елена Анатольевна. Методы и программные средства для анализа документов на основе модели предметной области :дис. . канд. физ.-мат. наук : 05.13.11 Новосибирск, 2006 125 с. РГБ ОД, 61:07-1/336

21. Хлопотов Михаил Викторович. Методы и алгоритмы обнаружения семантических ошибок в гипертекстовых информационных ресурсах на основе онтологических моделей :

22. Дис. . канд. техн. наук : 05.13.11 : Уфа, 2004 135 с. РГБ ОД, 61:05-5/909

23. Шушакова Анна Геннадьевна. Исследование методов представления и обработки знаний средствами дескриптивной логики :диссертация . кандидата физико-математических наук : 05.13.17.-Переславль-Залесский, 2002.- 96 е.: ил. РГБ ОД, 61 03-1/637-6

24. М. Bates, R. М. Weischedel. Challenges in natural language processing. Cambridge University Press.

25. S. Soderland, Learning information extraction rules for semi-structured and free text, Machine Learning, 34, 233-272, 1999.

26. Califf, M. E., & Mooney, R. J. (2003). Bottom-up relational learning of pattern matching rules for information extraction. Journal of Machine Learning Research, Vol.4, pp. 177-210.

27. Kushmerick, N., Weld, D. S., & Doorenbos, R. (1997). Wrapper induction for information extraction. In Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI'97), pp.729-737.

28. Muslea, I., Minton, S., & Knoblock, C. (1998). STALKER: Learning extraction rules for semi-structured, web-based information sources. In AAAI Workshop on AI and Information Integration, pp.74-81.

29. McCallum, A., Freitag, D., & Pereira, F. (2000). Maximum Entropy Markov Models for information extraction and segmentation. In Proceedings of the 17th International Conference on Machine Learning (ICML'00), pp.591-598.

30. Vapnik, V. (1998). Statistical Learning Theory. Springer Verlage, New York, 1998.

31. Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992). A training algorithm for optimal margin classifiers. In D. Haussler (Eds.) 5th Annual ACM Workshop on COLT (pp. 144-152). Pittsburgh, PA: ACM Press.

32. Ghahramani, Z., & Jordan, M. I. (1997). Factorial Hidden Markov Models. Machine Learning, Vol.29, pp.245-273.

33. McCallum, A., Freitag, D., & Pereira, F. (2000). Maximum Entropy Markov Models for information extraction and segmentation. In Proceedings of the 17th International Conference on Machine Learning (ICML'00), pp.591-598.

34. Lafferty, J., McCallum, A., & Pereira, F. (2001). Conditional Random Fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the 18th International Conference on Machine Learning (ICML'01), pp.282-289

35. URL: http://en.wikipedia.org/wiki/Viterbialgorithm.41.URL:http://en.wikipedia.Org/wiki/Constructionsoflowdiscrepancysequences#TheH ammersleyset.

36. J. N. Darroch, D. Ratcliff. Generalized Iterative Scaling for Log-Linear Models. The Annals of Mathematical Statistics, Vol. 43, No. 5. (1972), pp. 1470-1480.

37. Jonathan Richard Shewchuk. An Introduction to the Conjugate Gradient Method without the Agonizing Pain, Edition 11/4. School of Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213, August 4, 1994

38. Nocedal, J., & Wright, S. J. (1999). Numerical optimization. New York, USA: Springer press.

39. Sha, F., & Pereira, F. (2003). Shallow parsing with Conditional Random Fields. In Proceedings of Human Language Technology, NAACL, pp.188-191.

40. Collins, M. (2002). Discriminative training methods for Hidden Markov models: theory and experiments with Perceptron algorithms. In Proceedings of the Conference on Empirical Methods in NLP (EMNLP'02).

41. Freitag, D. (1998). Information extraction from HTML: Application of a general machine learning approach. In Proceedings of the 15th Conference on Artificial Intelligence (AAAI'98), pp.517-523

42. Freitag, D., & Kushmerick, N. (2000). Boosted wrapper induction. In Proceedings of 17th National Conference on Artificial Intelligence, pp.577-583

43. Kauchak, D., Smarr, J., & Elkan, C. (2004). Sources of success for boosted wrapper induction. The Journal of Machine Learning Research. Vol.5, pp. 499527. MA: MIT Press.

44. G. Neumann and F. Xu. Intelligent Information Extraction. LT-lab, DFKI, Germany, 2004

45. Unified Medical Language System. URL: http://www.nlm.nih.gov/research/umls.

46. Medical Subject Headings.URL: http://www.nlm.nih.gov/mesh

47. Calais. URL: http://en.wikipedia.org/wiki/Calais (Reuters Product)

48. Critical Assessment of Information Extraction Systems in Biolog, URL: http://www.mitre.org/public/biocreative.

49. E. Rilo. Automatically constructing a dictionary for information extraction tasks. Proceedings of the 11th National Conference on Artificial Intelligence, AAAI-93: 811816,1993.

50. J. Kim and D. Moldovan. Acquisition of linguistic patterns for knowledge-based information extraction. IEEE Transactiops on Knowledge and Data Engineering, 7(5): 713724, 1995.

51. S. Soderland, et al. Crystal: Inducing a conceptual dictionary. Proceedings of the 14th International Joint Conference on Artificial Intelligence, IJCAI-95: 13141319, 1995.

52. C. Ramakrishnan, K. J. Kochut and A.P. Sheth. A Framework for Schema-Driven Relationship Discovery from Unstructured Text. International Semantic Web Conference: 583-596, 2006.

53. C. Ramakrishnan, P. N. Mendes, S. Wang and A. P. Sheth. Unsupervised Discovery of Compound Entities for Relationship Extraction. Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 5268/2008: 146-155, 2008.

54. J. Saric, L. J. Jensen, R. Ouzounova, I. Rojas and P. Bork. Extraction of regulatory gene/protein networks from Medline. Bioinformatics, Vol. 22 no. 6: 645650, 2006

55. Q. N. Rajput, S. Haider, N. Touheed. Information Extraction from Unstructured and Ungrammatical Data Sources for Semantic Annotation. World Academy of Science, Engineering and Technology, 2009.

56. C. Friedman, et al. GENIES: a natural-language processing system for the extraction of molecular pathways from journal articles. Bioinformatics, Vol. 17 Suppl. 1: 1367-4803,2001

57. K. Fundel, R. Kuner and R. Zimmer. RelExRelation extraction using dependency parse-trees. Bioinformatics, Vol. 23 no. 3: 365371, 2007

58. S. Blohm and P. Cimiano. Scaling up pattern induction for web relation extraction through frequent itemset mining. Proc. of the KI 2008 Workshop on Ontology-Based Information Extraction Systems, 2008

59. Description Logics, URL http://dl.ki-.org.

60. F-logic. URL: http://en.wikipedia.org/wiki/F-logic.

61. Part-of-speech tagging. URL: http://en.wikipedia.org/wiki/Part-of-speech-tagging.

62. M. C. Marnee, B. MacCartney and C. D. Manning. Generating Typed Dependency Parses from Phrase Structure Parses, In LREC, 2006.

63. Domain and upper ontologies. URL: http://en.wikipedia.org/wiki/Ontology (information science).

64. Linked Data. URL: http://linkeddata.org.

65. D. S. Kim, K. Barker and B. Porter. Knowledge integration across multiple texts. Proceedings of the fifth international conference on Knowledge capture: 49-56, 2009.

66. D. S. Kim and B. Porter. Integrating declarative knowledge: Issues, algorithms and future work. Proceedings of the Spring AAAI Symposium Series, 2008.

67. RDF Semantics. URL: http://www.w3.Org/TR/rdf-mt/#Reif.

68. N. Bach and S. Badaskar. A survey on relation extraction. Language Technologies Institute, Carnegie Mellon University, 2007

69. P. Cimiano, A. Pivk, L. Schmidt and S. Staab. Learning taxonomic relations from heterogeneous evidence. Ontology Learning from Text: Methods, evaluation and applications, IOS Press, 2005

70. S. Blohm and P. Cimiano. Scaling up pattern induction for web relation extraction through frequent itemset mining. Proc. of the KI 2008 Workshop on Ontology-Based Information Extraction Systems, 2008

71. A. Yates, et al. TextRunner: open information extraction on the web. Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: 25-26, 2007

72. E. Agichtein and L. Gravano. Snowball: extracting relations from large plain-text collections. Proceedings of the fifth ACM conference on Digital libraries: 85-94, 2000

73. D. Zelenko, C. Aone, and A. Richardella. Kernel methods for relation extraction. JMLR, 2003

74. R. McDonald, et al. Simple algorithms for complex relation extraction with applications to biomedical IE. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics: 491-498, 2005

75. R. McDonald, K. Lerman, and F. Pereira. Multilingual Dependency Parsing with a Two-Stage Discriminative Parser. Tenth Conference on Computational Natural Language Learning (CoNLL-X), 2006.

76. The Stanford Parser: A statistical parser. URL: http://nlp.stanford.edu/software/lex-parser.shtml.

77. Natural Language Toolkit (NLTK). URL: http://www.nltk.org/.

78. SPARQL.URL: http://www.w3.org/TR/rdf-sparql-query.

79. C. Ramakrishnan, P. N. Mendes, S. Wang and A. P. Sheth. Unsupervised Discovery of Compound Entities for Relationship Extraction. Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 5268/2008: 146-155, 2008.

80. A. Niculescu-Mizil and R. Caruana, "Predicting good probabilities with supervised learning," in ICML, 2005.

81. R. Gupta and S. Sarawagi, "Curating probabilistic databases from information extraction models," in Proceedings of the 32nd International Conference on Very Large Databases (VLDB), 2006.

82. A. McCallum and B. Wellner, "Toward conditional models of identity uncertainty with application to proper noun coreference," in Proceedings of the IJCAI-2003 Workshop on Information Integration on the Web, pp. 79-86, Acapulco, Mexico, August 2003

83. I-I. Pasula, В. Marthi, В. Milch, S. Russell, and I. Shpitser, "Identity uncertainty and citation matching," in Advances in Neural Processing Systems 15, Vancouver, British Columbia: MIT Press, 2002.

84. Chen, Y., Lee, S. Y. M., & Huang, C. R.2009. Polyuhk: A robust information extraction system for web personal names. 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference.

85. Balog, K., Azzopardi, L., & Rijke, M. de. 2005. Resolving person names in web people search. Weaving services and people on the World Wide Web, стр. 301323.

86. Manning, D. C., Raghavan, P., & Schutze, H. 2008. Hierarchical Clustering. Introduc-tion to Information Retrieval. Cambridge University Press, New York, 2008, стр. 377-401.

87. Popescu, O., & Magnini, B.2007. Irst-bp: Web people search using name entities. Pro-ceedings of the Fourth International Work-shop on Semantic Evaluations (SemEval-2007), (June), стр. 195-198.

88. Han, X., & Zhao, J. 2009. CASIANED: Web Personal Name Disambiguation Based on Professional Categorization. 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference, стр. 2-5.

89. Long, С., & Shi, L. 2010. Web person name disambiguation by relevance weighting of extended feature sets. Third Web People Search Evaluation Forum (WePS-3), CLEF (Том. 2010, стр. 1-13).

90. Karypis, G., & Kumar, V.1999. Chameleon: hierarchical clustering using dynamic mod-eling. Computer, 32(8), 68-75. doi: 10.1109/2.781637.

91. Tombros, A. and Sanderson, M. Advantages of query biased summaries in information retrieval. Proceedings of the 21st annual in-ternational ACM SIGIR conference on Re-search and development in information re-trieval, ACM (1998), стр. 2-10.

92. Описание TF-IDF, http://ru.wikipedia.org/wiki/Tf/oE2%80%93idf

93. Unified Medical Language System. URL: http://www.nlm.nih.gov/researcli/uiTils

94. Medical Subject Headings. URL: http://www.nlm.nih.gov/mesh.

95. An Introduction to Jena RDF API. URL: http://jena.sourceforge.net/tutorial/RDF-API/index.html.

96. The Stanford Parser: A statistical parser, http://nlp.stanford.edu/software/lex-parser.shtml. URL http://nlp.stanford.edu/software/lex-parser.shtml.

97. M. C. Marnee, B. MacCartney and C. D. Manning. Generating Typed Dependency Parses from Phrase Structure Parses. In LREC, 2006.

98. K. Anyanwu, A. P. Sheth. Rho-Queries: enabling querying for semantic associations on the semantic web. WWW: 690-699, 2003.

99. G. A. Miller. WordNet: A Lexical Database for English. Communications of the ACM, Vol. 38, No. 11: 39-41, 1995.

100. W. Salloum. A Question Answering System based on Conceptual Graph Formalism. KAM, 2009.

101. K. Anyanwu, A. P. Sheth. Rho-Queries: enabling querying for semantic associations on the semantic web. WWW: 690-699, 2003.

102. C. Ramakrishnan, W. H. Milnor, M. Perry and A. P. Sheth. Discovering informative connection subgraphs in multi-relational graphs. SIGKDD Explorations 7(2): 56-63, 2005.

103. P. Gawrysiak, et al. Text Onto Miner A Semi Automated Ontology Building System. Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 4994/2008, 2008.

104. R. Valencia-Garcia, et al. An Approach for Ontology Building from Text Supported by NLP Techniques. Lecture Notes in Computer Science, Springer Berlin / Heidelberg, Vol. 3040/2004, 2004.

105. Метод опорных векторов (SVM). URL: http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1 %82%D0%BE%D0%B4% DO%BE%DO%BF%DO%BE%D 1 %80%D0%BD%D 1 %8B%D 1 %85%D0%B2% D0%B5%D0%BA%D 1 %82%D0%BE%D 1 %80%D0%BE%D0%B2.

106. Теорема Байеса. URL: http://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1 %80%D0%B5% DO%BC%DO%BO%DO%91 %D0%B0%D0%B9%D0%B5%D 1 %81 %D0%B0.

107. Expectation maximization algorithm. URL: http://en.wikipedia.org/wiki/ExpectationMaximization.

108. Penn Treebank notation. URL: http://www.cis.upenn.edu/~treebank/.

109. ООО «SCEONDEV» SCE ON. «SCEONDEV» LLC

110. Республика Армения, г.Ереван, ул. Сарьяна 12, тел./факс 060522-922 12 Saryan st, Yerevan, RA, tel/fax 060-522-92226» июля 2012 г.1. АКТ ВНЕДРЕНИЯ1. Наименованиеорганизационно-практических мероприятий

111. Внедрение модели системы поиска персональной информации, основанная на текстовой кластеризации по тематическим признакам.1. Авторы разработки

112. Док. техн. наук, проф. Зольников В.К., аспирант Манучарян Л.А. -ФГБОУ ВПО «Воронежская государственная лесотехническая академия»

113. Наименование объекта внедрения1. ООО «8сеопОеу»

114. Практический эффект Внедрение разработанной модели в инноваторскуюинформационно-поисковую систему "Агт-Рег5опРтс1ег" позволило повысить эффективность поисковых результатов системы на 7.1% по данным тестирования.1. УТВЕРЖДАЮ»

115. Ректор ВГЛТА^д.т.н., проф.с- ■ В.м. Бугаков2012 г.-