автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Исследование и разработка электронных библиотек на основе явного описания семантики ресурсов с использованием технологий Semantic Web

кандидата технических наук
Ле Хоай
город
Томск
год
2013
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка электронных библиотек на основе явного описания семантики ресурсов с использованием технологий Semantic Web»

Автореферат диссертации по теме "Исследование и разработка электронных библиотек на основе явного описания семантики ресурсов с использованием технологий Semantic Web"

На правах рукописи

Jle Хоай

ИССЛЕДОВАНИЕ И РАЗРАБОТКА ЭЛЕКТРОННЫХ БИБЛИОТЕК НА ОСНОВЕ ЯВНОГО ОПИСАНИЯ СЕМАНТИКИ РЕСУРСОВ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ SEMANTIC WEB

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Автореферат

диссертации на соискание ученой степени кандидата технических наук

9 ЯНВ 2014

005544209

Томск-2013

005544209

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Национальный исследовательский Томский политехнический университет» на кафедре оптимизации системы управления.

Научный руководитель: доктор технических наук, профессор

Тузовский Анатолий Федорович

Официальные оппоненты: Массель Людмила Васильевна

доктор технических наук, профессор Федеральное государственное бюджетное учреждение науки «Институт систем энергетики им. Л.А. Мелентьева СО РАН», зав. лабораторией информационных технологий в энергетике

Загорулько Юрий Алексеевич

кандидат технических наук

Федеральное государственное бюджетное учреждение науки «Институт систем информатики им. А.П. Ершова Сибирского отделения РАН», зав. лабораторией искусственного интеллекта

Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Новосибирский государственный технический университет»

Защита состоится «11» февраля 2014 года в 15:00 часов на заседании диссертационного совета Д 003.061.02 на базе Федерального государственного бюджетного учреждения науки Института вычислительной математики и математической геофизики Сибирского отделения Российской академии наук по адресу: 630090, г. Новосибирск, пр. академика Лаврентьева, 6, тел. (383)330-71-59.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Института вычислительной математики и математической геофизики Сибирского отделения Российской академии наук.

Автореферат разослан «23» декабря 2013 г.

Ученый секретарь

диссертационного совета Д 003.061.02 д.ф.-м.н.

С.Б. Сорокин

Актуальность исследования. Электронные библиотеки (ЭБ) представляют собой информационные системы, позволяющие автоматизировать работу пользователей с различными видами электронных ресурсов (ЭР), например, такими, как документы, изображения, аудио и видеофайлы. В классических ЭБ ресурсы обычно описываются только с помощью различных метаданных их контекста, а их содержание (контент ресурса) представляется только в виде набора терминов. Это приводит к таким проблемам, как:

• отсутствие у системы понимания смысла ресурсов из-за таких особенностей естественных языков, как синонимия, полисемия и омонимия;

• слабая интеграция разнородных информационных ресурсов (таких, как ЭР, профили пользователей, схемы классификации предметных областей знаний и др.), описанных с использованием различных метаданных;

• недостаточно высокая точность выполнения поиска, автоматической категоризации и формирования рекомендаций;

• отсутствие удобных средств навигации между информационными ресурсами.

Решение перечисленных проблем и повышение качества предоставляемых сервисов ЭБ может быть достигнуто за счет описания смысла (семантики) содержания ЭР и реализации работы с ними путём использования моделей представления знаний, например, таких как семантические сети, фреймы или онтологии. В настоящее время более совершенными и выразительными считаются онтологические модели. Это объясняется тем, что они основываются на формальных (дескриптивных) логиках, и для работы с ними в рамках концепции Semantic Web разработан набор стандартных технологий, позволяющих создавать, описывать и использовать онтологические модели. К технологиям Semantic Web относятся такие языки, как RDF {Resource Description Framework), RDFS (RDF Schéma), OWL (Ontology Web Language) и SPARQL (Simple Protocol And RDF Quety Language). Кроме этого, разработано много программных систем для работы с онтологическими моделями (редакторы, системы логического вывода, RDF-хранилища и т.п.).

В мире уже активно ведутся исследования по использованию технологий Semantic Web в таких областях, как электронные библиотеки, интеграция и поиск информации в сети Интернет и системы управления знаниями. Перспективность данного направления подтверждается результатами исследований таких зарубежных учёных, как J.A. Hendler, S.R. Кгик, В. McDaniel, S. Linckels, С. Mainel, H. Bulskov и др., a также российских ученых: В.А. Серебрякова, А.Г. Марчука, М.Р. Когаловского, Ю.А. Загорулько, В.З. Ямпольского, А.Ф. Тузовско-го и др.

Однако до сих пор нет согласованного и обоснованного набора моделей и методов, позволяющих создавать и поддерживать работу с явным описанием семантики ЭР библиотеки. В связи с вышесказанным можно утверждать, что проблема создания ЭБ, позволяющих работать с семантикой ресурсов с использованием технологий Semantic Web, является актуальной и недостаточно исследованной.

Целью диссертационной работы является разработка методов, способов и алгоритмов решения задач функционирования электронных библиотек, основанных на явном описании семантики информационных ресурсов с использованием технологий Semantic Web для повышения качества предоставляемых сервисов.

Для достижения этой цели необходимо было решить следующие основные задачи".

1) Предложить подход к описанию информационных ресурсов электронных библиотек с использованием логических утверждений и онтологических моделей.

2) Разработать способ оценки семантической близости между метаописа-ниями электронных ресурсов и запросами пользователей.

3) Разработать способы семантического аннотирования, поиска, категоризации и формирования рекомендаций на основе метаописания электронных ресурсов и профилей пользователей.

4) Создать алгоритмы и программы, реализующие разработанные способы, и провести вычислительные эксперименты с целью выявления и повышения их эффективности.

Объектом исследования являются основные функции электронных библиотек, управляющих использованием информационных ресурсов.

Предметом исследования являются подходы и методы использования семантических технологий Semantic Web в электронных библиотеках для реализации информационных процессов на семантическом уровне.

Методы исследования. Для решения поставленных задач в работе использовались методы системного анализа и семантического моделирования, теории графов и множеств, теория экспертных оценок, объектно-ориентированного проектирования и программирования.

Научная новизна диссертационной работы заключается в следующем:

1) Предложены семантические модели информационных ресурсов электронных библиотек, отличающиеся явным описанием семантики не только контекста, но и контента с использованием наборов простых логических утверждений (триплетов) на основе единой онтологической модели, что позволяет управлять, интегрировать и выполнять навигацию между ними.

2) Разработаны способы оценки семантической близости между информационными ресурсами, учитывающие не только контекстные, но и контент-ные метаданные, что дает возможность более точно определять их сходство.

3) Предложены алгоритмы решения задач семантического поиска, автоматической категоризации и формирования рекомендаций, использующие семантические модели информационных ресурсов, что значительно повышает качество сервисов, предоставляемых электронной библиотекой.

Теоретическая значимость исследования заключается в том, что полученные в диссертационной работе результаты вносят вклад в развитие теории создания нового поколения информационных систем, основанных на онтологическом моделировании и технологиях Semantic Web.

Практическая ценность

1) Предложенные в работе модели, подходы и алгоритмы могут быть применены для создания программного обеспечения электронных библиотек на основе явного описания семантики ресурсов с использованием технологий Semantic Web.

2) Разработанные прототипы программных систем (SemDL [9] и SemARC [10]) могут быть использованы для реализации систем управления семантических электронных библиотек с использованием технологий Semantic Web.

Внедрение результатов работы

Разработанное программное обеспечение прошло опытную эксплуатацию в компании NAISCORP (г. Ханой, Вьетнам) в составе подсистемы управления электронными ресурсами и профилями сотрудников и в компании ООО «ТЗРО» (г. Томск, Россия) в составе электронной библиотеки организации.

Предложенные в диссертационной работе модели и алгоритмы также использованы в учебном процессе кафедры оптимизации систем управления Института кибернетики Томского политехнического университета.

Практическое использование результатов диссертационной работы подтверждено соответствующими актами внедрения.

Основные положения, выносимые на защиту:

1) Семантические модели информационных ресурсов электронных библиотек, отличающиеся явным описанием семантики не только контекста, но и контента с использованием наборов простых логических утверждений (триплетов) на основе единой онтологической модели.

2) Способы оценки семантической близости между информационными ресурсами, учитывающие не только контекстные, но и контентные метаданные.

3) Алгоритмы решения задач семантического поиска, автоматической категоризации и формирования рекомендаций, использующие семантические модели информационных ресурсов.

Личный вклад автора. Выносимые на защиту результаты получены автором самостоятельно. Постановка задач была выполнена автором совместно с научным руководителем.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях:

1) XV Всероссийская научная конференция RCDL'2013 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (Ярославль, 2013).

2) IV Всероссийская конференция с международным участием «Знания -Онтологии - Теории» (Новосибирск, 2013).

3) XVIII Международная научно-практическая конференция студентов и молодых ученых «Современные техники и технологии» (Томск, 2012);

4) V и VI Всероссийские научно-практические конференции «Научная инициатива иностранных студентов и аспирантов российских вузов» (Томск, 2012, 2013).

5) IX и X Всероссийские научно-практические конференции студентов,

аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск. 2012, 2013).

Публикации. Основные результаты диссертационного исследования изложены в 10 печатных работах, в том числе в 5 статьях из списка рецензируемых журналов, рекомендованных ВАК РФ.

Структура и объем диссертации. Диссертация содержит введение, 4 главы, список литературы (130 наименований) и 7 приложений. Общий объем диссертации составляет 181 страницу, включая 9 таблиц и 45 рисунков.

В первой главе определяются ЭБ как информационные системы и представляются их концептуальные модели и архитектуры.

Рассматриваются существующие проекты ЭБ с использованием семантических технологий Semantic Web. Описываются и анализируются подходы к анализу содержания ЭР с использованием семантики.

Далее в представление технологий Semantic Web включаются описания онтологии и языков (RDF, RDFS, OWL) для ее представления, а также языков запросов (SPARQL, SERQL) к базе знаний и стандарта простой системы организации знаний (SKOS).

В конце данной главы обоснована необходимость разработки нового вила ЭБ. Сделан вывод о том, что для повышения качества ЭБ нужна единая онтологическая модель для описания семантики всех информационных ресурсов ЭБ, в том числе и их содержания.

Во второй главе описывается предлагаемый онтологический подход к описанию информационных ресурсов, рассматривается их мстаописание, включающее контекстные и контентные метаданные (Рис. 1).

Основное содержание диссертации

Рис. /. Контекст и контент информационных ресурсов

В семантической ЭБ (СЭБ) под единой онтологической моделью ресурсов понимается набор взаимосвязанных онтологий, предназначенных для описания их семантики: О = {05, Оп}, где Об - базовые онтологии (онтология пользователя, онтология ресурсов и онтология системы), а Оп= {0¡, ..., От} - онтологии основных предметных областей знаний для описания содержания ЭР.

В данной работе метаописание ресурса представляется в виде набора простых утверждений на основе онтологической модели и в его состав могут входить контекстные и контентные семантические метаданные.

Определение 1. Под онтологической моделью (онтологией) О понимается знаковая система {С, Т, Р, I, F, L, А), где С - множество элементов, называемых понятиями; Р - множество элементов, называемых свойствами (двуместными предикатами); Т - частичный порядок на множестве С и Р; I -множество экземпляров понятий из С; F - функция назначения элементу множества Р области действия (domain) и области возможных значений {range)-, L - множество текстовых меток для понятий, свойств и экземпляров; А - Набор аксиом онтологии.

Все элементы в наборе С u Р и I и Т заданы с помощью URI-идентификаторов.

Любому свойству р £ Р может быть задано значение весового коэффициента pv £ [0,1], которое указывает на смысловую близость между субъектом и объектом утверждения (триплета), использующего данное свойство. Считается, что если pv = 0, то субъект и объект абсолютно не связаны между собой, а если pv = 1, то они считаются абсолютно аналогичными по семантике. Предикаты (свойства) онтологии, у которых значение pv 0, называются семантическими свойствами (отношениями).

Определение 2. Контекстными метаданными ресурса s (заданного с помощью URI-идентифшатора) называется набор простых утверждений (триплетов) Mk(s) = {/, = (s, p¡, о,) | /е[1, и]}, где sel- это аннотируемый ресурс {субъект), о, е Cu/uí - объект утверждения, p¡ е Р - отношение между субъектом и объектом.

Определение 3. Контентные метаданные ресурса s — это набор простых утверждений (кортежей) Mc{s) = {(/,, vj) \ tj = {sj: pj, oj) л/е[1, m]}, где Sj e I -это субъект утверждения, o¡ е Cu I- объект утверждения, p¡ s P - отношение между субъектом и объектом, a vj - весовой коэффициент, который оценивает значимость утверждения.

Набор M{s) = Mk{s) и Mc{s) называется семантическими метаданными ресурса s в СЭБ.

Триплеты, хранящиеся в RDF-хранилище, описывают онтологии, экземпляры и их метаописания, а множество всех триплетов формирует базу знаний (БЗ) СЭБ. В БЗ могут выполняться запросы, описанные на языке SPARQL.

На основе метаописаний информационных ресурсов и БЗ формулируются

основные задачи СЭБ, такие, как оценка семантической близости, семантическое аннотирование ЭР, автоматическая категоризация, поиск и формирование рекомендаций.

Для реализации СЭБ на основе предложенного подхода предложена архитектура (Рис. 2), включающая 6 уровней, соответствующих различным этапам обработки запросов от клиентов в системе:

ВЕБ-БРАУЗЕРЫ

ДРУГИЕ КЛИЕНТЫ

Ответы системы

i Подготовка ä : данных

Сервисы Бизнес Логики

"REST

HTML + AJAX

RDF/XML

Проверка доступа

Проверка запроса

НАВИГАЦИЯ

АННОТИРОВАНИЕ

РЕКОМЕНДАЦИЯ

СЕМАНТИЧЕСКИМ ПОИСК

КАТЕГОРИЗАЦИЯ

ПРОФИЛИРОВАНИЕ

АДМИНИСТРИРОВАНИЕ

РАНЖИРОВАНИЯ

Модели объектов ' ♦

ВЫЧИСЛЕНИЕ СЕМАНТИЧЕСКИХ БЛИЗОСТЕЙ

_ИНДЕКСИРОВАНИЕ_

ВЕДЕНИЕ ОНТОЛОГИЧЕСКОЙ БАЗЫ ЗНАНИЙ

АБСТРАКТНЫЕ МОДЕЛИ ОБЪЕКТОВ

Источники j ♦ ~:: ~ ~ — данных ;

Рис. 2. Архитектура семантической электронной библиотеки

1. Уровень клиента системы поддерживает взаимодействие как с веб-браузерами клиентов, так и с мобильными клиентскими приложениями, выполняющими запросы к системе.

2. Уровень представления данных предоставляет клиентам данные в различных форматах, например таких, как HTML/AJAX для веб-браузеров, RDF/XML - для других приложений.

3. Уровень подготовки данных содержит средства проверки соответствия данных требованиям сервисов и правам доступа к ним конечных пользователей.

4. Уровень бизнес-логики включает все функции (сервисы) системы.

5. Уровень абстрактных моделей объектов содержит описания всех объектов, процессов, провайдеров разных источников данных и сервисов системы с помощью набора интерфейсов, классов.

6. Уровень источников данных СЭБ включает различные RDF-хранилища и базы индексов для документов, URI-идентификаторов и предва-

рительных оценок семантической близости.

На основе предложенной архитектуры поддерживается выполнение процессов, показанных на Рис. 3, которые разделены на три основных группы:

1. Группы I - навигация, рекомендация, категоришция, семантический поиск и профилирование-, пользователи с соответствующими правами имеют доступ к функциональности системы. В зависимости от требуемой функциональности система формирует соответствующий запрос, отправляемый обработчику. После этого система формирует ответ в зависимости от потребностей пользователей.

2. Группа // - редактор онтологии: пользователи с высоким статусом имеют доступ к редактору (ШР-даниых источников (отдельная система или подсистема СЭБ). Созданные 1ШР-докумснты проходят процесс индексирования текстовых меток и 1Ж1-идснтификаторов, и отправляются в базу знаний или базу оценок близостей при наличии триплетов с семантическим свойством.

3. Группа III семантическое аннотирование документов пользователи со статусом редактора (эксперты по прслмстной области знаний ЭР) имеют доступ к системе семантического аннотирования и могут выполнять аннотирование ЭР с использованием полуавтоматического способа для составления семантических метаданных. Полученный набор метаданных сохраняется в ЬЗ для дальнейшего использования.

Третья глава посвящена детальному описанию методов, способов и алгоритмов решения задач, поставленных в предыдущей главе. Оценка семантической близости. Семантическая близость (смысловое сходство) может определяться между разными компонентами триплетов, триплетами и наборами триплетов.

Способ вычисления оценки семантической близости между компонентами триплетов. Пусть Sim(a, Р) - семантическая близость между компонентами аир, где а, Р е СиРи/. Для вычисления Sim(a, Р) необходимо построить ориентированный граф GO из всех имеющихся триплетов из БЗ. Граф GO создается в соответствии со следующими правилами:

• Используются только те триплеты, у которых значения весовых коэффициентов предикатов не равны нулю (pv ^ 0).

• Вершинами графа являются субъекты и объекты триплетов, а ребро графа от субъекта к объекту триплета имеет вес, равный значению pv предиката данного триплета.

• Инверсное отношение (owl:inverseOJ) между предикатами р\ (pv 1) и р2 (pv2) добавляет в граф два ребра с весами pv 1 и pv2. Например, для триплета (s, р 1, о) добавляются следующие два ребра: (s, pv 1, о), (о, pv2, s).

• Симметричное отношение добавляет в граф два ребра с равными весами. Например, <owl:sameAs> добавляет два ребра со значениями pv = 1,0.

Под путем РАТН(а, р) между двумя вершинами (компонентами) а и Р графа GO понимается набор ребер (предикатов), идущих от вершины а до вершины Р с учетом их направленности. Тогда значение Sim(a, Р) между этими вершинами вычисляется следующим образом:

sim(a,p)=max|sim^7.//(a,p)j, (1)

где к - число возможных путей графа GO от вершины а до вершины р, Sirn^jj, (а, Р) — значение семантической близости между вершинами а и р по

пути i. Данное значение определяется по следующей формуле:

А

SimMW.(a, P) = ]~Jpv,y, (2)

7=1

где h¡ - число ребер (семантических свойств) между вершинами а и р на пути i; pv¡j — значение веса ребра на основе j-то семантического свойства на пути i. Из (1) и (2) можно получить окончательную формулу для определения семантической близости между вершинами аир:

(3)

Sim(а, р) - max (sim^^ (а, P)j max

п ^

V J=l у

Sim(a, Р) удовлетворяет следующим свойствам: Sim(a, Р)е[0,1]; Sim(a, Р)=0 при отсутствии пути от а к Р; Sim(a, а) = Sim(P, Р)=1. В исключительном случае Sim(a, Р) = -1 при наличии отношения owl. inverseOf между предикатами а, р.

Способ вычисления оценки семантической близости между трипле-

Sim(^2) =

томи. Пусть Sim(7i, t2) - семантическая близость между триплетами t\ и t2. Близость между триплетами вычисляется на основе близостей между их компонентами. В данной работе учитывается инверсное отношение между предикатами и это означает, что если между предикатами р\ и р2 имеется триплет (р\, owl:inverseOf, р2), то при наличии триплета {s, р\, о) подразумевается триплет (о,р2, s).

Существуют следующие два случая:

• t],t2 s Мк. Sim(?i, t2) вычисляется по следующей формуле:

(4)

• t\, t2 e Me. Sim(/[, t2) определяется следующим образом:

\k[0, (5)

где co(?i, t2) = Vi x v2 - функция весовых коэффициентов значимости двух триплетов; k = Sim(/;b р2), Sim(7b t2) e [0, 1].

Способ вычисления оценки семантической близости между наборами триплетов. В этой работе предлагаются две формулы для вычисления семантической близости между наборами триплетов (Мк или Мс) 7\ = {t, | i е[1, £]} и Т2 = \tj | j е[1, h]}, следующие:

^max(Sim(/,.,T2)) У max(Sim(/,.,/.)) Sim(7J,r2) = J—J-r-q-= ---и w

\Щ к

XXSim^xZZSinO^) (7)

У I, e7J lj s7J /,. еГ2 lj чТг

где значение Sim(f/, tj) вычисляется по формуле (4), Vu, tj e Мк, или (5), Vtt, tj e Mc\ Ъ\т(Тъ T2) * Sim(T2, ТО.

Способ семантического аннотирования ЭР. Задача семантического аннотирования может быть разделена на следующие основные шаги (подзадачи): 1) выбор разделов онтологии предметных областей (Sde _ набор желаемых понятий); 2) поиск экземпляров понятий, описываемых в текстовом документе (кандидатов в метаописание); 3) преодоление многозначности; 4) составление триплетов аннотации (метаописание).

Поиск кандидатов. В результате токенизации и нормализации формируется описание документа d из п токенов, d = {токещтокен2..., токен„J). Каждый экземпляр понятия е из БЗ интерпретируется набором триплетов ML, ML(e) = {tz = (e, px, /т ) | x e[l, Л]}, где lx e L (множество текстовых меток). Текстовая метка lx может состоять из m токенов, 1х=(токен\,п токен2>т,..., токентх).

Экземпляр е считается возможным кандидатом для аннотирования анализируемого документа d (е е 5РЕ, SPE - набор возможных кандидатов), если

(3/т е ML(e)) л (подстрока^, i,j) = /т). (8)

В работе предложен эффективный алгоритм определения возможных кандидатов на основе использования базы индексов (инвертированного файла) из набора токенов документа d. Поиск каждой метки /т в содержании d рассматривается как поисковый запрос с ключевыми словами /т к созданной базе индексов.

Преодоление многозначности. Любой элемент е е 5РЕ называется действительным кандидатом на основе набора желаемых понятий SDE, если

Sim(SDE,e) > е <ti> шах (Sim(cfe,e)) > е, (9)

где г — установленное пороговое значение релевантности.

Семантический поиск. Информационный ресурс с описанием M(d) = (Mn(d), Mc(d)) будет ответом на семантический поисковый запрос q с описанием М(д) = (Мк(д), Mc(q)), если выполняется условие

Sim(M(<?), M(d)) = axSim(Mc(^), Мк(сГ)) + ß xSim(Mc(g), Mc{d)) >e, (10) где а и ß — коэффициенты близости по контексту и по контенту соответственно, и а + ß = 1.0.

Кроме семантического поиска в СЭБ также доступны и другие виды поиска, такие, как простой поиск и поиск по графу.

Автоматическая категоризация. Пусть задана категория К = {с/, | i е[1, И\), где di — шаблонный ресурс. Ресурс dr е К считается релевантным К, если

axSim(Мк(К), Мк(с1г)) + ßxSim(Mc(^Q, Mc(dr)) > z, (11)

где Мк{К) = MK{d{) w ... u Mx{dh), Mc{K) = Mc(d{) и ... и Mc(dh); M{dr) = (MK(dr), Mc(dr)).

Кроме этого, в СЭБ также выполняется категоризация ресурсов по элементам схем классификации.

Формирование рекомендаций. Решение задачи формирования рекомендаций позволяет определять набор ресурсов СЭБ, релевантных рассматриваемому ресурсу или профилю пользователя.

Для ресурса d с описанием M{d) = (Мк(сГ), Mc{dj) рекомендуемым считается любой ресурс dr Ф d, который является ответом на запрос семантического поиска q с описанием M(q) = M(d) по формуле (10).

Профиль пользователя описывается набором связанных с ним объектов Е = {е, | i е[1, А]}. В этом случае ресурс dr с набором объектов его контекста DE = {dCj I tj = {dr,pj, deу) л j е[1, к]) будет рекомендоваться, если

А

Zmax(Sim(e., de,))

Sim(E,DE)>e^-^->e. W

h

Профиль пользователя также описывается набором ресурсов, интересую-

щих пользователя на основе его поведения в системе, IR = {d, | i е [1, к\). В этом случае формирование рекомендаций считается частным случаем автоматической категоризации, описанной набором шаблонных ресурсов IR.

Оптимизация алгоритмов реализации разработанных способов. В работе предложены три способа оптимизации: индексирование графа GO, фильтрация возможных кандидатов и индексирование релевантных результатов. Далее рассмотрим способ фильтрации возможных кандидатов.

Фильтрация возможных кандидатов. Под возможными кандидатами понимаются ресурсы, которые в состояние быть результатами на некоторый запрос семантического поиска, формирования рекомендаций и категоризации. Пусть iVpRK - набор возможных кандидатов на заданный запрос по контексту (Мк), a Sprc - по контенту (Мс).

Фильтрации по набору триплетов контекста. Пусть заданный набор триплетов контекста некоторого запроса q: MK(q) = {/, = (q,ph o;) | i e[l, k]}.

Для любого компонента e триплета имеется список семантически связанных с ним элементов [расширенный список) Exs(e) = {е, е, | ге[0, И] л Sim(e, е,) > г}, где е - пороговое значение близости, Sim(e, е,) вычисляется по формуле (3).

Пусть Exsp(Mk) = Exs(p\) и ... u Exs(pt) - расширенный список всех предикатов из набора Мк{д)\ Exso(Mk) = Exs(oi) lj ... kj Exs(o/c) — расширенный список всех объектов из набора Мтс(^). На основе этих списков разработан способ фильтрации по набору MK(q), который отбирает только те ресурсы prk е SPrk с наборами триплетов их контекста Мк{ргк) = {/, = {prk,pj, oj) | j e[l, h]}, для которых выполняется следующее условие:

(3 tj е Мк(ргк)) л (pj е Exsv{Mk)) л (о, е Exs0(Mk)). (13)

Фильтрации по набору триплетов контента. Пусть задан набор триплетов контента (без весовых коэффициентов) некоторого запроса q: Mc(q) = {tt = {Si, ph о,) I i e[l, £]}. На основе набора Мс имеются расширенные списки компонентов всех триплетов: Exs$(Mc) = Exs(s¡) и ... и Exs(sky, ExsP(Mc) = Exs(pi) (j ... и Exs(pk); Exs0(Mc) = Exs(o\) и ... и Exsipk).

На основе этих списков предложен способ фильтрации по набору Мс, который допускает только те ресурсы pre 6 SpRc с наборами триплетов их контента Mc(prc) = {tj = (sj, pj, oj) I j e[l, И\), для которых выполняется следующее условие:

(3 tj е Mc(prc)) a (sj е Exss(Mc)) л (pj е Exsv{Mc)) л (о,- е Exsq(Mc)). (14)

Условия фильтрации (13) и (14) могут быть описаны на языке запросов SPARQL, которые эффективно обрабатываются сервером БЗ.

В четвертой главе описывается разработанное и зарегистрированное программное обеспечение, включающее систему семантического аннотирования ресурсов (SemARC) и систему управления хранилищем электронных ресурсов с использованием семантических технологий (SemDL).

Для оценки качества разработанных алгоритмов было проведено тестирование с помощью системы SemDL на основе экспертных оценок. Полученные

результаты оценивались с помощью таких критериев, как точность-полнота, аккуратность, нормализованное расстояние между результатами (\DPAf) и коэффициент Пирсона (Ггу). Результаты оценки качества показаны для выполнения трех разных запросов семантического поиска (Рис. 4).

Для оценки эффективности разработанных алгоритмов было проведено тестирование времени отклика системы БешОЬ на выполнение таких функций, как семантический поиск, категоризация и формирование рекомендаций в зависимости от количества семантических триплетов БЗ. При этом были проверены предложенные способы оптимизации алгоритмов разработанных способов: индексирование графа СО, фильтрация возможных кандидатов и индексирование релевантных ресурсов.

Результаты тестирования показаны в Табл. 1 и отдельно на Рис. 5 для функции автоматической категоризации.

Таблица 1. Время выполнения поиска, категоризации и формирования рекомендаций

Базы знаний Количество триплетов Семантический поиск Категоризация Рекомендация

Т1 Т2 ТЗ Т1 Т2 ТЗ Т1 Т2 ТЗ

SDL I 157.455 10,34 0,99 0,99 11,10 1.09 0,6 10.05 0,90 0,55

SDL И 315.096 13,33 1,01 1,01 12,56 1,11 0.6 11,15 1.06 •Л1 Ml * г О О

SDL III 472.681 14,88 1,21 1.21 14,35 1,22 0,6 12,21 1.19

SDL IV 624.973 16,67 1,41 1,41 15,12 lf23 0.6 13.45 1.21 0,55

SDL_V 1.264.668 19,67 3,06 3,06 17.69 3,21 0,6 17,11 3,13 0,55

Здесь Т1 - время отклика системы без применения фильтрации в секундах, Т2 -с использованием фильтрации в секундах и ТЗ - с использования индексирования релевантных ресурсов.

Г

■ Алгоритм (релевантные) NDPM = 0.095 ray = 0 8421

■ Эксперт NDPM = 0 034, ray = 0 979

■ Алтари ш (нерелевантные): NDPM = 0 113, ray ■ 0 8865

12 ю

I

б 4

10 10 10 9 9

s т

■ ■

■ 1

2

и 0 ■ 0 ■ _ ■

Запросы

Рис. 4. Результаты семантического поиска

■ KneropinaaxXTI) • ЮпторюшюСП) • KnrropitmuaOJ i

137453 >15096 4Т2Я1 «4»73 t 261ЫЛ

Количество гртолпот

Рис. 5. Время отклика системы на категоризацию

Полученные результаты указанных экспериментов подтверждают следующие выводы: 1) качество работы системы на основе предложенных способов очень высокое (аккуратность 2 90 %, NDPM < 0,113, > 0,í¡421); 2) предложенные алгоритмы вычисления семантической близости обеспечивают эффективность, достаточную для их использования в реализации основных функций СЭБ на основе семантических метаданных: 3) применение способов отнмиза-ции значительно повышает эффективность работы системы.

Основные результаты работ ы

1) Предложен подход к созданию ЭБ на основе явного описания семантики информационных ресурсов с использованием наборов логических утверждений, формируемых в соответствии с единой онтологической моделью.

2) Разработана архитектура построения системы семантических электронных библиотек на основе единой онтологической модели с использованием технологий Semantic Web.

3) Предложены способы оценки семантической близости между метаопи-саниями информационных ресурсов.

4) Разработаны способы решения задач, поддерживающих функционирование системы СЭБ, таких, как семантическое аннотирование, формирование рекомендаций, автоматическая категоризация, поиск (простой поиск, поиск по графу и семантический поиск) и навигация между ресурсами.

5) Предложены способы опшмниции алгоритмов, реализующих разработанные способы, включающие индексирование графа семантических триплетов, фильтрацию возможных кандидатов и индексирование релеван-ных ресурсов.

6) Выполнено опытное внедрение основных результатов работы в компаниях NAISCORP (г. Ханой, Вьетнам) и ООО «ТЗРО» (г. Томск, Россия). Результаты исследований также использованы в учебном проце:сс кафедры оптимизации систем управления Института кибернетики Томского политехнического университета. Результаты опытной эксплуатации созданных подсистем подтвердили высокий уровень поддержки работы пользователей с электронными документами организаций.

Список основных публикаций

В журналах, рекомендованных ВАК РФ для публикации результатов диссертационных исследований:

1. Ле Хоай. Разработка семантических электронных библиотек / Хоай Ле, А. Ф. Тузовский // Доклады Томского государственного университета систем управления и радиоэлектроники. - 2011. - №. 2 (24). - С. 195-199.

2. Ле Хоай. Использование онтологий в электронных библиотеках / Хоай Ле, А.Ф. Тузовский // Известия Томского политехнического университета. -

2012. - Т. 320. - № 5. - С. 36-42.

3. Ле Хоай. Разработка электронных библиотек на основе семантических технологий / Хоай Ле // Научно-технический вестник Поволжья. — Казань, 2012. №. 3. - С. 138-145.

4. Ле Хоай. Поиск в семантических электронных библиотеках / Хоай Ле, А.Ф. Тузовский // Доклады Томского государственного университета систем управления и радиоэлектроники. - 2013. - №. 1 (27). - С. 87-94.

5. Ле Хоай. Семантическое аннотирование документов в электронных библиотеках / Хоай Ле, А.Ф. Тузовский // Известия Томского политехнического университета. - 2013. - Т. 322. - № 5. - С. 157-164.

В журналах, сборниках трудов и тезисов конференций:

6. Ле Хоай. Разработка семантических электронных библиотек на основе онтологических моделей / Хоай Ле, А.Ф. Тузовский // Сборник докладов XV Всероссийской научной конференции ЯСОЬ'2013. - Ярославль, 2013. - Р. 291299.

7. Ле Хоай. Решение задач создания семантических электронных библиотек / Хоай Ле, А.Ф. Тузовский // Материалы Всероссийской конференции с международным участием «Знания - Онтологии - Теории». - Новосибирск,

2013.-Т.1.-С. 256-260.

8. Ле Хоай. Формирование рекомендаций в семантических электронных библиотеках / Хоай Ле, А.Ф. Тузовский // Проблемы информатики, 2012. - №.3. -С.113-119.

Свидетельства об официальной регистрации програлшных систем, разработанных на основе результатов диссертации:

9. Ле Хоай. Программная система «БетОЬ - система управления хранилищем электронных ресурсов с использованием семантических технологий» / Хоай Ле, А.Ф. Тузовский // Свидетельство о государственной регистрации программы для ЭВМ № 2013613266. М.: Федеральная служба по интеллектуальной собственности (Роспатент). - 2013.

10. Ле Хоай. Программная система «БешАЯС — компонент семантического аннотирования ресурсов» / Хоай Ле, А.Ф. Тузовский // Свидетельство о государственной регистрации программы для ЭВМ в Роспатенте РФ №2013613146. М.: Федеральная служба по интеллектуальной собственности (Роспатент). -2013.

Подписано к печати 18.12.2013. Формат 60x84/16. Бумага «Снегурочка». Печать XEROX. Усл.печ.л. 0,93. Уч.-изд.л. 0,84. Заказ 1377-13. Тираж 100 экз.

ИЗМШЬСТБ^ЖТПУ. 634050, г.Томск, пр. Ленина,30 Тел./факс: 8(3822)56-35-35, www.tpu.ru

Текст работы Ле Хоай, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Национальный исследовательский Томский политехнический университет»

На прав

.описи

0420145 5 52V

Jle Хоай

ИССЛЕДОВАНИЕ И РАЗРАБОТКА ЭЛЕКТРОННЫХ БИБЛИОТЕК НА ОСНОВЕ ЯВНОГО ОПИСАНИЯ СЕМАНТИКИ РЕСУРСОВ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ SEMANTIC WEB

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Диссертация

на соискание ученой степени кандидата технических наук

Научный руководитель: доктор технических наук, профессор,

Тузовский А.Ф.

Томск - 2013

Оглавление

Введение..........................................................................................................................4

Глава 1. Электронные библиотеки и семантические технологии.....................10

1.1 .Общее описание электронных библиотек......................................................10

1.2.Электронные библиотеки с использованием описания семантики информационных ресурсов..........................................................................................16

1.3.Анализ содержания электронных ресурсов...................................................20

1.4.Семантические технологии Semantic Web.....................................................29

1.5. Об основание нового вида электронной библиотеки.....................................45

1.6.Вывод ы...............................................................................................................46

Глава 2. Архитектура семантических электронных библиотек........................48

2.1.Описание используемого онтологического подхода....................................48

2.2.Онтологии семантической электронной библиотеки....................................54

2.3.Постановка задач поддержки СЭБ..................................................................59

2.4.Предлагаемая архитектура СЭБ......................................................................64

2.5.Вывод ы...............................................................................................................69

Глава 3. Решение задач функционирования семантических электронных библиотек......................................................................................................................70

3.1 .Способы оценки семантической близости.....................................................70

3.2.Способ аннотирования.....................................................................................86

3.3.Способы поиска.................................................................................................91

3.4.Способы формирования рекомендаций..........................................................97

3.5.Способы автоматической категоризации.......................................................98

3.6.Способы оптимизации алгоритмов разработанных алгоритмов.................99

3.7.Способ навигации между ресурсами............................................................104

3.8.Вывод ы.............................................................................................................106

Глава 4. Реализация и исследование моделей и алгоритмов семантической электронной библиотеки..........................................................................................107

4.1 .Система семантического аннотирования ресурсов.....................................107

4.2.Система управления хранилищем электронных ресурсов с использованием

семантических технологий.........................................................................................112

4.3.Варианты внедрения.......................................................................................119

4.4.Тестирование разработанных способов и алгоритмов................................121

4.5.Вывод ы.............................................................................................................136

Заключение.................................................................................................................138

Литература..................................................................................................................140

Приложения................................................................................................................152

Приложение 1 - UML - диаграммы программ..................................................152

Приложение 2 - Примеры пользовательских интерфейсов программ............156

Приложение 3 - Краткое описание базовых онтологий...................................158

Приложение 4 - Примеры кода программ..........................................................161

Приложение 5 - Пример внедрения в NAISCOP...............................................174

Приложение 6 - Свидетельства на зарегистрированные программы.............177

Приложение 7 - Акты внедрения........................................................................179

Введение

Электронные библиотеки (ЭБ) представляют собой информационные системы, позволяющие автоматизировать работу пользователей с различными видами электронных ресурсов (ЭР), например как документы, изображения, аудио и видеофайлы. В классических ЭБ ресурсы обычно описываются только с помощью различных метаданных их контекста, а их содержание (контент ресурса) представляется только в виде набора терминов. Это приводит к таким проблемам, как:

• отсутствие у системы понимания смысла ресурсов из-за таких особенностей естественных языков, как синонимия, полисемия и омонимия;

• слабая интеграция информационных ресурсов: ЭБ содержат большое количество разнородных информационных ресурсов (ИР - электронных ресурсов, профилей пользователей, схем классификации знаний предметных областей, и др.), описанных с использованием различных метаданных, с которыми нужно работать как с единым целым, что требует решения задачи их интеграции;

• недостаточно высокая точность выполнения основных функций библиотеки: для удовлетворения потребностей пользователей ЭБ требуется обеспечить высокую точность результатов основных функций, таких как поиск, автоматическая категоризация и формирование рекомендаций;

• отсутствие удобных средств навигации между информационными ресурсами.

Решение перечисленных проблем и повышение качества предоставляемых сервисов ЭБ может быть достигнуто за счет описания смысла (семантики) содержания ЭР и реализации работы с ними путём использования моделей представления знаний, например таких, как семантические сети, фреймы или онтологии. В настоящее время более совершенными и выразительными считаются онтологические модели. Это объясняется тем, что они основываются на формальных (дескриптивных), логиках и для работы с ними в рамках концепции Semantic Web разработан набор стандартных технологий, позволяющих создавать, описывать и использовать онтологические модели. К

технологиям Semantic Web относятся такие языки, как RDF {Resource Description Framework), RDFS {RDF Schéma), OWL {Ontology Web Language) и SPARQL {Simple Protocol And RDF Query Language). Кроме этого разработано много программных систем по работе с онтологическими моделями (редакторы, системы логического вывода, RDF-хранилища и т.п.).

В мире уже активно ведутся исследования по использованию технологий Semantic Web в таких областях, как электронные библиотеки, интеграция и поиск информации в сети Интернет и системы управления знаниями. Перспективность данного направления подтверждается результатами исследований таких зарубежных учёных, как J.A. Hendler, S.R. Кгик, В. McDaniel, S. Linckels, С. Mainel и H. Bulskov и др., а также российских ученых В.А. Серебрякова, A.F. Марчука, М.Р. Когаловского, Ю.А. Загорулько, В.З. Ямполъского, А.Ф. Тузовского и др.

Однако до сих пор нет согласованного и обоснованного набора моделей и методов, позволяющих создавать и поддерживать работу с явным описанием семантики ЭР библиотеки с помощью технологий Semantic Web. В связи с вышесказанным можно утверждать, что проблема создания ЭБ, позволяющих работать с семантикой ЭР с использованием технологий Semantic Web, является актуальной и недостаточно исследованной.

Целью диссертационной работы является разработка методов, способов и алгоритмов решения задач функционирования электронных библиотек, основанных на явном описании семантики информационных ресурсов с использованием технологий Semantic Web для повышения качества предоставляемых сервисов.

Для достижения этой цели необходимо было решить следующие задачи:

1) Предложить подход к описанию информационных ресурсов электронных библиотек с использованием логических утверждений и онтологических моделей.

2) Разработать способ оценки семантической близости между метаописаниями электронных ресурсов и запросами пользователей.

3) Разработать способы семантического аннотирования, поиска, категоризации и формирования рекомендаций на основе метаописания

электронных ресурсов и профилей пользователей.

4) Создать алгоритмы и программы, реализующие разработанные способы, и провести вычислительные эксперименты с целью выявления и повышения их эффективности.

Объектом исследования являются основные функции электронных библиотек, управляющие использованием информационных ресурсов.

Предметом исследования являются подходы и методы использования семантических технологий Semantic Web в электронных библиотеках для реализации информационных процессов на семантическом уровне.

Методы исследования. Для решения поставленных задач в работе использовались методы системного анализа и семантического моделирования, теории графов и множеств, теория экспертных оценок, объектно-ориентированного проектирования и программирования.

Научная новизна диссертационной работы заключается в следующем:

1) Предложены семантические модели информационных ресурсов электронных библиотек, отличающиеся явным описанием семантики не только контекста, но и контента с использованием наборов простых логических утверждений (триплетов) на основе единой онтологической модели, что позволяет управлять, интегрировать и выполнять навигацию между ними.

2) Разработаны способы оценки семантической близости между информационными ресурсами, учитывающие не только контекстные, но и контентные метаданные, что дает возможность более точно определять их сходство.

3) Предложены алгоритмы решения задач семантического поиска, автоматической категоризации и формирования рекомендаций, использующие семантические модели информационных ресурсов, что значительно повышает качество сервисов, предоставляемых электронной библиотекой.

Теоретическая значимость исследования заключается в том, что полученные в диссертационной работе результаты вносят вклад в развитие теории создания нового поколения информационных систем, основанных на

онтологическом моделировании и технологиях Semantic Web.

Практическая значимость

1) Предложенные в работе модели, подходы и алгоритмы могут быть применены для создания программного обеспечения электронных библиотек на основе явного описания семантики ресурсов с использованием технологий Semantic Web.

2) Разработанные прототипы программных систем (SemDL [124] и SemARC [125]) могут быть использованы для реализации систем управления семантических электронных библиотек с использованием технологий Semantic Web.

Внедрение результатов работы

Разработанное программное обеспечение прошло опытную эксплуатацию в компании NAISCORP (г. Ханой, Вьетнам) в составе подсистемы управления электронными ресурсами и профилями сотрудников и в компании ООО «ТЗРО» (г. Томск, Россия) в составе электронной библиотеки организации.

Предложенные в диссертационной работе модели и алгоритмы также использованы в учебном процессе кафедры оптимизации систем управления Института кибернетики Томского политехнического университета.

Практическое использование результатов диссертационной работы подтверждено соответствующими актами внедрения (Приложение 7).

Основные положения, выносимые на защиту:

1) Семантические модели информационных ресурсов электронных библиотек, отличающиеся явным описанием семантики не только контекста, но и контента с использованием наборов простых логических утверждений (триплетов) на основе единой онтологической модели.

2) Способы оценки семантической близости между информационными ресурсами, учитывающие не только контекстные, но и контентные метаданные.

3) Алгоритмы решения задач семантического поиска, автоматической категоризации и формирования рекомендаций, использующие семантические модели информационных ресурсов.

Личный вклад автора. Выносимые на защиту результаты получены автором лично. Постановка задач была выполнена автором совместно с научным руководителем.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях:

1) XV Всероссийская научная конференция RCDL'2013 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (Ярославль, 2013).

2) IV Всероссийская конференция с международным участием «ЗНАНИЯ -ОНТОЛОГИИ - ТЕОРИИ» (Новосибирск, 2013).

3) XVIII Международная научно-практическая конференция студентов и молодых ученых «Современные техники и технологии» (Томск, 2012).

4) V и VI Всероссийские научно-практические конференции «Научная инициатива иностранных студентов и аспирантов российских вузов» (Томск, 2012 и 2013).

5) IX и X Всероссийские научно-практические конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2012 и 2013).

Структура и объем диссертации. Диссертация содержит введение, 4 главы, список литературы (130 наименований) и 7 приложений. Общий объем диссертации составляет 181 страницу, включая 9 таблиц и 45 рисунков.

В первой главе описывается общая структура электронных библиотек, и поясняются их концептуальные модели, архитектуры. Рассматриваются существующие проекты разработки электронных библиотек с использованием семантических технологий. Описываются и анализируются подходы к описанию содержания электронных документов с учётом и без учёта семантики.

В общем виде рассматриваются семантические технологии Semantic Web (RDF, RDFS, OWL, SKOS, SPARQL, SERQL), обосновывается мотивация разработки нового вида электронной библиотеки.

Делается вывод о том, что требуется исследовать использование

семантических технологий для разработки программных систем электронных библиотек с применением онтологических моделей для явного описания семантики электронных ресурсов.

Во второй главе предлагается онтологический подход к описанию электронных ресурсов, рассматривается их метаописание с использованием контекстных и контентных метаданных. Описывается базовая архитектура электронных библиотек с использованием семантических технологий. Поясняются предлагаемые варианты базовых онтологий, разработанные для создания электронных библиотек.

Ставятся основные задачи, поддерживающие работу электронных библиотек, такие, как семантическое аннотирование электронных ресурсов, категоризация, поиск и формирование рекомендаций.

Третья глава посвящена разработке методов, способов и алгоритмов решения поставленных ранее задач. Описываются существующие и предлагаемые способы оценки семантической близости между компонентами триплетов, триплетами и наборами триплетов в онтологической модели знаний. Поясняется использование этих способов для решения задач семантического аннотирования, семантического поиска, классификации и формирования рекомендаций.

Описываются подходы к созданию метаописания для категорий и профилей пользователей электронных библиотек на основе их поведения в системе.

В четвертой главе представлено разработанное (и зарегистрированное в Роспатенте) программное обеспечение, включающее систему семантического аннотирования ресурсов (ЗетАЫС) и систему управления хранилищем электронных ресурсов с использованием семантических технологий (8етБЬ).

Дано описание функций системы вешБЬ в соответствии с разработанными способами. Представляется внедрение системы 8ешОЬ в подсистемах управления ЭР организаций.

Рассматриваются критерии, используемые для анализа качества и эффективности работы системы, и способы их экспертной оценки. Показаны результаты тестирования алгоритмов, реализующих разработанные способы.

Глава 1. Электронные библиотеки и семантические технологии

В данной главе делается общее описание электронных библиотек как информационных систем (ИС). Рассматриваются существующие ЭБ с использованием семантических технологий, подходы к анализу содержания электронных документов. Описываются семантические технологии Semantic Web, и представлена мотивация исследования и разработки нового вида электронной библиотеки в данной работе.

1.1. Общее описание электронных библиотек

Разработка современных ЭБ предполагает использование совокупности технологий из различных дисциплин и областей, включая такие, как управление данными, информационный поиск, библиотечное дело, управление документооборотом, информационные системы, веб-сеть, обработка изображений, искусственный интеллект и человеко-машинное взаимодействие. В последнее время основное внимание уделяется интеграции методов этих дисциплин в единое целое для реализации базовой функциональности ЭБ и поддержки новых требований.

Для понимания сущности ЭБ необходимо рассмотреть их концептуальные модели, включающие набор абстрактных понятий и их взаимосвязей.

1.1.1. Концептуальная модель электронной библиотеки

Существует много видов концептуальных моделей ЭБ [1-5], среди которых можно выделить наиболее известную модель DELOS, которая предоставляет более полный набор основных понятий.

В данной модели выделены [4] следующие три системы: электронная библиотека, программная система электронной библиотеки и система управления электронной библиотекой, соотв�