автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Интеграция и поиск распределённых данных на основе Semantic Web технологий

кандидата технических наук
Сысоев, Тимофей Михайлович
город
Москва
год
2007
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Интеграция и поиск распределённых данных на основе Semantic Web технологий»

Автореферат диссертации по теме "Интеграция и поиск распределённых данных на основе Semantic Web технологий"

На правах рукописи

Сысоев Тимофей Михайлович Г

ИНТЕГРАЦИЯ И ПОИСК РАСПРЕДЕЛЁННЫХ ДАННЫХ НА ОСНОВЕ SEMANTIC WEB ТЕХНОЛОГИЙ

Специальность 05.13.18 - математическое моделирование, численные методы и комплексы

программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва - 2007

003059449

Работа выполнена в отделе систем математического обеспечения вычислительного центра им А. А. Дородницына РАН

Научный руководитель-

доктор физико-математических наук, профессор

Серебряков Владимир Алексеевич

член-корреспондент РАН, доктор технических наук, профессор Арлазаров Владимир Львович

кандидат физико-математических наук Босов Алексей Вячеславович

Институт прикладной математики им. М.В. Келдыша РАН

Официальные оппоненты

Ведущая организация

Защита состоится 25 мая 2007 года в час. на заседании диссертаци-

онного совета К212 156 02 в Московском физико-техническом институте (государственном университете) по адресу 141700, г Долгопрудный Московской обл, Институтский пер, д. 9, ауд 903 КПМ

С диссертацией можно ознакомиться в библиотеке МФТИ

Автореферат разослан « Д. ^ » апреля 2007 г.

Ученый секретарь диссертационного совета

Федько О.С

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Вместе с повсеместным распространением сетевых технологий и Интернет значительно упростился доступ к данным, независимо от их физического местоположения. Это позволяет одновременно получить доступ к большому числу источников данных, связанных между собой каким-либо образом, и, с помощью объединения результатов запросов, получить полезную информацию, которая физически не хранится в одном источнике Этот процесс автоматизируют системы интеграции данных, то есть такие информационные системы, которые предоставляют пользователю доступ к интегрированному представлению информации, содержащейся во множестве источников данных

Задача интегрирования данных осложняется тем, что источники информации, как правило, являются автономными - они разрабатываются и поддерживаются независимо от приложений, которые могут их использовать Архитектура таких источников, протоколы коммуникации и производительность определяются их владельцами. Информация в них может быть представлена в различных моделях данных: от реляционной или объектно-ориентированной до слабоструктурированных файлов (HTML/TXT) Источники работают на различных аппаратных платформах, используют различное программное обеспечение, имеют различные интерфейсы доступа (CGI,RMI,CORBA,SOAP).

В последнее время на подходы к интеграции данных большое влияние оказывает инициатива Semantic Web В частности, в рамках этой инициативы были предложены формат данных (XML), модель данных (RDF) и стандарты описания схем данных (RDFS.OWL), которые позиционируются как средства обмена информацией, данными, и знаниями с учётом их семантики.

Цель работы

Целью работы является разработка моделей и технологий создания информационных систем, предназначенных для поиска и интегрирования данных, содержащихся в распределённых неоднородных информационных источниках, с применением технологий Semantic Web В работе исследованы и решены следующие задачи.

1 Исследование и сравнительный анализ существующих подходов и моделей поиска данных и интеграции данных распределённых неоднородных информационных систем

2. Формализация основных операций в распределённой системе (поиск, совместный поиск, обмен)

3 Создание моделей выполнения операций и разработка алгоритмов их реализации

4 Разработка технологии построения интегрирующей информационной системы на основе модели данных RDF/RDFS

5. Реализация компонентов информационной системы, соответствующей выбранным моделям, методам и технологиям в виде комплекса программ.

Научная новизна

В диссертационной работе получены следующие новые результаты

• Разработана схема данных для информации, описывающей и классифицирующей интегрируемые источники данных;

• Произведено формальное описание операций поиска и обмена данными в распределённой информационной системе

• Разработана модель и алгоритмы выполнения указанных операций

Практическая ценность

Практическая ценность данной работы состоит в том, что разработанные модели и алгоритмы позволяют создавать интегрирующие информационные системы, эффективно решающие поставленные перед ними задачи. Предложенные решения были применены на практике в нескольких информационных системах, наиболее масштабной из которой на текущий момент является Единое Научное Информационное Пространство (ЕНИП) - инициатива, направленная на предоставление унифицированного доступа к интегрированной научной информации институтов РАН

Апробация работы

Основные результаты работы докладывались и обсуждались на следующих научных конференциях и семинарах:

• Научно-практический семинар "Новые технологии в информационном обеспечении науки", Москва, 2003.

• Всероссийская научная конференция "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Санкт-Петербург, 2003, Пущино,2004; Суздаль, 2006

• Всероссийская научная конференция "Научный сервис в сети Интернет", Новороссийск, 2004

• Международный коллоквиум Spring Young Researcher's Colloquium On Database and In-formation Systems - SYRCoDIS, St -Petersburg, Russia, 2004

• Международная конференция The 8th World Multi-Conference on Sys-temics, Cybernetics and Informatics - SCI 2004, Orlando, Florida, 2004.

• Научная конференция МФТИ, Долгопрудный, 2005, Долгопрудный, 2006

• Международная конференция "Порядковый анализ и смежные вопросы математического моделирования", Владикавказ, 2006.

• Научные семинары систем математического обеспечения вычислительного центра им. А. А. Дородницына РАН, 2002-2006

Публикации

По теме диссертации опубликовано 12 работ, в том числе одна из списка изданий рекомендованных ВАК.

Структура и объём работы

Диссертация состоит из введения, трёх глав, заключения, списка использованных источников, включающего 85 работ, одного приложения. Работа изложена на 107 страницах.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Введение

Во введении обоснована актуальность темы исследования, описаны решаемые проблемы, рассматриваются общие подходы к интеграции информационных систем. Введение дает характеристику основных проблем и задач, возникающих при этом.

Глава I. Подходы к интеграции данных

В главе 1 приведен обзор существующих методик построения интегрирующих систем, то есть систем, которые предоставляют пользователям интегрированный доступ к данным, хранящимся в различных информационных источниках Процесс интеграции данных ставит множество проблем, вызванных, в частности, автономностью и разнородностью источников, количественными и качественными требованиями к обработке запросов.

Архитектурно, интегрирующие системы можно разделить на системы с "виртуальной" интеграцией (virtual view), в которых данные для ответа на запросы пользователя берутся из информационных источников непосредственно в процессе выполнения запроса, и системы, в которых интегрированные данные собираются заранее и хранятся централизованно (materialized view). Второй подход обычно применяется в случаях, когда количество ин-

формационных источников невелико, и известен класс запросов, которые будет делать пользователь. Так же возможен и гибридный подход, который применяется в первую очередь для улучшения производительности систем с виртуальной интеграцией.

Системы с "виртуальной" интеграцией делятся на федеративные базы данных (federated databases) и системы, основанные на медиаторах (mediated systems). Федеративные базы данных состоят из нескольких полуавтономных баз данных, которые частично разделяют информацию между собой В свою очередь, системы, основанные на медиаторах, интегрируют разнородные источники данных, среди которых могут быть как базы данных, так и вебсайты, полуструктурированная информация в файловой системе и т п Источники в этом случае остаются полностью автономными. Как правило, такие системы обладают ограниченными возможностями языка запросов (по сравнению, например, с SQL), и интегрированные данные доступны только для чтения

Исходя из этого, основной интерес для нас представляют системы с виртуальной и гибридной интеграцией с использованием медиаторов Архитектура такой системы представлена на рисунке 1.

метаданные

медиатор

адаптер

тг

1 I

адаптер

тг

| адаптер j И

ИС 1

ИС 2

ИСЗ

Рисунок 1 Схема медиаторной интегрирующей системы Основными компонентами такой системы являются-

• Медиатор (mediator) - программный компонент, который, с одной стороны, взаимодействует с пользователем интегрирующей системы, и, с другой стороны, с информационными источниками Медиатор предоставляет единую "точку входа" (программный интерфейс) для запросов пользователей Он выполняет основные стадии обработки запроса- декомпозицию на запросы к источникам (на основе их описаний), оптимизацию плана выполнения, рассылку адаптерам и комбинирование результатов

• Адаптер (wrapper) - посредник между медиатором и информационным источником. Задача адаптера - перевести запрос из интегрированной схемы в схему источника, и, затем, результаты запроса перевести обратно в интегрированную схему. Адаптер предназначен для скрытия деталей реализации источника от медиатора.

Одной из основных проблем построения систем с помощью медиаторов является интеграция схем источников: доступ к интегрированным данным должен осуществляться в терминах одной, канонической схемы. Создание такой канонической схемы, как правило, является сложным процессом, включающим в себя несколько стадий-

1. предварительная стадия: выбор схем, которые будут интегрированы, порядок интеграции, сбор дополнительной информации о схеме источников (метаинформации)

2. сравнение схем, с целью поиска конфликтов и корреляций,

3. разрешение конфликтов, которое потенциально может включать в себя изменение схем источников (если есть такая возможность),

4. непосредственно создание интегрированной схемы;

5. спецификация отображений между глобальной схемой и схемами источников.

Следует отметить, что для глобальной схемы разработан ряд метрик, которые позволяют оценить её качество, такие как "доступность" (в источниках присутствуют все данные, необходимые для интегрированной информации), "информационная вместимость" (information capacity) - доступность в глобальной схеме всей информации, которую можно получить непосредственно в локальном источнике, избыточность (понимание идентичных сущностей), и т д

Основная задача интегрирующей системы - обработка пользовательских запросов По сравнению с традиционным процессом обработки запросов, состоящим из разбора (parsing), оптимизации и выполнения, выполнение распределённых запросов усложняется по следующим причинам.

• для выполнения запроса следует подобрать релевантные источники, т.е. источники, данные которых могут быть использованы в результате,

• источники могут иметь ограниченные возможности в плане выполнения запросов,

• часть данных может дублироваться,

• часть источников по каким-либо причинам может быть недоступна в момент выполнения запроса.

В большой степени на обработку запросов влияет то, каким образом задано соответствие глобальной схемы и схем источников Для этого применяются следующие подходы-

• GAV (Global as View)1 отношения (relations) глобальной схемы выражаются через отношения локальных схем - для реляционной модели;

• LAV (Local as View), отношения локальных схем выражаются через отношения глобальных схем - для реляционной модели;

• Подход на основе DL (Description Logic) понятия (concepts) локальных источников информации определяются через понятия глобальной модели Данный подход похож на LAV, но вместо отношений глобальной схемы используются понятия проблемной области

При применении GAV перевод запросов из глобальной модели в модели источников осуществляется достаточно просто, так же легко строятся иерархии медиаторов Однако, при добавлении новых информационных источников возникают сложности, надо исследовать соотношение нового источника и всех имеющихся, и изменить в соответствии с этим отображение Таких проблем с добавлением нет у LAV - новые правила добавляются к старым, не изменяя их - но перевод запросов из глобальной схемы в локальную является сложной, хотя и достаточно хорошо изученной задачей LAV позволяет в тех случаях, когда несколько источников содержат дублирующую информацию, получить несколько вариантов исполнения запроса, среди которых затем можно выбрать наиболее подходящий с учётом таких факторов как доступность узлов, их загруженность и т п Подход с использованием DL облегчает отображение по сравнению с LAV (понятия локальной и глобальной схемы являются частью предметной области), но в общем случае не позволяет описать произвольные соединения отношений, кроме этого, иногда при добавлении новых источников возникает необходимость в расширении модели предметной области

Глава II. Интеграция данных с помощью онтологий

В главе 2 представляется подход к интеграции данных информационных систем, основанный на использовании онтологий источников данных. Метод основан на классической модели систем, использующих медиаторы, со следующими особенностями

• Интегрируемые информационные системы могут быть как автономными, так и разработанными специальным образом для участия в распределённом взаимодействии Помимо поиска, такие системы поддерживают обмен информацией и метаинформацией, что позволяет осуществлять

распределённый поиск более эффективно, по сравнению с классической моделью

• Каноническая схема данных описывается в модели RDF/RDFS, локальные схемы данных приводятся к той же модели

• В системе может не быть явно выделенного медиатора, все узлы имеют доступ к метаинформации, описывающей структуру интегрированной информационной системы, и могут выполнять распределённый поиск основываясь на этой информации, общих протоколах, общей модели данных и предложенных алгоритмах. Это позволяет строить не только информационные системы, ориентированную на поиск данных, но также и на совместную работу с информацией (аналогично федеративным базам данных).

Раздел 2.1 посвящен описанию онтологии, характеризующей информационные источники, данные которых подлежат интегрированию На рисунке 2 изображены основные классы этой онтологии в нотации UML

Мы выделяем следующие типы источников, в зависимости от степени участия в распределённой среде.

• 0-й уровень: информационный источник не участвует в выполнении запросов, функция поиска не поддерживается Данные источника периодически реплицируются на другой узел, на котором они индексируются, и становятся доступны для поиска. Данный уровень позволяет с наименьшими затратами подключать источники к распределённой среде, для этого достаточно реализовать программный компонент, который будет с определённой периодичностью выгружать новые данные в RDF формате

• 1-й уровень: информационный источник может участвовать в выполнении запросов, но не предоставляет возможностей записи информации Данный уровень соответствует обычным информационным системам с поддержкой функции поиска. Требует реализации адаптера, который будет переводить поисковые запросы в формат, понятный данному источнику.

• 2-й уровень- информационный источник, в дополнении к операции поиска, поддерживает процессы репликации данных и метаинформации.

Полная информация обо всех информационных источниках, участвующих в распределённой среде, собирается централизованно, и реплицируется в соответствии с конфигурацией распределённой среды для обеспечения эффективного доступа В частности, эта информация используется при выполнении поисковых запросов. Кроме того, фрагменты этой информации могут храниться в узлах в целях оптимизации (например, информация о "соседних" узлах)

имя

описание

уникальный идентификатор схема данных (URI)

ИИ уровня 2

информация для аутентификации описание топология обмена

Рисунок 2 Основные свойства и классы, описывающие информационные источники

Раздел 2.2 описывает базовые понятия интегрированной схемы данных (mediated schema). Эти понятия используются для построения схем данных, соответствующих конкретным информационным источникам, и являются основой для семантической интеграции. Схема определяет.

• Ресурс (kernel:Resource) Ресурс можно охарактеризовать как единицу хранения- распределённый поиск рассматривает каждый источник как коллекцию ресурсов. Ресурс хранится в репозитории целиком все его простые (rdfs:Literal) и составные (kernel'DependentObject) свойства определены в том же репозитории, что и сам ресурс У ресурса определено текстовое свойство "URI" - глобально-уникальный идентификатор, имя ресурса в системе Среди свойств ресурса выделяются свойства, доступные для использования в поисковых выражениях

• Зависимый объект (kernel DependentObject) Экземпляры данного класса являются составной частью ресурсов (отношение агрегации)

• Связь свойство, значением которого является ресурс Связанный ресурс не обязан храниться в том же информационном источнике, в котором определён основной.

Таким образом, требуется, чтобы ИОТ-тройки были распределены между репозиториями не произвольным образом: тройки, определяющие свойства ресурса или зависимых от него объектов расположены в рамках одного репозитория Из этого требования следует, что у каждого репозитория достаточно информации, чтобы выполнять поиск ресурсов по значению их свойств (непосредственных или связанных с зависимыми объектами). Если данные представить в виде графа, то границы репозиториев будут проходить по связям типа ресурс-ресурс (рисунок 3).

В разделе 2.3 в рамках дополнительной онтологии описывается дополнительная метаинформация, применяемая для оптимизации поиска и управления процессами репликации в распределённой среде Такого рода информацию удобно представлять в соответствии с традиционными базовыми понятиями, поскольку это позволяет применять стандартные механизмы для её распространения Представлены следующие виды метаинформации

1. Описатель коллекции - вспомогательная информация, позволяющая оценивать степень соответствия информационного источника поисковому запросу. Основу описателя коллекции составляет частотный словарь, в котором содержатся значения и статистические свойства атрибутов, относящихся к ресурсам информационного источника Такая информация позволяет исключать из процесса совместного поиска узлы, про которые заведомо известно, что они не содержат искомую информацию

2. Индекс - информация, на основе которой для заданного поискового запроса можно получить список идентификаторов удовлетворяющих этому запросу ресурсов При наличии индекса какого-либо узла операцию поиска можно выполнять локально, не производя обращений к этому узлу

3 Управляющая информация - указания для процессов репликации ресурсов в распределённой среде

Схема управляющей информации определяет следующие сущности

• канал - направление обмена. Канал определяется узлом-источником и узлом-получателем. Такую сущность удобно выделять отчасти из-за её административной составляющей, канал устанавливает доверительные отношения между узлами.

• группа каналов - каналы с общим источником или получателем объединяются в именованные группы для удобства конфигурирования

• задание - определяет репликацию. Задание характеризуется источником данных (может осуществляться как репликация собственных данных, так и полученных от других узлов), запросом, фильтрующим данные, предназначенные для репликации, и получателем. Здесь источник и получатель -канал или группа каналов.

На рисунке 4 изображен пример схемы репликации данных, в котором ресурсы реплицируются на все дочерние узлы, и все родительские (но не попадают на соседние). Для такого случая задания будут выглядеть следующим образом (при условии, что дочерние направления объединены в группу кана-

Источник Запрос Назначение

ир -

- ир

(локальные данные) - ир, БО^

<§>..............

(•) I1 (•) "DOWN"

<8><§><§>®<§>®®®

Рисунок 4 Пример схемы репликации данных

В разделе 2.4 рассмотрен набор следующих операций распределённой

информационной системы

• Локальный поиск - поиск данных в рамках одного информационного источника. Для операции локального поиска определена семантика языка запросов, соответствующая глобальной RDF модели данных, и предложены различные формы записи выражений этого языка, предназначенные для взаимодействия пользователей с системой и внутрисистемных взаимодействий Определена RDSF схема для представления результатов операции локального поиска.

• Совместный поиск - поиск информации в нескольких узлах одновременно с последующей интеграцией результатов Для операции совместного поиска задаётся запрос такого же вида, как и для локального поиска, вместе с коллекцией узлов, на которые следует разослать данный запрос. Важной особенностью операции совместного поиска является возможность поиска данных с учётом атрибутов связанных с ними объектов, притом, что связанные друг с другом ресурсы могут находиться на разных узлах При этом допускаются как непосредственные связи, так и связи через произвольное количество промежуточных ресурсов

• Выгрузка данных - операция, позволяющая получить информацию их узла по ряду заданных критериев Операция предназначена для поддержки обмена данными между узлами. Информация приводится к универсальному формату, пригодному для пересылки. Одно из основных требований -возможность последовательного обновления данных, то есть получения коллекции данных, изменившихся с момента последнего сеанса выгрузки

• Загрузка данных - операция загрузки данных из универсального формата в репозиторий узла распределённой системы. Применяется для обмена

• Индексирование - построение индекса данных информационного источника с учётом их семантики

• Создание описателя - формирование метаинформации, достаточной для определения степени соответствия информационного источника и поискового запроса

• Оценка запроса по индексу - результат аналогичен локальному поиску, но операция может выполняться не в узле, в котором идёт поиск данных, а в узле, в котором хранится индекс.

• Оценка запроса по описателю - определение релевантности источника поисковому запросу.

Узлы не обязаны поддерживать все перечисленные операции Например, для интеграции автономной информационной системы достаточно поддержки операции локального поиска, при этом её выполнение ложится на соответствующий адаптер Часть операций неосуществима только с помощью адаптеров, и требует программной поддержки в информационной системе.

В разделе 2.5 описаны подходы к реализации вышеуказанных операций, предложены протоколы взаимодействия и соответствующие алгоритмы Изложение ведётся для источника, данные которого хранятся в реляционной модели, поскольку именно на базе таких источников производилась практическая реализация этих методов

Для операции совместного поиска предложен алгоритм его реализации и соответствующий протокол взаимодействия с возможностью сохранения состояния, состоящий из элементарных операций

• элементарный поиск с сохранением результатов как именованной коллекции,

• теоретико-множественные операции над именованными коллекциями (объединение, пересечение, вычитание);

• специальная операция перехода по связям: на основе коллекции ресурсов строится новая коллекция, состоящая из связанных с ним ресурсов по заданному свойству

Особенностью этого протокола является то, что множество узлов, участвующих в поиске, может меняться в результате выполнения операции перехода по связям (уменьшаться или увеличиваться) Показано, что данный алгоритм эффективен в условиях, когда большинство связанных между собой объектов находятся в рамках одного источника (то есть число связей, пересекающих границы источников, относительно невелико).

Для операций выгрузки и загрузки данных представлено описание реализации журнала обмена, предназначенного для поддержки требования последовательного обновления.

Рассмотрена реализация операции индексирования данных-

• описан формат индекса с семантической информацией, основанный на онтологии источника данных, то есть индекса, позво-

ляющего определить факт соотнесения терма с определённым свойством ресурса,

• приведено описание алгоритма поиска ресурсов, соответствующих заданному поисковому запросу,

• описаны применяемые методы ранжирования результатов поискового запроса и учёта словоформ в поиске,

• рассмотрено расширение формата индекса, позволяющее выполнять поиск с учётом ограничений на связанные ресурсы в рамках одного репозитория.

Рассмотрена реализация операций создания описателя и оценки соответствия запроса по описателю: метод построения описателей по индексу и алгоритм, оценивающий релевантность запроса.

Глава П1. Применение разработанных моделей и технологий

В разделе 3 описано применение разработанных решений на практике, среди которых наиболее значительной является ЕНИП (Единое Научное Информационное Пространство) РАН Инициатива по организации Единого Научного Информационного Пространства РАН (ЕНИП РАН) призвана помочь научным коллективам сделать ряд шагов в направлении интеграции разнородных научных информационных и программных ресурсов отдельных научных учреждений, предоставлении пользователям более эффективных средства интеграции и поиска информации, научной коммуникации, сотрудничества и совместной работы Под единым пространством понимается ни формирование централизованной системы, ни навязывание всем одних и тех же решений, а стремление последовательностью практических шагов, совместными усилиями научных коллективов РАН-

• сформулировать взаимосогласованный набор соглашений, правил и открытых стандартов;

• приготовить совокупность макетов и типовых решений для реализации адаптеров прикладных систем, инфраструктурных служб, поддерживающих разные уровни интероперабельности распределенных гетерогенных данных и приложений;

• создать ряд информационных систем общего назначения, следующих этим соглашениям, использующих эти реализации, допускающих модульную организацию, наращивание функциональных возможностей,

• применить эти результаты для решения соответствующих задач учреждений РАН.

В контексте ЕНИП результаты данной работы используются следующим образом

1. в типовом решение "Научный институт РАН" реализованы средства поддержки совместной работы (распределённый поиск, репликация данных и метаданных)

2 построена распределённая информационная система, в которую входят как узлы, основанные на предложенном типовом решении, так и автономные узлы

ООН РАН 6ЕН РАН ВЦ РАН ИФТТРЛН ПИН РАН ПНЦУрОРЛН ИПХФ РАН ТОЙ Д0О РАН (НИ Э6) (НИ БК) (НИ Э8 КНИ (НИ ЭБ) (НИ БК (НИ} (НИ) (НИ Мел

лдоозииосгъ ИМСС Порталы)

УрО РАН проведении (НИ) конференции

Рисунок 5 Структура ЕНИП

На рисунке 5 приведена схема ЕНИП по результатам работ 2006 года Точкой входа для доступа к интегрированной информации является центральный узел, расположенный по адресу http //enip ras ru

Заключение

В заключении приведены основные результаты диссертационной работы

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Проведено исследование и сравнительный анализ моделей и подходов к

поиску и интеграции данных распределённых информационных систем. 2 Определён и формализован состав операций, связанных со спецификой распределённого поиска и обмена данными.

3. Разработаны модели и соответствующие им алгоритмы выполнения указанных операций, дана оценка их производительности 4 Предложена архитектура информационной системы, предназначенной для

поиска и интеграции данных. 5. Разработаны и реализованы информационные компоненты, соответствующей выбранным моделям, методам и технологиям в виде комплекса программ для системы "Единое Научное Пространство РАН"

Приложение

В приложении приведена справочная информация, о деталях программной реализации.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Сысоев Т М, Бездушный А А, Бездушный А Н., Нестеренко А К Служба управления содержанием системы ИСИР, основанная на XML технологиях И Современные технологии в информационном обеспечении науки (ред.Н Е.Калёнов)-М.,2003 -С. 160-181

2. Бездушный А А, Бездушный А Н., Нестеренко А К, Серебряков В А, Сысоев ТМ "Архитектура RDFS-системы Практика использования открытых стандартов и технологий Semantic Web в системе ИСИР" // Труды пятой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" RCDL'2003, Санкт-Петербург, Россия, 2003. - Изд-во СпбГУ, 2003, С 45-60

3 Нестеренко А К, Сысоев ТМ, Бездушный А А, Бездушный А Н, Серебряков В А Интеграция распределенных данных на основе технологий Semantic Web и рабочих процессов // Труды Шестой Всероссийской научной конференции "Электронные библиотеки, перспективные методы и технологии, электронные коллекции", Пущино, 29 сентября-1 октября 2004 г С. 263271

4 Bezdushny А А , Bezdushny А N, Nesterenko А К, Serebriakov V А, Sysoev ТМ, "Integrated System of Information Resources of the Russian Academy of Sciences" // The 8th World Multi-Conference on Systemics, Cybernetics and Informatics - SCI 2004, Orlando, Florida, 2004, P. 462-467

5. Бездушный А.Н, КулагинМВ, Серебряков В А, БездушныйАА, Не-стеренко А.К., Сысоев Т M Предложения по наборам метаданных для научных информационных ресурсов // Статья в журнале "Вычислительные Технологии", Том 10, N 7, г. Новосибирск, 2005, С. 29-48

6 Сысоев Т M Служба управления содержанием системы ИСИР, основанная на XML технологиях. // Сборник трудов «Интегрированная система информационных ресурсов: Архитектура, реализация, приложения», ВЦ РАН, Москва 2004, С 112-133

7. Сысоев Т M Атрибутно-полнотекстовый поиск // Сборник трудов «Интегрированная система информационных ресурсов Архитектура, реализация, приложения», ВЦ РАН, Москва 2004, С 133-139

8. Sysoev Т M Indexing and Search Services in Integrated System of Information Resources of the Russian Academy of Sciences // Первый весенний коллоквиум молодых исследователей в области баз данных и информационных систем (SYRCoDIS'2004), Санкт-Петербург, 25-30 мая 2004 г. - СПб. • [б и.], 2004, С 57-60.

9. Сысоев Т M Этапы реализации распределенности в информационной системе «Научный Институт РАН» // Современные проблемы фундаментальных и прикладных наук. Труды XVLIII научной конференции / Моек физ.-техн. ин-т -М - Долгопрудный, 2005. С. 218-220

10 Сысоев Т M Технологии распределенных систем и информационная поддержка научных исследований // Сборник трудов международной конференции «Порядковый анализ и смежные вопросы математического моделирования», Владикавказ, июнь 2006, С. 115-118

11. Сысоев Т M Оптимизация распределенного поиска в ЕНИП на основе описателей коллекций // Современные проблемы фундаментальных и прикладных наук Труды XVLIII научной конференции / Моск. физ.-техн. ин-т. -М. - Долгопрудный, 2005 С. 247-249

12. Нестеренко А К, Сысоев ТМ, Бездушный АН, Серебряков В, А Автоматизация процессов интеграции распределенных информационных ресурсов // Сборник научных трудов VIII всероссийской научной конференции "Электронные библиотеки- перспективные методы и технологии, электронные коллекции" Суздаль-2006, С 279-290

13. Сысоев Т. М, НестеренкоА К, Серебряков В А, Бездушный А А Реализация системы распределенного поиска в среде ИСИР // Научный сервис в сети Интернет. Труды Всероссийской научной конференции, 2025 сентября 2004 г. Новороссийск, Изд-во МГУ, М., С. 115-117

Личный вклад автора в работы с соавторами заключается в следующем. описание моделей и подходов к построению распределённых информационных систем, алгоритмов их реализации, соответствующих комплексов программ и особенностей их практических применений

Сысоев Тимофей Михайлович

ИНТЕГРАЦИЯ И ПОИСК РАСПРЕДЕЛЁННЫХ ДАННЫХ НА ОСНОВЕ SEMANTIC WEB ТЕХНОЛОГИЙ

Подписано в печать 18.04 07 Формат 60 х 84 '/]б Печать офсетная Уел печ л 1,0 Уч -изд л 1,0 Тираж 80 экз Заказ №376

Государственное образовательное учреждение высшего профессионального образования Московский физико-технический институт (государственный университет)

НИЧ МФТИ

141700, Московская обл, г Долгопрудный, Институтский пер, 9

Оглавление автор диссертации — кандидата технических наук Сысоев, Тимофей Михайлович

Введение.

Актуальность исследований.

Цель исследований.

Научная новизна.

Практическая ценность.

Содержание работы.

Общая характеристика.

1 Подходы к интеграции данных.

1.1 Архитегауры интегрирующих систем.

1.2 Построение канонической схемы.

1.3 Обработка запросов.

2 Интеграция данных с помощью онтологий.

2.1 Описание информационных источников.

2.2 Понятия канонической схемы данных.

2.3 Вспомогательная метаинформация.

2.3.1 Индекс.

2.3.2 Описатель коллекции.

2.3.3 Поддержка обмена.

2.3.4 Управляющая информация.

2.4 Операции распределённой информационной системы.

2.4.1 Локальный поиск.

2.4.2 Совместный поиск.

2.4.3 Выгрузка данных.

2.4.4 Загрузка данных.

2.4.5 Индексирование.

2.4.6 Создание описателя.

2.4.7 Оценка запроса по индексу.

2.4.8 Оценка запроса по описателю.

2.5 Реализация операций.

2.5.1 Локальный поиск.

2.5.2 Совместный поиск.

2.5.3 Обмен данными.

2.5.4 Индексирование.

3 Применение разработанных моделей и технологий.

3.1 Применение в ЕНИП.

3.1.1 Статистическая информация.

3.1.2 Поиск.

3.1.3 Распределённый (совместный) поиск.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Сысоев, Тимофей Михайлович

Актуальность исследований

Вместе с повсеместным распространением сетевых технологий и Интернет значительно упростился доступ к данным, независимо от их физического местоположения. Это позволяет одновременно получить доступ к большому числу источников данных, связанных между собой каким-либо образом, и, с помощью объединения результатов запросов, получить полезную информацию, которая физически не хранится в одном источнике. Этот процесс автоматизируют системы интеграции данных, то есть такие информационные системы, которые предоставляют пользователю доступ к интегрированному представлению информации, содержащейся во множестве источников данных.

Задача интегрирования данных осложняется тем, что источники информации, как правило, являются автономными - они разрабатываются и поддерживаются независимо от приложений, которые могут их использовать. Архитектура таких источников, протоколы коммуникации и производительность определяются их владельцами. Информация в них может быть представлена в различных моделях данных: от реляционной или объектно-ориентированной до слабоструктурированных файлов (HTML/TXT). Источники работают на различных аппаратных платформах, используют различное программное обеспечение, имеют различные интерфейсы доступа (CGI,RMI,CORBA,SOAP).

В последнее время на подходы к интеграции данных большое влияние оказывает инициатива Semantic Web ([34]). В частности, в рамках этой инициативы были предложены формат данных (XML), модель данных (RDF) и стандарты описания схем данных (RDFS,OWL), которые позиционируются как средства обмена информацией, данными, и знаниями с учётом их семантики.

Цель исследований

Целью работы является разработка моделей и технологий создания информационных систем, предназначенных для поиска и интегрирования данных, содержащихся в распределённых неоднородных информационных источниках, с применением технологий Semantic Web. В работе исследованы и решены следующие задачи:

• Исследование и сравнительный анализ существующих подходов и моделей поиска данных и интеграции данных распределённых неоднородных информационных систем.

• Формализация основных операций в распределённой системе (поиск, совместный поиск, обмен).

• Создание моделей выполнения операций и разработка алгоритмов их реализации.

• Разработка технологии построения интегрирующей информационной системы на основе модели данных RDF/RDFS.

• Реализация компонентов информационной системы, соответствующей выбранным моделям, методам и технологиям в виде комплекса программ.

Научная новизна

В диссертационной работе получены следующие новые результаты:

• Разработана схема данных для информации, описывающей и классифицирующей интегрируемые источники данных;

• Произведено формальное описание операций поиска и обмена данными в распределённой информационной системе

• Разработана модель и алгоритмы выполнения указанных операций

Практическая ценность

Практическая ценность данной работы состоит в том, что разработанные модели и алгоритмы позволяют создавать интегрирующие информационные системы, эффективно решающие поставленные перед ними задачи. Предложенные решения были применены на практике в нескольких информационных системах, наиболее масштабной из которой на текущий момент является Единое Научное Информационное Пространство (ЕНИП) -инициатива, направленная на предоставление унифицированного доступа к интегрированной научной информации институтов РАН.

Содержание работы

В первой главе приведен обзор существующих методик построения систем, предоставляющих пользователям интегрированный доступ к данным, хранящимся в различных информационных источниках. Рассмотрены подходы к решению проблем, вызванных автономностью и разнородностью источников.

Во второй главе представляется подход к интеграции данных информационных систем, основанный на использовании онтологий источников данных. Приведены отличия данного подхода от классических методов, описаны используемые модели данных и метаданных, набор операций, и предложены алгоритмы их реализации.

В третьей главе описано применение разработанных решений на практике. Основное внимание уделено инициативе ЕНИП (Единое Научное Информационное Пространство) РАН.

В заключении приводятся основные результаты, полученные в рамках этой работы.

Общая характеристика

Диссертация состоит из введения, трёх глав, заключения, списка

Заключение диссертация на тему "Интеграция и поиск распределённых данных на основе Semantic Web технологий"

Заключение

Настоящая диссертационная работа посвящена вопросам интеграции и поиска распределённых данных на основе Semantic Web технологий. Основные результаты работы сводятся к следующему:

1. Проведено исследование и сравнительный анализ моделей и подходов к поиску и интеграции данных распределённых информационных систем.

2. Определён и формализован состав операций, связанных со спецификой распределённого поиска и обмена данными.

3. Разработаны модели и соответствующие им алгоритмы выполнения указанных операций; дана оценка их производительности

4. Предложена архитектура информационной системы, предназначенной для поиска и интеграции данных.

5. Разработаны и реализованы информационные компоненты, соответствующей выбранным моделям, методам и технологиям в виде комплекса программ для системы "Единое Научное Пространство РАН"

Библиография Сысоев, Тимофей Михайлович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Alon Y. Levy. Answering queries using views: A survey.University of Washington, 1999

2. C. Convey, O. Karpenko, N. Tatbul. Data Integration Services., 2001

3. M. Jarke, M. Lenzerini, P. Vassiliadis Y. Vassiliou. Fundamentals of Data Warehouses.Springer Verlag, 2000

4. M. Bonjour, G. Falquet. Concept Bases: A Support to Information Systems Integration.Proceedings of CAiSE94 Conference, Utrecht, 1994

5. S. Navathe, M. Donahoo. Towards Intelligent Integration of Heterogeneous Information Sources.In Proceedings of the 6th International Workshop on Database Re-engineering and Interoperability, 1995

6. A. Y. Levy. Logic-Based Techniques in Data Integration.In J. Minker, editor, Workshop on Logic-Based Artificial Intelligence, Washington, DC, 1999

7. Z. G. Ives, D. Florescu, M. Friedman, A. Y. Levy, D. S. Weld. An Adaptive Query Execution System for Data Integration. In ACM SIGMOD International Conference on Management of Data.Philadelphia, PA, 1999

8. Semantic Web Activity, http://www.w3c.org/2001/sw

9. RDF/XML Syntax Specification (Revised). W3C Working Draft, http://www.w3 .org/TR/rdf-syntax-grammar/

10. RDF Vocabulary Description Language 1.0: RDF Schema. W3C Working Draft, http://www.w3.org/TR/rdf-schema

11. DAML Language, http://www.daml.org/about.html

12. Ontology Inference Layer, http://www.ontoknowledge.com/oil

13. OMG UML Resource Page, http://www.omg.org/uml/

14. Tim Berners-Lee. What the Semantic Web can represent, http://www.w3.org/DesignIssues/RDFnot.html

15. Dublin Core Activity, http://dublincore.org

16. Knowledge Interchange Format, Genesereth M. draft proposed American

17. National Standard NCITS.T2/98-004, http://logic.stanford.edu/kif/dpans.html

18. H.Wache, T. Vogele, U. Visser, H. Stuckenschmidt, G. Schuster, H. Neumann, S. Hubner. Ontology-Based Integration of Information — A Survey of Existing Approaches.Intelligent Systems Group, Center for Computing Technologies, University of Bremen, 2001

19. Fabio Rilston Silva Paim, Jaelson F. B. Castro. Enhancing Data Warehouse Design with the NFR Framework. Valencia, Espanha, 2002

20. Georges Gardarin, Beatrice Finance, Peter Fankhauser. Federating Object-Oriented and Relational Databases: The IRO-DB Experience.Universite de Versailles-StQuentin, 1999

21. Wolfgang Benn, Yangjun Chen, Ingo Gringer. FSM: A Federated System Manager.Technical University of Chemnitz-Zwickau, 1997

22. Huiyong Xiao, Isabel F. Cruz. Integrating and Exchanging XML Data usingOntologies.University of Illinois at Chicago, 2006

23. Mourad Ouazzani, Athman Bouguetaya. Query Processing and Optimization on the Web.Department of Computer Science, Virginia Tech, 2004

24. Jeffrey Douglas Heflin. Towards the semantic web: knowledge representation in a dynamic, distributed environment.University of Maryland, 2001

25. Isabel F. Cruz, Huiyong Xiao. The Role of Ontologies in Data Integration.University of Illinois at Chicago, 2005

26. Francois Goasdou6, Marie-Christine Rousset. Querying DistributedData throughDistributed Ontologies: ASimple but ScalableApproach.Universite Paris-Sud, 2003

27. Heiner Stuckenschmidt. Modularization of Ontologies.Vrije Universiteit Amsterdam, 2003

28. Bernardo Cuenca Grau. Combination and Integration of Ontologies on theSemantic Web., 2005

29. C. Batini, M. Lenzerini. A Comparative Analysis of Methodologies for Database Schema Integration.Dipartimento di Informutica e Sistemistica,

30. University of Rome, Rome, Italy, 1986

31. Jeffrey D. Ullman. Information Integration Using Logical Views.Stanford University, 1997

32. AnHai Doan, Alon Y. Halevy. Semantic Integration Research inthe Database Community: A Brief Survey.American Association for Articial Intelligence, 2004

33. Li Xu, David W. Embley. Combining the Best of Global-as-View and Local-as-Viewfor Data Integration .Brigham Young University,

34. Andrea Cali, Diego Calvanese, Giuseppe De Giacomo, Maurizio Lenzerini. Data Integration under Integrity Constraints.Universita di Roma, 2002

35. Michael Boyd, Sasivimol Kittivoravitkul, Charalambos Lazanitis,Peter Mc. Brien and Nikos Rizopoulos. AutoMed: ABAV Data Integration System forHeterogeneous Data Sources.Dept. of Computing, Imperial College, London, 2004

36. Isabel F. Cruz, Huiyong Xiao, and Feihong Hsu. Peer-to-Peer Semantic Integration ofXML and RDF Data Sources.University of Illinois, Chicago, 2004

37. Sudarshan Murthy. Querying Heterogeneous Mediated Sources: A Survey., 2004

38. S. Bergamachi, S. Castano, A. Ferrara, F. Grandi, F. Guerra, G. Ornetti, M. Vincini. Description of the methodology for the integration of strongly heterogeneous sources, 2002

39. Heiner Stuckenschmidt, Frank van Harmelen. Information Sharing on the Semantic Web, Springer, 2003

40. Yannis E. Ioannidis. Query Optimization. University of Wisconsin, 1996

41. Lachlan M. Mackinnon, David H. Marwick, M. Howard Williams. A Model for Query Decomposition and Answer Construction in Heterogeneous Distributed Database Systems, Journal of Intelligent Information Systems 11, 69-87,1998

42. Jeff Z. Pan and Ian Horrocks. RDFS(FA): Connecting RDF(S) and OWL DL. ISWC2003,2003

43. Budi Yuwono, Dik L. Lee. Search and Ranking Algorithms for Locating Resources on the World Wide Web. The Ohio State University, 1996

44. Brendon Caoon, Kathryn S. McKinley. Perfomance Evaluation of a Distributed Architecture for Information Retrieval. University of Massachusetts, 1996

45. Steve Putz. Using a Relational Database for an Inverted Text Index. Palo Alto Research Center, 1991

46. Gregory Grefenstette, Pasi Tapanainen. What is a word, What is a sentence? Problem of Tokenization. Rank Xerox Reasearch Centre, 1993

47. Luis Gravano. Querying Multiple Document Collections Across The Internet, 1997

48. Norbert Fuhr. A Probabilistic Relational Model for the Integration of IR and Databases. University of Dortmund, Germany, 1993

49. Norbert Fuhr. Models for Integrateed Information Retrieval and Database Systems. University of Dortmund, Germany, 1996

50. O.Frieder, A. Chowdhuiy, D. Grossman, M. C. McCabre. On the Integration of Structured Data and Text: A Review of the SIRE Architecture. Illinois Institute of Technology, 2001

51. Karl Aberer, Philippe Cudre-Mauroux, Manfred Hauswirth. A Framework for Semantic Gossiping. Ecole Polytechnique, 2002

52. Arijit Sengupta. Toward the Union of Databases and Document Management: The Design of DocBase. 1998

53. Jan Jannick, Prasenjit Mitra, Erich Neuhold, Srinivasan Picjai, Rudi Studer, Gio Wiederhold. An Algebra for Semantic Interoperation of Semistructured Data. Stanfor University, 2000

54. Mike Uschold, Michael Gruninger. Ontologies: Principles, Methods and Applications. Knowledge Engineering Review, vol. 11, n.2,1996

55. Ammar Benabdelkader. Information Integration among Heterogeneous and Autonomous Applications, 2002

56. Tanja Sollazzo, Siegfried Handschun, Steffen Staab, Martin Frank. Semantic Web Service Architecture Evolving Web Service Standards toward the Semantic Web, 2001

57. Richard Vdovjak, Geert-Jan Houben. RDF Based Architecture for Semantic Integration of Heterogeneous Information Sources. Eindhoven University of Technology, 2001

58. Sriram Raghavan, Hector Garcia-Molina. Integrationg Diverse Information Management Systems: A Brief Survey. Stanford University, 2001

59. Helena Sofia Pinto, Joao P. Martins. Ontology Integration: How to perform the Process. Instituto Superor Technico, 2000

60. Diego Calvanese, Guiseppe De Giacomo, Maurizio Lenzerini. Ontology of integration and integration of ontologies. Universita di Roma, 2001

61. Alon Y. Levy, Anand Rajaraman, Joann J. Qrdille. Querying Heterogeneous Information Sources Using Source Descriptions. AT&T Laboratories, 1996

62. Philip Hepner. Integrating Heterogeneous Databases: An Overview. Deakin University, 1995

63. Susanne Busse, Ralf-Detlef Kutsche, Ulf Leser, Herbert Weber. Federated Information Systemts: Concepts, Terminology and Architectures.Technische Universitat Berlin, 1999

64. Ismail Khalil Ibrahim, Wieland Schwinger. Data Integration in Digital Libraries: Approaches and Challenges. Software Competence Center Hagenberg, 2000

65. William H. Wilson, Nadine Marcus, Graeme S. Halford. Access to Relational Knowledge: a Comparison of Two Models. University of New South Wales, 2000

66. Yannis Papakonstantinou, Vasilis Vassalos. Architecture and Implementation of an XQuery-based Information Integation Platofrm. University of California,2002

67. Gerd Stumme, Alexander Maedche. Ontology Merging for Federated Ontologies on the Semantic Web. University of Karlsruhe, 2001

68. Steve Easterbrook. Semantic Integration and Inconsistency. University of Toronto, 2004

69. Marco Schorlemmer, Yannis Kalfoglou. On Semantic Interoperability and the Flow of Information. The University of Edinburgh, 2003

70. Michel Klein. Combining and relating ontologies: an analysis of problems and solutions. Vrije Univesiteit, 2000

71. Amarnath Gupta, Bertram Ludascher, Maryann E. Martone. Registering Scientific Information Scources for Semantic Meditaion. University of California 2002

72. Farshad Hakimprour, Andreas Geppert. Resolving Semantic Heterogeneity in Schema Integration: an Ontology Based Approach. University of Zurich, 2001

73. Andrea Cali, Diego Calvanese, Giuseppe De Giacomo, Maurizio Lenzerini. Accessing Data Integration Systems through Conceptual Schemas. Universita di Roma, 2001

74. Jorge E. Lopez de Vergara, Victor A. Villagra, Julio Berrocal. Semantic Managemer: advantages of using an ontology-based management information meta-model. Universidad Politechnica de Madrid, 2003

75. Peter McBrien and Alexandra Poulovassilis. A Formalizsation of Semantic Schema Integration. King's College London, 1998

76. Farshad Hakimprour, Andreas Geppert. Ontologies: an Approach to Resolve Semantic Heterogeneity in Databases. University of Zurich, 2001

77. Catherine Houstis, Christos Nikolaou, Spyros Lalis, Sarantos Kapidakis, Vassilis Chrisophides. Towards a Next Generation of Open Scientific Data Repositories and Services. University of Crete, 1998

78. Santtu Toivonen. Using RDF(S) to provide multiple views into a single ontology. Sonera, Finland, 2001

79. Xiaomeng Su. A Text Categorization Perspective for Ontology Mapping. Norwegian University of Science and Technology, 2003

80. Ioannis G. Papakonstantinou. Query Processing in Heterogeneous Information Sources. 1997

81. Hector Garcia-Molina, Yannis Papakonstantinou, Dalian Quass, Anand Rajaraman, Yehoshua Sagiv,2 Jeffrey Ullman, Vasilis Vassalos, Jennifer Widom. The TSIMMIS Approach to Mediation: Data Models and Languages. Stanford University, 1997

82. Philip Homburg, Leendert van Doom, Maarten van Steen, Andrew S. Tanenbaum, Wiebren de Jonge. An Object Model for Flexible Distributed Systems. Vrije Universiteit, 1995

83. Kemafor Anyanwu, Amit Sheth. The p Operator: Discovering and Ranking Associations on the Semantic Web. University of Georgia, 2001

84. XML Schema 1.1. Part 2: Datatypes. http://www.w3 .org/TR/xmlschemal 1 -2/

85. Sibel Adali, Corey Bufi. A Flexible Architecture for Query Integration and Mapping. Rensselaer Polytechnic Institute, 1998

86. Alexander Steidinger. Comparison of different Collection Fusion Models in Distributed Information Retrieval. Free University of Berlin, 2001