автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.12, диссертация на тему:Методы и алгоритмы автоматизированной интеграции информационных ресурсов на основе онтологического подхода

кандидата технических наук
Семерханов, Илья Александрович
город
Санкт-Петербург
год
2014
специальность ВАК РФ
05.13.12
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы автоматизированной интеграции информационных ресурсов на основе онтологического подхода»

Автореферат диссертации по теме "Методы и алгоритмы автоматизированной интеграции информационных ресурсов на основе онтологического подхода"

На правах рукописи

Семерханов Илья Александрович

МЕТОДЫ И АЛГОРИТМЫ АВТОМАТИЗИРОВАННОЙ ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ РЕСУРСОВ НА ОСНОВЕ ОНТОЛОГИЧЕСКОГО

ПОДХОДА

Специальность 05.13.12 — Системы автоматизации проектирования (приборостроение)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

г з МАП 2СН

Санкт-Петербург - 2014

005549156

Работа выполнена на кафедре проектирования и безопасности компьютерных систем федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»

Научный руководитель: кандидат технических наук, доцент

Муромцев Дмитрий Ильич

Официальные оппоненты: доктор технических паук, профессор

Фетисов Владимир Андреевич, ФГАОУ ВПО «Санкт-Петербургский государственный университет аэрокосмического приборостроения», директор института аэрокосмических приборов и систем - декан.

кандидат технических наук, доцент Тарасов Валерий Борисович, ГОУ ВПО «МГТУ им. Н.Э. Баумана», заместитель заведующего кафедрой «Компьютерные системы автоматизации производства» по науке.

Ведущая организация: Федеральное государственное бюджетное

образовательное учреждение высшего

профессионального образования «Санкт-

Петербургский государственный политехнический университет»

Защита состоится 18 июня 2014 г. в 15:50 в ауд. 461 на заседании диссертационного совета Д 212.227.05 при Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики по адресу: 197101, Санкт-Петербург, Кронверкский пр., д. 49.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики и на сайте fppo.ifmo.ru.

Автореферат разослан «15» мая 2014 г.

Ученый секретарь диссертационного совета, к.т.н, доцент

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Развитие информационных технологий привело к созданию большого количества разнообразных гетерогенных автоматизированных информационных систем (КС) и, в частности, систем автоматизации проектирования (САПР), предназначенных для автоматизации бизнес процессов, хранения персональных, справочных и других типов данных, ведения отчетности и статистики. Такой отрасли как приборостроение также свойственно наличие различных ИС и всевозможных источников информации, например: систем хранения нормативно-справочных данных, классификаторов оборудования, материалов и так далее. В данной диссертационной работе термин ИС трактуется как понятие, описанное в федеральном законе №149-ФЗ от 27 июля 2006 года «Об информации, информационных технологиях и о защите информации»: информационная система — совокупность содержащейся в базах данных информации и обеспечивающих её обработку информационных технологий и технических средств. Таким образом, под информационной системой понимаются и всевозможные САПР, и различные СУБД, и другие системы автоматизации. Такие системы отличаются архитектурой, способами доступа, организации хранения и обработки информации, моделями данных и многим другим, однако, на практике, часто оказывается, что в какой-то степени они дублируют друг друга. Наиболее актуальными задачами развития ИС сейчас становятся обеспечение интероперабельности и интеграция между ними. Объем обрабатываемой информации постоянно растет и специалистам в области информационных технологий необходимо обеспечить эффективный обмен информацией между системами, но при этом избежать дублирования и потерю информации.

Под интеграцией данных в информационных системах понимается обеспечение единого унифицированного интерфейса для доступа к некоторой совокупности неоднородных независимых источников. Иными словами информационные ресурсы из всех распределенных источников, могут быть доступны для пользователя из любой интегрируемой системы или из единого интерфейса для доступа к данным. Системы, реализующие такие возможности, называются системами интеграции, и они избавляют пользователя или другую интегрируемую систему от сведений о том, из какого источника они получают информацию, каким образом осуществляется доступ и какими свойствами обладают эти источники.

Источниками распределенных данных могут быть как обычные системы управления базами данных, работающие на основе различных подходов: реляционные, обьектно-ориентерованные, объектно-реляционные, так и разнообразные системы, работающие на других технологиях. Таким образом, обеспечение доступа к данным из многих гетерогенных источников через единый интерфейс означает, по сути, создание единого

представления совокупности всех данных из множества независимых источников в рамках единой предметной области.

Проблематика решения этой задачи обусловлена тем, что информационные системы в большинстве случаев являются распределенными, т.е. физически удаленными друг от друга, сложными программными комплексами, с большим количеством информационных единиц. Помимо этого они строятся на различных технологиях с применением разных протоколов обмена. Эти факторы препятствуют построению единого унифицированного хранилища данных.

Традиционные методы решения этой задачи, чаще всего, работают на основе связей между элементами систем, построенных вручную, и реализуются в виде программного продукта, направленного на решение задачи интеграции для каждого конкретного случая. Этот подход занимает длительное время, в связи с тем, что необходимо провести детальный анализ каждой системы для выявления связей и зависимостей. Также, изменения структуры одной из системы, как правило, приводит к нарушению работы программного комплекса и требует повторного длительного анализа структуры. Таким образом, традиционные методы не предоставляют достаточно унифицированного и гибкого решения для создания системы интеграции данных, однако на практике чаще всего используются именно такие методы.

Другой важной задачей является обеспечение интероперабельности. Интероперабельноегь это способность информационной системы взаимодействовать с другими системами. Такое взаимодействие может выражаться в виде обмена данными или федеративного выполнения поисковых запросов. Актуальность проблемы обеспечения интероперабельности определяется тем, что она необходима как в новых, разрабатываемых системах, так и в уже существующих ИС, для реализации обмена данными и ресурсами. Эта задача тесно связана с задачей интеграции данных и играет в ней важную роль.

Можно разделить подходы к обеспечению интероперабельности на два вида: структурный и семантический. Структурный вид подразумевает структурное согласование различных элементов в ИС. Семантический - возможность установления связей между смыслами элементов в информационных системах. На данный момент большинство существующих методов и средств решения проблемы интеграции направлены на обеспечение структурной интероперабельности, без анализа семантических, или иными словами смысловых, свойств систем.

Таким образом, существует потребность в разработке новых способов обеспечения семантической интероперабельности информационных систем, а также в создании новых систем интеграции информационных ресурсов, что подтверждает актуальность диссертационной работы. Использование семантической интеграции в САПР в приборостроении, позволит повысить общий уровень автоматизации принятия решения, а также упростит процесс нахождения оптимальных решений. Необходимо разработать новые алгоритмы и программные продукты, которые смогли

бы обеспечить интеллектуальную интеграцию систем в единое информационное поле. Такие программные продукты должны быть унифицированными, надежными и достаточно простыми в использовании.

Одним из наиболее перспективных на данный момент методов интеграции является метод, основанный на использовании метаданных для описания информационных ресурсов. Этот метод тесно связан с технологией семантических сетей и одним из ее самых перспективных и развивающихся направлений -технологией связанных данных. Этот метод и технология и были положены в основу разработанного в рамках настоящей диссертационной работы программного решения для обеспечения семантический интероперабельности систем и интеграции, хранящихся в них данных.

Все вышесказанное определило цели и задачи диссертационного исследования.

Пели и задачи. Целью диссертационной работы является разработка новых методов и алгоритмов интеграции разнородных источников информационных ресурсов для увеличения эффективности их взаимодействия. Требуется разработать и научно обосновать новые алгоритмы обеспечения интероперабельности и семантической интеграции информационных систем, а также реализовать на их основе программный комплекс. Алгоритмы должны быть реализованы на основе исследований в области методологий и языков описания метаданных, а также современных семантических технологий, таких как связанные данные. Программный комплекс должен быть реализован с учетом различий современных платформ, а также неоднородности источников данных.

Для достижения поставленной цели в диссертационном исследовании были сформулированы следующие задачи:

1. Разработать метод автоматизированной интеграции информационных ресурсов, хранящихся в распределенных информационных системах, на основе онтологии;

2. Разработать алгоритм автоматизированного извлечения информации о структуре ИС в виде отологии из баз данных;

3. Разработать алгоритм для извлечения и представления в виде связанных данных семантических метаописаний информационных ресурсов;

4. Разработать метод автоматизированного нахождения сходных элементов в структуре интегрируемых систем, а также нахождения дублированных метаданных;

5. Разработать автоматизированную систему интеграции информационных ресурсов, реализующую разработанные алгоритмы, протестировать и сравнить с существующими системами.

Объект исследования. Гетерогенные источники информационных ресурсов.

Предмет исследования. Интеграция данных в гетерогенных информационных системах и обеспечение их семантической интероперабельности.

Методы исследования. Решение вышеперечисленных задач производится с применением основ теории информационных систем, теории искусственного интеллекта, методов машинного обучения, инженерии знаний и парадигмы представления знаний "семантическая сеть". Для реализации автоматизированной системы использован объектно-ориентированный подход.

Научная новизна диссертационного исследования заключается в новом подходе к интеграции информационных ресурсов в распределённых информационных системах, основанном на определении структурных моделей источников данных и формировании на их основе, с применением общей онтологии предметной области, единой метамодели интегрируемых систем. В работе получены следующие результаты, характеризующиеся научной новизной:

• Метод автоматизированного извлечения семантических метаданных информационных ресурсов из распределенных источников данных, использующий общую структурную онтологию, для определения семантических связей;

• Алгоритмы автоматизированного извлечения онтологии из распределенных информационных источников, с учетом схожести извлекаемых элементов и их семантических взаимосвязей;

• Архитектура программного решения, выполняющего интеграцию информационных ресурсов на основе технологии связанных данных и реализующего разработанные алгоритмы.

Положения, выносимые на защиту:

1. Разработан метод автоматизированной интеграции информационных ресурсов, хранящихся в распределенных информационных системах, заключающийся в последовательном извлечении структуры каждой ИС в виде онтологии, формировании на их основе, а также на основе онтологий предметной области и онтологий верхнего З'ровня, общей метамодели, и дальнейшем извлечении семантических метаданных информационных ресурсов из ИС, при помощи общей метамодели и механизмов логического рассуждения;

2. Разработан алгоритм извлечения онтологии из структуры реляционных БД в информационных системах, заключающийся в отображении таблиц и полей на онтологическую структуру и добавлении семантических взаимосвязей, на основе анализа схожести элементов БД по различным признакам;

3. Разработан алгоритм извлечения семантических метаданных информационных ресурсов, заключающийся в использовании общей структурной метамодели интегрируемых систем и механизмов логического

рассуждения, для определения смысловых взаимосвязей между ресурсами, и представления их в виде связанных данных;

4. Спроектирована программная автоматизированная система интеграции, реализующая разработанные алгоритмы и позволяющая объединить распределенные гетерогенные информационные ресурсы з единую сеть связанных данных.

Достоверность научных результатов. Обоснованность и достоверность научных положений подтверждается полнотой анализа теоретических и практических исследований, положительной оценкой на научных конгрессах, конференциях и семинарах, практической проверкой и внедрением полученных результатов исследований.

Практическая значимость. Реализованные в диссертационной работе методы, алгоритмы и программный комплекс позволяют интегрировать распределенные и разнородные информационные ресурсы в единое информационное поле. Использование интеллектуальной семантической интеграции нормативно-справочной информации, данных об оборудовании, существующих изделиях и другой полезной информации в приборостроении, позволит осуществлять семантический поиск по всему объему данных. В результате применения такого подхода повысится общий уровень автоматизации и уменьшится время проектирования за счет передачи некоторых задач по анализу исходных данных механизмам логического рассуждения. Также, в связи с созданием единого интерфейса для доступа к данным упростится процесс подключения новых информационных систем к общей инфраструктуре предприятия.

Апробация работы. Основные положения диссертационного исследования докладывались и обсуждались на международных и всероссийских конгрессах и конференциях различного уровня:

1. Российская конференция аспирантов, студентов и молодых ученых «Информатика и вычислительная техника», 25 - 26 мая 2010 г., г. Ульяновск, Россия.

2. XII международная научно-практическая конференция «Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности», 8-10 декабря 2011 г., г. Санкт-Петербург, Россия.

3. Международная конференция «Современные проблемы и пути их решения в науке, транспорте, производстве и образовании '2011», 20-27 декабря 2011 г.

4. I Всероссийский конгресс молодых ученых, 10-13 апреля 2012 г., г. Санкт-Петербург, Россия.

5. Международная научно-практическая конференция «Перспективные инновации в науке, образовании, производстве и транспорте '2012», 21 июня - 3 июля 2012 г.

6. XII Conference of Open Innovations Association FRUCT, 5-9 ноября 2012 г., г. Оулу, Финляндия.

7. II Всероссийский конгресс молодых ученых, 9-12 апреля 2013 г., г. Санкт-Петербург, Россия.

8. XLIII научная и учебно-методическая конференция НИУ ИТМО, 8—31 января 2014 г., г. Санкт-Петербург, Россия.

Внедрение результатов исследования. Основные результаты работы внедрены и используются в ООО «Т-Системс СиАйЭс» и в ОАО «Всероссийский научно-исследовательский институт гидротехники имени Б.Е. Веденеева», что подтверждается актами о внедрении. Результаты работы также используются на кафедре проектирования и безопасности компьютерных систем в НИУ ИТМО, что подтверждается актом внедрения в учебный процесс.

Публикации. По тематике диссертации опубликовано двенадцать работ, в том числе три работы входят в список, рекомендованный ВАК для защиты кандидатских диссертаций. Было получено два свидетельства о регистрации программы для ЭВМ №2011612823 и №2013661205.

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, изложенных на 140 листах машинописного текста, содержит 36 рисунков и 18 таблиц. Список литературы включает 79 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, сформулированы цель и задачи работы, показана научная новизна полученных результатов и практическая ценность работы, представлены основные научные положения, выносимые на защиту, кратко изложено основное содержание работы.

В первой главе производится обзор современных тенденций в области решения задачи интеграции и обеспечения интероперабельности информационных систем. Рассматриваются понятия интеграции данных в ИС, актуальность этой задачи и проблемы, возникающие при ее решении. Дается определение интероперабельности, ее виды и пути достижения. В главе производится обзор трех поколений решений этой задачи и выделяется наиболее современное на данный момент решение, основанное на использовании онтологий и связанных данных. Также представлена классификация подходов к интеграции, включающая в себя шесть различных уровней. Приведен анализ современных технологий для достижения желаемого уровня

интеграции и поставлена задача разработки новых методов и алгоритмов автоматизированной интеграции.

Технически задача интеграции может решаться на нескольких уровнях: физическом, синтаксическом, семантическом. Интеграция на физическом уровне теоретически является наиболее простой и с развитием современных технологий, в частности, сетевых технологий, не представляет особого интереса для исследования. Синтаксическая интеграция подразумевает создание единого глобального интерфейса для доступа к ресурсам гетерогенных систем, без учета их семантических свойств. Семантический же уровень интеграции добавляет к синтаксическому уровню поддержку семантических свойств в рамках единой онтологии предметной области. В работе будут рассматриваться синтаксический и семантический уровни интеграции.

Существует несколько методов интеграции данных, их можно разделить на две группы: методы консолидации данных и методы виртуализации данных. Методы первой группы направлены на физический перенос всей информации из источников в единую базу данных, тогда как методы второй группы подразумевают создание только виртуального интерфейса для доступа к информации без ее физического переноса. Таким образом, задача интеграции сводится, по сути, к созданию единого унифицированного интерфейса или хаба для доступа к совокупности гетерогенных распределенных источников.

Для интеграции данных, существует большое количество разнообразных технологий, однако почти все они направлены на решение структурной составляющей задачи интеграции, без учета семантики интегрируемых ресурсов. Один из перспективных методов решения задачи обеспечения семантической интероперабельности - метод, основанный на использовании метаданных. Метаданные это данные о данных, описывающие их, при помощи которых можно реализовать информационное поле, содержащие информацию обо всех интегрируемых системах, а также хранящихся в них данных. Развитием этой идеи является подход, основанный на так называемых связанных данных. Связанные данные это метод публикации открытой структурированной информации в сети интернет таким образом, что она может быть легко связана с другими данными и использоваться более эффективно. Публикуются метаданные в сети при таком подходе при помощи документов в формате RDF с использованием унифицированного идентификатора ресурсов URI дня идентификации элементов, которые они содержат.

Такой метод основан на виртуальном подходе к представлению информации и предлагает вместо синхронных и асинхронных запросов к распределенным хранилищам данных, использовать глобальное информационное пространство, основанное на связях и отношениях между ресурсами. В данной работе предлагается использовать именно этот метод для обеспечения семантической интероперабельности и интеграции ИС.

Вторая глава посвящена использованию семантических технологий и, в частности, связанных данных, для решения задачи интеграции данных в ИС и обеспечения семантической интероперабельности. В главе приводится понятие онтологии предметной области, выделяются преимущества, которые дает ее использование. Рассматриваются современные стандарты обеспечения интероперабельности, такие как семейство стандартов IDEF и один из его представителей - стандарт онтологического исследования сложных систем IDEF5. В главе детально раскрывается термин связанные данные, производится анализ языков представления данных и методов описания метаданных. Показано, что связанные данные могут решить множество традиционных проблем, а интегрирующие системы, основанные на них, могут быть эффективнее традиционных систем.

Для обеспечения семантической интероперабельности следует использовать не только знания о структуре интегрируемых автоматизированных информационных систем, но и знания об отдельных элементах системы и их назначении. Иными словами, необходимо также оперировать метаданными, извлеченными из систем. Кроме этого, следует также обращаться к общим знаниям из предметной области, в которой работают эти системы. Наиболее удобным механизмом для описания общих знаний о предметной области является онтология.

В информационных технологиях под онтологией понимают модель данных, используемую для представления знаний о предметной области и для определения связей между объектами, находящимися в ней. Онтологию определяют также как формальную, явную, спецификацию концептуализации, т.е. формальное описание предметной области.

В формальном виде ее можно описать следующим множеством:

0= {{Г}. {ЯШ}. (1)

где /Ту - множество понятий, терминов или концептов, в предметной области, определяющих онтологию О; {R} - множество отношений между концентами предметной области; {F} - функции, которые связывают множества концептов и отношений, на которые они ссылаются в онтологии О.

Для описания семантики объектов в онтологии используют семантические метаописания, однако одно семантическое метаописание не может охватить объем-целиком. В формальном виде метаописания можно выразить как:

Щ = Tt и Ехь (2)

где Ti - множество терминов в оитологии, связанных с объектом i; Ex, -множество экземпляров терминов в онтологии О.

Для разработки онтологий существуют различные средства и языки описания, например стандарт онтологического исследования IDEF5, язык KIF и другие, однако в диссертационном исследовании предлагается использовать модель данных RDF,

RDFs и язык OWL. из стека технологий семантики веб. На рисунке I изображен стск технологий семантической сети и место RDF, RDFs и OWL в нем.

1 ogtc

RDF«

RDf

Е

ис-1

Глобальная метамодель

ИС-2

ИС-3

Подход на основе глобальной метамодель

Онтология приложения

И

C5EJ

Онтология приложения

Онтология приложения

Рисунок I. Технологии семантик веб

С точки зрения интеграции данных в ИС существует три направления использования онтологии. Во всех трех случаях информация об интегрируемых системах представляется в виде онтологии приложения, однако в первом варианте предлагается использовать

единственную общую глобальную модель, содержащую в себе все термины и свойства интегрируемых систем. Другой вариант основан на использовании нескольких онтологий приложений, для каждой из систем. А последний вариант является гибридным способом, предлагающим использовать, как общую модель, содержащую базовые общие понятия для всех систем, так и локальные онтологически модели. На рисунке 2 изображены все три направления. В диссертационной работе предлагается использовать гибридный поход, расширяя глобальную метамодель онтологией предметной области, в которой работают системы, а также онтологиями верхнего уровня.

Таким образом, можно информацию в интегрируемых ИС выразить в виде облака связанных данных. Связанные данные

Подход на основе онтологий приложений

Гибридный подход

Рисунок 2. Варианты использования онтологий при интеграции данных

объединяют данные из распределенных источников, предоставляют возможности для создания новых взаимосвязей между ними, и обогащают данные с помощью ссылок на внешние онтологии. Такие возможности позволяют преодолеть известные ограничения поиска и неточность поиска по ключевым словам, позволяя сравнивать информацию из разных источников, подключая понятия из других предметных областей. Также, интерфейс на основе семантически связанных данных способствует созданию дополнительных программных продуктов, дающих обширные возможности по анализу всей хранимой в интегрируемых системах информации.

В третьей главе представлены разработанные в рамках работы методы и алгоритмы автоматизированной интеграции данных на основе онтологии, в том числе метод автоматического извлечения метаописаний из баз данных и представления их в виде облака связанных данных, включающий в себя нахождение связей между системами. Разработан алгоритм для извлечения структуры базы данных ИС в онтологию, показаны подходы к автоматическому обнаружению схожести структуры, а также способ отображения соответствий между схемами в извлеченной структуре. В главе также предлагается алгоритм для извлечения хранимых данных из ИС и описания их средствами онтологии. Показана общая единая модель описания метаданных в системах.

Для достижения поставленной цели - интеграции информационных ресурсов на основе онтологических моделей и технологии связанных данных, в диссертационном исследовании был разработан метод извлечения данных из интегрируемых ИС и представления их в виде онтологии. В связи с тем, что в современных информационных системах, чаще всего, в качестве хранилища данных используются реляционные базы данных, такие как Oracle, MSSQL Server, MySql, описанный метод направлен на решение наиболее актуальной задачи извлечения информации из реляционных СУБД, использующих гетерогенные ИС как интерфейсы.

Разработанный метод состоит из четырех этапов:

1. Структурная онтология приложения. Извлечение информации о структуре каждой из интегрируемых ИС в онтологическом формате;

2. Общая структурная онтология приложений. Объединение полученных онтологий структуры в общую структурную онтологическую информационную модель;

3. Глобальная метамодель интегрируемых систем. Создание на основе онтологий верхнего уровня, онтологии предметной области и общей структурной онтологии глобальной метамодели, описывающей семантические отношения между интегрируемыми ИС;

4. Онтология интегрируемых данных. Извлечение из БД семантических метаописаний информационных ресурсов, хранящихся в них при помощи глобальной метамодели и механизмов автоматизированного логического принятия решений.

Рисунок 3. Двухступенчатое извлечение онтологии структуры БД

Первый этап процесса по извлечению семантических метаописаний из баз данных состоит из двух ступеней, изображенных на рисунке 3.

Сначала происходит первичная трансляция структуры таблиц в структуру RDF, названия таблиц становятся классами, а поля таблицы - свойствами. Далее, получившаяся начальная онтологическая модель, обогащается за счет связывания между собой классов и свойств, средствами расширения RDFs и становится онтологией. На выходе получается онтологическая модель структуры одного из интегрируемых приложений, и процесс повторяется для следующей ИС.

На следующем этапе в методе подразумевается объединение разрозненных метамоделей в одну единственную общую онтологическую модель структуры ИС. Для этой цели в каждой онтологии приложения создается уникальный префикс интегрируемой системы, на основе механизма пространства имен, а также производится автоматический анализ всех элементов внутри извлеченных онтологий с целью нахождений связей между ними.

На третьем этапе получившаяся общая онтология еще больше расширяется и превращается в глобальную метамодель за счет импорта понятий и отношений из заранее подготовленной онтологии предметной области, а также из общих верхнеуровневых онтологий. В формальном виде такую модель можно представить как двойку:

G = {{ВД}}, (3)

где G - глобальная онтологическая метамодель, {X} - множество терминов интегрируемых систем и терминов предметной области, {R} - множество отношений между терминами в системах.

Глобальная метамодель играет по сути роль словаря, хранящего в себе информацию о структуре интегрируемых систем. На основе этого словаря на

четвертом этапе из источников данных извлекаются семантические метаописания самих хранимых ресурсов. Благодаря прописанным в общей метамодели свойствам, связывающим различные таблицы и их поля в БД, сделать это намного проще при помощи механизмов логического рассуждения. Такие механизмы, используя логику первого порядка и общую онтологическую модель структуры, сами строят рассуждения и добавляют нужные семантические связи в извлекаемые метаданные. Синтаксис и семантика дескрипционных логик, используемых для описания онтологии, построены таким образом, что основные логические проблемы являются разрешимыми, поэтому вывод новых знаний можно осуществлять компьютерными средствами, автоматически. В итоге, на выходе получается полная онтология, содержащая информацию о структуре ИС, или иными словами понятийную часть, и метаописания ресурсов, хранимых в системах, содержательную часть.

В исследовании также были разработаны алгоритмы для реализации представленного метода:

• алгоритм отображения информации о структуре БД;

• алгоритм извлечения информационных ресурсов из БД.

Задачей первого алгоритма является превращение структур баз данных интегрируемых ИС в онтологическую модель. В реляционных базах данных информация о структуре и связях между структурными элементами хранится в схемах данных, именно эти схемы необходимо извлечь в ходе работы алгоритма. Однако, анализа самой схемы достаточно только для обеспечения структурной интероперабельности. Для достижения семантической интероперабельности при извлечении схемы данных нужно также учитывать смысловое назначение этих элементов.

Входными данным для алгоритма являются:

1. Структурные схемы баз данных интегрируемых ИС;

2. Онтология предметной области ИС.

Выходными данными является общая онтологическая модель, которая описывает структуру интегрируемых ИС в рамках их предметной области.

Формализованный алгоритм извлечения онтологии из структуры БД показан на рисунке 4.

Дано: 5Х = {ТВХ,ТВ1,..., ТВп], 52 = {ТВг,ТВ[.....ТВк}, где: S, и схемы БД,

ТВ/ - ¡-ая таблица в схеме.

ТВ[ ={ЛГ1,Л7}.....АТт}, где /17} - атрибуты таблицы.

■5\ и 52 принадлежат ИС-1 и ИС-2 соответственно.

Алгоритм извлечения общей онтологии из структуры БД интегрируемых ИС, будет состоять из пяти шагов:

Начало

Отображение структуры БД в RDF

Добавление семантических свойств и превращение в

онтологию

+-

Импорт верхнеуровневых онтологии и онтологии ПО

Шаг 1. «Структурное отображение»: Последовательное отображение схем и S, в RDF формат. ТВ,—► 7}, ATj—>Aj, где Г/ - концепты онтологии, описанные при помощи RDF, Aj - свойства концептов в онтологии.

Шаг 2. «Автоматическое добавление связей»: Добавление семантических свойств Pj путем автоматического анализа структуры БД на схожесть.

Шаг 3. «Обогащение»: Импорт верхнеуровневых олтологий, при помощи свойства OWL owlAmport. Благодаря правилу транзитивности в RDF, дополнительные онтологии расширяют предметные области и добавляют новые концепты и свойства.

Шаг 4. «Ручное добавление связей»: Редактирование извлеченной онтологии при помощи редактора онтологии, например Protégé, и добавление связей между концептами

- R,,

Шаг 5. «Вывод»: Запись получившейся общей онтологии о структуре ИС в файл или хранилище метаданных в формате RDF.

Другой разработанный в диссертации алгоритм основывается на использование, ранее извлеченной, глобальной онтологической метамодели интегрируемых систем, включающей онтологии верхнего уровня и онтологии предметной области. На вход алгоритм получает:

1. Информацию о хранимых в БД ресурсах;

2. ГлобальЕгую онтологическую метамодель.

На выходе создается метамодель, объединяющая в себе как понятийную часть, так и содержательную часть онтологии, иными словами информацию о структуре интегрируемых систем и хранимые в них ресурсы. Формализованный алгоритм представлен на рисунке 5.

Дано: ТВ = {V^Vc, ...,Vn}, где ТВ - таблица в интегрируемой ИС, Vt - записи в таблице.

Алгоритм извлечения метаданных ресурсов из ИС состоит из 5 шагов:

Шаг 1. «Добавление глобальной метамодели». Импорт извлеченной ранее глобальной онтологии или метамодели структуры интегрируемых ИС.

Шаг 2. «Отображение записей» Извлечение каждой записи Vt из каждой таблицы ТВ в интегрируемых ИС.

ШагЗ. «Анализ сходных записей» Анализ схожести извлеченных записей в таблицах между собой и добавление семантических свойств skos:closeMatch, skos:narrowMatch, skos:exactMatch.

Редактирование онтологии

С

Конец

Рисунок 4. Алгоритм отображения структуры БД

с

Начало

Импорт созданной онтологии сруктуры интегрируемых ИС

Шаг 4. «Логическое рассуждение» Добавление новых семантических свойств, при помощи логического анализатора, работающего на основе дескрипциопных логик из импортированной онтологии.

Шаг 5. «Вывод результата». Запись созданной онтологии метаданных ресурсов и структуры ИС в виде RDF документа в файл или в RDF хранилище.

Во всех представленных алгоритмах реализуется автоматическое добавление семантических связей за счет анализа структуры интегрируемых схем и хранимых ресурсов. Существует несколько подходов для отображения элементов базы данных друг на друга, описанпых в работах Эрхарда Рама и Филиппа Бернштейна. В исследовательской работе предлагается использовать метод, основанный на анализе сходных элементов на основе гибридного подхода, объединяющего в себе анализ строк, естественного языка и ограничений схем базы данных.

При автоматизированном анализе элементов интегрируемых ИС делается допущение, что все текстовые описания элементов в той или иной степени несут в себе некоторую семантическую или смысловую составляющую. Таким образом, задача заключается в вычислении нескольких примитивных функций, определяющих схожесть атрибутов.

Пусть существуют схемы S и Е: S = {ЛТг,АТи ...,АТп) и Е = {Bi,BJ,...,Bm},

где S и Е- схемы БД, AT, и Bj- атрибуты схемы.

Извлечение информационных ресурсов из ИС

Добавление семантических свойств на основе анализа схожести

ДоБавление семантических

свойств при помощи логического анализатора и онтологии

Вывод метаданных

ресурсов в виде RDF

Конец

вероятности совпадения каждого атрибута по некоторой функции:

Рисунок 5. Алгоритм автоматизированного извлечения

ПАТг ** ВО = раШ1

/№ *-> В2) = рапЬ2 (4)

/04Г2 о ВО = раПЬ1 /(ЛГ2 « й2) = Ра£2£>2 Для каждого вида атрибутов и признаков, по которым их оценивают, используется отдельная функция. Сравнение необходимо производить, как по признакам с небольшим весом, таким как совпадение типов данных у двух атрибутов, так и по более важным признакам. Так, например, при анализе структурных элементов, необходимо анализировать названия таблиц и полей из двух интегрируемых схем. При анализе же хранимых ресурсов, следует сравнивать сами данные. Иными словами, возникает задача сравнения строк. Для ее решения, в работе

предлагается использовать метрики схожести строк, в частности коэффициент Серенсена-Дайса.

В общем случае он имеет следующий вид:

_ 2Хп(ХпУ) Р ~~ п(Х)+п (У)' ®

гдер - коэффициент похожести строк, 0 < р < 1, X и У - сравниваемые строки, п(а) - функция, вычисляющая количество символов в строке а.

Однако, в таком виде этот коэффициент не целесообразно применять для сравнивания строк при большой длины исходных данных и ограниченной длинны алфавита. Поэтому предлагается расширить данный коэффициент, при помощи использования ]У-граммов. Такой подход позволит оперировать уже не отдельными символами в строке, а набором символов, что позволит находить совпадения наиболее точно. Пусть существует некоторый алфавит:

АВ={11.....1,1 (6)

где 1, - отдельный символ алфавита. В таком случае языком ЦАВ) на алфавите АВ называется множество цепочек конечной длины, состоящих из символов АВ. Высказыванием называется отдельная цепочка на языке ¿(АВ), а ЛГ-граммом в алфавите АВ, таким образом, называют цепочку длинной и. Лг-грамм может совпадать с некоторым высказыванием, входить в него или не входить вообще в язык. При разбиении строки, необходимо использовать, так называемый, метод шинглинга, который позволит создать пересекающиеся Диграммы.

Таким образом, используя ^-граммы вместо символов в коэффициенте Серенсена-Дайса, можно привести его к следующему виду:

_ 2 xNgrams(X)C\Ngrams(Y) Р ~ Идга.т${Х)+Ыдгатз(У) ' ^

где р - коэффициент похожести строк, 0 <р< \,Х и У - сравниваемые строки, гаш(Х') - функция, вычисляющая длину Л'-грамм цепочки от строки X.

Использование не отдельных символов, а целых словосочетаний, позволяет уменьшить количество ложных срабатываний при анализе сходных текстовых строк.

Разработанный метод предлагается использовать, как для сравнения названий таблиц и их полей, так и данных, хранящихся в интегрируемых БД. Однако существуют и другие примитивные функции, которые необходимо использовать для сравнения атрибутов схем. Так, необходимо использовать следующие функции:

• функция сравнения элементов по типу данных. В связи с тем что, различные реляционные данные используют различающиеся типы данных, необходимо составить таблицу соответствий;

• функция сравнения по аннотациям и описаниям;

• функция сравнения с использованием опорных слов. Используя онтологию предметной области, как словарь опорных слов, можно находить соответствия между элементами при помощи этого словаря.

В результате анализа, получается набор коэффициентов соответствий для разных атрибутов по некоторым признакам, обладающим различными весами и':

х[т(5, Е) = (8)

где ыт&Е) — соответствие схем 5 и /Г; р„ - коэффициент соответствия но некоторому признаку т\ - вес признака.

Веса для каждого признака определяются вручную, либо при помощи метода машинного обучения - стэкинга. Для определения общей вероятности соответствия элемента схемы базы данных по совокупности соответствий атрибутов предлагается использовать линейную функцию:

51'т(5, Е) = р2*Ы2+ рп* ^п (())

Описанным методом автоматизированного анализа на схожесть можно найти соответствие структур интегрируемых ИС, а также дубликатов при извлечении самих информационных ресурсов из баз данных.

В главе также проведена оценка вычислительной сложности алгоритмов и показано что они имеют полиномиальную сложность, следовательно, алгоритмы можно применять на практике для решения задач интеграции ИС.

Четвертая глава посвящена разработке программного комплекса на основе разработанных алгоритмов. Определены требования к автоматизированной системе, основанные на анализе существующих решений. Приведена функциональная модель разрабатываемой системы. В главе также представлена архитектура предлагаемого решения и некоторые сценарии использования. Произведено тестирование созданной автоматизированной системы и анализ полученных результатов работы.

Для реализации описанных в диссертационной работе методов и алгоритмов была спроектирована программная система, предназначенная для извлечения информационных ресурсов из реляционных баз данных и представления их в виде связанных данных. Система автоматически производит отображение информации, хранящейся в распределённых, интегрируемых системах, в онтологическую модель. Она также предоставляет интерфейс для доступа к полученной модели, как к связанным данным, реализуя тем самым онтологический подход для доступа к данным.

В соответствии с определенными функциональными требованиями была разработана функциональная модель автоматизированной системы. Для разработки модели использовалась методология ЭАОТ из стандарта ШЕРО. Диаграмма модели экспорта онтологии структуры, интегрируемых ИС показана на рисунке 6.

Рисунок 6. Диаграмма модели экспорта онтологии структуры

Была также разработана модель извлечение семантических метаданных на основе онтологии структуры, диаграмма которой показана на рисунке 7.

Извлечение итедэниьи еесуосов

т*

на I

Добаьлен.15

семантических

связей

Добавление семантически* связей на основе лопмемнкрэссуяадвний

Рисунок 7. Диаграмма модели извлечения семантических метаданных

С точки зрения архитектуры система состоит четырех модулей:

• К21ШаррегСоге - функциональное ядро, реализованное как в виде программной библиотеки, так и в виде самостоятельного приложения;

• Р.21Шаррег\¥1 - графический веб интерфейс для работы с программой;

• К2ЯМаррегВа1сЬ - модуль, отвечающий за обновление извлекаемой из систем информации по расписанию;

• МагсЫт^ОВ - квитирующее хранилище типа «ключ - значение» актуальной информации о связях между ИС.

Общая архитектурная схема системы, включающая в себя все четыре модуля, представлена на рисунке 8. Как видно из схемы, ключевым элементом является ядро системы, которое включает в себя два подмодуля: логический анализатор и автоматизированный анализатор на схожесть. Логический анализатор, по сути, ни что иное, как программный механизм логического рассуждения, предназначенный для

установления семантических связей в извлекаемых метаданных. Логический анализатор на схожесть, реализует описанный в данной работе способ анализа извлекаемых структурных элементов. Он также предназначен для обнаружения дублирующийся информации.

Рисунок 8. Общая архитектура системы

Модуль R2RMapperCore является ключевым элементом всей системы и реализует основной функционал:

• Соединение с интегрируемыми системами;

• Отображение информации о структуре БД в RDF формате;

• Анализ схожих элементов системы и добавление семантических свойств;

• Извлечение семантических метаданных информационных ресурсов.

В данном модуле использовались технологии из стека Java SE7, а также различные фреймворки для работы со сторонними системами и онтологиями.

Подмодуль, отвечающий за анализ элементов и извлекаемых метаданных на схожесть, работает согласно предложенному в исследование методу. Сравнение происходит по нескольким признакам с учетом их веса. Наиболее высокий вес у функции сравнения строк. По умолчанию эта функция работает на основе модифицированного коэффициента Серенсена-Дайса с разделением строк на Диграммы. Однако в подмодуле реализованы также и другие алгоритмы сравнения строк, в частности коэффициент Танимото и расстояние Дамерау-Левенштейна. Другой функцией сравнения является сравнение по типам данным. Для ее реализации были созданы таблицы соответствий типов данных различных СУБД и XSD типов данных.

Модуль R2RMapperWi был разработан в качестве веб интерфейса для системы R2RMapper. Он использует ядро R2RMapperCore в качестве библиотеки и реализует весь его функционал через веб браузер. Приложение работает па сервере приложений RedHat JBoss AS7, стабильном и хорошо зарекомендовавшем себя решении. Для повышения производительности также используется кеширующее хранилище типа «ключ-значение» Redis, которое хранит все необходимые для работы приложения данные в ОЗУ. Такой подход избавляет от необходимости обращаться к реляционной СУБД каждый раз, а значит ускоряет работу. Архитектура модуля представлена на рисунке 9.

R2Rf,1apperCore

R2Rf,ïapperBatcft

R2RMapperWi

Уровень приложения

JSF + Pnmeiaces"

бизнес логика

Кошшие! безопасности

3

Уровень промежуточного ПС

Сервер 1 с2—i Сервер 2

PostgtsSQL

Рисунок 9. Архитектура модуля R2RmapperWi

Модуль R2RMapper Batch был создан для вызова функций ядра R2RMapperCore по расписанию. Основное предназначение - создание системы постоянного обновления хранилища связанных данных новыми метаданными ресурсов из интегрируемых ИС.

Общий алгоритм работы автоматизированной системы интеграции информационных ресурсов включает в себя разработанные в ходе исследования алгоритмы извлечения структуры интегрируемых ИС и извлечения метаданных информационных ресурсов. Изначально метод, представленный в работе, подразумевает последовательное выполнение данных алгоритмов, поэтому для их

реализации в программной системе они были объединены в алгоритм, представленный на рисунке ¡0.

Рисунок 10. Общий алгоритм работы системы

В главе также приводится пример работы программы и производится тестирование. Важным критерием было время извлечения семантических метаданных. Измерение времени производилось на базе данных Oracle llg, на стационарной машине Intel П-3770 с 8 Гб ОЗУ. Проверка осуществлялась на таблицах объемом пять тысяч, пятнадцать тысяч и пятьдесят тысяч записей. Результаты экспериментального анализа представлены на рисунке 11.

2 4000

>2 вооо

£

II 2000

5000 записей

15000 записей 50000 записей

5 без кеширования 1с кешированием

Рисунок 11. Время извлечения метаданных Как видно из графика при первоначальном извлечении без квитирования время выполнения сильно зависит от количества обрабатываемых данных - с ростом количества записей растет и время работы. Однако, при использовании кеширования, время выполнения значительно уменьшается.

Другим протестированным показателем является количество обработанных ЭРАЯОЬ запросов в секунду. Этот параметр во многом является более важным чем предыдущий, потому что в отличии от извлечения онтологии, которое происходит не постоянно, запросы к онтологии должны обрабатываться без задержек, в несколько потоков и постоянно. Результаты анализы показаны на рисунке 12.

О '

100 миллионов записей 1200 миллионов записей

О 4-

8 пользователей

64 пользователя

Рисунок 12. Количество запросов в секунду Разработанная система также сравнивалась с альтернативными системами по функциональным особенностям. Было показано, что разработанное ПО имеет ряд

особенностей, в частности функционал автоматического анализа сходных элементов и добавление семантических связей в извлекаемые метаданные при помощи встроенных автоматизированных механизмов логического рассуждения. Особенности разработанной системы определяют ее новизну, новизну используемых в ней алгоритмов и место среди других систем интеграции.

В заключении подведен итог всей проделанной работы и приведены основные полученные результаты в ходе выполнения диссертационной работы.

В приложении приведены документы, подтверждающие внедрение и использование полученных в работе результатов на производстве и в учебном процессе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ

На основании полученных результатов диссертационной работы можно сделать вывод, что цель диссертации, сформулированная во введении, достигнута и поставленная задача решена.

Основные научные и практические результаты диссертационной работы:

1. Разработан метод автоматизированной интеграции информационных ресурсов, хранящихся в распределенных информационных системах, на основе онтологий;

2. Разработан алгоритм автоматизированного извлечения информации о структуре ИС в виде отологии из баз данных;

3. Разработан алгоритм извлечения и представления в виде связанных данных, семантических метаданных информационных ресурсов на основе онтологии структуры и механизмов логического рассуждения;

4. Разработан метод автоматизированного нахождения сходных элементов в структуре интегрируемых систем, а также обнаружения дубликатов в извлекаемых метаданных;

5. Спроектирована архитектура и разработана автоматизированная система семантической интеграции распределенных информационных ресурсов.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Опубликовано в рецензируемых изданиях из списка ВАК:

1. Семерханов И.А., Варгип Г.В., Муромцев Д.И. Применение онтологий в системе управления интеллектуальными ресурсами // Научно-технический вестник информационных технологий, механики и оптики. - Санкт-Петербург. -2011. - №2. С.170-171. - 0,04 п.л.

2. Семерханов И.А., Муромцев Д.И. Интеграция информационных систем при помощи связанных данных // Научно-технический вестник информационных технологий, механики и оптики. - Санкт-Петербург, 2013. - №5 (87). С. 123-128.-0,25 п.л.

3. Семерханов И.А Автоматизированное извлечение семантических метаданных из распределенных реляционных БД // В мире научных открытий (Естественные и технические науки). - Красноярск, 2014. -№1(49), с.10. - 0,6 п.л.

Опубликовано в других изданиях:

4. Муромцев Д. И., Семерханов И. А., Гришенцев А. Ю., Варган Г. В., Разработка системы управления интеллектуальными ресурсами // Сборник научных трудов Российской конференции аспирантов, студентов и молодых ученых ИВТ-2010. Ульяновск: УлГТУ, 2010. С.190-192. - 0,03 п.л.

5. Семерханов И. А., Муромцев Д. И., Варгин Г. В., Разработка онтологии для семантического управления доступом к интеллектуальным ресурсам // Сборник научных трудов по материалам 12ой международной научно-практической конференции «Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности»: СПБ: СПБГПУ, 2011. - С.124-126.-0,08 п.л.

6. Семерханов И. А., Муромцев Д. И., Варгин Г. В., Система управления знаниями на основе технологии семаитик веб // Сборник научных трудов по материалам 12ой международной научно-практической конференции «Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности»: СПБ: СПБГПУ, 2011. - С.126-129. - 0,1 п.л.

7. Белашенкова H: Н., Семерханов И. А., Варгин Г. В., Автоматизированная система управления знаниями на основе технологии семантик веб // Сборник научных трудов по материалам„международной конференции «Современные проблемы и пути их решения в науке, транспорте, производстве и образовании 2011»: РТА, 2012. - С.61-63. - 0,08 п.л.

8. Семерханов И. А., Варгин Г. В., Применение онтологии для семантического управления доступом к интеллектуальным ресурсам // Сборник научных трудов по материалам международной конференции «Перспективные инновации в науке, образовании, производстве и транспорте '2012». Одесса: КУПРИЕНКО, 2012. - С.74-75.-0,05 п.л.

9. Семерханов'И. А., Муромцев Д. И., Варгин Г. В., Integration of computer systems with the use of ontology // Сборник научных трудов по материалам международной конференции «12lh Conference of Open Innovations Association FRUCT». FRUCT, 2012. - C.l-4. - 0,1 пл. •

10. Семерханов И. А., Варгин Г. В., Использование онтологии при управлении доступом к интеллектуальным ресурсам // Сборник тезисов докладов 2ого всероссийского конгресса молодых ученых. СПБ: НИУИТМО, 2013 - №1, С. 80-81. -0,05 п.л.

11. Семерханов И. А., Варгин Г. В., Интеграция реляционных баз данных с использованием гё^оуу! // Сборник тезисов докладов 2ого всероссийского конгресса молодых ученых. СПБ: НИУИТМО, 2013 - № 1, С. 117-118. - 0,05 п.л.

12. Семерханов И. А., Использование онтологических моделей для интеграции данных в информационных системах // Сборник научных трудов по результатам международной научно-практической конференции «Актуальные вопросы образования и науки». Тамбов: ТРОО, 2014. - С. 129-130. - 0,1 п.л.

Тиражирование и брошюровка выполнены в учреждении

«Университетские телекоммуникацию)

197101, п Санкт-Петербург, Саблинская ул., 14.

Тел.: (812) 233-46-69, объем 1.0 п.л.

Тираж 100 экз.

Текст работы Семерханов, Илья Александрович, диссертация по теме Системы автоматизации проектирования (по отраслям)

САНКТ-ПЕТЕРБУРГСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И

ОПТИКИ

На правах рукописи

04201459287 Семерханов Илья Александрович

МЕТОДЫ И АЛГОРИТМЫ АВТОМАТИЗИРОВАННОЙ ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ РЕСУРСОВ НА ОСНОВЕ ОНТОЛОГИЧЕСКОГО ПОДХОДА

Специальность 05.13.12 — Системы автоматизации проектирования (приборостроение)

Диссертация

на соискание ученой степени кандидата технических наук

Научный руководитель: кандидат технических наук, доцент Д.И. Муромцев.

/

Санкт-Петербург - 2014

СОДЕРЖАНИЕ

СПИСОК СОКРАЩЕНИЙ.................................................................................4

ВВЕДЕНИЕ..........................................................................................................5

ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ И ОБЗОР СОВРЕМЕННЫХ ТЕНДЕНЦИЙ В ОБЛАСТИ ИНТЕГРАЦИИ.................................................16

1.1 Задача интеграции информационных ресурсов.............................16

1.2 Основные проблемы интеграции ИС..............................................17

1.3 Обеспечение интероперабельности................................................18

1.4 Способы интеграции ИС..................................................................23

1.4.1 Классификация современных подходов...........................23

1.4.2 Технологии для интеграции ИС........................................26

1.5 Обеспечение семантической интероперабельности......................30

1.5.1 Метаданные.........................................................................31

1.5.2 Связанные данные..............................................................32

1.6 Выводы по первой главе...................................................................35

ГЛАВА 2. ПРИМЕНЕНИЕ ОНТОЛОГИИ ДЛЯ ИНТЕГРАЦИИ ДАННЫХ...........................................................................................................36

2.1 Интеграция на основе онтологии....................................................36

2.1.1 Понятие предметной области............................................36

2.1.2 Понятие онтологии.............................................................38

2.1.3 Семантические метаописания...........................................41

2.1.4 Способы использования онтологических моделей.........42

2.1.5 Применение онтологии предметной области при интеграции ИС с использованием связанных данных.... 44

2.2 Методологии онтологического моделирования............................45

2.2.1 Методология ТОУЕ............................................................46

2.2.2 Методология ЕМА..............................................................47

2.2.3 Методология МЕТНООТОШОУ.....................................47

2.2.4 Стандарт ГОЕГ5...................................................................48

2.3 Выбор языка моделирования онтологии........................................50

2.3.1 Языки, основанные на синтаксисе....................................50

2.3.2 Языки разметки...................................................................51

2.4 1ШР, КОБв и 0\\ГЬ для описания связанных данных....................54

2.5 8РАЯС)Ь для доступа к метаданным...............................................60

2.6 Выводы по второй главе...................................................................62

ГЛАВА 3. РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ............................63

3.1 Метод извлечения семантических метаописаний.........................63

3.2 Алгоритмы излечения связанных данных......................................71

3.2.1 Алгоритм отображения информации о структуре БД.... 71

3.2.2 Алгоритм извлечения информационных ресурсов.........79

3.3 Метод автоматизированного анализа сходных элементов...........86

3.4 Оценка вычислительной сложности разработанных алгоритмов 92

3.5 Выводы по третьей главе.................................................................95

ГЛАВА 4. ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ МЕТОДОВ И АЛГОРИТМОВ..............................................................................................96

4.1 Разработка автоматизированной системы интеграции.................96

4.2 Требования к системе.......................................................................97

4.2.1 Функциональные требования............................................97

4.2.2 Требования стандартов......................................................99

4.2.3 Требования безопасности................................................100

4.2.4 Требования производительности....................................100

4.3 Разработка функциональной модели............................................101

4.4 Проектирование архитектуры автоматизированной системы ... 105

4.4.1 Модуль R2RMapperCore..................................................107

4.4.2 Модуль R2RMapperWi.....................................................112

4.4.3 Модуль R2RMapperBatch.................................................114

4.4.4 Модуль MatchingDB.........................................................115

4.4.5 Матрица соответствия требованиям...............................115

4.5 Структура работы автоматизированной системы.......................116

4.5.1 Общий алгоритм работы..................................................116

4.5.2 Интеграция данных при помощи системы R2RMapper 117

4.6 Анализ полученных результатов...................................................125

4.6.1 Тестирование производительности................................126

4.6.2 Сравнение с другими системами интеграции................128

4.7 Выводы по четвертой главе...........................................................131

ЗАКЛЮЧЕНИЕ...............................................................................................132

ЛИТЕРАТУРА.................................................................................................133

СПИСОК СОКРАЩЕНИЙ

CORBA — Common Object Request Broker Architecture;

DCOM — Distributed Component Object Model.

DL — Description logic;

EMA — Enterprise Model Approach;

IDEF — Integrated Computer-Aided Manufacturing;

OWL — Web Ontology Language;

RDF — Resource Description Framework;

RDFs — Resource Description Framework Schema;

RPC— Remote Procedure Call;

SPARQL — SPARQL Protocol and RDF Query Language;

SADT — Structured Analysis and Design Technique;

TOVE — Toronto virtual enterprise;

URI — Uniform Resource Identifier;

XML — Extensible Markup Language;

W3C — World Wide Web Consortium;

AC — автоматизированная система;

ПО — программное обеспечение;

САПР — система автоматизации проектирования;

СУБД — система управления базами данных;

ИС — информационная система.

ВВЕДЕНИЕ

В данной диссертационной работе были исследованы новые обеспечения семантической интероперабельности гетерогенных информационных систем (ИС) и интеграции хранящихся в них ресурсов с применением технологии связанных данных и онтологического подхода. На основе полученных результатов были предложены методы и алгоритмы извлечения данных из информационных систем для дальнейшей интеграции с другими информационными системами и выполнена реализация разработанных алгоритмов в автоматизированной системе интеграции информационных ресурсов.

Актуальность темы. Развитие информационных технологий привело к созданию большого количества разнообразных гетерогенных автоматизированных информационных систем (ИС) и, в частности, систем автоматизации проектирования (САПР), предназначенных для автоматизации бизнес процессов, хранения персональных, справочных и других типов данных, ведения отчетности и статистики. Такой отрасли как приборостроение также свойственно наличие различных ИС и всевозможных источников информации, например: систем хранения нормативно-справочных данных, классификаторов оборудования, материалов и так далее. В данной диссертационной работе термин ИС трактуется как понятие, описанное в федеральном законе №149-ФЗ от 27 июля 2006 года «Об информации, информационных технологиях и о защите информации»: информационная система — совокупность содержащейся в базах данных информации и обеспечивающих её обработку информационных технологий и технических средств [20]. Таким образом, под информационной системой понимаются и всевозможные САПР, и различные СУБД, и другие системы автоматизации. Такие системы отличаются архитектурой, способами доступа, организации хранения и обработки информации, моделями данных и многим другим, однако, на практике, часто оказывается, что в какой-то степени они дублируют

друг друга. Наиболее актуальными задачами развития ИС сейчас становятся обеспечение интероперабельности и интеграция между ними [1, 8]. Объем обрабатываемой информации постоянно растет и специалистам в области информационных технологий необходимо обеспечить эффективный обмен информацией между системами, но при этом избежать дублирования и потерю информации.

Под интеграцией данных в информационных системах понимается обеспечение единого унифицированного интерфейса для доступа к некоторой совокупности неоднородных независимых источников [10]. Иными словами информационные ресурсы из всех распределенных источников, могут быть доступны для пользователя из любой интегрируемой системы или из единого интерфейса для доступа к данным. Системы, реализующие такие возможности, называются системами интеграции, и они избавляют пользователя или другую интегрируемую систему от сведений о том, из какого источника они получают информацию, каким образом осуществляется доступ и какими свойствами обладают эти источники.

Источниками распределенных данных могут быть как обычные системы управления базами данных, работающие на основе различных подходов: реляционные, объектно-ориентированные, объектно-реляционные, так и разнообразные системы, работающие на других технологиях. Таким образом, обеспечение доступа к данным из многих гетерогенных источников через единый интерфейс означает, по сути, создание единого представления совокупности всех данных из множества независимых источников в рамках единой предметной области [8].

Проблематика решения этой задачи обусловлена тем, что информационные системы в большинстве случаев являются распределенными, т.е. физически удаленными друг от друга, сложными программными комплексами, с большим количеством информационных единиц. Помимо этого они строятся на различных технологиях с применением разных

протоколов обмена. Эти факторы препятствуют построению единого унифицированного хранилища данных [12].

Традиционные методы решения этой задачи, чаще всего, работают на основе связей между элементами систем, построенных вручную, и реализуются в виде программного продукта, направленного на решение задачи интеграции для каждого конкретного случая. Этот подход занимает длительное время, в связи с тем, что необходимо провести детальный анализ каждой системы для выявления связей и зависимостей. Также, изменения структуры одной из системы, как правило, приводит к нарушению работы программного комплекса и требует повторного длительного анализа структуры. Таким образом, традиционные методы не предоставляют достаточно унифицированного и гибкого решения для создания системы интеграции данных, однако на практике чаще всего используются именно такие методы.

Другой важной задачей является обеспечение интероперабельности [8, 49]. Интероперабельность это способность информационной системы взаимодействовать с другими системами. Такое взаимодействие может выражаться в виде обмена данными или федеративного выполнения поисковых запросов. Актуальность проблемы обеспечения интероперабельности определяется тем, что она необходима как в новых, разрабатываемых системах, так и в уже существующих ИС, для реализации обмена данными и ресурсами. Эта задача тесно связана с задачей интеграции данных и играет в ней важную роль.

Можно разделить подходы к обеспечению интероперабельности на два вида: структурный и семантический. Структурный вид подразумевает структурное согласование различных элементов в ИС. Семантический -возможность установления связей между смыслами элементов в информационных системах. На данный момент большинство существующих методов и средств решения проблемы интеграции направлены на обеспечение

структурной интероперабельности, не производя анализа семантических, или иными словами смысловых, свойств систем [10].

Таким образом, существует потребность в разработке новых способов обеспечения семантической интероперабельности информационных систем, а также создания новых систем интеграции информационных ресурсов, что подтверждает актуальность диссертационной работы. Использование семантической интеграции в САПР в приборостроении, позволит повысить общий уровень автоматизации принятия решения, а также упростит процесс нахождения оптимальных решений. Необходимо разработать новые алгоритмы и программные продукты, которые смогли бы обеспечить интеллектуальную интеграцию систем в единое информационное поле. Такие программные продукты должны быть унифицированными, надежными и достаточно простыми в использовании.

Одним из наиболее перспективных на данный момент методов интеграции является метод, основанный на использовании метаданных для описания информационных ресурсов [13]. Этот метод тесно связан с технологией семантических сетей и одним из ее самых перспективных и развивающихся направлений - технологией связанных данных. Этот метод и технология и были положены в основу разработанного в рамках настоящей диссертационной работы программного решения для обеспечения семантический интероперабельности систем и интеграции, хранящихся в них данных.

Все вышесказанное определило цели и задачи диссертационного исследования.

Цели и задачи. Целью диссертационной работы является разработка

новых методов и алгоритмов интеграции разнородных источников

информационных ресурсов для увеличения эффективности их взаимодействия.

Требуется разработать и научно обосновать новые алгоритмы обеспечения

интероперабельности и семантической интеграции информационных систем, а

8

также реализовать на их основе программный комплекс. Алгоритмы должны быть реализованы на основе исследований в области методологий и языков описания метаданных, а также современных семантических технологий, таких как связанные данные. Программный комплекс должен быть реализован с учетом различий современных платформ, а также неоднородности источников данных.

Для достижения поставленной цели в диссертационном исследовании были сформулированы следующие задачи:

1. Разработать метод автоматизированной интеграции информационных ресурсов, хранящихся в распределенных информационных системах, на основе онтологий;

2. Разработать алгоритм автоматизированного извлечения информации о структуре ИС в виде отологии из баз данных;

3. Разработать алгоритм для извлечения и представления в виде связанных данных семантических метаописаний информационных ресурсов;

4. Разработать метод автоматизированного нахождения сходных элементов в структуре интегрируемых систем, а также нахождения дублирующихся метаданных;

5. Разработать автоматизированную систему интеграции информационных ресурсов, реализующую разработанные алгоритмы, протестировать и сравнить с существующими системами.

Объект исследования. Гетерогенные источники информационных ресурсов.

Предмет исследования. Интеграция данных в гетерогенных информационных системах и способы обеспечения их семантической интероперабельности.

Методы исследования. Решение вышеперечисленных задач происходит с применением основ теории информационных систем, теории искусственного интеллекта, методов машинного обучения, инженерии знаний и парадигмы представления знаний "семантическая сеть". Использован объектно-ориентированный подход для реализации автоматизированной системы.

Научная новизна диссертационного исследования заключается в новом подходе к интеграции информационных ресурсов в распределённых информационных системах, основанном на определении структурных моделей источников данных и формировании на их основе, с применением общей онтологии предметной области, единой метамодели интегрируемых систем. В работе получены следующие результаты, характеризующиеся научной новизной:

• Метод автоматизированного извлечения семантических метаданных информационных ресурсов из распределенных источников данных, использующий общую структурную онтологию, для определения семантических связей;

• Алгоритмы автоматизированного извлечения онтологии из распределенных информационных источников, с учетом схожести извлекаемых элементов и их семантических взаимосвязей;

• Программное решение, выполняющее интеграцию информационных ресурсов на основе технологии связанных данных и реализующее разработанные алгоритмы.

Положения, выносимые на защиту:

1. Разработан метод автоматизированной интеграции информационных

ресурсов, хранящихся в распределенных информационных системах,

заключающийся в последовательном извлечении структуры каждой

ИС в виде онтологий, формировании на их основе, а также на основе

онтологий предметной области и онтологий верхнего уровня, общей

метамодели, и дальнейшем извлечении семантических метаданных

10

информационных ресурсов из ИС, при помощи общей метамодели и механизмов логического рассуждения;

2. Разработан алгоритм извлечения онтологии из структуры реляционных БД в информационных системах, заключающийся в отображении таблиц и полей на онтологическую структуру и добавлении семантических взаимосвязей, за счет анализа схожести элементов БД по различным признакам;

3. Разработан алгоритм извлечения семантических метаданных информационных ресурсов, заключающийся в использовании общей структурной метамодели интегрируемых систем и механизмов логического рассуждения, для определения смысловых взаимосвязей между ресурсами, и представления их в виде связанных данных;

4. Спроектирована программная автоматизированная система интеграции, реализующая разработанные алгоритмы и позволяющая объединить распределенные гетерогенные информационные ресурсы в единую сеть связанных данных.

Достоверность научных ре�