автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Модель, алгоритмы и программное обеспечение интеграции данных информационных систем на основе онтологий
Автореферат диссертации по теме "Модель, алгоритмы и программное обеспечение интеграции данных информационных систем на основе онтологий"
На правах рукописи
БУБАРЕВА ОЛЕСЯ АЛЕКСАНДРОВНА
МОДЕЛЬ, АЛГОРИТМЫ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ИНТЕГРАЦИИ ДАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ ОНТОЛОГИЙ (НА ПРИМЕРЕ ВУЗА)
Специальность: 05.13.11 — Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
22 ЯНЗ ^15
Бийск - 2014
005558034
005558034
Работа выполнена в Бийском технологическом институте (филиале) Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Алтайский государственный технический университет им. И.И. Ползунова».
Научный руководитель: Попов Федор Алексеевич,
доктор технических наук, профессор
Официальные оппоненты: Тузовский Анатолий Федорович,
доктор технических наук, доцент. Федеральное государственное автономное образовательное учреждение высшего образования «Национальный исследовательский Томский политехнический университет», профессор кафедры оптимизации систем управления;
Загорулько Юрий Алексеевич,
кандидат технических наук, Федеральное государственное бюджетное учреждение науки «Институт систем информатики им. А.П. Ершова Сибирского отделения РАН», г. Новосибирск,
зав. лабораторией искусственного интеллекта
Ведущая организация: Федеральное государственное бюджетное учреждение науки «Институт автоматики и процессов управления Дальневосточного отделения РАН», г. Владивосток
Защита состоится «24» марта 2015 года в 15:00 часов на заседании диссертационного совета Д 003.061.02 на базе Федерального государственного бюджетного учреждения науки Института вычислительной математики и математической геофизики Сибирского отделения Российской академии наук по адресу: 630090, г. Новосибирск, пр. академика Лаврентьева, 6, тел. (383)330-71-59.
С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Института вычислительной математики и математической геофизики Сибирского отделения Российской академии наук.
Автореферат разослан «8» января
Ученый секретарь
диссертационного совета Д 003.061.02 д.ф.-м.н.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. На сегодняшний день актуальным для организаций и учреждений является построение интегрированных автоматизированных информационных систем (ИАИС), обеспечивающих поддержку различных бизнес-процессов. Получение агрегированной информации с целью принятия управленческих решений зависит от эффективного взаимодействия входящих в структуру ИАИС информационных систем (ИС). Бизнес-процессы часто автоматизируются с использованием программных решений собственных и сторонних разработчиков без учета их взаимосвязанности, что особенно характерно для вузов. При постоянных изменениях в этих бизнес-процессах разработчики ИАИС вынуждены заниматься корректировкой программ и моделей данных, что приводит к структурной и семантической неоднородности информационных элементов и, соответственно, необходимости повторной разработки программных конвертеров данных. Использование таких решений ведет к усложнению и, следовательно, снижению надежности ИАИС.
Готовые технологии по интеграции ИС сложны и далеки от решения проблемы семантики. Анализ построения систем показал, что для решения проблемы неоднородности на семантическом уровне применяются методы, основанные на использовании единой онтологии верхнего уровня. Большой вклад в разработку таких методов внесли российские и зарубежные ученые А.Ф. Тузов-ский, JI.B. Найханова, А.Н. Бездушный, A.C. Клещев, В.А. Серебряков, И.С. Михайлов, Ю.А. Загорулько, К.И. Шахгельдян, N. Guarino, N. Noy, М. Ehrig, G. Nenadic, A. Maedche и другие.
Так как данные в подсистемах ИАИС представляют собой информационные объекты, моделирующие некоторые фрагменты предметной области, которым соответствует своя понятийная система (онтология), то для решения проблемы семантической неоднородности данных необходимо согласовать понимание предметных областей взаимодействующих объектов. И уже на согласованной семантике предметной области строить взаимодействие ИС.
Так как каждая онтология ИС, построенная разными группами экспертов, носит субъективный характер, то согласование онгологий является серьезной проблемой. Предлагаемые методы объединения и согласования онтологий, как правило, не формализованы. Организация совместной работы неоднородных ИС в основном производится на основе принятых экспертом решений. Более эффективной представляется автоматическое интеграция онтологий ИС, основанная на использовании методов искусственного интеллекта.
Целью диссертационной работы является разработка математической модели, алгоритма и программной системы интеграции данных ИС, основанных на применении онтологического подхода.
Для достижения этой цели были поставлены следующие задачи.
1. Построить математическую модель интеграции данных информационных систем с неоднородными онтологическими спецификациями.
2. Разработать вычислительный метод оценки семантической близости концептов (элементов) неоднородных онтологий.
3. Разработать на базе предложенной модели алгоритм сопоставления и интеграции неоднородных онтологических спецификаций информационных систем для получения обобщенного семантического представления информации.
4. Разработать программную систему интеграции данных информационных систем в рамках описанных моделей.
5. Разработать на основе использования метода и алгоритма интеграции данных комплекс программ по управлению учебным процессом и финансовому планированию вуза, что позволит в рамках ИАИС предоставлять релевантную информацию для принятия управленческих решений с целью повышения результативности.
Объект исследования — процесс интеграции данных неоднородных информационных систем.
Предмет исследования — методы и алгоритмы интеграции данных на основе сопоставления онтологий информационных систем.
Методы исследования. Поставленные задачи решаются с использованием методов математического моделирования, нечеткой логики, теории графов и множеств, теории генетического программирования, а также технологии объектно-ориентированного программирования.
Достоверность научных и практических результатов подтверждается успешной разработкой, внедрением и сопровождением программной системы интеграции данных в Бийском технологическом институте. Построенные результирующие онтологии с помощью программной системы интеграции данных сопоставлялись с онтологиями, построенными вручную, что показало их адекватность по семантике и необходимость лишь в незначительной корректировке человеком-экспертом.
Результаты моделирования сравнивались с результатами, полученными методами, основанными на подтверждении корректности построения онтологии экспертами, а также с результатами, полученными другими авторами.
Научная новизна
В диссертационной работе получены следующие научные результаты:
1. Разработана новая математическая модель интеграции данных информационных систем с неоднородными онтологическими спецификациями, учитывающая семантические межсистемные связи.
2. Разработан вычислительный метод оценки семантической близости концептов двух онтологий, отличительной особенностью которого является автоматическое определение весовых коэффициентов с использованием генетического алгоритма, позволяющего учитывать ограничения системы.
3. Разработан на базе предложенной модели алгоритм сопоставления и интеграции неоднородных онтологических спецификаций информационных систем, особенностью которого является обеспечение согласованности онтологий за счет расширения набора вариантов взаимного позиционирования двух концептов с учетом их семантической близости.
4. Разработана новая программная система интеграции данных информационных систем с неоднородными онтологическими спецификациями.
Теоретическая значимость работы заключается в развитии методов моделирования применительно к исследованию согласования онтологических моделей неоднородных информационных систем. Предложенные математическая модель и алгоритм могут быть применены для интеграции информационных систем как на стадии проектирования, так и на стадии эксплуатации.
Практическая значимость
Предложенные в диссертационной работе математическая модель и алгоритм интеграции данных неоднородных ИС на основе онтологий обеспечивают повышение эффективности процесса интеграции по требованию, а также повышение надежности ИАИС.
Область применения полученных результатов:
- для реализации подхода интеграции данных по требованию, когда не предъявляется специальных требований к аппаратному обеспечению;
- для случаев, когда проблема доступа к свежим данным становится наиболее актуальна, чем систематизация уже накопленных данных;
- в процессе развития ИАИС, если возникает необходимость в изменении схем, моделей данных интегрируемых подсистем.
Результаты исследований были апробированы при создании комплекса программ Бийского технологического института в рамках ИАИС. Полученные в работе результаты могут быть использованы при построении интегрированных информационных систем в других сферах деятельности.
Получено свидетельство об официальной регистрации программ для ЭВМ.
Основные результаты, выносимые на защиту, соответствующие двум пунктам (1, 3) паспорта специальности 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей по техническим наукам:
1. Математическая модель интеграции данных информационных систем с неоднородными онтологическими спецификациями.
2. Вычислительный метод оценки семантической близости концептов двух онтологий ИС.
3. Алгоритм сопоставления и интеграции неоднородных онтологических спецификаций информационных систем, обеспечивающий их согласованность.
4. Программная система интеграции данных информационных систем на основе предложенных модели и алгоритма.
Апробация работы
Основные результаты диссертационной работы докладывались на следующих научно-практических конференциях: Всероссийской научно-практической конференции «Информационные технологии в экономике, науке и образовании» (Бийск, 2009, 2011, 2013); Всероссийской научно-практической конференции «Инновационные технологии: производство, экономика, образование» (Бийск, 2010); Всероссийской научно-практической конференции «Фундаментальные науки и образование» (Бийск, 2010, 2012); Международной на-
учно-практической конференции «Информация и образование: границы коммуникаций» INFO 10, INFO 11, INFO 12, INF013 (Горно-Алтайск, 2010-2013); Всероссийской научной конференции молодых ученых «Наука. Технологии. Инновации» (Новосибирск, 2010); региональной конференции по математике: «МАК» (Барнаул, 2012, 2013).
Публикации
По теме диссертационной работы опубликовано 16 научных работ, из них 4 в изданиях ВАК, 1 монография, получено 3 свидетельства об официальной регистрации компьютерных программ.
Личный вклад автора. Постановка диссертационных задач велась совместно с научным руководителем Ф.А. Поповым. Основные научные результаты получены автором самостоятельно. Вклад автора в разработку программной системы интеграции данных составляет 100%. Комплекс программ по управлению учебным процессом и финансовому планированию реализован с участием Н.Ю. Ануфриевой и A.A. Тютякина.
Структура и объем работы
Диссертационная работа изложена на 137 страницах и включает в себя введение, 4 главы основного материала, заключение, список использованных источников, включающий 109 наименований, и 5 приложений. Общий объем публикаций 7,22 п.л. (лично автора — 4,08 п.л.).
Благодарности. Автор выражает глубокую благодарность научному руководителю профессору, д.т.н. Ф.А. Попову за большую помощь и поддержку при выполнении работы.
СТРУКТУРА РАБОТЫ
Во введении обоснована актуальность диссертационной работы, сформулированы цель и задачи исследования, определены научная новизна и практическая значимость работы.
В первой главе проведен анализ литературных источников по вопросам построения интегрированной автоматизированной информационной системы в организации. В частности исследованы основные проблемы интеграции гетерогенных информационных систем на примере вуза.
На текущий момент для ИАИС вуза наиболее актуальна проблема доступа к свежим данным, чем систематизация уже накопленных данных. В результате был выбран подход к интеграции данных ИС, связанный с передачей запросов "налету".
Для формирования запроса на извлечение данных необходимо обеспечить согласование онтологических спецификаций неоднородных ИС. Проведённый анализ существующих технологий и подходов к интеграции данных на основе онтологий показал, что их согласование производится на основании принятых решений эксперта. Более эффективна автоматическая интеграция онтологий ИС, основанная на использовании методов искусственного интеллекта.
Сделан вывод о необходимой разработке модели и алгоритма интеграции данных информационных систем с обеспечением согласованности неоднород-
ных онтологических спецификаций разных предметных областей в рамках реализации подхода интеграции данных "на лету".
Во второй главе рассматривается разработка математической модели и алгоритма интеграции данных информационных систем на основе онтологии.
В главе обосновывается и описывается алгоритм интеграции на основе результатов сравнения концептов, их атрибутов и отношений между концептами. Проблема интеграции ИС сводится к задаче построения отображений и интеграции онтологий, а затем и установления взаимосвязей схем интегрируемых ИС, т.е. сохранения соответствия множества онтологий ИС заданному набору семантических зависимостей, позволяя установить взаимодействие между ИС. Для описания онтологических спецификаций интегрируемых ИС используются RDF-утверждения.
Как правило, объектная схема ИАИС включает в себя элементы, которые соответствуют сущностям разных предметных областей, каждый объект характеризуется значениями набора атрибутов и представляется как множество упорядоченных пар вида
и = {<аг, с*г>}, (1)
где а, — атрибут объекта; d, - значение атрибута i £ [1... п];п — количество атрибутов.
Базовым понятием предлагаемой модели является концепт С (класс объектов). Каждый концепт онтологии информационной системы определяется как единица знания, идентифицируется по имени и характеризуется типом. Поэтому концепт зададим как
С; = (Atone,-, type,), (2)
где Namei - уникальное имя (идентификатор) ¡'-го концепта; type, - тип -го концепта (абстрактный, представимый, либо составной).
Зададим следующее множество концептов С ' {С;|г = 1,2,..., п} и множество отношений между концептами:
R = {RlfR2,R3l (3)
где отношение наследования (отношения «класс-подкласс»), Й1(С1,С2), где С1 - надкласс концепта С2; /?2 - отношение агрегации (отношения «часть/ целое»), R2(C1,Xy. атрибуты концепта С1 входят во множество атрибутов всех концептов Л; R3 - отношение ассоциации (семантические отношения), обладающее свойством транзитивности.
Формально онтологию информационной системы представим в следующем виде:
0=<C,A,L,Pa,Pc,R>, (4)
где С = {Ci\i = 1,2,... ,п} - множество концептов; А = [а^ |у = 1,2, ...,j} -множество атрибутов концептов; L = {lik\ik = 1,2, ...,к} - словарь, в котором определяются профессиональные термины организации; Рд:С -> 2Л — отображение, задающее для каждого концепта множество его атрибутов; Рс \ С -* 21 — функция интерпретации концептов, сопоставляет концепту набор терминов из словаря L ( V Рс(С) = L или Pc(C,L)) ; R - множество отношений между концептами.
Информационная система, использующая онтологию О, представлена в
виде
и0 =<0,и,Ри,Ря >, (5)
где и = {и1:и2,..., ип] - множество элементов объектной схемы ИС; Ри\ (У —> С — отображение, ставящее в соответствие элементу объектной схемы его концепт; Рд: 1} х и -> Д - отображение, ставящее в соответствие связям между элементами объектной схемы отношения в онтологии, и для любого элемента и Е и выполняется условие: множество атрибутов элемента объектной схемы и соответствует атрибутам его концепта.
Различные онтологии ИС, входящие в О, могут иметь пересекающиеся множества атрибутов, отношений и концептов. На базе нескольких исходных онтологий осуществляется построение результирующей онтологии с сохранением исходных спецификаций в таком виде, чтобы она включала все возможные отношения между концептами и не содержала эквивалентные (дублирующие) концепты. Для этого необходимо, чтобы отображения Ри, Рс, РА, Рк на одинаковых концептах онтологий совпадали. Результирующая онтология определяет соответствия концептов и правила их интерпретации между ИС, что позволяет успешно установить их взаимодействие.
Для осуществления корректного взаимодействия неоднородных ИС в контексте предметной области задачи необходимо согласовать их онтологии, а также установить семантические зависимости. Таким образом, цель интеграции заключается в нахождении семантических зависимостей между онтологиями ИС.
Семантическая зависимость, заданная на онтологии О, пригашается как г-предикат, заданный на О.
Множество семантических зависимостей 2 — [г1, г2, г3, г4, г5} непротиворечиво, если существует онтология О, которая удовлетворяет зависимости
Модель системы интеграции данных на основе онтологии представим в виде кортежа
5 =< О, и0, г, тар >, (6)
где О =< С,А,1,Ра,Рс,11 > — онтология ИС, и0 — информационная система с онтологией О; Ъ = {г1,г2,г3,г4,г5} — множество семантических зависимостей; Р:Н° -* Н° — такое отображение, что VII0 6 Н°, Чг Е 2 выполнено г(Р((/0)); тар: 01 —> — отображение онтологий, Н°— множество неоднородных информационных систем, в основе которых лежит онтология О.
Однако онтологии интегрируемых ИС изначально никак не связаны, следовательно, необходимо найти семантически близкие элементы онтологий.
Для численной оценки семантической близости концептов онтологий выбран модифицированный подход, основанный на результатах исследований А.Ф. Тузовского и профессора университета Мангейма А. МаескЬе.
Оценка семантической близости представляет собой аддитивную свертку трех составляющих с учетом весовых коэффициентов.
Модификация данного метода заключается в замене таксономической составляющей на лексическое соответствие (лексическая близость основывается
на расстоянии между двумя понятиями онтологий (количество символов для преобразования одной лексемы в другую)), а также в способе нахождения атрибутивной составляющей и применении генетического алгоритма для нахождения весовых коэффициентов. Основные преимущества предлагаемого подхода заключаются в нахождении ключевых концептов, устранении субъективности их описаний и зависимости от точек зрения разработчиков онтологий.
Определим 5г(с;,су), 5к(с(,су), су) соответственно как оценка бли-
зости двух концептов на основе сопоставления терминов, на основе сопоставления их отношений, на основе сопоставления атрибутов и значений атрибутов концептов.
Для оценки лексической близости двух понятий сравниваются
множества синонимичных терминов концептов РЬр(с^ и Р1_.р(с)), находятся общие и различные элементы:
¡1, если с; = сI КСс,)пир(с,)| (7)
|М„(с()иР£р(с,)|'еСЛИС'
где PLp(cí) = £ ¿|Рс(с;) = — множество терминов концепта
Для оценки реляционной близости предполагается, что если два концепта имеют одинаковые отношения с третьим концептом, то они более
похожи, чем два концепта, которые имеют разные отношения.
Предположим, что
Сг(с;) = Е С^!^,^) V V Р3(С(,Су) V Су = с,} - множество,
содержащее концепты, у которых существуют отношения Д2> Р3;
Определим отношение ассоциативности концептов как
ЯлЫ = {с,: 6 Сг(с;)}.
Рассчитаем сумму значений лексической составляющей оценки близости для концептов из множества Яд (су) и НА (с,).
(ВлЫМч)) = Хс1еКдСс,),с)£Яд(с;)5Г(си^) ■ (8)
Реляционная составляющая (с,, с,) позволяет оценить схожесть двух концептов, основываясь на схожести концептов из множества Сг (с,).
!1, если с( =
^Л(ялСс)лл(с;)) . (9)
—I—р-т- , , если с, ф С:
Атрибутивная составляющая оценки близости БА (с,, Су ] концептов с, и Су определяется соответствием их общих атрибутов Ас' П Ас>.
5Л(^,су) =\~,-Л, (10)
4 1' \Ас'иА I |
где Ас' = {АСк',к £ [1 ...П1]} - множество атрибутов концепта Ас' =
, к £ [1... п2]множество атрибутов концепта Су.
Оценка близости концептов с, онтологии О и С] онтологии О оп-
ределяется как
5(с,, с,-) = I • 5г(с,-,с;) + г ■ 5к(с„ С]) + а-БА (с,, с;), (11)
где t,r,a - коэффициенты, определяющие важность составляющих оценки близости 5г(с,,су), 5к(с„с;) и .^(с,-,^) соответственно, 6 [0; 1], t +
г + а = 1, ) е [0; 1].
5(с;, с;) = 1, если концепты эквивалентны, 5(с„= 0, если концепты различны.
Для решения задачи нахождения весовых коэффициентов предлагается использовать модифицированный генетический алгоритм.
Задача по оценке семантической близости концептов онтологии относится к группе задач оптимизации с ограничениями. Задачу оптимизации представим ее следующим образом:
™»гЛ,г,а(*) х = (г,г,а) 5 6 [0,10^ X |02|], £,г,ае[0;1];{ + г +
а = 1,
где х — вектор решений, удовлетворяющий всем ограничениям, называется допустимым решением; Б — область допустимых решений; 8 - вся область поиска.
Для решения данной задачи конструируется хромосома, которая состоит из
набора генов г' аХ
Целевая функция основана на использовании Евклидова дистанции:
Л,г,а = ЕсбО^еъС* ■ + г ■ 5я (с,, 9) + а ■ Ба{сь с,) - I)2. (12)
Проведено исследование на примере интеграции онтологии ИС управления учебным процессом и ИС финансового планирования, а также ИС «Успеваемость» и ИС управления учебным процессом, ИС Аудиторный фонд и ИС Расписание в результате которого были определены наиболее эффективные генетические операторы и параметры. Анализ полученных результатов показал, что ГА выдает наилучший результат при использовании нескольких операторов кроссовера: 30 % одноточечного кроссовера, 40 % арифметического кроссовера и 30 % двухточечного.
Использование ряда генетических операторов, выявленных в эксперименте, позволяет получить поколение особей с наилучшим значением целевой функции и приводит к общему сокращению времени решения задачи.
Метод вычисления семантической близости концептов позволяет количественно оценить сходство между понятиями. Для каждого концепта одной онтологии формируется множество релевантных семантических концептов другой онтологии. С целью ранжирования элементов результирующего множества необходимо определить пороговые значения близости.
Разработан метод классификации уровней близости концептов для установления их корректного отображения.
Рассматривается вопрос поиска минимального порога Ъ семантической близости, при которой концепты принимаются эквивалентными.
Ь = тах(5(сг,су)|Ус; £ Оа,Ус; Е 02) х рх/100, (13)
где - процент, при котором Ь принимается порогом подобия для установления эквивалентности и корректного отображения с£ и с,-.
Находится пороговое значение, при котором концепты принимаются частично эквивалентными.
q = тах(5(с£,с7-)|Ус£ е О1(\Л:; е 02) х р2/100, (14)
где р2 - процент, при котором <7 принимается порогом подобия для установления частичной эквивалентности концептов
Показано, что q - минимальное значение в том смысле, что уменьшение этого значения приводит к некорректному отображению элементов онтологии.
Концепты принимаются различными, если имеют значение семантической близости, не превосходящее порог <7.
На практике установление соответствий между онтологиями сводиться к нахождению зависимостей между концептами, которые в них входят. Они были рассмотрены, проанализированы и отнесены в следующие 5 групп: эквивалентность, частичная эквивалентность, уточнение, обобщение, различие.
С использованием построенной модели и метода оценки семантической близости концептов в результате вычислительного эксперимента разработан алгоритм интеграции ИС, который можно разделить на шесть этапов (рисунок 1):
1. Сравнение онтологии.
Выполняется выборка исходных онтологий О и О интегрируемых ИС. Рассчитываются весовые коэффициенты для оценки семантической близости концептов, а также пороговые значения для классификации отношений между концептами 2.
2. Интеграция концептов.
Шаг 1. Формируется множество С1 подчиненных концептов с корневой вершиной С\ базовой онтологии О и множество С2 подчиненных концептов с корневой вершины Сг интегрируемой онтологии О .
Шаг 2. Начало цикла. В цикле осуществляется сопоставление и интеграция элементов множества С2 с элементами множества Сг, т.е. концепт из множества С2 интегрируется в иерархию онтологии О с вершиной С1.
Шаг 3. Вычисляются оценки семантической близости для концептов из множества С1 и концептов из множества С2. Рассчитываются пороговые значения оценок близости.
Формирование шаблона запросов на добавление информации
Выход
ИС
ИС
| | <^ВзаимодеистБие^>^ |
Рисунок 1 - Процесс интеграции данных ИС
Шаг 4. В соответствии с пороговыми значениями близости определяется вид семантической зависимости между концептами и либо устанавливается отображение, либо выполняется алгоритм разрешения конфликтов. Цикл выполняется, пока не буду т проанализированы все элементы множества С2.
3. Проверка результата. Проверка корректности построенной результирующей онто-логий.
4. Интерпретация. Вывод результирующих отображений между концептами и атрибутами онтологий ИС.
5. Итерация. Повторение некоторых шагов алгоритма.
6. Установление отображений между элементами объектных схем информационных систем на основе связи онтологических концептов. После этого становится возможным формирование шаблона БОЬ-запросов на добавление информации из одной информационной системы в другую.
Область применения построенной модели исследовалась при интеграции систем разных предметных областей вуза. Построенные модели интеграции ИС способны адекватно описывать исходную ситуацию. Алгоритм интеграции с использованием онтологий в целом лишен многих недостатков, присущих чисто техническим методам, и предоставляет возможность разработки интегрированных ИС, работающих с информацией на семантическом уровне.
В третьей главе рассмотрена реализация программной системы интеграции данных ИС.
Концептуальная модель программной системы интеграции данных приведена на рисунке 2.
Рисунок 2 - Концептуальная модель системы интеграции данных
В репозитории метаданных хранятся описания всех концептов, физических и логических связей между ИС, а также ссылки на все процедуры и сервисы, обеспечивающие поддержание качественной информации. Для реализации хранилища онтологических спецификаций использовался репозиторий на Oracle Spatial. Все триплеты обрабатываются и хранятся в виде записей в таблицах по схеме MDSYS. Сущности описываются путем указания имени, атрибутов и их значений. Структура RDF-спецификации состоит из описания всех информационных объектов (ИО), а также URI ссылки на описываемый ИО и описаний атрибутов (имя; его значение; ссылка на другой ИО). Каждый информационный объект связан с каким-либо понятием из онтологии. Эта связь указывается в свойствах понятия.
Интерфейс программной системы представлен на рисунке 3.
t :■-...-. . . • ' ''' 4 ' - : .. .. •
1_IL_
Рисунок 3 - Интерфейс программной системы
В четвертой главе описаны результаты тестирования разработанных алгоритмов интеграции данных ИС. Приведены результаты работы программ. С целью оценки ее эффективности и полезности выполнен эксперимент.
Исследование эффективности алгоритма выполнено на реальных информационных. системах управления учебным процессом и финансового планирования, ИС «Успеваемость» и ИС управления УП, а также на тестовых данных.
В результате проведенных экспериментов и на основе оценки экспертов были получены показатели полноты и точности предложенного алгоритма, основанные на определении формальной релевантности (рисунок 4).
На основе результатов выявлено, что разработанный алгоритм обеспечивает повышение точности и качества сопоставления онтологий по сравнению с алгоритмами среды PROMPT, OBSERVER на 30%. Это позволяет считать возможным успешное сопоставление онтологий неоднородных пересекающихся предметных областей.
В результате интеграции данных ИС управления учебным процессом и ИС финансового планирования решается ряд задач: обеспечивается расчет фактической и планируемой себестоимости образовательной услуги, возможность прогнозирования финансового результата в разрезе специальностей, распределение финансовых средств между кафедрами, а также реализуется многоуровневая интегрированная управленческая отчетность.
0,8
0,4
S Полнота (R) 8 Точность (P) й F-мера
Алгоритм PROMPT OBSERVER Алгоритм PROMPT OBSERVER Алгоритм PROMPT OBSERVER (Тест 1) (Тест 1) (Тест 1) (Тест 2) (Тест 2) (Тест 2) (Тест (ТестЗ) (ТестЗ)
Рисунок 4 — Оценка полноты и точности для разных походов к оценке семантической близости концептов
Практическое использование рассмотренных методов моделирования позволило в короткие сроки и с высоким качеством объединить локальные базы данных рассматриваемых систем в процессе развития ИАИС Бийского технологического института.
В заключении приведены основные результаты, полученные в диссертационной работе.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Разработана математическая модель интеграции данных информационных систем с неоднородными онтологическими спецификациями, позволяющая анализировать семантические связи, возникающие между подобными элементами онтологии интегрируемых информационных систем.
2. Разработан вычислительный метод определения семантической близости концептов, а также метод классификации уровней их близости с целью построения результирующей (интегрированной) онтологии.
3. Разработан на базе предложенной модели алгоритм сопоставления и интеграции неоднородных онтологических спецификаций информационных систем, особенностью которого является обеспечение их согласованности за счет расширения набора вариантов взаимного позиционирования двух концептов с учетом их семантической близости. Обобщенная операция сравнения концептов вместе с обычным алгоритмом синтаксического анализа и перебора качественно усовершенствуют процедуру сопоставления онтологий. Как следствие, обеспечивается взаимодействие неоднородных информационных систем.
4. Разработана программная система интеграции данных информационных систем, реализующая предлагаемые модель, метод и алгоритм. Программная система обеспечивает повышение эффективности процесса интеграции по требованию.
5. Разработан на основе использования модели и алгоритма интеграции данных комплекс программ по управлению учебным процессом и финансовому планированию и учету успеваемости студентов, что позволило в рамках ИАИС
вуза предоставлять интегрированную информацию для принятия управленческих решений.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
Статьи в журналах, рекомендованных ВАК России:
1. Бубарева, О.А. Использование онтологий с целью интеграции данных в рамках автоматизированных информационных систем вузов / О.А. Бубарева, Ф.А. Попов, Н.Ю. Ануфриева // Фундаментальные исследования. - 2011. - № 12 (часть 1).-С. 85-88.
2. Бубарева, О.А. Подсистема расчета себестоимости образовательной услуги в составе интегрированной автоматизированной информационной системы вуза / О.А. Бубарева, Ф.А. Попов // Современные проблемы науки и образования. - 2011. - № 6; URL: www.science-education.rii/100-5053 (дата обращения: 16.12.2011).
3. Бубарева, О.А. Математическая модель процесса интеграции информационных систем на основе онтологий / О.А. Бубарева, Ф.А. Попов // Современные проблемы науки и образования. - 2012. - № 2; URL: www.science-education. ш/102-6030 (дата обращения: 19.04.2012).
4. Бубарева, О.А. Использование генетического алгоритма в контексте решения задачи нахождения семантической близости элементов неоднородных онтологий / О.А. Бубарева, Ф.А. Попов // Ползуновский вестник. - 2013. - Кч 2. -С. 29-32.
Монографии:
5. Проблемы разработки автоматизированных информационно-управляющих систем / Ф.А. Попов, Н.Ю. Ануфриева, О.А. Бубарева // Информационные системы и технологии. Монография. Часть IV. — VI.: Издательство "Перо", 2013 .-С. 53-86.
Свидетельства:
6. Бубарева, О.А. АРМ Расчет себестоимости образовательной услуги / Попов Ф.А., Ануфриева Н.Ю., Бубарева О.А. // Свидетельство о государственной регистрации программы для ЭВМ № 2011612224. М.: Федеральная служба по интеллектуальной собственности (Роспатент). - 2011.
7. Бубарева, О.А. Информационная система поддержки учебно-организационной деятельности вуза / Попов Ф.А., Ануфриева Н.Ю., Бубарева О. А. // Свидетельство о государственной регистрации программы для ЭВМ № 2011612226. М.: Федеральная служба по интеллектуальной собственности (Роспатент). - 2011.
8. Бубарева, О.А. Программная система интеграции неоднородных данных / Попов Ф.А., Ануфриева Н.Ю., Бубарева О.А. // Свидетельство о государственной регистрации программы для ЭВМ № 2012617264. М.: Федеральная служба по интеллектуальной собственности (Роспатент). - 2012.
Пуоликации в сборниках научных статей, трудов и материалов конференций:
9. Бубарева, O.A. Проблемы интеграции множественных источников данных / O.A. Бубарева, Ф.А. Попов // Дистанционное и виртуальное обучение. -2009. - № 11(29).-М.: Из-во СГУ, 2009. - С. 85-89.
10. Бубарева, O.A. Проблема качества данных при интеграции информационных систем / O.A. Бубарева, Ф.А. Попов // Инновационные технологии: производство, экономика, образование: материалы Всероссийской научно-практической конференции. — Бийск: Изд-во Алт. гос. техн. ун-та, 2009. — С. 25-26.
11. Бубарева, O.A. Использование интеграции информации для анализа несопоставимых источников данных в информационно-управляющих системах / O.A. Бубарева, Ф.А. Попов // Труды VIII Международной научно-практической конференции-выставки «Единая образовательная информационная среда: проблемы и пути развития». - Томск: ТГУ, 2009. - С. 136-137.
12. Бубарева, O.A. Автоматизированная система поддержки учебно-организационной деятельности вуза на базе онтологического подхода / O.A. Бубарева, Ф.А. Попов // Наука. Технологии. Инновации: материалы всероссийской научной конференции молодых ученых в 4-х частях. — Новосибирск: Изд-во НГТУ, 2010. - Ч. 1. - С. 125-127.
13. Бубарева, O.A. Решение проблемы интеграции данных при построении интегрированной автоматизированной информационной системы вуза / O.A. Бубарева, Ф.А. Попов, Н.Ю. Ануфриева // Международный журнал экспериментального образования. - 2011. - № 5. - С. 90-92.
14. Бубарева, O.A. Информационная система управления финансами вуза / O.A. Бубарева, Ф.А. Попов, Н.Ю. Ануфриева, A.A. Тютякин // Фундаментальные науки и образование: материалы I Международной научно-практической конференции. - Бийск: ФГБОУ ВПО «АГАО», 2012. - С. 176-179.
15. Бубарева, O.A. Интеграция неоднородных онтологий на основе их семантической близости / O.A. Бубарева // Информация и образование: границы коммуникаций INFO' 12: сборник научных трудов №4(12), — Горно-Алтайск: РИО ГАГУ, 2012. - С. 456-458.
16. Бубарева, O.A. Подход к решению задачи нахождения семантической близости концептов онтологий при интеграции информационных систем / O.A. Бубарева, Ф.А. Попов // Измерение, контроль, информатизация: материалы XIV международной научно-технической конференции. — Барнаул : Изд-во АлтГТУ, 2013. - Т. 2. - С. 152-154.
Подписано в печать 06.01.2015 г. Печать цифровая. Тираж 100 экз. Заказ № 5. Отпечатано в типографии ИП Дмитриев В.В. 659300, Бийск, пер. Коммунарский, 16/1 Тел. (3834) 33-89-68
-
Похожие работы
- Метод и технологии семантической обработки информации для государственного и муниципального управления
- Метод и средства интеграции онтологий разнородных источников данных в автоматизированных системах управления промышленных предприятий
- Методы и алгоритмы автоматизированной интеграции информационных ресурсов на основе онтологического подхода
- Методы оценки онтологий для построения порталов знаний
- Построение программных комплексов для исследований теплоэнергетических систем с использованием онтологий
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность