автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Метод и средства интеграции онтологий разнородных источников данных в автоматизированных системах управления промышленных предприятий

кандидата технических наук
Кузнецов, Дмитрий Павлович
город
Вологда
год
2013
специальность ВАК РФ
05.13.06
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Метод и средства интеграции онтологий разнородных источников данных в автоматизированных системах управления промышленных предприятий»

Автореферат диссертации по теме "Метод и средства интеграции онтологий разнородных источников данных в автоматизированных системах управления промышленных предприятий"

На правах рукописи

Кузнецов Дмитрий Павлович

МЕТОД И СРЕДСТВА ИНТЕГРАЦИИ ОНТОЛОГИЙ РАЗНОРОДНЫХ ИСТОЧНИКОВ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ УПРАВЛЕНИЯ ПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ

05.13.06. — Автоматизация и управление технологическими процессами и производствами (промышленность)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 ° "ОЯ 2013

Вологда, 2013

005540437

005540437

Работа выполнена на кафедре «Автоматика и вычислительная техника» в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования (ФГБОУ ВПО) «Вологодский государственный технический университет» (ВоГГУ).

Научный руководитель - Ржеуцкая Светлана Юрьевна, кандидат технических

наук, доцент, доцент кафедры «Автоматика и вычислительная техника» ВоГТУ, г. Вологды.

Официальные оппоненты - Коростелев Владимир Федорович, доктор

технических наук, профессор, заведующий кафедрой «Автоматизация технологических процессов» ФГБОУ ВПО «Владимирский государственный университет» ' ' ' имени Александра Григорьевича и Николая Григорьевича Столетовых» (ВлГУ) г. Владимира;

Сергушичсва Мария Александровна,

кандидат технических' наук, инженер-программист филиала ОАО «Межрегиональная распределительная сетевая' компания Северо-Запада «Вологдаэнерго» г. Вологды.

Ведущая организация - Федеральное бюджетное автономное образовательное

учреждение высшего профессионального образования «Северный (Арктический) федеральный университет имени М.В. Ломоносова» г. Архангельска.

Защита диссертации состоится «18» декабря в 15 часов 30 минут на заседании диссертационного совета Д 212.025.01 при ВлГУ по адресу: г. Владимир, ул. Горького, 87, ауд. 335-1.

С диссертацией можно ознакомиться в научной библиотеке ВлГУ. Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу университета: 600000, г. Владимир, ул. Горького, 87, ВлГУ, учёному секретарю диссертационного совета Д 212.025.01. Автореферат диссертации размещен на сайте ВАК http://vak.ed.gov.ru.

Автореферат разослан «15» ноября 2013 г.

Учёный секретарь диссертационного совета д.т.н., доцент

Н. Н. Давыдов

I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования и степень её разработанности.

Современные российские промышленные предприятия, многие из которых функционируют на протяжении длительного периода времени, обычно имеют громоздкую и сложную информационную инфраструктуру, включающую источники данных различных автоматизированных систем управления (АСУ), - базы данных разных форматов, электронные таблицы, текстовые файлы и т.д. Такое положение, сложившееся в результате многолетней «островковой» автоматизации, усложняет совместное использование данных из различных источников, снижая оперативность и достоверность при подготовке данных для принятия управленческих решений на уровне предприятия. В настоящее время многие промышленные предприятия решают задачу интеграции данных различных АСУ, выбирая надежный и проверенный способ консолидации данных в единое корпоративное хранилище (Data Warehouse).

В силу возможного (и весьма вероятного) наличия структурных, лексических и семантических конфликтов в различных источниках данных, формирование хранилища данных представляет собой сложный многоэтапный процесс, который нужно рассматривать в контексте более общей задачи управления корпоративными знаниями. В связи с этим пристального внимания заслуживает онтологический подход к интеграции данных, который развивается в работах А.Н. Бездушного, И.А. Васильева, И.С. Михайлова, Т.А. Гавриловой, М.Р. Когаловского. Важные вопросы управления производством представлены в работах Д.А. Поспелова, Ю.И. Клыкова, Р.И. Макарова, Д.В. Александрова, А.В. Кострова, П. Мертенса.

Анализ показал, что в настоящее время не существует теоретически обоснованной методики интеграции онтологий разнородных источников данных АСУ, на рынке программного обеспечения представлены лишь частичные решения для автоматизации отдельных этапов процесса интеграции данных, при этом специфика промышленных предприятий в них не учитывается. В связи с этим тема диссертации, посвященной семантической интеграции разнородных данных АСУ промышленного предприятия на базе онтологического подхода, является актуальной.

Дополнительным мотивом для выполнения диссертационного исследования явилась острая необходимость интеграции данных различных АСУ на Вологодском комбинате хлебопродуктов с целью преодоления проблем многолетней «островковой» автоматизации предприятия.

Объектом исследования являются процессы интеграции автоматизированных систем управления на промышленных предприятиях.

Предмет исследования - модели, методы и алгоритмы интеграции онтологий разнородных источников данных АСУ промышленных предприятий.

Цели и задачи. Основной целью настоящей работы является повышение оперативности и достоверности при подготовке данных для принятия управленческих решений на промышленных предприятиях.

В соответствии с заявленной целью необходимо решить следующие задачи:

1. Провести анализ существующих методов интеграции АСУ, выявить преимущества онтологического подхода к интеграции данных.

2. Разработать метод семантической интеграции онтологии, извлеченных из источников данных АСУ промышленных предприятий, позволяющий осуществить глубокую интеграцию и устранить лексические и семантические конфликты разнородных источников данных.

3. Проанализировать имеющийся математический аппарат для поддержки процесса интеграции онтологии, при необходимости выполнить его модификацию.

4. Разработать алгоритмы для поддержки процесса интеграции онтологии.

5. Разработать прототип автоматизированной системы интеграции данных АСУ промышленного предприятия.

Научная новизна работы заключается в следующем:

- разработаны: новая научная идея по определению семантической близости понятий и атрибутов онтологий разнородных источников данных АСУ промышленных предприятий, множество операций интеграции онтологий и алгоритм поиска семантически близких понятий и атрибутов онтологий;

- предложен нетрадиционный подход к семантической интеграции онтологий, извлеченных из разнородных источников данных АСУ, с использованием базовой онтологической модели промышленного предприятия, позволяющий устранить структурные, лексические и семантические конфликты в процессе интеграции;

- доказана перспективность и практическая значимость исследований для решения задачи интеграции источников данных АСУ промышленных предприятий;

- введены измененные трактовки понятий семантической и лексической близости применительно к элементам онтологий.

Теоретическая значимость работы:

- доказаны положения, вносящие вклад в расширение представлений об интеграции онтологий разнородных источников данных АСУ промышленных предприятий за счет применения идей и технологий «Semantic Web»;

- применительно к проблематике диссертации результативно (эффективно, то есть с получением обладающих новизной результатов) использован комплекс существующих базовых методов исследования, в том числе численных методов, экспериментальных методик, методов теории множеств и дескрипционной логики;

- изложены идеи и положения, доказывающие применимость предлагаемого подхода к интеграции онтологии в АСУ промышленных предприятий;

- раскрыты противоречия и выявлены проблемы интеграции онтологии разнородных источников данных;

- изучены связи процесса интеграции онтологии с другими этапами интеграции источников данных АСУ и факторы, предопределяющие изменение семантической близости понятий и атрибутов онтологии при изменении базовой онтологической модели и словаря синонимов предметной области;

- проведена модернизация существующих математических моделей, алгоритмов, обеспечивающих получение новых результатов по теме диссертации.

Практическая значимость работы:

- разработаны и внедрены алгоритм поиска семантически близких понятий и атрибутов онтологии разнородных источников данных АСУ промышленных предприятий и прототип системы интеграции на промышленном предприятии ОАО «Вологодский комбинат хлебопродуктов», г. Вологда;

- определены перспективы практического использования полученных результатов при интеграции источников данных АСУ промышленных предприятий;

- создана система практических рекомендаций по реализации процесса интеграции источников данных АСУ промышленных предприятий;

- представлены методические рекомендации по дальнейшему совершенствованию и практическому использованию предложенного метода интеграции онтологий на промышленных предприятиях и в учебном процессе.

Методология и методы исследования. Теоретическая база исследования -дескрипционная логика, теория множеств, методы экспертных оценок.

Положения, выносимые па защиту:

1. Метод семантической интеграции онтологий, извлеченных из разнородных источников данных АСУ, с использованием базовой онтологической модели промышленного предприятия для устранения конфликтов в интегрируемых данных.

2. Математический аппарат для поддержки процесса интеграции онтологий разнородных источников данных АСУ промышленных предприятий, включающий математическую модель определения семантической близости понятий и атрибутов интегрируемых онтологий и множество операций интеграции онтологий.

3. Алгоритм поиска семантически близких понятий и атрибутов онтологий.

4. Прототип автоматизированной системы интеграции разнородных данных АСУ промышленного предприятия.

Степепь достоверности и апробация результатов. Достоверность научных положений и выводов подтверждается корректным использованием математического

аппарата при проведении исследований и результатами эксперимента на реальных данных промышленного предприятия. Основные результаты диссертации докладывались и обсуждались на следующих семинарах и конференциях: международная научно-техническая конференция «ИНФОС-2011», всероссийская научно-техническая конференция «Вузовская наука - региону» (2009, 2010 гг.), всероссийская студенческая олимпиада «Конкурс компьютерных программ» (2009 г.), всероссийская научно-техническая конференция студентов и аспирантов «Молодые исследователи регионам» (2009, 2010 гг.). По теме диссертационной работы опубликовано 9 печатных работ, в том числе 6 без соавторов, из них 2 опубликованы в издании, рекомендованном ВАК.

Диссертационная работа состоит из введения, четырех глав, заключения, списка используемой литературы и приложения. Работа содержит 109 страниц машинописного текста, из них 3 страницы приложения, 16 рисунков, 5 таблиц и 103 наименования используемых литературных источников.

II. КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность работы, поставлены цели и задачи диссертационного исследования, описаны объект и предмет исследования, раскрыта научная новизна, практическая и теоретическая значимость работы, перечислены методы исследования, сформулированы основные результаты и положения, выносимые на защиту.

В первой главе «Подходы к интеграции разнородных источников данных в АСУ промышленных предприятий» анализируется задача интеграции источников данных различных АСУ промышленных предприятий. Представлены существующие подходы к интеграции. Проанализированы основные виды разнородности источников данных АСУ: они могут работать под управлением различных СУБД, различных операционных систем, предоставлять различные способы доступа к данным, иметь различную модель данных. Делается вывод о том, что для многих промышленных предприятий в силу автономности отдельных систем («островков» автоматизации) и территориальной удаленности подразделений предпочтительным вариантом интеграции является консолидация данных на основе корпоративного хранилища.

Рассматриваются основные понятия онтологического подхода и математический аппарат дескрипционной логики. Онтология — это попытка всеобъемлющей и детальной формализации некоторой области знаний с помощью концептуальной схемы. Кратко представлены языки описания онтологии, стандарт онтологического исследования ГОЕР5. Рассматриваются программные средства работы с онтологиями. Представлен обзор методов, которые используют знания, заложенные в онтологии, для оценок семантической близости понятий и атрибутов. Обоснованы преимущества

подхода к интеграции разнородных источников данных на основе онтологического инжиниринга знаний с использованием семантики данных. На этой основе выполнена постановка задачи диссертационного исследования.

Вторая глава «Метод интеграции онтологий разнородных источников данных в АСУ промышленных предприятий. Математический аппарат» посвящена разработке метода интеграции онтологий разнородных источников данных АСУ промышленных предприятий и математического аппарата для его поддержки.

Из любого имеющегося источника данных, будь это база данных, XML-файл, таблица Excel - можно получить его онтологическое представление. Так, из любой действующей базы данных можно получить ее логическую схему. На основе полученной логической схемы можно получить концептуальную схему источника данных, которая и будет являться его онтологическим представлением.

Суть предложенного подхода, представленного на рисунке 1, состоит в том, что в процессе интеграции онтологии, извлеченные из различных АСУ промышленных предприятий, поочередно сравниваются с базовой онтологией, которая играет роль эталона при обнаружении лексических и семантических конфликтов и сама может

После интеграции онтологий получим расширенную (искомую) онтологию предметной области, на основе которой можно автоматически получить схему базы данных корпоративного хранилища. В дальнейшем на основе анализа запросов к

хранилищу можно будет денормализовать схему и создать все необходимые индексы, после чего передать в хранилище сами данные через фильтр очистки данных.

Представленный подход к интеграции предполагает выполнение следующих этапов в процессе создания и наполнения корпоративного хранилища.

1. Преобразование в единый онтологический формат метаданных АСУ.

2. Разработка базовой онтологии предметной области на основе опыта экспертов и нормативных документов.

3. Поиск лексически схожих понятий и атрибутов базовой и каждой из интегрируемых онтологий.

4. Поиск семантически близких понятий и атрибутов базовой (расширенной базовой) и каждой из интегрируемых онтологий.

5. Подтверждение обнаруженной семантической близости онтологом-интегратором.

6. Интеграция семантически близких понятий и атрибутов интегрируемой и базовой (расширенной базовой) онтологий. Уточнение структуры хранилища.

7. Передача самих данных в хранилище.

Этапы 2 и 5 принципиально не могут быть автоматизированы, поскольку основаны на человеческом опыте и интуиции. Все остальные этапы поддаются автоматизации, при этом задача интеграции разнородных источников данных АСУ промышленных предприятий сводится к подзадаче интеграции их онтологий. На сегодняшний день использование онтологий для семантической интеграции затрудняется из-за следующих проблем:

1. Отсутствие возможности автоматического определения соответствия двух интегрируемых онтологий.

2. Наличие конфликтов в интегрируемых онтологиях, основные из которых:

• два понятия или атрибута имеют разные названия и одинаковый смысл; •два понятия или атрибута имеют одинаковые названия и разный смысл;

• два понятия или атрибута могут пересекаться, но не совпадать;

• различные типы данных, единицы измерения, декомпозиция атрибутов.

3. При реализации программного продукта интеграции онтологий может возникнуть проблема производительности для обеспечения логического вывода. Указанные проблемы нужно учесть при разработке метода интеграции онтологий.

Множество понятий и атрибутов расширенной (искомой) онтологии предметной области, на основе которой автоматически формируется структура корпоративного хранилища, схематично показано на рисунке 2. Базовая онтология предметной области, содержащая экспертные знания, в процессе интеграции остается неизменной, при этом дополнительные знания, извлеченные из интегрируемых АСУ

промышленных предприятий, составляют изменяемую часть, расширяющую множество понятий и атрибутов базовой онтологии.

постепенно

-'изменяемая область4

Расширенная

базовая

онтология

) )

Рисунок 2 - Пересечение множеств понятий и атрибутов онтологии

Исходя из вышесказанного, основными и наиболее сложными задачами при интеграции онтологий являются:

1. Автоматическое определение семантической близости понятий и атрибутов;

2. Интеграция семантически близких понятий и атрибутов.

Для определения семантической близости понятий и атрибутов онтологий будем использовать единую онтологическую модель (1):

О = < С, Т, Р, F, А > , (1)

где С - понятия ; Т - частичный порядок на множестве(иерархия) С; F - функция, которая назначает каждому элементу множества Р множество элементов из множества С (с учетом их иерархии в Т); А - атрибуты, Р - свойства.

На основе такой онтологической модели О описание объекта Ri может быть представлено в виде набора семантических метаданных следующей структуры (2):

м i = (М ki (О), М ci (О)) , (2)

где Mtl (О) - это контекстные метаданные объекта знаний, описывающие взаимосвязи объекта с другими объектами и понятиями рассматриваемой предметной области a Mci(0) - контентные данные ресурса, описывающие информацию, которая содержатся в объекте. Контекстные данные соответствуют набору значений свойств понятий (cj с С), т.е. (3):

М ki (О) = (Р 1 (О j, v ! ), и р 2 (О j, v 2 ) ^ ... ^ Р г (О j, v г )) , (3) где утверждение р,(0|, V|) состоит из предиката (отношения) (р, е Р), описанного в онтологии. Контентные данные Mci(0) описываются наборами утверждений (4) из 03.

Mci(0)={pi(sb vj), k1}^{p2(s2,v2),k2}u...u{pk(sk,vk),kk} , (4) где {p,(sj, vj), k|} кортеж, включающий утверждение p,(s„ v,) (соответствующее RDF триплету (si, p„ vj) и kj - важность данного утверждения для описания контента объекта знаний i. Подобие между данными <I>(MDi, MDj) может быть определено через подобие входящих в них утверждений (5):

¡^^еМЭ jSim(T (5)

где Ф(МОь MDj) - величина близости описаний объекта 1 и объекта]; энн (Т„ Т;) - величина близости утверждений (триплетов) Т) и Т^ входящих в сравниваемые описания. Величины эни (Т;, Тз) могут быть определены с использованием следующего выражения (6):

л'т(7},7у) = sim(lci,rjJ|<.ki),(cx,ryJzkw)) =

sim(c¡ ,сх) + sim {rj ,Гу) + sim (ifc ,/,)

f(k¡,kw)

(6)

где simfc,, c^) - семантическая близость понятий, используемых в утверждениях; sim(r¡, гуУ~ семантическая близость отношений онтологии; sim(ik, iz) — семантическая близость онтошений; f(kr, kw) — функция учета коэффициентов важности утверждений (используются разные варианты). Для каждого понятия (c¡ е С) существует множество Canc(c¡)> являющееся подмножеством С, и содержащее понятие, предшествующие понятию ci; а также само понятие (7):

Сапе (ci) = { cj е С | Тс (с j, c¡) v cj = c¡} . (7) Для оценки семантической близости двух понятий simc (ct, q) применим

формулу s'mc(ck>cl)-^

Jcanc(ck)nCanc(cl)|

|Сапс(ск) и Сапс

и добавим к ней меру близости, использующую глубину иерархии вершин понятий и атрибутов (ранг множества) и меру близости атрибутов иерархии. Оценивать семантическую близость понятий и атрибутов на каждом уровне будем отдельно, при этом введем весовые коэффициенты уровней (8), исходя из того, что сумма всех весовых коэффициентов К(п) должна равняться единице:

(Чг>

К (п) = 2 , (8)

л = к ; К (л ) = -——

где п = 1,2,3..., к; к - ранг множества.

Поместим иерархии сравниваемых онтологий в массивы значений (Матрицы А и В) - А:(к х п), В:(1 х т), где к, 1- количество уровней, рассматриваемых при нахождении семантической близости, п, ш — количество понятий или атрибутов уровней к, 1).

A(\,l),A(l,2),...,A(l,n) А(2,1),А(2,2),...,А(2,п)

А(к,\),А(к,2),...,А(к,п)

Тезаурус

В(1,1),В(1,2),...,В(1,/и) " В(2,1), В(2,2),..., В(2, т)

В(1МВЦ,2),...,ВЦ,т)

где = - семантическая близость.

Чтобы получить семантическую близость двух рассматриваемых понятий, необходимо вычислить взвешенную сумму семантических близостей каждого уровня понятий и атрибутов интегрируемой и базовой онтологий. Получаем (9):

К (п) „ Iе anc (с k, п ■) n с anc (с 1, m )[ ,

sim с (с к , с |) = £

п ,т

п,т 2 + I" - т

2 + \п - т | |С апс (с к> n ) и С апс (с m )|

(С anc

(9)

Рк (С апс (ак ,п )) ^ ,п (Сапе (я/,™)| где К/ „, /ч- п " близость атрибутов иерархии понятий, п, ш - уровень иерархии,

К(п) -весовой коэффициент уровня, Сапс(с)-иерархия дочерних атрибутов и понятий с, сь ск - рассматриваемые понятия. Из формулы (9) следует, что семантическая близость не выходит за пределы интервала от 0 до 1. Получаем (10):

знп с(ск,с1)е [0;1] . (Ю)

Алгоритм сравнения понятий и атрибутов использует тезаурус предметной области для нахождения соответствий синонимов.

Интеграция семантически близких понятий и атрибутов. Для формализации процесса было выполнено расширение набора функций интеграции онтологий, предложенное в работах И.С. Михайлова (функции объединения, разделения и конвертации). Для предлагаемого метода с учетом возможности пополнения базовой онтологии этот набор был расширен функцией дополнения Р<1 (11): с(1,2..*,0 г\Ср0гу,..М\А'р0 = Аро+(Аро-А(1у2..х))

А(1,2..Х)(Л'(1,2..Х),Г(1,2..х).^(1,2..х));.......V = (Л>,7>0,5Гр0), (11)

где А(1,2..х) - входное понятие или атрибут АСУ-(1,2..х) типа Т(12.х), имеющий наименование ]\[(,2 х), Аро - результирующее понятие или атрибут онтологии предметной области типа Тро , С(\ 2..х,1) " онтологии интегрируемых источников данных, Сро у - базовая (расширенная базовая) онтология, вУ - семантические метки

(наименования) понятий и атрибутов.

Представленный математический аппарат формализует задачу интеграции онтологий разнородных АСУ промышленного предприятия с базовой онтологией предметной области и позволяет выполнить значительную часть этого трудоемкого процесса в автоматическом режиме.

В третьей главе, «Разработка и анализ алгоритмов метода семантической интеграции разнородных источников данных АСУ промышленного предприятия»

содержится подробное описание процесса интеграции разнородных АСУ промышленного предприятия на основе предлагаемого метода интеграции онтологий. В целях конкретизации изложения представлен пример базовой онтологии предприятия перерабатывающей промышленности (предметная область - хранение и переработка зерна), которая позволяет вести количественно-качественный оперативный учет предприятия (в укрупненном виде она изображена на рисунке 3) .

Данная онтология не позволяет вести партионный учет, что связано с особенностями предметной области. Она не является эталоном онтологии предприятия перерабатывающей промышленности, но может быть использована как основа для решения схожих задач. На подготовительных этапах требуется также получить онтологии интегрируемых источников данных. Все онтологии представим в едином формате 0\УЬ-ЭЬ. После этого можно приступать к интеграции базовой онтологии с онтологиями, извлеченными из АСУ промышленного предприятия.

Рисунок 3 - Базовая онтология предметной области «Хранение и переработка зерна»

Для нахождения лексических (орфографических и синонимичных) сходств понятий и атрибутов онтологий будем использовать следующие правила:

- для сравнения атрибутов будем использовать сходство по их наименованию;

- для сравнения понятий будем использовать сходство по их наименованию и сходства по наименованию всех атрибутов понятий (на основании формулы (8)).

Поиск лексических сходств понятий и атрибутов интегрируемой и базовой (расширенной базовой) онтологий потребует использования словаря синонимов предметной области, так как наименования в различных источниках данных могут быть синонимами. Изначально при создании базовой онтологии предметной области нужно создать и словарь синонимов по следующим правилам:

1. Занести англоязычные наименования понятий и атрибутов.

2. Занести русскоязычные наименования понятий и атрибутов.

3. Занести наименования понятий и атрибутов с учетом транслитерации. Поиск лексических сходств основан на известном алгоритме нечеткого сравнения строк.

Далее приступаем к определению семантической близости понятий и атрибутов онтологий. На основе математической модели был разработан алгоритм определения семантической близости понятий и их атрибутов, представленный на рисунок 4. Данный алгоритм учитывает все особенности математической модели.

1. Учет веса понятий и атрибутов на разных уровнях (формула (8)) - каждый следующий в иерархии уровень обеспечивает в два раза меньше семантической близости чем, предыдущий.

2. Учитываются атрибуты понятий. На основании формулы (9) при поиске семантической близости понятий учитываются сходства их атрибутов.

3. Для сравнения понятий и атрибутов используется тезаурус предметной области и функция сходства понятий и атрибутов по заданным параметрам.

(начало")

загрузка бои но

цикл1-по

понятиям во

цикл2-ио понятиям по

/ \ ЦИКЛ 3 - ПО РАНГАМ

понятий БО Н но

ЦИКЛ 4-ПО ПОНЯТИЯМ УРОВНЯ _ЕО_

ЦНКЛ5-ПО ПОНЯТИЯМ УРОВНЯ

_но_

— 1

\

цикл в-по АТРИБУТАМ УРОВНЯ ПОНЯТИИЕО

А

/

ЦИКЛ 7-ПО АТРИБУТАМ УРОВНЯ

понятий но

ЦИКЛ 8-ПО ТЕЗАУРУСУ

сннонимов ЕО

вычисление семантического сходства

/фиксация результатов

конец цикла 8

конец цикла 7

конец цикла 6

X

конец цикла 5

конец цикла 4

конец цикла 3

конец цикла 2

конец цикла 1

' вывод результатов

с конец )

Рисунок 4 - Алгоритм определения семантической близости понятий онтологий В примере (рисунок 5) представлено вычисление семантического сходства двух понятий: «Предприятие» в базовой онтологии и «Организация» в интегрируемой. Начальные условия: Для атрибутов «Форма собственности», «Адрес» есть синонимы в тезаурусе предметной области атрибутов «Фактический Адрес» и «собственность». Атрибут «Руководитель» не имеет синонима «Начальник». Понятие «Места хранения» не имеет синонима «Склады» На основании формул (8), (9) получаем:

БАЗОВАЯ ОНТОЛОГИЯ ИНТЕГРИРУЕМАЯ ОНТОЛОГИЯ

Рисунок 5 - Пример поиска семантической близости

1 уровень: Simupe^,lplutmlle \ = 100% * * (Организация = Предприятие) +

+^ * {ИНН, Адрес, Форма_собственнасти s ИНН/ КПП, Фактадрес, Собственность)) = 50%.

Атрибут «ИНН/КПГ1» интегрируемой онтологии имеет одинаковое сходство с атрибутами «ИНН» и «КПП» базовой. Данное свойство означает, что этот атрибут имеет несколько вариаций в базовой онтологии и для интеграции необходимо будет воспользоваться функцией разделения;

2 уровень: Sim Предприятие, 2 = 1°0% * * (Места _ Хранения Ф Склады +

+ Подразделения = Подразделения) + i* ((Мол, Тип _скпада = Мол ,Тип _склада) + (Руководитель Ф Начальник))) - 50%

Подставляя значения в формулу расчета по уровням (8) получаем, е- _ 50% 50% _

¿""Предприятие,итог ~ ^ 2

Семантическая близость понятий «Предприятие» и «Организация» в данном примере равна 50%.

Результаты поиска семантически близких понятий и атрибутов выводятся для анализа и подтверждения онтологу-интегратору. Данный шаг необходим, так как в интегрируемых источниках может храниться «лишняя» информация, не требующаяся переноса в хранилище, и полученные результаты поиска семантической близости всегда будут носить вариационную оценку. Онтологу-интегратору будут предложены все варианты (с иерархией близости) семантически близких понятий и атрибутов интегрируемых онтологий источников данных. Данные могут дублироваться, дробиться на части, могут быть объединены, могут отсутствовать.

Если онтолог-интегратор принял решение добавить понятие или атрибут в онтологию, он должен воспользоваться одной из функций интеграции. Далее он проводит трансляцию выбранных понятий и атрибутов в структуру хранилища.

В данной главе также выполнена оценка вычислительной сложности алгоритмов на различных этапах интеграции, доказано, что ни один из них не выходит за пределы полиномиальной сложности, что обеспечивает приемлемое время их работы.

В четвертой главе «Применение полученных результатов к решению прикладной задачи интеграции разнородных источников данных предметной области «Хранение и переработка зерна» представлены результаты экспериментального исследования предложенного метода интеграции онтологии и прикладные результаты работы. Эксперимент проводился на реальных данных Вологодского комбината хлебопродуктов (ОАО «ВКХП») (мукомольное и комбикормовое производство).

Предприятие ОАО «ВКХП» имеет несколько автономных АСУ на различных технологических платформах с большой степенью дублирования информации:

1. АСККУ - Автоматизированная система количественно-качественного учета. Работает на СУБД SQL Server 2000.

2. «Корм - Оптнма» - программное средство учета комбикормового производства. Работает на СУБД Firebird.

3. 1С 7.7 Управление производственным предприятием «Хранение и переработка зерна» - Автоматизированная система управленческого учета направлений мукомольное, комбикормовое производство. Платформа 1С.

4. Программный комплекс АСК ТУР - Автоматизированная система контроля температуры и уровня продуктов в силосах элеватора. Работает на MySQL server.

5. АСУТП «Дозирование комбикормов» - Автоматизированная система управления технологическим процессом приготовления комбикормов. SQL Server.

В работе представлено описание реализации прототипа автоматизированной системы интеграции «АУПП - Интегратор» (рисунок 6).

В результате интеграции онтологии разнородных источников данных на ОАО «ВКХП» получили расширенную онтологию предметной области (рисунок 7). Как видно из представленной схемы расширенной онтологии, базовая онтология не изменила свою структуру (исходя из предложенного метода), а лишь дополнилась новыми знаниями из интегрируемых источников.

На основе полученной онтологии было автоматически сформировано единое корпоративное хранилище данных для комбината хлебопродуктов, в котором сосредоточена информация обо всей основной деятельности предприятия (переработка зерна и компонентов, получение муки и комбикормов).

Рисунок 6 - Схема работы прототипа системы интеграции

-| Документооборот П..»ептар»тп.и."я~

""¡"п с рс р а ботка

Качественные параметры ^

Прочее ,_

| Фермептг.г

Рисунок 7 - Расширенная онтология предметной области после интеграции

Результаты эксперимента по поиску близких понятий и атрибутов онтологии БД АСУ «АСККУ» и «Корм-Оптима» с участием базовой онтологии представлены в таблице 1.

Из таблицы 1 видно, что алгоритм поиска сходства на основе лексической близости значительно уступает по количеству найденных близких понятий и атрибутов алгоритму поиска сходства на основе семантической близости.

В таблице 2 представлены данные для количественной оценки результатов эксперимента и сравнения «ручного» и автоматического способов поиска близких понятий и атрибутов онтологий. В качестве критериев для сравнения способов поиска использовались:

• точность поиска — отношение количества найденных близких понятий и атрибутов к их реальному количеству;

• полнота поиска - отношение количества не найденных в результате поиска, но существующих близких понятий и атрибутов, к их реальному количеству;

• время поиска.

Таблица 1 - Результаты поиска близких понятий и атрибутов онтологий

Показатель Базовая онтология Онтология БД АСККУ Онтология БД Корм-Оптима

Количество понятий и атрибутов 170 220 40

Количество найденных лексически близких к базовой онтологии понятий и атрибутов 85 15

Количество найденных семантически близких понятии и атрибутов 145 26

Количество найденных семантически близких, но лексически различных понятий и атрибутов 64 12

Количество найденных лексически близких, но семантически различных понятий 4 2

Таблица 2 - Сравнение количества найденных близких понятий и атрибутов и

времени поиска

Показатель и способ поиска БД АСККУ АСУТП «Дозирование комбикормов» БД Корм-Оптнма

кол. время кол. время Кол. время

Количество найденных: вручную 115 8 ч. 53 4 ч. 22 2 ч.

Количество не найденных: вручную 29 15 6

Кол-во найденных ошибочно: вручную 2 0 0

Количество найденных: ПО 145 1,5 ч. 68 40 м. 26 20 м.

Кол-во найденных ошибочно: ПО 9 3 0

Количество не найденных: ПО 6 3 2

В эксперименте по «ручному» поиску близких понятий и атрибутов принимала участие группа сотрудников ОАО «ВКХП», реальное количество близких понятий и атрибутов было определено в результате тщательного анализа всех результатов поиска. Из таблицы 2 видно, что чем больше онтология по объему, тем сложнее человеку вручную находить соответствия и тем больше ему требуется на это времени. На основе данных таблицы 2 были рассчитаны точность и полнота поиска Точность вручную = 99%, точность с помощью ПО «АУПП - Интегратор» = 95% Полнота вручную = 79%, полнота с помощью ПО «АУПП - Интегратор» = 96%.

Следует отметить, что результаты, полученные в результате автоматического поиска, будут затем обработаны человеком, что позволит повысить точность автоматизированного поиска до уровня точности ручного поиска.

Важным практическим результатом эксперимента по интеграции разнородных АСУ промышленного предприятия явилось повышение оперативности и достоверности при подготовке данных, необходимых для принятия руководством предприятия обоснованных управленческих решений. Так, до интеграции бухгалтеру для получения сводного отчета по всем направлениям (комбикормовое, мукомольное) за период 2004-2012г. потребовалось несколько дней. После интеграции этот же отчет был сформирован в автоматическом режиме по информации из хранилища данных за 15 минут. Запросы были выполнены на сервере со следующими параметрами: процессор - intel xeon 2,3 ГГц, оперативная память — 4 Гб.

При сравнении сводных отчетов за предыдущие периоды (2008-2012), сформированных ранее вручную (до интеграции) и автоматически на основании данных хранилища, было обнаружено расхождение количественных показателей на 3%, что говорит об ошибках в процессе ручной подготовки данных, поскольку в хранилище помещены данные непосредственно из первоисточников и ошибки, связанные с «человеческим фактором», исключаются. С момента внедрения «АУПП -Интегратор» на Вологодском комбинате хлебопродуктов появилась возможность подготовки данных для принятия управленческих решений на уровне предприятия в автоматическом режиме.

III. ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Разработан метод семантической интеграции онтологий, извлеченных из разнородных источников данных АСУ, с использованием базовой онтологической модели промышленного предприятия, позволяющий осуществить глубокую интеграцию разнородных данных и избежать лексических и семантических конфликтов в процессе интеграции.

2. Разработан математический аппарат для поддержки процесса интеграции разнородных источников данных.

3. Разработан алгоритм поиска семантически близких понятий и атрибутов на основе предложенной математической модели.

4. Разработан прототип автоматизированной системы интеграции разнородных данных АСУ промышленного предприятия, позволивший эффективно провести интеграцию разнородных источников данных АСУ на Вологодском комбинате хлебопродуктов.

IV. СПИСОК ОПУБЛИКОВАНЫХ РАБОТ

Статьи в журналах, рекомендованных ВАК России:

1. Кузнецов, Д.П. Метод интеграции разнородных источников данных на предприятии перерабатывающей промышленности [Текст] / Д.П. Кузнецов // Системы управления и информационные технологии. - 2012. - №3(49). - С. 45-53.

2. Кузнецов, Д.П. Метод онтологического инжиниринга знаний в АСУП на примере предприятия перерабатывающей промышленности [Текст] / Д.П. Кузнецов// Системы управления и информационные технологии. - 2013. — №1(51). - С. 44-48.

Публикации в других, изданиях:

3. Кузнецов, Д.П. Автоматизация расчета и ведения помольных партий для мукомольного производства [Текст] / Д.П. Кузнецов // Вузовская наука - региону: Материалы седьмой всероссийской научно-технической конференции. В 2-х т. -Вологда: ВоГТУ. 2009. -ТА. - С. 70-72.

4. Кузнецов, Д.П. Программное обеспечение по ведению и расчету помольных партий для автоматизации мукомольного производства [Текст] / Д.П. Кузнецов // Молодежь и высокие технологии: Всероссийский конкурс компьютерных программ. -Вологда: ВоГТУ, 2009. - С. 25-27.

5. Кузнецов, Д.П. Автоматизация технологического процесса производства помольных партий для мукомольного производства [Текст] / Д.П. Кузнецов // Молодые исследователи - регионам: Материалы всероссийской научно-технической конференции. В 2-х т. - Вологда: ВоГТУ, 2009. - С. 80-81.

6. Кузнецов, Д.П. Подходы к интеграции разнородных баз данных [Текст] / Д.П. Кузнецов, С.Ю. Ржеуцкач /V Вузовская наука - региону: Материалы седьмой всероссийской научно-технической конференции. В 2-х т. - Вологда: ВоГТУ, 2010. -Т. 1. - С. 93-95. (Соискатель 50%).

7. Кузнецов, Д.П. Семантическая интеграция разнородных баз данных [Текст] / Д.П. Кузнецов, С.Ю. Ржеуцкая // Молодые исследователи - регионам: Материалы всероссийской научно-технической конференции. В 2-х т. - Вологда: Bol ТУ, 2010. -С. 93-95. (Соискатель 80%).

8. Кузнецов, Д.П. Интеграция (отображение) онтологии - разнородных, реляционных баз данных, на основе математического аппарата дискрипционной логики [Текст] / Д.П. Кузнецов // Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и систем искусственного интеллекта (ИНФОС-20Н): Материалы 6-й международной научно-технической конференции. -Вологда: ВоГТУ, 2011. - С. 101 -105.

9. Кузнецов, Д.П. Интеграция онтологий разнородных баз данных на предприятии перерабатывающей промышленности [Текст] / Д.П. Кузнецов, С.Ю. Ржеуцкая // Информационные технологии моделирования и управления. — 2011. -№7(72). - С. 846-854. (Соискатель 70%).

Подписано в печать 14.11.2013. Формат 60 х 84 '/, Бумага офисная. Печать офсетная. Усл.-п.л. 1,0. Тираж 100 экз. Заказ № 477.

Отпечатано: РИО, ВоГУ 160000, г. Вологда, ул. Ленина, 15

Текст работы Кузнецов, Дмитрий Павлович, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Вологодский государственный технический университет»

МЕТОД И СРЕДСТВА ИНТЕГРАЦИИ ОИТОЛОГИЙ РАЗНОРОДНЫХ ИСТОЧНИКОВ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ УПРАВЛЕНИЯ ПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ

05.13.06 — Автоматизация и управление технологическими процессами и производствами (промышленность)

На правах рукописи

04201456257

Кузнецов Дмитрий Павлович

ДИССЕРТАЦИЯ диссертации на соискание ученой степени кандидата технических наук

Научный руководитель: Ржеуцкая Светлана Юрьевна, к.т.н., доцент

Вологда, 2013

Оглавление

Введение....................................................................................... 4

Глава 1. ПОДХОДЫ К ИНТЕГРАЦИИ РАЗНОРОДНЫХ ИСТОЧНИКОВ ДАННЫХ В АСУ ПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ......................................................................... 9

1.1. Методы и проблемы интеграции данных.................................... 9

1.2. Средства интеграции данных на основе онтологического подхода.... 24

1.3 Постановка задачи диссертационного исследования....................... 44

Глава 2. МЕТОД ИНТЕГРАЦИИ ОНТОЛОГИЙ РАЗНОРОДНЫХ ИСТОЧНИКОВ ДАННЫХ В АСУ ПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ. МАТЕМАТИЧЕСКИЙ АППАРАТ................................................... 47

2.1 Обоснование выбранного решения............................................ 47

2.2 Метод интеграции онтологий разнородных источников данных в АСУ промышленного предприятия......................................................... 47

2.3 Математический аппарат интеграции онтологий разнородных источников данных в АСУ промышленного предприятия

....................................................................................................................... 53

Выводы по главе 2........................................................................ 59

Глава 3. РАЗРАБОТКА И АНАЛИЗ АЛГОРИТМОВ МЕТОДА СЕМАНТИЧЕСКОЙ ИНТЕГРАЦИИ РАЗНОРОДНЫХ АСУ ПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ.............................................. 61

3.1. Последовательность этапов интеграции онтологий разнородных АСУ промышленных предприятий при формировании корпоративного хранилища данных....................................................................................... 61

3.2. Оценка вычислительной сложности алгоритмов интеграции онтологий

разнородных АСУ промышленных предприятий................................... 70

Выводы по главе 3.......................................................................... 72

Глава 4. ПРИМЕНЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ К РЕШЕНИЮ ПРИКЛАДНОЙ ЗАДАЧИ ИНТЕГРАЦИИ РАЗНОРОДНЫХ ИСТОЧНИКОВ ДАННЫХ ПРЕДМЕТНОЙ ОБЛАСТИ «ХРАНЕНИЕ И ПЕРЕРАБОТКА

ЗЕРНА»...................................................................................... 73

4.1 Анализ предметной области........................................................ 73

4.2. Реализация автоматизированной системы..................................... 78

4.3. Внедрение метода и средств интеграции онтологий разнородных АСУ

на ОАО «Вологодский комбинат хлебопродуктов»........................ 87

Выводы по главе 4......................................................................... 93

Заключение.................................................................................. 95

Список литературы........................................................................ 98

Приложение А. Алгоритм нечеткого сравнения строк.............................. 108

Приложение Б. Алгоритм семантического поиска строк........................... 109

Введение

Актуальность темы исследования и степень её разработанности.

Современные российские промышленные предприятия, многие из которых функционируют на протяжении длительного периода времени, обычно имеют громоздкую и сложную информационную инфраструктуру, включающую источники данных различных автоматизированных систем управления (АСУ), -базы данных разных форматов, электронные таблицы, текстовые файлы и т.д.

Такое положение, сложившееся в результате многолетней «островковой» автоматизации, усложняет совместное использование данных из различных источников, снижая оперативность и достоверность при подготовке данных для принятия управленческих решений на уровне предприятия.

В настоящее время многие промышленные предприятия решают задачу интеграции данных различных АСУ, выбирая надежный и проверенный способ консолидации данных в единое корпоративное хранилище (Data Warehouse).

В силу возможного (и весьма вероятного) наличия структурных, лексических и семантических конфликтов в различных источниках данных, формирование хранилища данных представляет собой сложный многоэтапный процесс, который нужно рассматривать в контексте более общей задачи управления корпоративными знаниями.

В связи с этим пристального внимания заслуживает онтологический подход к интеграции данных, который развивается в работах А.Н. Бездушного[61], И.А. Васильева[63], И.С. Михайлова[95], Т.А. Гавриловой[67]. Важные вопросы управления производством представлены в работах Д.А. Поспелова[98,97], Ю.И. Клыкова[75], Р.И. Макарова[93,59], Д.В. Александрова[59], А.В. Кострова[59,94], П. Мертенса[94].

Анализ показал, что в настоящее время не существует теоретически обоснованного метода интеграции онтологий разнородных источников данных АСУ, на рынке программного обеспечения представлены лишь частичные решения для автоматизации отдельных этапов процесса интеграции данных, при этом специфика промышленных предприятий в них не учитывается. В связи с

этим тема диссертации, посвященная семантической интеграции разнородных данных АСУ промышленного предприятия на базе онтологического подхода, является актуальной.

Дополнительным мотивом для выполнения диссертационного исследования явилась острая необходимость интеграции данных различных АСУ на Вологодском комбинате хлебопродуктов с целью преодоления проблем многолетней «островковой» автоматизации предприятия.

Объектом исследования являются процессы интеграции автоматизированных систем управления на промышленных предприятиях.

Предмет исследования - модели, методы и алгоритмы интеграции онтологий разнородных источников данных АСУ промышленных предприятий.

Цели и задачи. Основной целью настоящей работы является повышение оперативности и достоверности при подготовке данных для принятия управленческих решений на промышленных предприятиях.

В соответствии с заявленной целью необходимо решить следующие задачи:

1. Провести анализ существующих методов интеграции АСУ, выявить преимущества онтологического подхода к интеграции данных.

2. Разработать метод семантической интеграции онтологий, извлеченных из источников данных АСУ промышленных предприятий, позволяющий осуществить глубокую интеграцию и устранить лексические и семантические конфликты разнородных источников данных.

3. Проанализировать имеющийся математический аппарат для поддержки процесса интеграции онтологий, при необходимости выполнить его модификацию.

4. Разработать алгоритмы для поддержки процесса интеграции онтологий.

5. Разработать прототип автоматизированной системы интеграции данных АСУ промышленного предприятия.

Научная новизна работы заключается в следующем:

- разработаны: новая научная идея по определению семантической близости понятий и атрибутов онтологий разнородных источников данных АСУ

промышленных предприятий, множество операций интеграции онтологий и алгоритм поиска семантически близких понятий и атрибутов онтологий;

- предложен нетрадиционный подход к семантической интеграции онтологий, извлеченных из разнородных источников данных АСУ, с использованием базовой онтологической модели промышленного предприятия, позволяющий устранить структурные, лексические и семантические конфликты в процессе интеграции;

- доказана перспективность и практическая значимость исследований для решения задачи интеграции источников данных АСУ промышленных предприятий;

- введены измененные трактовки понятий семантической и лексической близости применительно к элементам онтологий.

Теоретическая значимость работы:

- доказаны положения, вносящие вклад в расширение представлений об интеграции онтологий разнородных источников данных АСУ промышленных предприятий за счет применения идей и технологий «Semantic Web»;

- применительно к проблематике диссертации результативно (эффективно, то есть с получением обладающих новизной результатов) использован комплекс существующих базовых методов исследования, в том числе численных методов, экспериментальных методик, методов теории множеств и дескрипционной логики;

- изложены идеи и положения, доказывающие применимость предлагаемого подхода к интеграции онтологий в АСУ промышленных предприятий;

- раскрыты противоречия и выявлены проблемы интеграции онтологий разнородных источников данных;

- изучены связи процесса интеграции онтологий с другими этапами интеграции источников данных АСУ и факторы, предопределяющие изменение семантической близости понятий и атрибутов онтологий при изменении базовой онтологической модели и словаря синонимов предметной области;

- проведена модернизация существующих математических моделей, алгоритмов, обеспечивающих получение новых результатов по теме диссертации.

Практическая значимость работы:

- разработаны и внедрены алгоритм поиска семантически близких понятий и атрибутов онтологий разнородных источников данных АСУ промышленных предприятий и прототип системы интеграции на промышленном предприятии ОАО «Вологодский комбинат хлебопродуктов» г. Вологды;

- определены перспективы практического использования полученных результатов при интеграции источников данных АСУ промышленных предприятий;

- создана система практических рекомендаций по реализации процесса интеграции источников данных АСУ промышленных предприятий;

- представлены методические рекомендации по дальнейшему совершенствованию и практическому использованию предложенного метода интеграции онтологий на промышленных предприятиях и в учебном процессе.

Методология и методы исследования. Теоретическая база исследования — дескрипционная логика, теория множеств, методы экспертных оценок.

Положения, выносимые на защиту:

1. Метод семантической интеграции онтологий, извлеченных из разнородных источников данных АСУ, с использованием базовой онтологической модели промышленного предприятия для устранения конфликтов в интегрируемых данных.

2. Математический аппарат для поддержки процесса интеграции онтологий разнородных источников данных АСУ промышленных предприятий, включающий математическую модель определения семантической близости понятий и атрибутов интегрируемых онтологий и множество операций интеграции онтологий.

3. Алгоритм поиска семантически близких понятий и атрибутов онтологий.

4. Прототип автоматизированной системы интеграции разнородных данных АСУ промышленного предприятия.

Степень достоверности и апробация результатов. Достоверность научных положений и выводов подтверждается корректным использованием математического аппарата при проведении исследований и результатами эксперимента на реальных данных промышленного предприятия.

Основные результаты диссертации докладывались и обсуждались на следующих семинарах и конференциях: международная научно-техническая конференция «ИНФОС-2011», всероссийская научно-техническая конференция «Вузовская наука - региону» (2009, 2010 гг.), всероссийская студенческая олимпиада «Конкурс компьютерных программ» (2009 г.), всероссийская научно-техническая конференция студентов и аспирантов «Молодые исследователи регионам» (2009, 2010 гг.). По теме диссертационной работы опубликовано 9 печатных работ, в том числе 6 без соавторов, из них 2 опубликованы в издании, рекомендованном ВАК.

Глава 1. ПОДХОДЫ К ИНТЕГРАЦИИ РАЗНОРОДНЫХ ИСТОЧНИКОВ ДАННЫХ В АСУ ПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ

В данной главе будут проанализированы методы и средства интеграции источников данных различных автоматизированных систем управления, функционирующих на промышленном предприятии, обозначены проблемы интеграции разнородных данных и обоснованы преимущества онтологического подхода к интеграции. На этой основе будет выполнена постановка задачи диссертационного исследования.

1.1 Методы и проблемы интеграции данных

Системы интеграции источников данных АСУ могут обеспечивать интеграцию данных на физическом, логическом и семантическом уровне.

1. Интеграция данных на физическом уровне с теоретической точки зрения является наиболее простой задачей и сводится к конверсии данных из различных источников в требуемый единый формат их физического представления.

2. Интеграция данных на логическом уровне предусматривает возможность доступа к данным, содержащимся в различных источниках, в терминах единой глобальной схемы, которая описывает их совместное представление с учетом структурных и, возможно, поведенческих (при использовании объектных моделей) свойств источников данных.

3. Первые два уровня не учитывают семантических свойств источников данных (смысла хранимой информации). Поддержку единого представления данных с учетом их семантических свойств в контексте единой онтологии предметной области обеспечивает интеграция данных на семантическом уровне.

Проблемы и задачи интеграции. Эксперты, выполняющие интеграцию разнородных источников данных, сталкиваются с определенными проблемами, которые приводят к необходимости решения следующих задач [61,63,67,95]:

1. Необходимо обеспечить систематизацию и структуризацию интегрируемых источников данных. Информация, хранящаяся в различных системах, может дублироваться или иметь пробелы. Подходы к её реструктуризации могут существенно отличатся в разных информационных системах.

2. Необходимо обеспечить унифицированный доступ к гетерогенным информационным ресурсам (состав которых может изменяться динамически).

Источники данных различных АСУ могут очень сильно различаться по применяемым технологиям, производительности, способам доступа к информации и т.п. Это требует индивидуального подхода к каждому источнику.

Существуют технологические ограничения современных систем управления базами данных (СУБД) и оборудования (объем хранения данных, производительность, надежность, простота сопровождения), которые приходится преодолевать организационными и технологическими средствами - путем создания нескольких баз данных (БД), разработки различного рода механизмов синхронизации, репликации и т.д.

Для распределения информации по нескольким БД могут иметь место политические мотивы (безопасность, и т.д.), основанные на технологических ограничениях. Места хранения данных могут быть территориально разобщены.

Однако при дальнейшем рассмотрении количество физических БД, хранящих корпоративные данные, и особенности реализации управляющих ими СУБД, не будут иметь принципиального значения.

Существуют стандарты и технологии, позволяющие унифицировать взаимодействие с разнородными источниками данных, применение их позволяет сделать прозрачной общую архитектуру интеграции.

3. Необходимо создать новый информационно-технологический ресурс, обеспечивающий интеграцию всех остальных систем и выполняющий роль диспетчера в ИТ-инфраструктуре компании.

Рассмотрим данные проблемы и причины их возникновения более подробно. Ключевым является понятие предметной области. Предметная область определяет набор понятий, которыми допускается оперировать.

Между предметными областями могут существовать отношения, например, предметные области, могут быть вложенными.

Современные СУБД позволяют моделировать описанную сильную связность внутри одной предметной области с помощью схем, на которых показаны связи между информационными объектами.

Например, в реляционных СУБД могут устанавливаться связи между таблицами, принадлежащими одной или разным схемам. Тем не менее, возникающие зависимости между схемами накладывают на схемы «обязательства», затрудняющие их эволюцию.

Из этих соображений, «техническая» связность между различными семантически предметными областями должна быть минимизирована.

Подсистема сбора и обработки данных АСУ обычно включает в себя (в соответствии с имеющейся практикой их реализации) универсальную (промышленную) СУБД, базу данных, а также программное обеспечение, поддерживающее технологические процессы (бизнес-процессы) определенной предметной области.

Автоматизация деятельности промышленных предприятий начиналась с разработки большого количества изолированных программ (приложений), каждое из которых позволяло решать свою, как правило, весьма узкую, задачу. Каждое приложение использовало свои файлы данных.

Данные приложений не были интегрированными и разделяемыми, приложения, как правило, не были разработаны в единой технологии и не обеспечивали унификацию интерфейса пользователя.

Такое решение было вынужденной необходимостью из-за отсутствия надлежащих технологий хранения данных и разработки информационных систем.

Следующим шагом явилось использование технологии баз данных и разработка корпоративных информационных систем (КИС), т.е. централизация функциональности, разр�