автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Односторонняя интеграция информационных систем в территориально распределённых организациях

кандидата технических наук
Тарханов, Иван Александрович
город
Москва
год
2009
специальность ВАК РФ
05.13.10
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Односторонняя интеграция информационных систем в территориально распределённых организациях»

Автореферат диссертации по теме "Односторонняя интеграция информационных систем в территориально распределённых организациях"

ИНСТИТУТ СИСТЕМНОГО АНАЛИЗА РАН

□03463732

На правах рукописи

Тарханов Иван Александрович

УДК 68IJ.001.25

ОДНОСТОРОННЯЯ ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ В ТЕРРИТОРИАЛЬНО РАСПРЕДЕЛЁННЫХ ОРГАНИЗАЦИЯХ

Специальность: 05.13.10 — "Управление в социальных и экономических

системах"

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва 2009

1 2 [.];.?

003463732

Работа выполнена в Учреждении Российской академии наук Институте системного анализа РАН в лаборатории 9-1 «Системного программирования».

Научный руководитель:

доктор технических наук, член.-корр. РАН Арлазаров Владимир Львович

Официальные оппоненты:

доктор технических наук, профессор Емельянов Николай Евгеньевич кандидат физико-математических наук, Хлюстов Кирилл Викторович

Ведущая организация:

Учреждение Институт проблем информатики Российской академии наук

Защита диссертации состоится «23» марта 2009 г. в 11 час. 00 мин. на заседании диссертационного совета Д 002.086.02 при Учреждении Российской академии наук Институте системного анализа РАН по адресу: 117312, г. Москва, пр-т 60-летия Октября, 9, ауд. 1506.

С диссертацией можно ознакомиться в научной библиотеке Учреждения Российской академии наук Института системного анализа РАН (г. Москва, пр-т 60-летия Октября, 9).

Отзывы на автореферат, заверенные печатью, просим направлять по адресу: 117312, г. Москва, пр-т 60-летия Октября, 9, диссертационный совет Д 002.086.02.

Автореферат разослан «20» февраля 2009 г.

Учёный секретарь диссертационного совета

доктор технических наук, профессор

Пропой А.И.

Общая характеристика работы

Актуальность темы

Проблемы интеграции внедряемых и внедрённых информационных систем (ИС) не удается избежать ни одной территориально распределённой компании, обладающей развитой структурой приложений в каждом региональном представительстве. Существует несколько основных способов организации взаимодействия, но если нельзя вносить изменения в код уже внедрённых систем, многие из них не подходят. В таком случае, организация доступа к базе данных (БД) внедрённой ИС напрямую становится практически единственным возможным способом интеграции.

Не редка ситуация, что при неправильной эксплуатации системы, наличии материальных, технических трудностей, большой географической распределенности организации с БД такой ИС становится трудно работать. Возможны нарушения и ошибки при вводе данных, появление избыточной или дублирующей информации в БД. Трудно извлекать какую либо информацию из таких БД, даже если их формат известен. Такие БД называются неподдерживаемыми.

Существует ряд программных средств, решающих, в том числе, и описанные проблемы. Но ориентированность одних из них на более широкий круг задач и анализ всего массива данных приводит к невозможности использования их динамически, с многократными обращениями к БД, накладывает существенные ресурсные и временные ограничения. Вторые показывают отличные результаты только на СУБД определённых производителей и требуют дополнительной разработки при интеграции с существующими системами.

Кроме того, проблемы односторонней интеграции и задача поиска и извлечения данных из неподдерживаемой реляционной БД в территориально распределённых организациях не обладают достаточной теоретической проработкой и характеризуются отсутствием концептуального подхода к решению. Отсюда и вытекает актуальность предложенной темы диссертации.

Цель данной работы:

Целью данной работы является создание инструмента односторонней интеграции между внедряемыми и внедрёнными системами, способного осуществлять извлечение данных из неподдерживаемой БД внедрённой системы в территориально распределенных организациях.

Объект и предмет исследования

Объект исследования - существующие классы инструментов интеграции корпоративных систем (Enterprise Application Integration), схемы интеграции, современные средства интеллектуального анализа больших объемов информации (Data Mining) и методика Knowledge Discovery in Databases. Предмет исследования - методы и алгоритмы применимые для анализа реляционных данных.

Метод исследования

В диссертационной работе использованы теории построения алгоритмов, теория множеств, теория вероятности, реляционная алгебра, нечёткая логика, методы проектирования информационных систем, объектно-ориентированные методы создания программного обеспечения и интеграции программных комплексов.

Научная и практическая новизна работы.

Автором получены следующие новые результаты:

1. Введено понятие односторонней интеграции.

2. Исследованы основные трудности поиска в территориально распределённых реляционных БД.

3. Разработан алгоритм, позволяющий выполнять извлечение данных из неподдерживаемых БД в территориально распределённых организациях.

4. Проведено теоретическое исследование возможностей использования алгоритма на объектно-ориентированных БД и объектных расширений над реляционными БД.

5. Разработана методика односторонней интеграции на основе алгоритма извлечения данных. Методика доработана и апробирована для решения ряда задач односторонней интеграции.

6. Разработан формат, основанный на текстовых ini-файлах и файлах XML Ii предназначенный для параметризации задачи интеграции и гибкой настройки всех этапов реализуемой методики.

7. Разработан и применён на практике программный модуль, реализующий основные этапы методики односторонней интеграции, способный решать разные задачи односторонней интеграции без дополнительной разработки и предварительной выгрузки всего массива данных.

Практическая значимость работы

Созданный программный модуль, обеспечивает одностороннюю интеграцию с неподдерживаемыми реляционными БД на серверах AS/400 Программно-технического комплекса Система Персонифицированного учета (ПТК СПУ) для Пенсионного Фонда России, в составе ИС Электронного Архива персонифицированного учета (ЭАПУ).

Апробация работы

Результаты исследований были представлены на семинарах Института системного анализа РАН (октябрь 2007 года, октябрь 2008 года, декабрь 2008 года) и научной конференции МФТИ (ноябрь 2008 года).

Публикации

Основные результаты, полученные в диссертации, опубликованы в четырёх статьях (одна из них в соавторстве).

Диссертация состоит из введения, четырех глав, заключения, содержит 24 рисунка, 5 таблиц и список литературы из 101 наименований. Объем работы -134 страницы.

Основное содержание работы

Во введении обосновывается актуальность темы диссертации, формулируются цели и задачи работы, указывается предмет и метод

5

проведенного исследования, отражена научная и практическая новизна, кратко описаны основные результаты исследования и внедрение результатов работы.

В главе 1 - ОБЗОР ИНСТРУМЕНТОВ И СХЕМ ИНТЕГРАЦИИ -

приводится обзор различных инструментов интеграции и классификация участвующих в интеграции систем, описываются типичные задачи односторонней интеграции и проблемы, которые приводят к появлению неподдерживаемых БД в территориально распределённых организациях. В конце главы приводится аналитический обзор существующих средств интеграции, способных решать задачи поиска и извлечения данных из БД.

Основные выводы обзора:

• Понятие односторонней интеграции информационных систем не имеет чёткого определения, хотя задачи, возникающие при организации взаимодействия с неподдерживаемой ИС, широко распространены.

• В случае, когда вносить изменения в существующую систему невозможно, организация доступа к БД внедрённой ИС напрямую из внедряемой ИС становится практически единственным возможным вариантом интеграции.

• В современных публикациях затрагиваются разные проблемы хранения данных в БД, но отсутствует тщательная проработка проблем БД, вследствие их эксплуатации в территориально распределённых организациях.

• В обзоре показано, что кроме повсеместно распространённых реляционных СУБД растёт популярность объектно-ориентированных и объектно-реляционных СУБД. Следовательно, имеет смысл изучить и проблемы неподдерживаемых БД не только с реляционной моделью данных.

• На рынке существует огромное количество инструментов интеграции. Но многие их них либо не пригодны для использования на промышленных СУБД с большими объёмами данных, либо их нельзя использовать динамически, с частыми обращениями к анализируемой

БД, из-за необходимости предварительной выгрузки всего массива данных. По этой же причине накладываются существенные временные и ресурсные ограничения. Другой класс приложений это СУБД с набором алгоритмов - мощный набор инструментов для выборки и анализа данных, которому не требуется предварительная выгрузка. Но, не смотря на то, что они имеют развитые интерфейсы (API) для использования в сторонних программах, требуется дополнительная разработка по встраиванию и тестированию работы этих модулей.

В главе 2 - МОДЕЛЬ НЕПОДДЕРЖИВАЕМОЙ БД И АЛГОРИТМ ИЗВЛЕЧЕНИЯ ДАННЫХ - вводится определение односторонней интеграции, представлена основанная на реляционной модели теоретическая модель неподдерживаемой БД, показано к каким изменениям в схемах реляционных отношений приводят проблемы неподдерживаемых БД в территориально распределённых организациях, вводится понятие результирующей схемы реляционной БД, в которой записывается история изменения схемы. Во второй части главы представлен алгоритм извлечения данных из неподдерживаемой БД. В работе алгоритма используется вероятностная оценка каждого поискового запроса и механизм вычисления соответствия результата этому запросу.

Односторонняя интеграция - это процесс взаимодействия между двумя ИС (ИС 1 и ИС 2), при котором выполняются следующие условия:

• в БД ИС 1 в результате интеграции создаются новые объекты или меняется состояние текущих.

• содержащиеся в БД ИС 2 данные в процессе интеграции никак не меняются.

Схема результирующего отношения

Теоретическая модель неподдерживаемой БД основана на реляционной алгебре А Дейта и Дарвена, как наиболее приближенной к существующим реализациям реляционнополных языков.

Удалённым атрибутом а" в заголовке Нг отношения г называется атрибут, который был удалён из начального заголовка Нг.

7

Добавленным атрибутом а+ в заголовке Нг отношения г называется атрибут, который был добавлен в начальный заголовок Нг отношения.

Искажённым атрибутом ас в заголовке Нг отношения г называется атрибут, у которого был изменён тип:

Нг{<а, ТА>} => №{<ас, Т^>},где ТА * Т=и а= ас;

Переименованным атрибутом а" в заголовке Нг отношения г называется атрибут, у которого было изменено имя:

Нг{<а, ТА>} => Нг{<аЕ, Т*>},где ТА = ТАиа *а*.

Одновременное искажение — несколько искажений возможно в одной БД:

Нг{а,ьс'лс'}.

Для всех изменений атрибутов возможны параллельные изменения -несколько параллельных изменений одного и того же атрибута не возможны в одной БД:

Нг{а,ЬЛч,с}.

Результирующим заголовком Нгк отношения г называется заголовок, в котором отражены все изменения атрибутов (добавление, удаление, переименование и искажение) относительно начального заголовка Нг.

Теорема. Все операции с атрибутами, отражающиеся в результирующем заголовке отношения, выражаются через базисные операции реляционной алгебры А Дейта и Дарвена.

В доказательстве показывается, как через <ЛЕМОУЕ>, <ЛЫО> и <МОТ> -базисные операции алгебры А - выполняются операции со схемой: удаление, добавление, переименование и искажение атрибута.

Неподдерживаемой базой данных Э называется база данных, в которой в множестве пар <Уаг, Нг> хотя бы с одним заголовком Нг проводилась операция удалёния, добавления или искажения атрибута и для данного заголовка можно построить результирующий заголовок Нгй, который не равен исходному Нг.

Следствие. Все операции классической реляционной алгебры справедливы для неподдерживаемых отношений, согласно тому, что все

операции классической реляционной алгебры Кодда выражаются через базисные операции Лгебры Л Дейта Дарвена.

Алгоритм извлечения данных из неподдерживаемой БД

Степень доверия запросу

Для предварительной оценки каждого запроса предлагается использовать вероятностный подход. Добавление, удаление и переименование атрибутов в схеме можно легко проверить, обратившись один раз к схеме отношения. В этих случаях оценка не требуется. Порядок вычисления степени доверия запросу:

1. определить причину отсутствия достоверности атрибута в результирующей схеме;

2. определить событие, при котором атрибут является достоверным;

3. определить вероятность этого события, учитывая состояние атрибута в результирующей схеме и, в каком количестве БД каждое изменение атрибута могло произойти;

4. определить степень доверия (а), исходя из логики запроса.

Причины искажения атрибутов в схеме:

Наличие ошибок при вводе:

пит_а11 '

где пит егтог - количество значений кортежей, где была допущена ошибка, пиш_а11 - общее число кортежей в отношении. Отсутствие актуализированных данных:

где 1пеЯ— время предполагаемого следующего обновления, время на

текущий момент, время последнего обновления, пит_ирс!а1е - число обновляемых значений кортежей с момента ^ до момента 111еи, пит_а11 -общее число кортежей в отношении. Как правило, 11ш1ауи ^задаются в

днях.

Р,

num error

Р,

пищ а!1

Неполнота данных:

р ._ num_change ch8~ num_all '

где num_change - число значений кортежей, введённых после изменения типа, num_all - общее число кортежей в отношении.

Достоверность атрибута.

В каждом запросе, для каждого условия на атрибут из схемы БД необходимо вычислить вероятность достоверности этого атрибута. Вероятность достоверности зависит от искажений атрибута в результирующей схеме и от количества БД, где это искажение произошло.

Hr{a,bc'ACj,cC5VC«}

P(Sb-") = 1 - Р(Аь=ьС1 иВь=ь") = 1 -(ЦаР(Аь=ьС' ) + цв Р(В""ьа) -цАР(Ль=ьа) цз Р(ВЬ=Ь°))

p(sc-") = 1 - Р(С° u D"cC1)=1 - (цсР(сь=ьП)+ц0 рда^"")),

где Sb"'' и S"'' - события, при которых значения атрибутов b и с достоверны; P(Sb"'') и P(S"'') - вероятности этих событий; Abal,cl, , Сс , - события, при которых искажаются атрибуты b и с, при этом

искажения с, и с,- одновременные, а искажения с3 и с4- параллельные; цА,цв,цс,ц0 -коэффициенты территориального распределения.

рюЫст bdiD

где bd^fc,- количество БД, где имеет место событие A, bd,„- общее число БД.

С учётом логических операций в запросе а вычисляется согласно таблице:

Запрос Степень соответствия запросу

a ="string"A b > 0 а = P(Sa=s,mg)P(Sb>0)

а ^'вйтл^'у Ь > 0 а = Р(8а=яг,"с) + Р(5Ь>0) - Р(8"т"е )Р(5Ь>")

—.(а ^Шгш") а = 1-Р(8а""""8)

Индекс соответствия запросу

В самом простейшем случае, когда поиск состоит из одного запроса, по одному реквизиту:

(}С1 = Кч,

где ц- результат проверки условия запроса на значении кортежа, ц = 1, если значения кортежа удовлетворяет условию и г\ = 0, если нет. К - коэффициент доверия условию, определяет степень влияния условия на результат запроса в целом. Кб [0,1]. (}С1 вычисляется, исходя из логики запроса.

Запрос Индекс соответствия запросу

Л,°=1 (а -'—")■, (201= ¿К ¡п,

V?., (а ="..."); дС1 = шах(К,л„КЛ>...,К„П„)

•Ча ="...") (}С1 = 1 - К л

Удобно для подбора коэффициентов доверия представлять условия запроса в виде графа.

Графом поискового запроса называется граф (V,E(V)), где V - множество вершин, E(V) с (V х V) - множество дуг, такой, что выполняются следующие условия.

1. V разбивается на подмножества:

• V'- терминальных вершин (условий на атрибуты результирующего отношения),

• V* - вершин-конъюнкций (логическая операция «И»),

• Vv - вершин-дизъюнкций (логическая операция «ИЛИ»);

• V" - вершин-отрицаний (логическая операция «НЕ»); причем корневая вершина v0 не принадлежит ни одному из них.

2. Для всех ve Vh v^v0, существует единственная дуга (V, входящая в V. Будем говорить, что v подчинена v'. Для v0 нет входящих дуг. Для любого veV\ v е Vv, veV" исходящая дуга всего одна и в таком случае v подчинена лишь одной вершине из V . Существует только одна подчинённая v0 дуга в E(v).

3. Если v содержится в V', то множество E(v)={v':(v,v') € E(V)} подчиненных ей вершин пусто.

4. Если vsV" или v€ V', то из нее исходит хотя бы две дуги.

5. Если v s V", то из нее исходит только одна дуга.

6. Если ve V" и v'eV', то любая дуга из множества исходящих из вершины дуг E(v) и входящих в v' обладает заранее заданным весом К

(коэффициентом доверия условию). =1, где п размер множества

E(v).

7. Если v е VA, то входящая в неё дуга обладает весом К, вычисляемым как сумма всех весов подчинённых v вершин.

8. Еслиуе V", то входящая в неё дуга обладает весом К, вычисляемым как максимум всех весов подчинённых V вершин.

9. Если V б V", то входящая в неё дуга обладает весом К. вычисляемым как разность единицы и веса исходящей дуги от подчиненной V вершине.

10.Дляу„ соблюдается следующее условие: исходящая из у0 дуга имеет вес К=1.

Подмножества не пересекаются, из (2) следует, что граф (У,Е) -

дерево с корнем у0 .

Алгоритм поиска в неподдерживаемой БД Вход:

• результирующая схема отношения Нгк, Нгв * Нг;

♦ поисковый запрос:

о объект поиска - множество атрибутов X е Нг;

о условие запроса - множество условий на атрибуты YeHr,n=|Y|, соединённые «л», «v», «-,» с использованием скобок;

• отношение г, m =] г|, Нг соответствует исходному заголовку г .

Выход: отношение result с заголовком X, result=0.

Шаг 1. Если Va( eHrR,ai е Y, 1 < i < n, aä =>а*илиа( =>а;илна; =>af, то ai Z, Z - множество атрибутов.

Шаг 2. Проверка наличия в заголовке г всех возможных атрибутов из Z. Если атрибут не содержится в заголовке г, то он удаляется из Z и Y.

Шаг 3. Формирование окончательного вида запроса (удаление условий на несуществующие атрибуты).

Шаг 4. Вычисление степени доверия запросу — а.

Шаг 5. Vtri,trjer,l£j<m,m=|r|:

Шаг 5.1. Проверка каждого условия запроса на атрибуты из Y для tr^a^raea, eHrR,a, е Y,lsi<n.

Шаг 5.2. Вычислить индекс соответствия запросу - QCIj для tr^Y].

Шаг 5.3. Сравнение QCIj со степенью доверия запросу: если QCTj > а, то 1гДХ]и QCIj -> result.

Шаг 6. Сортировка всех кортежей result по QCI.

В главе 3 - МЕТОДИКА И ПРОГРАММНЫЙ МОДУЛЬ ОДНОСТОРОННЕЙ ИНТЕГРАЦИИ - представлены расширения алгоритма, связанные с оптимизацией его работы, исследование возможностей применения алгоритма на объектно-ориентированных СУБД и объектных расширениях над реляционными СУБД, собственно методика односторонней интеграции, её сравнение со стандартной методикой Knowledge Discovery in Database, методика подбора коэффициентов доверия условию. В главе описываются технологии и программные средства, рассматриваемые при выборе средств разработки инструмента односторонней интеграции ИС в территориально распределённой организации, реализующего основные этапы методики.

Исследование возможностей использования с другими моделями БД

Для объектно-ориентированных БД схема описывается графом. Схемой БД называется граф (У,Е(У)), где V - множество вершин, Е(У) - множество дуг.

Результирующей схемой объектно-ориентированной БД является граф, в котором отражены все изменения (добавление, удаление, переименование и искажение) вершин.

Среди множества реализаций объектно-реляционной модели БД, согласно стандарту SQL 1999, основными отличительными компонентами являются структурные, определяемые пользователями типы данных (User Defined Type - UDT) и типизированные таблицы (Typed Table). На реляционную модель это накладывает некоторые ограничения.

Пусть в отношении Нг{<а, ТА>} домен атрибута а -ТЛ равен отношению с заголовком НгА {<Ь, Тв>, <с , Тс>} и результирующая схема НгЛК отличается от исходной схемы НгА. Например, Нг^ {<Ь, Тв>, <с~, Тс>}. Тогда домен ТА меняется. Имеет смысл построить результирующее отношение для Нг -

HrR{<ac,TAc>}.

Этапы методики односторонней интеграции с неподдерживаемой БД:

1. Параметризация задачи односторонней интеграции. В неё входит:

a. Определение объекта поиска как множества атрибутов одного или нескольких отношений.

b. Построение результирующих схем для отношений в БД.

c. Выделение сужающего запроса анализируемых отношений для оптимизации - первичная выборка.

(1 Определение условия отбора <ЗС1 по а . По умолчанию, С>С1 > а.

с. Определение дополнительных параметров запросов, если это необходимо.

2. Предварительный анализ до обращения к данным. Формируется окончательный вид поискового запроса или нескольких поисковых запросов.

a. Для каждого запроса вычисляются вероятности достоверности атрибутов и вычисляется степень доверия запросу (а).

b. Каждый из запросов анализируется считаются коэффициенты доверия условиям в запросе.

3. Первичная выборка. Получение отношения или отношений для анализа алгоритмом.

4. Применение алгоритма поиска в неподдерживаемой БД.

5. Постобработка данных. Если необходимо, делается сортировка или группировка, слияние с другими результатами, если использовалось несколько запросов. Здесь же делается интерпретация результатов и применение полученных знаний в внедряемой ИС.

Все основные этапы методики реализованы в программном модуле односторонней интеграции, кроме технологии подбора коэффициентов доверия и подсчёта вероятностей искажения атрибутов и их достоверности. Эти задачи реализуются в дополнительных, подключаемых к основному модулях.

Программный модуль односторонней интеграции

Критерии выбора технологий для создания модуля односторонней интеграции:

1. Взаимодействие с БД, в котором наиболее важно рассмотреть:

• универсальность доступа к различным СУБД;

• производительность при выполнении запросов к БД;

• удобство и возможности использования извлечённых данных внутри модуля интеграции (объектная модель доступа к данным).

2. Обеспечение внешних вызовов из внедряемой системы:

• независимость от реализаций ИС, кросссплатформенность;

• наличие универсальных контейнеров для передачи результата из модуля во внешнее приложение.

3. Наличие формата и средств для обработки и разбора файлов с задачей.

Согласно этим критериям выбор был сделан следующий:

1. Интерфейс для взаимодействия с БД - ODBC/JDBC (Open DataBase Connectivity/ Java DataBase Connectivity). Объектная модель для работы с данными - OLE DB и ADO, ADO.NET.

2. Реализация внешних вызовов - использование динамически связываемых библиотек, технология СОМ фирмы Microsoft.

3. Формат данных и его разбор - текстовый формат ini-файла и стандартные функции Win API для работы с ним. А так же предусмотрена возможность использования XML и парсера XML — MSXML.

В главе 4 - ПРАКТИЧЕСКИЙ ОПЫТ ОДНОСТОРОННЕЙ ИНТЕГРАЦИИ — приводится список задач, которые решаются разработанным программным модулем, а так же подробно описывается опыт решения задачи односторонней интеграции с реляционной СУБД в составе ИС ЭАПУ в Пенсионном Фонде России.

Практические задачи интеграции

Программный модуль решает следующие практические задачи в процессе интеграции:

1. Идентификация объектов. Выделение массива похожих объектов.

2. Проверка гипотез. Выявление тенденций.

3. Поиск ошибок и дублей.

Используя комбинацию описанных задач, можно решать более крупные задачи, например, объединение информации из нескольких БД в единое хранилище.

Результаты интеграции

На примере задачи односторонней интеграции для внедряемой системы ЭАПУ и уже внедрённой ПТК СПУ были апробированы алгоритм и методика, реализованные в программном модуле односторонней интеграции, который вошёл в состав ЭАПУ. Таким образом, была решена

задача идентификации пачек персонифицированного учёта, которой однозначно соответствует найденный в БД ГГТК СПУ входящий номер.

В дальнейшем работа данного инструмента была проверена на промышленных базах ПТК СПУ во время опытной эксплуатации системы в нескольких региональных представительствах Пенсионного Фонда России, в процессе которой подбирались коэффициенты доверия условиям запросов, для каждого представления, для всех типов документов пачек персонифицированного учёта.

Поиск входящего номера в ПТК СПУ является основной операцией перед вводом в Архив, без которой дальнейшая работа ЭАПУ теряет всякий смысл.

Основные результаты работы

1. Введено понятие односторонней интеграции.

2. Выделен основной круг проблем, возникающих в неподдерживаемых БД в территориально распределённых организациях, исследованы причины их возникновения и зависимость изменения схемы БД от них.

3. Формализована модель, основанная на реляционной алгебре, и само понятие неподдерживаемой БД. Проведено теоретическое исследование возможностей использования этой модели для объектно-ориентированных БД и объектных расширений над реляционными БД.

4. Разработан подход, позволяющий извлекать данные из неподдерживаемой реляционной БД в территориально распределённых организациях и на его основе методика односторонней интеграции.

5. Спроектировано и апробировано несколько методов оптимизации и проверки результатов работы методики односторонней интеграции.

6. Разработан формат, основанный на текстовых файлах и файлах XML и предназначенный для параметризации задачи интеграции и гибкой настройки всех этапов рёализуемой методики.

7. Разработан и применён на практике программный модуль, способный работать с различными базами данных и решать задачи односторонней интеграции без дополнительной разработки и предварительной выгрузки всего массива данных. Модуль реализует основные этапы методики.

Внедрение результатов работы. Инструмент односторонней интеграции был апробирован и внедрён в промышленную эксплуатацию в 68 региональных отделениях персонифицированного учёта Пенсионного фонда России в составе ЭАПУ.

Основные положения диссертации опубликованы в следующих

работах:

1. Тарханов И.А. Интеграция Системы Электронных Выплатных Дел со сторонними приложениями // Сборник трудов ИСА РАН «Системный подход к управлению информацией», том 23 - М.: Эдиториал УРСС, 2006.

2. Тарханов И.А. Построение документооборотных систем на основе электронной почты // Сборник трудов ИСА РАН «Системный подход к управлению информацией», том 23 - М.: Эдиториал УРСС, 2006.

3. Порай Д.С., Тарханов И.А. Односторонняя интеграция информационных систем. // Сборник трудов ИСА РАН / Информационно-аналитические аспекты в задачах управления / Под ред. д.т.н., проф. Арлазарова B.JI. и д.т.н., проф. Емельянова Н.Е. — М.: Эдиториал УРСС, — 2007 / ISBN 978-5-382-00486-0

4. Тарханов И.А. Теоретическая модель неподдерживаемой БД. // Сборник трудов ИСА РАН (в печати).

Подписано в печать:

18.02.2009

Заказ № 1593 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Оглавление автор диссертации — кандидата технических наук Тарханов, Иван Александрович

ВСТУПЛЕНИЕ.

1. ОБЗОР ИНСТРУМЕНТОВ И СХЕМ ИНТЕГРАЦИИ.

1.1 Классификация инструментов интеграции.

1.1.1 Мировой опыт в интеграции корпоративных систем.

1.1.2 Уровни интеграции.

1.2 Классификация участвующих в интеграции систем.

1.3 Территориально распределённые организации.

1.4 Интеграция с базами данных неподдерживаемых систем.

1.4.1 Односторонняя интеграция информационных систем на уровне данных.

1.4.2 Неподдерживаемые базы данных.

1.5 Обзор инструментов интеллектуального извлечения данных.

1.6 Постановка задачи диссертационной работы.

2. МОДЕЛЬ НЕПОДДЕРЖИВАЕМОЙ БД И АЛГОРИТМ ИЗВЛЕЧЕНИЯ ДАННЫХ.

2.1 Односторонняя интеграция информационных систем.

2.2 Неподдерживаемая реляционная модель данных.

2.2.1 Реляционная модель данных.

2.2.2 Влияние проблем неподдерживаемых баз данных на схему отношения.

2.2.3 Схема результирующего отношения.

2.3 Извлечение данных из неподдерживаемой БД.

2.3.1 Алгоритм извлечения данных из неподдерживаемой БД.

2.3.2 Степень доверия запросу.

2.3.3 Вероятность достоверности атрибута.

2.3.5 Вероятность искажения атрибута в схеме.

2.3.6 Индекс соответствия запросу.

2.3.7 Особенности работы алгоритма.

3. МЕТОДИКА И ПРОГРАММНЫЙ МОДУЛЬ ОДНОСТОРОННЕЙ ИНТЕГРАЦИИ.

3.1 Методика односторонней интеграции.

3.1.1 Исследование возможностей использования с другими моделями БД.

3.1.2 Условия применения методики.

3.1.3 Расширения алгоритма.

3.1.4 Интеграция с промышленными СУБД.

3.1.5 Основные этапы методики.

3.1.6 Сравнение с Knowledge Discovery in Database.

3.1.7 Параметризация.

3.2 Программный модуль односторонней интеграции.

3.2.1 Выбор инструментальных средств интеграции.

3.2.2 Взаимодействие с БД.

3.2.3 Реализация внешних вызовов.

3.2.4 Разбор файлов.

3.2.5 Архитектура программного модуля.

3.2.6 Функциональные возможности модуля.

4. ПРАКТИЧЕСКИЙ ОПЫТ ОДНОСТОРОННЕЙ ИНТЕГРАЦИИ.

4.1 Практические задачи интеграции.

4.2 Одностороння интеграция ЭАПУ и ПТК СПУ.

4.2.1 Представление данных в ПТК СПУ.

4.2.2 Проблемы и требования организации интеграции ЭАПУ и ПТК СПУ.

4.2.3 Параметризация задачи поиска входящего номера в ПТК СПУ.

4.2.4 Оптимизация методики под задачу интеграции ЭАПУ и ПТК СПУ.

4.2.5 Пользовательский интерфейс поиска входящих номеров в ЭАПУ.1.

4.2.6 Результаты односторонней интеграции ЭАПУ и ПТК СПУ.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Тарханов, Иван Александрович

Актуальность темы. В процессе увеличения масштаба, усложнения архитектуры, наращивания функциональных возможностей и автоматизации новых сфер деятельности многие информационные системы (далее ИС) сталкиваются с проблемой интеграции с другими ИС. Часто возникают ситуации, в которых несколько ИС становятся частью одного бизнес процесса, хотя изначально никакого взаимодействия между ними не планировалось. В этой ситуации появляется задача организации необходимого взаимодействия минимальными изменениями в существующих информационных системах предприятия (далее корпоративной ИС).

Сейчас на рынке предлагается огромное количество инструментов для интеграции от разных производителей. При рассмотрении вопроса внедрения новой ИС в существующую корпоративную ИС предприятия, требования к интеграции, заложенные в новую ИС, в настоящее время являются одними из ключевых. На данный момент, сегмент услуг по интеграции корпоративных приложений считается одним из самых бурно .развивающихся сегментов ИТ-индустрии (см. по [1, 2, 3, 4, 68, 69, 70, 73]). По прогнозам IDC, рынок программного обеспечения, предназначенного для решения интеграционных задач, составит в 2008 году 8,2 $млрд. против 4,3 $млрд. в 2001 году [4, 73]. ,

Проблемы интеграции внедряемых и уже внедрённых ИС не удается избежать ни одной территориально распределённой компании, обладающей развитой структурой приложений в каждом региональном представительстве. Существует несколько основных способов организации взаимодействия, но если нельзя вносить изменения в код уже внедрённых систем, многие из них не подходят. В таком случае, организация доступа к базам данных (БД) внедрённой ИС напрямую становится практически единственным возможным способом интеграции.

Каждая ИС имеет вход и выход в рамках общего бизнес процесса. Вход и выход неизменяемой. внедрённой системы тоже не меняется. Поэтому, в ■ силу сложившихся обстоятельств, внедряемой системе остаётся научиться работать с входом и выходом из системы внедрённой. В случае, когда вся работа по организации интеграции проводится в одной системе имеет, место односторонняя интеграция.

Не редка , ситуация, что при неправильной эксплуатации системы, наличии материальных, технических трудностей, большой географической распределенности компании с БД такой PIC становится трудно работать. Возможны нарушения и ошибки при вводе данных, появление избыточной или дублирующей информации в БД, несоответствие реально хранящейся в БД информации об объектах понятийным и декларативным знаниям о них. Трудно извлекать какую либо информацию из таких БД, даже если их формат известен. Такие БД называются неподдерживаемыми. На рынке существует ряд программных средств решающих, в том числе, и описанные проблемы. Большинство из них относятся к классу Data Mining. Обычно их разделяют на аналитические платформы и СУБД с набором алгоритмов Data Mining. Ориентированность первых из них на более широкий круг задач и анализ всего массива данных приводит к невозможности использования их динамически, с многократными обращениями к БД, накладывает существенные ресурсные и временные ограничения. Вторые показывают отличные результаты только на СУБД определённых производителей и требуют дополнительной разработки при интеграции с существующими системами.

Кроме того, проблемы односторонней интеграции и задача поиска и извлечения данных из неподдерживаемой реляционной БД не обладают достаточной теоретической проработкой и характеризуются отсутствием концептуального подхода к решению. Отсюда и вытекает актуальность предложенной темы диссертации.

Цель данной работы: Целью данной работы является создание инструмента односторонней интеграции между внедряемыми и уже внедрёнными системами, способного осуществлять извлечение данных из неподдерживаемой БД внедрённой системы в территориально распределенных организациях.

Задачи данной работы:

1. Определение понятия односторонней интеграции.

2. Обобщение проблематики поиска в неподдерживаемых БД в территориально распределённых организациях.

3. Разработка алгоритма, извлекающего данные из неподдерживаемых реляционных БД.

4. Разработка методики односторонней интеграции по средствам доступа к неподдерживаемой БД.

5. Исследование возможности применения алгоритма в других видах БД: объектно-ориентированных, объектно-реляционных.

6. Апробация методики для решения различных задач в процессе организации односторонней интеграции систем.

7. Разработка формата данных для параметризации задачи односторонней интеграции.

8. Разработка принципов создания инструмента интеграции, реализующего основные этапы методики, работающего без необходимости дополнительной разработки и предварительной выгрузки всех данных для анализа.

9. Разработка инструмента интеграции на уровне данных, способного решать различные задачи односторонней интеграции без необходимости дополнительной разработки и предварительной выгрузки всех данных для анализа с помощью методики.

Объект п предмет исследования Объект исследования — существующие классы инструментов интеграции корпоративных систем, схемы интеграции, современные средства интеллектуального анализа больших объемов информации (Data Mining) и методика Knowledge Discovery in Databases. Предмет исследования - методы и алгоритмы применимые для анализа реляционных данных.

Метод исследования

В диссертационной работе использованы теории построения алгоритмов, теория множеств, теория вероятности, реляционная алгебра, нечёткая логика, методы -проектирования информационных систем, объектно-ориентированные методы создания программного обеспечения и интеграции программных комплексов.

Научная и практическая новизна работы.

Автором получены следующие новые результаты:

1. Введено понятие односторонней интеграции.

2. Формализована модель, основанная на реляционной алгебре, и само понятие неподдерживаемой БД.

3. Формализована задача поиска в неподдерживаемой реляционной БД. Исследованы основные трудности поиска в территориально распределённых реляционных БД.

4. Разработан алгоритм, позволяющий выполнять извлечение данных из неподдерживаемых БД в территориально распределённых организациях.

5. Проведено теоретическое исследование возможностей использования алгоритма на объектно-ориентированных БД и объектных расширений над реляционными БД.

6. Разработана методика односторонней интеграции на основе алгоритма извлечения данных. Методика доработана и апробирована для решения ряда задач односторонней интеграции.

7. Разработан формат, основанный на текстовых ini-файлах и файлах XML и предназначенный для параметризации задачи интеграции и гибкой настройки всех этапов реализуемой методики.

8. Разработан и применён на практике программный модуль, реализующий основные этапы методики односторонней интеграции, способный решать разные задачи односторонней интеграции без дополнительной разработки и предварительной выгрузки всего массива данных.

Практическая значимость работы Созданный программный модуль, обеспечивает одностороннюю интеграцию с неподдерживаемыми реляционными БД на серверах AS/400 Программно-технического комплекса Система Персонифицированного учета для Пенсионного Фонда России, в составе ИС Электронного Архива персонифицированного учета. Модуль был апробирован и внедрён в промышленную эксплуатацию в 68 региональных отделениях персонифицированного учёта Пенсионного фонда России.

Публикации. Основные результаты, полученные в диссертации, опубликованы в четырёх статьях [б, 7, 9, 10] (одна из них в соавторстве [9]).

Разбиение работы на главы. Диссертация состоит из введения, четырех глав, заключения. Объем работы - 139 страниц.

Заключение диссертация на тему "Односторонняя интеграция информационных систем в территориально распределённых организациях"

Основные результаты, полученные в настоящей работе, заключаются в следующем:

1. Введено понятие односторонней интеграции. Выделен основной круг проблем, возникающих в неподдерживаемых БД в территориально распределённых организациях, исследованы причины их возникновения и зависимость изменения схемы БД от них.

2. Формализована модель, основанная на реляционной алгебре, и само понятие неподдерживаемой БД. Проведено теоретическое исследование возможностей использования этой модели для объектно-ориентированных БД и объектных расширений над реляционными БД.

3. Формализована задача поиска в неподдерживаемой реляционной БД. Исследованы основные трудности и отличия от поиска в обыкновенных реляционных БД.

4. Разработан алгоритм, позволяющий извлекать данные из неподдерживаемой реляционной БД в территориально распределённых организациях и на его основе методика односторонней интеграции.

5. Спроектировано и апробировано несколько методов оптимизации и проверки результатов работы методики односторонней интеграции.

6. Разработан формат, основанный на текстовых файлах и файлах XML и предназначенный для параметризации задачи интеграции и гибкой настройки всех этапов реализуемой методики.

7. Разработан и применён на практике программный модуль, способный работать с различными базами данных и решать задачи односторонней интеграции без дополнительной разработки и предварительной выгрузки всего массива данных. Модуль реализует основные этапы методики.

Разработанный инструментарий используется для односторонней интеграции информационной системы «Электронный Архив Персонифицированного Учёта» и программно-технического комплекса «Система персонифицированного учета» в в 68 региональных отделениях персонифицированного учета Пенсионного фонда России.

Заключение

Работа посвящена одной из наиболее сложных и распространённых проблем в последнее время - интеграции внедряемых информационных систем с уже внедрёнными системами, в которые нельзя вносить изменения. Задача становится ещё более сложной, если речь идёт об интеграции с БД внедрённой системы в территориально распределённой организации. В качестве основного подхода выбран способ интеграции с базой данных напрямую. Особое внимание уделено проблемам извлечения данных из реляционных БД, в которых отсутствует контроль за их заполнением и которые используются разными системами для разных целей. Рассмотрена реляционная модель данных, на её основе построена модель неподдерживаемой реляционной базы данных. Проанализированы и изучены возможные изменения схемы в такой модели и природа этих изменений. Сделано обоснование использования вероятностной оценки для поисковых запросов к такого рода данным. Предложен альтернативный подход к поиску в неподдерживаемых данных, учитывающий проблемы эксплуатации БД в территориально распределённых организациях. Проведено исследование применения данного подхода для других типов баз данных: объектных и объектно-реляционных. Подход получил свой развитие в методике односторонней интеграции, которая, в свою очередь, реализована в программном модуле.

Помимо собственной реализации в работе проведена классификация возможных схем и инструментов интеграции от простых до самых сложных. Сделан обзор рынка средств интеграции информационных систем и мировых тенденций в разработке инструментов интеграции. В процессе рассмотрения собственной реализации методики обоснованы причины выбора тех или иных технологий.