автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка математического и программного обеспечения для автоматизированного отождествления объектов схем баз данных
Автореферат диссертации по теме "Разработка математического и программного обеспечения для автоматизированного отождествления объектов схем баз данных"
На правах рукописи
КОМАР Феликс Викторович 2 О А В Г 2009
РАЗРАБОТКА МАТЕМАТИЧЕСКОГО И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ АВТОМАТИЗИРОВАННОГО ОТОЖДЕСТВЛЕНИЯ ОБЪЕКТОВ СХЕМ БАЗ ДАННЫХ
Специальность: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов ' и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Воронеж-2009
003475295
Работа выполнена в ГОУ ВПО «Липецкий государственный технический университет»
Защита состоится «24» сентября 2009 г. в Ю00 часов в конференц-зале на заседании диссертационного совета Д 212.037.01 ГОУ ВПО «Воронежский государственный технический университет» по адресу: 394026, г. Воронеж, Московский просп., 14.
С диссертацией можно ознакомиться в научно-технической библиотеке ГОУ ВПО «Воронежский государственный технический университет».
Научный руководитель
доктор технических наук, профессор
Погодаев Анатолий Кирьянович
Официальные оппоненты: доктор технических наук,
профессор
Харин Валерий Николаевич;
кандидат технических наук Дорофеев Александр Николаевич
Ведущая организация
ГОУ ВПО «Московский государственный индустриальный университет»
Автореферат разослан <_> августа 2009 г.
Ученый секретарь диссертационного совета
Питолин В.М.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Для решения задачи интеграции баз данных необходимо решение двух подзадач: интеграция схем баз данных и интеграция самих данных. Задача интеграции данных может быть решена с использованием нестрогого соединения реляционных таблиц. Задача интеграции схем баз данных требует отождествления объектов схем баз данных. В настоящее время нет методов, автоматически решающих эту задачу.
Наиболее известны два основных подхода к решению задачи отождествления объектов схем баз данных (объектами схем баз данных являются сущности, их атрибуты и связи между сущностями). Первый подход основан на расчете расстояния между строковыми значениями (названиями отношений, названиями атрибутов, значениями атрибутов и т.д.). Данный подход в очень малой степени учитывает семантику объектов и далеко не всегда дает удовлетворительные результаты. Второй подход основан на' построении онтологии предметной области рассматриваемых схем баз данных. Такой подход требует больших трудозатрат и слабо поддается автоматизации. Ни один из существующих методов не позволяет строить отождествления составных атрибутов.
Одним из способов описания синтаксических особенностей строк являются строковые шаблоны. Однако в настоящее время нет алгоритмов, решающих задачу автоматического построения шаблона, описывающего заданное множество строк. Разработка алгоритма решения такой задачи позволит автоматически строить обобщенную характеристику объектов схем баз данных в виде множества строковых шаблонов, а уже на основе этой характеристики определять сходство объектов. Также на текущий момент окончательно не решена задача автоматического отождествления объектов схем баз данных.
Таким образом, актуальна проблема разработки и внедрения специального математического и программного обеспечения, которое позволит решать задачи автоматического построения обобщенной характеристики объектов схем баз данных, определения сходства объектов, а также построения отождествлений объектов схем баз данных, в том числе и составных атрибутов. Разработка такого математического и программного обеспечения позволит снизить затраты и ускорить процесс интеграции баз данных.
Работа выполнена в соответствии с научным направлением ГОУ ВПО «Липецкий государственный технический университет» «Информационные системы и базы данных».
Цель исследования состоит в разработке специального математического обеспечения для автоматизированного отождествления объектов схем баз данных и создании на его основе программного обеспечения.
Задачи исследования:
- анализ методов и моделей, возникающих при автоматизированном : отождествлении объектов схем баз данных;
; - разработка способов, моделей и алгоритмов автоматического построения обобщенной характеристики, численной оценки сходства и отождествления объектов схем баз данных, в том числе и составных атрибутов;
< )
- разработка специального программного обеспечения для автоматизированного отождествления объектов схем баз данных;
- анализ разработанного математического и программного обеспечения, а также решение задач отождествления объектов схем баз данных при реализации проекта интеграции информационных систем производственного холдинга.
Методы исследования базируются на теории множеств, теории графов, дискретной математике, математической статистике, эволюционном моделировании, объектно-ориентированном программировании, реляционной алгебре, теории баз данных, методах модульного и структурного программирования.
Научная новизна результатов исследования. В работе получены следующие результаты, характеризующиеся научной новизной:
- способ описания строковых атрибутов сущностей схем баз данных, позволяющий формально представлять синтаксические особенности рассматриваемых атрибутов, отличающийся использованием в качестве обобщенной характеристики множества строковых шаблонов;
- функция численной оценки значимости строкового шаблона, отличающаяся использованием частоты появления рассматриваемого шаблона на множестве значений строкового атрибута, позволяющая свести задачу построения обобщенной характеристики строкового атрибута к оптимизационной задаче;
- функция численной оценки сходства объектов схем баз данных, отличающаяся использованием в качестве обобщенной характеристики множества строковых шаблонов, позволяющая оценивать сходство объектов на основе множества экземпляров объектов;
- алгоритм отождествления объектов схем баз данных, отличающийся применением численной оценки сходства объектов на основе обобщенной характеристики в виде строковых шаблонов, позволяющий строить отождествления составных атрибутов.
Практическая значимость состоит в создании на основе разработанных методов и алгоритмов специального программного обеспечения, позволяющего автоматизировано отождествлять объекты схем баз данных. Использование данного программного обеспечения позволяет сократить время, требуемое для интеграции схем баз данных. Предложенные методы могут быть использованы для решения задачи интеграции баз данных.
Реализация и внедрение результатов работы. Разработанное программное обеспечение внедрено при реализации проекта интеграции информационных систем предприятий холдинга ООО «ПРОДО Менеджмент» компанией ООО «Л-ком», а также прошло апробацию при реализации проекта интеграции информационных систем ООО «Дойче банк».
Программное обеспечение зарегистрировано в Государственном фонде алгоритмов и программ.
Результаты диссертационной работы используются в учебном процессе ГОУ ВПО «Липецкий государственный технический университет» при подготовке инженеров по специальности «Прикладная математика».
Апробация работы. Теоретические и практические результаты, полученные в процессе исследования, докладывались и обсуждались на Х1-й
2
Международной научно-практической конференции «Проблемы экологии и экологической безопасности Центрального Черноземья РФ» (Липецк, 2007), Межрегиональном молодёжном научно-практическом форуме «Молодежная инициатива - 2007» (Липецк, 2007), Всероссийской электронной научной конференции «Современные системы автоматизации» (Москва, 2007), ХШ-й Международной открытой научной конференции «Современные проблемы информатизации» (Воронеж, 2008), IX-й Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2008), V Всероссийской школе-семинаре молодых ученых «Управление большими системами» (Липецк, 2008).
Положения работы поддержаны грантами Российского фонда фундаментальных исследований № 05-01-96402 "Совершенствование методологии проектирования информационных систем для управления производственными объектами", № 07-07-96403 "Разработка специальных реляционных операций и алгоритмов для отождествления объектов в распределенных информационных системах".
Публикации. По теме диссертационной работы опубликовано 14 научных работ, в том числе 2 - в изданиях, рекомендованных ВАК РФ.
В работах, опубликованных в соавторстве и приведенных в конце автореферата, лично соискателю принадлежат: [2] — алгоритм решения задачи максимизации функции значимости строкового шаблона; [3] - метод формального описания синтаксических особенностей строковых атрибутов сущностей баз данных с использованием множества строковых шаблонов; [5] - архитектура классов для реализации специального программного обеспечения; [6] - алгоритм поиска множества строковых шаблонов для формального описания синтаксических особенностей значений атрибутов реляционных баз данных; [7] -функция оценки значимости строкового шаблона; [11] - анализ качества методов интеграции схем баз данных и сравнительный анализ с существующими методами; [12] — алгоритм выбора пар объектов схем данных для отождествления.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка из 124 наименований, 2 приложений. Основная часть работы изложена на 132 страницах, содержит 33 рисунка и 1 таблицу.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы диссертационного исследования, формулируются цель, научная новизна и практическая значимость полученных результатов, дается краткое содержание работы.
В первой главе анализируются задачи, возникающие при отождествлении объектов схем баз данных.
В настоящее время актуальна проблема интеграции информационных систем. Необходимы средства интеграции, которые позволяли бы создать инфраструктуру для доступа к данным, опирающуюся на единые стандарты и единые принципы взаимодействия. Для построения такой инфраструктуры в первую очередь требуется решение задачи интеграции схем баз данных, которая ¿водится к построению отождествлений объектов схем баз данных. В настоящее
время нет методов автоматически решающих эту задачу. Схемы баз данных производственного масштаба могут содержать тысячи сущностей и атрибутов, что делает отождествление трудоемким процессом, а проблему создания автоматизированных методов решения данной задачи актуальной. Существующие подходы к решению поставленной задачи опираются или на расчет расстояния между строковыми значениями, что не учитывает синтаксические и семантические особенности рассматриваемых объектов, или требуют построения онтологии предметной области, что ведет к большим трудозатратам.
Таким образом, показано, что существующее математическое и программное обеспечение не позволяет эффективно осуществлять отождествление объектов схем баз данных, а сформулированная проблема является актуальной научной задачей.
Во второй главе излагаются основные положения разработанного метода отождествления объектов схем баз данных.
В работе предложен метод численной оценки сходства объектов схем баз данных, основой которого является алгоритм автоматического построения обобщенной характеристики строковых атрибутов (рис. 1).
Рис. 1. Численная оценка сходства атрибутов на основе автоматически построенной характеристики в виде строковых шаблонов
Обобщенную характеристику атрибутов предлагается строить в виде строковых шаблонов, закодированных с использованием языка регулярных выражений. Рассмотрим подробнее алгоритм построения обобщенной характеристики. Пусть А = {а1,а2,а3,...,а„} - множество атрибутов, О, -множество значений атрибута , (р - некоторый шаблон. Определим функцию:
с)
где Х((р, Д) - количество строк из множества Д , которые соответствуют шаблону (р, |1),5 - объем множества Д. Пусть В' = {О,,£)2,Б3,...,£)„} - набор множеств значений атрибутов, определим функцию:
= (2) т ,=1
Пусть Д'= {£),,Д,...,Д., ...,£>„} - набор множеств значений атрибутов, кроме / -ого, определим функцию значимости шаблона <р для атрибута а, в контексте атрибутов Л] = {а1>а2,а3,...,а,_,,а,+] ...,а„}:
в{(р, Д ,Д) = ®(<л Д) - Щ<Р, Д) ■ (3)
Пусть (У = - некоторое множество строковых шаблонов.
Определим функцию значимости множества строковых шаблонов:
0({/,Д,Д) = -Х0(р,,Д,Д).
'м
(4)
Пусть Ь - множество всех возможных строковых шаблонов. Рассмотрим задачу максимизации функции значимости множества строковых шаблонов: 0*(Д,Д') = тах0а/,Д,Д).
С/с£,
(5)
Решением данной задачи является набор строковых шаблонов, который позволяет выделить синтаксические особенности значений рассматриваемого атрибута. Будем использовать такой набор строковых шаблонов в качестве обобщенной характеристикой атрибута. Для решения поставленной задачи разработан генетический алгоритм, позволяющий автоматически построить
Рис. 2. Генетический алгоритм построения обобщенной характеристики атрибута в виде строковых шаблонов
В работе описан способ кодирования шаблонов в виде генов. Оператор скрещивания определяется как случайный обмен хромосомами между двумя особями. Рассматриваются следующие операции над шаблонами: добавление подшаблона, удаление подшаблона, изменение минимального количества вхождения подшаблона, изменение максимального количества вхождения подшаблона, уточнение множества символов подшаблона, обобщение множества символов подшаблона, добавление символа во множество символов подшаблона, удаление символа из множества символов подшаблона. Определяется оператор мутации как случайное применение одной из вышеописанных операций к случайной хромосоме особи.
Далее рассматривается задача определения меры сходства атрибутов. Пусть заданы атрибуты ак и а,, а также множества их значений Ок и £>,. Пусть
ик = {<р*,<р*,<Р} } - набор шаблонов для атрибута ак, найденный с использованием генетического алгоритма. Определим функцию:
данная функция принимает значения на отрезке [О, 1]. Если частота появления значений из множества Ок, соответствующих шаблонам, близка к частоте появления значений из множества В,, соответствующих шаблонам, то значение функции близко к единице. Функция обладает свойством
симметричности и может быть использована как мера сходства атрибутов.
Пусть функция возвращает количество строк из множества £>,,
содержащих в себе подстроки, соответствующие шаблону (р. Определим функцию:
данная функция дает численную оценку того, насколько часто в множестве О! встречаются строки, которые содержат в себе подстроки, соответствующие шаблону (р.
Определим функцию:
данная функция принимает значения на отрезке [0, 1]. Если частота появления значений из множества Ок, соответствующих шаблонам, близка к частоте появления значений из множества £),, содержащих в себе подстроки, соответствующие шаблонам, то значение функции 77(^,0,) будет близко к единице. При значении функции близкой к единице можно предположить, что атрибут ак является некоторой составной частью атрибута а,.
Предложенная функция оценки сходства атрибутов может быть использована как основа для оценки сходства сущностей схем баз данных. Рассмотрим две сущности Кк и Я,, Ак ={а*,а2,а*,...,я*} - множество атрибутов
(6)
(8)
сущности Кк, А, ={а1,а'2,а'3,...,а'п} - множество атрибутов - сущности Я,. Рассмотрим следующую функцию:
(9)
п + т ,-=| 7=1-п у=1<
Далее в работе рассматривается задача построения отождествления объектов схем баз данных на основе рассчитанных численных оценок сходства. Разработан алгоритм, позволяющий отождествлять составные атрибуты (рис. 3).
Рис. 3. Алгоритм отождествления объектов схем данных
Рассмотрим подробнее отождествление составных атрибутов. Расчет начений функции Т}(ак,а,) позволяет выявлять составные атрибуты. Для
построения отождествлений составных атрибутов разработан алгоритм, представленный на рис. 4. Структура Match представляет собой два набора атрибутов (левый, правый) и значение функции rj(at,a/), а также методы для, манипулирования левым и правым наборами атрибутов. ArrayList представляет собой стандартную реализацию массива.
истина
Конец ^
Рис. 4. Алгоритм отождествления составных атрибутов
Третья глава посвящена разработке специального программного обеспечения, реализующего предложенный метод построения обобщенной характеристики атрибутов сущностей и алгоритм отождествления объектов схем баз данных.
Основой для разработанного специального программного обеспечения является библиотека классов, реализованная на языке программирования Java. Общая структура классов библиотеки представлена на рис. 5. Основу интерфейса пользователя с библиотекой классов представляет класс dlntegrator, который позволяет строить численные оценки сходства атрибутов и отношений рассматриваемых схем баз данных. Данный класс реализует механизм построения отождествления объектов схем баз данных.
dl.oadcr
-dbPath
-iiserName
-userPassword
+dLoader()
+getEntities()
■¡-getAltributesO
+gctAttributc()
+getSchema()
•entities
dSchema
+dSchema() tgctEntitiesO -getAHAttributes() ■getEntityForAttribute()
dlntcgrator
sclicmas
tdlntcgrator() +fmdPatterns() +calcHntitySimiIarityMatrix() +calcEntitySimilarity()
+ca)cAt£ributeSimilarityM3trixO
+calcAttributeSimiIarity ()
+pattcmFicqO
+getMatch()
■Hattrs
dEntity
+xJ£ntjtyO fgetNameO
tgetAttributesQ
dAttrilnitc
■values -patterns t-dAttribute() +getName() •bgetValues() netPatternsO +gctPattcms()
d Fitness
attrFreq -otherFreq generation
-t-dFitness() +-compareTo()
-curPopulation
-fitnessVals
averageFitness
dGA
+dGAO
-gcnStartPopulation ()
-addPatternToPopulationO
-calcFimessO
■pattemFreqO -mutateO -crossover() -randomO
<-am()__
dPattcni
pattemLevel -sub Patterns symbols -minLength -maxLcngth
i+dPattcrn() fdPattemQ +sctPattemLcvel() +getPattemLevelO +-setMinLength() +gctMinLcngtli() +setMaxLength() tgelMaxLengthO +addSubPattern() ■h-cmoveSubPattern() +gctSubPattcm() +getSubPatterns() fgetAI!SubPatterns() +addSymbol() tsetSyinbolsO +getSymboI() <-removeSymbolQ +hasTreeO +clonc() +toString()
dSymbol
type
symbols
arraySymbols
+dSymbol()
cloneQ
+getTypeO +gctOroup() toStringO
i —
Рис. 5. Общая структура классов библиотеки
Схемы рассматриваемых баз данных описываются в библиотеке классом с!5с11ета. Сущности представляются в виде классов сШп^, атрибуты отношений в виде классов £1АПпЬЩе. Строковые шаблоны описываются классом с1РаИегп, который в свою очередь является классом, содержащим дерево символов, представленных классом ё8ушЬо1. Класс сЮА реализует генетический алгоритм построения обобщенной характеристики атрибутов в виде множества строковых шаблонов. Значение численной оценки значимости шаблонов представлены в виде класса с^теБв. Загрузка, анализ данных, а также построение внутреннего представления рассматриваемых схем баз данных осуществляется с использованием класса (Ллас1ег.
Общая структура разработанного специального программного обеспечения «СхемИнтегратор» представлена на рис. 6.
Входные данные
Модуль построения внутреннего представления рассматриваемых схем баз данных
Параметры генетического алгоритма
Выбор стратегии отождествления
Выходные данные
Рис. 6. Структура специального программного обеспечения «СхемИнтегратор»
Модуль построения внутреннего представления использует интерфейс dLoader, что позволяет в момент исполнения программы применять различные реализации данного интерфейса. Это дает возможность использовать различные форматы рассматриваемых схем баз данных. Библиотека содержит реализации интерфейса dLoader для доступа к базам данных по протоколу jdbc, к базам данных в формате xml-файлов, а также для доступа к структурированным csv-файлам. Для расширения списка поддерживаемых форматов баз данных необходимо создать новый класс, реализующий интерфейс dLoader. Модуль построения внутреннего представления основан на использовании классов библиотеки ¿Attribute, dEntity, dSchema.
В основе модуля построения обобщенной характеристики лежит класс dGA. С помощью реализованного в этом классе генетического алгоритма строится обобщенная характеристика атрибутов сущностей схем баз данных.
Модуль построения отождествления объектов схем баз данных основан на использовании класса dlntegrator, который позволяет строить отождествление объектов схем баз данных.
Модуль представления полученных результатов позволяет выводить полученные результаты в форме удобной пользователю. Результатом работы разработанного специального программного обеспечения является файл с указанием отождествлений объектов рассматриваемых схем баз данных.
Программное обеспечение разрабатывалось на языке Java, полностью соответствует стандартам Java SE и распространяется в виде скомпилированного war-файла. Для работы скомпилированного war-файла необходим web-сервер.
Процесс установки и запуска скомпилированного war-файла включает стандартную процедуру, которая зависит от выбранного web-сервера. Апробация разработанного программного обеспечения проводилась на сервере Linux, использовался java web-сервер Tomcat. Доступ к интерфейсу программного обеспечения осуществляется по HTTP протоколу с использованием web-браузера Mozilla. Схема взаимодействия программного обеспечения, эксперта и баз данных, требующих интеграции, представлена на рис. 7.
Рис. 7. Схема внешних взаимодействий программного обеспечения «СхемИнтегратор»
Архитектура разработанного программного обеспечения укладывается в стандарт MVC. Модель данных приложения, пользовательский интерфейс и управляющая логика разделены на три отдельных компонента, так, что модификация одного из компонентов оказывает минимальное воздействие на другие компоненты. Компонент модель предоставляет результаты вычислений, а также реагирует на запросы, изменяя свое состояние. Компонент контроллер интерпретирует данные, введенные пользователем, и информирует компонент модель о необходимости соответствующей реакции. Компонент представление отвечает за взаимодействие пользователя с системой.
Взаимодействие эксперта с web-сервером происходит посредством интерфейса, разработанного с использованием JSP страниц и языка разметки HTML. Пользовательский ввод отправляется на сервер через вызововы метода GET протокола HTTP. Рассмотрим jsp страницы, которые предоставляют основную функциональность разработанного программного обеспечения.
Страница load_jdbc_db.jsp позволяет вводить параметры для доступа к базам данных по протоколу jdbc (путь к базе данных, логин и пароль). Страница
load xmljdb.jsp позволяет загрузить на сервер файлы баз данных в формате xml. Структура файлов формата чш! описана с использованием языка XSD. Данная технология позволяет легко расширять и изменять структуру входных данных. Страница Ioad_csv_db.jsp позволяет загрузить на сервер файлы баз данных в формате структурированных файлов csv. Структура файлов csv может быть изменена только в случае разработки новых классов, реализующих интерфейс dLoader.
Страница db^structure.jsp позволяет построить визуальное представление рассматриваемых схем баз данных. Страница similarity .jsp позволяет пользователю просматривать численные значения сходства объектов рассматриваемых схем баз данных. Пользователь также имеет возможность экспортировать данные значения в формат csv, что позволяет использовать для анализа результатов многие известные программные средства. Страница match.jsp демонстрирует пользователю найденные отождествления объектов и позволяет сохранить полученные результаты в текстовом файле.
Вывод результатов по желанию эксперта может осуществляться или в виде загружаемых на локальный компьютер эксперта текстовых файлов, или в виде интерактивных HTML страниц.
Четвертая глава посвящена анализу результатов реализации и внедрения разработанных методов и алгоритмов.
Предварительный анализ разработанного метода отождествления объектов схем баз данных проводился на специально спроектированных тестовых задачах. Было построено 20 тестовых схем баз данных, между которыми проводилось отождествление. Для анализа результатов были использованы количественные оценки качества Р, R,F— Measure и Overall. Данные оценки были рассчитаны для каждой тестовой задачи и усреднены. Сравнительный анализ с существующими методами отождествления проводился относительно методов Similarity Flooding и СОМА. Обобщенные значения численных оценок качества отождествления представлены на рис. 8.
0,872
1,000 -,
0,500
0,000
F-Measure
Overall
SSF
0,733
3 СОМА 0,751
0,861 0,891
0,775 0,797
0,446 0,443
Рис. 8. Усредненные значения численных оценок
Усредненное значение всех численных оценок разработанного метода превосходит те же оценки для методов Similarity Flooding и СОМА. Так в среднем
качество отождествления относительно оценки Р разработанного метода по сравнению с методом Similarity Flooding увеличилось на 9,3%, по сравнению с методом СОМА на 6,7%. Относительно оценки R качество отождествления с использованием разработанного метода по сравнению с методом Similarity Flooding выше на 14,39%, по сравнению с методом СОМА на 10,57%. Относительно оценки F - Measure качество отождествления с использованием разработанного метода по сравнению с методом Similarity Flooding выше на 12,58%, по сравнению с методом СОМА на 9,38%. Относительно оценки Overall качество отождествления с использованием разработанного метода по сравнению с методом Similarity Flooding выше на 50,63%, по сравнению с методом СОМА на 51,77%.
Далее в работе рассматривается применение разработанного специального программного обеспечения при реализации проекта интеграции распределенных информационных систем филиалов . производственного холдинга ООО «Продо Менеджмент». Производственный холдинг ООО «Продо Менеджмент» по роду своей деятельности обладает широким спектром исходной информации, подлежащей анализу и мониторингу. Источниками информации служат множественные учетные системы предприятий холдинга «ПРОДО» (1С, Navision, Экософт). Целью, проекта является создание единого информационного хранилища документов и подсистемы поиска по реквизитам. В рамки проекта включены следующие предприятия холдинга: ЦО ПДК, Клинский филиала ПДК, Ростовский филиал ПДК, Нижегородский филиал ПДК, Тольяттинский филиал ПДК, Башкирский филиал ПДК, Пермский филиал ПДК, Тюменский филиал ПДК, Омский филиал ПДК.
Для каждой задачи экспертом было сформировано эталонное отождествление, которое и сравнивалось с результатами автоматически построенного отождествления. При анализе результатов для каждой из 8-ми задач были рассчитаны количественные оценки качества F - Measure и Overall, также были рассчитаны средние значения по всем задачам.
Значения численной оценки качества отождествления F - Measure представлены на рис. 9.
Рис. 9. Значение численной оценки F - Measure
Значения численной оценки качества отождествления Overall представлены на рис. 10.
Рис. 10. Значение численной оценки Overall
Усредненные значения численных характеристик качества отождествления представлены на рис. 11.
1,000
Рис. 11. Усредненные значения численных характеристик качества отождествления
Усредненные значения численных оценок качества, полученные на практических задачах, незначительно отличаются от численных оценок качества, полученных на тестовых задачах.
Таким образом, разработанное специальное программное обеспечение позволило автоматизировать процесс отождествления объектов схем баз данных при реализации проекта интеграции информационных систем производственного холдинга.
В заключении приведены основные результаты диссертационной работы, указаны перспективные направления дальнейших исследований.
В приложении приведены акты внедрения результатов исследования.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Разработан метод формального описания синтаксических особенностей значений атрибутов сущностей схем баз данных, основанный на использовании в качестве обобщенной характеристики строковых шаблонов.
2. Предложена функция численной оценки значимости строковых шаблонов, которая позволяет свести задачу построения обобщенной характеристики строковых атрибутов к оптимизационной задаче.
3. Предложена функция численной оценки сходства объектов схем баз данных, отличающаяся использованием в качестве обобщенной характеристики объектов множества строковых шаблонов. Использование множества строковых шаблонов позволяет оценивать сходство составных атрибутов.
4. Разработан алгоритм отождествления объектов схем баз данных, позволяющий строить отождествления составных атрибутов и отличающийся применением численной оценки сходства объектов схем баз данных на основе множества строковых шаблонов.
5. На основе предложенных методов и алгоритмов разработана библиотека классов, позволяющая рассчитывать численную оценку сходства, а также строить отождествления объектов схем баз данных.
6. Разработано и внедрено в ООО «Л-Ком» специальное программное обеспечение «СхемИнтегратор», основанное на предложенных методах и алгоритмах.
7. Разработанное программное обеспечение прошло апробацию при реализации проекта интеграции информационных систем предприятий холдинга ООО «ПРОДО Менеджмент», а также при реализации проекта интеграции информационных систем ООО «Дойче банк».
Основные результаты диссертации опубликованы в следующих работах:
Публикации в изданиях, рекомендованных ВАК РФ
1. Комар Ф.В. Метод интегрирования схем данных на основе семантического описания атрибутов / Ф.В. Комар, А.К. Погодаев // Программные продукты и системы. 2008. № 1(81). С. 53-56.
2. Погодаев А.К. Автоматизированный метод отождествления объектов схем баз данных / А.К. Погодаев, Ф.В. Комар // Системы управления и информационные технологии: науч.-техн. журнал. М. 2008. №3. 1(33). С. 192-196.
Статьи и материалы конференций
3. Комар Ф.В. Разработка и апробация метода оценки семантического сходства атрибутов реляционных баз данных / Ф.В. Комар // Естественные и технические науки. 2007. №6 (32). С. 244-250.
4. Комар Ф.В. Решение задачи интегрирования экологических баз данных / Ф.В. Комар, А.К. Погодаев // Проблемы экологии и экологической безопасности Центрального Черноземья Российской Федерации: материалы XI Междунар. науч.-практ. конф. Липецк, 2007. С. 36-39.
5. Комар Ф.В. Система поддержки принятия решений для автоматизированного отождествления объектов схем данных / Ф.В. Комар, А.К.
Погодаев // Управление большими системами: сб. науч. тр. Липецк, 2008. Т. 2. С.
6. Комар Ф.В. Алгоритм решения задачи поиска строковых шаблонов для „семантической характеристики атрибутов баз данных / Ф.В. Комар, А.К. Погодаев
// Современные проблемы информатизации в проектировании и информационных системах: сб. науч. тр. Воронеж, 2008. Вып. 13. С. 478-482.
7. Комар Ф.В. Множество строковых шаблонов как семантическая характеристика атрибутов реляционных баз данных / Ф.В. Комар, А.К. Погодаев // Современные проблемы информатизации в анализе и синтезе программных и телекоммуникационных систем: сб. науч. тр. Воронеж, 2008. Вып. 13. С. 355-358.
8. Комар Ф.В. Разработка метода оценки семантического сходства объектов реляционных баз данных / Ф.В. Комар, А.К. Погодаев // Современные проблемы информатизации в анализе и синтезе программных и телекоммуникационных систем: сб. науч. тр. Воронеж, 2008. Вып. 13. С. 296-298.
9. Комар Ф.В. Алгоритм максимизации функции семантической значимости строкового шаблона / Ф.В. Комар // Успехи современного естествознания. 2008. № 3. С. 52-54.
10. Комар Ф.В. Оценка адекватности методов интегрирования схем данных / Ф.В. Комар II Успехи современного естествознания. 2008. № 3. С. 54-56.
11. Комар Ф.В. Разработка метода описания семантики атрибутов реляционных баз данных / Ф.В. Комар // Успехи современного естествознания. -2008. № 3. С. 56-59.
12. Комар Ф.В. Мера сходства объектов схем данных на базе строковых шаблонов / Ф.В. Комар // Информационные технологии моделирования и управления. 2007. № 9 (43). С. 1070-1076.
13. Комар Ф.В. Метод описания семантики объектов схем данных / Ф.В. Комар // Теоретические и прикладные вопросы современных информационных технологий: материалы IX Всерос. науч.-техн. конф. Улан-Удэ, 2008. Ч. I. С. 92-
14. СхемИнтегратор / А. К. Погодаев, Ф. В. Комар. - М.: ОФАП ГКЦИТ, 2008. Рег. № 50200801926 от 24.09.2008.
65-70.
95.
Подписано в печать 03.07.2009.. Формат 60x84/16. Бумага для множительных аппаратов. Усл. печ. л. 1,0. Тираж 100 экз. Заказ шЛсРз.
ГОУ ВПО «Воронежский государственный технический университет» 394026 Воронеж, Московский просп., 14
Оглавление автор диссертации — кандидата технических наук Комар, Феликс Викторович
Введение.
1. Интеграция схем баз данных.
1.1. Интероперабельность информационных систем.
1.2. Консолидированный доступ к разнородным базам данных.
1.3. Методы отождествления объектов схем данных.
1.3.1. Классификация методов отождествления объектов схем данных
1.3.2. Autoplex и Automatch.
1.3.3. Cupid.
1.3.4. Similarity Flooding.
1.3.5. Semlnt.
1.3.6. COMA.
1.3.7. Семантическое моделирование и онтологии.
1.3.8. Шаблоны.
1.4. Оценка качества отождествления объектов схем данных.
1.4.1. Критерии оценки качества отождествления.
1.4.2. Входные и дополнительные данные.
I 1.4.3. В ыходные данные.
1.4.4. Количественные оценки качества отождествления.
1.4.5. Практическая значимость результатов отождествления.
1.5. Постановка цели и задач исследования.
2. Метод отождествления объектов схем данных.
2.1. Введение.
2.2. Структура решения задачи отождествления объектов схем данных.
2.3. Обобщенная характеристика объектов схем данных.
2.4. Эволюционный алгоритм поиска шаблонов.
2.4.1. Структура эволюционных алгоритмов.
2.4.2. Алгоритм поиска шаблонов.
2.4.3. Кодирование шаблонов.
2.4.4. Фитнес функция.
2.4.5. Формирование начальной популяции.
2.4.6. Оператор скрещивания.
2.4.7. Оператор мутации.
2.5. Отождествление объектов схем данных.
2.5.1. Мера сходства объектов.
2.5.2. Функция оценки сходства атрибутов.
2.5.3. Функция оценки сходства отношений.
2.5.4. Алгоритм отождествления объектов схем данных.
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Комар, Феликс Викторович
3.2. Библиотека классов.64
3.2.1. Общая структура библиотеки.64
3.2.2. Классы, для работы с объектами схем данных.74
3.2.3. Классы, описывающие строковые шаблоны.77
3.2.4. Классы, реализующие генетический алгоритм.83
3.2.5. Классы, реализующие отождествление объектов схем данных .90
3.2.6. Пример использования библиотеки классов.93
3.3. Специальное программное обеспечение «СхемИнтегратор».94
3.3.1. Общее описание специального программного обеспечения.94
3.3.2. Структура программного обеспечения «СхемИнтегратор».98
3.4. Основные результаты и выводы по главе.102
4. Применение метода отождествления объектов схем данных.104
4.1. Введение.104
4.2. Методика оценки отождествления объектов схем данных.104
4.3. Анализ качества методов интеграции схем данных.105
4.3.1. Autoplex и Automatch.105
4.3.2. Cupid.106
4.3.3. Similarity Flooding.106
4.3.4. Semlnt.107
4.3.5. COMA.107
4.3.6. Сравнительный анализ разработанного метода.108
4.4. Интеграция распределенных информационных систем производственного холдинга.113
4.4.1. Структура информационной системы.113
4.4.2. Оценка результатов применения разработанного программного обеспечения.115
4.5. Основные результаты и выводы по главе.118
Заключение.119
Библиографический список.120
Приложения.133
Введение
Актуальность, темы. .Для решения задачи интеграции; баз данных, необходимо решение двух подзадач: интеграция схем данных и интеграция самих данных. Задача: интеграции, данных может быть, решена; с использованием нестрогого соединения; реляционных таблиц: Задача интеграция? схем баз данных требует отождествления объектов! схем баз данных. В> настоящее время нет методов, автоматически решающих эту задачу.
Наиболее известны два основных подхода к решению задачи отождествления объектов схем баз данных: Первый подход основан на расчете расстояния между строковыми значениями (названиями отношений, названиями атрибутов, значениями атрибутов и^т.д.). Данный подход в очень малой; степени учитывает семантику объектов и далеко не всегда^ дает удовлетворительные результаты. Второй подход основан на построении онтологий предметной области рассматриваемых баз данных. Такой» подход требует больших трудозатрат и слабо поддается; автоматизации. Ни один из существующих методов не позволяет строить отождествления составных атрибутов.
Одним из способов^ описания синтаксических особённостей строк являются строковые- шаблоны. Однако в настоящее время нет методов, позволяющих автоматически построить шаблон, описывающий заданное множество строк. Решение такой задачи позволит автоматически строить обобщенную характеристику объектов схем данных в виде множества строковых шаблонов, а уже на1 основе этой характеристики определять сходство объектов. Также на текущий момент окончательно не решена задача автоматического отождествления объектов схем баз данных.
Таким образом, актуальна проблема разработки и внедрения специального математического и программного обеспечения, которое позволит решать задачи автоматического построения обобщенной характеристики объектов схем данных, определения сходства объектов, а так же построения отождествлений объектов схем данных, в том числе и составных атрибутов. Разработка- такого математического и программного обеспечения позволит снизить затраты и ускорить процесс интеграции баз данных.
Работа выполнена в соответствии с научным направлением ЛГТУ "Информационные системы и базы данных".
Цель исследования состоит в разработке специального математического обеспечения для, автоматизированного отождествления объектов схем баз данных и создании на его основе программного обеспечения.
Задачи исследования:
- анализ методов и моделей, возникающих при автоматизированном отождествлении объектов схем баз данных;
- разработка и исследование математического обеспечения для численной оценки сходства и отождествления объектов схем баз данных, в том числе и составных атрибутов;
- разработка специального программного обеспечения для автоматизированного отождествления объектов схем баз данных;
- анализ разработанного математического и программного обеспечения, а также решение задач отождествления объектов схем баз данных при реализации проекта интеграции информационных систем производственного холдинга.
Методы исследования базируются на теории множеств, теории графов, дискретной математике, математической статистике, эволюционном моделировании, объектно-ориентированном программировании, реляционной алгебре, теории баз данных, методах модульного и структурного программирования.
Научная новизна. В диссертации получены следующие результаты, характеризующиеся научной новизной:
- метод описания строковых атрибутов сущностей схем баз данных, позволяющий формально представлять синтаксические особенности рассматриваемых атрибутов, отличающийся использованием в качестве обобщенной характеристики множества строковых шаблонов;
- функция численной оценки значимости строкового шаблона, отличающаяся использованием частоты появления рассматриваемого шаблона на множестве значений строкового атрибута, позволяющая свести задачу построения обобщенной характеристики строкового атрибута к оптимизационной задаче;
- функция численной оценки сходства объектов схем баз данных, отличающаяся использованием в качестве обобщенной характеристики множества строковых шаблонов, позволяющая оценивать сходство объектов на основе множества экземпляров объектов;
- алгоритм отождествления объектов схем баз данных, отличающийся применением численной оценки сходства объектов на основе обобщенной характеристики в виде строковых шаблонов, позволяющий строить отождествления составных атрибутов.
Практическая значимость состоит в создании на основе разработанных методов и алгоритмов специального программного обеспечения, позволяющего автоматизировано отождествлять объекты схем баз данных. Использование данного программного обеспечения позволяет сократить время, требуемое для интеграции схем данных. Предложенные методы могут быть использованы для решения задачи интеграции баз данных.
Реализация и внедрение результатов работы. Разработанное программное обеспечение внедрено при реализации проекта интеграции информационных систем предприятий холдинга ООО "ПРОДО Менеджмент" компанией ООО "JI-ком", а также прошло апробацию при реализации проекта интеграции информационных систем ООО "Дойче банк".
Программное обеспечение зарегистрировано в
Государственном фонде алгоритмов и программ.
Результаты диссертационной работы используются в учебном процессе ЛГТУ при подготовке инженеров по специальности «Прикладная математика».
Апробация работы. Теоретические и практические результаты, полученные в процессе исследования, докладывались и обсуждались на Х1-й Международной научно-практической конференции «Проблемы экологии и экологической безопасности центрального черноземья РФ» (Липецк, 2007), Межрегиональном молодёжном научно-практическом форуме «Молодежная инициатива — 2007» (Липецк, 2007), Всероссийской электронной научной конференция «Современные системы автоматизации» (Москва, 2007), ХШ-й Международной открытой научной конференции «Современные проблемы информатизации» (Воронеж, 2008), IX-й Всероссийской научно-технической конференции «Теоретические и прикладные вопросы современных информационных технологий» (Улан-Удэ, 2008); V Всероссийской школе-семинаре молодых ученых «Управление большими системами» (Липецк, 2008).
Положения работы поддержаны грантами Российского фонда фундаментальных исследований № 05-01-96402 "Совершенствование методологии проектирования информационных систем для управления производственными объектами", № 07-07-96403 "Разработка специальных реляционных операций и алгоритмов для отождествления объектов в распределенных информационных системах".
Публикации. По материалам диссертационной работы опубликовано 14 печатных работ, в том числе 2 статьи в изданиях, рекомендованных ВАК РФ.
В работах, опубликованных в соавторстве, лично соискателем выполнены: в [20] — предложен алгоритм решения задачи максимизации функции значимости строкового шаблона; в [21] — предложен метод формального описания синтаксических особенностей строковых атрибутов сущностей баз данных с использованием множества строковых шаблонов; в [23] — разработана архитектура классов для реализации специального программного обеспечения; в [24] — разработан алгоритм поиска множества строковых шаблонов для формального описания синтаксических особенностей значений атрибутов реляционных баз данных; в [25] — предложена функция оценки значимости строкового шаблона; в [29] - рассмотрена проблема анализа качества методов интеграции схем данных и проведен сравнительный анализ с существующими методами; в [30] -разработан алгоритм выбора пар объектов схем данных для отождествления.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка из 124 наименований, 2 приложений. Основная часть работы изложена на 132 страницах машинописного текста, содержит 33 рисунка и 1 таблицу.
Заключение диссертация на тему "Разработка математического и программного обеспечения для автоматизированного отождествления объектов схем баз данных"
4.5. Основные результаты и выводы по главе
Исследование на тестовых задачах и практическое применение разработанного программного обеспечения при реализации проекта интеграции информационных систем филиалов производственного холдинга позволяют сделать следующие выводы:
- Применение разработанных методов и алгоритмов автоматизированной интеграции схем данных позволило получить более точные отождествления объектов схем данных по сравнению с существующими методами и получить прирост численных оценок качества от 12.66% до 51.61%.
- Разработанный метод отождествления объектов схем данных на практических задачах позволяет автоматически получать отождествления объектов схем данных по качеству сопоставимые с отождествлениями, получаемыми на тестовых задачах.
- Анализ качества автоматически построенных отождествлений объектов схем данных на рассмотренных задачах, позволяет сделать вывод о возможности практического применения разработанных алгоритмов и методов при решении реальных практических задач интеграции информационных систем.
- Применение разработанного специального программного обеспечения «СхемИнтегратор» при интеграции распределенных информационных систем филиалов холдинга ООО «ПРОДО Менеджмент» позволило значительно снизить трудозатраты на интеграцию схем данных рассматриваемых информационных систем.
Заключение
В ходе исследования были получены следующие результаты:
1. Разработан метод формального описания синтаксических особенностей значений атрибутов сущностей схем баз данных, основанный на использовании в качестве обобщенной характеристики строковых шаблонов.
2. Предложена функция численной оценки- значимости строковых шаблонов, которая позволяет свести задачу построения обобщенной характеристики строковых атрибутов к оптимизационной задаче.
3. Предложена функция численной оценки сходства объектов схем баз данных, отличающаяся использованием в качестве обобщенной характеристики объектов множества строковых шаблонов. Использование множества строковых шаблонов позволяет оценивать сходство составных атрибутов.
4. Разработан алгоритм отождествления объектов схем баз данных, позволяющий строить отождествления составных атрибутов и отличающийся применением численной оценки сходства объектов схем баз данных на основе множества строковых шаблонов.
5. На основе предложенных' методов и алгоритмов разработана библиотека классов, позволяющая рассчитывать численную оценку сходства, а так же строить отождествления объектов схем баз данных.
6. Разработано и внедрено в ООО "JI-Ком" специальное программное обеспечение «СхемИнтегратор», основанное на предложенных методах и алгоритмах.
7. Разработанное программное обеспечение прошло апробацию при реализации проекта интеграции информационных систем предприятий холдинга ООО "ПРОДО Менеджмент", а также при реализации проекта интеграции информационных систем ООО "Дойче банк".
Библиография Комар, Феликс Викторович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Арсеньев Б. П. Интеграция распределенных баз данных / Арсеньев Б. П., Яковлев С. А. М.: Лань, 2001. - 464 с.
2. Брюхов Д.О. Интероперабельные информационные системы: архитектуры и технологии. / Задорожный В.И., Калиниченко Л.А., Курошев М.Ю., Шумилов С.С. И СУБД, № 4, 1995.
3. Брюхов Д. О. Конструирование информационных систем на основе интероперабельных сред информационных ресурсов. : автореф. дис.: канд. техн. наук: 05.13.11: защита 23.10.03. / Брюхов Дмитрий Олегович.- М., Институт проблем информатики РАН, 2003.- 21 с.
4. Глеб Лодыженский. Шлюзы как средство интеграции баз данных. // Открытые системы, №2, 1999.
5. Гринев М. Н. UQL: язык запросов к интегрированным данным в терминах UML / Гринев М. Н., Кузнецов С. Д. // Программирование. -2002.-N4.-С. 9-19.
6. Дейт К. Дж. Введение в системы баз данных, 7-е издание. Пер. с англ. - М.: Издательский дом Вильяме, 2001. - 1072 с.
7. Еремеев А.В. Разработка и анализ генетических и гибридных алгоритмов для решения задач дискретной оптимизации. Дисс. канд.физ.-мат.наук. Омск, 2000.
8. Зильбершац А. Стратегические направления в системах баз данных / Зильбершац А., Здоник С. // Системы управления базами данных. -1997. -N04.
9. Зиндер Е. 3. Проектирование баз данных: новые требования, новые подходы // Системы управления базами данных. 1996. - N 3. - С. 1022.
10. Ю.Зыкин С. В. Соответствие состояний реализации исходной и целевой моделей данных // Материалы конф., посвященной 90-летию со дня рождения А. А. Ляпунова. 2001. - 6 с.
11. П.Иванова Г. О. Открытый- замкнутый мир, внешнеесоединение и семантика ER-модели // Современные проблемы информатизации в технике и технологии: сб. трудов. Вып. 8. 2003. -С. 42-43.
12. Калиниченко JI. А. Десять Лет Московской Секции ACM SIGMOD / Калиниченко Л. А., Когаловский М. Р., Кузнецов С. Д. // Программирование. 2002. - N 6.
13. Калиниченко Л. А. Методы и средства интеграции неоднородных баз данных. М.: Наука, 1983. - 423 с.
14. Кренке Д. Теория и практика построения баз данных, 8-е изд. СПб.: Питер, 2003.-800 с.
15. Когаловский М. Р. Абстракции и модели в системах баз данных // Системы управления базами данных. 1998. - N 04-05. - С. 73-81.
16. Когаловский М. Р. Очерк отечественной истории технологий баз данных (отрывок из книги "Энциклопедия технологий баз данных") // Открытые системы. 2002. - N 1.
17. Кодд Э. Ф. Расширение реляционной модели для лучшего отражения семантики // Системы управления базами данных. 1996. - N 5. - С. 163-192.
18. Кодд Е. Ф. Реляционная модель данных для больших совместно используемых банков данных // Системы управления базами данных. -1995. -N 1.-С. 145-160.
19. Комар Ф.В. Разработка и апробация метода оценки семантического сходства атрибутов реляционных баз данных // Естественные и технические науки. 2007. - №6 (32). - с. 244-250.
20. Комар Ф.В. Метод интегрирования схем данных на основе семантического описания атрибутов. / Комар Ф.В., Погодаев А.К. // Программные продукты и системы. — 2008. № 1(81). с. 53-56.
21. Комар Ф.В. Автоматизированный метод отождествления объектов схем баз данных. / Погодаев А.К., Комар Ф.В. // Системы управления и информационные технологии, 3.1(33), 2008. С. 192-196.
22. Комар Ф.В. Разработка метода оценки семантического сходства объектов реляционных баз данных / Комар Ф.В., Погодаев А.К. //
23. Современные проблемы* информатизации в анализе исинтезе программных и телекоммуникационных систем. Сборник трудов по итогам XIII открытой международной конференции «Современные проблемы информатизации». Воронеж - 2008. Выпуск 13.-с. 296-298.
24. Комар Ф.В. Алгоритм максимизации функции семантической значимости строкового шаблона // Успехи современного естествознания. -2008. № 3. с. 52-54.
25. Комар Ф.В. Оценка адекватности методов интегрирования схем данных // Успехи современного естествознания. — 2008. № 3. с. 54-56.
26. Комар Ф.В. Разработка метода5 описания семантики атрибутов реляционных баз данных // Успехи современного естествознания. -2008. № 3. с. 56-59.
27. Комар Ф.В. Мера сходства объектов схем данных на базе строковых шаблонов. Комар Ф.В. // Информационные технологии моделирования и управления. 2007. - № 9 (43). - с. 1070-1076.
28. Комар Ф.В. Метод описания семантики объектов схем данных // Теоретические и прикладные вопросы современных информационных технологий. Материалы IX Всероссийской научно-технической конференции. -Улан-Удэ 2008. Часть I. с. 92-95.
29. Коровин С. Е. Моделирование семантики и прагматики документа в нотации языка XML / Коровин С. Е., Мельников А. В., Кафтанников И. JI. // Известия Челябинского научного центра. 2002. - вып. 3(16). - С. 9-13.
30. Кузнецов С. Д. Введение в информационные системы // Системы управления базами данных. 1997. - N 02.
31. Кузнецов С. Д. Направления исследований в области управления базами данных: краткий обзор // Системы управления базами данных. -1995. -N 1.
32. Кузнецов С.Д. Основы баз ' данных. // Интернет-университет информационных технологий ИНТУИТ.ру, 2005.
33. Курейчик, В.М: Генетические алгоритмы / JI.A. Гладков, В.М. Курейчик, В.В. Курейчик. -М.: Физматлит, 2006.
34. Курейчик, В.М. Теория и практика'эволюционного'моделирования //
35. B.В. Емельянов, В.М. Курейчик, В.В. Курейчик. М.гФИЗМАТЛИТ, 2003.
36. ЛитвакБ.Г., Экспертные технологии в управлении, М., «Дело», 2004 г.
37. Максимов В. Алгоритмы поиска, или "Как искать неизвестно что" // Монитор. -1995. N 6.
38. Мальцев А. И. Алгебраические системы. М.: Наука, 1970. - 392 с.
39. Марчук А. Г. К вопросу об идентификации электронных документов и коллекций / Марчук А. Г., Осипов А. Е. // Программирование. 2000. -N3,-С. 53-62.N
40. Мейер Д. Теория реляционных баз данных. Пер. с англ. М. К. Валиева и др.; - М.: Мир, 1987. - 608 с.
41. Мюллер Р. Дж. Базы данных и UML. М.: Лори, 2002. - 420 с.
42. Погодаев А.К. Альтернативные соединения таблиц баз данных / Погодаев А.К., Муравейко А.Ю., Дятчина Д.В. // Системы управления и информационные технологии, 2005, N5(22), с. 99-102.
43. Погодаев А.К. Вербальное описание предметной области в объектно-ролевом моделировании баз данных / Погодаев А.К., Кузнецов Л.А., Овчинников В.В. // Вестник ЛГТУ-ЛЭГИ. Липецк: ЛЭГИ, N2(8).2002.1. C.67-71.
44. Погодаев А.К., Комар Ф.В. СхемИнтегратор. М.: ОФАП ГКЦИТ, 2008. Per. № 50200801926 от 24.09.2008.
45. Погодаев А. К. Метод нестрогого соединения реляционных таблиц баз данных / Погодаев А. К., Федоркова Г. О. // Современные сложные системы управления CCCy/HTCS'2005: Сб. трудов международной научн.-практ.конф. 2005. - Т.1. - С. 252-259.
46. Погодаев А.К. Метод организации базы данных металлургического производства / Погодаев А.К., Кузнецов JI.A., Овчинников В.В. // Вестник ЛГТУ-ЛЭГИ. Липецк: ЛЭГИ, N2(6).2000. С.103-110.
47. Погодаев А. К. Нестрогое соединение реляционных таблиц: хеширование по сигнатуре / Погодаев А. К., Федоркова Г. О. // Системы управления и информационные технологии. 2005. - N 2(19). - С. 93-95
48. Погодаев А.К. Объектно-реляционная модель сложного производства/ Погодаев А.К., Бурцев В.Д. // Современные проблемы информатизации в технике и технологиях: Труды VI Международной открытой научн. конф. Воронеж: ВЭПИ, 2001. С.22-23.
49. Погодаев А.К. Объектный подход при проектировании информационных систем // Изв. вуз. Черная металлургия. 2001. N11. С.57-59.
50. Погодаев А.К. Обработка данных на языке SQL в реляционных системах: Учебное пособие. / Погодаев А.К., Батищев Р:В. // Липецк: ЛГТУ, 2000. -63с.
51. Погодаев А.К. Прикладной подход к реляционному исчислению / Погодаев А.К., Блюмин С.Л., Тарасов Н.А. // Современные проблемы информатизации в технике и технологиях: Труды V Международной электронной научн. конф. Воронеж: ЦЧКИ, 2000. С. 106.
52. Погодаев А.К. Разработка реляционных моделей данных для систем исследования технологии производства стали / Погодаев А.К., Кузнецов Л.А., Блюмин С.Л., Белопольский В.В. // Изв.вуз.Черная металлургия. 1993. N7. С.26-29.
53. Пржиялковский В. В. Абстракции в проектировании баз данных // Системы управления базами данных. 1998. - N 1-2. - С. 90-97.
54. Растригин Л. А. Случайный поиск — специфика, этапы истории и предрассудки. //Вопросы кибернетики. Вып. 33 (1978), с. 3—16.
55. Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Рутковская Д., Пилиньский М., Рутковский JL Изд-во: Горячая линия-Телеком, Радио и связь, 2004. -452 с.
56. Тони Стаблибайн Регулярные выражения. Карманный справочник. -Питер, 2004.- 160 с.
57. Ульман Дж. Основы систем баз данных. М.: Финансы и статистика, 1983. -334 с.
58. Цаленко М. Ш. Моделирование семантики в базах данных. М.: Наука, 1989.-287 с.
59. Цаленко М. Ш. Реляционная модель данных с оценками в гейтинговых алгебрах // Программирование. 1995. - N 2. - С. 3-8.
60. Чен, Питер Пин-Шен Модель "сущность-связь" шаг к единому представлению данных // Системы управления базами данных. - 1995. -N3.-C. 137-158.
61. Янг М. XML шаг за шагом // М.: Изд-во "ЭКОМ", 2000 - 3824 с. ISBN: 5-7163-0071-5
62. Arnold, D.V. Performance analysis of evolution strategies with multirecombination in high-dimensional RN-search spaces disturbed by noise: Technical report no. CI 94/00 / D.V. Arnold, H.-G. Beyer. -University of Dortmund, Germany, 2000
63. Baeck, T. Evolutionary computation // T. Baeck, D. Fogel, Z. Michalewicz. — Berlin Heidelberg: Springer-Verlag, 2000.
64. Bagai R., Orgun M. A. A Temporal' Paraconsistent Relational Algebra for Incomplete and Inconsistent; Information // • Proceedings ofthe 33rd Annual ACM Southeast Conference, 1995, pp.240248:
65. Berlin J., Motro A. Autoplex: Automated Discovery of Content for Virtual Databases. // GoopIS, 2001, ,108-122.
66. Berlin J;, Motro A. Database Schema Matching Using Machine Learning with Feature Selection. // CAiSE, 2002.
67. Beyer, H.-G: An alternative explanation for the manner im which genetic algorithms operate / H.-G. Beyer//BioSystems. 1997. -No. 41.-P. 1-15.
68. Beyer, H.-G. How to analyse evolutionary algorithms: Technical report no. CI-139/02 / H.-G. Beyer, H.-P. Schwefel, I. Wegener. University of Dortmund, Germany, .2002.
69. Brickley D., Guha R.V. Resource Description Framework (RDF) Schema Specification: 1999.
70. Chen P. P-S. The Entity-Relationship Model—- Toward a Unified View-of Data // ACM Transactions on Database Systems; 1(1), 1976. p.9-36.,
71. Codd E. F. A Relation Model of Data for Large Shared Data Banks // Comm. ACM 13, 6, ACM, New York, London, Amsterdam, June 1970. P. 377-387.
72. Cohen, William W. Integration of Heterogeneous Databases Without Common Domains Using Queries Based on Textual Similarity // Proc. ACM Sigmod-98, ACM Press, New York, 1998, pp. 201-212.
73. Cohen, William W., Hirsh, Haym Joins, that Generalize: Text Classification Using WHIRL // In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, August, 1998.
74. Date, C.J. The Extended Relational Model RM/T // In C.J. Date, Relational Database Writings 1991-1994. Reading, Mass.: Addison-Wesley, 1995.
75. Date. C. J. Thirty years of relational: Extending the Relational Model // Intelligent Enterprise, June 1, 1999, Volume 2, Number 8.
76. Davis, L. Adapting operator probabilities in genetic algorithms / L. Davis // Proceedings of Third International Conference on* Genetic Algorithms and their Applications. 1989. - P. 61-69.
77. Dayal, U., Goodman N., Kata R.H. An Extended Relational Algebra with Control Over Duplicate Elimination // Proc. ACM PODS 1982.
78. Debabrata Dey, Sumit Sarkar A Probabilistic Relational Model and Algebra //ACMTrans. Database Syst. 21(3), 1996. p.339-369.90:De Jong, K.A. Generation gaps revisited / K.A. De Jong; Sarma J. // Foundations of Genetic Algotihms 2. 1993. - P.19-28.
79. Do Hong-Hai, Melnik Sergey, Rahm, Erhard. Comparison of Schema Matching Evaluations // Proc. GI-Workshop "Web and Databases", Erfurt, Oct. 2002.
80. Do Hong-Hai, Rahm Erhard. COMA A System for Flexible Combination of Schema Matching Approach. // VLDB, 2002.
81. Edwards J.S. Expert Systems in Management and Administration Are they really different from Decision Support Systems? // European Journal of Operational Research, 1992. - Vol. 61. - pp. 114-121.
82. Elmagarmid A.K., Pu C. Introduction: Special issue on heterogeneous databases. // ACM Computing Surveys, 22, 1990.
83. Galindo J., Medina J. M., Carmen M. Garrido. Fuzzy Division in Fuzzy Relational Databases. An Approach // Fuzzy Sets and Systems, Volume 121, Number 3, 1 August 2001. P. 471-490.
84. Goldberg D. E. Genetic algorithms in search, optimization, and machine learning. Reading, MA: Addison-Wesley. 1989.
85. Gruber, T.R. A Translation Approach to Portable Ontology Specification // Knowledge Acquisition 5: 199-220, 1993.
86. Hasselbring W. Information system integration. //Communications of the ACM, 43(6)33-38, 2000.
87. Hendler, J., McGuinness, D.L. The DARPA Agent Markup Language. // IEEE Intelligent Systems 16 (6): 67-73, 2000.
88. Holland J. H. Adaptation in natural and artificial systems. Ann Arbor: University of Michigan Press. 1975.
89. Keen P.G.W. Decision Support Systems: The next decades // Decision Support Systems, 1987. v. 3. - pp. 253-265.
90. Kramer S., De Raedt L., Helma C. Molecular feature mining in hiv data. // The Seventh ACM SIGKDD International Conference on Knowledge Discoveiy and Data Mining, Association for Computing Machinery, 2001.
91. Li W.S., Clifton C. Semantic Integration in Heterogeneous Databases Using Neural Networks. // VLDB, 1994.
92. Li W.S., Clifton C. Semlnt: A Tool for Identifying Attribute Correspondences in Heterogeneous Databases Using Neural Network. // Data and Knowledge Engineering 33: 1, 49-84, 2000.
93. Li, W.S., C. Clifton, S.Y. Liu. Database Integration Using Neural Networks: Implementation and Experiences. // Knowledge and Information Systems 2: 1, 2000
94. Little I.D.C. Models and Managers: The Concept of a Decision Calculus // Management Science, 1970. v. 16. - N 8.
95. Litwin W., Mark L., Roussopoulos N. Interoperability of multiple autonomous databases. // ACM Computing Surveys, 22, 1990.
96. Madhavan J., Bernstein P.A., Rahm E. Generic Schema Matching with Cupid. // VLDB, 2001.
97. McGuinness D.L., Wright J. Conceptual Modeling for Configuration: A Description Logic-based Approach. // Artificial Intelligence for Engineering Design, Analysis, and Manufacturing special issue on Configuration. 1998.
98. Melnik Sergey, Garcia-Molina Hector, Rahm Erhard. Similarity Flooding: A Versatile Graph Matching Algorithm (Extended Technical Report) 2001.
99. Noy NatalyaF., McGuinness Deborah L. Ontology Development 101: A Guide to Creating Your First Ontology. // Stanford Knowledge Systems Laboratory Technical Report KSL-01 -05, March 2001.
100. Power D. J. Web-based and model-driven decision support systems: concepts and issues. Americas Conference on Information Systems, Long Beach, California, 2000.
101. Price C., Spackman K. SNOMED clinical terms. // BJHC & IM-British Journal of Healthcare Computing & Information Management 17 (3): 27-31,2000.
102. Rahm Erhard, Bernstein Philip. A Survey of Approaches to Automatic Schema Matching. // VLDB, 2001.
103. Ronkainen Pirjo. Attribute Similarity and Event Sequence Similarity in Data Mining. // University of Helsinki Report C-1998-42. 1998.
104. Sheth A.P., Larson J. A. Federated database systems for managing distributed, heterogeneous and autonomous databases. // ACM Computing Surveys, 22, 1990.
105. Snodgrass R.T. The Temporal Query Language TSQL2 // Dortrecht, Netherlands: Kluwer Academic Pub., 1995.
106. Spears, W.M. Evolutionary algorithms: the role of mutation and recombination // W.M. Spears. Berlin Heidelberg: Springer-Verlag, 2000.
107. Tsoy, Y.R. Evolutionary Algorithms Design: State of the Art and Future Perspectives / Y.R. Tsoy // Proceedings of IEEE East-West Design and Test Workshop (EWDTW'06). Sochi, Russia, September 15-19, 2006. -P. 375-379.
108. Turban, E. Decision support and expert systems: management support systems. -Englewood Cliffs, N.J.: Prentice Hall, 1995.
109. Turing, A.M. Computing machinery and intelligence / A.M. Turing // Mind. 1950. - Vol. 236, no. 59.
110. Van Griethuysen J.J. Concepts and Terminology for the Conceptual Schema and the Information Base. // ISO Technical Report ISO/TR 9007, 1987.
-
Похожие работы
- Разработка математического и программного обеспечения идентификации объектов в базе данных на основе нестрогого соответствия
- Разработка алгоритмов высокодетального моделирования объектов на основе анализа цифровых изображений
- Разработка моделей параметрического синтеза и анализа реакторов пленочного типа
- Метод синтеза наблюдательных систем больших оптических телескопов
- Исследование методов и разработка алгоритмов для математического обеспечения стереотелевизионной системы технического зрения робота
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность