автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Управление метаданными в гетерогенных информационно-аналитических системах масштаба предприятия

кандидата технических наук
Шовкун, Алексей Владимирович
город
Москва
год
2005
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Управление метаданными в гетерогенных информационно-аналитических системах масштаба предприятия»

Автореферат диссертации по теме "Управление метаданными в гетерогенных информационно-аналитических системах масштаба предприятия"

На правах рукописи

Шовкун Алексей Владимирович

УПРАВЛЕНИЕ МЕТАДАННЫМИ

В ГЕТЕРОГЕННЫХ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ МАСШТАБА ПРЕДПРИЯТИЯ

Специальность 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидататехническихнаук

Москва 2005

Работа выполнена в Московском инженерно-физическом институте (государственном университете).

Научный руководитель:

кандидат технических наук, доцент Сергеевский Георгий Максимович

Официальные оппоненты:

доктор технических наук, профессор Лисов Олег Иванович кандидат технических наук, Дзенгелевский Андрей Евгеньевич

Ведущая организация:

Федеральное государственное учреждение Российский научный центр «Курчатовский институт»

Защита состоится 1 июня 2005 г. в 17:00 часов на заседании

диссертационного совета Д212.130.03 при Московском инженерно-физическом институте (государственном университете) по адресу:

115409, Москва, Каширское шоссе, 31, тел (095) 324-84-98,323-91-67.

С диссертацией можно ознакомиться в библиотеке МИФИ.

Автореферат разослан 22 » Ау^е^Ц 2005 г.

Просим принять участие в работе совета или прислать отзыв в одном экземпляре, заверенный печатью организации.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы

Любая крупная компания рано или поздно сталкивается с задачей сбора информации для принятия управленческих решений. С одной стороны в компании существует множество информационных систем, в которых есть все необходимые для анализа детальные данные, с другой стороны эти системы не представляют собой единого источника согласованной информации, необходимого для принятия стратегических решений. Возникает потребность в организации цепочки доставки информации: от существующих оперативных систем и других источников данных (например, периодические издания или интернет ресурсы) до информационно-аналитических систем. Результатом организации такой цепочки доставки информации является создание информационно-аналитической системы масштаба предприятия (корпоративного хранилища данных, ХД).

Современные информационно-аналитические системы (ИАС) объединяют большое количество баз данных, файловых систем, инструментов и приложений. Каждая из объединяемых компонент обычно имеет свою собственную модель данных и структуры для хранения и передачи данных. Например, в качестве источников данных могут использоваться реляционные базы данных с разными логическими схемами данных, плоские файлы, XML или EDIFACT файлы и т.п. Аналогично, для построения витрин данных и для анализа данных разные инструменты используют различные модели: OLAP, объектные, объектно-реляционные, реляционные. Все модели данных, используемые в инструментах и средствах, включенных в хранилище данных, взаимосвязаны. Эти модели так или иначе описывают понятия предметной области, для которой создается хранилище. Для поддержания семантической целостности необходимо отслеживать зависимости и соответствия между различными моделями данных различных компонент системы. Эту задачу необходимо решать не только на этапе проектирования хранилища, но и в процессе его эксплуатации при появлении новых источников информации или новых понятий предметной области. Сложность этой задачи нелинейно возрастает при увеличении числа компонент ИАС.

Ключевым аспектом при решении такой задачи системной интеграции разнородных компонентов ИАС является то, что все это разнообразие средств и технологий собирается вместе для построения единой цепочки доставки информации в одной компании. Другими словами, все интегрируемые системы имеют дело с общим набором предметных областей - в них присутствует и используется одна и та же информация, разница существует лишь в форме представления этой информации или в выполняемых над ней операциях.

Используемые сегодня подходы и технологии создания ИАС масштаба предприятия (хранилищ данных) обладают рядом недостатков:

• Низкое качество информации и отсутствие возможности обзора у конечных пользователей и у ИТ специалистов информационного наполнения системы;

• Высокая трудоемкость создания ХД при осуществлении интеграции на уровне метаданных традиционными способами;

• Высокая трудоемкость по поддержанию ХД в актуальном состоянии (стоимость владения системой составляет до 40-100% в год от первоначальной стоимости разработки);

Несовместимость на уровне метаданных программных продуктов различных производителей, используемых в качестве компонентов ХД, что делает практически нерентабельным построение ХД из лучших в своем классе продуктов различных производителей;

• Отсутствие единого промышленного стандарта метаданных, обладающего достаточной степенью подробности для решения практических задач по созданию информационно-аналитических систем.

Проблема эффективной интеграции программных продуктов различных производителей на уровне данных может быть разрешена (или сведена к более простым задачам) путем интеграции метаданных между используемыми в хранилище данных системами. Для этого в хранилище данных должна входить специальная компонента, управляющая моделями данных остальных компонент, - Репозиторий. Репозиторий предназначен для управления метаданными, т.е. информацией о структуре, содержимом и взаимосвязями между компонентами хранилища данных. Репозиторий облегчает работу проектировщикам и администраторам, поскольку является единым местом сбора информации о структуре и составе хранилища данных. Также он необходим бизнес пользователям, поскольку содержит информацию о предметной области, которая необходима при навигации по хранилищу данных и при построении аналитических запросов.

Цель исследования

Целью диссертационной работы является исследование и разработка теоретических способов эффективной интеграции программных продуктов различных производителей на уровне метаданных и создание на их основе технологии и инструментария для управления метаданными в гетерогенных информационно-аналитических системах масштаба предприятия (хранилищах данных), что позволит автоматизировать процессы построения и развития таких систем в крупных организациях.

В соответствии с поставленной целью определены задачи диссертации:

• Разработать модель порождения и обмена метаданными внутри гетерогенной информационно-аналитической системы масштаба предприятия;

• Построить классификацию метаданных, встречающихся в среде гетерогенных информационно-аналитических систем масштаба предприятия;

• Выделить классы метаданных, подлежащих ведению в центральном Репозитории метаданных информационно-аналитической системы;

Построить формальную модель метаданных центрального Репозитория, покрывающую потребности в метаданных всех компонентов информационно-аналитической системы;

• Спроектировать и осуществить программную реализацию центрального Репозитория метаданных информационно-аналитической системы;

Разработать технологию создания информационно-аналитических систем масштаба предприятия на основе управления метаданными и с использованием центрального Репозитория метаданных.

Научная ценность

Научная новизна работы заключается в том, что в ней впервые:

• предложен «конфедеративный» подход к управлению и обмену метаданными в среде гетерогенной информационно-аналитической системы масштаба предприятия;

разработана многомерная классификация метаданных, встречающихся в ИАС, состоящая из 6 классификаций;

• разработана модель общих метаданных информационно-аналитической системы масштаба предприятия, включающая описания бизнес объектов, структур хранения данных и гибкие описания связей между бизнес понятиями и структурами хранения данных; модель состоит из 119 классов.

Практическая ценность

Практическая значимость работы заключается в следующих результатах:

• разработана технология построения гетерогенной информационно-аналитической системы масштаба предприятия (хранилища данных) на основе конфедеративного управления метаданными;

модель метаданных для хранилища данных разработана на основе и совместима с промышленными стандартами MOF, CWM, XMI, XML;

осуществлена программная реализация центрального Репозитория метаданных информационно-аналитической системы на платформах J2EE h.NET.

Положения, выносимые на защиту

Для публичной защиты выдвигаются следующие результаты положения

• Конфедеративный подход к обмену метаданными в среде информационно-аналитической системы масштаба предприятия,

• Классификационная модель метаданных в среде информационно-аналитической системы масштаба предприятия,

• Формальная модель метаданных центрального Репозитория информационно-аналитической системы масштаба предприятия,

• Технология создания информационно-аналитических систем масштаба предприятия на основе конфедеративного управления метаданными

Методы исследования

Достоверность полученных результатов обеспечивается использованием методов и аппаратов теории множеств, реляционного моделирования данных, теории графов, системного анализа, объектно-ориентированного анализа и проектирования, календарного планирования, теории решения изобретательских задач, а также результатами практической реализации

Разработка теоретических положений и создание на их основе технологии и инструмента для управления метаданными стали возможными благодаря комплексному использованию современных стандартов и спецификаций в области описания метаданных и проектирования информационных систем OMG Unified Modeling Language, OMG Model Driven Architecture, OMG Meta Object Facility, OMG Common Warehouse Metamodel, Rational Unified Process и др Разработанная модель метаданных описана на языке Модели MOF и является расширением спецификации Common Warehouse Metamodel

Апробация работы

Результаты работы применяются Отделением Системной Интеграции холдинга ЛАНИТ в процессе исполнения проектов по созданию гетерогенных информационно-аналитических систем масштаба предприятия, что подтверждено актом о внедрении В частности, положения разработанной технологии управления метаданными применялись под руководством и при участии автора при разработке информационно-аналитической системы для одного из крупнейших банков России По сформулированным в данной работе требованиям и технологическим решениям под руководством и при участии автора создан программный продукт «Корпоративный каталог показателей» («Enterprise Metadata Center»)'

' Свидетельство об официальной регистрации программы для ЭВМ №2004611855 11 августа 2004г, выдано Федеральной службой по Интелтектуальной собственности, патентам и товарным знакам

Основные результаты работы докладывались, одобрены и опубликованы в материалах следующих научных конференций и семинаров:

• Научная сессия МИФИ-2003, Москва, МИФИ, февраль 2003 г.2;

• Всероссийская Научная Конференция по Проблемам Математики, Информатики, Физики, Химии и Методики Преподавания Естественнонаучных дисциплин, Москва, РУДН, апрель 2003 г.;

• Семинар "Хранилища данных и аналитические системы - от концепции к решению", Москва, Oracle, декабрь 2003 г.;

• XLVII научная конференция Московского Физико-Технического Института «Современные проблемы фундаментальных и прикладных наук», Москва, ЛАНИТ, ноябрь 2004 г.

Публикации

Основные научные и практические результаты диссертации опубликованы в 13 печатных работах.

Структура и объем работы

Диссертация состоит из введения, четырех глав, заключения, списка литературы из 94 наименований, и пяти приложений. Работа состоит из 152 страниц текста, 49 рисунков и 26 таблиц.

2 Работа «Технология построения репозитория метаданных для хранилищ данных» отмечена дипломом Научной сессии

СОДЕРЖАНИЕ РАБОТЫ

Введение

Во введении обосновывается актуальность темы диссертационной работы, формулируется её цель, обосновывается научная новизна и практическая ценность, приводится краткий обзор содержания глав.

Первая глава

Первый раздел главы посвящен описанию проблемной области диссертации. Рассматриваются информационно-аналитические системы (ИАС) масштаба предприятия, иногда называемые хранилищами данных (ХД), определяемые как «предметно-ориентированная, интегрированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений» ^ Inmon, 1992).

Если абстрагироваться от деталей реализации и моделирования данных, то можно сформулировать основные цели (критерии эффективности) хранилища данных:

1. Предоставление доступа к информации организации

Информация в хранилище содержится в виде, удобном для просмотра и понимания, доступ к данным характеризуется высокой производительностью. Удобство понимания означает, что данные правильно названы и очевидны. Удобство просмотра означает возможность увидеть искомую цель на экране и попасть к ней за один щелчок мыши. Высокая производительность означает нулевое время ожидания. Все остальное является компромиссом и, следовательно, предметом для улучшения.

2. Обеспечение целостности информации организации

Информация из одного подразделения организации может быть сопоставлена с информацией из другого подразделения. Если два показателя имеют одинаковые названия, то они должны иметь одинаковый смысл, и наоборот. Целостность информации означает высокое качество информации, т.е. вся информация учтена и полна. Все остальное является компромиссом и, следовательно, предметом для улучшения.

3. Хранилище данных является гибким и настраиваемым источником информации

Хранилище данных разрабатывается для длительного использования таким образом, чтобы при возникновении новых запросов не нужно было изменять или нарушать существующие данные и используемые технологии. Также, при добавлении новых данных в хранилище существующие данные и технологии не изменяются и не нарушаются. Создание новых витрин данных, входящих в состав хранилища, должно вестись постепенно и не

затрагивать старые витрины данных. Все остальное является компромиссом и, следовательно, предметом для улучшения.

4. Защита информационных активов организации

Хранилище данных не только эффективно управляет доступом к данным, но и дает своим владельцам видение использования и злоупотребления данными, содержащимися в нём. Все остальное является компромиссом и, следовательно, предметом для улучшения.

5. Хранилище данных является фундаментом для принятия решений в организации

Хранилище данных содержит нужные данные для поддержки принятия решений. Существует единственный реальный критерий пользы ХД: решения, принятые после его ввода в эксплуатацию

Рассмотренные критерии описывают идеальную, эталонную

информационно-аналитическую систему. Систем, соответствующих на 100% этим требованиям, не существует. Это является недостатком современных технологий создания хранилищ данных.

Второй раздел главы посвящен рассмотрению современной технологии создания ИАС масштаба предприятия.

Серверы представления информвции

Рис. 1 Типовая архитектура ИАС масштаба предприятия (хранилища данных)

При создании ИАС в единую систему объединяется множество различных источников данных, существующих в компании, а также с помощью различных специализированных инструментов создаются компоненты системы (Рис. 1.). Создание ИАС является задачей системной интеграции, при решении которой разработчики обычно сталкиваются с типичными проблемами, рассмотренными в третьем разделе главы:

9

• гетерогенность источников и приемников данных, программного обеспечения, операционных систем;

• разнородность используемых данных - структурированные данные (в основном реляционные), неструктурированные, многомерные;

• территориальная удаленностью источников и приёмников данных друг от друга;

• одновременное использование для информационно-аналитического обслуживания пользователей как центрального хранилища данных, так и витрин данных;

преобразования данных - при продвижении данных по цепочке доставки информации необходимо осуществлять многократные перегрузки данных из одних структур хранения в другие;

• изменчивость системы во времени - ИАС создается на десятки лет, за такой срок происходит множество изменений в бизнес-процессах компании и в требованиях к системе.

В качестве основного направления разрешения существующих проблем создания ИАС выбрано решение задачи эффективной интеграции компонентов системы на уровне метаданных, что является необходимым условием для их эффективной интеграции на уровне данных.

Четвертый раздел главы посвящен современным подходам к описанию метаданных, в частности описанию метаданных на основе моделей. При этом делается три важных вывода:

любая формальная модель информационной структуры на самом деле является метаданными, определяющими эту информационную структуру;

метаданные могут существовать независимо и вне конкретной вычислительной платформы в виде формальной платформо-независимой модели;

• метаданные, представленные в виде формальной платформо-независимой модели, могут быть преобразованы в любое количество платформо-зависимых моделей для каждой целевой вычислительной платформы.

В заключительном пятом разделе главы сформулирована цель диссертации и конкретные задачи исследований. Актуальность поставленной цели определяется тем, что разработка механизмов и реализация средств интеграции компонентов ИАС (ХД) на уровне метаданных позволит приблизить создаваемые системы к «идеалу» по четырем из пяти ранее сформулированных критериев (критерии 1, 2, 3, 5).

Вторая глава

Первый раздел главы посвящен доказательству эффективности организации обмена метаданными в среде ИАС. Система рассматривается как

цепочка доставки информации с последовательными преобразованиями данных (Рис. 2).

Рис. 2 ИАС масштаба предприятия как цепочка доставки информации

Под эффективностью понимается величина, обратная количеству описаний моделей данных, которые выполняются вручную при создании системы. Сравнивается традиционный подход, когда все модели описываются вручную, и подход, подразумевающий наличие средств обмена метаданными между компонентами системы, при котором каждая модель данных описывается только один раз. Выигрыш в сокращении ручных описаний

составляет А = ~ * 100% = ^ ^ ^ * 100%. Для ИАС типовой

конфигурации теоретически возможный

выигрыш составляет 50-70%.

Рассмотрены традиционные способы организации обмена метаданными в среде ИАС:

• децентрализованный обмен (Рис. 3 А), при котором для каждой пары интегрируемых компонентов создается два конвертера метаданных -прямой и обратный;

• централизованный доступ к метаданным (Рис. 3 Б), при котором все компоненты ИАС создаются в расчете на работу с единым общим репозиторием метаданных;

• подход, предложенный OMG в спецификации Common Warehouse Metamodel (CWM) (Рис. 3 В), при котором обмен метаданными осуществляется через файлы определённой этим стандартом структуры.

Рассмотренные подходы обладают рядом различных недостатков, которые делают их практическое применение не эффективным.

Рис. 3 Способы обмена метаданными в ИАС (ХД) масштаба предприятия

В результате системного анализа традиционных подходов и их недостатков предложен конфедеративный подход к управлению метаданными в ИАС (Рис. 3 Г). Идея подхода заключается в централизованном ведении только общих метаданных системы. Под общими понимаются метаданные, которые могут быть интерпретированы (востребованы) хотя бы двумя компонентами ИАС (множество АВ+АС+ВС, Рис. 4 Б).

Общие метаданные Лекал»

Рис. 4 Обмен метаданными в системе их трех компонентов

После завершения описания общих метаданных в центральном репозитории, они передаются в локальные репозитории компонентов хранилища данных. Локальными для компонента являются метаданные, которые возникают и потребляются только в рамках данного компонента, т.е. не могут быть интерпретированы другими компонентами системы (для компонента А это будет множество А-(В+С)). При этом не требуется выполнять синхронизацию и слияние метаданных, полученных из разных источников, и

требуется всего 3 канала передачи метаданных (в общем случае, N где N -число компонентов хранилища данных). Эффективность конфедеративного подхода заключается в том, что он обеспечивает общедоступность только той информации, которая может быть интерпретирована более чем одним компонентом хранилища данных.

Таблица 1 Сравнение различных подходов к обмену металанными

Критерий Подход Децентрализованный подход Централизованный подход Подход ОМв cwм Конфедеративный подход

Согласованность /трудоемкость метаданными метаданных управления Плохая / Высокая Высокая/ Низкая Средняя/ Средняя Высокая / Низкая

Возможность выбора компонентов для построения ХД Есть Нет Есть Есть

Автономность компонентов Высокая Низкая Высокая Высокая

Общедоступность метаданных Низкая Высокая Низкая Средняя

Скорость Доступа к метаданным Высокая Средняя Высокая Высокая

Количество необходимых конвертеров / сложность развития системы N♦(N-1) 0 О3 Ч(0)4

Универсальность метаданных модели Низкая Низкая Высокая Высокая

Применимость условиях в реальных Да Да Нет' Да

Сравнение предложенного конфедеративного подхода с традиционными приведено в таблице 1. Подход назван «конфедеративным» из-за аналогии с законодательным устройством конфедераций: есть конституция государства, которая является общим законом для всех субъектов федерации, однако в каждом субъекте могут быть приняты федеральные (локальные) законы, не противоречащие общей конституции.

Второй раздел главы посвящен построению системы классификаций метаданных, которые могут встречаться в хранилищах данных. Основная цель классификации -определение всего множества видов метаданных ИАС и выделение множества общих метаданных, которые в соответствии с конфедеративным подходом подлежат ведению в центральном репозитории метаданных. Полученная система классификаций приведена в таблице 2.

! Считается, что конвертеры поставляются разработчиками инструментов

4 В общем случае нужно N конвертеров, однако могут быть использованы стандартные СШМ конвертеры

5 Недостаточно детальная модель метаданных для решения реальных задач

Фаза жизненного цикла проекта Потре- . бетель Уровень абстракции Описывае мыс данные Модель данных Степень общност и

* 0 Е as, 25 « к? 1 с о f 1 S 3 Л 3! V X X ft. £ а X S $ f № » 1 a X s Ш f u sa i 1 с l С £ X £ 1 I .1 V 1 S Л « X u 1 О e S 1 Ч 0 § 1 « 5 § x s A s s X У о й s 4> Э X п s 5 а. х X а а I ft. С X S 1 •У S X X 9 X к 5 а_ 3 X CL 4> Z I X 5 5 0 1 -J 2 X! к аз X Е £ г S а Ю Г 3 2 4 •х о U 3 X 6 v л X X £ X «1 2 X S j- с. V с о

Измерение (бизнес) X X X X X X X X

Измерение (техническое) X X X X X X

Показатель X X X X X X X X

Многомерный Куб X X X X X X X X

Форма (отчет) X X X X X X X

Реляционная модель X X X X X X X X

Реализация измерения/ куба X X X X X X

WmwKutfc. и^еуа объектов метаданных X X X X X X

Описание сервера X X X X X

Описание модели развертывания X X X X X

Метаданные Business Olyects6 X X X X X X X X X

В третьем разделе главы решается вопрос выбора языка для описания разрабатываемой модели метаданных (метамодели) Проводится анализ существующих стандартов и спецификаций в области описания моделей метаданных, особое внимание уделяется формальности языка описания метамодели и ее совместимости со спецификацией OMG Common Warehouse Metamodel (CWM)

Для достижения цели диссертационной работы необходимо разработать модель метаданных и формат файла для обмена экземплярами этой модели Разрабатываемая метамодель будет выступать в роли языка для описания метаданных ИАС и, следовательно, сама должна являться формальной математической моделью Спецификация считается формальной, если она основывается на языке, имеющем строго определенный синтаксис, значение (семантику) и, возможно, правила анализа, вывода или доказательства его

6 В виде двоичных файлов ПО Business Objects здесь рассматривается в качестве примера На его месте может быть любой другой аналитический инструмент

конструкций. Синтаксис может быть графическим или текстовым. Семантика может быть определена более или менее формально в терминах понятий, существующих в предметной области, или путем транслирования конструкций языка более высокого уровня в другие конструкции, которые имеют строго определенное значение. В качестве такого языка более высокого уровня в работе использована спецификация OMG Meta Object Facility (MOF), которая позволяет описывать модели метаданных в графической нотации языка Unified Modeling Language (UML).

MOF представляет собой основанную на моделях распределенную объектную среду для специфицирования, создания, управления, обмена и интеграции метаданных в программных системах. Целью этой среды является поддержка всех видов метаданных и обеспечение возможности добавления новых видов метаданных при необходимости. Для этого используется четырехуровневая архитектура метаданных, называемая иногда архитектурой метаданных OMG. В этой архитектуре нижний уровень (МО) является уровнем данных. Метаданные (Ml) рассматриваются как данные (МО) и, затем, производится формальное моделирование каждого типа метаданных. Полученные формальные модели называются метамоделями (М2) и выражаются средствами единой мета-метамодели (МЗ), называемой Моделью MOF (с большой буквы). Несмотря на то, что MOF использует графическую нотацию, она является формальной спецификацией. Все элементы Модели MOF имеют строго определенную семантику. Формальность модели MOF подробно показана в спецификации MOF, где даны формальные определения всех элементов Модели MOF.

Существует возможность сократить трудоемкость создания метамодели центрального Репозитория ИАС - использование спецификации OMG CWM. Целью этой спецификации также является описание метаданных для ХД, однако она выполнена на недостаточном для решения практических задач уровне детализации. В CWM предусмотрено несколько механизмов её расширения: путем наследования классов, с использованием стереотипов и меток, с использованием расширений XML Metadata Interchange (XM1). Разрабатываемая метамодель выполнена в виде расширения CWM путем наследования классов, то есть является CWMX метамоделью (CWM extension).

Рис. 5 Роль MOF при создании модели метаданных.

На Рис. 5 показана связь между рассмотренными спецификациями и разрабатываемой метамоделью. Рисунок выполнен в нотации UML. Следует обратить внимание, что Модель MOF «является экземпляром» самой себя, т.е. может быть описана на языке MOF. Также может показаться странным использование языка UML - здесь он используется дважды в разных качествах на разных уровнях абстракции. Во-первых, нотация UML (именно нотация, а не сам язык, т.к. семантика у MOF своя) используется в качестве синтаксиса MOF. Во-вторых, язык UML является MOF метамоделью.

Спецификация MOF предоставляет язык для описания модели метаданных ИАС, но для достижения поставленной цели необходимо решить еще одну задачу - спроектировать формат обмена метаданными для разработанной метамодели. MOF предлагает инструменты для решения этой задачи. Модель MOF содержит несколько видов отображений (или меппингов -mapping). Отображения MOF связывают метамодели уровня М2 с другими объектами уровней М2 или Ml (Рис. 6).

Рис. 6 Виды отображений MOF

Абстрактное отображение описывает связь между прикладной MOF метамоделью (метамоделью, составленной в соответствии со спецификацией MOF) и абстрактной информационной моделью, т.е., другими словами, описывает логическую структуру метаданных, описываемых прикладной метамоделью. IDL отображение позволяет генерировать стандартный IDL интерфейс и соответствующую поведенческую семантику для метаобъектов, которые могут представлять прикладные метаданные. XML отображение позволяет генерировать стандартное определение типа XML документа (DTD) для обмена метаданными, удовлетворяющими прикладной метамодели.

В спецификации MOF абстрактное отображение играет две роли: во-первых, служит для определения «смысла» метамодели, а во-вторых, является основой для создания других видов отображений, как существующих (IDL, XML), так и тех, которые появятся в будущем (Java, DCOM и др.). Поскольку отображения IDL и XML находятся в соответствии с абстрактным

отображением, то существует взаимно однозначное соответствие между абстрактными метаданными и метаданными, представленными в виде XML документов и CORBA объектов. Это соответствие выполняется для всех MOF метамоделей, в т.ч. и для разрабатываемой. Для разработки формата обмена метаданными будет использовано XML отображение. Этот механизм определен в спецификации OMG XML Metadata Interchange (XMI).

Спецификация XMI описывает XML язык для обмена метаданными в программных системах. XMI позволяет обмениваться метаданными в виде потоков XML файлов при условии, что эти метаданные соответствуют метамоделям, построенным на основе Модели MOF. Это означает, что разрабатывая метамодель в виде расширения спецификации CWM и организовывая обмен метаданными в соответствии со спецификацией XMI, можно получать файлы метаданных, совместимые с исходной спецификацией CWM. Такие файлы смогут быть интерпретированы любым инструментом, «понимающим» CWM.

Правила генерации описания формата файла обмена метаданными (XML DTD) по MOF метамодели:

Правило 1: Классы. Каждому классу прикладной метамодели (М2) ставится в соответствие XML элемент (в DTD) с именем, совпадающим с именем этого класса. В определении элемента содержатся список атрибутов класса, ссылки на окончания ассоциаций, связанных с классом, а также классы, входящие в данный либо явно, либо через композицию.

Правило 2: Атрибуты. Каждый атрибут класса метамодели представляется в DTD XML элементом с таким же именем. Атрибуты, имеющие примитивный или перечислительный тип данных, представляются в DTD в виде определения XML атрибута. Соответствующие атрибутам XML элементы включаются внутрь содержимого XML элемента, представляющего класс метамодели.

Правило 3: Ассоциации. Каждая ассоциация между классами метамодели представляется в DTD в виде двух XML элементов, соответствующих ролям окончаний ассоциации. Внутри XML элемента, представляющего класс-контейнер, размещается XML элемент с именем роли соответствующего окончания ассоциации. Структура этого XML элемента позволяет включать в него XML элементы, представляющие ассоциированный класс или его подклассы.

Структура стандартов и спецификаций, используемых при разработке модели метаданных центрального Репозитория НАС масштаба предприятия, показана на Рис. 7.

Java

Classes -

Objects

Рис. 7 Используемые стандарты и спецификации

Процесс создания Репозитория метаданных выглядит следующим образом:

1. Создается абстрактная метамодель, описывающая классы метаданных, которые могут храниться в Репозитории, эта метамодель является расширением CWM метамодели (CWMX метамоделью); для ее описания используется язык UML. Эта метамодель является платформо-независимой моделью Репозитория;

2. Создается Репозитории метаданных. При этом создается как минимум три платформо-зависимых модели (три отображения абстрактной модели метаданных на конкретные вычислительные платформы):

2.1. Модель времени исполнения; для отображения абстрактной CWMX метамодели в классы языка программирования, например, может быть использован стандарт JMI (Java Metadata Interface);

2.2. Модель долгосрочного хранения метаданных, например, в реляционной СУБД;

2.3. Модель для передачи метаданных в XML формате; для отображения CWMX метамодели на XML элементы используется стандарт XMI.

Третья глава

В первом разделе главы рассматривается направление, в котором необходимо расширить CWM для разработки абстрактной метамодели Репозиория. В разрабатываемой метамодели предметная область ХД описывается одним набором бизнес понятий, что позволяет отказаться от использования механизмов преобразований (transformation) CWM и обогатить механизм отображений (mapping). За счет этого разрабатываемая модель метаданных будет менее общей, но более богатой (насыщенной деталями) по

сравнению с CWM, что позволит на основе этой модели решать практические задачи. Выбор многомерной модели данных для описания понятий предметной области обосновывается широким применением этой модели в области анализа данных и успешным мировым опытом многомерного моделирования различных предметных областей.

Разрабатываемая метамодель повторяет структуру метамодели CWM, дополняя её в слабых местах. На Рис. 8 (А) цветом выделены пакеты CWM, использованные при создании метамодели Репозитория. Основное расширение метамодели CWM сосредоточено в части описания соответствий понятий концептуального и логического уровня (пакеты «Transformation», «OLAP» и «Keys and Indexes», Рис. 8 (Б)).

А. Б.

Рис. 8 Пакетная структура (А) и отображения (Б) разрабатываемой метамодели Второй раздел главы посвящен подробному рассмотрению метаданных, описывающих отображения объектов концептуального уровня (измерений и многомерных кубов) на объекты логического уровня (реляционные таблицы и представления).

Рис. 9 Классы для описания группы реализации

Одному набору понятий концептуального уровня (одна предметная область, одна функциональная задача) может соответствовать несколько

наборов понятий логического уровня. Для каждого такого набора может быть описано отображение, связывающее понятия разных уровней. В разрабатываемой метамодели такое отображение называется «группой реализации», класс DeploymentGroup (Рис. 9). Новые по отношению к CWM классы на диаграммах обозначены стереотипом «extension».

Рассмотрим классы, описывающие реализацию многомерного куба. Данные куба хранятся в реляционной схеме в таблице фактов. Для того чтобы описать реализацию многомерного куба, необходимо специфицировать таблицу фактов, указать в этой таблице столбцы, содержащие значения показателей и столбцы, содержащие коды (внешние ключи) элементов измерений (Рис. 10).

Рис. 10 Классы метаданных для описания отображения многомерного куба

В качестве примера рассмотрим многомерный куб, содержащий два показателя (Показатель А и Показатель В), зависящие от четырех измерений (Календарь, Признак счета, Субъект Банковской системы, Признак «для служебного пользования»). Данные этого многомерного куба будут содержаться в таблице фактов FACT_TABLE. Для хранения значений показателей в этой таблице предназначены столбцы MEASURE_A и MEASURE_B. Столбец IS_DSP содержит значения флага «для служебного пользования», т.е. это измерение является вырожденным. Остальные столбцы являются внешними ключами, причем ключ для таблицы типов счетов является составным (ACC_TYPE_ID1, ACC_TYPE_ГО2). UML диаграмма экземпляров для описанного многомерного куба приведена на Рис. 11.

Рис И Пример отображения многомерного куба

Разработанная модель метаданных позволяет описывать 2 способа реализации многомерных кубов с использованием измерения показателей и без, а также 6 способов реализации измерений

• схема «звезда» - элементы всех уровней измерения содержатся в одной таблице, допустимо два случая - с отдельным хранением элементов верхних уровней и без него,

• «снежинка» - элементы разных уровней измерения хранятся в различных таблицах,

• «смешанная» схема - часть уровней измерения отображается по схеме «звезда», а часть по схеме «снежинка»,

«вырожденное измерение» - элементы измерения хранятся в таблице фактов,

• схема «parent/child» - элементы измерения хранятся в одной таблице, иерархическая зависимость описывается внешним ключом на саму таблицу;

• схема «граф» - данные измерения хранятся в трех таблицах: таблице элементов, таблице связей и таблице иерархий.

Третий раздел главы посвящен технологии создания ИАС на основе конфедеративного управления метаданными, включающей сценарии создания новой и внесения модификаций в существующую систему, а также вопросам практического использования метаданных для автоматизированной настройки компонентов системы.

Применение методов календарного планирования показало, что экономия трудозатрат на создание ИАС за счет автоматизации процессов сбора и определения требований, разработки технической архитектуры системы, проектирования моделей данных и проектирования пользовательских приложений составляет 47%, что приближается к теоретически достижимому максимуму в 50-70%. Разработанная технология позволяет построить ИАС масштаба предприятия, способную к эволюции при изменении бизнес требований с минимальным объемом ручных доработок (в некоторых случаях вообще без дополнительного программирования).

Полученная метамодель состоит из 119 классов, из которых 45 доработаны или введены автором. Сделанные расширения впервые позволили интегрировать программные продукты различных производителей на уровне метаданных на уровне детализации, позволяющем решить задачи по автоматической настройке (генерации кода) процедур загрузки данных, витрин данных и аналитических приложений (на примере Oracle OLAP Option и BusinessObjects).

Четвертая глава

В четвертой главе диссертационной работы приведено описание программного продукта «Корпоративный каталог показателей», являющегося реализацией центрального Репозитория метаданных, выполненной компанией ЛАНИТ. Описан программно-аппаратный комплекс, демонстрирующий возможности предложенной автором технологии создания корпоративных информационно-аналитических систем и Корпоративного каталога показателей на примере информационно-аналитической системы распределенной производственно-торговой компании.

Расчет экономической эффективности создания Корпоративного каталога показателей показал, что дисконтированный период окупаемости разработки составляет 31 месяц.

Заключение

В заключении подводятся итоги выполненной работы и перечисляются основные результаты.

Приложения

В приложении I приведено подробное описание компонентов и процессов, происходящих в хранилищах данных, дополняющее. Этот материал дополняет главу 1.

В приложении II приведено дополнительное описание классов метаданных, составляющих модель метаданных Репозитория. В разделах ИЛ. и П.2. описаны классы, заимствованные из спецификации CWM, а разделы II.3. и II.4. содержат описания оригинальных классов, которые не вошли в главу 3. Раздел II.4. полностью является результатом работы автора и содержит подробное описание классов метаданных, используемых для описания способов реализации хранения элементов измерений в реляционных структурах данных: «Parent-Child», звезда, снежинка, граф, вырожденное измерение.

Приложение III содержит пример описания метаданных информационно-аналитической системы, выполненного в терминах метамодели Репозитория. Описание выполнено при реализации проекта по созданию информационно-аналитической системы для одного из крупнейших банков России и покрывает предметную область «Сбор и анализ банковской статистики» в части описания формы банковской отчетности № 115.

Приложение IV содержит описание формата XML файла, используемого для передачи метаданных из Корпоративного каталога показателей в другие компоненты хранилища данных. Описание выполнено на языке XML Schema и является эквивалентным описанию модели метаданных, выполненному на языке UML в главе 3. Если с UML описанием удобно работать людям, то XML форма описания модели метаданных более удобна для программ -потребителей метаданных.

Приложение V содержит документы о внедрении результатов работы и регистрации разработанного программного обеспечения в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Совокупность сформулированных и обоснованных в диссертации методов и положений, а также её практические результаты представляют собой решение актуальной научно-технической проблемы эффективного создания гетерогенных ИАС масштаба предприятия. В частности, разработанные в работе конфедеративный подход к организации обмена метаданными и модель метаданных, позволяют повысить эффективность процессов разработки и

эксплуатации гетерогенных ИАС масштаба предприятия, а также повысить качество информационного обслуживания конечных пользователей таких систем за счет использования единого и формального описания предметной области.

Основные результаты диссертационной работы

1. Разработан конфедеративный способ обмена метаданными между компонентами информационно-аналитической системы масштаба предприятия (хранилища данных). Применение этого способа позволяет минимизировать трудозатраты на ввод метаданных, сократить количество ошибок при порождении метаданных в различных компонентах системы и осуществлять интеграцию в единую систему программных продуктов различных производителей.

2. Создана классификация метаданных, встречающихся и используемых в информационно-аналитических системах масштаба предприятия (хранилищах данных). На основе этой классификации выявлено множество метаданных, подлежащее централизованному ведению при конфедеративном управлении метаданными.

3. Разработана формальная модель метаданных для информационно-аналитических систем масштаба предприятия (хранилищ данных). Модель разработана в соответствии со спецификацией OMG Meta Object Facility и является расширением спецификации OMG Common Warehouse Mеtamodel. Модель метаданных позволяет описывать одновременно как бизнес, так и технические аспекты функционирования хранилища данных, а также описывать и отслеживать взаимосвязи между всеми объектами метаданных. Основные расширения спецификации CWM выполнены в части описания способов представления многомерных данных в реляционных структурах данных.

4. Разработана технология создания информационно-аналитических систем масштаба предприятия на основе конфедеративного управления метаданными. Данная технология позволяет строить ИАС и хранилища данных из программных продуктов различных производителей, изначально подготовленные к эволюции при изменении бизнес требований (без проектирования и доработки со стороны разработчиков хранилища данных). Совмещение этих возможностей в одной системе является уникальным результатом для современной индустрии создания хранилищ данных. Использование конфедеративного управления метаданными и Корпоративного каталога показателей на этапе проектирования и разработки системы позволяют снизить трудоемкость (и стоимость) создания небольших хранилищ данных на 40-50%.

5. Под руководством и при участии автора осуществлена реализация двух программных продуктов, выполняющих роль центрального Репозитория информационно-аналитической системы масштаба предприятия (хранилища

данных) Технический Каталог Показателей (платформа реализации J2EE, WEB, СУБД Oracle) и Корпоративный Каталог Показателей / Enterprise Metadata Center (платформа реализации NET, клиент-сервер, СУБД Oracle)

6 В среде Корпоративного каталога показателей выполнено описание метаданных для предметных областей «банковская деятельность», «анализ сбыта слабоалкогольной продукции» и «анализ деятельности транзитной телекоммуникационной компании»

7 Достаточность описательной мощности предложенной автором модели метаданных подтверждена успешной программной реализацией алгоритмов преобразования метаданных во внутренний формат метаданных аналитического инструмента BusmessObjects и многомерного сервера данных Oracle OLAP Option 9i

Публикации по теме работы

Список опубликованных работ по теме диссертации

1 Шовкун A.B., Соколов M.B. Современные способы представления метаданных // Научная сессия МИФИ-2003 - Сборник научных трудов -Т2 -М МИФИ, 2003 -С 70-7l

2 Шовкун A.B. Технология построения репозитория метаданных для хранилища данных // Научная сессия МИФИ-2003 - Сборник научных трудов - Т 2 - М МИФИ, 2003 - С 7б-77

3 Bra^b A.B., Фомин М.Б., Шовкун A.B. Моделирование хранилищ данных // Всероссийская Научная Конференция по Проблемам Математики, Информатики, Физики, Химии и Методики Преподавания Естественнонаучных дисциплин, РУДН-2003 - Сборник научных трудов -М РУДН,2003 -С б!

4 Боярский H.A., Шовкун A.B. Построение аналитической части корпоративной информационно-аналитической системы средствами Oracle OLAP Option и BI Beans // Oracle Magazine Русская Редакция -апрель-май 2004

5 Шовкун A.B. Классификация метаданных для хранилища данных // Естественные и технические науки - М Спутник+, 2004 - №4 - С 229-234 -ISSN 1684-2626

6 Шовкун A.B. Конфедеративное управление метаданными в хранилищах данных // Естественные и технические науки - М Спутник+, 2004 - №4 - С 235-240 -ISSN 1684-2626

7 Шовкун A.B. Построение корпоративной информационно-аналитической системы в условиях постоянно изменяющегося бизнеса // Научно-техническая информация Серия 1 -М ВИНИТИ, 2004 -№9 -С 1-6

8. Наумов Е.В., Шовкун А.В. Создание ситуационного центра как задача системной интеграции // Сетевой журнал. - М: Издательский дом мировой периодики, 2004. - №9 (53). - С. 46-50.

9. Худякова А.Н., Шовкун А.В. Интеграция Oracle 9i OLAP Option и BusinessObjects // Oracle Magazine Русская Редакция. - сентябрь-октябрь 2004.

10.Шовкун А.В. Управление метаданными в хранилищах данных // Научно-техническая информация. Серия 1. - М:ВИНИТИ, 2004. - №10. - С. 8-14.

11.Висков А.В., Шовкун А.В. Математический аппарат для описания многомерных моделей данных // Инженерная физика.- 2004. - №4.

12.Дельцов В.В., Шовкун А.В. Управление метаданными как способ повышения эффективности создания корпоративных хранилищ данных. Корпоративный каталог показателей // XLVII научная конференция Московского физико-технического института «Современные проблемы фундаментальных и прикладных наук». - Труды конференции. - Т.2. - М.: МФТИ, 2004. - С. 72.

13.Шовкун А.В., Дельцов В.В. Создание корпоративного хранилища данных в условиях постоянно изменяющегося бизнеса // XLVII научная конференция Московского физико-технического института «Современные проблемы фундаментальных и прикладных наук». - Труды конференции. - Т.2. - М.: МФТИ, 2004. - С. 82.

Личный вклад в совместных работах:

• Анализ спецификаций OMG MetaObject Facility и Common Warehouse Metamodel проведен в работах [1,2].

• Результаты проектирования концептуальной архитектуры универсального репозитория метаданных, построенного с использованием современных международных стандартов в области описания метаданных и проектирования информационных систем представлены в работах [2, 12].

• Множество объектов, образующих многомерную алгебру, рассмотрено в работах [3, 11].

• Методика автоматического создания витрин данных в среде Oracle OLAP Option на основе метаданных Корпоративного каталога показателей рассмотрена в работе [4].

• Технология создания ИАС масштаба предприятия, изначально подготовленных к эволюции при изменении бизнес-требований за счет использования медленно изменяющихся измерений и конфедеративного управления метаданными, рассмотрена в работах [9,12,13].

• Применение технологии создания ИАС при создании аналитических ситуационных центров рассмотрено в работе [8].

Подписано в печать 20.04.2005 г. Формат 60 х 90/16. Объем 1.2 п.л. Тираж 100 экз. Заказ № 2004052

Оттиражировано на ризографе в «ИП Гурбанов Сергей Талыбович» Св. о регистрации № 304770000207759 от 09 июня 2004 года ИНН 770170462581

0Ç.1Z-OS&

»»

r 'f- i i (Ni'

M

19 m 2005 ; (

Оглавление автор диссертации — кандидата технических наук Шовкун, Алексей Владимирович

1. Проблемная область «Хранилища данных»

1.1. Цели построения хранилища данных

1.2. Базовые элементы хранилища данных

1.3. Проблемы построения хранилища данных

1.4. Описание метаданных на основе моделей

1.5. Постановка задачи создания инструмента управления метаданными в хранилищах данных

1.6. Выводы по главе

2. Теоретические аспекты эффективного управления метаданными в хранилищах данных

2.1. Организация обмена метаданными

2.1.1. Децентрализованный доступ к метаданным

2.1.2. Подход OMG (общая шина метаданных)

2.1.3. Централизованный доступ к метаданным

2.1.4. Конфедеративный доступ к метаданным

2.1.5. Доказательство эффективности конфедеративного подхода

2.2. Классификация метаданных для хранилища данных

2.2.1. Классификация по фазе жизненного цикла проекта

2.2.2. Классификация по модели данных

2.2.3. Классификация по уровню абстракции

2.2.4. Классификация по этапу жизненного цикла данных

2.2.5. Классификация по пользователям

2.2.6. Классификация по степени общности

2.2.7. Сводная классификация метаданных для ХД

2.3. Теоретические основы технологии манипулирования метаданными

2.3.1. Спецификация Meta Object Framework (MOF)

2.3.2. Спецификация XML Metadata Interchange (XMI)

2.4. Выводы по главе

3. Технология создания и использования центрального Репозитория метаданных хранилища данных

3.1. Концептуальная архитектура Репозитория метаданных

3.1.1. Связь со спецификацией OMG Common Warehouse Metamodel

3.1.2. Обоснование использования многомерной модели данных для описания предметной области

3.1.3. Виды моделей метаданных Репозитория

3.1.4. Модель метаданных Репозитория как расширение спецификации CWM

3.2. Модель метаданных Репозитория

3.2.1. Используемые обозначения

3.2.2. Структура описания модели метаданных Репозитория

3.2.3. Отображение концептуального уровня метаданных на логический

3.3. Технология создания корпоративного хранилища данных с использованием Репозитория метаданных

3.3.1. Сценарий 1: «Создание хранилища данных»

4 3.3.2. Сценарий 2: «Модификация хранилища данных (решение новой прикладной задачи)»

3.3.3. Обмен метаданными с другими компонентами системы

3.4. Выводы по главе

4. Практическое применение и оценка эффективности

4.1. Практическое применение технологии управления метаданными в хранилищах данных

4.1.1. Описание Корпоративного каталога показателей

4.1.2. Использование Корпоративного каталога показателей на

•ф примере производственно-торговой компании

4.2. Оценка экономической эффективности проекта по созданию

Репозитория

4.2.1. Оценка прибыли за счет внутренней экономии ресурсов на проектах по созданию ХД

4.2.2. Оценка прибыли за счет исполнения внешних проектов по созданию крупных хранилищ данных

4.2.3. Оценка финансовых показателей

4.3. Выводы по главе

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Шовкун, Алексей Владимирович

Актуальность работы

Любая крупная компания рано или поздно сталкивается с задачей сбора информации для принятия управленческих решений. С одной стороны в компании существует множество информационных систем, в которых есть все необходимые для анализа детальные данные, с другой стороны эти системы не представляют собой единого источника согласованной информации, необходимого для принятия стратегических решений. Возникает потребность в организации цепочки доставки информации: от существующих оперативных систем и других источников данных (например, периодические издания или интернет ресурсы) до информационно-аналитических систем. Одним из вариантов построения цепочки доставки информации является создание корпоративного хранилища данных (информационно-аналитической системы масштаба предприятия).

Идею хранилищ данных предвосхищали в своих работах многие исследователи. Можно смело утверждать [77], что первой публикацией, посвященной именно хранилищам данных, была статья Девлина ^(Devlin) и Мэрфи (Murphy), вышедшая в 1988 году [10]. В 1992 году Уильям Г. Инмон (William Н. Inmon) написал монументальную монографию «Building the Data Warehouse» [20], в которой определил хранилище данных как «предметно-ориентированную, интегрированную, вариантную по времени, не разрушаемую совокупность данных, предназначенную для поддержки принятия управленческих решений». Для анализа содержащейся в хранилище данных информации, как правило, применяется технология оперативного анализа данных (OLAP). В 1995 году создатель аналитического издания OlapReport Найгель Пендс (Nigel Pendse) резюмировал определение OLAP только пятью ключевыми словами: Быстрый Анализ Разделяемой Многомерной Информации - или, кратко - FASMI (в переводе с английского: Fast Analysis of Shared Multidimensional information) [38].

Современные хранилища данных объединяют большое количество баз данных, файловых систем, инструментов и приложений. Каждая из объединяемых компонент обычно имеет свою собственную модель данных и структуры для хранения и передачи данных. Например, в качестве источников данных могут использоваться реляционные базы данных с разными логическими схемами данных, плоские файлы, XML или EDIFACT файлы и т.п. Аналогично, для построения витрин данных и для анализа данных разные инструменты используют различные модели: OLAP, объектные, объектно-реляционные, реляционные. Таким образом, построение хранилища данных является задачей системной интеграции. Все модели данных, используемые в инструментах и средствах, включенных в хранилище данных, взаимосвязаны. Эти модели так или иначе описывают понятия предметной области, для которой создается хранилище. Для поддержания семантической целостности необходимо отслеживать зависимости и соответствия между различными моделями данных различных компонент хранилища. Эту задачу необходимо решать не только на этапе проектирования хранилища, но и в процессе его эксплуатации при появлении новых источников информации или новых понятий предметной области. Сложность этой задачи возрастает при увеличении числа компонент хранилища данных (нелинейно).

Ключевым аспектом при решении такой задачи системной интеграции является то, что все это разнообразие средств и технологий собирается вместе для построения единой цепочки доставки информации в одной компании. Другими словами, все интегрируемые системы имеют дело с общим набором предметных областей - в них присутствует и используется одна и та же информация, разница существует лишь в форме представления этой информации или в выполняемых над ней операциях.

Проблема эффективной интеграции программных продуктов различных производителей на уровне данных может быть разрешена (или сведена к более простым задачам) путем интеграции метаданных между используемыми в хранилище данных системами. Для этого в хранилище данных должна входить специальная компонента, управляющая моделями данных остальных компонент, - Репозиторий. Репозиторий предназначен для управления метаданными, т.е. информацией о структуре, содержимом и взаимосвязями между компонентами хранилища данных. Репозиторий облегчает работу проектировщикам и администраторам, поскольку является единым местом сбора информации о структуре и составе хранилища данных. Также он полезен бизнес пользователям, поскольку содержит информацию о предметной области, которая необходима при навигации по хранилищу данных и при построении аналитических запросов.

Используемые сегодня подходы и технологии создания информационно-аналитических систем масштаба предприятия (хранилища данных) обладают рядом недостатков:

- Низкое качество информации и отсутствие возможности обзора у конечных пользователей и у ИТ специалистов информационного наполнения системы;

- Высокая трудоемкость создания ХД при осуществлении интеграции на уровне метаданных традиционными способами;

- Высокая трудоемкость по поддержанию ХД в актуальном состоянии (стоимость владения системой составляет до 40-100% в год от первоначальной стоимости разработки [7]);

- Несовместимость на уровне метаданных программных продуктов различных производителей, используемых в качестве компонентов ХД, что делает практически нерентабельным построение ХД из лучших в своем классе продуктов различных производителей.

Цель исследования

Целью диссертационной работы является исследование и разработка теоретических способов эффективной интеграции программных продуктов различных производителей на уровне метаданных и создание на их основе технологии и инструментария для управления метаданными в гетерогенных информационно-аналитических системах масштаба предприятия (хранилищах данных), что позволит автоматизировать процессы построения и развития таких систем в крупных организациях. Основные задачи (направления исследований)

Для достижения указанной цели необходимо решить следующие задачи:

• Разработать модель порождения и обмена метаданными внутри информационно-аналитической системы;

• Построить классификацию метаданных, встречающихся в среде гетерогенных информационно-аналитических систем масштаба предприятия (хранилищ данных);

• Выделить классы метаданных, подлежащих ведению в центральном Репозитории информационно-аналитической системы;

• Построить модель метаданных центрального Репозитория, покрывающую потребности в метаданных всех компонентов информационно-аналитической системы;

• Разработать механизмы конфигурационного управления и версионного контроля для модели метаданных центрального Репозитория информационно-аналитической системы;

• Спроектировать и осуществить программную реализацию центрального Репозитория информационно-аналитической системы;

• Разработать технологию создания информационно-аналитических систем масштаба предприятия (хранилищ данных) на основе управления метаданными и с использованием центрального Репозитория.

Научная ценность

Научная новизна работы заключается в следующих результатах:

• Предложен новый «конфедеративный» подход к управлению и обмену метаданными в среде информационно-аналитической системы масштаба предприятия (хранилища данных);

• Автором предложена многомерная классификация метаданных, встречающихся в среде информационно-аналитической системы масштаба предприятия (хранилища данных), состоящая из 6 классификаций;

• Автором разработана модель общих метаданных информационно-аналитической системы масштаба предприятия (хранилища данных), включающая описания бизнес объектов, структур хранения данных и гибкие описания связей между бизнес понятиями и структурами хранения данных; модель состоит из 119 классов. Практическая ценность

Практическая значимость работы заключается в следующих результатах:

• Разработана технология построения гетерогенной информационно-аналитической системы масштаба предприятия (хранилища данных) на основе конфедеративного управления метаданными;

• Модель метаданных для ХД разработана на основе и совместима с промышленными стандартами MOF, CWM, XMI, XML;

• Осуществлена программная реализация центрального Репозитория хранилища данных на платформах J2EE и .NET.

Методы исследования

В работе использовались методы и аппараты теории множеств, реляционного моделирования данных, теории графов, системного анализа, объектно-ориентированного анализа и проектирования, календарного планирования, теории решения изобретательских задач. Апробация работы

Результаты работы применяются Отделением Системной Интеграции холдинга ЛАНИТ в процессе исполнения проектов по созданию гетерогенных информационно-аналитических систем масштаба предприятия. В частности, положения разработанной технологии управления метаданными применялись под руководством и при участии автора при разработке информационно-аналитической системы для одного из крупнейших банков России. По сформулированным в данной работе требованиям и технологическим решениям под руководством и при участии автора создан программный продукт «Корпоративный каталог показателей» («Enterprise Metadata Center»)1.

По теме диссертационной работы опубликовано 13 печатных работ и сделаны доклады на следующих семинарах и конференциях:

1 Свидетельство об официальной регистрации программы для ЭВМ №2004611855, 11 августа 2004г., выдано Федеральной службой по интеллектуальной собственности, патентам и товарным знакам.

• Научная сессия МИФИ-2003, Москва, февраль 2003 г.1;

• Всероссийская Научная Конференция по Проблемам Математики, Информатики, Физики, Химии и Методики Преподавания Естественнонаучных дисциплин, Москва, апрель 2003 г.;

• Семинар "Хранилища данных и аналитические системы - от концепции к решению", Москва, Oracle, декабрь 2003 г.;

• XL VII научная конференция Московского Физико-Технического Института «Современные проблемы фундаментальных и прикладных наук», Москва, ЛАНИТ, ноябрь 2004 г.

Положения, выносимые на защиту

На защиту выносятся следующие положения:

1. Конфедеративный подход к обмену метаданными в среде информационно-аналитической системы масштаба предприятия;

2. Классификационная модель метаданных в среде информационно-аналитической системы масштаба предприятия;

3. Формальная модель метаданных центрального Репозитория информационно-аналитической системы масштаба предприятия;

4. Технология создания информационно-аналитических систем масштаба предприятия на основе конфедеративного управления метаданными.

Структура и объем работы

Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и пяти приложений. Работа состоит из 152 страниц, 49 рисунков и 26 таблиц. Краткое содержание работы

Заключение диссертация на тему "Управление метаданными в гетерогенных информационно-аналитических системах масштаба предприятия"

Основные результаты диссертационной работы

1. Разработан конфедеративный способ обмена метаданными между компонентами информационно-аналитической системы масштаба предприятия (хранилища данных). Применение этого способа позволяет минимизировать трудозатраты на ввод метаданных, сократить количество ошибок при порождении метаданных в различных компонентах системы и осуществлять интеграцию в единую систему программных продуктов различных производителей.

2. Создана классификация метаданных, встречающихся и используемых в ИАС масштаба предприятия. На основе этой классификации выявлено множество метаданных, подлежащее централизованному ведению при конфедеративном управлении метаданными.

3. Разработана формальная модель метаданных для ИАС масштаба предприятия. Модель метаданных разработана в соответствии со спецификацией OMG Meta Object Facility и является расширением спецификации OMG Common Warehouse Metamodel. Разработанная модель метаданных позволяет описывать одновременно как бизнес, так и технические аспекты функционирования хранилища данных, а также описывать и отслеживать взаимосвязи между всеми объектами метаданных. Основные расширения спецификации CWM выполнены в части описания способов представления многомерных данных в реляционных структурах данных.

4. Разработана технология создания информационно-аналитических систем масштаба предприятия на основе конфедеративного управления метаданными. Данная технология позволяет строить такие системы из программных продуктов различных производителей, изначально подготовленные к эволюции при изменении бизнес требований.

5. Под руководством и при участии автора осуществлена реализация двух программных продуктов, выполняющих роль центрального Репозитория ИАС масштаба предприятия: Технический Каталог Показателей (платформа реализации ЛЕЕ, WEB, СУБД Oracle) и Корпоративный Каталог Показателей / Enterprise Metadata Center (платформа реализации .NET, клиент-сервер, СУБД Oracle).

6. В среде Корпоративного каталога показателей выполнено описание метаданных для предметных областей «банковская деятельность», «анализ сбыта слабоалкогольной продукции» и «анализ деятельности транзитной телекоммуникационной компании».

7. Достаточность описательной мощности предложенной автором модели метаданных подтверждена успешной программной реализацией алгоритмов преобразования метаданных во внутренний формат метаданных аналитического инструмента BusinessObjects и многомерного сервера данных Oracle OLAP Option 9i.

Научная новизна теоретических положений и результатов экспериментальных исследований

Для системного решения задач управления метаданными в гетерогенных информационно-аналитических системах масштаба предприятия (хранилищах данных) автором создана многомерная классификация классов метаданных, встречающихся и используемых в таких системах. Данная классификация позволяет наглядно и обозримо произвести выбор классов метаданных, подлежащих ведению и передаче между компонентами хранилища данных. Такой набор классов метаданных представляет собой спецификацию интерфейса обмена метаданными между компонентами системами.

Впервые предложена технология конфедеративного обмена метаданными между компонентами информационно-аналитической системы масштаба предприятия (хранилища данных).

Автором предложена и разработана уникальная модель метаданных, позволяющая описывать связь между бизнес и техническими метаданными гетерогенной информационно-аналитической системы масштаба предприятия (хранилища данных).

Методы исследования, достоверность и обоснованность результатов диссертационной работы

В работе использовались методы и аппараты теории множеств, реляционного моделирования данных, теории графов, системного анализа, объектно-ориентированного анализа и проектирования, календарного планирования, теории решения изобретательских задач.

Разработка теоретических положений и создание на их основе технологии и инструмента для управления метаданными стали возможными благодаря комплексному использованию современных стандартов и спецификаций в области описания метаданных и проектирования информационных систем: OMG Unified Modeling Language, OMG Model Driven Architecture, OMG Meta Object Facility, OMG Common Warehouse Metamodel, Rational Unified Process и др. Описание предложенной в данной работе модели метаданных выполнено в терминах Модели Meta Object Facility в виде расширения спецификации Common Warehouse Metamodel.

Разработанные теоретические положения и новые технические решения опробованы экспериментально. Процесс создания информационно-аналитической системы по предложенной технологии конфедеративного управления метаданными и с использованием Корпоративного Каталога Показателей был продемонстрирован на семинаре «Хранилища данных и аналитические системы - от концепции к решению», проведенном совместно компаниями ЛАНИТ и Oracle в декабре 2003 года [66].

Практическая ценность результатов диссертационной работы

Разработанные в диссертационной работе конфедеративный подход к организации обмена метаданными и модель метаданных позволяют повысить эффективность процессов разработки и развития (эксплуатации) гетерогенных информационно-аналитических систем масштаба предприятия (хранилищ данных), а также повысить качество информационного обслуживания конечных пользователей таких систем за счет использования единого и формального описания предметной области.

Использование предложенной автором технологии конфедеративного управления метаданными и Корпоративного каталога показателей на этапе проектирования и разработки системы позволяют снизить трудоемкость (и стоимость) создания небольших хранилищ данных на 40-50%. Использование предложенной технологии и инструментария (Корпоративный каталог показателей) при создании крупных хранилищ данных позволяет создавать системы, способные к эволюции при изменении бизнес требований (без проектирования и доработки со стороны разработчиков хранилища данных). При этом система может создаваться на основе программных продуктов различных производителей. Совмещение этих возможностей в одной системе является уникальным результатом для современной индустрии создания хранилищ данных.

Апробация работы

Основные положения и результаты работы докладывались и обсуждались на семинарах и конференциях:

• Научная сессия МИФИ-2003, Москва, февраль 2003 г.1;

• Всероссийская Научная Конференция по Проблемам Математики, Информатики, Физики, Химии и Методики Преподавания Естественнонаучных дисциплин, Москва, апрель 2003 г.;

• Семинар "Хранилища данных и аналитические системы - от концепции к решению", Москва, Oracle, декабрь 2003 г.;

• XLVII научная коференция Московского Физико-Технического Инстиута, Москва, ЛАНИТ, ноябрь 2004 г.

Реализация результатов работы и достигнутый эффект подтверждены соответствующим актом.

Разработанный программный продукт зарегистрирован в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам под именем «Корпоративный каталог показателей» (свидетельство об официальной регистрации программы для ЭВМ №2004611855, 11 августа 2004г.).

1 Работа «Технология построения репозитория метаданных для хранилищ данных» отмечена дипломом Научной сессии.

Словарь терминов и сокращений

Сокращения

CWM Common Warehouse Metamodel - спецификация OMG метаданных для хранилищ данных, является MOF моделью.

DDL Data Definition Language. Язык для описания структуры данных.

DML Data Manipulation Language. Язык для описания операций над данными.

DTD Data Definition Table. Представляет собой описание допустимого содержимого (синтаксиса) XML файла в нотации РБНФ.

ETL Extraction, Transformation and Loading. Общее название для процедур, выполняющих перегрузку и преобразования данных.

J2EE Java 2 Enterprise Edition

JMI Java Metadata Interface

MDA Model Driven Architecture

MOF MetaObject Facility - спецификация OMG для построения моделей метаданных (метамоделей)

OCL Object Constraint Language - язык объектных ограничений.

OLAP Online Analytical Processing. Аналитическая обработка информации.

OLTP Online Transaction Processing. Оперативная обработка транзакций.

OMG Object Management Group

SQL Structured Query Language, язык структурированных запросов

XMI XML Metadata Interchange - спецификация OMG для сохранения MOF моделей в XML файле

XML Extensible Markup Language

UML Unified Modeling Language

АРМ Автоматизированное Рабочее Место

БД База данных

ВД Витрина Данных. Многомерная или реляционная база данных, предназначенная для исполнения аналитических отчетов. Витрина наполняется данными из ЦХД и содержит часть всех данных хранилища, ограниченную по времени и/или по предметной области

ИТ

КИАС

ООП ОСД

ПО РБНФ

РСУБД СУБД ХД ЦХД

Информационные технологии

Корпоративная информационно-аналитическая система. Общее название для систем масштаба предприятия, предназначенный для поддержки аналитической и управленческой деятельности. Синонимы: система поддержки принятия решений (Decision Support System, DSS), хранилище данных (Data Warehouse, DWH), система класса Business Intelligence (BI System/Platform). Объектно-Ориентированное Проектирование Оперативный Склад Данных. Реляционная база данных, содержащая порцию данных (за некоторый промежуток времени), которые проходят этап согласования, очистки и проверки перед загрузкой в

ЦХД.

Программное обеспечение

Расширенная Бэкуса-Наура Нормальная Форма. Нотация для описания синтаксиса языков. Реляционная СУБД Система управления базами данных Хранилище данных

Центральное Хранилище Данных, реляционная база данных, содержащая хранилища (за все время по всем

Большая» все данные предметным областям) в форме, удобной для хранения информации.

ER моделирование

ER модель предметной области)

Абстрактный синтаксис

Буферная область

Ведение метаданных

Метаданные

Термины

Описание данных в виде диаграмм Entity-Relationship.

Набор диаграмм, получаемых при ER моделировании предметной области

Описание структуры данных, независящее от аппаратной реализации и способа кодирования. Общее название компонент хранилища данных, находящихся в цепочке доставки информации между источниками данных и ЦХД (или витриной данных, если ЦХД не создается)

Множество функций по созданию, модификации и удалению объектов метаданных, поддерживаемых репозиторием метаданных.

Метаданные - это все физические данные (содержащиеся в программах и других средах) и знания (имеющиеся у людей и представленные в любой

Метамодель Модель

Платформа

Платформо-зависимая модель, ПЗМ

Платформо-независимая модель, ПНЗМ Предметная область

Репозиторий метаданных форме), собранные как внутри, так и вне организации, и содержащие информацию о физических данных организации, индустрии, технических процессах и бизнес процессах (Д. Марко [30]). Модель метаданных (М2)

Представление части функций, структуры и/или поведения системы. Соответствует первому уровню Ml абстракции данных в терминах MOF. Программная инфраструктура реализованная с использованием конкретной технологии (UNIX платформа, CORBA платформа, Windows платформа) на конкретной аппаратной технологии [33]. Платформо-зависимая модель выражается в терминах спецификационной модели целевой платформы. ПЗМ использует такие механизмы платформы, как исключения, типы параметров (включая специфичные для платформы правила для объектных ссылок, типах данных значений, семантике вызова по значению и т.п.) и компонентная модель [33].

Формальная спецификация структуры и функций системы, абстрагированная от технических деталей [33].

Логическое подмножество всех понятий и процессов, которыми оперирует определенное подмножество бизнес-пользователей

Специализированная информационная система, предназначенная для хранения, управления и предоставления доступа к метаданным.

Заключение

Библиография Шовкун, Алексей Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Abello A., Samos J., Saltor F. Understanding Analysis Dimensions in a Multidimensional Object-Oriented Model. // In 3rd International Workshop on Design and Management of Data Warehouses (DMDW). SwissLife, 2001.

2. Adamson Ch., Venerable M. Data Warehouse Design Solutions. New York: John Wiley & Sons Inc., 1998.

3. Ananthakrishna R., Chaudhuri S., Ganti V. Eliminating Fuzzy Duplicates in Data Warehouses // Proceedings of 28th International Conference on Very Large Data Bases. -China, August 20-23. Hong-Kong: 2002, p. 586-597.

4. Bernstein P.A. etc. Microsoft Repository Version 2 and the Open Information Model // Bernstein P.A., Bergstraesser Th, Carlson J., Pal S., Sanders P. and Shutt D. Information Systems. - vol. 24, no 2. - 1999.

5. Chang T. CWM Enablement Showcase // UML Forum. Tokyo. - March 21 2001.

6. Connor D. Report: Data warehouse failures commonplace // Network World. — 2003.

7. Cui Y., Widom J. Lineage Tracing for General Data Warehouse Transformations // Proceedings of 27th International Conference on Very Large Data Bases. Italy, September 11-14. - Roma: 2001, pp. 471-480.

8. Dart, S.A. Concepts in Configuration Management Systems // In Proceedings of the 3 rd International Workshop on Software Configuration Management. -New York, USA: ACM Press. 1991. - pp. 1-18.

9. Devlin B. A., Murphy P. T. An Architecture for a Business and Information System // IBM Systems Journal. 27(1). - 1988.

10. Feiler P. Configuration Management Models in Commercial Environments / Technical report, Software Engineering Institute. CMU/SEI-91-TR-7. — Pittsburgh. -1991.

11. Geoff Coupe, KALIDO. A Technical Overview for an Information Warehouse //www.kalido.com. June 2001.

12. Gingras F., Lakshmanan L. nD-SQL: A Multi-dimensional Language for Interoperability and OLAP // Proceedings of the 24th International Conference on Very Large Data Bases. New York. - August 1998.

13. Giovinazzo W. A. Object-Oriented Data Warehouse Design. Prentice Hall, 2000.

14. Hong Hai Do, Rahm E. On Metadata Interoperability in Data Warehouses: Report / Department of Computer Science, University of Leipzig. ISSN 14303701. - Leipzig, Germany. - March 2000

15. Jarke M., Rose T. Managing knowledge about information system evolution // Proceedings of the ACM SIGMOD International Conference of the Management of Data.- pp. 303-311.- 1998.

16. Java Community Process: Java Metadata Interface (JMI), version 1.0. June 2002.

17. Java Community Process: Java OLAP Interface (JOLAP). Final Draft / John D. Poole etc. September 2003.

18. Jennings M. Managing Current and Historical Views of Information in The Data Warehouse // DM Review. August 2001.

19. Inmon W. H. Building the Data Warehouse. New York: John Wiley & Sons Inc., 2002.

20. Inmon W.H. Metadata in the Data Warehouse: A Statement of Vision // White paper. 1997. - http://www.billinmon.com/library/whiteprs/techtopic/ttlO.pdf

21. Iyengar S. Implementing Model Driven Architectures // DAMA/Meta-data Conference. 2001.

22. Kimball R. Slowly Changing Dimensions // DBMS Magazine. April 1996.

23. Kimball R. etc. The Data Warehouse Lifecycle Toolkit. Expert Methods for Designing, Developing, and Deploying Data Warehouses / Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite. New York: John Wiley & Sons Inc., 1998.

24. Kimball R., Ross M. The Data Warehouse Toolkit Second Edition, The Complete Guide to Dimensional Modeling. — New York: John Wiley & Sons, 2002.

25. Lehner W., Albrecht J., Wedekind H. Normal Forms for Multidimensional Databases. // In Proc. of 8th Int. Conf. on Statistical and Scientific Database Management (SSDBM). IEEE Computer Society, 1998.

26. Luedtke J. Implementing Slowly Changing Dimensions // SQL Magazine, February 2000.

27. Madhavan J., Bernstein, P.A., Rahm, E., Generic Schema Matching with Cupid // VLDB Magazine. 2001. - pp. 49-58.

28. Marco D. Building and Managing the Meta Data Repository: A Full Lifecycle Guide. New York: John Wiley & Sons Inc., 2000.

29. Marco D. Meta Data & Knowledge Management: Meta Data Repository Myths // DM Review. March 2002.

30. Melnik, S., Rahm, E., Bernstein, P.A. Rondo: A Programming Platform for Generic Model Management // SIGMOD. 2003. - p. 193-204.

31. Object Management Group: Common Warehouse Metamodel (CWM) Specification, version 1.0. January 2001.

32. Object Management Group: Model Driven Architecture (MDA) — A Technical Perspective. July 2001.

33. Object Management Group: Model Driven Architecture (MDA) Guide /Ed. by Joaquin Miller, Jishnu Mukerji. — 2003.

34. Object Management Group: Meta Object Facility (MOF) Specification, version 1.4.-April 2002.

35. Object Management Group: Unified Modeling Language (UML) Specification, version 1.4. September 2001.

36. Object Management Group: XML Metadata Interchange (XMI) Specification, version 1.2. January 2001.

37. Pendse N. What is OLAP? // OLAP Report. 1995. (http://www.olapreport.eom/fasmi.htm#top)

38. Poole J. etc. Common Warehouse Metamodel: An Introduction to the Standard for Data Warehouse Integration /Poole J., Chang D.,Tolbert D., Mellor D. — New York: John Willey & Sons, Inc. 2002.

39. Pottinger R., Bernstein P.A. Merging Models Based on Given Correspondences // Proceedings of 29th International Conference on Very Large Data Bases. — Germany September 9-12, 2003. Berlin: 2003, pp. 826-873.

40. Rahm E., Bernstein P. A. A Survey of Approaches to Automatic Schema Matching // VLDB Journal, 10(4). 2001. - pp. 334-350.

41. Thomsen E. OLAP Solutions: Building Multidimensional Information Systems.- New York: John Wiley & Sons Inc., 1997.

42. Vassiliadis P. Modeling Multidimensional Databases, Cubes and Cube operations. // In Int. Conf. on Scientific and Statistical Database Management (SSDBM). IEEE Computer Society, 1998.

43. Velegrakis Y., Miller R.J., Popa L. Mapping Adaptation under Evolving Schemas // Proceedings of 29th International Conference on Very Large Data Bases. Germany September 9-12, 2003. - Berlin: 2003, pp. 584-595.

44. Vetterli Th., Vaduva A., Staudt M. Metadata Standards for Data Warehousing: Open Information Model vs. Common Warehouse Model // SIGMOD Record.- 2000. vol. 29(3): pp. 68-75.

45. Warmer J., Kleppe A. The Object Constraint language: Precise Modeling with UML. MA: Addison Wesley Longman, Inc. - 1998.

46. World Wide Web Consortium: Extensible Markup Language (XML) . — December 1997.

47. World Wide Web Consortium: Extensible Markup Language (XML) 1.0 (Third Edition). W3C Recommendation . February 2004.

48. World Wide Web Consortium: RDF/XML Syntax Specification (Revised). W3C Recommendation . February 2004.

49. Архангельский Г.А. Организация времени: от личной эффективности к развитию фирмы. СПб.: Питер, 2003.

50. Архипенков С. Аналитические системы на базе Oracle Express OLAP. — М: Диалог-МИФИ. 2000.

51. Бентли Д. Жемчужины программирования. 2-е издание. / Пер. с англ. — СПб.: Питер, 2002.

52. Брукс Ф. Мифический человеко-месяц или как создаются программные системы. / Пер с англ. СПб.: Символ-Плюс, 2001.

53. Буч Г., Рамбо Дж., Джекобсон A. UML. Руководство пользователя. ДМК, 2000.

54. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++, 2-е изд./ Пер. с "англ. — М.: «Издательство Бином», СПб.: «Невский диалект», 1999 г. 560 е., ил.

55. Грейвс М. Проектирование баз данных на основе XML. Научно-популярное издание / Пер. с англ. — М: издательский дом «Вильяме». — 2002.

56. Дальви Д. и др. XML для разработчиков-профессионалов .NET / Пер. с англ., М.: ЛОРИ, 2003. 846 с.

57. Дюк В., Самойленко A. Data Mining: Учебный курс. СПб:ПИТЕР. - 2001.

58. Валиков А. Технология XSLT . СПб.: БХВ-Петербург, 2002.

59. Висков А.В., Фомин М.Б., Шовкун А.В. Моделирование хранилищ данных // XXXIX Всероссийская Научная Конференция по Проблемам

60. Математики, Информатики, Физики, Химии и Методики Преподавания Естественнонаучных дисциплин. Тезисы докладов. Математические секции. М.: РУДЫ, 2003. С. 61.

61. Висков А.В., Шовкун А.В. Математический аппарат для описания многомерных моделей данных // Инженерная физика. М.: НАУЧТЕХЛИТИЗДАТ, 2004. №4.

62. Кратчен Ф. Введение в Rational Unified Process. Второе издание / Пер. с англ. - М: издательский дом «Вильяме». - 2002.

63. Крег Л. Применение UML и шаблонов проектирования. / Пер. с англ. -М: издательский дом «Вильяме». - 2002.

64. Мартин Д. и др. XML для профессионалов / Пер. с англ., М.: ЛОРИ, 2001.- 864 с.

65. Мацяшек Л.А. Анализ требований и проектирование систем. Разработка информационных систем с использованием UML. / Пер. с англ. М.: Издательский дом «Вильяме», 2002.

66. Михайлов С. КИАС: слагаемые успеха при создании и внедрении // СЮ руководитель информационной службы. Апрель 2004. - № 4(25). - С. 6871.

67. Наумов Е.В., Шовкун А.В. Создание ситуационного центра как задача системной интеграции // Сетевой журнал. — М: Издательский дом мировой периодики, 2004. №9 (53). . с. 46-50.

68. Нефедов В.Н., Осипова В.А. Курс дискретной математики: Учеб. Пособие.- М.: Изд-во МАИ, 1992.

69. Новиков Ф.А. Дискретная математика для программистов. СПб.: Питер, 2002.

70. Розенберг Д., Скотт К. Применение объектного моделирования с использованием UML и анализ прецедентов / Пер. с англ. — М: ДМК Пресс.-2002.

71. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. том 1. - издательский дом «Вильяме», 2001.

72. Урман С. Oracle 8i Новые возможности программирования на языке PL/SQL./ Пер. с англ. М.: Издательство «ЛОРИ». - 2001.

73. Фаулер М. Архитектура корпоративных программных приложений. / Пер. с англ. М.: Издательский дом «Вильяме», 2004.

74. Хрусталёв Е. М. Агрегация данных в OLAP-кубах. // Алеф Консалтинг & Софт. http://www.olap.ru/home/mut.asp, 2003.

75. Худякова А.Н., Шовкун А.В. Интеграция Oracle 9i OLAP Option и BusinessObjects // Oracle Magazine Русская Редакция . сентябрь-октябрь 2004.

76. Шаллоуей А., Тротт Д.Р. Шаблоны проектирования. Новый подход к объектно-ориентированному анализу и проектированию. / Пер с англ. — М.: Издательский дом «Вильяме», 2002.

77. Шовкун А.В., Дельцов В.В. Создание корпоративного хранилища данных в условиях постоянно изменяющегося бизнеса // XLVII научная конференция Московского физико-технического института. Труды конференции. - Т.2. - М.: МФТИ, 2004. - С. 82.

78. Шовкун А.В. Обзор способов и средств для предоставления OLAP-отчетов в WEB // Науч. сессия МИФИ-2001 Сб. науч. трудов. Т.2. М.: МИФИ, 2001.

79. Шовкун А.В., Соколов М.В. Современные способы представления метаданных // Науч. сессия МИФИ-2003 Сб. науч. трудов. Т.2. М.: МИФИ, 2003. С. 70-71.

80. Шовкун А.В. Классификация метаданных для хранилища данных // Естественные и технические науки. — М.: Спутник+, 2004. №4. - С. 229-234.-ISSN 1684-262

81. Шовкун А.В. Конфедеративное управление метаданными в хранилищах данных // Естественные и технические науки. М: Спутник+, 2004. - №4. -С. 229-234. - ISSN 1684-262

82. Шовкун А.В. Построение корпоративной информационно-аналитической системы в условиях постоянно изменяющегося бизнеса // Научно-техническая информация. Серия 1. — М.:ВИНИТИ, 2004. №9. — С. 1-6

83. Шовкун А.В. Технология построения репозитория метаданных для хранилища данных // Науч. сессия МИФИ-2003 Сб. науч. трудов. Т.2. М.: МИФИ, 2003. С. 76-77.

84. Шовкун А.В. Управление метаданными в хранилищах данных // Научно-техническая информация. Серия 1. -М.:ВИНИТИ, 2004. №10. — С. 8-14

85. Эккель Б. Философия Java. Библиотека программиста / Пер. с англ. — СПб: Питер, 2001.

86. Энсор Д., Стивенсон Й. Oracle. Проектирование баз данных / Пер. с англ. К.: Издательская группа BHV, 2000. - 560 с.

87. Эпплман Д. Переход на VB .NET: Стратегии, концепции, код. / Пер. с англ. СПб.: Питер, 2002.ог-г/тз 77 2,

88. МОСКОВСКИЙ ИНЖЕНЕИЮ-ФИЗИЧЕСКИЙ ИНСТИТУТ (ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ)1. На правах рукописи

89. Шовкун Алексей Владимирович