автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Модели и алгоритмы организации темпорального хранилища данных

кандидата технических наук
Спандерашвили, Дмитрий Викторович
город
Астрахань
год
2006
специальность ВАК РФ
05.13.10
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы организации темпорального хранилища данных»

Автореферат диссертации по теме "Модели и алгоритмы организации темпорального хранилища данных"

На правах рукописи

Спандерашвили Дмитрий Викторович

МОДЕЛИ И АЛГОРИТМЫ ОРГАНИЗАЦИИ ТЕМПОРАЛЬНОГО ХРАНИЛИЩА ДАННЫХ (НА ПРИМЕРЕ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ)

Специальность;

05.13.10 - Управление в социальных и экономических системах

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Астрахань - 2006

Работа выполнена в Астраханском государственном университете

НАУЧНЫЙ РУКОВОДИТЕЛЬ: ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:

ВЕДУЩАЯ ОРГАНИЗАЦИЯ:

доктор технических наук, профессор Петрова Ирина Юрьевна

доктор технических наук, профессор Дворянкнн Александр Михайлович

кандидат технических наук, доцент Лаптев Валерий Викторович

Поволжская государственная

академия телекоммуникаций и информатики

Защита диссертации состоится 23 декабря 2006 г. в 13 час. 00 мин. на заседании диссертационного Совета ДМ " 212.009.03 в Астраханском государственном университете по адресу: 414056, г. Астрахань, ул. Татищева, 20А, конференц-зал.

Отзывы на автореферат в двух экземплярах, заверенные гербовой печатью, просим направлять ученому секретарю диссертационного совета по адресу: 414056, г. Астрахань, ул. Татищева 20А, АГУ.

С диссертацией можно ознакомиться в библиотеке университета.

Автореферат разослан 21 ноября 2006 г.

Ученый секретарь Диссертационного Совета,

д.тл., проф. Петрова И.Ю.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В течение последних лет в телекоммуникационных компаниях значительно увеличилась динамика внедрения принципиально новых услуг. По данным группы компаний ОАО «Связьинвест», представленным на рис. 1, отмечается устойчивое увеличение превалирования доли новых услуг по сравнению с традиционными.

Рис. 1. Динамика изменения соотношения традиционных н новых услуг связи в телекоммуникационной отрасли (по данным группы компаний "Связьинвест")

Процесс принятия решений, касающихся развития компании, должен опираться на достоверные и актуальные данные о деятельности компании. Существенное влияние на качество принимаемых решений имеет глубина анализа данных. Таким образом, основными задачами систем поддержки принятия решений (DSS, Decision Support Systems) является предоставление достоверных данных за наиболее продолжительный непрерывный временной интервал.

Высокие темпы внедрения новых технологий приводят к регулярным структурным изменениям в телекоммуникационных компаниях. Динамичность организационной структуры, а также постоянная модернизация и смена применяемых технологий создает определённые трудности при анализе эффективности функционирования телекоммуникационных компаний, т.к. в описанных условиях существенно уменьшается глубина анализа данных.

В большинстве крупных компаний для долгосрочного анализа, сбора и хранения данных в настоящее время внедряют системы OLAP(On-Line Analytical Processing) - системы оперативной аналитической обработки. OLAP системы на сегодняшний день можно отнести к числу наиболее динамично развивающихся сегментов рынка информационных технологий. Согласно исследованию, проведенному «The OLAP Report», которое было посвящено обзору рынка средств OLAP, оборот рынка аналитических приложений в 2005 году составил $4,9 млрд., рост по

сравнению с 2004 годом достиг 13,7 процентов. Динамика роста оборота рынка ОЬАР-систем представлена на рис. 2.

в 5 4

Мпрд.13

2 1

19м 1в9в 1»7 ta»» 1®» госо 2 оси гооз гооз юа* zoos foe

Рис. 2. Динамика роста объемов рынка OLAP-систем (данные «ТЬе Olap Report»)

Фундаментом и, во многих случаях, составной частью OLAP систем, определяющим качественные возможности проведения анализа данных, является расширяемое, целостное хранилище данных (DW, Data Warehouse), способное не только аккумулировать данные продолжительное время, но и предоставлять OLAP системе возможность проводить анализ данных произвольных интервалов временной оси. Хранилище данных компании является одним из уровней иерархии систем, задействованных в принятии решений, представленной на рис. 3. Каждый уровень иерархии использует сервисы, предоставляемые всеми нижними уровнями._

DSS - Decision Support System — система поддержки принятия решений

OLAP - Qn-Llne Analfflcat Processing - система оперативной аналитической обработки данных

DW - DiU Warehouse - хранилище данных

RDS - relational database -реляционная база данных

Рнс. 3. Иерархия систем, участвующих в принятии решений

Подавляющее большинство современных ОЬАР-систем использует в качестве логической модели данных п-мерный куб (гиперкуб). Данные в гиперкубе представлены в виде числовых значений (мер) и распределены по измерениям, которые определяют величины, описывающие данные.

При функционировании компании в элементах и структуре измерений многомерной модели данных происходят изменения: добавление, изменение, удаление, дробление и объединение элементов измерений; добавление и удаление измерений; изменения в иерархических

связях элементов измерений — в случае иерархических измерений. Все эти изменения должны быть учтены, так как в анализ могут быть вовлечены как данные актуальные в момент до изменения в измерениях, так и данные актуальные в момент после изменения измерений. Несмотря на модификации в структуре н элементах измерений, информация о предыдущих состояниях измерения должна оставаться в системе и участвовать в анализе.

Увеличить глубину анализа возможно при наличии механизмов отслеживания изменений в многомерных структурах данных. Такие механизмы используются в темпоральном хранилище данных (TDW, Temporal Data Warehouse). Вопросы организации темпоральных хранилищ данных в настоящее время недостаточно освещены в научной литературе, особенно в частя промышленного применения. В промышленных OLAP-системах проблема отслеживания изменений в структуре измерений также практически не решается, иди решается на довольно примитивном уровне с использованием классических подходов к отслеживанию изменений в медленно меняющихся измерениях.

Большой вклад в формирование основ многомерного представления данных и классических подходов к отслеживанию изменений в измерениях внесли работы учёных: Б. Инмона (В. Inmon, США), Р. Кимболла (R. Kimball, США), Н. Пендса (N. Pendse, США), Т. Педерсена (T. Pedersen, США). Исследованиями в области темпоральных баз данных (TDB, Temporal Data Bases) занимались M. Бехлен (M. ВбЫеп, Германия), С. Дженсен (С. Jensen, США), Р. Снодграс (R. Snodgras). Работы по исследованию темпоральных хранилищ данных (TDW, Temporal Data Warehouse - темларальиое хранилище данных) и битемпорапьных хранилищ данных (BTDW, Bi-Temporal Data Warehouse - би-темпоральное хранилище данных) ведутся в настоящий момент следующими учеными: И. Эдер (J. Eder, Австрия), X. Концилна (Ch. Koncilia, Австрия), Т. Морзий (T. Morzy, Польша), Г. Коглер (H. Kogter, Австрия), однако единый подход к построению TDW пока отсутствует.

Отсутствие средства организации данных телекоммуникационной компании в условиях динамичных структурных и технологических изменений, недостаточная разработанность вопросов построения темпорального хранилища данных, отсутствие исследования полного цикла функционирования темпорального хранилища данных, включая процессы внедрения и реализации процесса ETL (Extract Transform Load — «извлечение-трансформация-загрузка»), позволяют сделать вывод об актуальности исследования данной темы.

Цель работы и задач» исследования. Целью диссертационного исследования является создание многомерной модели организации данных для системы поддержки принятия решений, позволяющей увеличить глубину анализа в условиях изменений в структуре измерений на основе

разработки моделей и алгоритмов темп орально-многомерного хранения инфо^Лшции.

Для достижения поставленной цепи необходимо решить следующие

38Л4ЧИГ' .

1. Исследовать вопросы консолидированного хранения информации телекоммуникационной компании для ев удобного краткосрочного и долгосрочного анализа, произвести классификацию используемой информации;

2.. Исследовать технологии построения многомерных хранилищ данных, возможности классических подходов контроля изменений в измерениях многомерных структур данных, исследовать технологии построения темпоральных баз данных;

3. Построить модель темпорального хранилища данных и схему базы данйых, позволяющие реализовать принципы темпорально-многомерного хранения информации на основе реляционной СУБД.

4. Разработать к реализовать в виде программной системы . алгоритмы, обеспечивающие функционирование темпорального

хранилища данных телекоммуникационной компании.

5. Проверить достоверность предложенных моделей и алгоритмов на реальных и тестовых данных.

Методы исследования. При решении поставленных задач использовались методы: системного анализа, обьектно-ориенгированного анализа и проектирования, объектно-ориентированного программирования, теории баз данных, теории графов, методы построения и анализа алгоритмов.

Научная новизна. Результаты диссертационной работы характеризуются научной новизной:

1. Дано формальное описание трансформации куба данных в темпоральном хранилище данных, позволяющее осуществлять трансформацию данных одной структурной версии в структуру другой структурной версии, способствуя увеличению глубины анализа;

2. Разработана объектно-реляционная модель темпорального хранилища данных н структуры данных темпорального хранилища данных, позволяющие реализовать темпорально-многомерную модель данных средствами реляционной СУБД а также осуществить программную реализацию темпорального хранилища данных;

3. Разработаны алгоритмы, позволяющие решить практические вопросы функционирования темпорального хранилища данных: алгоритм перехода с существующих систем хранения информации на темпоральное хранилище данных;

алгоритм трансформации куба данных; алгоритм трансформации данных в процессе переноса данных из оперативных регистрирующих систем с использованием матриц трансформации. Практическая ценность работы. В результате диссертационного исследования разработаны структура, математическое и программное обеспечение системы хранения данных телекоммуникационной компании, обеспечивающие интегральное хранение , многомерной информации, предоставляющие инструменты отслеживания многократных стохастических изменений в структуре измерений многомерной модели.

Применение предложенных методов и алгоритмов позволяет: сократить сроки анализа деятельности телекоммуникационной компании, за счвт применение централизованного хранилища информации; увеличить качество результатов анализа, на основе увеличения глубины анализа, за счет применения механизмов отслеживания изменений в структуре данных; обеспечить преемственность при миграции с существующей многомерной схемы хранения данных, на предложенную теипорально-многомерную, за счет применения механизма структурных версий.

Реализация и внедрение результатов работы. Результаты работы реализованы в программном продукте «Автоматизированная система сбора и обработки статистических данных телекоммуникационной компании» (свидетельство о регистрации №2006611990), которая внедрена (приказ о введении в промышленную эксплуатацию №34 от 01.02.2005) и используется в региональном филиале ОАО «ЮТК» «Связьинформ» Астраханской области (г. Астрахань).

Полученные научные результаты и практические методы реализации темпорально-многомерного хранилища данных обладают высокой степенью универсальности и могут быть использованы не только в рассмотренной области применения — построения хранилища данных региональной телекоммуникационной компании, но н в широком спектре сфер деятельности, требующих хранения и анализа информации за длительный период времени, а также в научно-исследовательской деятельности при исследовании вопросов построения хранения и анализа данных.

Апробация работы. Научные результаты и положения диссертационной работы докладывались и обсуждались на следующих конференциях: региональной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2005), всероссийской научной конференции «Проблемы стратегии регионального развития» (Тамбов, 2006), международной научно-технической конференции «Инфокоммуннкацнонные технологии в науке и технике» (Ставрополь, 2006), международной научно-технической конференции «Информационные технологии в науке, образовании и производстве»

(Open, 2006), всероссийской конференции «Фундаментальные исследования в технических университетах» (Санкт-Петербург, 2006).

Публикации. Основное содержание диссертации отражено в 9 публикациях.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы из 127 наименований. Диссертационная работа изложена на 141 странице машинописного текста, содержит S3 рисунка^ 3 таблицы и 4 приложения.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность выбранной темы диссертационной работы, формулируется цель и содержание поставленных задач, формулируется объект и предмет исследования, научная новизна и практическая значимость полученных результатов, излагаются методы исследования, дается краткое содержание глав работы.

В первой главе проводится анализ систем обработки данных в компании, рассматриваются системы оперативной и аналитической обработки данных, определяется место хранилища .данных в процессе обработки данных. Анализируется информация в телекоммуникационной компании, производится ее классификация, определяются потоки информации в телекоммуникационной компании до и после введения централизованного хранилища данных. Проводится сравнение основных архитектур построения хранилищ данных.

Дано описание систем оперативной регистрации транзакций - OLTP (On-Line Transaction Processing - оперативная обработка транзакций), рассмотрены их особенности, роль и место в обработке данных телекоммуникационной компании. Отмечена неэффективность использования OLTP систем дня проведения анализа деятельности предприятия.

Рассмотрены системы оперативной аналитической обработки -OLAP (Online Analytical Processing - оперативная аналитическая обработка). Сформулированы основные характеристики, которым должна соответствовать OLAP система, место OLAP системы в обработке данных телекоммуникационной компании. Отмечена важность наличия хранилища данных — DW (Data Warehouse - хранилище данных) с пространственной организацией данных дня эффективного функционирования OLAP систем. Дана обобщенная схема взаимодействия OLTP, OLAP и DW. Определена роль и место DW в обработке данных телекоммуникационной компании.

Приведены результаты анализа топов информации, используемой в телекоммуникационной компании. Произведена классификация типов информации как по назначению, так и по характеру и периодичности фиксации.

Произведён анализ потоков информации в телекоммуникационной компании при отсутствии централизованного хранилища информации и при его наличии, результаты представлены в виде обобщённых схем потоков информации между подразделениями компании.

Схема потоков информации в телекоммуникационной компании, приведенная на рис, 4, характеризуется необходимостью получения информации непосредственно из регистрирующих систем, или у филиалов.

Фориировйим отчАтоа о рвиитии, подготовка планов развития

№4 структуры рвГИСГрмру|ИЦ*Й

'Првобрвиини* данный лед структуры БД регистрирующей

Автоматически* потоки ииф.

-- — Устраняемы* потоки ииф.

Рис. 4. Потоки информации до введения централизованного хранилища данных

Данный подход имеет ряд недостатков:

— неоднородность источников получения информации для анализа приводит к неоднозначности предоставляемых данных;

- существует необходимость взаимодействия служб дирекции непосредственно со службами филиалов;

— существует необходимость взаимодействия коммерческих служб с техническими, так как некоторые коммерческие показатели требуют анализа технических и наоборот;

- существует опасность дублирования информации, так как несколько служб могут предоставлять информацию, описывающую один объект, но, ввиду различия точек фиксации его параметров, информация может различаться;

- избыточность во взаимосвязях между службами компании ведет к снижению производительности труда.

' \

Фсрцирмаиме отчет» а рннтнн,

гкдпжж* плмс* риыпн ---1- -

Кмччрчвскиа

сгтртчОы -Г

еиумбы

Хряннликця

ТСлжфарш!«« а фильтра**«

ПраоСр1>о*аия> данный лад структуры БД

олуибы

Технически службы

филиал1

- Ллпонитмч«*** потоки миф Ручныф идгтокч инф.

тооипесхихдняшя

ектвцы технической

"Праобрионнмв данных' поветипуриМ

Рис. 5. Потоки информации после введения централизованного хранилища данных

При введении единого хранилища данных устраняются многие проблемы сбора и анализа информации (рис. 5):

— устраняются излишние взаимосвязи между коммерческими и техническими службами;

— устраняется возможность дублирования данных, так как при внесении данные проходят очистку посредством анализа правильности ввода и наличия определенного регламента взаимодействия с пользователями;

— повышается производительность труда, так как часть данных из оперативных баз данных автоматически преобразуется и переносится в хранилище аналитической информации;

— службы дирекции для анализа информации больше не обращаются к оперативным базам данных;

— часть функций по анализу данных, группировке данных, агрегации и построению отчетов берет на себя хранилище данных.

В диссертационной работе доказана эффективность применения централизованного хранилища данных.

Для доказательства эффективности применения централизованного хранилища данных в диссертационной работе рассмотрена компания, состоящая из центрального отделения — дирекции и нескольких филиалов. Пусть количество отделов филиала и дирекции совпадает, таким образом, во всех количество отделов равно. Также введем допущение, что в компании существует всего два типа информации: коммерческая и техническая.

Введем следующие обозначения:

— ЛГ, —количество филиалов;

— N¡0. — количество технических служб в каждом отделении компании;

— Яж - количество коммерческих служб в каждом отделении компании;

— Нцг — количество регистрирующих систем технического сектора;

— — количество регистрирующих систем коммерческого сектора;

Тогда, в случае отсутствия хранилища данных:

— количество транзакций при взаимодействии каждой службы с регистрирующей системой своего сектора рассчитывается по формуле (1);

2xnfx{nsгxn1it^-n!жx?flxy (1)

(умножение на два, т.к. обмен информацией двусторонний, пользователи как вводят, так и берут информацию);

— количество транзакций при взаимодействии отделов технического и коммерческого сектора всех филиалов и дирекции рассчитывается по формуле (2);

(2)

— количество транзакций при взаимодействии отделов филиала с дирекцией рассчитывается по формуле (3);

(3)

— общее количество транзакций (4):

а хЛГ^ +ЛГ„ ХЛГ^+Л^ + 1) + №г (4)

В случае применения хранилища данных:

— количество транзакций при взаимодействии каждого отдела с регистрирующей системой своего сектора рассчитывается по формуле (5);

NF(NsгxNtт+Ns/,xNxX) (5)

- количество транзакций при взаимодействии отделов технического и коммерческого сектора внутри филиала равно нулю;

- количество транзакций при взаимодействии отделов филиала и дирекции равно нулю;

количество транзакций при взаимодействии служб каждого филиала и дирекции с хранилищем данных рассчитывается по формуле (б);

2х<ЛГет+1)х (6)

- общее количество транзакций рассчитывается по формуле (7):

а = Л^я- + +1)х (Л^ + ) (7)

Преимущества применения единого хранилища данных прн различном количестве структурных единиц в компании

NF 9 15 15 20 20

MST G 3 5 6 5

N8K S 3 5 6 5

MRT 2 2 1 3 0

NRK 3 2 1 3 0

Q1 780 584 850 2436 725

Q2 345 228 270 886 120

Q1/Q2 2,29 2.61 3.16 2.T4 6.04

Рис. 6. Демонстрация преимущества применения единого хранилища данных при различной количестве структурных единиц в компании

В диссертационной работе рассматривается два основных подхода к построению хранилища данных:

- корпоративная информационная фабрика — CIF (Corporate Information Factory), основоположником которой является Билл Инмон;

- хранилище данных с архитектурой шины (Data Warehouse Bus, сокр. BUS) , основоположником которой является Ральф Кимболл.

Рассматриваются особенности каждого подхода. Делается вывод о предпочтительности использования архитектуры BUS в качестве основы для решения поставленных задач.

Во второй главе дано обоснование применения многомерной модели хранения информации в хранилищах .данных, проведён анализ основных архитектур реализации многомерных моделей. Дана классификация типов изменений в элементах и структуре измерений многомерной модели данных, проводится анализ существующих подходов к отслеживанию этих изменений, делается вывод о невозможности применения данных подходов в условиях динамичных изменений в элементах и структуре измерений. Выдвигается предположение о

возможности отслеживания изменений в измерениях любой сложности путем применения темпорально-многомерной модели данных. Дано формальное описание элементов, составляющих темпоральное хранилище данных, а также функций трансформации, как механизма преобразования данных одной структурной версии к структуре другой структурной версии. Разработана модель темпорального хранилища данных, использующая матрицы трансформации в качестве механизма трансформации данных между структурными версиями. Произведен анализ возможных запросов в темпоральном хранилище данных, дано формальное описание операций, необходимых для выполнения этих запросов.

Многомерная модель оптимальна для проведения анализа информации; базовым элементом многомерной модели являются измерения. Количество измерений определяет количество возможных перспектив анализа предметной области. В диссертационной работе приводится описание базовых понятий многомерной модели: кубов данных, измерений, фактов, мер, запросов. Описываются операции агрегации по простым и иерархическим измерениям.

Даётся описание основных архитектур реализации многомерных моделей; MOLAP (Multidimensional Online Analytical Processing -многомерный оперативный анализ ) и ROLAP - (Relational Online Analytical Processing — реляционный многомерный анализ). Проводится сравнение основных характеристик двух подходов. Делается вывод о предпочтительном использовании подхода ROLAP, ввиду наличия большей гибкости в модификации измерений и размерности кубов данных.

При функционировании компании в многомерной модели данных в течение времени происходят изменения. В диссертационной работе приводится классификация возможных изменений, а также проводится анализ существующих подходов к отслеживанию этих изменений, который позволяет сделать вывод о неприменимости данных подходов в условиях динамичных изменений в элементах н структуре измерений.

Отслеживание изменений в измерениях любой сложности возможно при применении темпорально-многомерной модели данных. Для определения темпорально-многомерной модели данных необходимы следующие расширения многомерной модели:

- временные штампы, т.е. маркировка многомерных данных во времени с тем, чтобы они представляли достоверное время;

- структурные версии, т.е. возможность работы с различными версиями структур (структурными версиями) при наличии временных штампов;

Функции трансформации, т.е. механизм поддержания трансформации данных из одной структурной версии в другую.

При составлении запросов к хранилищу данных выбирается начальная структурная версия. Данные же, возвращенные запросом могут порождать обращение к нескольким (различным) структурным версиям куба. Поэтому необходимо задание функций отображения между структурными версиями.

Функцию отображения можно определить как;

(8)

где:

щ и SVJ - структурные версии,

ВМц и ОМ'я — элементы измерения, принадлежащие соответственно структурной версии Щ и ,

Л/;} непустой, конечный набор идентификаторов фактов, коэффициент трансформации для проецирования данных из одной структурной версии в другую.

В диссертационной работе дня реализации механизма отображения предлагается представлять многомерный куб виде матрицы с измерениями, представляющими комбинации измерений исходного куба, а связи между элементами измерений различных структурных версий посредством матриц трансформации.

Пусть зу, — структурная версия с N измерениями. Каждое измерение Д, состоит из набора ¿>£>, который представляет все элементы нулевого уровня этого измерения. Эту структурную версию можно представить как ом^ х им^ х-хОМ^ гиперкуб.

Пусть и две структурные версии, для которых определим матрицу трансформации 7(3^,37^ для каждого измерения О, и каждого факта Г. Тогда число, представляющее коэффициент

трансформации — » для отображения факта Б элемента измерения 4 структурной версии в факт элемента измерения структурной версии .

Итак, матрицу трансформации можно определить следующим образом:

ПЗУ^Л.О^), (9)

гае:

ЗУ,— структурная версия, в которой находятся трансформируемые данные;

бу,- структурная версия в структуру, которой необходимо преобразовать;

А,- набор элементов измерения исходной структурной версии; набор элементов целевой структурной версии;

Элемент матрицы трансформации определяет коэффициент трансформации факта элемента исходного измерения в факт элемента целевого измерения. Коэффициент трансформации следующим образом:

tiSV^DM^.DM^-w (10)

где:

svt- структурная версия, в которой находятся трансформируемые данные;

svt- структурная версия в структуру, которую необходимо преобразовать;

dmDj—элемент измерения D,; —элемент измерения D',;

w- коэффициент трансформации элементов исходного измерения в целевое.

В качестве примера матрицы трансформации можно привести матрицу (И):

* % щ л,

wvm,.; Y V ° : <»>

(Jj 0 0 0 1

Элементы матрицы трансформации состоят из коэффициентов трансформации исходного измерения s целевое — w. Правильное определение этих коэффициентов определяет степень достоверности данных, получаемых при трансформации куба данных.

В наиболее простом случае мы принимаем w статическим значением. В диссертационной работе высказано предположение о возможности применения в качестве коэффициентов трансформации функциональных значений <12).

/„(*,,..) /»(*,...) Г- ... ... (12)

/„,(*,...) ... /„(*,...)

При анализе данных двух структурных версий необходимо отобразить куб структурной версии sv, в структуру svr

В диссертационной работе определена операция трансформации над кубом данных.

Пусть t(svt, du, d'u ) - матрица трансформации измерения dt при отображении куба данных структурной версии sv, в структуру структурной версии SV}.

c(svt ) - куб в структурной версии sv, ;

C(SVj) - куб в структурной версии sVj ;

— куб с(5у,) в структурной версии

— куб в структурной версии

двумерная матрица, представляющая собой развертку куба данных такую, что по горизонтали располагаются

элементы £>„, а по вертикали все возможные комбинации элементов остальных измерений;

¡у,) - двумерная матрица, представляющая собой развертку куба данных С^.ету такую, что по горизонтали располагаются элементы с„, а по вертикали все возможные комбинации элементов остальных измерений; тогда можно определить следующую формулу:

Операция перемножения в данной формуле означает перемножение матриц (так при перемножении с(р,)[т х«] на А.)(лх£] получаем

С(Я, т — количество комбинаций членов измерений без и,, п —

количество элементов £>„, к — количество элементов измерения ту..

Возможны следующие варианты соотношения количества элементов измерений исходной и целевой структурных версий:

п-к — перегруппировка мощности элементов измерения;

и > к — объединение элементов измерения;

п<к — дробление элементов измерения;

л»1,Л>1 — порождение нового измерения с к элементами;

_ вырождение одного измерения (в частном случае -

агрегация).

Формально из этого следует, что в любом кубе может существовать бесконечное множество измерений, которые могут свободно вырождаться и порождаться при правильно подобранных коэффициентах трансформации , без потери качества данных.

Для преобразования всего куба необходимо произвести поочередное перемножение разверток куба по измерениям на соответствующие матрицы преобразования этих измерений.

Для преобразования всего куба данных в в

диссертационной работе выведена следующая формула (14):

с(.$у„зу1) = с(8г„5г1,в,)*п$у„5у/,оя.з\ (14)

где:

ЛГ— количество различных измерений двух структурных версий, то есть если #ви Л^ количество измерений в структурных версиях $У, и ЗУ,,то

Произведен анализ возможных запросов в темпоральном хранилище данных, дано формальное описание операций, необходимых для выполнения этих запросов. Данное формальное описание дает основу для практической реализации темпорального хранилища данных.

На основе формального описания модели темпорального хранилища данных построена концептуальная модель темпорально хранилища данных в нотации UML (Universal Modeling Language — универсальный язык моделирования), представленная на рис. 7. Данная модель позволяет программно реализовать темпоральное хранилище данных.

-лттрнбуш I наборлтрнбум ■Та: Ом

■т»:о«.__

-щммфмгорИ!: 1длд It; ом

Рис. 7. Концептуальная модель темпорального хранилища данных в нотации UML

В третьей главе рассматривается модель организации данных темпорального хранилища данных на основе реляционной СУБД. Описываются разработанные алгоритмы: алгоритм преобразования многомерной модели данных в темпорально-многомерную, алгоритм трансформации куба данных и его составная часть — алгоритм перемножения разреженных матриц, алгоритм ETL(Extract Transform Load) процесса с использованием матриц трансформации.

В результате диссертационного исследования разработана ER-диаграмма темпорального хранилища данных в нотации UML. Данная диаграмма позволяет реализовать темпоральную модель данных средствами реляционной СУБД.

В связи с важностью процесса внедрения нового темпорального хранилища без потери данных, накопленных в старых многомерных и реляционных хранилищах данных, рассматривается вопрос перехода на темпорально-многомерное хранилище данных. Приводится разработанный алгоритм перехода с существующих систем хранения информации на темпоральное хранилище данных с формированием матриц трансформации, которые обеспечивают возможность вовлечения в анализ старых данных одновременно с новыми данными. Диаграмма деятельности в нотации ЦМЬ, описывающая разработанный алгоритм, представлена на рис. 8.

* [мм » "снами ^-—ч

(_)-—-—'—-~--^(циоДрдачиь ■ схему "земле* ^

(5

( кии )

ХД4»

Соадатъ<МШ'|Ъмвраи Элоч антИунераиы

{т«ММЖолицмтмИэмарвний]

С^Г)-

1"/-

у«лонм «бамгмннк

№<1 М 1ГГТ.а|'1 ЦП 1'1ПИП. ДИ11ЫГТ

ЗД-Тмпорольно« Хрмшищ* данных

Рис. 8. Диаграмма деятельности в нотации ЦМЬ, описывающая алгоритм перехода с существующих систем хранения многомерной информации на темпоральное хранилище данных

Обобщенный алгоритм трансформации куба данных с из структурной версии ЗУ, в структурную версию представленный в виде диаграммы деятельности в нотации ЦМЬ, приведен на рис. 9, данный алгоритм представляет собой реализацию формулы (14).

Приведенное во второй главе формальное описание трансформации хранилища данных предполагает перемножение матриц трансформации, (сложность алгоритма перемножения матриц — 0(л3)) на двумерное представление многомерного куба данных, что, в условиях наличия большого количества измерений, является достаточно ёмкой операцией как по использованию оперативной памяти системы, так и процессорного времени.

см»

Выбрить данные а С^ЗД,

Мп>1

^Сфорнмромтъ рвовертну «ува (выбрать матрицу трансформации Т(8У1.5У1Дп^

\ / \ !

\ !

{ CfSVi.SVj.Dn) II ТЙМ.ЭЧ,

ГрпГ)

Рис. 9. Диаграмма деятельности в нотации ЦМЬ, описывающая алгоритм трансформации куба данных

Важной особенностью кубов данных является наличие большого количества нулевых элементов — разреженность куба .данных, что ведёт к нерациональному расходу памяти при представлении матриц в виде

двумерных массивов._

О—^Ичеам УжЗогЦ «.УасЬяДЬ^—^^»сюгП <; - паи Уютцд.^й!]^-^ Ш1Н> ^

[КаЛюуЩ_

^ ШЯ=0 у*-^-пвиУийй]^-

(¡"Ь.1вП(иО >-Ч

А р»«а.

впдЛ]

ыу->

л

с

э

преобразовать ар] а едномарный массив (вектор)

-^пи«обрмов«гт> ЬЩ в одномврный массив (иктор)^)-^

^Йаа! ув1ив=с1*сД (оалярио* проиэиданиа ангаров?^

X Г«Л«К=0] /-ч

<0> >(сД^<И(п«* 1™ЛхЕ1»твп((],у«*л)};1

[уа1и»=01

Рис. 10. Диаграмма деятельности л нотации ЦМЦ описывающа* алгореты перемножения разреженных

ыэтрнц

Матрицы трансформации также отличаются наличием большой доли нулевых элементов. В диссертационной работе с учётом описанных особенностей, предлагается оптимизированное для решаемой задачи представление матриц в виде массива связных списков и алгоритм трансформации куба данных с представлением куба данных и матриц

трансформации в виде массива связных списков. Диаграмма деятельности в нотации UML, описывающая разработанный алгоритм, представлена на рис. 10.

Важное место в функционировании хранилища данных занимает процесс импорта данных из оперативных регистрирующих систем -процесс ETL (Extract Transform Load - извлечение трансформация загрузка). В диссертационной работе предложен алгоритм трансформации данных в ETL процессе с использованием матриц трансформации. Алгоритм основан на предположении о возможности представить извлечённые данные любой регистрирующей системы или нескольких регистрирующих систем в виде многомерного куба данных или нескольких кубов данных. Структура этого куба данных будет отличаться от структуры куба данных темпорального хранилища данных. Осуществить трансформацию исходных данных в структуру целевого куба данных возможно, определив однократно матрицы трансформации структуры исходного куба данных в структуру куба темпорального хранилища данных. Впоследствии данная трансформация осуществляется каждый раз при импорте данных. Процедура аналогична трансформации структурных версий темпорального хранилища данных. Диаграмма деятельности в нотации UML, представляющая алгоритм ETL-процесса с использованием матриц трансформации, представлен на рис. 11.

(^Формирован— матриц трансформации^—^(Построониа куба данных неге« наша^

(Выборка данных » источника^-'

1

^Трансформация губа данных источника)—Цзагрума даны« и сформированною «уСа данных)-

Рис. П. Диаграмма деятельности а нотации UML, описывающая аягорнш F.TL процесса с испольшлаЕшем метрнц трансформации

В четвёртой главе рассмотрены вопросы разработки программного обеспечения темпорального хранилища данных, обосновывается выбор предложенных средств программной реализации, даётся оценка корректности предложенной модели и алгоритмических решений путем проведения трансформации куба данных на реальных и тестовых данных. Рассматриваются вопросы использования результатов диссертационной работы в различных отраслях производства.

Рассмотрены вопросы физической организации модулей, составляющих темпоральное хранилище данных. Приведена диаграмма развертывания системы в нотации ЦШ., представленная на рис. 13,

представляющая архитектуру системы, описывается назначение модулей и характер их взаимосвязи.

Описываются предложенные средства программной реализации темпорально-многомерного хранилища данных. Обосновывается выбор средств реализации. Следует отметить, что все использованное программное обеспечение и языки разработки, а также разработанные модули являются кросс платформенными. Все использованное в разработанной системе программное обеспечения является открытым и свободно распространяемым.

«сервера

Клиентский

компьютер

«сервер»

Сервер БД Темпорального хранилища данных

«сервер» Сервер ЕТТ-

ясете&ая среда» Локальная сеть

«сервер»

Сервер Темпорального хранилища данных

Р«, 12. Диаграмма р*звер™ыииа «ктеиы тотииЦМЬ

В главе приводится пример трансформации куба данных на тестовых данных, подтверждая верность теоретических выводов и разработанного алгоритма трансформации куба данных одной структурной версии в структуру другой структурной версии.

Система внедрена и функционирует на протяжении трех лет в региональном филиале ОАО «ЮТК» «Связьинформ» Астраханской области.

Описан опыт практического применения механизма трансформации куба данных, который имел место при структурных изменениях в региональном филиале ОАО «ЮТК» «Связьннформ» Астраханской области. При сравнении данных, полученных при трансформации куба данных, с фактическими данными, которые продолжали собираться, погрешность данных, полученных при трансформации куба данных,

составила от 0,24 процента до 3,77 процента, в среднем — 2,1 процента. Погрешность может варьироваться при получении данных по различным показателям. Важную роль в уменьшении погрешности имеет правильный подбор коэффициентов трансформации ч>.

Проведен анализ возможности применения результатов диссертационной работы в других отраслях. Результаты исследования определяют довольно широкий круг предприятий, которые нуждаются в эффективных средствах бизнес аналитики, а, следовательно, и в хранилищах данных. В большинстве компаний, серьезно занимающихся вопросами комплексной бизнсс-аналнтики, существуют описанные выше проблемы отслеживания изменений в измерениях пространственных структур данных, следовательно, результаты диссертационного исследования могут найти применение в широком диапазоне сфер деятельности.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ Научные результаты к предложенные алгоритмы позволяют:

1. на основе выведенного формального описания трансформации куба данных в темпоральном хранилище данных, осуществить" трансформацию данных куба данных одной структурной версии в структуру другой структурной версии, что приводит к увеличению глубины анализа данных в системах поддержки принятия решений;

2. реализовать темпоральную модель данных средствами реляционной СУБД, а также программно реализовать темпоральное хранилище данных, «гго возможно благодаря разработанной объектно-реляционной модели темпорально-многомерного хранилища данных и структуре данных темпорально-многомерного хранилища данных;

3. на основе разработанных алгоритмов функционирования темпорального хранилища данных, осуществлять переход с существующих систем хранения информации на темпоральное хранилище данных, осуществлять трансформацию куба данных с использованием матриц трансформации, реализовывать трансформацию данных в ЕТЪ процессе с использованием матриц трансформации.

СПНСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Спандерашвили, Д.В. Особенности построения системы сбора статистики телекоммуникационной компании./ Д.В. Спандерашвили. // Информатика: проблемы, методология, технологии. Материалы пятой региональной научно-методической

конференции. - Воронеж: Воронежский государственный университет, 2005. -42.- С.136-141. - ISBN 5-9273-0681-0.

2. Спандерашвили, Д.В. Темпорально многомерная модель для контроля динамики данных региональной компании./ ДБ. Спандерашвили.// Проблемы стратегии регионального развития: Материалы Всероссийской научной конференции. — Тамбов: Псршнна, 2006. - С.80-84. - ISBN 5-902517-94-Х.

3. Спандерашвили, Д.В. Механизмы отслеживания изменений в многомерных структурах данных./ Д.В. Спандерашвили.// Икфокоммуникационные технологии в науке, производстве и образовании: Вторая международная научно-техническая конференция. - Ставрополь: СКГГУ, 2006. - 4 1,-С.160-162.

4. Спандерашвили, Д.В. Объектная модель Темпорально многомерных данных и ее реализация средствами реляционной СУБДJ Д.В. Спандерашвили. // «Информационные технологии в науке, образовании и производстве» (ИТНОП). Материалы международной научно-технической - конференции. — Орел: ОрелГТУ, 2006. - Т 4. - С^ 10-215.

5. Спандерашвили, ДЛ. Вопросы реализации темпорально-многомерной модели данных на примере хранилища данных телекоммуникационной , компании./ Д.В. Спандерашвили. // Фундаментальные исследования в технических университетах. Материалы X Всероссийской конференции по проблемам науки и высшей школы. - СПб.: Изд-во политехи, ун-та, 2006. - С.205-206.

6. Спандерашви/ш, ДЗ. Принципы организации взаимодействия регистрирующих систем с хранилищем данных (на примере телекоммуникационной компании)./ Д.В. Спандерашвили, Г.Г. МирошннковУ/ Инженерное образование. Наука в образовании: электронное научное издание. - №ГОС. РЕГИСТРАЦИИ 0420600025. - Москва: МГТУ им. Н. Э. Баумана, 2006. - №8. -регистрационный номер статьи 0420600025\0025.

7. Спандерашвили, Д.В. Алгоритмические вопросы реализации темпорального хранилища данных./ ДЛ. СпанцерашвшшУ/ Инженерное образование. Наука в образовании; электронное научное издание. - №ГОС. РЕГИСТРАЦИИ 0420600025. - Москва: МГТУ им. Н. Э. Баумана, 2006. - №8. -регистрационный номер статьи 0420600025\0026.

8. Спандерашвили, ДЗ. Формальное описание модели н алгоритмы трансформации темпорального хранилища данных./ ДЛ, СпаццерашвилиУ/ Южно-Российский . вестник геологии, географии и глобальной энергии. - Астрахань: АГУ, 2006. -№7(20).-C.136-142.-ISSN 1818-5169.

9. Спандерашвшга, Д.В. Актомаггнзироьалная система сбора и обработки данных телекоммуникационной компании/ Д.В .Спандерашвили, И.Ю. Петрова// Свидетельство об официальной регистрации программ для ЭВМ Ла200б611990 в Реестре программ для ЭВМ Федеральной службы по интеллектуальной собственности, патентам и товарным знакам.—2006.

Подписано в печать 14.11.2006 Уч.-изд. л. 1,5. Усл. печ, д. 1,4. Тираж 100 экз. Заказ № 1037

Издательский дом «(Астраханский университет» 414056 г. Астрахань, уя. Татищева, 20 а Тел. (8512) 54-01-87,54-01-89 24

Оглавление автор диссертации — кандидата технических наук Спандерашвили, Дмитрий Викторович

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ МЕТОДОВ ОБРАБОТКИ ДАННЫХ.

1.1 Описание систем оперативной регистрации транзакций - OLTP.

1.2 Описание систем оперативной аналитической обработки - OLAP.

1.3 Информация в телекоммуникационной компании.

1.4 Потоки информации в телекоммуникационной компании.

1.5 Сбор информации.

1.6 Вывод информации: типы отчетности.

1.7 Архитектуры хранилища данных.

1.7.1 Корпоративная информационная фабрика (CIF).

1.7.2 Хранилище данных с архитектурой шины (BUS).

1.7.3 Сравнение архитектур CIF и BUS.

1.8 выводы.

ГЛАВА 2. ТЕМПОРАЛЬНО-МНОГОМЕРНОЕ ХРАНИЛИЩЕ ДАННЫХ.

2.1 Предпосылки применения многомерной модели.

2.2 Многомерная модель данных.

2.3 Агрегация.

2.4 Реализация многомерных моделей.

2.5 Изменения в измерениях.

2.5.1 Классические подходы к отслеживанию изменений в медленно меняющихся измерениях.

2.5.2 Изменения в иерархических измерениях.

2.6 Предпосылки применения темпорально-многомерного хранилища данных.

2.7 Формальное описание темпорально-многомерной модели данных

2.8 Определение соответствий между структурными версиями.

2.9 Матрицы трансформации.

2.10 Определение коэффициента трансформации.

2.11 Трансформация хранилища данных.

2.12 Запросы в темпорально-многомерной модели данных.

2.13 Модель темпорального хранилища данных.

2.14 Выводы.

ГЛАВА 3. РЕАЛИЗАЦИЯ ТЕМПОРАЛЬНО-МНОГОМЕРНОГО ХРАНИЛИЩА ДАННЫХ.

3.1 Физическая реализация модели данных.

3.2 Переход от многомерного хранилища данных к темпорально-многомерному.

3.3 Алгоритмическая реализация трансформации куба данных.

3.4 Реализация ETL процессов.

3.5 Выводы.

ГЛАВА 4. ВНЕДРЕНИЕ И АНАЛИЗ ФУНКЦИОНИРОВАНИЯ ТЕМПОРАЛЬНО-МНОГОМЕРНОГО ХРАНИЛИЩА ДАННЫХ.

4.1 Диаграмма развертывания.

4.2 Программные средства реализации.

4.2.1 Реализация серверной логики.

4.2.2 Система управления БД.

4.2.3 Метод доступа к БД.

4.2.4 Организация клиентского доступа.

4.2.5 Защита информации.

4.3 Пример работы алгоритма трансформации данных с использованием матриц трансформации (с использованием тестовых данных).

4.4 Внедрение.

4.5 Пример работы алгоритма трансформации куба данных (на реальных данных).

4.6 Использование результатов в смежных областях.

4.7 Выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Спандерашвили, Дмитрий Викторович

Актуальность темы. В течение последних лет в телекоммуникационных компаниях значительно увеличилась динамика внедрения принципиально новых услуг. По данным группы компаний ОАО «Связьинвест», представленным на Рис. 1, отмечается устойчивое увеличение превалирования доли новых услуг по сравнению с традиционными.

Рис. 1. Динамика изменения соотношения традиционных и новых услуг связи в телекоммуникационной отрасли (по данным группы компаний "Связьинвест")

Процесс принятия решений, касающихся развития компании, должен опираться на достоверные и актуальные данные о деятельности компании. Существенное влияние на качество принимаемых решений имеет глубина анализа данных. Таким образом, основными задачами систем поддержки принятия решений (DSS, Decision Support Systems) является предоставление достоверных данных за наиболее продолжительный непрерывный временной интервал [84].

Высокие темпы внедрения новых технологий приводят к регулярным структурным изменениям в телекоммуникационных компаниях. Динамичность организационной структуры, а также постоянная модернизация и смена применяемых технологий создает определённые трудности при анализе эффективности функционирования телекоммуникационных компаний, т.к. в описанных условиях существенно уменьшается глубина анализа данных.

В большинстве крупных компаний для долгосрочного анализа, сбора и хранения данных в настоящее время внедряют системы OLAP(On-Line Analytical Processing) - системы оперативной аналитической обработки. OLAP системы на сегодняшний день можно отнести к числу наиболее динамично развивающихся сегментов рынка информационных технологий [102,106]. Согласно исследованию, проведенному «The OLAP Report», которое было посвящено обзору рынка средств OLAP, оборот рынка аналитических приложений в 2005 году составил $4,9 млрд., рост по сравнению с 2004 годом достиг 13,7 процентов. Динамика роста оборота рынка OLAP-систем представлена на Рис. 2. Список участников рынка с кратким описанием предлагаемых решений приведен в Приложении 1 [109,110].

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005

I год i iI

Рис. 2. Динамика роста объемов рынка OLAP-систем (данные «The Olap Report»)

Фундаментом и, во многих случаях, составной частью OLAP систем, определяющим качественные возможности проведения анализа данных, является расширяемое, целостное хранилище данных (DW, Data Warehouse), способное не только аккумулировать данные продолжительное время, но и предоставлять OLAP системе возможность проводить анализ данных произвольных интервалов временной оси. Хранилище данных компании является одним из уровней иерархии систем, задействованных в принятии решений, представленной на Рис. 3. Каждый уровень иерархии использует сервисы, предоставляемые всеми нижними уровнями.

DSS - Decision Support System - система поддержки принятия решений

OLAP - On-Line Analitical Processing - система оперативной аналитической обработки данных

DW - Data Warehouse - хранилище данных

RDB - relational database -реляционная база данных

Рис. 3. Иерархия систем, участвующих в принятии решений

Подавляющее большинство современных OLAP-систем использует в качестве логической модели данных n-мерный куб (гиперкуб). Данные в гиперкубе представлены в виде числовых значений (мер) и распределены по измерениям, которые определяют величины, описывающие данные.

При функционировании компании в элементах и структуре измерений многомерной модели данных происходят изменения: добавление, изменение, удаление, дробление и объединение элементов измерений; добавление и удаление измерений; изменения в иерархических связях элементов измерений - в случае иерархических измерений. Все эти изменения должны быть учтены, так как в анализ могут быть вовлечены как данные актуальные в момент до изменения в измерениях, так и данные актуальные в момент после изменения измерений. Несмотря на модификации в структуре и элементах измерений, информация о предыдущих состояниях измерения должна оставаться в системе и участвовать в анализе.

Увеличить глубину анализа возможно при наличии механизмов отслеживания изменений в многомерных структурах данных. Такие механизмы используются в темпоральном хранилище данных (TDW,

Temporal Data Warehouse). Вопросы организации темпоральных хранилищ данных в настоящее время недостаточно освещены в научной литературе, особенно в части промышленного применения. В промышленных OLAP-системах проблема отслеживания изменений в структуре измерений также практически не решается, или решается на довольно примитивном уровне с использованием классических подходов к отслеживанию изменений в медленно меняющихся измерениях.

Большой вклад в формирование основ многомерного представления данных и классических подходов к отслеживанию изменений в измерениях внесли работы учёных: Б. Инмона (В. Inmon, США), Р. Кимболла (R. Kimball, США), Н. Пендса (N. Pendse, США), Т. Педерсена (Т. Pedersen, США). Исследованиями в области темпоральных баз данных (TDB, Temporal Data Bases) занимались М. Бехлен (М. Bohlen, Германия), С. Дженсен (С. Jensen, США), Р. Снодграс (R. Snodgras). Работы по исследованию темпоральных хранилищ данных (TDW, Temporal Data Warehouse - темпаральное хранилище данных) и битемпоральных хранилищ данных (BTDW, Bi-Temporal Data Warehouse - би-темпоральное хранилище данных) ведутся в настоящий момент следующими учеными: Й. Эдер (J. Eder, Австрия), X. Концилиа (Ch. Koncilia, Австрия), Т. Морзий (Т. Morzy, Польша), Г. Коглер (Н. Kogler, Австрия), однако единый подход к построению TDW пока отсутствует.

Отсутствие средства организации данных телекоммуникационной компании в условиях динамичных структурных и технологических изменений, недостаточная разработанность вопросов построения темпорального хранилища данных, отсутствие исследования полного цикла функционирования темпорального хранилища данных, включая процессы внедрения и реализации процесса ETL (Extract Transform Load - «извлечение-трансформация-загрузка»), позволяют сделать вывод об актуальности исследования данной темы.

Цель работы и задачи исследования. Целью диссертационного исследования является создание многомерной модели организации данных для системы поддержки принятия решений, позволяющей увеличить глубину анализа в условиях изменений в структуре измерений на основе разработки моделей и алгоритмов темпорально-многомерного хранения информации.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Исследовать вопросы консолидированного хранения информации телекоммуникационной компании для её удобного краткосрочного и долгосрочного анализа, произвести классификацию используемой информации;

2. Исследовать технологии построения многомерных хранилищ данных, возможности классических подходов контроля изменений в измерениях многомерных структур данных, исследовать технологии построения темпоральных баз данных;

3. Построить модель темпорального хранилища данных и схему базы данных, позволяющие реализовать принципы темпорально-многомерного хранения информации на основе реляционной СУБД.

4. Разработать и реализовать в виде программной системы алгоритмы, обеспечивающие функционирование темпорального хранилища данных телекоммуникационной компании.

5. Проверить достоверность предложенных моделей и алгоритмов на реальных и тестовых данных.

Методы исследования. При решении поставленных задач использовались методы: системного анализа, объектно-ориентированного анализа и проектирования, объектно-ориентированного программирования, теории баз данных, теории графов, методы построения и анализа алгоритмов.

Краткое содержание работы. В первой главе проводится анализ систем обработки данных в компании, рассматриваются системы оперативной аналитической обработки данных, определяется место хранилища данных в процессе обработки данных. Анализируется информация в телекоммуникационной компании, производится ее классификация, определяются потоки информации в телекоммуникационной компании до и после введения централизованного хранилища данных. Проводится сравнение основных архитектур построения хранилищ данных.

Во второй главе дано обоснование применения многомерной модели хранения информации в хранилищах данных, проведён анализ основных архитектур реализации многомерных моделей. Дана классификация типов изменений в элементах и структуре измерений многомерной модели данных, проводится анализ существующих подходов к отслеживанию этих изменений, делается вывод о невозможности применения данных подходов в условиях динамичных изменений в элементах и структуре измерений. Выдвигается предположение о возможности отслеживание изменений в изменениях любой сложности путем применения темпорально-многомерной модели данных. Дано формальное описание элементам, составляющим темпоральное хранилище данных, а также функциям трансформации, как механизму преобразования данных одной структурной версии к структуре другой структурной версии. Произведен анализ возможных запросов в темпоральном хранилище данных, дано формальное описание операций, необходимых для выполнения этих запросов. Разработана модель темпорального хранилища данных использующая в качестве механизма трансформации данных между структурными версиями матрицы трансформации.

В третьей главе рассматривается модель организации данных темпорального хранилища данных на основе реляционной СУБД. Описываются разработанные алгоритмы: алгоритм преобразования многомерной модели данных в темпорально-многомерную, алгоритм трансформации куба данных и его составная часть - алгоритм перемножения разреженных матриц, алгоритм ETL (Extract Transform Load) процесса с использованием матриц трансформации.

В четвёртой главе рассмотрены вопросы разработки программного обеспечения темпорального хранилища данных, обосновывается выбор предложенных средств программной реализации, даётся оценка корректности предложенной модели и алгоритмических решений путем проведения трансформации куба данных на реальных и тестовых данных. Рассматриваются вопросы использования результатов диссертационной работы в различных отраслях производства.

Заключение диссертация на тему "Модели и алгоритмы организации темпорального хранилища данных"

4.7 Выводы

1. Рассмотрены вопросы физической организации модулей составляющих темпоральное хранилище данных. Приведена диаграмма развертывания системы, представляющая архитектуру системы, описывается назначение модулей и характер их взаимосвязи.

2. Описываются предложенные средства программной реализации темпорально-многомерного хранилища данных. Обосновывается выбор тех или иных средств реализации. Следует отметить, что все использованное программное обеспечения и языки разработки, а также разработанные модули являются кроссплатформенными. Все использованное в разработке программное обеспечения является бесплатным, свободно распространяемым и построено по идеологии открытого кода.

3. Приводится пример трансформации куба данных на тестовых данных, подтверждая верность теоретических выводов и разработанного алгоритма трансформации куба данных одной структурной версии в структуру другой структурной версии.

4. Отмечен факт внедрения системы и функционирования на протяжении трех лет в региональном филиале ОАО «ЮТК» «Связьинформ» Астраханской области.

5. Описан положительный опыт практического применение механизма структурных версий, которое имело место при структурных изменениях в региональном филиале ОАО «ЮТК» «Связьинформ» Астраханской области.

6. Проведен анализ возможности применения результатов диссертационной работы в других отраслях, сделан вывод о наличии потенциальной возможности применения теоретических и практических результатов работы в широком спектре областей.

ЗАКЛЮЧЕНИЕ

Результаты. В итоге диссертационного исследования получены результаты, характеризующиеся следующей научной новизной научной новизной:

1. Разработана объектно-реляционная модель темпорального хранилища данных и структуры данных темпорального хранилища данных - позволяющие реализовать темпорально-многомерную модель данных средствами реляционной СУБД, а также осуществить программную реализацию темпорального хранилища данных;

2. Дано формальное описание трансформации куба данных в темпоральном хранилище данных - позволяющее осуществлять трансформацию данных одной структурной версии в структуру другой структурной версии, способствуя увеличению глубины анализа;

3. Разработаны алгоритмы функционирования темпорального хранилища данных: алгоритм перехода с существующих систем хранения информации на темпоральное хранилище данных, алгоритм трансформации куба данных, алгоритм трансформации данных в ETL процессе с использованием матриц трансформации - позволяющие решить практические вопросы функционирования темпорального хранилища данных.

Практическая ценность работы. результате диссертационного исследования разработаны структура, математическое и программное обеспечение системы хранения данных телекоммуникационной компании, обеспечивающие интегральное хранение многомерной информации, предоставляющие инструменты отслеживания многократных стохастических изменений в структуре измерений многомерной модели.

Применение предложенных методов и алгоритмов позволяет: сократить сроки анализа деятельности телекоммуникационной компании, за счёт применения централизованного хранилища информации; увеличить качество результатов анализа, на основе увеличения глубины анализа, за счет применения механизмов отслеживания изменений в структуре данных; обеспечить преемственность при миграции с существующей многомерной схемы хранения данных, на предложенную темпорально-многомерную, за счет применения механизма структурных версий.

Реализация и внедрение результатов работы. Результаты работы реализованы в программном продукте «Автоматизированной системы сбора и обработки статистических данных телекоммуникационной компании» (свидетельство о регистрации №2006611990), которая внедрена (приказ о введении в промышленную эксплуатацию №34 от 01.02.2005) и используются в региональном филиале ОАО «ЮТК» «Связьинформ» Астраханской области (г. Астрахань).

Выведенные научные результаты и практические методы реализации темпорально-многомерного хранилища данных обладают высокой степенью универсальности и могут быть использованы не только в рассмотренной области применения, - построения хранилища данных региональной телекоммуникационной компании, но и в широком спектре сфер деятельности, требующих хранения и анализа информации за длительный период времени, а также в научно-исследовательской деятельности при исследовании вопросов построения хранения и анализа данных.

Апробация работы. Научные результаты и положения диссертационной работы докладывались и обсуждались на следующих конференциях: региональной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2005), всероссийской научной конференции «Проблемы стратегии регионального развития» (Тамбов, 2006), международной научно-технической конференции «Инфокоммуникационные технологии в науке и технике» (Ставрополь, 2006), международной научно технической конференции «Информационные технологии в науке, образовании и производстве» (Орел, 2006), всероссийской конференции «Фундаментальные исследования в технических университетах» (Санкт-Петербург, 2006).

Применение результатов в других областях. В результате проведенного анализа различных отраслей, сделан вывод о наличии, в большинстве случаев, потребности в инструменте, позволяющем увеличивать глубину анализа в условиях изменений в структуре измерений. Разработанные модели, алгоритмы и программные модули обладают высокой степенью универсальности и могут быть применены в широком спектре отраслей.

Публикации, сновное содержание диссертации отражено в 9 публикациях.

Вывод. На основе полученных результатов можно сделать вывод о том, что цель диссертационной работы, заключающаяся в создание многомерной модели организации данных для системы поддержки принятия решений, позволяющей увеличить глубину анализа в условиях изменений в структуре измерений на основе разработки моделей и алгоритмов темпорально-многомерного хранения информации, была достигнута.

Библиография Спандерашвили, Дмитрий Викторович, диссертация по теме Управление в социальных и экономических системах

1. Абдикеев Н.М., Данько Т.П., Ильдеменов С.В., Киселев А.Д. Реинжиниринг бизнес-процессовтекст. М:.Эксмо, 2005. - 592с. -ISBN 5-699-10590-5.

2. Амриш К.И., Ахмед Х.З. Разработка корпоративных Java-приложений с помощью J2EE и ЦМЦтекст. М.: Вильяме, 2002. -272с.-ISBN 5-8459-0299-1.

3. Архипенков С.Я., Голубев Д.В.,Максименко О.Б. Хранилища данныхтекст. М.-Диалог-МИФИ, 2002. - 528с. - ISBN 586404-167-Х.

4. Барсегян А.А.,Куприянов М.С.,Степаненко В.В.,Холод И.И. Методы и модели анализа данных: OLAP и Data Miningl/гекст. Спб.: БХВ-Петербург, 2004. - 336с. - ISBN 5-94157-522-Х.

5. Буч Г. Объектно ориентированный анализ и проектирование с примерами приложений на С++текст. -Спб:.Невский Диалект, 1998. - 560с. - ISBN 0-8053-5340-2.

6. Буч Г., Якобсон А., Рамбо Д. UML. Классика CSтекст. -Спб:.Питер, 2006. 736с. - ISBN 5-469-00599-2.

7. Галкин В. А., Григорьев Ю. А. Телекоммуникации и сети текст. М:.Издательство МГТУ им. Н. Э. Баумана,, 2003. - 608с. -ISBN 5-7038-1961-Х.

8. Гамма Э., Хелм Р.,Джонсон Р.,Влиссидес Дж. Приёмы объектно ориентированного проектирования: паттерны проектированиятекст. Спб.: Питер,, 2001. - 366с. - ISBN 5-27200355-1.

9. Гранд М. Шаблоны проектирования в JAVA. Каталог популярных шаблонов проектирования, проиллюстрированных при помощи иМЬтекст. М:.Новое знание, 2004. - 560с. - ISBN 5-94735047-5.

10. Дейт К. Дж. Введение в системы баз данныхтекст. М.: Вильяме, 2001. - 1071с. - ISBN 5-8459-0138-3 .

11. Диго С.М. Базы данных: проектирование и использование. Учебниктекст. М.:Финансы и статистика,, 2005. - 592с. - ISBN 5279-02571-2.

12. Елисеева И.И., Юзбашев М.М. Общая теория статистики текст. М.:Финансы и статистика,, 2006. - 656с. - ISBN 5279-02414-7.

13. Иордон Э., Аргила К. Структурные модели в объектно -ориентированном анализе и проектировании текст. М:.Лори, 1999. -268с. - ISBN 5-85582-057-2.

14. Калман Р., Фалб П., Арбиб М. Очерки по математической теории систем текст. М.:Едиториал УРСС, 2004. - 400с. - ISBN 5354-00762-3.

15. Кнут Д.Э. Искусство программирования: в 3 т. Т.1. Основные алгоритмытекст. М.: Вильяме, 2002. - 720с. - ISBN 58459-0080-8.

16. Кнут Д.Э. Искусство программирования: в 3 т. Т.2. Получисленные алгоритмы текст. М.: Вильяме, 2005. - 832с. - ISBN 5-8459-0081-6.

17. Коналлен Д. Разработка Web-приложений с использованием ЦМЦтекст. М.: Вильяме, 2001. - 288с. - ISBN 58459-0203-7.

18. Кормен Т.,Лейзерсон Ч.,Ривест Р.ДЦтайн К. Алгоритмы. Построение и анализ текст. М.: Вильяме, 2005. - 1296с. - ISBN 58459-0857-4.

19. Кренке Д. Теория и практика построения баз данныхтекст.- Спб:.Питер, 2005. 864с. - ISBN 5-94723-583-8.

20. Мюллер Р.Д. Базы данных и UML. Проектированиетекст.- М.чЛори, 2002. 420с. - ISBN 5-85582-168-4.

21. Орлов А.И. Прикладная статистика. Учебниктекст. -М:.Экзамен, 2006. 672с. - ISBN 5-472-01122-1.

22. Пятибратов А. П.,Гудыно Л. П.,Кириченко А. А. Вычислительные системы, сети и телекоммуникации текст. -М.:Финансы и статистика,, 2006. 560с. - ISBN 5-279-02779-0.

23. Рамбо Д., Блаха М. UML 2.0. Объектно-ориентированное моделирование и разработкатекст. Спбг.Питер, 2006. - 544с. - ISBN 5-469-00814-2.

24. Резникова Н. П. Маркетинг в телекоммуникацияхтекст. -М:.Эко-Трендз, 2002. 336с. - ISBN 5-88405-024-0.

25. Репин В.В.,Елиферов В.Г. Процессный подход к управлению. Моделирование бизнес-процессовтекст. М:.Стандарты и качество, 2006. - 408с. - ISBN 5-94938-040-1.

26. Розенберг Д.,Скотт К. Применение объектного моделирования с использованием UML и анализ прецедентовтекст. -М:.ДМК пресс, 2002. 160с. - ISBN 5-94074-050-2.

27. Скляр Б. Цифровая связь. Теоретические основы и практическое применение текст. М.: Вильяме, 2004. - 1104с. - ISBN 5-8459-0497-8.

28. Спирли Э. Корпоративные хранилища данных. Планирование, разработка и реализациятекст. М.: Вильяме, 2001. -400с.-ISBN5-8459-0191-Х.

29. Харари Ф. Теория графовтекст. М.:Едиториал УРСС,2003. 296с. - ISBN 5-354-00301-6.

30. Хоббс Л.,Хилсон С.,Лоуенд Ш. Oracle9iR2: разработка и эксплуатация хранилищ баз данных. Практическое пособиетекст. -М.:КУДИЦ-Образ, 2004. 586с. - ISBN 5-9579-0036-2.

31. Чаадаев В.К. Бизнес-процессы в компаниях связитекст. -М:.Эко-Трендз, 2004. 176с. - ISBN 5-88405-064-Х.

32. Adamson С., Venerable М. Data Warehouse Design Solutionstext. New York : Wiley, 1998. - 523p. - ISBN 047125195X.

33. Bakore A., Bhattacharjee D. Professional Apache Tomcattext. Indianapolis, IN : Wrox, 2003. - 53 lp. - ISBN 764543725.

34. Bebel B.,Eder J.,Koncilia C.,Morzy T.,Wrembel R. Creation and management of versions in multiversion data warehouse text. // Proceedings of the 2004 ACM Symposium on Applied Computing (SAC).2004.-pp.717-723.-ISBN 1-58113-812-1.

35. Corr L. Aggregate Improvementselectronic resource./Intelligent Enterprise.-2001.-no. ll.-ISSN 1524-3621.-http://www.intelligententerprise.com/011004/415warehouse ll.jhtml.

36. Czejdo В., Eder J.,Morzy T.,Wrembel R. Design of a Data Warehouse over Object-Oriented and Dynamically Evolving Data Sourcestext. // 12th International Workshop on Database and Expert

37. Systems Applications (DEXA 2001).-2001.-pp.l28-132.-ISBN 0-76951230-5.

38. Darwin I. Java Cookbooktext., Sebastopol, С A : O'Reilly,2004. 879p. - ISBN 596007019.

39. Darwin I. Tomcat: the definitive guidetext. Sebastopol, CA: O'Reilly & Associates, 2003. - 303p. - ISBN 0596003188.

40. Devlin B. Data warehouse: from architecture to implementationtext. Reading, Mass : Addison-Wesley, 1997. - 423p. -ISBN 0201964252.

41. Devlin B.A., Murphy P.T. An Architecture for a Business and Information Systemtext. // IBM Systems Journal.-1988.-vol 27.-no. 1.-pp.72-76. -ISSN 0018-8670;

42. Douglas K.,Douglas S. PostgreSQL : the comprehensive guide to building, programming, and administering PostgresSQL databases text. Indianapolis, Ind.: Sams Pub, 2006. - 1006p. - ISBN 0672327562.

43. Drewek K. Data Warehouse: Bill Inmon's Visionfelectronic resource./Business Intelligence Network.-2005 .-http://www.b-eye-network.com/view/727.

44. Drewek K. Data Warehouse: Ralph Kimball's Visionelectronic resource./Business Intelligence Network.-2005.-http://www.b-eye-network.com/view/713.

45. Drewek K. Data Warehousing: Relational vs. MultiDimensional Dataelectronic resource./Business Intelligence Network.2005.-http://www.b-eye-network.com/view/757.

46. Eder J., Koncilia C. Changes of Dimension Data in Temporal Data Warehousestext. // Data Warehousing and Knowledge Discovery, Third International Conference (DaWaK 200l).-2001.-pp.284-293.-ISBN 3540-42553-5.

47. Eder J., Koncilia C. Incorporating ICD-9 and ICD-10 Data in a Warehouse.text. // 15th IEEE Symposium on Computer-Based Medical Systems (CBMS 2002).-2002.-pp.91-96.-ISBN 0-7695-1614-9.

48. Eder J., Koncilia C. Representing Temporal Data in Non-Temporal OLAP Systemstext. // 13th International Workshop on Database and Expert Systems Applications (DEXA 2002).-2002.-pp.817-821.-ISBN 0-7695-1668-8.

49. Eder J., Koncilia C., Mitsche D. Automatic Detection of Structural Changes in Data Warehouses text. // Data Warehousing and Knowledge Discovery, 5th International Conference (DaWaK 2003).-2003.-pp.l 19-128.-ISBN 3-540-40807-X.

50. Eder J., Koncilia C.,Morzy T. The COMET Metamodel for Temporal Data Warehousestext. // Advanced Information Systems Engineering, 14th International Conference, (CAiSE-2002).-2002.-pp.83-99.-ISBN 3-540-43738-X.

51. Eder J.,Koncilia C.,Mitsche D.: Analysing Slices of Data Warehouses to Detect Structural Modificationstext. // Advanced Information Systems Engineering, 16th International Conference (CAiSE 2004).-2004.-pp.492-505.-ISBN 3-540-22151-4.

52. Eder J.,Koncilia C.,Wiggisser K. A Tree Comparison Approach to Detect Changes in Data Warehouse Structures text. // Data Warehousing and Knowledge Discovery, 7th International Conference (DaWaK 2005).-2005.-pp. 1 -10.-ISBN 3-540-28558-X.

53. Eisenberg A., Melton J. SQL Standardization: TheNext Stepstext. // ACM SIGMOD Record.-2000.-vol. 29.-no. l.-pp.63-67. -ISSN 1055-6338;

54. Gray J. Data Cube: A Relational AggregationOperator Generalizing Group-By, Cross-Tatext. // Data Mining and Knowledge Discovery.-1997.-vol. l.-no. l.-pp.29-54. -ISSN 1384-5810;

55. Hall M. Core servlets and JavaServer Pagestext. Upper Saddle River, NJ : Prentice Hall PTR, 2000. - 575p. - ISBN 0130893404.

56. Hall M. More servlets and Javaserver pagestext. Upper Saddle River, NJ : Prentice Hall, 2002. - 722p. - ISBN 0130676144.

57. Inmon W.H. Building the data warehousetext. Indianapolis, Ind.: Wiley, 2005. - 543p. - ISBN 9780764599446.

58. Inmon W.H. Building the operational data storetext. New York : John Wiley, 1999. - 315p. - ISBN 047132888X.

59. Inmon W.H. Rdb/VMS, developing the data warehousetext. -Boston : QED Pub. Group, 1993. 225p. - ISBN 0894354299.

60. Inmon W.H. Using the data warehousetext. New York : Wiley, 1994. - 285p. - ISBN 0471059668.

61. Inmon W.H., Imhoff C., Sousa R. Corporate information factory text. New York: Wiley, 1998. - 274p. - ISBN 0471197335.

62. Inmon W.H., Zachman J.A., Geiger J.G. Data stores, data warehousing, and the Zachman Framework : managing enterprise knowledge text. New York : McGraw-Hill, 1997. - 358p. - ISBN 0070314292.

63. Kimball R. The 38 Subsystems of ETLelectronic resource./ Intelligent Enterprise.-2004.-no. 4.-ISSN 1524-3621. http://www.intelligententerprise.com/showArticle.jhtml?articleID= 54200319.

64. Kimball R. The data warehouse ETL toolkit : practical techniques for extracting, cleaning, conforming, and delivering datatext. -Indianapolis, IN: Wiley, 2004. 491p. - ISBN 0764567578.

65. Kimball R. The data warehouse lifecycle toolkit : expert methods for designing, developing, and deploying data warehouses text. -New York : Wiley, 1998. 771p. - ISBN 0471255475.

66. Kimball R. The data warehouse toolkit : practical techniques for building dimensional data warehouses text. New York : John Wiley & Sons, 1996. - 388p. - ISBN 0471153370.

67. Kimball R. The data warehouse toolkit: the complete guide to dimensional modelingtext. New York : Wiley, 2002. - 436p. - ISBN 0471200247.

68. Kimball R. The data Webhouse toolkit : building the Web-enabled data warehousetext. New York : John Wiley & Sons, 2000. -401 p. - ISBN 0471376809.

69. Kimball R. A Dimensional Modeling Manifestoelectronic resource./DBMS and Internet Systems.- 1997.-no. 7.-ISSN 1041-5173.-http://www.dbmsmag.com/9708dl5.html.

70. Kimball R. A Dimensional Modeling Manifestotext. // DBMS and Internet Systems.-1997.-vol. l.-no. 8.-pp.90-96. -ISSN 1041-5173;

71. Kimball R. Brave New Requirements for Data Warehousingelectronic resource./Intelligent Enterprise.-1998.-no. 1 l.-ISSN 1524-3621.-http://www.intelligententerprise.eom/dbarea/archives/l 998/ 9810/ warehouse.jhtml.

72. Kimball R. Declaring the Grainelectronic resource./Intelligent Enterprise.-2003.-no. 3.-ISSN 1524-3621.-http://www.intelligententerprise.com/030301/604warehousell.jhtml.

73. Kimball R. Drilling Down, Up, and Acrosselectronic resource./DBMS and Internet Systems.-1996.-no. 3.-ISSN 1041-5173.-http://www.dbmsmag.com/9603d05.html.

74. Kimball R. Fact Tables and Dimension TableseIectronic resource./Intelligent Enteiprise.-2003.-no. l.-ISSN 1524-3621.-http://www.intelligententerprise.com/030101 /602warehouse 11 .jhtml.

75. Kimball R. Help for Dimensional Modelingelectronic resource./DBMS and Internet Systems.-1998.-no. 8.-ISSN 1041-5173.-http://www.dbmsmag.com/9808d05.html.

76. Kimball R. Help for Hierarchieselectronic resource./DBMS and Internet Systems.-1998.-no. 9.-ISSN 1041-5173.-http://www.dbmsmag.com/9809d05.html.

77. Kimball R. Is ER Modeling Hazardous to DSS?electronic resource./DBMS and Internet Systems.-1995.-no. 11.-ISSN 1041-5173.-http ://www.dbmsmag.com/9510d05 .html.

78. Kimball R. Meta Meta Data Dataelectronic resource./DBMS and Internet Systems.-1998.-no. 3.-ISSN 1041-5173.-http://www.dbmsmag.com/9803d05.html.

79. Kimball R. Slowly Changing Dimensionselectronic resource./DBMS and Internet Systems.-1996.-no. 4.-ISSN 1041-5173.-http://www.dbmsmag.com/9604d05.html.

80. Kimball R. Slowly changing dimensionsftext. // DBMS and Internet Systems.-1996.-vol. l.-no. 4.-pp.80-84. -ISSN 1041-5173;

81. Kimball R. Spatial Enabling Your Data Warehousefelectronic resource./Intelligent Enterprise.-200 l.-no. l.-ISSN 1524-3621.-http://www.intelligententeфrise.com/010101/webhouse 1 1 .jhtml.

82. Kimball R. The Matrixfelectronic resourcej/Intelligent Enterprise.-1999.-no. 12.-ISSN 1524-3621.-http://www.intelligententerprise.com/dbarea/archives/1999/990712/webhou se.jhtml.

83. Kimball R. The Soul of the Data Warehouse, Part 3: Handling Timeelectronic resource./Intelligent Enterprise.-2003.-no. 4.-ISSN 15243 621. -http ://www.intelligententerprise.com/03 0422/607warehouse 1 1 .j html.

84. Kimball R. The Soul of the Data Warehouse, Part One: Drilling Downelectronic resource./Intelligent Enterprise.-2003.-no. 4.-ISSN 1524362 l.-http://www.intelligententeфrise.corn/030320/605warehouse 11.jhtml.

85. Kimball R. The Soul of the Data Warehouse, Part Two: Drilling Acrosselectronic resourcej/Intelligent Еп1еф118е.-2003.-по. 4.-ISSN 1524362 l.-http://www.intelligententeфrise.com/030405/606warehousell.jhtml.

86. Kimball R. Warehousing Without Borderselectronic resource./Intelligent Enterprise.- 1999.-no. 3.-ISSN 1524-362 l.-http:// www.iemagazine.com/dbarea/archives/1999/990903/warehouse.jhtm.l

87. Kimball R. When A Slowly Changing Dimension Speeds Upelectronic resource./Intelligent Enterprise.- 1999.-no. ll.-ISSN 15243621 .-http://www.iemagazine.com/dbarea/archives/1999/990308/ warehouse.jhtml.

88. Koncilia C. A Bi-Temporal Data Warehouse Modeltext. // The 15th Conference on Advanced Information Systems Engineering (CAiSE 2003).-2003.-pp.217-220.-ISBN 86-435-0549-8.

89. Malinowski E., Zimanyi E. A Conceptual Solution for Representing Time in Data Warehouse Dimensionselectronic resource./Proc. of the 3rd Asia-Pacific Conference on Conceptual Modelling (APCCM-2006).-2006.-http://cs.ulb.ac.be/publications/P-06-02.pdf.

90. Malinowski E., Zimanyi E. Hierarchies in a Multidimensional Model: From Conceptual Modeling to Logical Representation.electronic resource./Data and Knowledge Engineering.-2006.-http://cs.ulb.ac.be/publications/P-05-10.pdf.

91. Malinowski E., Zimanyi E. Inclusion of Time-varying Measures in Temporal Data Warehouses electronic resource./Proc. of the 8th Int. Conf. on Enterprise Information Systems.-2006.-http://cs.ulb.ac.be/publications/P-06-04.pdf.

92. Momjian B. PostgreSQL : introduction and conceptstext. -Boston, MA : Addison-Wesley, 2001. -46 lp. ISBN 0201703319.

93. Mundy J. Smarter Data Warehouseselectronic resource./Intelligent Enterprise.-2001.-no. 2.-ISSN 1524-3621,-http://www.intelligententerprise.eom/010216/webhouse 11 .jhtml.

94. Pendse N. Company resultselectronic resource./The OLAP Report.-2006.-http://www.olapreport.com/results.htm.

95. Pendse N. Database explosionelectronic resource./The OLAP Report.-2005.-http://www.olapreport.com/DatabaseExplosion.htm.

96. Pendse N. Market segment analysiselectronic resource./The OLAP Report.-2005.-http://www.olapreport.com/Segments.htm.

97. Pendse N. Multidimensional data structures electronic resource./The OLAP Report.-2001.-http://www.olapreport.com/MDStructures.htm.

98. Pendse N. OLAP applicationselectronic resource./The OLAP Report.-2005.-http://www.olapreport.com/Applications.htm.

99. Pendse N. OLAP architectureselectronic resource./The OLAP Report.-2006.-http://www.olapreport.com/Architectures.htm.

100. Pendse N. OLAP Glossaryelectronic resource./The OLAP Report.-2005.-http://www.olapreport.com/glossary.htm.

101. Pendse N. The OLAP Survey 5 electronic resource./The OLAP Survey.-2005.-http://www.olapreport.com/survey.htm.

102. Pendse N. The origins of today's OLAP productselectronic resource./The OLAP Report.-2005.-http://www.olapreport.com/origins.htm.

103. Pendse N. What is OLAP?electronic resource./The OLAP Report.-2005.-http://www.olapreport.com/fasmi.htm.

104. Pendse N. What's in a name?electronic resource./The OLAP Report.-2002.-http://www.olapreport.com/name.htm.

105. Ross M. The Matrix: Revisitedelectronic resource./Intelligent Enterprise.-2005. -no.l. -ISSN 1524-362 l.-http:// www.inteIligententerprise.com/showArticle.jhtmI?articIeID=l 74300383.

106. Ross M., Kimball R. Surrounding the ETL Requirements electronic resource./Intelligent Enterprise.-2004.-no. 13.-ISSN 1524-3621 .-http://www.intelligententerprise.com/infocenters/ datawarehousing/showArticle.jhtml?articleID=51201335.

107. Silverston, L., Inmon, W., Graziano, K., The data model resource book : a library of logical data models and data warehouse designs text. New York : Wiley, 1997. - 355p. - ISBN 0471153648.

108. Stinson B. PostgreSQL essential reference text., -Indianapolis : New Riders, 2001. 371p. - ISBN 0735711216.

109. Tanase G. Asymmetric Aggregationfelectronic resource./Intelligent Enterprise.-2002.-no. 3.-ISSN 1524-3621.-http://www.intelligententerprise.com/020328/506warehousell.jhtml.

110. Tanase G. Real-Life Data Mart Processingfelectronic resource./Intelligent Enterprise.-2002.-no. 3.-ISSN 1524-3621.-http://www.intelligententerprise.com/020308/505warehousell.jhtml.

111. Thomsen E. OLAP solutions : building multidimensional information systemstext. New York : Wiley Computer Pub, 1997. -576p. - ISBN 0471149314.

112. Thomsen E. OLAP solutions : building multidimensional information systems text. New York : Wiley Computer Pub, 2002. -661p. - ISBN 0471400300.

113. Thomsen E., Spofford G., Chase D. Microsoft OLAP solutionsftext. New York : Wiley, 1999. - 509p. - ISBN 0471332585.

114. Thornthwaite W. Get Started With Data Mining Nowfelectronic resource./Intelligent Enterprise.-2005.-no. l.-ISSN 15241323621.-http://wwwлntelligententeфrise.com/infocenters/datawarehousing/ sh owArti cl e.j html ?arti cl eID=171000647.

115. Thornthwaite W. Measure Twice, Cut Onceelectronic resource./Intelligent Enterprise.-2003.-no. 10.-ISSN 1524-3621.-http://www.intelligententerprise.com/031210/619warehouse 1 1 .jhtml?/data warehousing|ware.

116. Vassiliadis P. Sellis T. A Survey of Logical Modelsfor OLAP Databases text. // ACM SIGMOD Record.-1999.-vol. 28.-no. 4.-pp.64-69. -ISSN 1055-6338;

117. Winter R. Databases: Back in the OLAP Gametext. // Intelligent Enterprise.-1998.-vol. l.-no. 4.-pp.60-64. -ISSN 1524-3621;

118. Wrembel R,Morzy T. Managing and Querying Versions of Multiversion Data Warehouse text. // Advances in Database Technology (EDBT 2006).-2006.-pp.l 121-1124.-ISBN 3-540-32960-9.