автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Алгоритмы проектирования систем многомерного анализа данных, основанных на OLAP технологии

кандидата технических наук
Семченков, Сергей Юрьевич
город
Рязань
год
2010
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритмы проектирования систем многомерного анализа данных, основанных на OLAP технологии»

Автореферат диссертации по теме "Алгоритмы проектирования систем многомерного анализа данных, основанных на OLAP технологии"

004610143 На правах рукописи

СЕМЧЕНКОВ Сергей Юрьевич

АЛГОРИТМЫ ПРОЕКТИРОВАНИЯ СИСТЕМ МНОГОМЕРНОГО АНАЛИЗА ДАННЫХ, ОСНОВАННЫХ НА OLAP ТЕХНОЛОГИИ

Специальность 05.13.11. «Математическое обеспечение вычислительных машин, комплексов и компьютерных сетей»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

-7 0КТ 2010

Рязань 2010

004610143

Работа выполнена на кафедре вычислительной и прикладной математики ГОУВПО «Рязанский государственный радиотехнический университет»

Научный руководитель: доктор технических наук, профессор

Каширин Игорь Юрьевич

Официальные оппоненты: доктор технических наук, профессор

Шибанов Александр Петрович

кандидат технических наук, доцент Швечков Виталий Александрович

Ведущая организация: ОАО "Корпорация "Фазотрон-НИИР" -

НИИ "Рассвет"

Защита состоится 20 октября 2010 г. в 12 часов на заседании диссертационного совета Д212.211.01 в Рязанском государственном радиотехническом университете по адресу: 390005, г. Рязань, ул. Гагарина, 59/1.

С диссертацией можно ознакомиться в библиотеке ГОУВПО «РГРТУ».

Автореферат разослан « 15 » сентября 2010 г.

Отзывы на автореферат в двух экземплярах, заверенные печатью организации, просим направлять по адресу: 390005, г. Рязань, ул. Гагарина, 59/1, Рязанский государственный радиотехнический университет.

Ученый секретарь диссертационного совета

канд. техн. наук, доцент

В.Н. Пржегорлинский

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Современный уровень развития аппаратных и программных средств сделал возможным повсеместное ведение баз данных оперативной информации на разных уровнях управления предприятием. Однако накопления оперативной информации недостаточно для получения релевантной информации, позволяющей руководителю принимать важные управленческие решения и формировать стратегию развития предприятия на основе ключевых показателей. Решение этой проблемы видится ученым во внедрении OLAP технологии. OLAP - технология обработки информации, позволяющая агрегировать информацию из нескольких источников данных в виде многомерных представлений, а также выполнять аналитические запросы пользователя, включая составление и динамическую генерацию отчетов.

Суть этой технологии заключается в формировании единого источника информации, содержащего согласованные и непротиворечивые данные, полученные в ходе извлечения, преобразования и переработки данных из баз данных, содержащих накопленную к текущему моменту оперативную информацию. Как правило, OLAP системы содержат не все данные из систем оперативной обработки данных, а только те, которые имеют отношение к основным ключевым показателям, характеризующим деятельность предприятия. Весомые результаты в работах по OLAP системам связаны с такими учеными, как Н. Караянидис, Д. Педерсен, Р. Агравал, М. Гольфарелли, Р. Торлоне, Д. В. Ивлев, П. П. Ишенин, А.К. Дорожкин.

В рамках OLAP технологии различными группами специалистов разработано большое количество программных продуктов, реализующих многомерную модель данных. Среди этих продуктов можно выделить OLAP Option to Oracle Database фирмы Oracle, Microsoft Analysis Services фирмы Microsoft, Palo фирмы Jedox, Mondrian фирмы Pentaho. Удобство использования конечной системы, ее масштабируемость, производительность и функциональность зависят от средств, предназначенных для автоматизированного проектирования такого рода систем. Опыт разработки систем и эксплуатации реальных продуктов для автоматизированного проектирования позволил выявить следующие проблемы, решение которых является наиболее актуальным.

1. Отсутствие адаптивной подстройки под конкретного пользователя. Аналитические системы, созданные на базе OLAP технологии, строятся на основе предметно-ориентированного подхода, то есть для решения конкретных задач пользователя. При первоначальном проектировании аналитической системы невозможно учесть все интересы пользователей, что приводит к созданию избыточных для конкретного пользователя структур хранения данных. Несмотря на большое количество отчетов, получаемых с помощью OLAP технологии, пользователя, в зависимости от текущей ситуации, интересует ограниченный набор срезов. Существующие системы не учитывают это

обстоятельство, в результате чего время, необходимое для принятия решения, существенно увеличивается.

2. Существенное снижение производительности системы и спад масштабируемости при увеличении числа пользователей. Под масштабируемостью будем понимать функцию, описывающую зависимость характеристики производительности (время выполнения запроса, пропускная способность) от размеров системы (количества оборудования, объема хранения данных, количества поступающих запросов). Применение OLAP технологии решает проблему невысокой производительности систем оперативной обработки данных при выполнении запросов на выборку из большого количества таблиц. Однако количество пересылаемых данных в клиент-серверной архитектуре аналитических систем остается большим, что приводит к резкому увеличению времени выполнения запроса при увеличении количества запросов пользователей.

На основании сказанного можно сделать вывод об актуальности выбранной темы диссертационной работы.

Цель диссертационной работы состоит в разработке и исследовании формализмов, позволяющих уменьшить время выполнения запросов пользователя за счет адаптивной подстройки системы под изменяющиеся интересы пользователя.

Для достижения поставленной цели необходимо решить следующие основные задачи.

1. Разработка математического формализма, позволяющего адекватно описывать гиперкубы OLAP систем и операции над многомерными кубами.

2. Разработка алгоритмов преобразования многомерного куба к регулярной структуре для автоматизации внесения корректных изменений в гиперкуб.

3. Разработка модели пользователя, позволяющей учитывать интересы различных групп пользователей, выделяя для них соответствующие подкубы.

4. Разработка алгоритма декомпозиции многомерного куба на основе предложенных формализмов.

5. Разработка новой архитектуры OLAP систем, учитывающей принципы декомпозиции и кластеризации данных на основе пользовательских интересов.

6. Программная реализация алгоритмов проектирования систем многомерного анализа данных.

Методы исследования. Разработка и исследование проводились с использованием теории алгебраических систем, теории реляционных баз данных, методов объектно-ориентированного проектирования.

Научная новизна работы состоит в следующем.

1. Разработана новая математическая модель систем многомерного анализа данных на основе понятий базового и многомерного куба. Основным преимуществом модели является произвольная последовательность выполнения операций без необходимости выполнения объединения с другими кубами.

2. Разработаны алгоритмы преобразования многомерного куба к регулярной структуре, позволяющие выполнять корректное вычисление агрегированных показателей, избегая множественного наследования.

3. Разработан алгоритм иерархической декомпозиции многомерных кубов, предназначенный для автоматизации проектирования OLAP систем и оптимизации их структуры.

4. Разработана модель пользователя OLAP систем, с помощью которой можно определить общие интересы группы пользователей, составив для них унифицированную концептуальную иерархию потребностей.

5. Разработана новая архитектура OLAP систем. Основным преимуществом архитектуры является снижение количества запросов пользователей к центральному серверу и сокращение времени выполнения запросов пользователя.

Практическая значимость. На основе разработанных теоретических результатов были получены алгоритмы проектирования регулярных структур многомерной модели данных, а также разработаны принципы комбинированного выполнения запросов к OLAP серверу. Эффект от внедрения этих принципов выражается в сокращении интенсивности запросов к центральному серверу до 30 % и уменьшении времени выполнения запросов пользователя в среднем на 40 %. Результаты диссертации нашли отражение в реальной программной системе CuDBIS v. 1.02, предназначенной для оптимизации структуры многомерного куба.

Апробация результатов диссертации. Основные результаты диссертационной работы были представлены на следующих конференциях.

1. МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». Рязань, РГРТА, 2005 г.

2. МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». Рязань, РГРТУ, 2008 г.

3. Всероссийская НТК «Новые информационные технологии в научных исследованиях и образовании». Рязань, РГРТУ, 2008 г.

4. Всероссийская НМК «Методы обучения и организация учебного процесса в вузе». Рязань, РГРТУ, 2009 г.

5. Всероссийская заочная НТК «Информационные технологии в науке, проектировании и производстве». Нижний Новгород, 2009 г.

6. Всероссийская НПК «Информационные технологии в науке, экономике и образовании». Бийск, Бийский технологический институт, 2009 г.

7. Всероссийская НТК «Научная сессия ТУСУР-2009». Томск, Томский государственный университет систем управления и радиоэлектроники, 2009 г.

Публикации. По теме диссертации было опубликовано 14 работ, из них 7 тезисов докладов международных и всероссийских конференций, 4 статьи в межвузовских сборниках, 2 статьи в журналах из списка ВАК, одно свидетельство об официальной регистрации программы.

Внедрение результатов работы. Результаты исследования внедрены в форме информационно-аналитического интернет-сервиса в ООО «Интертех», специализирующемся на продаже потребительской электроники, аудио-, видео- и бытовой техники, а также в учебный процесс ГОУВПО «Рязанский государственный радиотехнический университет».

ОСНОВНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ

1. Новый формализм описания многомерных кубов OLAP систем на основе понятия «базового куба».

2. Алгоритм иерархической декомпозиции многомерного куба OLAP систем.

3. Алгоритм устранения несбалансированности иерархии измерений

куба.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность выбора темы диссертации, формулируется цель исследований, научная новизна и практическая ценность основных результатов.

В первой главе «Проблема адаптивного анализа данных в OLAP технологии» формулируются цели и задачи OLAP технологии как инструмента для агрегирования данных из нескольких источников и динамической генерации отчетов.

Рассмотрены основные понятия OLAP систем, проведена их классификация. В зависимости от способа организации данных в многомерных кубах выделяют следующие виды систем.

1. MOLAP системы - исходные и агрегированные данные хранятся в многомерных структурах. 2. ROLAP системы - исходные данные хранятся в реляционной БД, а агрегированные - в служебных таблицах той же БД. 3. HOLAP системы - гибридная архитектура, объединяющая ROLAP и MOLAP. Для каждого способа приведено краткое описание, указаны достоинства и недостатки.

Приведены основные требования к OLAP системам, рассмотрены различия OLAP и OLTP систем, приводящие к необходимости наличия отдельной многомерной СУБД, интегрирующей данные из внешних источников и обрабатывающей аналитические запросы пользователей системы.

Проанализированы существующие подходы к формальному описанию OLAP систем. Рассмотрены следующие формальные модели: модель Аграва-ла, модель Ли, Ванга, модель Датга, Томаса, модель Гиссенса, модель Кабби-бо-Торлоне. Для всех моделей приведено описание представления структуры элементов многомерной модели и операций над многомерным кубом. Подробно рассмотрены наиболее распространенные программные реализации

технологии аналитической обработки данных: OLAP Option to Oracle Database фирмы Oracle, Microsoft Analysis Services фирмы Microsoft, Palo фирмы Jedox, Mondrian фирмы Pentaho, Cognos TM1 фирмы IBM.

Отсутствие учета аномалий, возникающих в иерархии измерений, приводит к некорректному вычислению агрегированных показателей. Кроме того, перечисленные модели предполагают однородность многомерного пространства с точки зрения пользователя. Отсутствие учёта интересов пользователя приводит к невозможности дополнительной оптимизации производительности.

На основе проведенного анализа сформулированы цель и задачи диссертации.

Во второй главе «Формальное описание адаптивных OLAP систем» разрабатывается формализм гиперкубов OLAP систем, позволяющий адекватно описывать и преобразовывать многомерные кубы для последующего их использования в информационных аналитических системах.

Множество-носитель всех гиперкубов Л представляется в виде декартова произведения множеств: A = QxlPxVxY, где 0 - множество всех измерений многомерного пространства, У - множество возможных уровней всех измерений, V - множество возможных значений всех измерений, Y — множество возможных значений всех ячеек многомерного куба. Связи между подмножествами множества-носителя задаются с помощью бинарных и тернарных отношений, соответствия выражаются с помощью сечений отношений.

Основным элементом модели является базовый куб, содержащий наиболее детализированные данные. Базовый куб Сь может быть представлен системой кортежей (Db,Lb,Rb) :

1)Db=<Dbl,Db2,...,Dbq,Mb> - кортеж измерений, DbieriPl(A),

i=l...q,MbeПр](Л), где Мь' - измерение, представляющее показатель куба;

2)Lb =(DLbj,DLb2,...,DLbq,MLb) - кортеж уровней измерений,

DLbjenp2(A),i = l...q,MLbenp2(A), где MLb' - это уровень измерения показателя куба;

3) Rb - множество значений ячеек куба в виде кортежей x=(vj,v2,...,vq,mx) ,где ^бПрз(Л)Д=1...я,тхеПр4(Л).

Многомерный куб С может быть представлен системой кортежей <Cb,D,L,R>.

1. Cb - это базовый куб.

2. D = (Di,D2,...,Dn,M) - кортеж измерений куба, n<q,DçDb.

М' - это измерение показателя куба.

3. L=(DLj,DL2,...,DLn,ML) - кортеж уровней измерений. ЬсПр2(Л).

4. R - это множество значений ячеек куба в виде кортежей х =<v1, v2„.., vq> mx), R сПР(з)4)(Л).

Для получения информации из базы данных посредством гиперкуба используются соответствующие операции. Все операции над многомерными кубами можно разбить на простейшие — повышение уровня, применение функции, проекция, выборка - и операции, основанные на базе простейших, -навигация и срез. Аргументами каждой из операций являются исходный куб и куб-шаблон, задающий параметры операции. Результатом операции является новый куб C^OperationiQC17), где Operation - выполняемая операция. Рассмотрим операции более подробно.

1. Операция повышения уровня С'=<р(С,О?) заключается в том, что значения измерений, уровень которых необходимо повысить, заменяются значениями, соответствующими более высокому уровню этих измерений, значения остальных измерений не изменяются.

2. Операция применения функции С'=в(С, С17) состоит в получении агрегированных значений на основе детализированных с помощью функции агрегации.

3. Операция проекции С'=ж(С, Са) - это удаление измерения из многомерного куба при сохранении измерения в базовом кубе.

4. Операция выборки С'=р(С,Са) позволяет выделить подмножество из исходного многомерного куба.

5. Операция навигации С'=7(С,С£Г) = 0(^С,С<71),Сст2) является операцией, основанной на базе простейших операций. Навигация - это изменение уровня выбранного измерения с последующей генерацией нового куба с использованием операции применение функции.

6. Операция среза С'=Са) = в(л(С, CaV), С72) - это удаление выбранного измерения с последующей агрегацией измерений с использованием выбранной пользователем функции агрегации.

Для преобразования многомерных кубов к оптимизированным формам разработана операция иерархической декомпозиции. Декомпозиция куба основана на разбиении куба на подкубы в соответствии с иерархией измерений. Декомпозиция применима только к кубу или подкубу, содержащему наиболее детализированные данные. Алгоритм декомпозиции состоит из следующих основных этапов.

1. Нумерация всех вершин всех измерений многомерного куба.

Принцип нумерации должен поддерживать отношение «родитель-потомок». Это означает, что должно существовать отображение, которое индексу каждой вершины иерархии ставит в соответствие индекс родительской вершины. Принцип нумерации должен быть одинаков для всех измерений.

2. Сортировка измерений по убыванию количества уровней. Результатом этого этапа является кортеж, содержащий в отсортированном виде (по убыванию) количество уровней всех измерений. Количество этапов декомпозиции определяется наибольшим количеством уровней среди всех измерений многомерного куба.

3. Разбиение отсортированного кортежа, полученного на предыдущем этапе, на подмножества кортежей, содержащих одинаковые элементы. Мощность каждого подмножества будет определять количество измерений, по которым будет происходить декомпозиция.

4. На каждом этапе декомпозиции для каждого измерения, по которому проводится декомпозиция, определяется количество составных частей этого измерения в соответствии с количеством значений на текущем уровне измерения. Под разбиением измерения на составные части понимается выделение подмножества значений этого измерения. На основании разбиения измерения можно определить количество подкубов, получаемых на каждом этапе декомпозиции.

5. Построение множества подкубов, являющихся результатом декомпозиции, на измерениях с ограниченным (в соответствии с предыдущим этапом) количеством элементов.

Для получения корректных результатов при агрегировании недостаточно введения понятия базового куба и определения многомерного куба через базовый. Иерархическая структура каждого измерения многомерного куба должна удовлетворять следующим требованиям:

1) все измерения многомерного куба должны быть попарно независимы, а показатель должен полностью определяться набором значений терминальных уровней иерархий измерений;

2) запрещается неполнота иерархий всех измерений;

3) в многомерном кубе не должно быть несбалансированных иерархий;

4) в многомерном кубе должно отсутствовать множественное наследование в иерархии измерения.

Декомпозиция многомерного куба дает возможность построения модели пользователя OLAP систем, учитывающей его интересы и потребности. Пространство интересов пользователя можно представить с помощью концептуальной иерархии потребностей. Концептуальная иерархия представляет собой множество понятий, упорядоченных с помощью древовидной структуры.

Отображением концептуальной иерархии потребностей в многомерной модели является многомерный куб интересов пользователя. Измерениями многомерного куба интересов служат понятия, являющиеся терминальными вершинами в концептуальной иерархии потребностей пользователя, а также

дополнительное временное измерение. Показателем многомерного куба интересов является количество переходов пользователя к конкретной потребности. Интересы каждого пользователя представляются в виде динамически

изменяющегося во времени n-мерного куба.

Для каждого интересующего пользователя понятия можно определить функцию потребности k-го пользователя fk(t,d;) как ранг интереса, изменяющийся во времени. Аргументами функции потребности являются конкретный момент времени t и интересующая пользователя потребность, соответствующая терминальной вершине концептуальной иерархии потребностей. Рассматривая функцию потребности во времени, для каждого k-го пользователя можно составить пространство интересов, состоящее из функций потребностей:

ISk={fk(t,d1),ficCt,d2),...,fk(t,d|),..:},

me IS (interest spacc) - пространство интересов k-го пользователя. Сформировать соответствующий интересам конкретного пользователя многомерный куб можно с помощью операций выборки, проекции и композиции многомерных кубов.

Из различных поддеревьев можно получить одну унифицированную концептуальную иерархию, отражающую обобщенные интересы группы пользователей. Для кластеризации интересов пользователей используется представление кластера в виде гистограммы, показывающей количество вхождений каждого интереса пользователя в кластер (рис. 1).

Пусть требуется выполнить кластеризацию

I I I

а кубов интересов {Cj,C2,...,Cn}. Куб можно представить в виде множества интересов {р1,р2,...,рт}. Тогда кластеризация заключается в нахождении множества {Ci,C2,...,Ck} такого, что

quc'2u...uc;={ci,c2,...,cn},

причем Cj*0(i = l...k), С- r\Cj = 0,l<i<k,l< j<k,i^ j .

Для каждого кластера V можно определить следующие характеристики: 1) W(V) - ширина кластера, равная в данном случае мощности множества уникальных потребностей каждого пользователя; 2) F(V, р) - количество вхождений элемента р в кластер V; 3) S(V) - площадь гистограммы кластера, равная сумме количеств каждого элемента кластера £ F(V,p,), где

Pi€U(V)

U(V) - множество уникальных интересов; 4) H(V) - высота кластера, равная отношению площади к ширине: H(V)=S(V)AV(V); 5) градиент кластера -

F(V,p/)

р, р2

интересы пользователя

W(V)

Рис. 1. Гистограмма кластера

в(У)=Н(У) / \"/(У) =Б(У) / \У2(У). Градиент кластера-это характеристика, с помощью которой можно осуществить сравнение нескольких разбиений, причем большее значение градиента означает лучшее разбиение.

Формула для вычисления глобальной функции стоимости имеет следующий вид:

1=1

Параметр г - коэффициент отталкивания, который регулирует уровень сходства кубов интересов пользователей внутри кластера.

Коэффициент отталкнвагшя г подбирается пользователем, при этом чем больше г, тем меньше уровень сходства, что соответствует большему количеству кластеров. Процесс кластеризации заключается в создании новых кластеров или добавлении новых кубов интересов в один из существующих кластеров, а критерием выбора конкретного действия является максимизация значения глобальной функции стоимости.

Рис. 2. Интеграция поддеревьев интересов

В третьей главе «Автоматизированное проектирование и оптимизация многомерных структур в OLAP системах» на основе предложенных формализмов разработаны архитектура и алгоритмы адаптивных OLAP систем с учетом принципов декомпозиции и кластеризации данных на основе пользовательских интересов.

Для декомпозиции измерений используется следующий принцип нумерации значений измерения. Вершины самого верхнего уровня, соответствующие наиболее агрегированным данным, будем обозначать одним индексом, причем нумерация начинается с нуля. Вершины, находящиеся на следующем уровне иерархии, обозначаются двумя индексами, разделенными точкой. При этом первый индекс совпадает с индексом родительской вершины, а нумерация второго индекса начинается с нуля. Вершины третьего уровня будут обозначаться тремя индексами, соответствующими предкам на первом и втором уровнях и т.д. Схема алгоритма декомпозиции представлена на рис. 3. Для проверки несбалансированности иерархии будем пользоваться условием неравенства нулю количества терминальных вершин.

(1) (2) (3)

(4)

На основе концептуальных иерархий потребностей всех пользователей можно с помощью интеграции разнородных деревьев определить общие интересы различных групп пользователей (рис. 2).

Схема алгоритма приведения иерархии к сбалансированной приведена на рис. 4.

Этот алгоритм приводит иерархию конкретного измерения И; к сбалансированному виду путем искусственного добавления потомков ко всем нетерминальным вершинам, не принадлежащим последнему уровню иерархии.

^Начало^

! Исходные параметры: db - имя БД; cubo - имя куба; {lags - флаги декомпозиции; level_end - конечный уровень при частичной декомпозиции/

Получение списка измерений cube_d¡ms для куба cube

w / k=cube_d¡ms[1],\_ \ cube_dims[n] /

Получение количества уровней numlevels[k] для кч-о измерения

Сортировка количества уровней numlevels_dec_ún

I Определение количества измерений, участвующих в декомпозиции на каждом этапе, - ¿ес^ерБ

Добавить в d¡ms_dec_steps[k] имя исходного измерения из leveis_dec_on[,sortecT)

Рис. 3. Схема алгоритма декомпозиции многомерного куба

Добавление потомков в данном случае является рекурсивным, то есть к нетерминальной вершине добавляется один потомок, к которому, в свою очередь добавляется еще одна вершина в качестве потомка и т.д. Процесс добавления потомков будет завершен после добавления (Сеч^ к потомков,

где I Сеч^ ) I - общее количество уровней в иерархии, к - номер уровня

вершины, из-за которой образовалась несбалансированность иерархии. Для устранения аномалии множественного наследования используется

Рис. 3 (окончание). Схема алгоритма декомпозиции многомерного куба

присоединенный куб. Идея присоединенного куба состоит в том, что ячейки этого куба содержат значения некоторых измерений. Присоединенный куб состоит из трех измерений: разделяемое измерение, классификационное измерение и ссылочное измерение. Разделяемое измерение является общим для присоединенного куба и того многомерного куба, к которому относится данный многомерный куб. Такая конструкция удобна тем, что позволяет обеспечить автоматическое добавление, обновление и удаление элемента измерения многомерного куба. Классификационное измерение присоединенного куба позволяет классифицировать или ранжировать свойства сущностей,

Рис. 4. Схема алгоритма устранения несбалансированности иерархии

относящихся к разделяемому измерению.

Ссылочное измерение определяет одно или несколько измерений, значения индексов которых будут находиться в ячейках присоединенного куба.

Общая структура алгоритма устранения аномалии множественного наследования состоит из пяти шагов:

1) формирование копии разделяемого измерения;

2) проведение изменений по устранению аномалии над оригиналом разделяемого измерения;

3) формирование значений классификационного и ссылочного измерений;

4) построение и заполнение присоединенного куба на основании информации, полученной из сохраненной копии разделяемого измерения, а также результатов выполнения двух предыдущих шагов;

5) удаление копии разделяемого измерения.

Присоединенный куб формируется на основе преобразованного разделяемого измерения, не содержащего аномалий. Для заполнения ячеек присоединенного куба может использоваться информация о начальной структуре

«

иерархии, поэтому необходимо формирование копии разделяемого измерения. Разрешение аномалии может осуществляться двумя способами.

1. Создание отдельной родительской вершины для значения измерения, которое вызывает аномалию. В этом случае пользователю необходимо самостоятельно сформировать элементы классификационного измерения. В качестве значений ячеек многомерного куба указывается индекс, который выражает взаимосвязь между различными вершинами разделяемого измерения.

2. Выделение приоритетной родительской вершины для значения измерения, которое вызывает аномалию. В этом случае классификационное измерение формируется на основе альтернативных иерархий. В качестве значений ячеек многомерного куба указывается индекс родительской вершины, который выражает отношение принадлежности к альтернативным классификациям.

В четвертой главе «Принципы программной реализации адаптивных систем автоматизированного проектирования многомерного анализа данных в программной системе CuDBIS» для исследования и сравнительного анализа предложенных формализмов и алгоритмов разработан программный комплекс CuDBIS (Cube Decomposition Based on Interest Space - декомпозиция куба, основанная на пространстве интересов).

Эксперименты проводились в организации ООО «Интертех», торгующей бытовой техникой. Результаты экспериментов представлены на рис. 5,6.

В ходе экспериментов было зафиксировано снижение количества запросов в единицу времени к центральному серверу до тридцати процентов. Снижение количества запросов к центральному серверу произошло вследствие того, что запросы пользователей, попадающие в область куба интересов пользователя, обрабатываются локально. Аналитическая обработка данных при использовании локального сервера происходит существенно быстрее, так как локальный многомерный куб, построенный на базе куба интересов, не содержит лишних для этого пользователя срезов и измерений. Время выполнения запроса пользователя уменьшилось в среднем на сорок процентов. Уменьшение времени выполнения запроса можно объяснить наличием локально обрабатываемых запросов. Уменьшение количества запросов к центральному серверу приводит к снижению нагрузки на него, а следовательно, к уменьшению времени выполнения запроса и для тех пользователей, для которых оптимизации не применяются.

Интенсивность

Рис. 5. Зависимость средней интенсивности запросов к серверу от

времени

Среднее время выполнения одного запроса, с

7

- Среднее время выполнения запроса без применения оптимизации, с

- Среднее время выполнения запроса с применением оптимизации, с

Интенсивность

6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 16000 17000 запросов

Рис. 6. Зависимость среднего времени выполнения запроса от количества запросов в единицу времени

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Проведен сравнительный анализ современных подходов к формальному описанию OLAP систем. Приведена классификация программных продуктов, реализующих технологию многомерного анализа данных. Разработана новая математическая модель систем многомерного анализа данных на основе понятий базового и многомерного куба. Основным преимуществом модели является произвольная последовательность выполнения операций без необходимости выполнения объединения с другими кубами. Проанализированы и показаны на конкретных примерах оптимизирующие и структурирующие свойства операций для преобразования гиперкубов.

2. Разработаны алгоритмы преобразования многомерного куба к регулярной структуре: определения неполноты иерархии, устранения аномалий несбалансированности и множественного наследования. Указанные алгоритмы позволяют выполнять корректное вычисление агрегированных показателей.

3. Разработан алгоритм иерархической декомпозиции многомерных кубов, предназначенный для автоматизации проектирования OLAP систем и оптимизации их структуры, а также позволяющий эффективно выполнять запросы, содержащие ограничения на значения измерений. Предложенный алгоритм предоставляет возможность построения модели пользователя OLAP систем, учитывающей его интересы и потребности.

4. Рассмотрены вопросы кластеризации пользователей по интересам, разработана модель пользователя OLAP систем, с помощью которой можно определить общие интересы группы пользователей, составив для них унифицированную концептуальную иерархию потребностей. Этим достигается оптимизация запросов, связанных с построением срезов, по времени.

5. Разработана новая архитектура OLAP систем, учитывающая принципы декомпозиции и кластеризации данных на основе пользовательских интересов, а также позволяющая производить реструктуризацию иерархической структуры для устранения аномалий в ней. Основным преимуществом архитектуры является снижение количества запросов пользователей к центральному серверу и сокращение времени выполнения запросов пользователя.

6. Определены условия применимости комбинированной схемы с центральным и локальными серверами. Получено экспериментальное подтверждение эффективности декомпозиции многомерного куба, основанной на интересах пользователя, и клиент-серверной архитектуры с комбинированным исполнением запросов. Эффект от внедрения выражается в сокращении интенсивности запросов к центральному серверу до 30 % и уменьшении времени выполнения запросов пользователя в среднем на 40 %.

ПУБЛИКАЦИИ ПО ОСНОВНЫМ РЕЗУЛЬТАТАМ ДИССЕРТАЦИИ

1. Семченков С.Ю. Вопросы использования OLAP систем для анализа информации // Проблемы передачи и обработки информации в сетях и системах телекоммуникаций: материалы 14-й международной научно-технической конференции (Рязань, 6-8 декабря 2005 г.). - Рязань, 2005. - С. 179-180.

2. Семченков С.Ю. Вопросы организации промежуточной области хранения для OLAP систем // Математическое и программное обеспечение вычислительных систем. - 2008. - С. 139-143.

3. Семченков С.Ю. Особенности применения OLAP систем: проблемы и актуальные подходы // Математическое и программное обеспечение вычислительных систем. - 2006. - С. 83-86.

4. Каширин И.Ю., Семченков С.Ю. Интерактивная аналитическая обработка данных в современных OLAP-системах // Журнал «Бизнес-информатика». Москва, 2009. - № 8(02). - С. 12-19.

5. Семченков С.Ю. Принципы реализации иерархической структуры измерений в OLAP системах // Математическое и программное обеспечение вычислительных систем. - 2007. - С. 49-57.

6. Семченков С.Ю. Вопросы организации детализированных и агрегированных данных в OLAP системе // Проблемы передачи и обработки информации в сетях и системах телекоммуникаций: материалы 15-й международной научно-технической конференции (Рязань, 13-15 февраля 2008 г.). - Рязань, 2008. - Ч. 2. С. 72-73.

7. Семченков С.Ю. Применение OLAP технологий в управлении качеством учебного процесса // Методы обучения и организация учебного процесса в вузе: материалы всероссийской научно-методической конференции (Рязань, 3-5 февраля 2009 г.). - Рязань, 2009. - С. 177-179.

8. Семченков С.Ю. Построение куба интересов пользователя в OLAP системах // Научная сессия ТУСУР-2009: материалы всероссийской научно-технической конференции студентов, аспирантов и молодых ученых (Томск, 12-15 мая 2009 г.). - Томск, 2009. - С. 219-222.

9. Семченков С.Ю. Вопросы моделирования интересов пользователя в OLAP системах И Информационные технологии в науке, проектировании и производстве: материалы XXVI всероссийской заочной научно-технической конференции (Нижний Новгород, апрель 2009 г.). - Нижний Новгород, 2009. -С. 1-2.

10. Горюнов И.В., Семченков С.Ю. Методология разработки систем информационной поддержки образовательного процесса в вузе на основе принципов всеобщего менеджмента качества (TQM) с использованием OLAP-технологии //Вестник РГРТУ. - 2008. - №4 (выпуск 26). - С. 69-74.

11. Семченков С.Ю. Операция декомпозиции многомерного куба в OLAP системах // Информационные технологии в науке, экономике и

образовании: материалы всероссийской научно-практической конференции (Бийск, 16-17 апреля 2009 г.). - Бийск, 2009. - С. 290-293.

12. Семченков С.Ю. Принципы построения регулярной структуры измерений в OLAP системах II Математическое и программное обеспечение вычислительных систем. -2009. - С. 136-140.

13. Семченков С.Ю. Применение OLAP сервера Palo для анализа данных // Новые информационные технологии в научных исследованиях и образовании: материалы XIII всероссийской научно-технической конференции студентов, молодых ученых и специалистов (Рязань, 14-16 мая 2008 г.). - Рязань, 2008. - С. 1-2.

14. Семченков С.Ю. CuDBIS v. 1.02. Свидетельство о регистрации программы для ЭВМ № 2009613357 от 26 июня 2009 г.

СЕМЧЕНКОВ Сергей Юрьевич

АЛГОРИТМЫ ПРОЕКТИРОВАНИЯ СИСТЕМ МНОГОМЕРНОГО АНАЛИЗА ДАННЫХ, ОСНОВАННЫХ НА OLAP ТЕХНОЛОГИИ

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Подписано в печать_. Формат бумаги 60x84 1/16.

Бумага офисная. Печать трафаретная. Усл. печ. л. 1,0. Тираж 100 экз.

Рязанский государственный радиотехнический университет. 390005, г. Рязань, ул. Гагарина, д. 59/1. Редакционно-издательский центр РГРТУ.

Оглавление автор диссертации — кандидата технических наук Семченков, Сергей Юрьевич

Введение.

Глава 1. Проблема адаптивного анализа данных в OLAP технологии.

1.1 Цели и задачи развития OLAP технологии для автоматизированного проектирования многомерной обработки данных.

1.2 Понятия интерактивной аналитической обработки данных.

1.3 Классификация OLAP систем.

1.4 Совместное использование OLAP и OLTP систем.

1.5 Современные подходы к формальному описанию OLAP систем.

1.6 Программные реализации технологии автоматизированного проектирования систем аналитической обработки данных.

1.7 Проблемы применения OLAP технологии для принятия управленческих решений.

Основные результаты.

Глава 2. Формальное описание адаптивных OLAP систем.

2.1 Основные понятия теории алгебраических систем и теории реляционных баз данных.

2.2 Алгебраическое описание гиперкуба OLAP систем.

2.3 Операции над многомерными кубами.

2.4 Декомпозиция данных в OLAP системах.

2.5 Регулярная структура систем автоматизированного проектирования аналитической обработки данных.

2.6 Модель пользователя OLAP систем.

Основные результаты.

Глава 3. Автоматизированное проектирование и оптимизация многомерных структур в OLAP системах.

3.1 Обзор основных архитектур OLAP систем.

3.2 Основные принципы реализации системы автоматизированного проектирования аналитической обработки данных.

3.3 Принципы реализации модуля декомпозиции данных в OLAP системах.

3.4 Проектирование подсистемы построения регулярных структур.

Основные результаты.

Глава 4. Принципы программной реализации адаптивных систем автоматизированного проектирования многомерного анализа данных в программной системе CuDBIS.

4.1 Средства визуализации в системе CuDBIS.

4.2 Интерфейсы взаимодействия модулей в системе CuDBIS.

4.3 Использование технологии клиент-сервер в системе CuDBIS.

4.4 Практические результаты реализации алгоритмов OLAP преобразований.

Основные результаты.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Семченков, Сергей Юрьевич

Актуальность работы. Современный уровень развития аппаратных и программных средств сделал возможным повсеместное ведение баз данных оперативной информации на разных уровнях управления предприятием. Однако накопления оперативной информации недостаточно для получения релевантной информации, позволяющей руководителю принимать важные управленческие решения и формировать стратегию развития предприятия на основе ключевых показателей. Решение данной проблемы видится ученым во внедрении OLAP технологии [1]. OLAP - технология обработки информации, позволяющая агрегировать информацию из нескольких источников данных в виде многомерных представлений, а также выполнять аналитические запросы пользователя, включая составление и динамическую генерацию отчетов .

Суть этой технологии заключается в формировании единого источника информации, содержащего» согласованные и непротиворечивые данные, полученные в ходе извлечения, преобразования и переработки данных из баз данных, содержащих накопленную к текущему моменту оперативную информацию. Как правило, OLAP системы содержат не все данные из систем оперативной обработки данных, а только те, которые имеют отношение к основным ключевым показателям, характеризующим деятельность предприятия. Весомые результаты в работах по OLAP системам связаны с такими учеными, как Н. Караянидис, Д. Педерсен, Р. Агравал, М. Гольфарелли, Р. Торлоне, Д. В. Ивлев, П. П. Ишенин, А. К. Дорожкин.

Основоположниками технологии OLAP систем являются Б. Инмон, Р. Кимбалл, Э. Кодд, которые сформулировали базовые общепринятые концепции и понятия. В отличие от реляционных баз данных, где выработана четкая терминология, в области OLAP систем не существует единого стандарта ни на модель данных, ни на язык запросов, ни на программный интерфейс взаимодействия с этими системами.

В рамках OLAP технологии различными группами специалистов разработано большое количество программных продуктов, реализующих многомерную модель данных. Среди этих продуктов можно выделить OLAP Option to Oracle Database фирмы Oracle, Microsoft Analysis Services фирмы Microsoft, Palo фирмы Jedox, Mondrian фирмы Pentaho. Стоит отметить, что удобство использования конечной системы, ее масштабируемость, производительность и функциональность зависят от средств, предназначенных для автоматизированного проектирования такого рода систем. Опыт разработки систем и эксплуатации реальных продуктов для автоматизированного проектирования позволил выявить следующие проблемы, решение которых является наиболее актуальным.

1. Отсутствие адаптивной подстройки под конкретного пользователя. Аналитические системы, созданные на базе OLAP технологии, строятся на основе предметно-ориентированного подхода, то есть для решения конкретных задач пользователя. При первоначальном проектировании аналитической системы невозможно учесть все интересы пользователей, что приводит к созданию избыточных для конкретного пользователя структур хранения данных. Несмотря на большое количество отчетов, получаемых с помощью OLAP технологии, пользователя, в зависимости от текущей ситуации, интересует ограниченный набор срезов. Существующие системы не учитывают это обстоятельство, в результате чего время, необходимое для принятия решения, существенно увеличивается.

2. Невысокая масштабируемость по количеству пользователей. Под масштабируемостью будем понимать функцию, описывающую зависимость характеристики производительности (время выполнения запроса, пропускная способность) от размеров системы (количества оборудования, объема хранения данных, количества поступающих запросов). Применение OLAP технологии решает проблему невысокой производительности систем оперативной обработки данных при выполнении запросов на выборку из большого количества таблиц. Однако количество пересылаемых данных в клиент-серверной 5 архитектуре аналитических систем остается большим, что приводит к резкому увеличению времени выполнения запроса при увеличении количества запросов пользователей.

Сложность решения этих проблем является причиной существенных временных задержек при выполнении аналитических запросов пользователя OLAP систем, обрабатывающих большие объемы данных. Решение этих проблем связано с необходимостью получения новых модификаций формализмов, позволяющих более равномерно распределить нагрузку в клиент-серверной архитектуре, содержащей OLAP сервер. Одному из подходов к решению этих проблем посвящена настоящая диссертация.

Цель и задачи работы. Целью диссертации является разработка и исследование формализмов, позволяющих уменьшить время выполнения запросов пользователя за счет адаптивной подстройки системы под изменяющиеся интересы пользователя.

С учетом цели, основными задачами кандидатской^ диссертации являются:

1) разработка математического формализма, позволяющего адекватно описывать гиперкубы OLAP систем и операции над многомерными кубами;

2) разработка алгоритмов преобразования многомерного куба к регулярной структуре для автоматизации внесения корректных изменений в гиперкуб;

3) разработка модели пользователя, позволяющей учитывать интересы различных групп пользователей, выделяя для них соответствующие подкубы;

4) разработка алгоритма декомпозиции многомерного куба на основе предложенных формализмов;

5) разработка новой архитектуры OLAP систем, учитывающей принципы декомпозиции и кластеризации данных на основе пользовательских интересов;

6) программная реализация алгоритмов проектирования систем многомерного анализа данных.

Методы исследования. В работе использовались теория алгебраических систем, теория реляционных баз данных, методы объектно-ориентированного проектирования.

Научная новизна. Научная новизна работы состоит в следующем.

1. Разработан новый математический формализм для систем многомерного анализа данных на основе понятий базового и многомерного куба. Основным преимуществом формализма является произвольная последовательность выполнения операций трансформации куба для получения результатов запроса пользователя без необходимости выполнения объединения с другими кубами.

2. Разработаны алгоритмы преобразования многомерного куба к регулярной структуре, что позволяет производить анализ данных для различных систем классификации, избегая множественного наследования.

3. Разработан алгоритм декомпозиции данных, предназначенный для автоматизации проектирования OLAP систем, их функционального сравнения и оптимизации.

4. Разработан алгоритм кластеризации моделей пользователей по интересам, с помощью которого можно определить близость интересов различных пользователей, а также их общие интересы.

5. Разработана новая архитектура OLAP систем. Основным преимуществом архитектуры является снижение количества запросов пользователей к центральному серверу и сокращение времени выполнения запросов пользователя.

Основные положения, выносимые на защиту.

1. Новый формализм описания многомерных кубов OLAP систем на основе понятия «базового куба».

2. Алгоритм иерархической декомпозиции многомерного куба OLAP систем.

3. Алгоритм устранения несбалансированности иерархии измерений куба.

Практическая значимость работы. На основе разработанных теоретических результатов были получены алгоритмы проектирования регулярных структур многомерной модели данных, а также разработаны принципы комбинированного выполнения запросов к OLAP серверу. Эффект от внедрения этих принципов выражается в сокращении интенсивности запросов к центральному серверу до 30 % и уменьшении времени выполнения запросов пользователя в среднем на 40 %.

Результаты диссертации нашли отражение в реальной программной системе CuDBIS v. 1.02, предназначенной для оптимизации структуры многомерного куба. Система CuDBIS v. 1.02 была реализована в среде ActiveS-tate Komodo 5.1.3 с использованием языков PHP и Javascript.

Реализация и внедрение результатов. Результаты исследования внедрены в форме информационно-аналитического интернет-сервиса в ООО «Интертех», специализирующемся на продаже потребительской электроники, аудио-, видео- и бытовой техники, а также в учебный процесс Рязанского государственного радиотехнического университета при подготовке и выполнении практических занятий студентами специальностей 230105 «Программное обеспечение вычислительной техники и автоматизированных систем» по дисциплине «Объектно-ориентированное программирование» и 080801 «Прикладная информатика (в экономике)» по дисциплине «Высокоуровневые методы программирования».

Программное средство, разработанные автором диссертации, зарегистрировано в федеральном государственном учреждении «Федеральный институт промышленной собственности Федеральной службы по интеллектуальной собственности, патентам и товарным знакам» (ФГУ ФИПС).

Апробация работы. Основные результаты работы были представлены на двух международных, пяти всероссийских конференциях.

1. МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». Рязань, РГРТА, 2005 г.

2. МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». Рязань, РГРТУ, 2008 г.

3. Всероссийская НТК «Новые информационные технологии в научных исследованиях и образовании». Рязань, РГРТУ, 2008 г.

4. Всероссийская НМК «Методы обучения и организация учебного процесса в вузе». Рязань, РГРТУ, 2009 г.

5. Всероссийская заочная НТК «Информационные технологии в науке, проектировании и производстве». Нижний Новгород, 2009 г.

6. Всероссийская НПК «Информационные технологии в науке, экономике и образовании». Бийск, Бийский технологический институт, 2009 г.

7. Всероссийская НТК «Научная сессия ТУСУР-2009». Томск, Томский государственный университет систем управления и радиоэлектроники, 2009 г.

Публикации. По теме диссертации было опубликовано 14 научных работ, из них 7 тезисов докладов международных и всероссийских конференций, 4 статьи в межвузовских сборниках, 2 статьи в журналах из списка ВАК, одно свидетельство об официальной регистрации программы.

Заключение диссертация на тему "Алгоритмы проектирования систем многомерного анализа данных, основанных на OLAP технологии"

Основные результаты настоящей диссертации заключаются в следующем.

1. Проанализированы современные подходы формального описания OLAP систем.

2. Проведен обзор программных продуктов, реализующих технологию многомерного анализа данных. Выявлены их общие недостатки.

3. Разработана универсальная прикладная алгебра-гиперкубов OLAP \ систем, позволяющая адекватно описывать и преобразовывать многомерные кубы для последующего их использования в информационных аналитических системах.

4. Проанализированы и показаны на конкретных примерах оптимизирующие и структурирующие свойства операций, для преобразования гиперкубов. Множество операций обладает функциональной полнотой.

5. Рассмотрены регулярные структуры многомерных кубов, дающие возможность производить анализ данных для различных систем классификации, избегая множественного наследования. v

6. Для автоматизации проектирования OLAP систем, их функционального сравнения и оптимизации разработан алгоритм декомпозиции данных. Разработана модель пользователя, дающая возможность учитывать интересы различных групп пользователей, выделяя для них соответствующие подкубы. Этим достигается оптимизация аналитической обработки данных по времени.

7. Проанализированы основные архитектуры аналитических систем. Предложена новая архитектура OLAP систем, учитывающая принципы декомпозиции и кластеризации данных на основе пользовательских интересов, а также позволяющая производить реструктуризацию иерархической структуры для устранения аномалий в ней.

8. Спроектирована подсистема построения регулярных структур, которая включает в себя подсистемы определения неполноты иерархических структур, устранения аномалий несбалансированности и множественного наследования.

9. Определены условия применимости комбинированной схемы с цен тральным и локальными серверами.

Заключение

В диссертации разработан новый подход к построению архитектуры ( клиент-серверных OLAP приложений. Этот подход основан на применении комбинированных запросов с участием как локального; так и центрального OLAP серверов. Стоит отметить, что этот подход отличается от полностью автономной работы тем, что позволяет обращаться к большим объемам информации без существенного увеличения времени выполнения запросов пользователей. Вместе с тем, стоит отметить, что у технологии комбинированного доступа есть свои границы применимости, эффект достигается лишь при определенном пороговом значении отношения количества запросов к локальному и центральному серверу. Таким образом, использование новой ар- ( хитектуры при доступе к запрашиваемым данным должно1 определяться отдельно для конкретного пользователя.

Библиография Семченков, Сергей Юрьевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Макаров И.М., Рахманкулов В.З., Ахрем А.А., Ровкин И.О. Построение СППР на основе OLAP-технологии // Информационные технологии и вычислительные системы. 2005. - № 1. — 144с.

2. Oracle Database 1 lg Электронный ресурс. URL: http://www.oracle.com/database/index.html (дата обращения: 02.03.2009).

3. SQL Server 2008 Overview Электронный ресурс. URL: http://www.microsoft.com/sql/default.mspx (дата обращения: 10.01.2009).

4. MySQL open source database Электронный ресурс. URL: http://www.mvsql.com/ (дата обращения: 04.09.2008).

5. PostgreSQL 8.3 Database Электронный ресурс. URL: http://www.postgresql.org/ (дата обращения: 17.02.2009).

6. Гладченко А., Щербинин В. Репликация Microsoft SQL Server 2005/2008. -М.: ЭКОМ Паблишерз, 2009. 288с.

7. Shoshani A. OLAP and statistical databases: similarities and differences // 16th ACM SIGACT SIGMOD SYGART Symp. On Principles of Database Systems, 1997. P. 185-196.

8. Семченков С.Ю. Вопросы организации промежуточной области хранения для OLAP систем // Математическое и программное обеспечение вычислительных систем. 2008. - С. 139-143.

9. Pendse N. The origins of today OLAP products Электронный ресурс. URL: http://www.olapreport.com/origins.htm (дата обращения: 22.04.2008).

10. Codd E.F. Providing OLAP (on-line analytical processing) to user-analysts: An IT mandate. E.F. Codd and Associates, 1993.

11. Laker К. OLAP Workshop 1: Basic OLAP Concepts Электронный ресурс. URL: http://oracleolap.blogspot.com/20Q7/12/olap-workshop-l-basic-olap-concepts.html (дата обращения: 19.01.2009).

12. Grimes S. New Directions For OLAP Электронный ресурс. URL: http://www.intelligententerprise.com/showArticle.ihtml?articleID= 179101432 (дата обращения: 12.12.2008).

13. Барсегян A.A., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. Спб.: БХВ-Петербург, 2007. - 384с.

14. Дейт К.Дж. Введение в системы баз данных. — 8-е изд. — М.: Вильяме, 2006. 1328с.

15. Malinowski Е., Zimanyi Е. Hierarchies in a Multidimensional Model: From Conceptual modeling to Logical Representation // Data ¿¿Knowledge Engineering, 2006. V. 59. № 2. P. 348-377.

16. Rozeva A. Dimensional Hierarchies — Implementation in Data Warehouse Logical Scheme Design // International Conference on Computer Systems and Tech- • nologies CompSysTech'07, 2007. P. 1-6.

17. Niemi Т., Nummenmaa J., Thanisch P. Logical Multidimensional Database Design for Ragged and Unbalanced Aggregation Hierarchies // Proceedings of the International Workshop on Design and Management of Data Warehouses, 2001.

18. Pendse N. Product reviews Электронный ресурс. URL: http://www.olapreport.com/ProductsIndex.htm (дата обращения: 22.04.2008).

19. Ишенин П.П. Создание готовых приложений на базе информационно-аналитической системы «Аналитик» // Тр. всерос. конф. «Информационно-аналитические системы и технологии в здравоохранении и ОМС». — Красноярск: КМИАЦ. 2004. - С. 227-232.

20. Pendse N. Multidimensional data structures Электронный ресурс. URL:http://www.olapreport.com/MDStructures.htm (дата обращения: 22.04.2008).126

21. HMC Corporate Communications. OLAP, MOLAP and ROLAP: What's next? Электронный ресурс. URL:http://www.itweb.co.za/office/bytes/0407060916t.htm (дата обращения: 13.03.2008).

22. Чаусов В, Амириди Ю. Классификация аналитических систем. Три года спустя // Журнал «Банки и технологии», 2002, №6.

23. Послед Б.С. Borland С++ Builder 6. Разработка приложений баз данных. -Спб.:ДиасофтЮП, 2003. 320с.

24. ProClarity analytics Электронный ресурс. URL:http://www.microsoft.com/business/performancepoint/productinfo/proclarity/procl aritv-overview2.aspx (дата обращения: 15.05.2008).

25. SAP BusinessObjects XI Intelligence Platform Электронный ресурс. URL:http ://www. sap. com/solutions/sapbusinessobj ects/large/intelligenceplatform/index. epx (дата обращения: 28.01.2008).

26. Аналитическая платформа «Контур» Электронный ресурс. URL: " http://www.iso.ru/ (дата обращения: 03.03.2008).

27. Pendse N. An analysis of what the often misused OLAP term is supposed to mean Электронный ресурс. URL:http://www.olapreport.com/fasmi.htm (дата обращения: 22.04.2008).

28. Maier Т. A Formal Model of the ETL Process for OLAP-Based Web Usage Analysis // Proceedings of the sixth WEBKDD workshop: Webmining and Web Usage Analysis (WEBKDD'04), in conjunction with the 10th ACM SIGKDD*conference (KDD'04), 2004. P. 23-34.

29. Семченков С.Ю. Особенности применения OLAP систем: проблемы и актуальные подходы // Математическое и программное обеспечение вычисли-' тельных систем. 2006. - С. 83-86.

30. Мартин Грабер. SQL. М.:Лори, 2007. - 672с.

31. Bogdanova G., Georgieva Т. Analyzing the Data in OLAP Data Cubes // Inter- 1 national Journal on Information Theories and Applications, 2005. V. 12. № 4. P. 335-342.

32. Хрусталёв E.M. Агрегация данных в OLAP кубах Электронный ресурс. URL: http://wsvw.iteam.ru/publications/it/section92/article1759/ (дата обращения: 29.09.2008).

33. Sapia С., Blaschka М., Höfling G. An Overview of Multidimensional Data Models for OLAP // FORWISS Technical Report 1999-001, 1999.

34. Зыкин C.B. Реализация OLAP-технологии на основе межмодельных преобразований данных // Информационные технологии моделирования и управления. 2008. - № 1 (выпуск 44). - С. 71-77.

35. Lehner W. Modeling large scale OLAP scenarios // Proceedings of EDBT'98, 1998. P. 153-167.

36. Sapia C., Blaschka M., Höfling G., Dinter B. Extending the E/R model"for the multidimensional paradigm // Proc. Int. Workshop on'Data Warehouse and data Mining (DWDM) in conjunction with ER'98, 1998. P. 105-116.

37. TryfonaN., Busborg F., Cristiansen J. starER: A conceptual model for data warehouse design // Proc. of ACM 2nd Int. Workshop on Data Warehousing and OLAP (DOLAP), Kansas City (USA), 1999. P. 3-8.

38. Trujillo J., Palomar M., Gomez J. Applying Object-Oriented Conceptual Modeling Techniques to the Design of Multidimensional Databases and OLAP applications // Proc. of 1st Int. Conf. on Web-Age Information Management (WAIM; 2000. P. 83-94.

39. Nguyen Т., Tjoa A., Wagner R. Conceptual Multidimensional Data Model Based on MetaCube. Proceedings of the First International Conference on Advances in Information Systems, 2000. P. 24-33.

40. Kimball R., Ross M., Thornthwaite W., Mundy J., Becker B. The Data Warehouse Lifecycle Toolkit, 2nd Edition. John Wiley & Sons, 2008. - 672p.

41. Moody D., Kortink M. From enterprise models to dimensional models: A methodology for data warehouse and data mart design // Proc. of 2nd Int. Workshop on Designn and Management of Data Warehouses (DMDW), Stockholm (Sweden), 2000. P. 1-12.

42. Mangisengi O., Tjoa A., Wagner R. Multidimensional Modeling Approaches for OLAP Based on Extended Relational Concepts // Proc. of the 9th Int. Database Conf. on Heterogeneous and Internet Databases (IDC), Hong Kong, 1999.

43. Agrawal R., Gupta A., Sarawagi S. Modeling multidimensional databases // Proc. of 13th Int. Conf. on Data Engineering (ICDE), 1997. P. 232-243.

44. Li C., Wang X.S. A data model for supporting on-line analytical processing // Proc. of 5th Int. Conf. of Information and Knowledge Management (CIKM), 1996. P. 81-88.

45. Datta A., Thomas H. A Conceptual Model and Algebra for On-Line Analytical Processing in Decision Support Databases // Information Systems Research, 2001. Y. 12. № l.

46. Gyssens M., Lakshmanan L. A foundation for multi-dimensional databases // Proc. of 23rd Int. Conf. on Very Large Data Bases (VLDB), 1997. P. 106-115.

47. Woronowicz E. Relations and their basic properties // Journal of Formalized Mathematics, 1989. V. 1. URL: http://mizar.org/JFM/Vol 1/relat 1 .html (дата обращения: 11.08.2008).

48. Cabbibo L., Torlone R. A logical approach to multidimensional databases // Proc. of 6th International Conference on Extending Database Technology (EDBT'98), 1998. P. 183-197.

49. Каширин И.Ю., Семченков С.Ю. Интерактивная аналитическая обработка данных в современных OLAP-системах // Журнал «Бизнес-информатика». Москва, 2009. № 8(02). - С. 12-19.

50. SQL Server 2008 Analysis Services Электронный ресурс. URL:http://www.microsoft.com/Sqlserver/2008/en/us/analvsis-services.aspx (дата обращения: 13.02.2008).

51. Oracle OLAP 1 lg Электронный ресурс. URL:http://www.oracle.com/technology/products/bi/olap/index.html (дата обращения: 15.02.2008).

52. Palo OLAP Server 2.5 Электронный ресурс. URL:http://www.iedox.com/en/products/palo olap server/Introduction.html (дата обращения: 02.02.2008).

53. Pentaho Analysis Services: Mondrian Project Электронный ресурс. URL: http://mondrian.pentaho.org/ (дата обращения: 05.03.2008).

54. Cognos TM1. Budgeting, forecasting and analytics for fmancial performance, management Электронный ресурс. URL:http ://www-01 .ibm.com/software/data/ cognos/products/tm 1 /

55. Аналитическая платформа Deductor Электронный ресурс. URL: http://www.basegroup.ru/deductor/ (дата обращения: 01.03.2008Y , »

56. Харинатх С., Куинн С. SQL Server 2005 Analysis Services и MDX для профессионалов. — М.: Диалектика, 2008. 848с.

57. Дорожкин А.К. Оценка объемов многомерного куба в OLAP системах // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. .- 2005. — № 19. -С. 105-111.

58. Кузнецов О.П. Дискретная математика для инженера — Спб.: Лань, 2007. -400с.

59. П. Кон. Универсальная алгебра.-М.:Мир, 1968. 351с.

60. Плоткин Б.И. Универсальная алгебра, алгебраическая логика и базы данных-М.:Наука, 1991. 448с.

61. Семченков С.Ю. Принципы реализации иерархической структуры измерений в OLAP системах // Математическое и программное обеспечение вычислительных систем. 2007. - С. 49-57.

62. Pedersen D., Riis К., Pedersen Т.В. A Powerful and SQL-Compatible Data Model and Query Language for OLAP // Proc. of Australian Database Conference, > 2002.

63. Гудков A.C. Агрегирование куба с помощью префиксного дерева. // Современные проблемы фундаментальных и прикладных наук. Часть VII. Управление и прикладная математика: Труды XLVIII научной, конференции. / МФТИ. М. - Долгопрудный, 2005. - С.92-93.

64. Lehner W., Albrecht J., Wedekind H. Normal forms for multidimensional databases // Proceedings of the 10th International Conference on Scientific and Statistical Data Management (SSDBM'98), 1998. P. 63-72.

65. Lechtenborger J., Vossen G. Multidimensional normal forms for data warehouse design // Information Systems, 2003. V. 28. № 5. P. 415-434.

66. Rafanelli M., Shoshani A. STORM: A statistical, object representation model // Proceedings of 5th International Conference on Statistical and Scientific Database Management, 1990. P. 14-29.

67. Lenz H.-J., Shoshani A. Summarizability in OLAP and statistical databases // Proceedings of 9th International Conference on Scientific and Statistical Database Management, 1997. P. 132-143.

68. Hurtado C., Mendelzon A. Reasoning about summarizability in heterogeneous multidimensional schemas // Proceedings of the 8th International Conference on Database Theory (ICDT 2001), 2001. P. 375-389.

69. Семченков С.Ю. Построение куба интересов пользователя в OLAP системах // Научная сессия ТУСУР-2009: материалы всероссийской научно131технической конференции студентов, аспирантов и молодых ученых (Томск, 12-15 мая 2009 г.). Томск, 2009. - С. 219-222.

70. Yang Y., Guan X., You J. CLOPE A Fast and Effective Clustering Algorithm for Transactional Data // Proceedings of KDD?02, Vol. 2002 (2002). P. 682-687.

71. An OLAP Solution using Mondrian and JPivot Электронный ресурс. URL: http://liris.cnrs.fr/~sbimonte/view.pdf (дата обращения: 11.03.2008).

72. JDBC Overview Электронный ресурс. URL:http://java.sun.com/products/jdbc/overview.html (дата обращения: 14.02.2007).

73. Layers of Modrian System Электронный ресурс. URL:ihttp://mondrian.pentaho.org/documentation/architecture.php (дата обращения: 19.06.2008).

74. Gruñe D., Jacobs С. Parsing Techniques: A Practical Guide, 2nd edition. -Springer, 2007. 662p.

75. JSP custom tag library JPivot Электронный ресурс. URL: http://ipivot.sourceforge.net/index.html (дата обращения: 18.06.2008).

76. XML for analysis specification Электронный ресурс. URL: www.xmlforanalvsis.com/xmlal. 1 .doc (дата обращения: 06.02.2008).87. 01ap4j specification Электронный ресурс. URL: http://www.olap4j.org/olap4i fs.html (дата обращения: 16.02.2008).

77. Шилдт Г. Swing. Руководство для начинающих. М.: Вильяме, 2007. -704с.

78. Чубукова И.A. Data Mining: учебное пособие. М.: БИНОМ, 2006. - 382с.

79. Мейер Б. Объектно-ориентированное конструирование программных систем / Пер. с англ. М.: Издательско-торговый дом «Русская редакция», 2005. - 1232с.

80. An Introduction to BON Электронный ресурс. URL: http://www.cs.yorku.ca/~paige/Bon/bon.html(дата обращения: 05.07.2008).

81. Business Object Notation overview Электронный ресурс. URL: http://www.bon-method.com/handbook bon.pdf (дата обращения: 05.07.2008).

82. Walden К. Seamless Object-Oriented Software Architecture: Analysis and De- , sign of Reliable Systems. Prentice Hall, 1995. - 43 8p.

83. Семченков С.Ю. Операция декомпозиции многомерного куба в OLAP системах // Информационные технологии в науке, экономике и образовании: материалы всероссийской научно-практической конференции (Бийск, 16-17 апреля 2009 г.). Бийск, 2009: - С. 290-293.

84. Семченков С.Ю. Принципы построения регулярной структуры измерений в OLAP системах // Математическое и программное обеспечение вычислительных систем. -2009. С. 136-140.

85. Семченков С.Ю. CuDBIS v. 1.02. Свидетельство о регистрации программы для ЭВМ № 2009613357 от 26 июня 2009 г.

86. Котеров Д., Костарев А. РНР 5. Спб.: БХВ-Петербург, 2008. - 1104с.,

87. The Yahoo! User Interface Library (YUI) Электронный ресурс. URL: http://developer.vahoo.com/vui/ (дата обращения: 24.08.2008).

88. Stefanov S. Object-Oriented JavaScript: Create scalable, reusable high-quality JavaScript applications and libraries. Packt Publishing, 2008. - 356p.102: Crockford D. JavaScript: The Good Parts. O'Reilly, 2009. - 170p.

89. Zakas N. Professional JavaScript for Web Developers, 2nd Edition. Wrox, 2009. - 840p.

90. Рейсиг Д. JavaScript. Профессиональные приемы программирования. -Спб.: Питер, 2008. 352с.

91. Закас Н., Мак-Пик Д., Фосетт Д. Ajax для профессионалов. — Спб.: Символ-плюс, 2007. 488с.

92. Бенкен Е., Самков Г. Ajax. Программирование для интернета. Спб.: БХВ-Петербург, 2009. - 464с.

93. Хантер Д., Рафтер Д., Фосетт Д. XML. Базовый курс, 4-ое издание. М.: Диалектика, 2009. - 1344с.

94. Балдин К.В., Башлыков В.Н., Рукосуев A.B. Теория вероятностей и математическая статистика. — М.: Издательско-торговая корпорация «Дашков и К°», 2008. 473с.У