автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Модель многомерного представления данных и методы ее анализа

кандидата физико-математических наук
Висков, Алексей Валерьевич
город
Москва
год
2010
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Модель многомерного представления данных и методы ее анализа»

Автореферат диссертации по теме "Модель многомерного представления данных и методы ее анализа"

004609316

На правах рукописи

Висков Алексей Валерьевич

МОДЕЛЬ МНОГОМЕРНОГО ПРЕДСТАВЛЕНИЯ ДАННЫХ И МЕТОДЫ ЕЕ АНАЛИЗА

05.13.17 - теоретические основы информатики

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

3 0 СЕН 2010

Москва-2010

004609316

Работа выполнена на кафедре информационных технологий Российского университета дружбы народов

Научный руководитель кандидат физико-математических наук,

доцент Фомин Максим Борисович

Официальные оппоненты доктор физико-математических наук,

Защита диссертации состоится 15 октября 2010 г. в 16 час. 30 мин. на заседании диссертационного совета Д 212.203.28 при Российском университете дружбы народов по адресу г. Москва, ул. Орджоникидзе, дом 3, ауд. 110.

С диссертацией можно ознакомиться в научной библиотеке Российского университета дружбы народов по адресу: 117198, Москва, ул. Миклухо-Маклая, дом 6.

профессор Новосельцев Виталий Борисович

кандидат физико-математических наук, доцент Чукарин Алексей Валерьевич

Ведущая организация

Вычислительный центр им. А. А. Дородницына РАН

Автореферат разослан « ^ » сентября 2010 г.

Ученый секретарь диссертационного совета

М,Б. Фомин

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность

Исследования в области анализа и представления многомерных данных стали в последнее время одним из приоритетных направлений в развитии методов проектирования информационных систем и анализа информации. Связано это с наблюдаемым с конца прошлого века лавинообразным ростом объема информации и необходимостью ее обработки с целыо принятия различных управленческих решений. Одним из наиболее перспективных способов решения подобной задачи в настоящее время является применение технологий оперативного многомерного анализа данных.

Концепция оперативного многомерного анализа данных (OLAP) была предложена Эдгаром Коддом1 в 1993 году. В 1995 году на основе требований, изложенных Коддом, был сформулирован так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information - быстрый анализ разделяемой многомерной информации), определяющий требования к приложениям многомерного анализа данных. Такие приложения обеспечивают возможность осуществлять управление, администрирование и анализ данных с целыо глубокого осмысления информации посредством быстрого, консолидированного, интерактивного доступа к широкому спектру различных аспектов информации, полученной преобразованием первичных, необработанных данных, отражающих реальную многомерность предметной области, представленной с позиции пользователя. Функциональность таких приложений характеризуется динамическим многомерным анализом консолидированных данных в процессе поддержки аналитической и управленческой деятельности конечных пользователей.

1 Codd E. F., Codd S. B., Sallcy C. T. Providing OLAP to user-analysts: An IT mandate. - San Jose: Codd & Date, Inc., 1993. - 31 p.

За последние годы было проведено много исследовательских работ в области многомерного анализа, основной направленностью которых была возможность оперативной обработки большого количества информации за счет адекватного задачам анализа определения требований к структуре этой информации и ее представлению2. В результате был предложен ряд многомерных моделей, описывающих исследуемые предметные области3 . Как правило, все эти модели были построены в процессе решения конкретных задач, при этом их авторы использовали различную терминологию и описывали различные аспекты предметной области на разных этапах проектирования и анализа данных. В открытых источниках до сих пор не существует строгого, единого математического фундамента для систем многомерного хранения и анализа данных, подобного тому, который существует для реляционных СУБД. Для того, чтобы иметь возможность сравнивать и анализировать эти работы, надо построить единую систему классификации многомерных моделей.

Строгое математическое описание концепции многомерного представления данных и способов построения многомерных моделей позволяет получить ряд преимуществ. Прежде всего, это упрощение процесса проектирования многомерных моделей, подобно тому, как нормальные формы упрощают проектирование реляционных моделей. Также математическое описание многомерных операций позволяет строить более простые и понятные запросы на этапе анализа данных.

Таким образом, разработка математической модели многомерного представления данных и методов ее анализа является в настоящее время весьма актуальной задачей.

"Более подробно эти вопросы рассмотрены в работах Lchncr W. «Modeling Large Scalc OLAP Scenarios», Huscmann В., Lcchtcnborgcr J., Vosscn G. «Conceptual Data Warehouse Design», Li Ch., Wang X. «А data model for supporting on-line analytical processing»

3 Lchncr W. Modeling Large Scalc OLAP Scenarios. // In Advances in Database Technology (EDBT'98). -LNCS. - 1998. -Springer. -Vol. 1377.-P. 153-167.

Trujillo J., Palomar M., Gomez J., Song I. Designing Data Warehouses with 00 Conceptual Models. // IEEE Computer.- 2001,- V34, №12,- P. 66-75.

Цель работы

Целью данной диссертационной работы является формальное определение понятий, использующихся при многомерном анализе данных, построение на их базе математической модели многомерного представления данных; определение множества операций над многомерными кубами, структурирующими эти данные; разработка на базе этого аппарата концептуальной объектно-ориентированной модели, пригодной для реализации в программных средствах многомерного анализа информации.

Научная новизна

Научная новизна работы состоит в разработке новой математической модели многомерного представления данных, использование которой определяет комплексный подход к решению задач многомерного анализа, при этом построенная модель обеспечивает как способ, так и средства для решения таких задач.

Предложенная модель описывает известные понятия многомерного представления данных, такие как: измерения, показатели, многомерные кубы данных. Однако построение этой модели основывается на использовании ряда новых идей и подходов к описанию свойств многомерных объектов, а именно:

1. Исследование и доказательство свойств измерений и их агрегационных иерархий основывается на анализе свойств различных видов целого, их структуры и связей между частями целого. Элементы измерения рассматриваются как коллекции, измерение определяется как связный направленный граф. При этом свойства измерения доказываются на основании теории графов и мереологических аксиом;

2. Многомерный куб данных определяется как функция из п-мерного пространства, определенного декартовым произведением уровней соответствующих измерений, на множество ячеек одного класса;

3. Общеизвестные операции над многомерными кубами данных определены как композиции функций, задающих преобразования

как в области определения, так и в области значений функции куба. В работе доказывается, что эти операции составляют полное, минимальное и замкнутое множество, порождающее полугруппу; 4. На базе полученных теоретических результатов предложена новая концептуальная объектно-ориентированная модель представления многомерных данных, которая может быть использована как язык описания метаданных информационно-аналитических систем и хранилищ данных.

Практическая значимость.

Математическая модель, предложенная в диссертации, может быть использована в качестве основы при разработке методики решения задач многомерного проектирования и анализа данных, определяя основные этапы многомерного описания предметной области и обеспечивая лучшее понимание структуры и свойств используемых при этом информационных объектов. Разработанное формальное описание многомерных операций позволяет строить более простые, понятные и эффективные запросы для анализа данных конечными пользователями.

Построенная в работе концептуальная объектно-ориентированная модель соответствует разработанной консорциумом Object Management Group спецификации Common Warehouse Metamodel (CWM), описывающей обмен метаданными при использовании технологий Хранилищ данных, и может быть применена в качестве основы для построения информационно-аналитических систем и хранилищ данных, являясь для них языком описания метаданных.

Разработанная в диссертации модель была использована компанией ЛАНИТ при участии автора в процессе создания программного продукта «Корпоративный каталог показателей» («Enterprise Metadata Center»)4.

4 Свидетельство об официальной регистрации программы для ЭВМ №2004611855, выдано Федеральной службой по интеллектуальной собственности, патентам и товарным знакам.

Результаты диссертации были применены Отделением Системной Интеграции компании ЛАНИТ при выполнении ряда проектов по созданию гетерогенных информационно-аналитических систем масштаба предприятия. В частности, разработанная математическая модель применялась для описания предметной области и технических объектов при разработке информационно-аналитической системы для ЦБ РФ.

Методы л сследования

В работе использованы методы теории графов и 'теории множеств, аксиоматика мереологии и методы объектно-ориентированного проектирования и анализа.

Достоверность и обоснованность

Обоснованность результатов вытекает из использования строгих и апробированных математических методов исследования. Все полученные в диссертации теоретические результаты обоснованны строгими математическими доказательствами. Достоверность подтверждается практическим применением построенных моделей при разработке программных средств многомерного анализа информации.

Публикации

По материалам диссертации опубликовано 7 работ. Работы [1,2] опубликованы в ведущих рецензируемых научных изданиях, определенных ВАК, и содержат выносимые на защиту результаты. Список работ приведен в конце автореферата.

В работах, опубликованных в соавторстве, личный вклад автора заключается в непосредственном участии в постановке задачи и интерпретации результатов, проведении аналитических исследований. Все результаты, выносимые на защиту, получены лично автором.

Структура и объем диссертации

Диссертация состоит из введения, трех глав и заключения. Полный объем диссертации - 115 страницы машинописного текста, включая 41 рисунков, 7 таблиц и списка литературы, содержащего 110 наименований.

СОДЕРЖАНИЕ РАБОТЫ

-Во введении обоснована актуальность темы диссертации, приведен обзор публикаций по этой теме, сформулирована цель исследования, кратко изложены содержание и основные результаты диссертации по главам.

Первая глава посвящена описанию основных понятий предметной области и постановке задачи разработки математической модели многомерного представления данных и методов ее анализа.

В разделе 1.1 описываются основные понятия предметной области многомерного анализа данных, такие, как измерение, показатель, факт. В соответствии с многомерным подходом исследуемые данные представляются таким образом, как будто они располагаются внутри многомерного АНАЛИТИЧЕСКОГО ПРОСТРАНСТВА. При этом предмет анализа принято называть анализируемым ФАКТОМ. Для того, чтобы проанализировать какой либо факт, необходимо рассмотреть описывающие его величины (как правило, числовые). Они называются ПОКАЗАТЕЛЯМИ. Набор величия, от которых зависят значения показателей, называют ИЗМЕРЕНИЯМИ. Совокупность измерений образует и-мерное аналитическое пространство исследуемого факта. Измерения являются размерностями этого пространства. Измерение представляет собой список уникальных идентификаторов, определяющих значения показателей. Идентификаторы, входящие в состав измерений, называются ЭЛЕМЕНТАМИ ИЗМЕРЕНИЙ. Элементы измерений могут объединяться в группы по определенному семантическому признаку. Получающиеся в результате такого объединения сущности

также являются элементами измерения и также определяют значения показателей, но на другом УРОВНЕ детализации. Таким образом, мы получаем ИЕРАРХИЮ уровней измерения, которая определяет последовательность вложения элементов разных уровней друг в друга. Иерархии измерений определяют направление применения агрегационных функций при расчете значений показателей на различных уровнях детализации данных.

Описанные в этом разделе концепции в дальнейшем будут необходимы для понимания остальной части материала работы.

В разделе 1.2 предложен способ классификации известных многомерных моделей, на базе которого произведено их сравнение. Цель - определить место представленной работы среди других исследований в данной области. Этой задаче посвящен раздел 1.3.

Глава 2 диссертационной работы посвящена решению основной задачи диссертации в части разработки математической модели многомерного представления данных и методов ее анализа.

В разделе 2.1 производится исследование структуры измерений и их свойств.

Определение 1: Измерение - это размерность аналитического пространства, описываемая связным ориентированным графом й = (У,Е), где К = {£(} - множество уровней измерения О, Е = {е),} -множество дуг, соответствующих отношениям декомпозиции между элементами смежных уровней измерения О, ем = (Л,,!,).

Каждая вершина £у в этом графе соответствует некоторому уровню агрегации, а дуга еы = (£,.,£,) отражает тот факт, что каждый элемент измерения /на уровне ¿, , определяющем конец дуги,

декомпозируется на множество элементов измерения В нижележащего уровня , соответствующего началу дуги (то есть, дуга отражает суть отношения «часть-целое» между элементами измерения уровней).

Таким образом, граф измерения отражает иерархическую структуру измерения и показывает, что представляет собой связь «часть-целое» между элементами измерения на разных уровнях.

Элементы измерения, формирующие каждый из уровней, представляют собой коллекции, что позволяет использовать для описания свойств связей между ними аксиоматику мереологии5.

Мереология представляет собою теорию частей целого. В ее основе лежит отношение частичного порядка, которое в работе используется при описании связей между элементами измерений. Теория мереологии определяется набором аксиом, из которых, в частности, следует (в отличие от теории множеств), что одноэлементное множество идентично с самим элементом, что не существует пустых множеств, и, наконец, что отношение "являться частью" (далее будем обозначать его с) является транзитивным.

Исходя из определения измерения как графа и мереологических аксиом, были доказаны следующие свойства измерений.

Свойство 1. Граф измерения £> = (У, Е) не содержит циклов.

Свойство 2. V £> 3! уровень X, = {/,.,} , называемый атомарным, элементы которого /,., являются элементарными сущностями (т.е. не

могут быть разделены на части).

Свойство 3. V В может быть доопределен уровень 1,,в„. = {/„а.г„ ,„„.},

содержащий элементы, составленные из всех элементарных сущностей измерения. Если такой уровень существует, тогда:

а) !,Все. ...... - не является частью никакого другого элемента

б) 1»Ва/. = {1.Ве^} - содержит в точности один элемент,

в) П!/.,,,.

Artale A., Franconi H., Guarino N., Pazzi L. Part-Whole relations in Objcct-centcrcd systems: an overview. // Data and Knowledge Engineering (DKE). - 1996. - Vol. 20. - P. 347-383. Gcrstl P., Pribbenow S. Midwinters, end games, and body parts: A classification of part-whole relations. Il International Journal of Human-Computer Studies. - 1995. - V43, №5. - P. 865-889.

Свойство 4. Если 3 уровень ={1 , <2/,, - не являются

частью элемента никакого другого уровня, т. е. 3 дуги = (£;,£,)е£,

то можно построить е;.Л>, = (Iе £ - дуга из в 1.„а,.

Свойство 5. VЛ.,g¿1 - атомарный уровень, / , содержит как

минимум одну часть.

Свойство 6. V/ 7 - атомарный уровень, I , может содержать

более чем одну часть.

Свойство 7. V/ . может являться частью нескольких элементов

- и'

вышележащих уровней одновременно.

Далее в разделе 2.1 исследуются трудности описания измерений при решении задач многомерного анализа данных. Существуют задачи, в которых измерения не могут быть представлены в простом линейном виде, так как их структура имеет несколько альтернативных иерархий, задающих несколько путей частичного упорядочения. В качестве примера, можно привести измерение «Библиотека», представленное на рисунке I, в котором кгшги могут группироваться по авторам, языкам или жанрам.

¿г (Книги авторов)

Самым распространенным (и наиболее очевидным) способом увеличения производительности выполнения аналитических запросов в многомерных хранилищах данных является предварительный расчет значений показателей для заданных уровней агрегации, который позволяет сократить время ответа на запросы, охватывающие

потенциально огромные объемы данных, в степени, достаточной для проведения интерактивного анализа данных. Такие предварительные вычисления требуют применения различных агрегационных функций вдоль определенных агрегационных путей измерения. Задача предварительного вычисления показателей часто осложняется наличием в измерениях нерегулярных иерархий, так как в этом случае некоторые значения промежуточных результатов вычисления могут быть рассчитаны повторно, либо не рассчитаны вовсе.

С проблемой существования нерегулярных иерархий связан вопрос возможных кардинальных отношений между элементами различных уровней измерения. В работе доказывается, что в общем случае элементы смежных уровней измерения могут быть связаны отношениями типа 1..Ы - 1..М, что и обуславливает возможность наличия нерегулярных иерархий.

Доказанные в работе свойства обосновывают допустимость наличия нескольких агрегационных иерархий в измерении и позволяют описывать их в рамках теории графов. Кроме того, эти свойства определяют возможность разрешения описанных выше проблем посредством нормализации нерегулярных иерархий. Этот процесс предусматривает пополнение нерегулярных иерархий фиктивными значениями элементов измерений для приведения их к регулярному виду.

Раздел 2.2 посвящен формальному определению понятий показателя и ячейки.

Для того, чтобы проанализировать какой либо факт, необходимо рассмотреть некоторые величины, являющиеся значениями показателей, которые описывают изучаемый факт. При этом значения показателей определяются элементами измерений.

Определение 2. Показатели - величины /;' , характеризующие исследуемый факт Г, значения которых определяются выбором значений элементов измерений.

Группу значений показателей, характеризующих определенный факт, будем называть ячейкой.

Определение 3. Ячейка с' = {//} - это множество значений показателей р* (возможно пустое), описывающих определенный факт (Г), определенное фиксированным набором значений элементов (I' ,) каждого из п измерений, определяющих аналитическое

пространство, 1\ е Ьк., е ,к = 1 - п,, т. е. (1\ .„) сг.

В разделе 2.3 вводится понятие класса ячеек, и исследуются свойства классов ячеек, а также поясняются принципы объединения ячеек в классы.

Определение 4. Класс ячеек С'; ={</, ,,} содержит ячейки,

относящиеся к одному и тому же факту У7 и соответствующие различным наборам элементов (/' ,,../" „) одних и тех же уровней

агрегации 1}., еУк каждого из измерений Ок ={Ук,Ек), использующихся

для анализа факта Г.

В разделе 2.4 производится исследование Фактов. Анализируется их структура, определяются основные компоненты. Кроме того, исследуется зависимости Фактов и Измерений.

Определение 5. Факт - множество значений показателей, являющихся предметом анализа, описываемое связным, ориентированным графом Г = (УС,ЕС), где

множество вершин = }- множество классов ячеек факта Г;

Ес - множество дуг, соответствующих отношениям декомпозиции между ячейками классов, которые задаются структурой графов измерений.

В случае, когда задачей определяется необходимость анализа данных только одного класса ячеек, достаточно возможности работать с одним конкретным фактом. Однако в процессе решения практических задач часто оказывается, что различные Факты модели данных тесно связаны и возникает необходимость осуществлять переходы от данных одного Факта к данным другого. Такой переход возможно осуществить между данными семантически связанных фактов.

и

Определим семантически связанные Факты как Факты, показатели которых определены в одном и том же аналитическом пространстве, либо зависимость между показателями которых определяется зависимостью, существующей между элементами измерений аналитических пространств этих фактов.

В разделе 2.5 рассматривается пространство, определяемое декартовым произведением уровней каждого из измерений, описывающих изучаемую предметную область.

Так как каждый из уровней Ьк, еУк (к = ]гп, п. - размерность

пространства) определяет ячейки в классе с*, , , то декартово

произведение уровней полностью определяет все ячейки класса, т. е.

I1., Х...Х1". -+С*

/ 1 1 ■■■!

Таким образом, класс ячеек, определяемый уровнями измерений, может быть представлен как и-мерный куб данных на некотором уровне детализации.

Определение 6. Куб - это множество значений показателей анализируемого факта F на определенном уровне детализации данных. Определим п-мерный куб данных с как инъектнвную функцию из п-мерного пространства, заданного декартовым произведением множеств некоторых элементов каждого из функционально независимых уровней } , на подмножество

ячеек класса С, ,

/

с:Ь', х..хГ'„ С\ ,

.1 ! 1 •■■../

где V., - подмножество элементов уровня , а С"; - подмножество соответствующих ячеек класса С',

Раздел 2.6 посвящен описанию операций над многомерными кубами данных. В этом разделе получение результирующего куба данных срг1(х) из исходного с,„(*) рассматривается как математическая композиция функций сре,(х) = у/(с11а(ф(х))), где, у/еУ-семейство функций действующих на области значений куба, фе Ф-

семейство функций действующих на области определения куба, хеЬ'л x..xl", - элемент из области определения функции куба.

• Кросс-детализация ('Prill-across') (8). Эта операция изменяет класс ячеек, являющихся образом функции куба, посредством функции ц/, принадлежащей семейству функций VP. При этом аналитическое пространство остается тем же самым, меняется только расположение ячеек в нем. Эта функция ставит в соответствие сущности некоторого Факта сущность другого Факта.

у/: С"" -> С'", инъекция, = sv (<•,„(») = у(с„яО))

• Проекция (Projection) ( п ). Эта операция отбирает подмножество показателей из всех доступных в выбранном классе ячеек. Эта операция эквивалентна аналогичной операции реляционной алгебры.

= К......... (С„„М) = c„WK>",Wi]>

где индексы означают, что для результирующего куба рассматривается только часть показателей исходного куба

К >••>"'*].

• Смена измерений (у). Эта операция переориентирует тот же самый класс ячеек в новом пространстве. Операция изменяет прообраз функции куба посредством функции ф , принадлежащей семейству функций Ф (функция ф ставит в соответствие точке в «-мерном конечном пространстве точку в m-мерном конечном пространстве). Таким образом, эта функция в действительности изменяет используемые измерения.

г у f J.

с„Лх) = Гф{с„«(}•)) = сш,(ф(х)), где у =ф(х)

• Кубический срез (Dice') (а). Эта операция позволяет выбрать подмножество необходимых точек из всего п-мерного пространства области определения куба, применения к ним критерия Р . Как и проекция, эта операция эквивалентна аналогичной операции реляционной алгебры. Операция кубического среза позволяет ограничить представление по нескольким измерениям. Таким образом, получается подкуб исходных данных.

Как правило, в качестве критерия среза фиксируют некоторый элемент одного из измерений.

• Укрупнение (Яо11-ир| (р). Эта операция группирует ячейки в кубе в соответствии с агрегационной иерархией, при этом изменяется степень детализации данных посредством применения функции ереН- семейство функций, действующих как в области определения, так и в области значений куба (функция у связывает сущности двух уровней в одном и том же измерении в соответствии с отношением «часть-целое»). Операция уменьшает число ячеек, но не число измерений. Таким образом, функция <р изменяет область определения функции куба, так как происходит переход к другому набору уровней определяющих пространство куба, а также изменяет класс ячеек, группируя ячейки исходного класса в соответствии с агрегационной иерархией.

где х принадлежит результирующему аналитическому пространству (области определения куба, полученного в результате укрупнения), у - исходному аналитическому пространству (области определения исходного куба).

если Р(х) если Р(х)

с г*, (*) = Р„ (с„а (>'))= (J сю (у),

В диссертации была доказана теорема об операциях над многомерными кубами данных семантически связанных фактов.

Теорема 1: Множество операции у,ааФ;б,леЧ';реН над многомерными кубами данных семантически связанных фактов с: /А, х..х/Л ~>Су , , является замкнутым (то есть в результате

применения операций к кубам получаются кубы), минимальным (то есть никакая из этих операций не может быть выражена через другие) и полным (то есть любой функционально-зависимый результирующий куб может быть представлен как комбинация конечного множества операций преобразования исходного куба).

Применение описанных операций в разных комбинациях позволяет получить полный набор преобразований в пространстве кубов семантически связанных фактов, образующий полугруппу.

Предложенная модель определяет комплексный подход к решению задач многомерного анализа данных, обеспечивая как способ, так и средства для решения таких задач.

Для того чтобы решить задачу построения аналитической системы в соответствии с предложенным подходом необходимо осуществить следующие действия:

1. Определить анализируемые факты и описывающие их показатели.

2. Определить измерения, от которых зависят показатели, описать графы измерений и сформировать аналитическое пространство.

3. Описать многомерные кубы данных, для чего определить наборы используемых измерений, для каждого измерения указать уровень агрегации, определяющий класс ячеек куба, указать функции агрегации для вычисления каждого из показателей куба.

4. Осуществить расчет значений показателей описанного куба (он осуществляется путем последовательного применения функций агрегирования в вдоль выбранных иерархий графов измерений куба).

5. Далее, применяя описанные выше операции над полученными многомерными кубами, можно получить необходимое, наиболее удобное для анализа, представление данных.

Глава 3 посвящена вопросам практического использования полученных теоретических результатов. В этой главе описывается построение концептуальной объектно-ориентированной многомерной модели, реализующей математическую модель, описанную выше. Построенная модель была позднее использована при разработке программного средства многомерного анализа информации в качестве языка описания метаданных для хранилищ данных и информационно аналитических систем.

В разделе 3.1 рассматриваются основные концепции, механизмы и спецификации, положенные в основу разрабатываемой концептуально объектно-ориентированной многомерной модели. Обсуждается спецификация Meta Object Framework (MOF) консорциума Object Management Group, используемая в качестве формального языка для описания разрабатываемой модели метаданных.

В разделе 3.2 разбираются основные понятия спецификации Соттоп Warehouse Metamodel (CWM), являющейся стандартом де-факто в области проектирования и описания моделей хранилищ данных. Разбираются преимущества и недостатки CWM, а также указывается, какие аспекты этой метамодели были использованы при построении концептуальной модели.

В разделе 3.3 производится построение концептуальной объектно-ориентированной многомерной модели, реализующей математическую модель, описанную во второй главе. Эта модель была разработана как расширение базовых метаклассов CWM и описана на языке UML. На рисунке 2 представлена диаграмма, отражающая место разработанных математической и концептуальной моделей в теории многомерного анализа данных.

MOF

Математическая модель многомерного представления данных

_! I _

UML <3— CWM

Концептуальная модель многомерного представления данных

Модель классов

Многомерная модель

Построенные в работе модели

Модель экземпляров

Данные предметной области

- «Является экземпляром»

- Обобщение

Рис. 2. Место построенных моделей в теории многомерного анализа данных.

Использованный подход обеспечивает несколько преимуществ. Во-первых, он дает возможность минимизировать затраты времени на разработку и программную реализацию базовых концепций многомерного анализа и позволяет сосредоточиться непосредственно на реализации алгоритмов расчета и сохранения показателей, а также анализа и преобразования данных - многомерных операций, описанных при разработке математической модели. Кроме того, соответствие стандарту обеспечивает совместимость полученной модели и реализующих ее программных систем с другими системами, основанными на тех же стандартах.

Построенная концептуальная модель отражает основные понятия многомерного представления данных:

• Класс Измерение (Dimension) является набором элементов (Member), представляющих собой простую позицию (точку) в измерении.

• Классы MemberSelection и MemberSelectionGroup поддерживают разбиения измерения на части, которые могут быть визуализированы. Примером такого разбиения является деление измерения на уровни (класс Level является наследником MemberSelection).

• Класс Куб (Cube) представляет собой описание многомерного пространства, размерностями которого (осями) являются измерения.

• Точки многомерного пространства определяются элементами измерения. Для каждой такой точки может быть задано одно или несколько значений, являющихся значениями показателей. Класс Показатель (Measure) наследуется от класса Куб (Cube).

• Для каждой пары Показатель-Измерение задается функция агрегирования и правила вычисления этого показателя по данному измерению (для операций анализа и/или предварительного расчета агрегатов).

Разработанная модель является метамоделыо и языком описания моделей многомерного представления данных. В заключительном разделе 3.4 главы приведено описание программного продукта «Корпоративный каталог показателей», являющегося реализацией центрального Репозитория метаданных, выполненной компанией ЛАНИТ, в основе которого лежит предложенная автором концептуальная объектно-ориентированная многомерная модель.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Построена математическая модель, в которой на базе теории графов описана структура аналитического пространства, определены понятия «факт», «измерение» и «многомерный куб данных». Сформулированы и доказаны свойства измерений.

2. Определено множество операций над многомерными кубами данных семантически связанных фактов. Доказана теорема об его замкнутости, полноте и минимальности.

3. Построена концептуальная объектно-ориентированная модель многомерного представления и анализа данных. Разработанная модель является языком описания метаданных для Информационно аналитических систем и Хранилищ данных.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Висков A.B. Об одном из методов разработки концептуальной объектно-ориентированной многомерной метамодели информационно-аналитической системы // Вестник РУДН. Серия "Математика. Информатика. Физика". - М.: Изд-во РУДН, 2008. -№ 4. - С. 42-49.

2. Висков A.B., Фомин М.Б. Средства описания многомерных моделей данных // Вестник РУДН. Серия прикладная и компьютерная математика. - М.: Изд-во РУДН, 2003. - Т. 2, № 1. -С. 128-139.

3. Висков A.B. Некоторые свойства измерений аналитического пространства // Информационные процессы. - 2006. - Т. 6, № 3. - С. 264-271.

4. Асламов Е.Б., Висков A.B., Фомин М.Б. Свойства аналитических измерений // 42-я Всероссийская конф. по проблемам математики, информатики, физики и химии: Тезисы докладов. Секции математики и информатики. - М.: Изд-во РУДН, 2006. - С. 30.

5. Висков A.B., Шовкун A.B. Математический аппарат для описания многомерных моделей данных // Инженерная физика. - М.: НАУЧТЕХЛИТИЗДАТ, 2004. - №4. - С. 41-46.

6. Висков A.B., Фомин М.Б. Построение отображений многомерной модели данных на реляционную модель // Труды 40 Всероссийской конф. по проблемам математики, информатики, физики и химии. Тезисы докладов. Секции математики и информатики. - М.: Изд-во РУДН,2004. -С. 189-191.

7. Висков A.B., Фомин М.Б., Шовкун A.B. Моделирование хранилищ данных П Труды 39 Всероссийской конф. по проблемам математики, информатики, физики, химии и методики преподавания. Тезисы докладов. - М.: Изд-во РУДН, 2003.- С. 61.

Висков Алексей Валерьевич (Россия) Модель многомерного представления данных и методы ее анализа

В работе построена математическая модель, в которой на базе теории графов описана структура аналитического пространства, определены понятия «факт», «измерение» и «многомерный куб данных».

Исследованы свойства аналитических измерений и их агрегационных иерархий, которые были доказаны на основании мереологических аксиом.

Формально определено понятие многомерного куба данных. Определено полное замкнутое и минимальное множество операций над многомерными кубами данных семантически связанных фактов.

Построена концептуальная объектно-ориентированная модель многомерного представления и анализа данных. Разработанная модель является языком описания метаданных для Информационно аналитических систем и Хранилищ данных.

Viskov Alexey Valerievich (Russia) Model of multidimensional data representation and methods of its

analysis

Mathematical model describing the structure of analytical space based on graph theory is created in this paper. The concepts of "Fact", "Dimension", "Multidimensional data cube" are defined in this model.

Properties of analytical dimensions and their aggregation hierarchies is analyzed and proved based on meriological axioms.

Concept of multidimensional data cube is defined formally. Complete, closed and minimal set of operations is defined over multidimensional data cubes of semantically connected facts.

Conceptual object-oriented model of multidimensional data representation and analysis is also created in this paper. This model can be used as metadata definition language for Information analytical systems and Data Warehouses.

Подписано в печать10.09.10. Формат 60x84/16. Тираж 100 экз. Усл. печ. л. 1,25. Заказ 945

Типография Издательства РУДН 117923, ГСП-1, г. Москва, ул. Орджоникидзе, д.З

Оглавление автор диссертации — кандидата физико-математических наук Висков, Алексей Валерьевич

ВВЕДЕНИЕ

ГЛАВА 1. Анализ задачи многомерного представления 9 данных

1.1. Базовые понятия

1.2. Среда классификации, описания и сравнения 19 многомерных моделей

1.3. Классификация и описание существующих 25 многомерных моделей

1.4. Выводы

ГЛАВА 2. Математическая многомерная модель

2.1. Аналитические измерения и уровни агрегации

2.2. Показатели и ячейки

2.3. Классы ячеек

2.4. Факты

2.5. Кубы данных

2.6. Операции над многомерными кубами данных

2.7. Преимущества построенной модели

ГЛАВА 3. Концептуальная многомерная объектноориентированная модель

3.1. Основные принципы построения модели

3.2. Модель метаданных как расширение 81 спецификации CWM

3.3. Объектно-ориентированная многомерная 86 метамодель

3.4. Программный продукт «Корпоративный каталог 95 показателей»

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Висков, Алексей Валерьевич

Исследования в^ области анализа и представления> многомерных данных стали в. последнее время одним из приоритетных направлений в развитии методов проектирования информационных систем и анализа^ информации.4 Связано это с наблюдаемым с конца - прошлого века< лавинообразным ростом объема информации и необходимостью ее обработки с целью принятия различных управленческих решений. Одним из наиболее перспективных способов решения подобной задачи в настоящее время является применение технологий оперативного многомерного анализа данных.

Концепция оперативного многомерного анализа данных (OLAP) была предложена в 1993 году Эдгаром Коддом [48]. В 1995 году на основе требований, изложенных Коддом, был сформулирован так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information -быстрый анализ разделяемой многомерной информации) [92], определяющий требования к приложениям многомерного анализа данных. Такие приложения обеспечивают возможность осуществлять управление, администрирование и анализ данных с целью глубокого осмысления информации посредством быстрого, консолидированного, интерактивного доступа к широкому спектру различных аспектов информации, полученной преобразованием первичных, необработанных данных, отражающих реальную многомерность предметной области, представленной с позиции пользователя. Функциональность таких приложений характеризуется динамическим многомерным анализом консолидированных данных в процессе поддержки аналитической и управленческой деятельности конечных пользователей [89].

За последние годы было проведено много исследовательских работ в области многомерного анализа, основным аспектом которых является необходимость оперативной обработки большого количества информации, что определяет требования к структуре этой информации, ее использованию и представлению. В результате был предложен ряд многомерных моделей, описывающих исследуемые предметные области. Как правило, все эти модели были построены в процессе решения конкретных задач, при этом их авторы использовали различную терминологию и описывали различные аспекты предметной области на разных этапах проектирования и анализа данных. В открытых источниках до сих пор не существует строгого, единого математического фундамента для систем многомерного хранения и анализа данных, подобного тому, который существует для реляционных СУБД. Для того, чтобы иметь возможность сравнивать и анализировать эти работы, надо построить единую систему классификации многомерных моделей.

Строгое математическое описание концепции многомерного представления данных и способов построения многомерных моделей позволяет получить ряд преимуществ. Прежде всего, это упрощение процесса проектирования многомерных моделей, подобно тому, как нормальные формы упрощают проектирование реляционных моделей. Также математическое описание многомерных операций позволяет строить более простые и понятные запросы на этапе анализа данных.

Таким образом, разработка математической модели многомерного представления данных и методов ее анализа является в настоящее время весьма актуальной задачей.

Целью данной диссертационной работы является формальное определение понятий, использующихся при многомерном анализе данных, построение на их базе математической модели многомерного представления данных; определение множества операций над многомерными кубами, структурирующими эти данные; разработка на базе этого аппарата концептуальной объектно-ориентированной модели, пригодной для реализации в программных средствах многомерного анализа информации.

Диссертационная работа состоит из трех глав. Первая глава посвящена описанию' основных понятий предметной области и постановке задачи многомерного представления информации: Концепция оперативного многомерного анализа объединяет множество различных средств и подходов, которые используют многомерное представление дынных с целью поддержки процесса принятия решений. Большое количество работ было посвящено многомерному анализу информации. В первой главе рассматривается место данной работы по отношению к другим исследованиям.

Прежде всего, в разделе 1.1 вводятся основные многомерные концепции, такие, как показатель, аналитическое измерение, факт и другие. В этом разделе поясняются базовые понятия области многомерного представления информации, которые будут необходимы для понимания остальной части материала работы.

В разделе 1.2" предложен способ классификации известных многомерных моделей, на базе которого произведено их сравнение. Цель - определить место представленной работы среди других исследований в данной области. Этой задаче посвящен раздел 1.3.

Глава 2 диссертационной работы посвящена решению основной задачи диссертации в части разработки математической модели многомерного представления данных и методов ее анализа.

В разделе 2.1 дается определение и производится' исследование структуры измерений и их свойств, а также исследуются трудности описания измерений при решении задач многомерного анализа данных.

Раздел 2.2 посвящен формальному определению понятий показателя и ячейки. В этом разделе определяется коммутативная полугруппа всех ячеек, представляющих все возможные факты в хранилище данных, и рассматриваются ее свойства.

В разделе 2.3 вводится определение класса ячеек, поясняются принципы объединения ячеек в классы, а также исследуются их свойства.

В разделе 2.4 производится исследование и формальное определение-понятия «Факт». Анализируется структура фактов, определяются их основные компоненты. Кроме того, в этом разделе исследуется вопрос двойственности*понятий факт и измерение.

В разделе 2.5 рассматривается пространство, определяемое декартовым произведением уровней каждого из измерений, описывающих изучаемую предметную область, которое может быть использовано для анализа заданного набора многомерных данных. В этом разделе вводится определение многомерного куба данных как функции.

Раздел 2.6 посвящен описанию операций над многомерными кубами данных. Рассматривается замкнутое, минимальное и полное множество таких операций.

Глава 3 посвящена вопросам практического использования полученных теоретических результатов. Bv этой главе описывается построение концептуальной объектно-ориентированной многомерной модели, реализующей математическую модель, описанную в предыдущих разделах.

В разделе 3.1 рассматриваются основные концепции, механизмы и спецификации, положенные в основу разрабатываемой концептуальной объектно-ориентированной многомерной модели. Обсуждается спецификация Meta Object Framework (MOF) консорциума Object Management Group, используемая в качестве формального языка для описания разрабатываемой модели метаданных.

В разделе 3.2 разбираются основные понятия спецификации Common Warehouse Metamodel (CWM), являющейся стандартом де-факто в области проектирования и описания моделей хранилищ данных. Разбираются преимущества и недостатки CWM, а также указывается, какие аспекты этой метамодели были использованы при построении концептуальной модели.

В разделе 3.3 производится построение концептуальной объектно-ориентированной многомерной модели, реализующей математическую модель, описанную во второй главе. Эта модель была разработана-как расширение.базовых метаклассов СШМ.и описанана языке ЦМЬ.

В заключительном разделе 3.4 главы приведено описание программного продукта «Корпоративный каталог показателей», являющегося реализацией, центрального1 Репозитория. метаданных, выполненной- компанией ЛАНИТ. В основе описанного > программно-аппаратного комплекса лежит предложенная автором концептуальная' объектно-ориентированная многомерная модель.

В заключении диссертации делаются выводы о проделанной работе и обобщаются ее основные результаты.

Предложенная модель описывает известные понятия многомерного представления данных, такие как: измерения, показатели, многомерные кубы данных. Однако построение этой модели основывается на использовании ряда новых идей и подходов? к описанию, свойств многомерных объектов, а именно:

1. Исследование и доказательство» свойств измерений и их агрегационных иерархий основывается на анализе свойств различных видов целого, их структуры и связей между частями целого. Элементы измерения рассматриваются как коллекции, измерение определяется как связный направленный граф. При этом свойства измерения доказываются на основании теории графов и мереологических аксиом;

2. Многомерный куб данных определяется как функция из п-мерного пространства, определенного декартовым произведением уровней соответствующих измерений, на множество ячеек одного класса;

3. Общеизвестные операции над многомерными кубами данных определены как композиции функций, задающих преобразования как в области определения, так и в области значений функции куба. В работе доказывается, что эти операции составляют полное, минимальное и замкнутое множество, порождающее полугруппу;

4. На базе полученных теоретических результатов предложена новая концептуальная объектно-ориентированная модель представления многомерных данных, которая может быть использована как язык описания метаданных информационно-аналитических систем и хранилищ данных.

Заключение диссертация на тему "Модель многомерного представления данных и методы ее анализа"

1.4. Выводы

В таблице 1.5 содержится обобщенное представление моделей всех стадий проектирования, приводится4 описание их конструкции, а также связей между ними.

Физические модели описывают технологию хранения данных и в меньшей степени концентрируются на представлении понятий / пользовательского уровня. Логические модели ближе к конечному пользователю, однако они по-прежнему во многом зависят от способа хранения данных. Концептуальные модели предоставляют возможность строить более насыщенные описания предметной области, чем модели других типов, так как они должны обеспечивать богатый набор семантических конструкций для охвата и представления идей пользователей. В свою очередь, математические модели предоставляют меньше концептуальных конструкций, однако они используют алгебры и исчисления, выразительность которых не уступает концептуальным моделям, и позволяют математически описывать как основные многомерные конструкции, так и операции над ними.

Не смотря на существование большого количества работ, ' посвященных описанию многомерного представления данных, в s t » открытых источниках до сих пор не существует строгого, единого математического фундамента для систем многомерного хранения и анализа данных, подобного тому, который существует для реляционных СУБД. Таким образом, разработка математической модели многомерного представления данных и методов ее анализа является в настоящее время весьма актуальной задачей. Далее в этой работе будет описано построение математической, а также концептуальной объектно-ориентированной многомерных моделей.

ЗАКЛЮЧЕНИЕ

В заключение сформулируем основные результаты работы.

1. Построена математическая модель, в которой на базе теории графов описана структура аналитического пространства, определены понятия «факт», «измерение» и «многомерный куб данных». Сформулированы и доказаны свойства измерений.

2. Определено множество операций над многомерными кубами данных семантически связанных фактов. Доказана теорема об его замкнутости, полноте и минимальности.

3. Построена концептуальная объектно-ориентированная модель многомерного представления и анализа данных. Разработанная модель является языком описания метаданных для Информационно аналитических систем и Хранилищ данных.

СПИСОК ОСНОВНЫХ ОБОЗНАЧЕНИЙ

API Application Programming Interface

СЕМ Classical Extensional Mereology

CWM Common Warehouse Metamodel

CWMX CWM Extension

DBMS Data Base Management System

E/R Entity-Relationship

FASMI Fast Analysis of Shared Multidimensional Information

MOF Meta Object Framework

MOLAP Multidimensional OLAP

03LAP Object-Oriented OLAP

OCL Object Constraint Language

ODL Object Definition Language

OLAP On-Line Analytical Processing

OLE DB Object Linking and Embedding Database

OLTP On-Line Transactional Processing

OMG Object Management Group

RDBMS Relational DBMS

ROLAP Relational OLAP

SQL Structured Query Language

UML Unified Modeling Language

XMI XML Metadata Interchange

XML Extensible Markup Language

БД База Данных

КИАС Корпоративная Информационно Аналитическая

Система

ККП Корпоративный Каталог Показателей

ИАС Информационно Аналитическая Система ммдм Многомерная Модель Данных оо Объектно-Ориентированный по Программное Обеспечение

РИАС Репозиторий Информационно Аналитической

Системы

СУБД Система Управления Базой Данных ткп Технический Каталог Показателей хд Хранилище Данных

Библиография Висков, Алексей Валерьевич, диссертация по теме Теоретические основы информатики

1. Архипенков С. Аналитические системы на базе Oracle Express OLAP. - M. : Диалог-МИФИ, 2000. - 287 с.

2. Асламов Е.Б., Висков A.B., Фомин М.Б. Свойства аналитических измерений // 42-я Всероссийская' конф. по проблемам математики, информатики, физики и химии: Тезисы докладов. Секции математики и информатики. М.: Изд-во РУДН, 2006. - С. 30.

3. Бадмаева К. В. Методика адаптивного управления процессов проектирования и развития специализированных хранилищ данных: Автореф. дис. канд. техн. наук. Красноярск: ИВМ СО РАН, 2009. -23 с.

4. Барсегян A.A., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. СПб.: БХВ-Петрбург, 2004. - 336 с.

5. Буч Г., Рамбо Д., Джекобсон A. UML. Руководство пользователя. -ДМК, 2001.-432 с.

6. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++, 2-е изд. М.: «Издательство Бином», СПб.: «Невский диалект», 1999. - 560 с.

7. Вдовичев Н.М. Математическая модель хранилища в проектировании систем поддержки принятия решений // Труды XI Междунар. науч.-практ. конф. «Системный анализ в проектировании и управлении». СПб., 2007. - С. 187-191.

8. Вдовичев Николай Михайлович. Математическое и информационное обеспечение автоматизации принятия решений в социальной защите: Дис. . канд. техн. наук: 05.13.18. Казань. 2008. 151 с.

9. Висков A.B. Некоторые свойства измерений аналитического пространства // Информационные процессы. 2006. - Т. 6, № 3. - С. 264-271.

10. Висков A.B., Шовкун A.B. Математический аппарат для описания многомерных моделей данных // Инженерная физика. М.: НАУЧТЕХЛИТИЗДАТ, 2004. - №4. - С. 39-43.

11. Емалетдинова Л.Ю., Вдовичев Н.М. Методика построения, модели хранилища данных для систем поддержки принятия решений // Материалы всероссийской научной конференции «Информационные технологии в науке, образовании и производстве». 2007. - С. 571574.

12. Заботнев М.С. Многомерная модель представления данных по образовательной статистике // Телематика-2003. Труды X Всероссийской научно-методической конференции. Санкт-Петербург, 2003. - С. 245-246.

13. Кратчен Ф. Введение в Rational Unified Process. Второе издание. -М.: Издательский дом «Вильяме», 2002. 240 с.

14. Коробко А. В. Проблемы доступности оперативной аналитическойобработки в задачах организационного управления // Материалы XI Всерос. научн.-практ. коиф. «ПИР-2009». Красноярск: РИЦ СибГТУ. - 2009. - С. 134-136.

15. Кузнецов С. Д. Математическая Модель OLAP-кубов // Программирование. М.: Академиздатцентр "Наука" РАН. - 2009. -Т. 35,№5.-с. 26-36.

16. Левин Н. А., Мунерман В. И., Сергеев В. П. Алгебра многомерных матриц как универсальное средство моделирования данных и ее реализация в современных СУБД // Системы и средства информатики. М.: Наука. - 2004. - Вып. 14. - С. 86-99.

17. Левин Н. А., Сергеев В. П. Иерархическое представление алгебры многомерных матриц. // Деп. в ВИНИТИ 12.09.06., №1149-В2006. -13 с.

18. Мацяшек Л.А. Анализ требований и проектирование систем. Разработка информационных систем с использованием UML. М.: Издательский дом «Вильяме», 2002. - 432 с.

19. Муха B.C. Анализ многомерных данных. Монография. Мн.: УП Технопринт, 2004. - 368 с.

20. Ноженков А. И. Формирование территориальных программ медицинской помощи на основе интеллектуальных средств управления OLAP-моделированием: Дис. . канд: технических наук. Красноярск. 2007. 145 с.

21. Ноженкова J1. Ф., Евсюков А. А., Ноженков А. И. Методы управления и геоинформационного моделирования в технологии OLAP // Journal of Siberian Federal University. Engineering & Technologies. 2009. - №2. - C. 49-58.

22. Розенберг Д., Скотт К. Применение объектного моделирования с использованием UML и анализ прецедентов. М: ДМК Пресс, 2002. -160 с.

23. Сергеев В. П. Представление многомерных матриц в иерархических структурах для повышения эффективности хранения и процессов обработки данных // Системы и средства информатики. Стохастические технологии и системы. (Специальный выпуск). М.: ИПИ РАН, 2005.

24. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Том 1. М.: Издательский дом «Вильяме», 2001.-396 с.

25. Хрусталёв Е. М. Агрегация данных в OLAP-кубах. // Алеф Консалтинг & Софт. 2006. - http://www.olap.ru/home/mut.asp.

26. Шаллоуей А., Тротт Д.Р. Шаблоны проектирования. Новый подход к объектно-ориентированному анализу и проектированию. М.: Издательский дом «Вильяме», 2002. - 288 с.

27. Шовкун A.B. Обзор способов и средств для предоставления OLAP-отчетов в WEB: Сб. науч. тр. Т.2. / Науч. сессия МИФИ-2001. М.: МИФИ, 2001.

28. Шовкун А.В., Соколов4М.В. Современные способы представления метаданных: Сб. науч. тр. Т.2. / Науч. сессия МИФИ-2003-. М.: МИФИ; 2003.-С. 70-71.

29. Шовкун А.В. Управление метаданными! в хранилищах данных // Научно-техническая информация: Серия 1. М.:ВИНИТИ, 2004. -№10. - С. 8-14.

30. Эккель Б. Философия Java. Библиотека программиста. СПб.: Питер, 2001.- 880 с.

31. Adamson Ch., Venerable М. Data Warehouse Design Solutions. N. Y.: John Wiley & Sons Inc., 1998.

32. Agrawal R., Gupta A., Sarawagi S. Modeling Multidimensional Databases. // In Proceedings of 13th International Conference on Data Engineering (ICDE'97). IEEE Computer Society. - 1997. - P: 232-243.

33. Artale A., Franconi E., Guarino N., Pazzi L. Part-Whole relations in Object-centered systems: an overview. // Data and0 Knowledge Engineering (DKE). 1996. - Vol. 20. - P. 347-383.

34. Baralis E., Paraboschi S., Teniente E. Materialized views selection in a multidimensional database. // In Proceedings of the 23rd International Conference on Very Large Data Bases (VLDB'97). Morgan Kaufmann. -1997.-P. 156-165.

35. Bernstein P.A., Bergstraesser Th., Carlson J., Pal S., Sanders P., Shutt D. Microsoft Repository Version' 2 and the Open Information Model // Information Systems. 1999. - April. - Vol. 24, - № 2. - P. 71-98

36. Binh N., Tjoa M., Wagner R. An Object Oriented Multidimensional Data Model for OLAP. // In Proceedings of the It International Conference on Web-Age Information Management (WAIM'2000). LNCS. - 2000. -Springer. - Vol. 1846. - P. 69-82.

37. Cabibbo L., Torlone R. A Logical Approach to Multidimensional Databases. // In Advances in Database Technology (EDBT'98). LNCS. -1998. - Springer. - Vol. 1377. - P. 183-197.

38. Chang T. CWM Enablement Showcase // UML Forum. Tokyo, 2001. -March 21.

39. Codd E. F., Codd S. B., Salley C. T. Providing OLAP to user-analysts: An IT mandate. San Jose: Codd & Date, Inc., 1993. - 31p.

40. Datta A., Thomas H. The cube data model: a conceptual model and algebra for on-line analytical processing in data warehouses. // Decision Support Systems. 1999. - Vol. 27. - № 3. - P. 289-301.

41. Devlin B. A., Murphy P. T. An Architecture for a Business and Information System // IBM Systems Journal. 1988. - P. 27.

42. Dyreson C. E. Information retrieval from an incomplete data cube. // In Proceedings of the 22nd International Conference on Very Large Data Bases (VLDB'96). Morgan Kaufmann. - 1996. - P. 532-543.

43. Elmasri R., Navathe S. Fundamentals of Database Systems. Third edition. - Benjamin Cummings, 2000.

44. Gardner S. Building the data warehouse. // Communications of the ACM. 1998. - Vol. 41. - P. 52-60.

45. Gebhardt M., Jarke M., Jacobs S. A Toolkit for Negotiation Support Interfaces to Multi-Dimensional Data. // SIGMOD Record. 1997. - Vol. 26.-P. 348-356.

46. Gerstl P., Pribbenow S. Midwinters, end games, and body parts: A classification of part-whole relations. // International Journal of Human-Computer Studies. 1995. - Vol. 43. - P. 865-889.

47. Gingras F., Lakshmanan L. nD-SQL: A Multi-dimensional Language for Interoperability and OLAP // Proceedings of the 24th International

48. Conference on Very Large Data Bases (VLDB'98). Morgan Kaufmann.- 1998.-P. 134-145.

49. Giovinazzo W. A. Object-Oriented Data Warehouse Design. Prentice Hall, 2000.

50. Golfarelli M., Maio D., Rizzi S. The Dimensional Fact Model: a Conceptual Model for Data Warehouses. // International Journal of Cooperative Information Systems. 1998: - Vol. 7. - P. 215-247.

51. Gyssens M., Lakshmanan L. A Foundation for Multi-dimensional Databases. // In Proceedings of 23rd International Conference on Very Large Data Bases (VLDB 1997). Morgan Kaufmann Publishers. - 1997. -P. 106-115.

52. Hacid M., Sattler U. An Object-Centered Multi-dimensional Data Model with Hierarchically Structured Dimensions. // In Proceedings of the IEEE Knowledge and Data Engineering Exchange Workshop (KDEX 1997). -IEEE Computer Society. 1997. - P. 65-72.

53. Harinarayan V.', Rajaraman A., Ullman J. D. Implementing data cubes efficiently. // SIGMOD Record. 1996. - Vol. 25. - P. 205-216.

54. Inmon W.H. Metadata in the Data Warehouse: A Statement of Vision // Colorado: Pine Cone Systems, 1997. White paper. - Tech Topic 10.

55. ISO/IEC 9075:199: Information technology Database languages - SQL. // International Organization for Standardization. - 1999.

56. Java Metadata Interface (JMI), version 1.0. / Java Community Process. -2002. June.

57. JSR-000069: Java OLAP Interface (JOLAP). / Java Community Process.- 2004. June.

58. Kimball R. The Data Warehouse toolkit. John Wiley & Sons, 1996.

59. Kimball R. Slowly Changing Dimensions // DBMS Magazine. 1996. -April.

60. Kimball R., Reeves L., Ross M., Thornthwaite W. The Data Warehouse lifecycle toolkit. John Wiley & Sons, 1998.

61. Korobko A., Penkova T. OLAP-modeling of municipal procurement automation support problem // Proc. 17-th Int. Conf. on Conceptual Structures (ICCS'09). 2009. - P. 87-91.

62. Lehner W. Modeling Large Scale OLAP Scenarios. // In Advances in Database Technology (EDBT'98). LNCS. - 1998. - Springer. - Vol. 1377.-P. 153-167.

63. Lenz H., Shoshani A. Summarizability in OLAP and Statistical Data Bases. // In Proceedings of the 9th International Conference on Scientific and Statistical Database Management (SSDBM 1997). IEEE Computer Society. - 1997.-P. 132-143.

64. Li Ch., Wang X. A data model for supporting on-line analytical processing. // In Proceedings of the 5th International Conference on Information and Knowledge Management (CIKM'96). 1996. - P. 81-88.

65. Marco D. Building and Managing the Meta Data Repository: A Full Lifecycle Guide. N.Y.: John Wiley & Sons Inc., 2000.

66. Marco D. Meta Data & Knowledge Management: Meta Data Repository Myths // DM Review. 2002. - March.

67. Melnik S., Rahm E., Bernstein P. Rondo: A Programming Platform for Generic Model Management // ACM SIGMOD. 2003. - P. 193-204.

68. Common Warehouse Metamodel (CWM) Specification, version 1 .Oí / Object Management Group. 2001. - February.

69. Model Driven Architecture (MDA) A Technical Perspective. / Object Management Group. - 2001. - July.

70. Model Driven Architecture (MDA) Guide / Object Management Group; Ed. by Joaquin Miller, Jishnu Mukerji. 2003.

71. Meta Object Facility (MOF) Specification, version 1.4. / Object Management Group. 2002. - April.

72. Unified Modeling Language (UML) Specification, version 1.4. / Object Management Group. 2001. - September.

73. XML Metadata Interchange (XMI) Specification, version 1.2. / Object Management Group. 2001. - January.

74. Pedersen T., Jensen C. Research Issues in Clinical Data Warehousing. //i

75. Proceedings of the 10th International Conference on Statistical and Scientific Database Management (SSDBM 1998). IEEE Computer Society. - 1998. - P. 43-52.

76. Pendse N. The OLAP Report What is OLAP? // - Business Intelligence Ltd, 2001. Available at the URL http://www.olapreport.com/fasmi.html

77. Poole J., Chang D.,Tolbert D., Mellor D. Common Warehouse Metamodel: An Introduction to the Standard for Data Warehouse Integration. N. Y.: John Willey & Sons, Inc. - 2002.

78. Saltor F., Castellanos M., Garcia-Solaco M. Suitability of Data Models as Canonical Models for Federated DBs. // SIGMOD Record. 1991. - Vol. 20. - P. 44-48.

79. Sapia C., Blaschka M., Höfling G., Dinter B. Extending the E/R Model for the Multidimensional Paradigm. // In Proceedings of the It International Workshop on Data Warehouse and Data Mining. LNCS. -1999. - Springer. - Vol. 1552. - P. 105-116.

80. Sitompul O. S., Noah S. A. A Transformation-oriented Methodology to Knowledge-based Conceptual Data Warehouse Design // Journal of Computer Science. 2006. - Vol. 2. - P. 460-465.

81. Theodoratos D., Sellis T. Data Warehouse Configuration. // In Proceedings of the 23rd International Conference on Very Large Data Bases (VLDB'97). Morgan Kaufmann. - 1997. - P. 126-135.

82. Thomsen E. OLAP Solutions: Building Multidimensional Information Systems. N. Y.: John Wiley & Sons Inc., 1997.

83. Trujillo J., Palomar M. An Object-Oriented Approach to Multidimensional Database Conceptual Modeling. // In Proceedings of the 1st International Workshop on Data Warehousing and OLAP (DOLAP'98). -ACM. 1998.-P. 16-21.

84. Vassiliadis P. Data Warehouse Modeling and Quality Issues:.PhD thesis. Department of Electrical-, and- Computer Engineering. National Technical University of Athens. 2000.

85. Vassiliadis P. Modeling Multidimensional Databases, Cubes and Cube operations. // In Int. Conf. on Scientific and Statistical Database Management (SSDBM).-IEE.Computer Society. 1998.

86. Vassiliadis P. . Sellis T. A Survey of Logical Models for OLAP Databases. // SIGMOD Record. 1999; - Vol. 28. - P. 64-69.

87. Vetterli Th., Vaduva A., Staudt M. Metadata Standards for Data Warehousing: Open Information Modelvvs. Common Warehouse Model // SIGMOD Record. 2000; - Vol. 29. - P. 68-75:

88. Warmer J., Kleppe A. The Object Constraint language: Precise Modeling with UML. Boston: Addison-Wesley Longman Publishing Co., Inc., 1998.- 112 p.

89. Extensible Markup Language (XML). / World Wide Web Consortium. -1997. December.

90. Extensible Markup Language (XML) 1.0 (Third Edition). W3C Recommendation. / World Wide Web Consortium. 2004. - February.

91. RDF/XML Syntax Specification (Revised). W3C Recommendation. / World Wide Web Consortium. 2004. - February.