Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных

Бадмаева, Ксения Владимировна

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных

кандидата технических наук: Бадмаева, Ксения Владимировна
город: Красноярск
год: 2009
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных»

Автореферат диссертации по теме "Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных"

003476Э11

На правах рукописи

Бадмаева Ксения Владимировна

МЕТОДИКА АДАПТИВНОГО УПРАВЛЕНИЯ ПРОЦЕССОМ ПРОЕКТИРОВАНИЯ И РАЗВИТИЯ СПЕЦИАЛИЗИРОВАННЫХ ХРАНИЛИЩ ДАННЫХ

13.01 - Системный анализ, управление и обработка информации (информатика, вычислительная техника и управление)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Красноярск - 2009

003476911

Работа выполнена в Институте вычислительного моделирования СО РАН, г. Красноярск

Научный руководитель: кандидат технических наук

Исаева Ольга Сергеевна

Официальные оппоненты: доктор технических наук, профессор

Ковалев Игорь Владимирович

Ведущая организация: Институт систем энергетики

им. Л.А. Мелентьева СО РАН, г. Иркутск

Защита состоится 2 октября 2009 года в 14-00 на заседании диссертационного совета ДМ 212.099.06 при Сибирском федеральном университете по адресу: г. Красноярск, ул. Киренского, 26, УЛК 115.

С диссертацией можно ознакомиться в научной библиотеке Сибирского федерального университета по адресу: г. Красноярск, ул. Киренского, 26, Г 274.

Автореферат разослан 1 сентября 2009 года.

кандидат физико-математических наук Цыганок Дмитрий Алексеевич

Ученый секретарь диссертационного совета

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования

Необходимость оперативной аналитической обработки информации в задачах организационного управления в разных прикладных областях -в здравоохранении, социальной, экономической сферах и других - требует эффективной организации больших объемов данных, поступающих из разнородных источников. Проблемы согласованности данных, оперативности выполнения запросов и обеспечения доступа к информации могут быть решены с использованием технологии хранилищ данных (data warehouses). Чтобы повысить производительность и обеспечить эффективное применение технологии OLAP (On-Line Analytical Processing) требуется решать задачи оптимизации и развития хранилищ данных, учитывая изменяющиеся внешние условия.

Разработке и внедрению хранилищ данных (далее также «хранилищ») посвящены работы зарубежных ученых Б. Инмона, Р. Кимбалла, Э. Спирли, С. Риззи, JI. Кабиббо, Р. Торлоне, М. Голфарелли, Д. Грея, Д. Теодоратоса и др. Из отечественных исследований на эту тему следует отметить работы А.А. Сахарова и подход JI.B. Массель, заключающийся в расширенном применении репозитория хранилища данных в рамках построения ИТ-инфраструктуры системных исследований. Несмотря на обширную методологическую базу, существует необходимость создания формализованных методов и алгоритмов, обеспечивающих корректировку модели данных при изменении условий эксплуатации с целью повышения производительности с сохранением актуальности хранилища. Сложность создания таких методов и алгоритмов обуславливается тем, что для задач разработки хранилищ данных характерна сильная зависимость процесса проектирования и его результата от особенностей конкретной предметной области и опыта проектировщика.

Значительного повышения производительности можно добиться, сохраняя в хранилище обобщенные данные - материализованные представления (materialize views). Выбор данных для материализации определяется интуитивно или после учета статистики, собранной сервером хранилища данных в процессе работы пользователей с аналитической системой. Для обоснованного включения материализованных представлений в хранилище данных при проектировании и развитии не достаточно существующих методов оптимизации модели данных. Актуальна и востребована разработка методов, позволяющих формализовать выбор материализованных представлений для повышения производительности хранилища данных на всех стадиях его существования, включая самые ранние стадии эксплуатации и развития.

Объект исследования: специализированные хранилища данных.

Предмет исследования: методическое обеспечение процессов проектирования, эксплуатации и развития специализированных хранилищ данных.

Цель диссертационного исследования: повышение производительности специализированных хранилищ данных за счет создания методики адаптивного управления процессом проектирования и развития хранилищ данных, позволяющей реагировать на изменение условий эксплуатации.

Для достижения поставленной цели решены следующие задачи:

- исследование существующих методов разработки хранилищ данных и алгоритмов материализации представлений, обоснование актуальности и целесообразности разработки новых методов и алгоритмов;

- разработка методики адаптивного управления процессом проектирования и развития специализированных хранилищ данных на основе известных и предлагаемых методов и алгоритмов;

- разработка метода построения модели общей стоимости материализации представлений на основе информации о предметной области;

- разработка алгоритма выбора релевантных представлений, включающего определение релевантных элементов множества представлений и выбор представлений для материализации;

- программная реализация хранилища медико-демографических данных и информационной системы «Анализ медико-демографических процессов», проектирование модели данных хранилища социально-экономических показателей развития региона, построение банка данных интернет-системы спортивно-оздоровительного движения «Игры народов планеты».

Методы исследования, применяемые в работе, основаны на теории адаптивных систем, методах системного анализа, теории принятия решений и технологии хранилищ данных.

Новые научные результаты и положения, выносимые на защиту

1. Предложенная методика адаптивного управления процессом проектирования и развития хранилищ данных обеспечивает оригинальную формализацию процессов проектирования и развития модели данных, учитывая условия эксплуатации и специализированную информацию о предметной области, что позволяет повысить производительность хранилищ данных.

2. Новый метод формирования модели общей стоимости материализации обеспечивает оценку релевантности представлений на основе информации о предметной области.

3. Оригинальный алгоритм выбора релевантных представлений для повышения производительности хранилища данных позволяет принимать решения о материализации при отсутствии статистической информации о работе хранилища.

Теоретическая значимость

Результаты, полученные при выполнении диссертационной работы, имеют существенное значение для проектирования хранилищ данных и позволяют повышать их производительность за счет учета условий эксплуатации. В отличие от других подходов к проектированию хранилищ данных, предложенные методы и алгоритмы обеспечивают корректировку модели данных даже при отсутствии накопленной статистической информации о работе хранилища.

Практическая значимость

Практическим результатом диссертационной работы является информационно-аналитическая система «Анализ медико-демографических процессов», построенная на основе специализированного хранилища данных. Система внедрена в промышленную эксплуатацию в Красноярском краевом медицинском информационно-аналитическом центре, что подтверждается актом о внедрении. Разработанные подходы и алгоритмы могут применяться для широкого круга предметных областей по отдельности, комплексно или в сочетании с различными существующими алгоритмами поиска представлений, алгоритмами вычисления общей стоимости материализации и методами проектирования хранилищ данных.

Исследование выполнено в соответствии с планами научно-исследовательских работ Института вычислительного моделирования СО РАН по программе СО РАН - проект 4.3.1.4 «Гибридные информационно-аналитические методы, системы и технологии (Л"° гос. регистрации 01.2.007 09439); по программе фундаментальных исследований Президиума РАН - проект № 14.7 «Методы и средства OLAP-моделирования»; по грантам Президента для ведущих научных школ № НШ-3428.2006.9, № НШ-3431.2008.9 и грату РФФИ № 05-07-90244-в - «Развитие технологий хранилищ данных и оперативной аналитической обработки (OLAP) в задачах здравоохранения».

Достоверность и обоснованность полученных результатов обеспечивается корректно проведенным анализом и применением средств тех-

нологии хранилищ данных и теории принятия решений, анализом литературы и существующих разработок, обоснованием постановки задач диссертационной работы, результатами успешного применения предложенных методов и алгоритмов, а также результатами анализа эффективности применения предложенных подходов.

Личный вклад автора

Все результаты и положения, выносимые на защиту, получены непосредственно автором.

Апробация работы

Основные результаты диссертационной работы, а также результаты конкретных прикладных исследований представлены на VI Всероссийской конференции с международным участием «Новые информационные технологии в исследовании сложных структур» (Шушенское, 2006), на Международной научно-практической конференции «Общественное здоровье: инновации в экономике, управлении и правовые вопросы здравоохранения» (Новосибирск, 2005), на IX и X Всероссийской научно-практической конференции «Проблемы информатизации региона» (Красноярск, 2005, 2007), на конференции молодых ученых ИВМ СО РАН (Красноярск, 2005, 2006, 2007), на IV и V Всероссийской конференции «Всесибирский конгресс женщин-математиков» (Красноярск, 2006, 2008), на XIV Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении» (2009).

Публикации

По результатам диссертационного исследования опубликовано 14 работ, в том числе 4 статьи в журналах из списка изданий, рекомендуемых ВАК для публикации результатов кандидатских и докторских диссертаций.

Структура и объем работы

Диссертация состоит из введения, трех глав, заключения и списка использованных источников. Основное содержание работы изложено на 148 страницах текста, содержит 26 рисунков и 12 таблиц. Список использованных источников включает 127 наименований, в том числе 74 иностранные публикации и 28 Internet-источников.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении показана актуальность разработки методов и алгоритмов, выполняющих корректировку модели хранилища данных для обеспечения приемлемой скорости работы пользователей с информацией на всех этапах эксплуатации хранилища. Методы формирования модели данных должны быть применимы на этапе проектирования при отсутст-

вии накопленной статистики о работе хранилища и в процессе его развития при поступлении новых данных предметной области или дополнительного дискового пространства.

Определены цели и задачи диссертационной работы, раскрыта новизна, практическая значимость и апробация результатов диссертации. Сформулированы положения, выдвигаемые на защиту, определен непосредственный вклад автора в решаемые задачи.

В главе 1 представлены результаты исследования задач проектирования хранилищ данных, рассмотрены существующие подходы к проектированию хранилищ и алгоритмы выбора представлений для материализации (Б. Инмон, Р. Кимбалл, Э. Спирли, С. Риззи, Л. Кабиббо, Р. Торло-не, М. Голфарелли, Д. Грей, Д. Теодоратос, А. А. Сахаров и др.).

Показано, что повышение производительности хранилищ данных может быть достигнуто за счет сохранения в модели данных предварительных вычислений материализованных представлений. Обоснованное включение материализованных представлений при проектировании и эксплуатации повышает эффективность работы хранилища.

Проанализированы преимущества и ограничения существующих алгоритмов выбора представлений для материализации. Ограничением применимости существующих алгоритмов является использование статистической информации о работе хранилища данных, которая накапливается в процессе эксплуатации и отсутствует на ранних этапах проектирования. В этой связи особую значимость и актуальность приобретает разработка методов выбора представлений для материализации при отсутствии накопленной статистики. За счет возможности применения таких алгоритмов при проектировании и в процессе развития хранилища, достигается желаемая скорость получения информации на всех этапах эксплуатации хранилища данных.

Проведенный анализ литературы и программных разработок показал актуальность исследования и позволил обосновать задачи диссертации.

В главе 2 представлена методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных, ориентированная на достижение эффективной работы с данными при изменении условий эксплуатации. Предложенная методика разработана на основе применения принципа адаптации и методов системного анализа. Методика обеспечивает комплексное решение задач проектирования специализированных хранилищ данных и состоит из 3 основных этапов.

Этап 1. Исследование предметной области: выделение измерений, показателей и методик расчета. Определение источников данных, частоты их обновления. Изучение структуры исходных данных для после-

дующей разработки методов унификации и верификации данных. Определение релевантных данных с помощью методик расчета показателей предметной области.

Этап 2. Формирование модели хранилища данных: создание таблиц фактов и таблиц измерений. Включение в модель хранилища данных дополнительных структур, используя алгоритм выбора релевантных представлений. Формирование репозитория метаданных.

Этап 3. Эксплуатация хранилища данных и накопление статистики для последующего его развития с использованием алгоритма выбора релевантных представлений и рекомендаций автоматических средств системы управления базами данных (СУБД).

Методика адаптивного управления основана на использовании алгоритма выбора релевантных представлений (алгоритм релевантности). Предложенный алгоритм включает определение релевантных элементов множества представлений и выбор представлений для материализации.

Функциональная модель процесса адаптивного управления процессом проектирования и развития специализированного хранилища данных представлена на рисунке 1.

Специальная литература о предметной области

Данные

Методы экспертных оценок

Методы

построения модели данных

Исследование предметной области

Эксперт

•Результаты исследования предметной области

Формирование модели данных и реализация хранилища

Хранилище 1 данных

Проектировщик

"Алгоритм выбора

представлений

—Г-Рекомендации СУБД

Рекомендации

Эксплуатация хранилища данных

тр

"Аналитические материалы

Инструментарий хранилища данных

Автоматические средства СУБД

Рисунок 1 - Процесс адаптивного управления процессом проектирования и развития специализированных хранилищ данных

Модель описывает основные этапы проектирования и роли специалистов, участвующих в процессе. «Проектировщик» объединяет роли программиста, администратора хранилища и специалиста, проводящего исследование предметной области. «Эксперт» выступает в роли специалиста предметной области и/или пользователя хранилища данных. Спецификация управления процессом проектирования и развития специализированных хранилищ данных представлена в нотации таблицы переходов состояний.

В процессе эксплуатации хранилища данных автоматическими средствами СУБД по полям таблиц хранилища собираются и обрабатываются статистические сведения, на основе которых формируются рекомендации по внесению изменений в модель данных. При поступлении новой информации предметной области или дополнительного дискового пространства, в случае отсутствия рекомендаций СУБД, решение об изменении модели хранилища данных принимается на основе выполнения алгоритма релевантности.

Для реализации алгоритма релевантности в работе предложен метод формирования модели общей стоимости материализации представлений в хранилище данных. Модель хранилища данных можно представить в виде многомерной модели данных и множества материализованных представлений: МБ IV = < МОИВ, МУ >, где \IDDB = <Д^>- многомерная модель данных, И - множество таблиц измерений, Р - множество таблиц фактов; МУ = { V,} - множество материализованных представлений, г = 1,5 , л - количество материализованных представлений. Каждому представлению соответствует множество формирующих его атрибутов: V, = {А,}, А, а А, / = 1, .V , А - множество атрибутов таблиц измерений и фактов.

Критерием оптимальности хранилища данных с дополнительными структурами является стоимость материализации представлений, оценка которой впервые предложена Харинараяном в 1996. В общем случае стоимость материализации множества представлений МУ складывается из стоимости обслуживания и стоимости выполнения запросов и формируется, используя информацию о рабочей нагрузке:

Соз^М¥) = сгС£) + с2-СМ , (1)

где с,, с2 - весовые коэффициенты; С() - стоимость выполнения запросов на множестве материализованных представлений МУ; СМ - стоимость обслуживания материализованных представлений.

Вместо элемента из (1), который не может быть вычислен на начальном этапе проектирования из-за отсутствия статистики о работе хранилища данных предлагается использовать элемент СУ, рассчитываемый по формуле:

= (2)

/=1

где /т(У,) - ^ (а,) /1 А/ | - частота использования результатов У,

,/еЦ

представления; А - множество всех атрибутов таблиц измерений и фактов; А,: а А - множество атрибутов входящих в V/ представление; | А11 -

количество атрибутов в У, представлении; {а1) = - частота

встречаемости атрибута а,, где | Ма. ] - количество методик расчета показателей предметной области, в которых встречается а,-, ТУ- количество рассматриваемых расчетных методик; Са(У1) - стоимость формирования У, представления, необходимого для реализации расчетной методики М,, используя материализованные представления или исходные данные.

Предложенная формула (2) обеспечивает возможность вычисления общей стоимости материализации представлений в процессе проектирования и развития хранилища данных при отсутствии накопленной статистической информации о его работе. Для решения задачи повышения производительности хранилища данных, предложены алгоритмы определения и выбора релевантных представлений, оценивающие стоимость материализации разработанным способом.

На этапе проектирования выполняется исследование предметной области и определятся набор методик расчета показателей М-{М!} ,

¡ = предназначенных для анализа данных. Методики включают в себя правила вычисления показателей предметной области. Каждой методике предметной области ставится в соответствие числовое значение Б(МI), отражающее ее семантическую важность. Частота использования данных в хранилище Р{М() оценивается через временной период обновления результатов расчетных методик, связанный с поступлением новых данных. Для этого необходимо определить наибольший период обновления данных для расчета методик - Т, характерный для данной предметной области и вычислить частоту применения результатов каж-

дой методики за этот период. Частота применения каждой методики расчета показателей предметной области определяется методами экспертных оценок.

Входными данными алгоритма определения релевантных представлений является множество методик предметной области с рассчитанной

семантической важностью и частотой использования: М-{М{} , / = 1,jV; S{Mi) e [0;<т]; F(Mt) е [0; в\, где а - некоторое максимальное значение, соответствующее наибольшей важности; 9 - наибольшая частота использования за период Т.

Множество методик расчета показателей предметной области разбивается на классы по частоте использования. Количество классов К для разбиения методик выбирается на основе исследования предметной области с помощью экспертных оценок. Алгоритм определения релевантных представлений выполняется по шагам:

Шаг 1. Разбить множество расчетных методик на классы по частоте их использования.

Пусть К - количество классов, на которое разбивается интервал частоты применения расчетных методик:

MHO; portion ,)u... u [portion к_х; 6>], тогда каждая из частей интервала определяет отдельный класс: М, б Р , если F(Mt) е [portion к_j; 9], Mi е Pj, если F{Mi) s [portionj_x; portion ;), Mi e PK, если F(Mt) e [0; portion,), где P ={Pl,...,Pj,...,PK} - множество классов частот использования расчетных методик, i-l,N, j = 2, К -1.

Шаг 2. Сформировать упорядоченное по релевантности множество расчетных методик предметной области.

Формируются классы методик расчета показателей предметной области по частоте и семантической важности. Входные данные:

М = i = lN, S(M,.)e[0;o-], ) е [О; 0], К. Требует-

ся выделить s уровней на интервале [0;сг]:

[0;сг]= [ 0; levelг) u [level,; level2) и... и [level; <r ]. Количество уровней s и границы их интервалов определяются экспертами. В первую очередь необходимо учесть элементы, имеющие наибольшую оценку семантической важности. Правила разбиения определяют

классы расчетных методик по уровням семантической важности и классам частоты использования:

М, е R/ , если F{M,) е Р, и S(M,) б [level ^; а] ,

Mi eRj2, если F{Mi)ePj и S(М,,) е [level s_2;level ) ,

M, e R/, если F(M,) e ?} и S(M,) e [O; level,) , j = \JK..

Выходные данные: RM -{R^ ,R2 ^.^R^ ,...,RKl ,RK2 ,...,RKS} множество классов расчетных методик, упорядоченное по уменьшению релевантности и частоты использования. Пошаговое построение RM с промежуточным выделением его элементов позволит выполнять перерасчет множества релевантных представлений за счет изменения или исключения из рассмотрения уровней семантической важности. Шаг 3. Построить множество классов атрибутов методик. Предлагаемый метод предназначен для выявления релевантных элементов предметной области. Для определения множеств атрибутов, участвующих в формировании расчетных методик, элементы множества

RM группируются по частоте использования: R] ,...,

Rm = {Rk\Rk2 ,...,Rks} . Множество релевантных атрибутов МА формируется, используются предложенные в работе алгоритмы «пересечения» и «исключения» (рисунок 2).

В алгоритме «исключения» элементы множества атрибутов, участвующих в формировании наиболее важных расчетных методик, вычисляются по формуле М* = Ах, Mf =AJ\[jAl, где / = 1, (у -1), j =2,К,

Aj, Al - множества атрибутов методик RJM и R'M соответственно.

Шаг 4. Упорядочить по релевантности множество представлений. В результате выполнения алгоритма оценки релевантности атрибутов

построено множество атрибутов МЛ . Количество элементов множества

зависит от выбранного алгоритма. Для алгоритма «исключения» количество элементов совпадает с количеством классов расчетных методик К, заданным экспертным путем: Мл = {Mf}, где / =1, К.

Релевантность представлений определяется входящими в них атрибутами. На основе множества МА формируется множество представлений

М = {Л/, }, где Л/, - множество всевозможных сочетаний элементов М? и Л/Д,.

Рисунок 2 - Блок-схема алгоритма «исключения»

На рисунке 3 представлена блок-схема алгоритма выбора представлений для материализации. Особенностью алгоритма является использование упорядоченного по релевантности множества представлении М

как множество кандидатов на материализацию, что позволяет учесть требования пользователей, сократить пространство поиска и получить решение без накопленной информации о работе хранилища данных.

/ МУ, мсу 7

/ Р{МСУ),РГ /

жСУ \

Нет

Цикл 1

МУ = МУиМс

( Конец

еМСУ

Ш = МУиМ7

рР = рг-р(м7)

Цикл 2

СУ

^:= тах я ГУ)

1 ]/ ут/,0" >

МУ = МУ<иУр Рр=Рр-Р(У,)

М':1 IV,

Цикл 2

№-у — 0 или Рр< пип Р{У)

\ ЧУМ™ /

(г

Цикл 1

мСУ =0, / =

Рисунок 3 - Блок-схема алгоритма выбора представлений

Входными данными алгоритма выбора представлений для материализации являются: множество материализованных представлений МУ (может быть пустым); множество представлений кандидатов на материализацию Мсг, построенное по алгоритму выбора релевантных представлений; объем дискового пространства , выделенного для материализации представлений и пространство, необходимое для материализации всех кандидатов Ь(МСУ ). Другие обозначения, используемые в блок-схеме: Со5/(МК + У}) - общая стоимость материализации при добавлении V] представления к МУ\ V е МСУ - представление из множества Ма ; D(VJ) - пространство, занимаемое представлением У]. В алгоритме используется показатель, позволяющий определить выгоду материализации в пространстве, занимаемом представлениями МУ, который предложен М.-Ч. Хунгом и рассчитывается по формуле:

£и ) = (Сох1(МУ) - СозКМУ + V; ))/Я(К,.) (3)

Алгоритм останавливается, после того как множество МУ сформировано или когда исчерпано доступное дисковое пространство.

Алгоритм релевантности используется в зависимости от изменений внешних условий, инициировавших его вызов - поступление новой информации, выделение или сокращение дискового пространства, при недостатке статистической информации о работе хранилища данных. Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных предполагает применение алгоритма релевантности. Использование алгоритма релевантности обеспечивает развитие хранилища и повышает его производительность начиная с ранних этапов эксплуатации за счет обоснованного включения в модель данных материализованных представлений.

В главе 3 описаны результаты применения разработанного методического и алгоритмического обеспечения для решения задачи построения специализированного хранилища медико-демографических данных. Разработка специализированного хранилища медико-демографических данных выполнялась на основе методических рекомендаций специалистов Красноярского медицинского информационно-аналитического центра (КМИАЦ). Для создания информационной системы оперативного анализа медико-демографических данных использовался аналитический программный комплекс «Аналитик» (разработка ИВМ СО РАН), включающий систему генерации и администрирования хранилищ данных «Ме-

неджер хранилища» и аналитическую инструментальную среду, функционирующую под управлением СУБД Oracle 10g (рисунок 4).

Рисунок 4 - Функциональная модель разработки специализированного хранилища медико-демографических данных

Данные, необходимые для анализа медико-демографических процессов, содержатся в информационных источниках, накопленных за длительный период времени и имеющих разные форматы хранения. Источ-' ники данных содержат записи о случаях смерти по территориям Красноярского края, данные по России (Госкомстат РФ) и данные о численности населения (демографический справочник, ведется специалистами КМИАЦ).

Проектирование модели данных хранилища выполняется по расширенной пространственной модели Р. Кимбалла, ориентированной на реализацию в реляционной базе данных. По проекту пространственной модели хранилища данных осуществляется ее физическая реализация (рисунок 5). Для повышения скорости обработки данных, выполняется вы-

бор и построение дополнительных структур модели данных - материализованных представлений, содержащих агрегированные результаты.

Рисунок 5 - Построение модели хранилища данных Выбор представлений для материализации осуществляется на основе алгоритма релевантности, используя информацию о расчетных методиках предметной области, частоте обновления источников данных и сведения о физической реализации основных информационных объектов пространственной модели. Далее осуществляется добавление выбранного множества представлений для материализации к основным структурам модели хранилища данных (рисунок 6).

В соответствии с реализованной моделью хранилища данных с дополнительными структурами и определенными на этапе исследования предметной области требованиями к преобразованию данных, разрабатываются средства унификации, наполнения и актуализации хранилища. Исходная информация пополняется ежегодно. Для сокращения трудозатрат по обработке вновь поступивших данных созданы ЕТЪ-пакеты, которые содержат совокупность присоединенных процедур, выполняющихся в заданном порядке.

Данные

Справочные

данные

КМИАЦ

Расчетные методики

Алгоритм релевантности

Формирование множества релевантных представлений

Эксперт

Множество

релевантных

представлений

Выбор представлений для материализации

ми

Частота

обновления

данных

Физическая модель данных

Множество 'представлений для материализации

Модель данных с представлениями

Добавление представлений в хранилище данных

Проектировщик

"Менеджер хранилища"

Рисунок 6 - Выбор и построение дополнительных структур данных

Применение предложенного в работе алгоритма выбора представлений рассмотрено на примере группы расчетных методик половозрастной смертности. Каждая методика включает обязательные для рассмотрения измерения «пол», «возраст» и факт «число умерших». Узлы решетки представляют результат сгруппированных по заданным измерениям данных таблицы фактов. Для упрощения записи введены обозначения узлов в соответствии с входящими в них измерениями: У - год, Я - район, Т - тип поселения, Р - причина смерти, М - место смерти, обязательные измерения (пол, возраст) объединяются под одной буквой - Б. В структурной решетке (рисунок 7) цветом выделены представления, входящие в множество материализованных представлений, построенное с помощью предложенного алгоритма.

Выполнено сравнение результатов применения предложенного алгоритма выбора представлений для материализации и алгоритма Хунга. Вычислительная эффективность алгоритмов выбора представлений для материализации определяется количеством вычислений общей стоимости материализации. Показано, что для выполнения предложенного алгоритма требуется меньшее количество вычислений общей стоимости материализации. При усилении ограничения дискового пространства предложенный алгоритм позволяет найти решение, которое лучше соответствует требованиям пользователей.

Рисунок 7 - Результат выполнения алгоритма в структурной решетке

Выполнен сравнительный анализ характеристик существующих подходов к проектированию и развитию хранилища данных. Преимущество предложенной методики адаптивного управления процессом проектирования и развития состоит в том, что в отличие от других подходов, обеспечивается формализованное включение в модель хранилища данных материализованных представлений при отсутствии накопленной статистической информации о хранимых данных. Предложенная методика обеспечивает комплексное решение задач проектирования и развития хранилищ и является естественным дополнением к уже существующим и активно применяемым методам и подходам к проектированию хранилищ данных.

В заключении приведены результаты исследований, проведенные автором диссертационной работы, сформулированы выводы. Анализ практической значимости и перспективности полученных результатов позволяет сделать выводы о целесообразности применения разработанных методических и алгоритмических средств для создания специализированных хранилищ данных в задачах информационно-аналитической поддержки принятия решений.

Разработанная методика адаптивного управления применима при создании и развитии специализированных хранилищ данных для повышения их производительности. Методика предоставляет формализованные способы развития модели хранилища данных при изменении условий эксплуатации и появлении новой информации или дополнительного дискового пространства независимо от наличия накопленной статистики о работе хранилища данных.

В Приложении 1 представлен фрагмент модели хранилища данных социально-экономических показателей развития региона.

В Приложении 2 приведена интернет-система спортивно-оздоровительного движения «Игры народов планеты».

В Приложении 3 приведены результаты эксперимента анализа скорости доступа к данным.

В Приложении 4 приведена копия акта о внедрении результатов диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. На основе анализа предметной области и обзора научных публикаций обоснована актуальность разработки методов и алгоритмов, обеспечивающих повышение производительности хранилищ данных.

2. Предложена методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных. Данная методика позволяет повышать производительность хранилищ данных за счет учета условий эксплуатации и использования алгоритма выбора релевантных представлений для материализации.

3. Разработан метод формирования модели общей стоимости материализации представлений на основе информации о предметной области, обеспечивающий использование алгоритмов выбора представлений для материализации при отсутствии накопленной статистической информации о работе хранилища данных.

4. Разработан алгоритм выбора релевантных представлений, учитывающий требования пользователей и позволяющий принимать решения о включении материализованных представлений в хранилище данных на основе информации о предметной области.

5. Предложенные методические и алгоритмические средства применены для построения специализированного хранилища медико-демографических данных. На основе специализированного хранилища данных разработана информационная система «Анализ медико-демографических процессов».

6. Полученные результаты также использованы в проектировании модели данных хранилища социально-экономических показателей развития региона и построении банка данных интернет-системы спортивно-оздоровительного движения «Игры народов планеты».

Дальнейшее развитие предложенной методики адаптивного управления предполагает интеграцию с существующими подходами и средствами развития структуры хранилища данных для расширения области действия алгоритмов и повышения их универсальности.

ПУБЛИКАЦИИ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ

Основные результаты исследований по теме диссертации, опубликованные автором К.В. Бадмаевой (Шалдыбиной) в изданиях, рекомендуемых ВАК для публикации результатов кандидатских и докторских диссертаций:

1. Бадмаева К.В. Алгоритм оценки релевантности представлений для материализации в специализированном хранилище данных / К.В. Бадмаева // Вестник Сибирского государственного аэрокосмического университета им. академика Решетнева. Выпуск 1(22). В 2 частях. 4.2. - 2009. - С. 60-64.

2. Бадмаева К.В. Проектирование специализированного хранилища показателей социально-экономического развития региона / Т.Г. Пенькова, Л.Ф. Ноженкова, К.В. Бадмаева // Вестник КрасГАУ. -2007.-№ 14.-С. 122-128.

3. Шалдыбина К.В. Проблемы построения специализированного хранилища демографических данных / О.С. Исаева, К.В. Шалдыбина // Вестник Красноярского государственного университета, «Физико-математические науки». - 2006. - № 1. - С. 222-227.

4. Шалдыбина К.В. Технологические особенности оперативного анализа медико-демографических данных / О.С. Исаева, К.В. Шалдыбина //Вестник Томского государственного университета. Приложение. -2006.-№ 18.-С. 169-174.

Публикации в прочих изданиях:

5. Шалдыбина К.В. Методы подготовки демографических данных для оперативного анализа / К.А. Виноградов, A.B. Шульмин, О.С. Исаева, К.В. Шалдыбина // Материалы I Международной научно-практической конференции «Общественное здоровье: инновации в экономике, управлении и правовые вопросы здравоохранения». Т.2. / Сиб-медиздат НГМА. - Новосибирск, 2005. - С. 86-88.

6. Бадмаева К.В. Формирование стоимостной модели для проектирования хранилищ данных / К.В. Бадмаева // Материалы VII всероссийской

научно-практической конференции «Современные информационные технологии в науке, образовании и практике» / ОГУ. - Оренбург, 2008. -С. 332-341.

7. Бадмаева К.В. Методика адаптивного проектирования специализированных хранилищ данных / К.В. Бадмаева // Труды XIV Байкальской конференции «Информационные и математические технологии в науке и управлении». Часть III. - Иркутск: ИСЭМ СО РАН, 2009 -С. 214-221.

8. Бадмаева К.В. Интернет средства мониторинга состояния здоровья населения / К.В. Бадмаева // Материалы пятого Всесибирского конгресса женщин-математиков / РИО СФУ. - Красноярск, 2008. - С. 38-43.

9. Бадмаева К.В. Проектирование и реализация модели данных системы ведения банка информации спортивно-оздоровительного движения «Игры народов планеты» / К.В. Бадмаева // Материалы десятой Всероссийской научно-практической конференции «Проблемы информатизации региона» ПИР-2007. В 2 т. Т.2. / Сиб. федер. ун-т; Политехи, ин-т. -Красноярск, 2007. - С. 77-84.

Ю.Шалдыбина К.В. Структурирование данных для мониторинга социально-экономического развития региона / Т.Г. Пенькова, К.В. Шалдыбина //«Открытое образование». Приложение. 2006. -С. 171-174.

11.Шалдыбина К.В. Построение хранилища данных для мониторинга демографических процессов / К.А. Виноградов, A.B. Шульмин, О.С. Исаева, К.В. Шалдыбина // Материалы девятой Всероссийской научно-практической конференции «Проблемы информатизации региона» ПИР-2005. В 2 т. Т.2. / ИПЦ КГТУ. - Красноярск, 2005. -С. 32-38.

12.Бадмаева К.В. Проектирование и реализация системы ведения мирового банка информации для спортивно-оздоровительного движения «Игры народов планеты» / К.В. Бадмаева // Материалы конференции молодых ученых / ИВМ СО РАН. - Красноярск, 2007. - С. 38-42.

13.Шалдыбина К.В. Модель хранилища данных для анализа показателей развития региона / Т.Г. Пенькова, К.В. Шалдыбина // Материалы конференции молодых ученых / ИВМ СО РАН. - Красноярск, 2006. -С. 78-82.

Н.Шалдыбина К.В. Средства накопления, унификации и актуализации данных для анализа медико-демографических процессов / К.В. Шалдыбина // Материалы конференции молодых ученых / ИВМ СО РАН. - Красноярск, 2005. - С. 75-79.

Бадмаева Ксения Владимировна

Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных

Автореферат диссертации

Подписано в печать 31 августа 2009 г. Формат 60x84/16 Усл. печ. л. 1. Тираж 100 экз.

Отпечатано на ризографе ИВМ СО РАН 660036, Красноярск, Академгородок

Оглавление автор диссертации — кандидата технических наук Бадмаева, Ксения Владимировна

Введение.

1 Проблемы и технологии проектирования хранилищ данных.

1.1 Поддержка управления на основе хранилищ данных.

1.2 Технология и этапы проектирования хранилищ данных.

1.3 Повышение производительности хранилищ данных с помощью предварительных вычислений.

1.4 Методы проектирования хранилищ данных.

1.5 Принцип адаптации для проектирования хранилищ данных.

1.6 Задачи диссертационной работы.

1.7 Выводы к главе 1.

2 Методические и алгоритмические средства проектирования и развития специализированных хранилищ данных.

2.1 Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных.

2.1.1 Управляющая модель процесса проектирования и развития специализированных хранилищ данных.

2.1.2 Состав и описание функций модели.

2.2 Модель общей стоимости материализации представлений.

2.2.1 Модель хранилища данных с дополнительными структурами.

2.2.2 Формирование модели общей стоимости материализации представлений на основе данных о предметной области.

2.3 Алгоритм определения релевантных представлений для материализации.

2.3.1 Формирование релевантных подмножеств представлений на основе данных о предметной области.

2.3.2 Пример применения алгоритма определения релевантных представлений.

2.4 Выбор представлений для материализации.

2.4.1 Метрики прироста и упадка.

2.4.2 Алгоритм выбора представлений для материализации.

2.5 Алгоритм выбора релевантных представлений для материализации в специализированном хранилище данных.

2.5.1 Процедура применения алгоритма релевантных представлений для материализации.

2.5.2 Изменение модели хранилища данных при поступлении новой информации о предметной области.

2.5.3 Модификация модели хранилища данных при поступлении дополнительного дискового пространства.

2.5.4 Сокращение пространства материализации представлений.

2.6 Выводы к главе 2.

3 Применение методики адаптивного управления процессом проектирования* и'развития специализированных хранилищ данных

3.1 Построение специализированных хранилищ данных в различных прикладных областях.

3.2 Проектирование и реализация специализированного хранилища медико-демографических данных.

3.2.1 Исследование предметной области.

3.2.2 Проектирование и реализация модели хранилища данных.

3.2.3 Определение входных данных для алгоритма релевантности

3.2.4 Общая стоимость материализации».

3.2.5 Выбор представлений.для материализации.

3.2.6 Разработка методов наполнения хранилища данных.

3.2.7 Реализация интерфейса для конечного пользователя.

3.3 Сравнение разработанной методики адаптивного управления с существующими подходами.

3.4 Выводы к главе 3.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Бадмаева, Ксения Владимировна

Актуальность исследования

Необходимость оперативной аналитической обработки информации в задачах организационного управления в разных прикладных областях - в здравоохранении, социальной, экономической сферах и других — требует эффективной организации больших объемов данных, поступающих из разнородных источников. Проблемы согласованности данных, оперативности выполнения запросов и обеспечения доступа к информации могут быть решены с использованием технологии хранилищ данных (data warehouses). Чтобы повысить производительность и обеспечить эффективное применение технологии OLAP (On-Line Analytical Processing) требуется решать задачи оптимизации и развития хранилищ данных, учитывая изменяющиеся внешние условия.

Значительного повышения производительности можно добиться, сохраняя в хранилище обобщенные данные — материализованные представления materialize views). Выбор данных для материализации определяется интуитивно или после учета статистики, собранной сервером хранилища!данных в процессе работы пользователей с аналитической системой. Для обоснованного включения материализованных представлений в хранилище данных при проектировании и развитии не достаточно. существующих методов оптимизации модели данных. Актуальна и востребована разработка методов, позволяющих формализовать выбор материализованных представлений для повышения производительности хранилища данных на всех стадиях; его существования, включая самые ранние: стадии эксплуатации и развития.

Исследование выполнено в соответствии с планами научно-исследовательских работ Института вычислительного моделирования СО РАН' по программе GO РАН — проект 4.3.1.4 «Гибридные информационно-аналитические методы, системы и технологии (№ гос регистрации 01.2.007 09439); по программе фундаментальных исследований Президиума РАН -проект № 14.7 «Методы, и средства OLAP-моделирования»; по грантам Президента для ведущих научных школ № НШ-3428.2006.9;— «Развитие методов компьютерного моделирования и аналитической обработки, данных в системах информационно-телекоммуникационной поддержки регионального управления» и № ШП-3431.2008.9 - «Методы, компьютерного; моделирования и аналитической обработки данных в системах информационно-телекоммуникационной поддержки регионального управления» и гранту РФФИ № 05-07-90244-в — «Развитие технологий хранилищ данных и оперативной аналитической обработки (OLAP) в задачах здравоохранения».

Цель диссертационной работы

Цель диссертационной работы состоит в повышении производительности специализированных хранилищ данных за счет создания методики адаптивного управления процессом проектирования и развития хранилищ данных, позволяющей реагировать на изменение условий эксплуатации.

Для достижения поставленной цели решены следующие задачи:

Методы исследования

Основная идея работы

Основная идея работы заключается в разработке методов и алгоритмов, позволяющих повысить производительность хранилища на всех этапах его эксплуатации и развития. Для обеспечения эффективного использования специализированного хранилища предложена методика адаптивного управления, включающая формализованные действия по проектированию модели данных с обоснованным включением материализованных представлений, а также действия по развитию модели хранилища данных в случае изменения условий эксплуатации.

Для повышения производительности модели данных хранилища и учета изменения условий эксплуатации при поступлении новой информации о предметной области или дискового пространства, предложены алгоритмы выбора представлений, расширяющие модель данных хранилища. Выбор представлений выполняется на основе множества релевантных представлений и оценки стоимости их материализации с помощью модели, сформированной на основе данных о предметной области.

Новые научные результаты и положения, выноснмые на защиту

1.Предложенная методика адаптивного управления процессом проектирования и развития хранилищ данных обеспечивает оригинальную формализацию процессов проектирования и развития модели данных, учитывая условия эксплуатации и специализированную информацию о предметной области, что позволяет повысить производительность хранилищ данных.

2.Новый метод формирования модели общей стоимости материализации обеспечивает оценку релевантности представлений на основе информации о предметной области.

3.Оригинальный алгоритм выбора релевантных представлений для повышения производительности хранилища данных позволяет принимать решения о материализации при отсутствии статистической информации о работе хранилища.

Теоретическая значимость

Результаты, полученные при выполнении диссертационной работы, имеют существенное значение для проектирования хранилищ данных и позволяют повышать их производительность за счет учета условий эксплуатации. В отличие от других подходов к проектированию хранилищ данных, предложенные методы и алгоритмы обеспечивают корректировку модели данных даже при' отсутствии-, накопленной, статистической: информации о работе хранилища.

Практическая значимость

Практическим результатом диссертационной работы является информационно-аналитическая; система «Анализ медико-демографических процессов»,, построенная на основе специализированного хранилища данных. Система внедрена в промышленную эксплуатацию в Красноярском краевом медицинском информационно-аналитическом центре; что подтверждается актом о, внедрении. Полученные результаты также использованы в проектировании модели данных хранилища социально-экономических показателей развития региона и построении банка данных интернет-системы спортивно-оздоровительного движения «Игры народов планеты».

Разработанные подходы и алгоритмы могут применяться для- широкого круга предметных, областей по отдельности, комплексно или в сочетании с различными; существующими алгоритмами поиска представлений, алгоритмами вычисления! общей" стоимости: материализации и методами проектирования хранилищ данных. .

Достоверность и обоснованность

Достоверность и обоснованность полученных результатов обеспечивается корректно проведенным анализом и применением средств1 технологии хранилищ данных и теории принятия решений, анализом литературы и существующих разработок, обоснованием постановки задач диссертационной работы, результатами успешного применения предложенных методов и алгоритмов; а также результатами анализа эффективности применения^ предложенных подходов.

Личный вклад автора

Основные результаты, представленные в работе, получены .непосредственно автором, а именно: методика проектирования и развития специализированных хранилищ- данных на основе адаптивного подхода; метод формирования общей стоимости материализации; представлений; алгоритма выбора релевантных представлений; включающего определение релевантных элементов множества, представлений и выбор представлений для материализации. .

Автор является одним.из разработчиков; специализированного хранилища медико-демографических данных, информационно-аналитической системы «Анализ медико-демографических процессов», модели данных хранилища; социально-экономических показателей; развития? региона, разработанных коллективом отдела прикладной информатики ИВМ СО РАН. Автор является разработчиком интернет-системы для ведения- банка данных спортивно-оздоровительного движения «Игры народов планеты».

Апробация работы Основные результаты диссертационной работы- а также результаты конкретных прикладных исследований представлены на VI Всероссийской; конференции с международным участием «Новые информационные технологии в исследовании сложных структур» (Шушенское, 2006), на Международной научно-практической конференции «Общественное здоровье: инновации в экономике,, управлении и правовые вопросы здравоохранения» (Новосибирск, 2005), на IX и X Всероссийской научно-практической конференции «Проблемы информатизации региона» (Красноярск, 2005; 2007), на конференции молодых ученых ИВМ СО РАН (Красноярск, 2005, 2006, 2007), на IV и V Всероссийской конференции «Всесибирский конгресс женщин-математиков» (Красноярск, 2006, 2008), на XIV Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении» (2009).

Публикации

По результатам диссертационной работы опубликовано 14 работ, в том числе 4 статьи в журналах из списка изданий, рекомендуемых ВАК для публикации результатов кандидатских и докторских диссертаций.

Структура и объем работы

Диссертация состоит из введения, 3 глав, заключения и списка использованных источников. Основное содержание работы изложено на 148 страницах текста, содержит 26 рисунков и 12 таблиц. Список использованных источников включает 127 наименований, в том числе 74 иностранные публикации и 28 Internet-источника.

Заключение диссертация на тему "Методика адаптивного управления процессом проектирования и развития специализированных хранилищ данных"

3.4 Выводы к главе 3

Представлены результаты применения разработанного методического и алгоритмического обеспечения для решения задачи построения специализированного хранилища медико-демографических данных. Выполнен сравнительный анализ характеристик существующих подходов к проектированию и развитию хранилищ данных. Показано, что предлагаемый подход обеспечивает комплексное решение проектирования и развития специализированных хранилищ данных, и является естественным дополнением к уже существующим и активно применяемым методам и подходам к проектированию хранилищ данных.

Особенностью предложенной методики является обеспечение оригинальной формализации процессов проектирования и развития модели хранилища данных, учитывающих условия эксплуатации хранилища и специализированную информацию о предметной области. Показано, что использование предложенных алгоритмов обеспечивает сокращение пространства поиска, существенно уменьшает количество вычислений общей стоимости материализации и позволяет получить решение, учитывающее требования пользователей.

Показана целесообразность использования материализованных представлений для сокращения времени доступа к данным на задаче исследования медико-демографических процессов.

Заключение

В результате исследований, проведенных автором диссертационной работы, получены следующие основные результаты:

Анализ практической значимости и перспективности полученных результатов позволяет сделать следующие выводы.

1. Целесообразно применять разработанные методические и алгоритмические средства проектирования для создания специализированных хранилищ данных в задачах информационно-аналитической поддержки принятия решений для органов территориального управления.

2. Предложенная методика адаптивного управления применима в процессе создания и развития хранилищ для включения в модель данных дополнительных структур, повышающих скорость доступа к информации. Методика предоставляет формализованные способы развития хранилища данных при изменении условий его эксплуатации и появлении новой информации или дополнительного дискового пространства.

3. Разработанное методическое и алгоритмическое обеспечение реализовано в автоматизированной информационной системе «Анализ медико-демографических процессов».1 Результаты диссертационной работы используются в Красноярском Медицинском информационно-аналитическом центре. Апробация разработанных алгоритмов позволяет сделать вывод о непротиворечивости полученных результатов и, следовательно, об адекватности методики.

4. Дальнейшее развитие методики адаптивного управления предполагает интеграцию с существующими подходами и средствами развития структуры хранилища данных для расширения области действия алгоритмов и повышения их универсальности.

Использование результатов диссертационной работы подтверждено актом о внедрении в промышленную эксплуатацию в Красноярском медицинском информационно-аналитическом центре.

Библиография Бадмаева, Ксения Владимировна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Альперович, М. Введение в OLAP и многомерные базы данных / М. Альперович // PC Week. 1999. - №3. - С. 84-91.

2. Аналитический программный комплекс «Нострадамус» Электронный ресурс.: официальный сайт разработчика, — 2009. — Режим доступа: http ://www.programbank.ru/

3. Бадмаева, К.В. Интернет средства мониторинга состояния здоровья населения / К.В. Бадмаева // Материалы пятого Всесибирского конгресса женщин-математиков / РИО СФУ. Красноярск, 2008. - С. 38-43.

4. Бадмаева, К.В. Проектирование и реализация системы ведения мирового банка информации для спортивно-оздоровительного движения «Игры народов планеты» / К.В. Бадмаева // Материалы конференции молодых ученых / ИВМ СО РАН. Красноярск, 2007. - С. 38-42.

5. Бешелев, С.Д. Математико-статистические методы экспертных оценок / С.Д. Бешелев, Ф.Г. Гурвич; Изд.2, перераб. и доп., 1980. - 264 с.

6. Введение в базы данных Электронный ресурс.: учебное пособие / Ю.А. Зеленков. 1997. - Режим доступа: http://www.mstu.edu.ru/ education/materials/zelenkov/toc.html

7. Висков, А.В. Средства описания многомерных моделей данных /А.В. Висков, М.Б.Фомин // Вестник РУДН. 2003. -Т. 2. - №1. -С. 128-139.

8. Горохова, А.В. OLAP-средства системы «Аналитик» / А.В. Горохова, П.П. Ишенин, М.И. Никитина // Труды Всероссийской конференции

9. Информационно-аналитические системы и технологии в здравоохранении и ОМС» / КМИАЦ. Красноярск, 2002. - С.220-228.

10. Гретцер, Г. Общая теория решеток / Г. Гретцер: М.: Мир, 1981. - 456 с.

11. Дейт, К. Дж. Введение в системы баз данных, 7-е изд.: пер. с англ. / К.Дж. Дейт. М.: Вильяме, 2001.-1072 с.

12. Евланов, Л.Г. Экспертные оценки в управлении. / Л.Г. Евланов, В.А. Кутузов.-М;: Экономика, 1978. 134 с.

13. Исаева, О.С. Проблемы построения специализированного хранилища демографических данных / О.С. Исаева, К.В. Шалдыбина // Вестник Красноярского государственного . университета, «Физико-математические науки». — 2006: — № 1. — С. 222-227.

14. Исаева, О.С. Технологические особенности оперативного анализа медико-демографических данных / О.С.Исаева, К.В. Шалдыбина //Вестник Томского^государственного университета. Приложение. — 2006. № 18. -С. 169-174.

15. Калянов, Г.Н. CASE структурный системный анализ (автоматизация и применение) / Г.Н. Калянов; —М.: ЛОРИ, 1996. 242 с.

16. Каменова, М. Моделирование бизнеса. Методология ARIS / М. Каменова, А. Громов, М. Ферапонтов, А. Шматалюк // М.: Метатех-нология, — 2001. — 327 с.

17. Конноли, Т. Базы данных: проектирование, реализация и сопровождение. Теория и практика, 2-е изд.: пер. с англ. / Т. Конноли, К. Бегг, А. Страчан. М:: Вильяме, 2001. - 1120 с.

18. Куропаткин, П.В. Оптимальные и адаптивные системы / П.В; Куропаткин//М.: Высш.школа; 1980. - 287 с.

19. Маклаков; С.В. Bpwin и Erwin CASE средства разработки информационных систем / С.В: Маклаков. - М!: Диалог-МИФИ; 1999: - 256 с.

20. Марко, Д.А. Методология? структурного анализа и проектирования / Д. Марко, К. Макгоуэн. М.: Мётатехнология, 1992. - 239 с.

21. Массель, JI.B. ИТ-Инфраструктура научных исследований: методический подход ш реализациям / JI.В.Масс ель, Е.А.Болдырев, Н.Н.Макагонова, А.Н.Копайгородский, А.В.Черноусов // Вычислительные технологии. Том 11,.2006. — С. 59-68.

22. Новые методологии программирования Электронный ! ресурс.: статья пер: с англ: ./ М.Фаулер: — 2001. Режим доступа: http://www.maxkincom/ sd/newmethRUS.html

23. Обзор алгоритмов MOLAP Электронный ресурс.: статья» / Ю. Кудрявцев. — 2008. — Режим доступа: http://www.citforum.ru/ consuIting/BI/molapoverview/

24. Обзор методов оптимизации? запросов, в реляционных системах Электронный ресурс.: статья пер. с англ. / С. Чаудхари.— 1999. Режим доступа: http://wAvw.citforum.ru/database/digest/over001 .shtml

25. Оптимизация запросов? в системах баз данных: Электронный ресурс.: статья1 пер: с англ. / М. Ярке, Ю. Кох. — 2005. — Режим доступа: http://www.citfomm.m/database/articles/queryoptimization/ .

26. Очистка данных: проблемы, и актуальные подходы Электронный: ресурс.: статья г пер. с англ. / Э. Рэм, Х.Х. Ду. — 2001. — Режим: доступа: http://www.olap.ru/basic/datacleamasp

27. Пенькова^.Т.Г. Модель хранилища данных для анализа показателей развития региона / Т.Г. Пенькова, К.В. Шалдыбина // Материалы конференции молодых ученых / ИВМ СО РАН. Красноярск, 2006. - С. 78-82.

28. Пенькова, Т.Г. Проектирование специализированного хранилища показателей социально-экономического развития региона / Т.Г. Пенькова, Л.Ф. Ноженкова, К.В. Бадмаева // Вестник КрасГАУ. -2007. № 14. -С. 122-128.

29. Перегудов, Ф.И, Основы системного анализа / Ф.И. Перегудов, Ф.П. Тарасенко / HTJI. Томск, 2001. - 396, с:

30. Платформа Хранилищ данных Контур Электронный ресурс.: официальный сайт разработчика, — 2009. — Режим доступа: http://www.iso.ru/products/phdk/

31. Результаты тестов ТРС-Н для задач поддержки принятия решений Электронный ресурс.: статья по материалам комитета ТРС. Режим доступа: http://www.olap:ru/trends/completetpc.asp

32. Рынок платформ для хранилищ данных: результаты исследования IDC Электронный ресурс.: статья / Intersoft Lab. — 2008. — Режим доступа: http://citcity.ru/20054/

33. Сараев, А.Д. Системный анализ и современные информационные технологии /А.Д. Сараев, О.А. Щербинина // Труды Крымской.Академии наук / СОНАТ. Симферополь, - 2006. - С. 47-59.

34. Сахаров, А.А. Концепции построения и реализации информационных систем, ориентированных на анализ данных / А.А. Сахаров // СУБД. -1996.-№4.-С. 55-70.

35. Серверы под рабочей нагрузкой Электронный ресурс.: статья журнала Открытые системы, №3 / С.Кузнецов. 2003. - Режим доступа: http://citforum.univ.kiev.ua/computer/2003-03/

36. Симанков, B.C. Системный анализ в адаптивном управлении: Монография (научное издание) / B.C. Симанков, Е.В. Луценко, В.Н. Лаптев //Институт современных технологий и экономики Краснодар, 2001. -258 с.

37. Спирли, Э. Корпоративные хранилища данных. Планирование, разработка, реализация / Э. Спирли. М.: Вильяме, 2001. - 400 с.

38. Спицнадель, В.Н. Основы системного анализа / В.Н. Спицнадель. -СПб.: Изд-ский дом Бизнес-пресса, 2000. 325 с.

39. Технология многомерных баз данных Электронный ресурс.: статья

40. Т.Б.Педерсен, К.Иенсен. 2002. - Режим доступа: http://www.osp.ru/ os/2002/01/180958/

41. Трансляция сводных таблиц в беспроводных сетях Электронный ресурс.: статья. 2003. - Режим доступа: http://citforum.univ.kiev.ua/ consulting/BI/svtable/

42. Шалдыбина, К.В. Средства накопления, унификации и актуализации данных для анализа медико-демографических процессов /К.В. Шалдыбина // Материалы конференции молодых ученых / ИВМ СО РАН. Красноярск, 2005. - С. 75-79.

43. Эмблер, С.В. Рефакторинг баз данных: эволюционное проектирование, пер. с англ. / С.В. Эмблер, П.Дж. Садаладж. — М.: Вильяме, 2007. — 672 с.л

44. Abello, A. YAM : a multidimensional conceptual model extending UML /А. Abello, J. Samos, F. Saltor // Information Systems. 2006. - 31(6). -P. 541-567.

45. Beyer, K. Bottom-up computation of sparse and iceberg cubes / K. Beyer, R. Ramakrishnan // Proc. of the 1999 ACM SIGMOD Inter. Conf. on Management of Data, New York. 1999. - P. 359-370.

46. Bouzeghoub, M.A Quality-based framework for physical data warehouse design / M. Bouzeghoub, Z. Kedad // Proc. of the Inter. Workshop on Design and Management of Data Warehouses, Stockholm, Sweden, 2000. -Article 9.- 12 p.

47. Bruno, N. Physical design refinement: The «merge-reduce» approach / N. Bruno, S. Chaudhuri // ACM Transactions on Database Systems, 2007. -Vol. 32. No. 4. - Article 28. - 43 p.

48. Buzydlowski, J.W. A framework for object-oriented on-line analytic processing / J.W. Buzydlowski, I. Song, L. Hassell // Proc. of the 1st ACM Inter. Workshop on Data Warehousing and OLAP, New York. 1998. -P. 10-15.

49. Cabibbo, L. A logical approach to multidimensional databases / L. Cabibbo, R. Torlone // Proc. of the 6th Inter. Conf. on Extending Database Technology: Advances in Database Technology, Springer-Verlag, London. — 1998. — Vol. 1377.-P. 183-197.

50. Chen, Z. Efficient computation of multiple group by queries / Z. Chen, V.R. Narasayya // Proc. of the ACM SIGMOD Inter. Conf. on Management of Data, Baltimore, Maryland, USA. 2005. - P. 263-274.

51. Dehne, F. Efficient computation of view subsets / F. Dehne, T. Eavis, A. Rau-Chaplin // Proc. of the ACM Tenth Inter. Workshop on Data Warehousing and OLAP, Lisbon, Portugal. 2007. - P. 65-72.

52. FirebirdSQL Электронный ресурс.: официальный сайт Firebird, 2009. -Режим доступа: http://www.firebirdsql.org/

53. Giorgini, P. Goal-oriented requirement analysis for data warehouse design / P. Giorgini, S. Rizzi, M. Garzetti // Proc. of the 8th ACM Inter. Workshop on Data Warehousing and OLAP, Bremen, Germany. 2005. — P. 47-56.

54. Golfarelli, M. A methodological framework for data warehouse design /М. Golfarelli, S. Rizzi // Proc. of the 1st Inter. Workshop on Data Warehousing and OLAP, Maryland, USA. 1998. - P. 3-9.

55. Golfarelli, M. The dimensional fact model: a conceptual model for data warehouses / M. Golfarelli, D. Maio, S. Rizzi // Inter. Journal of Cooperative Information Systems. 1998. -No.7. - P. 215-247.

56. Golfarelli, M. View materialization for nested GPSJ queries / M. Golfarelli, S. Rizzi // Proc. of the Inter. Workshop on Design and Management of Data Warehouses.-2000.-P. 10-1, 10-9.

57. Gray, J. Data Cube: A relational aggregation operator generalizing group-by, cross-tab and sub-totals / J.Gray, S. Chaudhuri, A. Bosworth, A. Layman, D. Reichart, M. Venkatrao // Data Mining and Knowledge Discovery. 1997. -No. 1(1).-P. 29-54.

58. Gupta, H. Selection of views to materialize in a data warehouse / H. Gupta, F.N. Afrati, P.G. Kolaitis // Proc. of the 6th Inter. Conf. on Database theory., Eds. Lecture Notes In Computer Science, Springer-Verlag, London. 1997. -P. 98-112.

59. Hanson, E.N. A performance analysis of view materialization strategies /E.N. Hanson // Proc. of the ACM SIGMOD Conf. on Management of Data. -1987.-P. 440-445.

60. Harinarayan, V. Implementing data cubes efficiently / V. Harinarayan, A. Rajaraman, J.D. Ullman // Proc. of the 1996 ACM SIGMOD Inter. Conf. on Management of Data, Quebec. 1996. - P. 205-216.

61. Horng, J.-T. Applying evolutionary algorithms to materialized view selection in a data warehouse / J.-T. Horng, Y.-J. Chang, B.-J. Liu // Soft Computing, Springer-Verlag. -2003. -No.7. P. 574-581.

62. Hung, M. Efficient approaches for materialized views selection in a data warehouse / M. Hung, M. Huang, D. Yang, N. Hsueh // Information Sciences -2007.-No. 177.-P. 1333-1348.

63. Heusemann, B. Conceptual data warehouse design / B.Heusemann, J. Lechtenbeorger, G. Vossen // Proc. of the DMDW. 2000. - P. 3-9.

64. IBM Informix Электронный ресурс.: официальный сайт разработчика, -2009. — Режим доступа: http://www.ibm.com/developerworks/data/ products/informix/

65. IBM InfoSphere DataStage Электронный ресурс.: официальная страница сайта продукта. Режим доступа: http://www-01.ibm.com/software/ data/infosphere/datastage/

66. IBM System р Электронный ресурс.: официальная страница сайта продукта. Режим доступа: http://www-03.ibm.eom/systems/p/

67. Informatica Электронный ресурс.: официальный сайт Informatica. — Режим доступа: http://www.informatica.com/Pages/index.aspx

68. Inmon, W.H. Building the data warehouse / W.H. Inmon. John Willey & Sons, New York, 1992. - 312 p.

69. InterBase Электронный ресурс.: официальный сайт разработчика, — 2009. Режим доступа: http://www.borland.com/

70. Kalnis, P. View selection using randomized search / P. Kalnis, N. Mamoulis, D. Papadias // Data Knowledge Engineering. 2002. - No. 42(1). -P. 98-111.

71. Kamble, A.S. A conceptual model for multidimensional data / A.S. Kamble // Proc. of the Fifth on Asia-Pacific Conf. on Conceptual Modelling, Australian Computer Society, Darlinghurst, Australia. 2008. - Vol. 79. - P. 29-38.

72. Kimball, R. The data warehouse toolkit: the complete guide to dimensional modeling / R. Kimball, M. Ross. John Wiley & Sons, Inc. New York, 2002. -416 p.

73. Kudryavcev, Y. Efficient algorithms for MOLAP data storage and query processing / Y. Kudryavcev // Proc. of the Spring Young Researcher's Colloquium on Database and Information Systems, Moscow, 2006. 5 p.

74. Labio, W.J. Physical database design for data warehouses / WJ. Labio, D. Quass, B. Adelberg // Inter. Conf. on Data Engineering. — 1997. -P. 277-288.

75. Lakshmanan, L. QC-trees: An efficient summary structure for semantic OLAP / L. Lakshmanan, J. Pei, Y. Zhao // Proc. of the 2003 ACM SIGMOD Inter. Conf. on Management of Data, San Diego, CA. 2003. - P. 64-75.

76. Lawrence, M. Multiobjective genetic algorithms for materialized view selection in OLAP data warehouses / M. Lawrence // Proc. of the 8th Annual Conf. on Genetic and Evolutionary Computation, Seattle, Washington, USA. -2006.-P. 699-706.

77. Liang, W. Materialized view selection under the maintenance time constraint / W. Liang, H. Wang, M.E. Orlowska // Data and KnowledgeEngineering. -2001.-No. 37.-P. 203-216.

78. Lujan-Mora, S. A UML profile for multidimensional modeling in data warehouses / S. Lujran-Mora, J. Trujillo, I. Song // Data Knowledge Engineering. -2006. Vol.59. - No. 3. - P. 725-769.

79. Lujarn-Mora, S. Extending UML for multidimensional modeling / S. Lujarn-Mora, J. Trujillo, I.-Y. Song // Proc. of the 5th Inter. Conf. on the Unified Modeling Language, LNCS 2460, Dresden, Germany. 2002. -P. 290-304.

80. Mazon, J. Applying MDA to the development of data warehouses / J. Mazon, . J. Trujillo, M. Serrano, M. Piattini // Proc. of the 8th ACM Inter. Workshopon Data Warehousing and OLAP, Bremen, Germany. 2005. - P. 57-66.

81. Morfonios, K. CURE for cubes: cubing using a ROLAP engine / K. Morfonios, Y. Ioannidis // Proc. of the 32nd Inter. Conf. on Very Large Data Bases, Seoul, Korea.- 2006.-P. 379-390. ,

82. Morfonios, K. ROLAP implementations of the data cube / K. Morfonios, S. Konakas, Y. Ioannidis, N. Kotsis // ACM Computing Surveys, 2007. -Vol. 39. No. 4. — Article 12. - 53 p.

83. MySQL Электронный ресурс.: официальный сайт MySQL. 2009. - Режим доступа: http://www.mysql.com/

84. Pedersen, Т.В. Warehousing the world: a few remaining challenges / T.B. Pedersen // Proc. of the ACM Tenth international Workshop on Data Warehousing and OLAP, Lisbon, Portugal. 2007.- P. 101-102.

85. Pedersen, T.B. Multidimensional data modeling for complex data / T.B. Pedersen, C.S. Jensen // Proc: of 15th Inter. Gonf. on Data Engineering, IEEE Computer Society. 1999. - P. 336-346.

86. Peralta, V. On the applicability of rules to automate data warehouse logical design / V. Peralta, A. Illarze, R. Ruggia, // Proc. of the 15th Conf. on Advanced Information Systems Engineering Klagenfurt, Velden, Austria. -2003.-P. 329-340.

87. Phuboon-ob, J. Selecting materialized! views using: two-phase optimization with multiple view processing plan / J. Phuboon-ob, R. Auepanwiriyakul //Inter. Journal, of Computer and lnformation Science and Engineering. -2007.-№1.-P. 108-113.

88. Red Brick.Warehouse Электронный ресурс.: сайт IBM. 2009. - Режим доступа: http://www-01.ibm.com/software/data/informix/redbrick/

89. Rizzi, S. Research in data warehouse modeling and design: dead or: alive? / S. Rizzi, A. Abello, J. Eechtenborger, JiTrujillo // Proc: of the 9th< AGMCIn-ter. Workshop on» Data' Warehousing and* OEAP; New York. 2006;1. P. 3-10.

90. Ross, K. Fast Computation* of Sparse Datacubes / K. Ross, D. Srivastava // Proc. of the 23rd Inter. Conf. on Very l,arge Data Bases, San, Francisco, CA.-1997.-P. 116-125.

91. Sapia, C. Extending the E/R model for the multidimensional paradigm / C.Sapia, M; Blaschka, G. Heofling, B. Dinter // Proc. ER Workshop on Data Warehousing and Data Mining. 1998. - P. 105-116.

92. Sapia, C. On modeling and predicting query behavior in olap systems / C. Sapia // Inter. Workshop on Design and Management of Data Warehouses, Heidelberg, Germany. —1999-— P. 1-10;

93. Shukla, A. Materialized view selection for multidimensional datasets / A.Shukla, P.Deshpande, J.F.Naughton // Proc. of the 24rd Inter. Conf. on Very Large Data Bases. 1998. - P. 488-499.

94. Sismanis, Y. Dwarf: shrinking the PetaCube / Y. Sismanis, A. Deligiannakis, N. Roussopoulos, Y. Kotidis // Proc. of the 2002 ACM SIGMOD Inter. Conf. on Management of Data, Madison, Wisconsin, USA. 2002. - P. 464-475.

95. SQL Server 2008 Электронный ресурс.: сайт Microsoft. 2009. - Режим доступа: http://www.microsoft.com/sqlserver/2008/en/us/default.aspx

96. SQL:1999 Электронный ресурс.: сайт SQL. — 2009. Режим доступа: http://www.service-architecture.com/database/articles/sql 1999.html

97. The OLAP report Электронный ресурс.: сайт проекта «The OLAP report». -Режим доступа: http://www.olapreport.com/

98. Theodoratos, D. A general framework for the view selection problem for data warehouse design and evolution / D. Theodoratos, M. Bouzeghoub // Proc. of the 3rd ACM Inter. Workshop on Data Warehousing and OLAP, New York. — 2000.-P. 1-8.

99. Theodoratos, D. Data warehouse configuration / D. Theodoratos, T. Sellis //Proc. of the 23rd Inter. Conf. on Very Large Data Bases. 1997. -P. 126-135.

100. Theodoratos, D. Designing data warehouses / D. Theodoratos, T. Sellis // Data Knowl. Eng. 31. 1999. - No. 3. - P. 279-301.

101. Theodoratos, D. Incremental design of a data warehouse / D. Theodoratos, T. Sellis // Journal of Intelligent Information Systems. 2000. - Vol.15. -P. 7-27.

102. TPC Benchmark-H Электронный ресурс.: сайт комитета ТРС. Режим доступа: http://www.tpc.org/tpch/

103. Tryfona, N. StarER: A conceptual model for data warehouse design /N. Tryfona, F. Busborg, J. Christiansen // Proc. of the ACM 2nd Intl. Workshop on Data Warehousing and OLAP, Kansas City. 1999. - P. 3-8.

104. Uchiyama, H. Progressive view materialization algorithm / H. Uchiyama, K. Runapongsa, T.J. Teorey // Proc. of the 2nd Inter. Data Warehousing and OLAP Workshop, Kansas City. 1999. - P. 36-41.

105. Vassiliadis, P. Modeling multidimensional databases, cubes and cube operations / P. Vassiliadis // Proc. of the 10th Int. Conf. on Scientific and Statistical Database, IEEE Computer Society, Washington; DC. 1998. - P. 53-62.

106. Yu, J. X. Materialized view selection as constrained evolutionary optimization /J.X. Yu, X. Yao, Ch-H. Choi, G. Gou // Systems, Man, and Cybernetics, Part C: Applications and Reviews. 2003. - Vol. 33. - No. 4. - P. 458-467.

107. Zhang, C. An evolutionary approach to materialized views selection in a data warehouse environment / C. Zhang; X. Yao, J: Yang // IEEE Trans. Syst., Man, Cybern. -2001. No 3. - P. 1-30.

108. Zhang, C. Genetic algorithm for materialized' view selection in data warehouse environments / C. Zhang, J. Yang // Proc. of the 1st Intl. Conf. on Data Warehousing and- Knowledge Discovery, Springer-Verlag. 1999. -No. 1676. — P. 116-125.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00