автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.12, диссертация на тему:Автоматизация проектирования систем оперативной аналитической обработки данных

кандидата технических наук
Щавелев, Леонид Вячеславович
город
Иваново
год
1999
специальность ВАК РФ
05.13.12
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизация проектирования систем оперативной аналитической обработки данных»

Текст работы Щавелев, Леонид Вячеславович, диссертация по теме Системы автоматизации проектирования (по отраслям)

г

Ивановский государственный энергетический университет

АВТОМАТИЗАЦИЯ ПРОЕКТИРОВАНИЯ СИСТЕМ ОПЕРАТИВНОЙ

АНАЛИТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ (НА ПРИМЕРЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ В ЭНЕРГЕТИКЕ)

Специальность 05.13.12 - Системы автоматизации проектирования (электротехника, энергетика) 05.13.14 - Системы обработки информации и управления

На правах рукописи

ШАВЕЛЕВ Леонид Вячеславович

УДК 681.3.016

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель: Доктор технических наук профессор В. Н. Нуждин

>

Научный консультант: Кандидат технических наук, доцент В. М. Кокин

Иваново - 1999

СОДЕРЖАНИЕ

Введение.................................................................................................................5

1. Концепции хранения и анализа корпоративных данных.......16

1.1. Хранилища (склады) данных...........................................................16

1.2. Способы аналитической обработки данных для поддержки принятия решений...............................................................21

1.3. Оперативная аналитическая обработка данных..................26

1.3.1. Требования к средствам оперативной аналитической обработки.....................................................................................................28

1.3.2. Классификация продуктов OLAP по способу представления данных.........................................................................31

1.4. Интеллектуальный анализ данных.............................................3S

1.4.1. Классификация задач ИАД по типам извлекаемой информации.................................................................................................41

1.4.2. Классификация стадий ИАД...................................................44

1.4.3. Классификация технологических методов ИАД............49

1.5. Взаимодополняемость OLAP и ИАД...............................................70

1.6. Выводы по главе 1................................................................................73

2. Моделирование многомерных концептуальных представлений для реляционных баз данных..................................75

2.1. Основные понятия концепции виртуальной звезды.......... 76

2.2. Многомерная информационная модель...................................82

2.2.1. Множество атрибутов..................................................................83

2.2.2. Множество уровней обобщения...............................................83

2.2.3. Множество отрезков однородности......................................83

2.2.4. Множество областей однородности.....................................85

2.2.5. Ограничения целостности многомерной информационной модели......................................................................94

2.3. Построение запросов к многомерной информационной

модели...............................................................................................................95

2.3.1. Вид запроса к многомерной информационной модели...........................................................................................................96

2.3.2. Правила получения значений ячеек многомерной информационной модели......................................................................97

2.4. Выполнение запросов к многомерной информационной модели.............................................................................................................102

2.5. Выводы по главе 2............................................................................104

3. Описание многомерных информационных моделей в аналитических метаданных.....................................................................106

3.1. Таблица атрибутов.............................................................................107

3.2. Таблица уровней обобщения.........................................................107

3.3. Таблица отрезков однородности получения значений ..110

3.4. Таблица областей однородности получения значений..110

3.5. Таблица достаточных условий построения запросов.....113

3.6. Таблица необходимых условий построения запросов.... 113

3.7. Выводы по главе 3..............................................................................115

4. Структура корпоративной информационно-аналитической системы...............................................................................................................117

4.1. Постановка задачи............................................................................117

4.2. Общий вид корпоративной информационно-аналитической системы.........................................................................119

4.2.1. ИнфоВизор-Загрузка.................................................................120

4.2.2. ИнфоВизор-Администратор.....................................................121

4.2.3. ИнфоВизор-Реестр.......................................................................122

4.2.4. ИнфоВизор-Аналитик................................................................123

4.2.5. ИнфоВизор-Справочник...........................................................124

4.3. Выводы по главе 4.............................................................................125

5. Программная реализация инструментальной системы оперативной аналитической обработки данных............................127

5.1. Система ИнфоВизор-Аналитик......................................................128

5.1.1. Общая структура системы........................................................128

5.1.2. Использование системы ИнфоВизор-Аналитик.............132

5.1.3. Реализация функционального ядра оперативной

аналитической обработки данных................................................134

5.2. Система ИнфоВизор-Администратор..........................................141

5.3. Модули интеллектуального анализа данных......................142

5.4. Технология формирования прикладных ИАС с помощью

разработанных программных средств.............................................143

5.5. Выводы по главе 5.............................................................................146

Заключение.......................................................................................................147

Список литературы........................................................................................155

Приложение 1. Руководство пользователя Intranet версии системы ИнфоВизор-Аналитик программного комплекса

ИнфоВизор..........................................................................................................165

Приложение 2. Руководство пользователя Intranet версии системы ИнфоВизор-Администратор программного комплекса

ИнфоВизор.........................................................................................................200

Приложение 3. Материалы о внедрении результатов диссертационной работы............................................................................233

Введение

В постоянно изменяющихся условиях нынешнего динамичного мира сложность управления любой системой, будь то предприятие, ведомство или регион, непрерывно увеличивается, в то время как требования к его качеству значительно возрастают. При необходимости непрерывного контроля за состоянием множества жизненно важных факторов для нахождения оптимальных решений возникающих проблем традиционное управление, не поддерживаемое результатами современных научных достижений, как правило, сводится к примитивной стратегии "латания дыр", встречающейся сегодня непозволительно часто. Эффективное управление, нацеленное на неуклонное прогрессивное развитие системы, возможно только при опоре на информационную поддержку, которая обеспечивается автоматизированными системами поддержки принятия решений (СППР).

Потребность в информационной поддержке принятия решений существует также в сфере деятельности САПР, в случаях, когда объектами проектирования становятся крупные народно-хозяйственные системы. Их структура и функционирование описываются большими объемами данных, часто распределенных и несогласованных, которые, тем не менее, должны быть тщательно проанализированы и учтены при любой возможной модернизации и реорганизации системы.

На современном этапе наиболее остро проблема информационной поддержки стоит, главным образом, в задачах управления и реорганизации больших производственных систем (в первую очередь в области энергетики, топливной промышленности). Влияние естественных энергетических монополий на

социально-экономический климат в регионах и в стране в целом особенно важно; стратегические ошибки в управлении этими сложными системами, возможно, не всегда бывают заметны сразу, но с течением времени могут приводить к тяжелым последствиям, в конечном счете отражающимся на благосостоянии налогоплательщиков. Пример другой сферы, остро нуждающейся в информационной поддержке - региональная информатизация, бурно развивающаяся в условиях роста влияния субъектов Федерации на проведение социально-экономической политики. Грамотное регулирование, основанное на косвенном воздействии на протекающие процессы со стороны органов власти, является весьма эффективным рычагом управления.

Очевидно, что необходима возможность оперативного доступа лиц, принимающих решения, к достоверным данным о состоянии системы и ситуации вокруг нее. Постоянная доступность актуальной информации дает возможность оценить текущее положение дел, а обзор изменения конкретных характеристик во времени позволяет обнаружить тенденции развития системы и сделать выводы о том, что ожидает ее в будущем. Таким образом, обладая всей полнотой сведений о состоянии системы и ее элементов в статике и динамике, управляющий персонал может принимать грамотные решения по применению мер регулирования. Такое управление основано на знании и потому более эффективно, чем принятие важных решений вслепую.

Однако, простое обладание полным объемом данных не становится решением проблемы. Стремительное развитие аппаратных средств сделало ведение крупных банков данных

доступным для множества корпоративных пользователей. Но огромные объемы накопленных сведений не могут эффективно использоваться без специального инструментария, позволяющего разрешить главную проблему заказчика: "слишком много данных, но недостаточно информации". Разработка в последние несколько лет новых концепций хранения и анализа корпоративных данных знаменует собой качественный скачок в развитии информационных систем, вызванный, с одной стороны, желанием пользователя получить максимальную отдачу от накапливаемых массивов данных, а с другой - стремлением разработчика сформировать единый оптимальный подход к решению задач представления информации в крупных хранилищах и ее обработки. Наиболее интересной в этом ряду является концепция оперативной аналитической обработки данных (On-Line Analytical Processing, 0LAP), основу которой положил идеолог реляционной модели данных Э. Ф. Кодд в статье [49], вышедшей в 1993 году. Главной идеей этой концепции является обеспечение многомерного концептуального представления информации о предметной области как наиболее естественного с точки зрения профессионалов-аналитиков.

К сожалению, существует ряд проблем, ограничивающих применение большинства появившихся за рубежом программных средств аналитической обработки данных в условиях нашей страны. Прежде всего они связаны с тем, что эти средства в первую очередь предназначены для решения задач управления торгово-промышленными корпорациями, в то время как в России на первый план выходят задачи именно отраслевого и регионального управления. Исходя из этого, потребность в разработке информационно-аналитических систем (ИАС), пред-

назначенных для поддержки принятия решений и удовлетворяющих требованиям задач управления и проектирования в крупных системах (в области энергетики, промышленности, региональной власти), представляется достаточно актуальной.

Очевидно, что разработка каждой конкретной ИАС "с нуля" - слишком расточительный подход с точки зрения затрат труда разработчиков и материальных ресурсов. Более продуктивным подходом может стать разработка инструментальных средств, ориентированных на автоматизацию проектирования прикладных ИАС в различных проблемных областях. При этом следует иметь в виду, что в большинстве случаев требуется выполнение аналитической обработки ранее созданных и активно работающих баз данных, структура которых может быть жестко определенной, достаточно сложной и не допускающей произвольной модификации существующих таблиц. Исходя из этого и была сформулирована цель диссертационной работы.

Целью диссертационной работы является разработка подходов и методов организации инструментальной оболочки для автоматизации проектирования и для последующей эксплуатации информационно-аналитических систем (ИАС), выполняющих оперативную аналитическую обработку (многомерный анализ) содержимого реляционных баз данных произвольной структуры и обеспечивающих поддержку принятия решений.

В соответствии с поставленной целью основные задачи диссертационной работы формулируются следующим образом. 1. Разработка механизмов обеспечения многомерного концептуального представления данных, содержащихся в реляционных БД произвольной структуры.

2. Разработка структуры аналитических метаданных для представления многомерных информационных моделей в реляционных БД, использующихся в качестве содержательного наполнения прикладных ИАС.

3. Разработка инструментария оперативной аналитической обработки данных в составе:

- системы, предназначенной для создания, редактирования и проверки логической целостности информационных моделей, составляющих аналитические метаданные, и решающей задачу автоматизации проектирования ИАС, ориентированных на конкретную область применения;

- системы оперативной аналитической обработки данных, содержащихся в реляционных БД произвольной структуры, снабженных аналитическими метаданными с описанием многомерных информационных моделей.

4. Разработка структуры функционального ядра системы оперативной аналитической обработки реляционных данных, открытого для расширения функциональности прикладных ИАС.

5. Отработка технологии построения прикладных ИАС на основе разработанного инструментария.

При решении поставленных задач в диссертационной работе использованы теория множеств, теория построения информационных систем, теория баз данных, теория объектно-ориентированного проектирования.

Научная новизна работы заключается в разработке метода организации многомерного анализа реляционных данных, накопленных в хранилищах данных произвольной структуры, включающего в себя способ организации многомерных инфор-

мационных моделей, принцип их описания на уровне аналитических метаданных, порядок их использования при выполнении аналитических запросов к многомерному концептуальному представлению и технологию построения прикладных информационно-аналитических систем на основе созданной инструментальной оболочки.

Достигнуты следующие новые научные результаты.

1. Разработан механизм "виртуальной звезды", определяющий структуру и порядок использования информационных моделей для извлечения многомерной информации из реляционных БД произвольной структуры. В отличие от традиционно применяемых подходов разработанный механизм не требует обязательного приведения баз данных, использующихся для многомерного анализа, к специальному виду, а позволяет анализировать существующие хранилища данных без внесения изменений в их структуру. Предложенная в рамках механизма виртуальной звезды возможность разделения уровней обобщения атрибутов многомерной информационной модели на отрезки однородности, а множества ячеек модели - на области однородности получения значений позволяет совмещать в пределах одной модели ячейки со значениями показателей, извлекаемых из различных таблиц исходной БД и имеющих различную природу:

1) значения полей численного типа таблиц БД;

2) значения, полученные в результате оперативной агрегации в процессе выполнения запроса;

3) значения, являющиеся результатами расчета формул.

2. Предложен принцип организации аналитических метаданных для хранения многомерных информационных моделей в ре-

ляционных БД, являющихся содержательным наполнением прикладных информационно-аналитических систем. Определена структура системных таблиц, вводимых в анализируемую БД для обеспечения конечным пользователям единого многомерного концептуального представления содержащейся в ней разрозненной численной информации.

3. Предложены принципы организации инструментальной системы оперативной аналитической обработки данных в рамках программного комплекса, являющегося инструментальной оболочкой для построения корпоративных информационно-аналитических систем. Согласно им в инструментальной системе оперативной аналитической обработки реляционных данных должно быть произведено явное разделение инструментария конечного пользователя (аналитика), работающего с заранее построенным многомерным концептуальным представлением исследуемого хранилища данных, и инструментария администратора БД, предназначенного для проектирования прикладных ИАС посредством создания многомерных информационных моделей в аналитических метаданных и обеспечивающего возможность организации многомерного анализа данных над хранилищем произвольной структуры. При этом основная функциональность многомерного анализа выносится в отдельное ядро системы оперативной аналитической обработки, к которому в составе проектируемых прикладных ИАС могут подключаться внешние модули интеллектуального анализа данных.

4. Отработана технология построения прикладных ИАС на основе разработанных программных средств.

На защиту выносятся следующие научные результаты.

1. Механизм "виртуальной звезды", определяющий структуру и порядок использования информационных моделей для извлечения многомерной информации из реляционных БД произвольной структуры.

2. Принцип организации аналитических метаданных для хранения многомерных информационных моделей в реляционных БД, яв