автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.12, диссертация на тему:Автоматизация проектирования систем интеллектуального анализа данных

кандидата технических наук
Козырев, Михаил Александрович
город
Иваново
год
2004
специальность ВАК РФ
05.13.12
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизация проектирования систем интеллектуального анализа данных»

Автореферат диссертации по теме "Автоматизация проектирования систем интеллектуального анализа данных"

На правах рукописи УДК 681.3.06

КОЗЫРЕВ Михаил Александрович

АВТОМАТИЗАЦИЯ ПРОЕКТИРОВАНИЯ СИСТЕМ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ (В СФЕРЕ ЭНЕРГЕТИКИ И РЕГИОНАЛЬНОГО УПРАВЛЕНИЯ)

Специальности 05.13.12- Системы автоматизации проектирования

(электротехника, энергетика) 05.13 01 - Системный анализ, управление и обработка информации (промышленность)

Автореферат диссертации на соискание ученой степени кандидата технических наук

Иваново-2004

Работа выполнена на кафедре Программного обеспечения компьютерных систем Ивановского государственного энергетического университета

Научный руководитель -

доктор технических наук, профессор Нуждин В.Н.

Официальные оппоненты -

доктор технических наук, профессор Левин М.Г.; доктор технических наук, доцент Целищев Е.С.

Ведущая организация -

ОАО «Информатика», г. Иваново

Защита состоится 6 февраля 2004 г. в 11 часов в аудитории Б-237 на заседании диссертационного совета Д 212.064.02 при Ивановском государственном энергетическом университете.

С диссертацией можно ознакомиться в библиотеке ИГЭУ.

Отзывы в двух экземплярах, заверенные печатью организации, прссим направлять по адресу: 153003. Иваново/ ул. Рабфаковская. 34. Совет ИГЭУ

Автореферат разсслан 5 января 2004 г.

Ученый секретарь диссертационного совета, кандидат технических наук, доцент

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Эффективное управление сложными техническими и социальными системами в процессе их жизненного цикла, включающего проектирование, создание и эксплуатацию, невозможно без полноценной информационной поддержки, обеспечиваемой автоматизированными системами поддержки принятия решений (СППР).

Достаточно остро проблема информационной поддержки принимаемых решений стоит в энергетической сфере. Сложность систем энергетики, значительные средства, расходуемые на всех этапах их жизненного цикла, а также высокие требования к качеству и надежности энергоснабжения, обуславливают необходимость дальнейшей разработки и совершенствования методов и средств принятия решений, реализуемых на разных уровнях управления. Не менее остро проблема информационной поддержки стоит в региональном управлении. Обоснованное и рациональное принятие решений в этой сфере возможно лишь при выполнении оперативного многоаспектного анализа большого количества данных.

Современный подход к автоматизации поддержки принятия решений основан на использовании концепции хранилищ данных (ХД) корпоративных информационно-аналитических систем (ИАС). Интеграция информации и ее комплексная аналитическая обработка позволяют обеспечить поддержку принятия решений с целью совершенствования исследуемых систем, а также с целью оценки эффективности принимаемых решений. Современный арсенал средств автоматизации поддержки принятия решений включает информационно-поисковые системы (ИПС), системы генерации отчетов, средства оперативной аналитической обработки данных (On-Line Analytical Processing, OLAP) и интеллектуального анализа данных (ИАД, Data Mining). Если первые обеспечивают решение задач оперативной отчетности и разведочного анализа данных, то ИАД предназначен для выявления существенных закономерностей в характеристиках исследуемой системы. При этом эффективность создаваемой информационно-аналитической системы в значительной степени зависит от того, насколько средства ИАД интегрированы с единой информационной средой поддержки принятия решений. Проблема организации интеллектуального анализа данных не имеет на сегодняшний день комплексного решения, совмещающего гибкость информационных моделей ХД с удобством манипулирования данными при использовании различных методов анализа.

Масштаб и сложность исследуемых систем, а также длительность их жизненного цикла требуют совершенствования средств автоматизированного проектирования ИАС. Следовательно, необходима разработка развитых инструментальных средств, m и i щ щпнкптн Ц^д'У и| " им

ние информационно-аналитических систем и их последующий реинжиниринг с учетом изменений в исследуемой предметной области для удовлетворения расширяющихся информационных потребностей.

Цель диссертационной работы и задачи исследования. Целью диссертации является разработка методов и средств автоматизации проектирования информационно-аналитических систем, обеспечивающих унифицированные способы организации интеллектуального анализа данных в комплексном процессе обработки накапливаемой информации для эффективной поддержки принятия решений.

Для достижения поставленной цели в диссертационной работе решаются следующие задачи.

1. Исследование методов интеллектуального анализа данных и подходов к их использованию в СППР.

2. Разработка метода организации ИАД в среде оперативной аналитической обработки.

3. Разработка механизма многомерного концептуального представления детализированных данных из реляционных источников для интеллектуального анализа.

4. Разработка функционального ядра предоставления детализированных данных хранилища для ИАД посредством использования многомерных концептуальных моделей, хранящихся в специализированных аналитических метаданных.

5. Адаптация методов интеллектуального анализа данных для их применения в рамках разработанных подходов к организации ИАД.

6. Разработка инструментария интеллектуального анализа данных, ориентированного на применение в среде автоматизированного проектирования ИАС.

7. Разработка технологии автоматизированного проектирования средств интеллектуального анализа данных при создании прикладных ИАС.

Методы исследования При решении поставленных задач в диссертационной работе использованы: методы системного анализа, теория множеств, теория построения информационных систем, теория баз данных, методы искусственного интеллекта, теория прикладной статистики, теория и методы автоматизированного проектирования.

Научная новизна работы заключается в разработке методов организации ИАД в среде поддержки принятия решений, отличающихся использованием многомерного концептуального представления данных при реализации информационного взаимодействия алгоритмов интеллектуального анализа с хранилищем.

Получены следующие новые научные результаты. 1. Разработан метод.организации ИАД в среде оперативной аналитической обработки включающий описание многомерных данных в ин-

формационной модели и порядок ее использования при проведении анализа. Предлагаемая информационная модель, описывая метауро-вень над анализируемым гиперкубическим представлением данных, задает направление его проецирования в виде матрицы «объект -свойство». В отличие от традиционных решений в сфере ИАД, использующих в качестве входной информации плоские файлы, данный метод позволяет реализовать преимущества манипулирования многомерными данными, что выражается:

1 )в возможности получения информации для анализа любой размерности и степени агрегации посредством базовой О^Р-системы; 2) в обеспечении сохранения многомерного взгляда на информацию

при проведении анализа. За счет повышения уровня консолидации информации посредством предложенного подхода к интеграции О^Р-технологии и иАд разработанный метод увеличивает производительность аналитической обработки накопленной в хранилище данных информации, что способствует более эффективной поддержке принятия решений. ~

2. Разработан метод организации интеллектуального анализа детализированных данных, основанный на многомерном концептуальном представлении реляционной структуры хранилища данных посредством соответствующих информационных моделей, описании" моделей в аналитических метаданных и использовании их при проведении анализа. Предложенный подход реализует манипулирование детализированными данными в соответствии с многомерным представлением, включая определение интересующих характеристик многомерного факта, уровней обобщения и областей значений. В отличие от известных подходов к организации интеллектуального анализа детализированных данных, разработанная информационная модель обеспечивает гибкость при моделировании исследуемых фактов за счет.

1) равноправного манипулирования количественными и качественными характеристиками анализируемых фактов;

2) возможности трансформации количественных характеристик многомерных фактов в соответствии с заданной бизнес-логикой;

3) возможности задания произвольных уровней обобщения для качественных характеристик многомерных фактов и области их значений.

Выбор адекватных цели исследования объема данных и степени их обобщения позволяет уменьшить временные затраты на исследование данных с одновременным улучшением интерпретации получаемых закономерностей.

3. Предложена архитектура инструментальной системы интеллектуального анализа данных в рамках программного комплекса, ориентированного на автоматизированное проектирование ИАС. В ее основе

лежит функциональное ядро доступа к ХД, к которому подключаются модули ИАД посредством предложенных информационных интерфейсов. Данная архитектура, отличаясь реализацией унифицированных способов информационного взаимодействия алгоритмов интеллектуального анализа с хранилищем данных, позволяет осуществлять гибкое масштабирование проектируемых ИАС. 4. Предложена технология автоматизированного проектирования средств интеллектуального анализа данных при создании прикладных ИАС на основе разработанного комплекса программных средств. Данная технология отличается комплексностью получаемых решений в конкретных предметных областях, интегрированностью отдельных составляющих аналитической обработки данных, разнообразием и гибкостью концептуального моделирования анализируемой предметной области.

На защиту выносятся:

1. Метод организации интеллектуального анализа данных в среде оперативной аналитической обработки.

2. Метод организации интеллектуального анализа детализированных данных.

3. Архитектура инструментальной системы интеллектуального анализа данных в рамках программного комплекса, ориентированного на автоматизированное проектирование информационно-аналитических систем.

4. Технология автоматизированного проектирования средств интеллектуального анализа данных при создании прикладных ИАС на основе разработанного комплекса программных средств.

Практическая ценность результатов работы определяется:

• снижением временных и финансовых затрат на проектирование и реинжиниринг ИАС за счет использования инструментальных средств, настраиваемых на конкретную предметную область;

• повышением эффективности управления сложными системами благодаря информационной поддержке их жизненного цикла, обеспечиваемой комплексным использованием концепций хранилищ данных, оперативной аналитической обработки и интеллектуального анализа данных.

Реализация результатов работы На основе предложенных подходов к организации ИАД создана система интеллектуального анализа данных в рамках программного комплекса, ориентированного на автоматизированное проектирование, создание и эксплуатацию информационно-аналитических систем. Аналитическая обработка информации на основе созданных инструментальных средств реализована в рамках прикладных ИАС в сфере управления топливно-энергетическим комплексом региона (ИАС по топливно-энергетическому балансу Ивановской облас-

ти), в сфере энергосбережения системы образования (ИАС по мониторингу и оценке ресурсоэффективности образовательных учреждений), в сфере оценки технического состояния электрооборудования Федеральной сетевой компании РАО «ЕЭС России», в сфере, регионального управления (ИАС по социально-экономическому положению Российской Федерации и ряда субъектов Центрального федерального округа, ИАС по мониторингу онкологической заболеваемости в Ивановской области), в сфере управления качеством образования (ИАС по мониторингу организации учебного процесса и качества учебной системы университета). С использованием материалов диссертации разработан и проведен лабораторный практикум по дисциплинам «Системы искусственного интеллекта» и «Информационное обеспечение САПР», разработаны и изданы соответствующие методические указания. Практическое использование результатов работы подтверждается актами внедрения.

Апробация работы. Основные результаты работы докладывались и обсуждались: на Международной научно-технической конференции «XI Бенардосовские чтения» (Ивановский государственный энергетический университет, Иваново, 2003); на 2 Международной научно-технической конференции «Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и систем искусственного интеллекта» (Вологодский государственный технический.университет, Вологда, 2003); на 4 Международной конференции старшеклассников, студентов, молодых ученых, преподавателей, аспирантов и докторантов «Актуальные проблемы современной науки» (Самара, 2003); на X Международной научно-технической конференции «Информационная среда ВУЗа» (Ивановская государственная архитектурно-строительная академия, Иваново, 2003); на Международном научно-практическом семинаре «Стратегия развития высшей школы и управление качеством образования» (Ивановский государственный энергетический университет, Иваново, 2003).

Публикации. По теме диссертации опубликовано 7 печатных работ.

Структура и объем работы. Диссертация состоит из введения, четырех глав и заключения, изложенных на 136 страницах, а также списка литературы из 100 наименований; содержит 40 рисунков, 1 таблицу и 63 страницы приложений.

СОДЕРЖАНИЕ РАБОТЫ

Во введении определены цели и задачи исследования, обоснована актуальность выбранной темы, сформулированы новые научные результаты, перечислены основные положения, выносимые на защиту.

В первой главе выполнен обзор современных подходов к организации аналитической обработки в СППР. Рассмотрена концепция хранилищ данных, как основа современной среды поддержки принятия реше-

ний. Перечислены способы информационно-аналитической обработки данных для поддержки принятия решений, среди которых рассмотрены системы регламентированной отчетности, системы оперативной аналитической обработки данных и средства интеллектуального анализа данных.

Важное место в этом ряду занимает технология интеллектуального анализа данных, предназначенная для обнаружения в накопленных данных ранее неизвестных, нетривиальных, практически полезных знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Данная технология рассматривается в рамках полного цикла «обнаружения знаний в базах данных» (Knowledge Discovery in Databases, KDD), основными этапами которого являются: постановка задачи, подготовка, предобработка и трансформация исходных данных, нахождение закономерностей и их использование при принятии решений. Приведена классификация задач интеллектуального анализа данных, указаны особенности его применения в различных сферах, включая энергетику. Дана краткая характеристика наиболее популярным технологическим методам ИАД: методам прикладной статистики, нейронным сетям; методам обнаружения логических закономерностей в данных, методам рассуждения на основе аналогичных случаев, эволюционным и генетическим алгоритмам, методам визуализации многомерных данных. Приведены примеры программных систем, реализующих указанные методы.

Особое внимание уделено соотношению ИАД с концепцией оперативной аналитической обработки. При этом определены их различия в подходах к анализу и особенности, затрудняющие их эффективное использование для анализа данных. Большинство систем OLAP, обеспечивая удобство манипулирования многомерными-данными, имеют в своем арсенале лишь простейшие методы анализа, а большинство средств ИАД, предоставляя эффективные способы обнаружения закономерностей, имеют дело с плоскими файлами данных. Этим фактом обоснована необходимость интеграции указанных технологий для повышения эффективности аналитической обработки данных в целях извлечения нового знания. Выявлены возможные направления интеграции и принципиальные сложности на этом пути.

Также выполнен обзор существующих зарубежных и отечественных инструментальных средств в области поддержки принятия решений (компаний Microsoft, Oracle, Cognos, Прогноз, BaseGroup Labs). Определены проблемы, затрудняющие использование данных решений при проведении эффективного анализа в СППР, и поставлены задачи диссертационной работы.

Во второй главе рассмотрены разработанные методы организации ИАД в среде поддержки принятия решений (рис. 1). В качестве техноло-

гической основы разработки использован комплекс инструментальных средств ИнфоВизор для автоматизации поддержки принятия решений, созданный в Институте открытых систем Ивановского государственного энергетического университета.

Рис.

1. Организация интеллектуального анализа данных в среде поддержки принятия решений-

Метод организации НАД в среде оперативной аналитической обработки включает создание информационной модели представления многомерных данных и порядок ее использования при проведении анализа. Данный метод предполагает использование для анализа гиперку-оического представления анализируемых данных, обеспечиваемого посредством базовой OLAP-системы. Разработанная информационная модель, описывая метауровень над анализируемым гиперкубом, задает направление его проецирования в виде матрицы «объект - свойстве». На основе информационной модели данного гиперкуба, определяемой в частности подмножествами атрибутов А и уровней обобщения Ц предложена следующая структура модели представления многомерных данных для интеллектуального анализа:

О = (а\А|\1Л1ЛР\Рг>).

Здесь Ах =(а,\а?) - упорядоченное множество атрибутов служащее основой для формирования матрицы исходных дан-

ных (матрицы «объект-свойство»), где а - атрибут, содержащий экземпляры некоторого уровня обобщения, которые выбраны в качестве анализируемых объектов, а а] - атрибут, содержащий экземпляры некоторого уровня обобщения, выбранные в качестве характеризующих объекты признаков.

Аналогично, - упорядоченное множество уровней

обобщения, задающее для каждого атрибута уровень обобще-

ния извлекаемых по нему значений . При этом с каждым уровнем обобщения связано множество экземпляров этого уровня обобщения

. Непустые множества экземпляров Е составляют

множество Тх = и^?}-1,Х€1Х

Множество а т рэв ав = {ав}, 1 = {1,2,...,|а3|} ж е является подмножеством А, причем ав=а\ах |ав|=|а|-2). Каждый атрибут ;а?

содержит экземпляры некоторого уровня обобщения, по которым осуществляется формирование плоских проекций многомерного гиперкуба для интеллектуального анализа. Подмножество уровней обобщения

задает для каждого атрибута уровень обоб-

щения извлекаемых по нему значений 1,веЕ. С каждым уровнем обобщения I,8 связано множество экземпляров этого уровня обобщения

Формирование каждой плоской проекции многомерного гиперкуба и передача ее для анализа осуществляется заданием комбинации экземпляров Е?. Множество таких комбинаций Vй является прямым произведением множеств экземпляров уровней обобщения 1,в, связанных с каждым из атрибутов а,":

Соответственно, количество таких комбинаций определяется произведением мощностей данных множеств.

В зависимости от размерности анализируемого гиперкуба, соответствующей мощности множества атрибутов |а| , возможны три принципиально различные ситуации.

1. В этом случае невозможно формирование множества и

следовательно, гиперкуб такой мерности непригоден для многомерного интеллектуального анализа.

2. |Л| =2. Здесь А8 = 0, гиперкуб является «плоским», и такая обработка соответствует традиционному подходу, когда для анализа используются данные, организованные в «плоские» файлы.

3. |л|>2. Данный случай является наиболее общим. Здесь Ав*0, и

элементы этого множества используются для формирования плоских проекций многомерного гиперкуба.

Разработанный метод организации ИАД в среде многомерной аналитической обработки послужил основой реализации интерфейса для подключения к данной среде развивающейся библиотеки методов ИАД. Отличаясь от традиционных подходов, основанных на использовании плоских файлов, разработанный метод обеспечивает при проведении интеллектуального анализа сохранение многомерного взгляда на информацию и позволяет в качестве анализируемых объектов и характеризующих их показателей использовать любую комбинацию измерений. При этом получение информации обеспечивается базовой OLAP-системой, особенностью которой является гибкая организация уровней обобщения посредством произвольных реляционных отношений.

Благодаря повышению уровня консолидации информации посредством предложенного способа интеграции OLAP-технологии и ИАД разработанный метод увеличивает производительность и эффективность аналитической обработки накопленной в хранилище данных информации.

В ряде случаев (например, в задачах обработки диагностической информации) источниками для анализа могут являться непосредственно детализированные данные хранилища. Традиционные средства доступа к таким данным ориентированы на навигацию по хранилищу и выборку найденной совокупности информационных объектов. Отношения между сущностями на уровне навигационных метаданных реализуются посредством ключевых полей. Для организации произвольных уровней обобщения и отражения в информационной модели бизнес-логики предметной области представляется целесообразным применить многомерное концептуальное представление для организации доступа средств ИАД к детализированным данным.

Разработан метод организации интеллектуального анализа детализированных данных, основанный на многомерном концептуальном представлении реляционной структуры хранилища посредством соответствующих информационных моделей, описании моделей в аналитических метаданных и использовании их при проведении анализа. В ос-

нову предлагаемой информационной модели положено понятие многомерного факта, который может одновременно характеризоваться количественными и качественными признаками. Математическое описание многомерной информационной модели для реализации интеллектуального анализа детализированных данных включает:

• N = |п,,п,,...,п,м1) - множество атрибутов информационной модели,

соответствующих количественным характеристикам моделируемых многомерных фактов;

• Р = .....ЯкЛ " множество атрибутов информационной модели,

соответствующих качественным характеристикам моделируемых многомерных фактов;

• ней обобщения данных по атри-

вится в соответствии непустое подмножество уровней обобщения ; при этом с каждым связано множество экземпляров этого

уровня обобщения определяющее область

возможных значений для данного уровня обобщения качественного атрибута.

Учитывая возможность отсутствия элементов во множествах, описывающих количественные и качественные характеристики, целостность модели предполагает выполнение условия NuQ*0.

Данная информационная модель предназначена для описания многомерного концептуального представления детализированных данных и трансляции запроса к этому представлению в SQL-запрос к реляционной базе. Выбор адекватного цели исследования объема данных основан на локализации характеристик исследуемого многомерного факта посредством ограничения полного (потенциально возможного) его описания в модели. При этом определению может подлежать не только набор анализируемых характеристик, но и желаемый уровень обобщения для качественных характеристик и область их значений.

Шаблон SQL-запроса на получение из хранилища детализированной информации для ИАД имеет следующий вид:

SELECT < ..> FROM < ..>WHERE < ..>.

Дополнение к секции «SELECT» определяет набор выбранных для исследования характеристик многомерного факта. Согласно предложенной информационной модели для ИАД это могут быть:

S = (N,Q,LQ). где:

этом каждому атрибуту ста-

< I

1. Количественные характеристики, определенные множеством N . Разные формы дополнения к данной секции позволяют использовать в качестве количественных характеристик:

1) значения полей численного типа, непосредственно представленных в таблицах ХД;

2) расчетные значения, определенные посредством SQL-выражений.

2. Качественные характеристики, определенные совокупностью множеств Q и Lq . Необходимое дополнение в данном случае определяется по установленному в модели для каждого уровня обобщения 1 характеризующему полю.

В соответствии с выделенными в модели типами извлекаемых характеристик дополнение к секции «FROM» состоит из двух частей. Первая содержит набор таблиц, содержащих поля численного типа, по которым осуществляется извлечение и (или) расчет количественных характеристик исследуемого многомерного факта. Вторая включает перечисление таблиц, определенных для входящих в подмножество L? уровней обобщения и необходимых для извлечения качественных признаков.

В секции «WHERE» в соответствии с предложенной многомерной информационной моделью выделяется три группы элементов. Первая группа реализует необходимые пересечения таблиц хранилища данных для извлечения и (или) расчета числовой информации. Вторая - содержит условия принадлежности запрашиваемой качественной характеристики многомерного факта экземплярам выбранного в запросе уровня обобщения. И третья группа формирует условия, реализующие, 8 случае необходимости, ограничение области значений запрашиваемых качественных признаков посредством явного выделения экземпляров по выбранному уоовню обобщения.

Организация доступа к детализированным данным хранилища осуществляется посредством трансляции запроса пользователя, сформулированного в терминах многомерной информационной модели, в SQL-запрос к реляционной базе данных. Рассмотрен способ описания соответствующих информационных моделей в аналитических метаданных базовой OLAP-системы При этом осуществляется специализация аналитических метаданных, заключающаяся в снятии ограничений, жестко определяющих роль атрибутов информационной модели в соответствии с концепцией оперативной аналитической обработки Использование метаданных обеспечивает гибкое перепроектирование систем ИАД в рамках прикладных ИАС с целью удовлетворения развивающихся информационных потребностей.

На основании метода организации интеллектуального анализа детализированных данных предложена программная реализация инстру-

ментальной системы, которая может быть представлена как совокупность следующих подсистем:

• подсистема получения данных из хранилища, реализующая извлечение запрашиваемых детализированных данных в соответствии с описанным на метауровне концептуальным представлением предметной

области;

• подсистема предварительной обработки данных, решающая задачи определения качества исходных данных и повышения его, в случае необходимости, посредством соответствующих процедур (устранение пропусков, сглаживание, фильтрация данных и т.п.);

• подсистема интеллектуального анализа данных, в основу которой положена совокупность реализованных методов ИАД.

В отличие от известных подходов, разработанный метод организации интеллектуального анализа детализированных данных обеспечивает естественное для пользователя многомерное концептуальное представление анализируемых данных. При этом гибкость моделирования исследуемых многомерных фактов достигается за счет равноправного манипулирования количественными и качественными характеристиками фактов; возможности трансформации количественных характеристик в соответствии с заданной бизнес-логикой; возможности задания посредством произвольных реляционных отношений уровней обобщения для качественных характеристик и областей их значений.

Благодаря отмеченной гибкости в определении состава исследуемых данных и степени их обобщения разработанный метод позволяет уменьшить временные затраты на анализ данных, одновременно облегчая интерпретацию получаемых закономерностей.

Во второй главе также уделено внимание соотношению двух предлагаемых методов организации ИАД и определению областей их возможного применения в энергетической сфере. В случае анализа статистической информации, представляющей набор количественных показателей в определенном базисе измерений, наиболее продуктивным подходом является организация оперативной аналитической обработки данных с последующим интеллектуальным анализом. К такого рода информации относятся, в частности, данные по энергоаудиту организаций и мониторингу производства, распределения и потребления топливно-энергетических ресурсов. Анализ детализированных данных в энергетических приложениях может быть связан с обработкой информации по диагностике электрооборудования.

В третьей главе рассмотрена методика адаптации существующих методов интеллектуального анализа к предложенным способам его организации. Методика адаптации включает разработку алгоритма, реализующего существующий метод ИАД на основе его теоретического опи-

сания, организацию информационного взаимодействия алгоритма с хранилищем данных, организацию пользовательского интерфейса.

В соответствии с потребностями создаваемых предметных приложений для проведения ИАД в среде оперативной аналитической обработки адаптированы методы главных компонент, кластерного анализа и визуализации многомерных данных. Данные методы обеспечивают

• снижение размерности исследуемого многомерного признака для наглядной визуализации объектов и построения интегральных показателей;

• автоматическую классификацию объектов иерархическими методами кластерного анализа;

• визуализацию объектов в пространстве одной, двух и трех переменных, соответствующих как исходным показателям, так и главным компонентам.

За счет использования предложенного подхода к организации ИАД достигается расширение аналитической функциональности реализованных методов по сравнению с аналогичными системами. Анализ оперативно формируемых проекций многомерного гиперкуба дает возможность наглядно проследить изменение ситуации в анализируемой предметной области при переходе от одной проекции к другой. Повышение эффективности анализа достигается также за счет взаимодополняемости перечисленных методов, реализованной посредством возможности их совместного использования.

Для исследования детализированных данных адаптированы методы нейросетевого анализа и деревьев решений. При помощи данных методов могут быть решены актуальные в ряде предметных областей (энергетика, здравоохранение, образование) задачи анализа диагностических данных и показателей качества систем. Построенные классификационные модели используются как для объяснения имеющихся диагностических данных, так и непосредственно при классификации новых объектов.

Описанная в данной главе методика позволяет осуществлять гибкое масштабирование проектируемых систем анализа.

В четвертой главе рассмотрена технология автоматизированного проектирования средств интеллектуального анализа данных при создании прикладных ИАС Данная технология является частью полной технологии автоматизированного проектирования ИАС на основе комплекса инструментальных средств, которая представляет собой последовательность следующих стадий.

1 Проведение информационного обследования предметной области для определения существенных бизнес-процессов.

2. Проектирование и создание хранилища данных, информационные объекты которого определяются на основе установленных бизнес-понятий и бизнес-событий предметной области.

3. Решение вопроса об информационном наполнении хранилища данных с учетом существующих в предметной области информационных потоков и проектирование системы загрузки.

4. Организация комплексной информационно-аналитической обработки накопленной в хранилище информации посредством формирования метаданных, являющихся содержательным наполнением проектируемых систем: информационно-поисковой системы; системы оперативной аналитической обработки; системы регламентированной отчетности; системы интеллектуального анализа данных.

5. Сопровождение ИАС в процессе жизненного цикла исследуемой системы с возможностью реинжиниринга на основе средств автоматизированного проектирования.

Предложенная технология проектирования средств интеллектуального анализа данных в прикладных иАс состоит из следующих этапов.

1. Выбор набора методов ИАД для использования в прикладной ИАС на основе потребностей анализа и характера исходных данных в исследуемой предметной области.

2. Адаптация для использования в системе новых методов ИАД в соответствии с предложенной методикой, если актуальные для использования в заданной предметной области методы не реализованы в составе комплекса инструментальных средств.

3. Перепроектирование структуры ХД в целях удовлетворения выявленных потребностей анализа, включая организацию необходимых аналитических витрин и требуемых уровней обобщения данных. В развитой ИАС необходимо построение как аналитических витрин, соответствующих основным бизнес-событиям предметной области и позволяющих работать с однородными фактами на уровне прикладной бизнес-логики, так и интегрированных витрин, реализующих консолидацию информации по отдельным аспектам функционирования системы.

4. Для каждого выбранного метода ИАД, в зависимости от характера планируемых исследований данных, определение необходимого способа организации анализа.

5 В случае использования метода организации ИАД в среде оперативной аналитической обработки - формирование аналитических метаданных для базовой ОЬАР-системы и подключение к ней набора модулей, реализующих выбранные методы ИАД.

6 В случае использования метода организации интеллектуального анализа детализированных данных - формирование специализирован-

ных аналитических метаданных и подключение требуемых модулей ИАД к соответствующему функциональному ядру.

В диссертации рассмотрен ряд конкретных решений:

• -ИАС по топливно-энергетическому балансу Ивановской области (Администрация Ивановской области);

• -ИАС по энергосбережению в сфере образования (Министерство образования России);

• ИАС по социально-экономическому положению регионов (Администрации Ивановской, Владимирской и Костромской областей, Департамент региональной экономики Минэкономразвития России).

На примере перечисленных ИАС показана технология проектирования средств интеллектуального анализа накопленной в ХД информации, обеспечивающая соответствующую информационную поддержку принятия решений в процессе жизненного цикла сложных систем. Адаптированные к использованию в рассмотренных информационно-аналитических системах методы ИАД направлены на комплексное исследование объектов систем, позволяющее производить их многсфак-тсрный сравнительный анализ с целью выявления аномалий, диспропорций и точек роста. Принятые на основе результатов анализа решения ориентированы на совершенствование исследуемых систем с целью повышения их эффективности. Кроме того, аналитическая обработка накопленной в ретроспективе информации обеспечивает проверку эффективности принимаемых решений.

Пользователями разработанных ИАС являются специалисты региональных департаментов топливно-энергетического комплекса, подразделений Госэнергонадзора, отраслевых центров энергосбережения, региональных энергетических комиссий, информационных и экономических управлений органов государственной власти.

В заключении подведены итоги работы. Перечислены результаты и выводы, определены направления дальнейших исследований.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ РАБОТЫ

1. Интеллектуальный анализ данных следует рассматривать в качестве важной составляющей информационной поддержки принятия решений в процессе жизненного цикла сложных технических и социальных систем. Для повышения эффективности аналитической обработки накапливаемой информации целесообразна интеграция технологий интеллектуального анализа и оперативной аналитической обработки данных.

2. Увеличение производительности аналитической обработки инфсома-ции может быть достигнуто за счет реализации преимуществ манипулирования многомерными данными посредством разработанного ме-

тода организации интеллектуального анализа в среде оперативной аналитической обработки, основанного на использовании информационной модели, которая позволяет в оперативном режиме задавать направления проецирования анализируемого гиперкубического представления данных в виде матрицы «объект свойство».

3. Проведение адекватного цели исследования анализа данных с уменьшением временных затрат и одновременным улучшением интерпретации получаемых закономерностей может обеспечиваться за счет разработанного метода организации интеллектуального анализа детализированных данных, основанного на многомерном концептуальном представлении реляционной структуры хранилища данных. Результат достигнут на основе возможностей: равноправного манипулирования количественными и качественными характеристиками анализируемых фактов; трансформации количественных характеристик в соответствии с заданной бизнес-логикой; задания произвольных уровней обобщения для качественных характеристик и области их значений.

4. Осуществление гибкого масштабирования проектируемых информационно-аналитических систем реализуется посредством предложенной архитектуры инструментальной системы интеллектуального анализа данных, в основе которой лежит функциональное ядро, обеспечивающее доступ модулей интеллектуального анализа к хранилищу данных при помощи предложенных информационных интерфейсов.

5. Удовлетворение расширяющихся информационных потребностей в процессе длительного жизненного цикла сложных технических и социальных систем обеспечивает разработанная технология автоматизированного проектирования средств интеллектуального анализа данных на основе программного комплекса. Основу технологии составляют перепроектирование структуры хранилища данных для удовлетворения новых потребностей анализа и формирование метаданных, обеспечивающих информационное взаимодействие методов анализа с хранилищем.

6. Разработанный подход к организации интеллектуального анализа данных использован при создании ряда реальных проектов в сфере энергетики и регионального управления. Полученные результаты подтверждают работоспособность и эффективность предложенной технологии аналитической обработки информации в процессе организации информационной поддержки принятия решений.

По теме диссертации опубликованы следующие работы.

1. Козырев М.А. Метод организации интеллектуального анализа данных в среде многомерной аналитической обработки // Актуальные пробле-

мы современной науки: Тез. докл. 4-й Межд. конф. 10-12 сентября 2003 г. - Самара, 2003. - С. 51-54.

2. Козырев М.А. Применение интеллектуального анализа данных в задачах мониторинга и оценки социально-экономического положения регионов // Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и систем искусственного интеллекта: Материалы 2-й Межд. науч.-техн. конф. - Вологда: ВоГТУ, 2003. - С. 14-17.

3. Ратманова И.Д., Козырев М.А. Информационно-аналитическая система мониторинга организации учебного процесса // Состояние и перспективы развития электротехнологии: Тез. докл. Межд. науч.-техн. конф. «XI Бенардосовские чтения». 4-6 июня 2003 г. - Иваново, 2003. - В 2 т., Т. 2, С. 234.

4. Ратманова И.Д., Козырев М.А. Информационно-аналитическая система по мониторингу и оценке ресурсоэффективности образовательных учреждений // Повышение эффективности работы энергосистем: Тр. ИГЭУ. Вып. 5. - М.: Энергоатомиздат, 2002. - С. 127-135.'

5. Ратманова И.Д., Козырев М.А. К вопросу создания автоматизированной системы поддержки принятия решений в ВУЗе// Информационная -среда вуза: Тез. докл. X Межд. науч.-техн. конф. 27-28 ноября 2003 г. -Иваново: ИГАСА, 2003. - С. 10-13.

6. Ратманова И.Д., Козырев М.А. Интеллектуапьный< анализ данных: Методические указания для студентов специальностей 2204 и 5528 / Иван. гсс. энерг. ун-т. - Иваново: ИГЭУ, 2003. - 56 с.

7. Ратманова И.Д., Козырев М.А. Мониторинг качества образовательных услуг на основе аналитической обработки информации в университетском хранилище данных // Стратегия развития высшей школы и управление качеством образования: Сборник научных трудов межд. науч.-практич. семинара. - Иваново: ИГЭУ, 2003. - С. 135-136.

Тираж 100 экз. Заказ_

Отпечатано а РИО ИГЭУ 152003. г Иваново, ул Рабфаковская, 34

Осрмат бумаги 60x84 1/16. Печать плоская.

i-1004

РНБ Русский фонд

2004-4 22792

Оглавление автор диссертации — кандидата технических наук Козырев, Михаил Александрович

Введение.

Глава 1. Современные подходы к организации аналитической обработки данных в системах поддержки принятия решений.

1.1. Концепция хранилищ данных - основа среды поддержки принятия решений.

1.2. Методы и средства аналитической обработки данных.

1.2.1. Системы регламентированной отчетности.

1.2.2. Оперативная аналитическая обработка данных.

1.2.3. Интеллектуальный анализ данных.

1.2.4. Соотношение концепций интеллектуального анализа и оперативной аналитической обработки данных.

1.3. Обзор существующих инструментальных средств.

1.3.1. Microsoft.

1.3.2. Oracle.

1.3.3. Cognos.

1.3.4. ЗАО «Прогноз».

1.3.5. Basegroup Labs.

1.4. Выводы по главе 1.

Глава 2. Методы организации интеллектуального анализа данных в среде поддержки принятия решений.

2.1. Программный комплекс ИнфоВизор - основа организации среды поддержки принятия решений.

2.2. Методы организации интеллектуального анализа данных.

2.2.1. Метод организации интеллектуального анализа в среде многомерной аналитической обработки.

2.2.2. Метод организации интеллектуального анализа детализированных данных.

2.3. Выводы по главе 2.

Глава 3. Адаптация методов интеллектуального анализа данных для применения в среде поддержки принятия решений.

3.1. Реализация методов интеллектуального анализа данных в среде оперативной аналитической обработки.

3.1.1. Организация информационного взаимодействия методов с хранилищем данных.

3.1.2. Метод главных компонент.

3.1.3. Кластерный анализ.

3.1.4. Визуализация многомерных данных.

3.1.5. Расширение аналитической функциональности методов.

3.2. Реализация методов интеллектуального анализа детализированных данных.

3.2.1. Организация информационного взаимодействия методов с хранилищем данных.

3.2.2. Нейронные сети.

3.2.3. Деревья решений.

3.3. Выводы по главе 3.

Глава 4. Проектирование средств интеллектуального анализа данных в прикладных информационных системах.

4.1. Технология автоматизированного проектирования информационно-аналитических систем.

4.1.1. Проектирование хранилища данных.

4.1.2. Технология проектирования средств интеллектуального анализа данных.

4.2. Информационно-аналитическая система по топливно-энергетическому балансу Ивановской области.

4.3. Информационно-аналитическая система по социально-экономическому положению регионов.

4.4. Информационно-аналитическая система по энергосбережению в сфере образования.

4.5. Выводы по главе 4.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Козырев, Михаил Александрович

Эффективное управление сложными техническими и социальными системами в процессе их жизненного цикла, включающего проектирование, создание и эксплуатацию, невозможно без полноценной информационной поддержки, обеспечиваемой автоматизированными системами поддержки принятия решений (СППР).

Достаточно остро проблема информационной поддержки принимаемых решений стоит в энергетической сфере. Сложность систем энергетики, значительные средства, расходуемые на всех этапах их жизненного цикла, а также высокие требования к качеству и надежности энергоснабжения, обуславливают необходимость дальнейшей разработки и совершенствования методов и средств принятия решений, реализуемых на разных уровнях управления. Не менее остро проблема информационной поддержки стоит в региональном управлении. Обоснованное и рациональное принятие решений в этой сфере возможно лишь при выполнении оперативного многоаспектного анализа большого количества данных.

Современный подход к автоматизации поддержки принятия решений основан на использовании концепции хранилищ данных (ХД) корпоративных информационно-аналитических систем (ИАС). Интеграция информации и ее комплексная аналитическая обработка позволяют обеспечить поддержку принятия решений с целью совершенствования исследуемых систем, а также с целью оценки эффективности принимаемых решений. Современный арсенал средств автоматизации поддержки принятия решений включает информационно-поисковые системы (ИПС), системы генерации отчетов, средства оперативной аналитической обработки данных (On-Line Analytical Processing, OLAP) и интеллектуального анализа данных (ИАД, Data Mining). Если первые обеспечивают решение задач оперативной отчетности и разведочного анализа данных, то ИАД предназначен для выявления существенных закономерностей в характеристиках исследуемой системы. При этом эффективность создаваемой ИАС в значительной степени зависит от того, насколько средства ИАД интегрированы с единой информационной средой поддержки принятия решений. Проблема организации интеллектуального анализа данных не имеет на сегодняшний день комплексного решения, совмещающего гибкость информационных моделей ХД с удобством манипулирования данными при использовании различных методов анализа.

Масштаб и сложность исследуемых систем, а также длительность их жизненного цикла требуют совершенствования средств автоматизированного проектирования ИАС. Это достигается на основе разработки развитых инструментальных средств, обеспечивающих процесс создания информационно-аналитических систем и их перепроектирование для учета изменений в исследуемой предметной области и для удовлетворения расширяющихся информационных потребностей.

Целью диссертации является разработка методов и средств автоматизации проектирования информационно-аналитических систем, обеспечивающих унифицированные способы организации интеллектуального анализа данных в комплексном процессе обработки накапливаемой информации для эффективной поддержки принятия решений.

Для достижения поставленной цели в диссертационной работе решаются следующие задачи.

1. Исследование методов интеллектуального анализа данных и подходов к их использованию в СППР.

2. Разработка метода организации ИАД в среде оперативной аналитической обработки.

3. Разработка механизма многомерного концептуального представления детализированных данных из реляционных источников для интеллектуального анализа.

4. Разработка функционального ядра предоставления детализированных данных корпоративного хранилища для ИАД посредством использования многомерных концептуальных моделей, хранящихся в специализированных аналитических метаданных.

5. Адаптация методов интеллектуального анализа данных для их применения в рамках разработанных подходов к организации ИАД в СППР.

6. Разработка инструментария интеллектуального анализа данных, ориентированного на применение в среде автоматизированного проектирования ИАС.

7. Разработка технологии организации анализа данных при создании прикладных ИАС.

При решении поставленных задач в диссертационной работе использованы: методы системного анализа, теория множеств, теория построения информационных систем, теория баз данных, методы искусственного интеллекта, теория прикладной статистики, теория и методы автоматизированного проектирования.

Научная новизна работы заключается в разработке методов организации интеллектуального анализа данных в среде поддержки принятия решений, отличающихся использованием многомерного концептуального представления данных при реализации информационного взаимодействия алгоритмов анализа с хранилищем.

Получены следующие новые научные результаты.

1. Разработан метод организации ИАД в среде оперативной аналитической обработки, включающий описание многомерных данных в информационной модели и порядок ее использования при проведении анализа. Предлагаемая информационная модель, описывая метауровень над анализируемым гиперкубическим представлением данных, задает направление его проецирования в виде матрицы «объект - свойство». В отличие от традиционных решений в сфере ИАД, использующих в качестве входной информации плоские файлы, данный метод позволяет использовать преимущества манипулирования многомерными данными, что выражается: а) в возможности получения информации для анализа любой размерности и степени агрегации посредством базовой OLAP-системы; б) в обеспечении сохранения многомерного взгляда на информацию при проведении анализа.

За счет повышения уровня консолидации информации посредством предложенного способа интеграции OLAP-технологии и ИАД разработанный метод увеличивает производительность аналитической обработки накопленной в хранилище данных информации, что способствует более эффективной поддержке принятия решений. 2. Разработан метод организации интеллектуального анализа детализированных данных, основанный на многомерном концептуальном представлении реляционной структуры хранилища данных посредством соответствующих информационных моделей, описании моделей в аналитических метаданных и использовании их при проведении анализа. Предложенный подход реализует манипулирование детализированными данными в соответствии с многомерным представлением, включая определение интересующих характеристик многомерного факта, уровней обобщения и областей значений. В отличие от известных подходов к организации интеллектуального анализа детализированных данных, разработанная информационная модель обеспечивает гибкость при моделировании исследуемых фактов за счет: а) равноправного манипулирования количественными и качественными характеристиками анализируемых фактов; б) возможности трансформации количественных характеристик многомерных фактов в соответствии с заданной бизнес-логикой; в) возможности задания произвольных уровней обобщения для качественных характеристик многомерных фактов и области их значений.

Выбор адекватных цели исследования объема данных и степени их обобщения позволяет уменьшить временные затраты на исследование данных с одновременным улучшением интерпретации получаемых закономерностей.

3. Предложена архитектура инструментальной системы интеллектуального анализа данных в рамках программного комплекса, ориентированного на автоматизированное проектирование ИАС. В ее основе лежит функциональное ядро доступа к ХД, к которому подключаются модули ИАД посредством предложенных информационных интерфейсов. Данная архитектура, отличаясь реализацией унифицированных способов информационного взаимодействия алгоритмов с хранилищем данных, позволяет осуществлять гибкое масштабирование проектируемых ИАС.

4. Предложена технология автоматизированного проектирования средств интеллектуального анализа данных при создании прикладных ИАС на основе разработанного комплекса программных средств. Данная технология отличается комплексностью получаемых решений в конкретных предметных областях, интегрированностью отдельных составляющих аналитической обработки данных, разнообразием и гибкостью концептуального моделирования анализируемой предметной области.

На защиту выносятся:

1. Метод организации интеллектуального анализа данных в среде оперативной аналитической обработки.

2. Метод организации интеллектуального анализа детализированных данных.

3. Архитектура инструментальной системы интеллектуального анализа данных в рамках программного комплекса, ориентированного на автоматизированное проектирование информационно-аналитических систем.

4. Технология проектирования средств интеллектуального анализа данных при создании прикладных ИАС на основе разработанного комплекса программных средств.

Основные положения диссертации изложены в работах [90 - 100], а также обсуждались:

• на Международной научно-технической конференции «XI Бенардосов-ские чтения» (Ивановский государственный энергетический университет, Иваново, 2003);

• на 2 Международной научно-технической конференции «Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и систем искусственного интеллекта» (Вологодский государственный технический университет, Вологда, 2003);

• на 4 Международной конференции старшеклассников, студентов, молодых ученых, преподавателей, аспирантов и докторантов «Актуальные проблемы современной науки» (Самара, 2003);

• на X Международной научно-технической конференции «Информационная среда ВУЗа» (Ивановская государственная архитектурно-строительная академия, Иваново, 2003);

• на Международном научно-практическом семинаре «Стратегия развития высшей школы и управление качеством образования» (Ивановский государственный энергетический университет, Иваново, 2003). Диссертационная работа структурно состоит из введения, четырех глав и

Заключение диссертация на тему "Автоматизация проектирования систем интеллектуального анализа данных"

4.5. Выводы по главе 4

В рамках данной главы описана отработанная технология автоматизированного проектирования средств ИАД при создании прикладных ИАС на основе комплекса программных средств ИнфоВизор. На примере реализованных решений показано, что эффективность проектируемой ИАС в целом и ее интеллектуальной составляющей в частности в обеспечении информационной поддержки принятия решений определяется всеми составляющими представленной технологии. Базисом информационно-аналитической системы, определяющим ее потенциальные аналитические возможности, является интеграция необходимой информации в хранилище данных. Собственно поддержка принятия решений обеспечивается при помощи разнообразных развитых средств анализа данных.

Важной особенностью реализации различных способов информационно-аналитической обработки накопленных в хранилище данных в комплексе ИнфоВизор является их взаимосвязанность и взаимодополняемость при организации поддержки принятия решений. Принятая технология отличается комплексностью получаемых решений в конкретных предметных областях, интегрированностью отдельных составляющих аналитической обработки данных, включая ИАД, разнообразием и гибкостью концептуального моделирования анализируемой предметной области.

Заключение

Практическое применение рассмотренных в работе методов и программных средств открывает перспективу эффективного использования средств интеллектуального анализа данных для решения актуальной народнохозяйственной задачи - обеспечения информационной поддержки управления сложными техническими и социальными системами в процессе их жизненного цикла, включая проектирование, создание и эксплуатацию. Эффективность интеллектуального анализа достигается, с одной стороны, за счет реализованной интеграции с современными концепциями хранения и анализа данных. С другой стороны, удовлетворение постоянно расширяющихся аналитических потребностей обеспечивается созданными инструментальными средствами автоматизированного проектирования ПАС.

Разработан метод организации ИАД в среде оперативной аналитической обработки, включающий описание многомерных данных в информационной модели и порядок ее использования при проведении анализа. В отличие от традиционных решений в сфере ИАД, использующих в качестве входной информации плоские файлы, данный метод позволяет использовать преимущества манипулирования многомерными данными. Оперативно задавая направления проецирования анализируемого гиперкубического представления данных в виде матрицы «объект - свойство», метод обеспечивает многомерный взгляд на информацию при проведении интеллектуального анализа. Это выражается в возможности получения информации для анализа любой размерности и степени агрегации и свободном манипулировании измерениями гиперкубического представления. За счет этого разработанный метод увеличивает производительность аналитической обработки накопленной в ХД информации, что способствует более эффективной поддержке принятия решений.

Разработан метод организации интеллектуального анализа детализированных данных, основанный на многомерном концептуальном представлении реляционной структуры хранилища данных посредством соответствующих информационных моделей, описании моделей в аналитических метаданных и использовании их при проведении анализа. Предложенный подход распространяет многомерное концептуальное представление на случай, когда данные для ИАД должны быть представлены в явном детализированном виде. В отличие от известных подходов к организации интеллектуального анализа детализированных данных, разработанная информационная модель обеспечивает гибкость при моделировании исследуемых фактов за счет: равноправного манипулирования количественными и качественными характеристиками анализируемых фактов; возможности трансформации количественных характеристик многомерных фактов в соответствии с заданной бизнес-логикой; возможности задания произвольных уровней обобщения для качественных характеристик многомерных фактов и области их значений. За счет указанной гибкости в определении объема исследуемых данных и степени их обобщения разработанный метод позволяет уменьшить временные затраты на исследование данных с одновременным улучшением интерпретации получаемых закономерностей.

Предложена архитектура построения инструментальной системы интеллектуального анализа данных в рамках программного комплекса, ориентированного на автоматизированное проектирование ИАС. В ее основе лежит функциональное ядро доступа к ХД, к которому подключаются модули ИАД посредством предложенных информационных интерфейсов. В рамках предложенной архитектуры в работе представлена реализация ряда существующих методов ИАД. На их примере отработана методика адаптации технологических методов ИАД к предложенным способам его организации, позволяющая осуществлять гибкое масштабирование проектируемых систем анализа.

На основе предложенных подходов к организации ИАД в среде поддержки принятия решений и разработанного в рамках программного комплекса ИнфоВизор инструментария реализованы подсистемы ИАД в ряде прикладных информационно-аналитических систем в сфере энергетики и регионального управления:

• ИАС по топливно-энергетическому балансу Ивановской области (Администрация Ивановской области);

• ИАС по энергосбережению в сфере образования (Министерство образования России);

• ИАС по социально-экономическому положению регионов (Администрации Ивановской, Владимирской и Костромской областей, Департамент региональной экономики Минэкономразвития России).

На их примере отработана технология автоматизированного проектирования средств интеллектуального анализа данных при создании прикладных ИАС на основе разработанного комплекса программных средств. Отличительной особенностью данной технологии является комплексность получаемых решений в конкретных предметных областях, интегрированность отдельных составляющих аналитической обработки данных, разнообразие и гибкость концептуального моделирования анализируемой предметной области.

Дальнейшее развитие исследований планируется в следующих направлениях.

• Развитие методологии аналитической обработки в рассмотренных энергетических приложениях по мере получения новых данных, включая расширение библиотеки реализованных технологических методов ИАД.

• Повышение эффективности интеллектуального анализа в среде оперативной аналитической обработки за счет обогащения структуры анализируемого гиперкуба.

• Обеспечение обратной связи между средствами ИАД и оперативной аналитической обработки, позволяющей в автоматическом режиме использовать выявленные закономерности в данных для реализации новых моделей многомерного анализа.

• Автоматизация использования найденных закономерностей непосредственно при принятии решений.

Библиография Козырев, Михаил Александрович, диссертация по теме Системы автоматизации проектирования (по отраслям)

1. Аджиев В. MineSet визуальный инструмент аналитика // Открытые системы. - 1997. - № 3. - С. 72-77.

2. Адомавичус Г., Тужилин А. Использование методов добычи данных для создания профилей потребителей // Открытые системы. 2001. - №5-6. -С. 75-82.

3. Айвазян С.А., Мхитарян B.C. Прикладная статистика в задачах и упражнениях: Учебник для вузов. М.: ЮНИТИ-ДАНА, 2001. - 270 с.

4. Андрианов Д.Л., Балаш М.Н., Косвинцев K.JL, Кулаков М.Ю., Ситников Д.В. Имитационное моделирование и сценарный подход в системах поддержки принятия решений // Проблемы теории и практики управления. -2002.-№5.-С. 74-75.

5. Андрианов Д.Л., Полушкина Г., Павлов В., Кулаков М., Речицкая О., Овчаров Е., Косвинцев К. Построение систем учета, анализа и прогнозирования государственных финансов // Проблемы теории и практики управления. 2003. - №2.

6. Артемьев В. Что такое Business Intelligence? // Открытые системы. 2003. -№4.-С. 20-26.

7. Асеев М.Г., Баллюзек М.Ф., Дюк В.А. Разработка медицинских экспертных систем средствами технологии Data Mining. — http://datadiver.nw.ru/Articles/DevDM.htm.

8. Блинов С. BrainMaker прогнозирование на финансовых рынках // Открытые системы. - 1998. - №4. - С. 42-^6.

9. Блок энергетических балансов страны и регионов (ТЭБ). -http://energo21 .ru/methodology/teb.html.

10. П.Большаков П.С. Уникальные возможности STATISTICA Data Miner. -http://www.statsoft.ru/home/applications/dataminer.htm.

11. Буров К. Обнаружение данных в хранилищах данных // Открытые системы. 1999. - №5-6. - С. 67-77.

12. Вагин Г.Я., Лоскутов А.Б., Солнцев Е.Б., Шмелев М.Е., Фитасов А.Н. Энергоаудит организаций бюджетной сферы Нижегородского региона // Энергоэффективность: опыт, проблемы, решения. 1999. - Вып. 1. - С. 52-55.

13. Варфоломеев А. Средства Data Mining в Microsoft SQL Server 2000 // BYTE/Россия. 2002. - №4.

14. Ганьон Г. Проектирование киоска данных // PC Magazine/RE. 2000. -№7.

15. Горбань А. Нейроинформатика и ее приложения // Открытые системы. -1998.-№4.-С. 36-41.

16. Де Виль Б. Средства исследования данных в SQL Server 2000 // SQL Magazine OnLine. 2001. - №2.

17. Дюк В. Data Mining состояние проблемы, новые решения. — http://www.inftech.webservis.ru/it/database/datamining/arl.html.

18. Дюк В., Самойленко A. Data Mining: Учебный курс. СПб: Питер, 2001. -368 с.

19. Дюк В. Осколки знаний // Экспресс-Электроника. 2002. - №6. - С. 6065.

20. Елманова Н. Microsoft SQL Server 2000 Analysis Services // КомпьютерПресс. 2000. - №9. - С. 43—47.

21. Иванов П. Бизнес-интеллект в телекоммуникациях // Сети. 2003. - №13.

22. Ивлиев С., Полушкина Г. Моделирование динамики сложных экономических систем: инструментальное решение // Банковские технологии. -2003.-№3.

23. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы. 1997. - №4. - С. 41-44.

24. Компания BaseGroup Labs, http://www.basegroup.ru.

25. Коровкин С. Д., Левенец И. А., Ратманова И. Д., Старых В. А., Щавелёв Л. В. Решение проблемы комплексного оперативного анализа информации хранилищ данных // СУБД. 1997. - № 5-6. - С. 47-51.

26. Короткий С. Нейронные сети: алгоритм обратного распространения. -http://lii.newmail.ru/NN/KOROTKY/N2/kornn2.htm.

27. Левенец И.А. Методы и средства автоматизации проектирования и эксплуатации хранилищ данных (в сфере электроэнергетики и регионального управления): Дис. канд. техн. наук: 05.13.12, 05.13.01 / Ивановск. гос. энерг. ун-т. Иваново., 2001. - 152 с.

28. Лисянский К. Архитектурные решения и моделирование хранилищ и витрин данных // Директор ИС. 2002. - №3.

29. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных // СУБД. 1997. - №3.

30. Майоров A. Data Mining на службе у таможни // Открытые системы. -2002.-№10.-С. 74-79.

31. Маклаков С.В. Моделирование бизнес-процессов с BPwin 4.0. М.: ДИАЛОГ - МИФИ, 2002. - 224 с.

32. Мелентьев Л.А. Энергетический баланс. Терминология. М.: Наука, 1973.-32 с.

33. Методика проведения энергетических обследований бюджетных организаций. НИЦЭ, Н.Новгород, 1999 г.

34. Мусаев А. Интеллектуальный анализ данных: Клондайк или Вавилон? // Банковские технологии. 1998. - №11-12.

35. Николаи Д. IBM объединяет OLAP и добычу данных // Computerworld. -2001.-№46.

36. Нуждин В.Н., Кадамцева Г.Г. Стратегическое управление качеством образования: Учебное пособие // Иван. гос. энерг. ун-т. — Иваново. — 2002.

37. Педерсен Т., Иенсен К. Технология многомерных баз данных // Открытые системы. 2002. - №1. - С. 45-50.

38. Пржиялковский В. В. Сложный анализ данных большого объема: новые перспективы компьютеризации // СУБД. 1996. - № 4. - С. 71-83.

39. Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. Т. 1: Айвазян С.А., Мхитарян B.C. Теория вероятностей и прикладная статистика. - М.: ЮНИТИ-ДАНА, 2001. - 656 с.

40. Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. Т. 2: Айвазян С.А. Основы эконометрики. - М.: ЮНИТИ-ДАНА, 2001.-432 с.

41. Пройдаков Э. Что такое Data Mining // PC Week/RE. 1999. - №26.

42. Ратманова И.Д. Методология интеграции информации при создании автоматизированных систем поддержки принятия управленческих решений // Актуальные проблемы современной науки: Тез. докл. 4-й Межд. конф. 10-12 сентября 20.03 г. Самара, 2003. - С. 106-111.

43. Ривкин М. Новые возможности Oracle 9.2 // Открытые системы. 2002. -№11.-С. 59-61.

44. Савельев В.А. Методика оценки энергетической безопасности регионов на примере Ивановской области // Повышение эффективности работы энергосистем: Тр. ИГЭУ. Вып. 5. М.: Энергоатомиздат, 2002. - С. 5466.

45. Сахаров А. А. Концепция построения и реализации информационных систем, ориентированных на анализ данных // СУБД. 1996. - № 4. — С. 55-70.

46. Сахаров А. А. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server) // СУБД. 1996. - № 3. - С. 44-59.

47. Скуднова О.В., Загряжский А.В. Мониторинг энергопотребления образовательных учреждений // Энергоэффективность: опыт, проблемы, решения. 2002. - Вып. 3. - С. 86-90.

48. Спирли, Эрик. Корпоративные хранилища данных. Планирование, разработка, реализация. Том 1.: Пер. с англ. М.: Издательский дом «Вильяме», 2001.-400 е.: ил.

49. Степанов B.C. Фондовый рынок и нейросети // Мир ПК. 1998. - №12. — С. 40—46.

50. Суслов А. Инструменты и технологии аналитической обработки данных // Сетевой журнал. 2001. -№12.

51. Суспицын С.А. Комплекс моделей для оценки государственной региональной политики // Проект СИРЕНА: модели оценки региональной политики Новосибирск: ИЭиОПП СО РАН. - 1999. - С. 6-27.

52. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. М.: Мир, 1992.-240 с.

53. Ушаков А., Рязанова JL, Андрианов Д. и др. Разработка прогнозов социально-экономического развития регионов с использованием комплексной имитационной модели // Российский экономический журнал. 2000. — №2.-С. 72-78.

54. Федоров А., Елманова Н. Введение в OLAP: часть 1. Основы OLAP // КомпьютерПресс. 2001. - №4. - С. 145-148.

55. Федоров А., Елманова Н. Введение в базы данных: средства Business Intelligence // КомпьютерПресс. 2001. - №3. - С. 127-132.

56. Хехт-Нильсен Р. Нейрокомпьютинг: история, состояние, перспективы // Открытые системы. 1998. - №4. - С. 25-28.бО.Чаудхури С., Дайал У., Ганти В. Технология баз данных в системах поддержки принятия решений // Открытые системы. 2002. - №1. - С. 37-44.

57. Шапот М. Интеллектуальный анализ данных в системах поддержки принятия решений // Открытые системы. 1998. - №1. - С. 30-35.

58. Шапот М., Рощупкина В. Интеллектуальный анализ данных и управление процессами // Открытые системы. 1998. - №4. - С. 29-35.

59. Щавелев JI.B. Автоматизация проектирования систем оперативной аналитической обработки данных (на примере информационно-аналитических систем в энергетике) Дис. канд. техн. наук: 05.13.12, 05.13.01 / Ивановск. гос. энерг. ун-т. Иваново., 1999.

60. Щавелев JI.B. Способы аналитической обработки данных для поддержки принятия решений // СУБД. 1998. - № 4-5. - С. 51-60.

61. Brand Е., Gerritsen R. Data Mining and Knowledge Discovery // DBMS. -1998.-№7.

62. Brieman L. et al. Classification and Regression Trees. Wadsworth & Brooks, Montetrey CA.- 1984.

63. Buntine W.L. A Theory of Learning Classification Rules. http: cite-seer.nj.nec.com/buntine92theory.html.

64. Codd E. F., Codd S. В., Salley С. T. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E. F. Codd & Associates, 1993.

65. Han J. OLAP Mining: An Integration of OLAP with Data Mining // Proc. IFIP Conf. Data Semantics, Chapman & Hall/CRC, Boca Raton, Fla. 1997.

66. Hoss D. Top Ten Trends in Data Warehousing // DM Review. 2001. (October).

67. Inmon W. H. Building The Data Warehouse (Second Edition). NY, NY: John Wiley. - 1993.

68. Kelkar В. Exploiting Symbiosis between Data Mining and OLAP for Business Insights // DM Direct. 2001. - December.

69. Kimbal R. Features for Query Tools // DBMS. 1997. - Vol. 10. - No.2 (February). - P. 4-7.

70. Kimbal R. Turbocharge Your Query Tools // DBMS. 1997. - Vol. 10. -No. 10 (October). -P. 14-17.

71. McAmis D. Data Analyzer on Every Desktop. 2002. -http ://www. intelligententerpri se. com/020221/5 04products 1 2. shtml.

72. Michalski R. S. A theory and methodology of inductive learning // Artificial Intelligence. 1983. - 20(2). - P. 111-162.

73. Michalski R. S. On the quasi-minimal solution of the covering problem // In Proceedings of the 5th International Symposium on Information Processing (FCIP-69): Vol. A3 (Switching Circuits). Bled, Yugoslavia. - 1969. - P. 125-128.

74. Murthy S. Automatic construction of decision trees from data: A multi-disciplinary survey // Data Mining and Knowledge Discovery. vol. 2. - №4. - 1998.-P. 345-389.

75. Newquist H.P. Data Mining: The AI Metamorphosis // Database Programming and Design. 1996. - №9.

76. Pagallo G., Haussler D. Boolean feature discovery in empirical learning // Machine Learning. 1990. - 5. - P. 71-99.

77. Parsaye K. OLAP and Data Mining: Bridging the Gap // Database Programming and Design. 1997. - №2.

78. Parsaye K. Surveying Decision Support: New Realms of Analysis // Database Programming and Design. 1996. - №4.

79. Pends N. What is OLAP? http://www.olapreport.com/fasmi.htm.

80. Quinlan J. R. C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufmann. - 1993.

81. Quinlan J. R. Induction of decision trees // Machine Learning. 1986. - №1. -P. 81-106.

82. Ramasubbu R. The Power of Meta Data // DM Review. 1999. - №2. (February).

83. Skriletz R. BI in Energy Industry // DM Review. 2002. - №8. (August).

84. Slaughter A. OLAP. http://scanner-group.mit.edu/htdocs/thesis/adthesis.html.

85. Stringer M. Putting Business Intelligence to Work // Insurance Journal. 2003. -№5. (May).

86. Автоматизация поддержки принятия решений по социально-экономическому положению региона: Отчет о НИР (заключ.) / Ивановский государственный энергетический университет: № ГР 01200303541. — Иваново, 2002. 60 с.

87. Козырев М.А. Метод организации интеллектуального анализа данных в среде многомерной аналитической обработки // Актуальные проблемы современной науки: Тез. докл. 4-й Межд. конф. 10-12 сентября 2003 г. -Самара, 2003.-С. 51-54.

88. Ратманова И.Д., Козырев М.А. Информационно-аналитическая система по мониторингу и оценке ресурсоэффективности образовательных учреждений // Повышение эффективности работы энергосистем: Тр. ИГЭУ. Вып. 5. М.: Энергоатомиздат, 2002. - С. 127-135.

89. Ратманова И.Д., Козырев М.А. К вопросу создания автоматизированной системы поддержки принятия решений в ВУЗе // Информационная среда вуза: Тез. докл. X Межд. науч.-техн. конф. 27-28 ноября 2003 г. Иваново: ИГАСА, 2003. - С. 10-13.

90. Ратманова И.Д., Козырев М.А. Интеллектуальный анализ данных: Методические указания для студентов специальностей 2204 и 5528 / Иван. гос. энерг. ун-т. Иваново: ИГЭУ, 2003. - 56 с.

91. Описание программного комплекса ИнфоВизор для автоматизации поддержкипринятия решенийа ы о • l b- йв г?1. ЛИ*.b*fpicw с чт1. HMir>vi *«« вм ойРП. f'M*1. Юрт1. Тми с*1»т»