Модели и алгоритмы системы поддержки принятия решений на основе многомерных хранилищ данных

Рахал Ясер

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Модели и алгоритмы системы поддержки принятия решений на основе многомерных хранилищ данных

кандидата технических наук: Рахал Ясер
город: Казань
год: 2010
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы системы поддержки принятия решений на основе многомерных хранилищ данных»

Автореферат диссертации по теме "Модели и алгоритмы системы поддержки принятия решений на основе многомерных хранилищ данных"

Рахал Ясер

Модели и алгоритмы системы поддержки принятия решений на основе многомерных хранилищ данных

Специальность: 05.13.18 - математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

-9 СЕН 2010

Казань 2010

004608014

Диссертация выполнена в Казанском государственном техническом университете им.А.Н.Туполева

кандидат технических наук, доцент

Ризаев Ильдус Султанович * *

доктор технических наук, профессор Захаров Вячеслав Михайлович

доктор технических наук, профессор Симонова Лариса Анатольевна

Научно-исследовательский институт

математики и механики им. Н.Г.Чеботарева Казанского (Приволжского) федерального университета.

Защита состоится « 2010 г. в /57"часов на заседании

диссертационного совета Д 212.0^1.01 в Казанском государственном техническом университете им. А.Н. Туполева по адресу: 420111, г. Казань, ул. Карла Маркса, д. 10, зал заседаний ученого совета. Автореферат диссертации размещен на сайте Казанского государственного технического университета им. А.11. Туполева www.kai.ru

С диссертацией можно ознакомиться в научной библиотеке Казанского государственного технического университета им! А.Н. Туполева.

Автореферат разослан

/4Г о ¥ 2010 г.

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

Ученый секретарь диссертационного совета доктор физ.-мат. наук, профессор ^(/Оьс.

Данилаев П.Г.

Общая характеристика работы

Актуальность темы. В настоящее время базы данных широко используются в нашей повседневной жизни. Любая, успешно работающая организация, хранит свои данные и обрабатывает их с использованием современных систем управления базами данных. Они повсеместно используются для получения сведений о сотрудниках, о товарах, о продажах, бухгалтерских данных, данных бизнеса и т.д. Но информация сама по себе без обработки не представляет интерес, поэтому работа с базами данных всегда требует совершенствования способов хранения данных, а также сокращения времени выборки данных, необходимых для получения своевременной и необходимой информации.

Важным фактором в современных рыночных условиях является оперативное принятие деловых решений. Однако многие предприятия сталкивается с таким препятствием, как большой объём и высокая сложность данных. Решением данного вопроса может стать создание системы поддержки принятия решений (СППР) на основе хранилищ данных (ХД). Хранилище данных представляет собой накопитель информации из других систем (баз данных, файлов, электронных таблиц и др.), на основе которых строятся процессы принятия решений и анализа данных.

Системы поддержки принятия решений (СППР) - это системы, обладающие средствами ввода, хранения и анализа данных, относящихся к определённой предметной области, с целью поиска решений.

Основная задача СППР - предоставление аналитикам инструмента для выполнения анализа данных. СППР не гарантирует правильных решений, а только поставляет аналитику данные в виде таблиц, отчётов, графиков и т.п. для изучения и анализа.

Исследованию СППР на основе ХД посвящены работы Э.Спирли, Р.Кимбала, А.А.Барсегяна, И.А.Чубуковой, М.С. 11.А£га\уа1, Р.УаззШасПя, С.Хайкина, И.С.Ризаева, А.Н.Кузьмина, Л.Ю.Емалетдиновой, Н.М.Вдовичева и др.

Трудно переоценить актуальность построения системы принятия решений (СППР) для крупных банков, предприятий нефтяной, газовой отрасли, машиностроении, металлургии, торговле и т.д. Конечно, СППР, основанная на технологии хранилищ данных или витрин данных (а большинство СППР базируются именно на них), будет быстрее окупаться на крупных предприятий или организациях с развитой филиальной сетью и разнообразной деятельностью, внедряющих корпоративные информационные системы.

Объект исследования. Системы хранения, обработки и извлечения информации из баз данных и хранилищ данных.

Предмет исследования. Модели и алгоритмы систем поддержки^

принятия решений на основе многомерных моделей баз и хранилищ данных. ■

\

Научная задача. Разработка новых аналитических моделей и алгоритмов интеллектуального анализа данных и программного комплекса системы поддержки принятия решений на основе многомерных моделей хранилищ данных

Цель и задачи исследований. Целью работы является повышение эффективности обработки и хранения больших объемов информации за счет использования технологии хранилищ данных.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Проанализировать и исследовать существующие способы хранения и обработки информации.

2. Разработать модели и алгоритмы интеллектуального анализа данных с целью прогнозирования и поддержки принятия решений.

3. Создать методику разработки концептуальной модели многомерного представления данных для эффективного хранения и быстрого выполнения запросов при хранении объектной информации.

4. Провести экспериментальные исследования моделей и алгоритмов с помощью разработанных программ интеллектуального анализа данных и системы поддержки принятия решений в среде СУБД ORACLE на основе концепции хранилищ данных

Методы исследования. При решении поставленных задач использовались математические модели и методы системного и интеллектуального анализа данных, теории вероятностей, теории множеств, теории нейронных сетей, классические методы линейного и целочисленного программирования, системного программирования.

Научная новизна работы.

1. Предложено использование математической модели на основе теории множеств для интеллектуального анализа данных с целью решения задач классификации различных объектов. Разработаны алгоритмы разбиения клиентов на классы с использованием метода "классификационных правил", в случае учета нескольких независимых переменных наивный метод Байеса для получения таблицы решений.

2. Разработан алгоритм вычисления ассоциативных правил с учетом распределенного хранения информации с целью ускорения процесса выполнения таких правил.

3. Разработан модифицированный алгоритм кластеризации на основе к-среднего и предложен метод исправления результатов кластеризация для категориальных объектов на основе информационного подхода, с применением критерия энтропии.

4. Разработана структура трехслойной нейронной сети с вычислением весовых коэффициентов для прогнозирования и принятия решений.

5. Разработана методика построения многомерной модели хранилища данных, а также дано формализованное описание гиперкуба и возможных операций над кубом данных.

Практическая ценность диссертации состоит в следующем:

-разработан программный комплекс системы поддержки принятия решений и прогнозирования с использованием многомерных моделей для интеллектуального анализа данных;

- разработаны алгоритмы и комплексы программ на языке PL/SQL в среде СУБД ORACLE для решения задач классификации, кластеризации, поиска ассоциативных правил для крупных информационных предприятий;

- разработана структура трехслойной нейронной сети для решения задач прогнозирования для торговых организаций, банковских структур, и др.;

- разработаны методы увеличения быстродействия выполнения запросов за счет использования материализованного представления, индексов и параллельного выполнения транзакций при разделении данных.

Результаты работы. Результаты выполненных исследований и разработок использовались:

- в Торговом доме «Лес Парк Сад», занимающегося оптовой и розничной продажей товаров;

- в научно-техническом центре ООО фирмы «ЛУН-М», занимающегося формированием комплектующих технических средств для подъемных кранов;

- в учебном процессе кафедры Автоматизированных систем обработки информации и управления в форме электронного учебного пособия «Лабораторный практикум СУБД ORACLE» по дисциплине «Распределенные базы данных» для студентов специальности 230102, кроме того, разработанные методы и алгоритмы по классификации, кластеризации, прогнозированию на основе нейронных сетей рекомендованы студентам для выполнения курсовых и дипломных работ.

Апробация работы. Основные результаты диссертации докладывались и обсуждались на следующих международных и всероссийских конференциях:

Всероссийская научно-практическая конференция. "Наука и профессиональная деятельность". (Нижнекамск. 2008,2009,2010);

Международная конференция. Инфокоммуникационные технологии глобального информационного общества. (Казань, 2008, 2009); XVI Международной конференции по вычислительной механике и современным прикладным программным системам. (Крым, Алушта 2009); Седьмая международная конференция «Исследование, разработка и применение высоких технологий в промышленности» (Санкт-Петербург, 2009); Международная молодежная научная конференция "Туполевские чтения".(Казань, КГТУ им.А.Н.Туполева, 2008, 2009).

Публикации. Содержание диссертации опубликовано в 16 работах, включая 8 статей, в том числе две статьи в изданиях, входящих в перечень ВАК (Вестник КГТУ им. А.Н.Туполева). Структура и объем работы.

Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 146 страниц основного текста, 50 рисунков, 27 таблиц, и 5 приложений. Список литературы включает 93 наименования.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновываются актуальность и практическая значимость работы, определена цель работы, формулируются основные задачи исследования и пути их решения.

В первой главе рассматривается классическая реляционная модель данных, основанная на теории нормализации отношений. Показана область применения реляционных моделей. Показано, что тогда, когда целью является выполнение задач связанных со сбором, хранением и поиском информации, эффективным средством является применение традиционных реляционных баз данных. В случае же анализа и принятия решения с использованием существующих (исторически накопленных) данных, лучше воспользоваться хранилищем данных с технологией OLAP. Использование материализованных представлений и организация данных в виде кросс-таблиц значительно сокращается время выборки данных.

В главе проведено экспериментальное сравнение между OLTP и OLAP системами, а также сравнение между существующими архитектурными принципами построения ХД (с точки зрения «Bill Inmon» и «Ralph Kimball»).

В диссертации приведены примеры, связанные с предметной областью в сфере торговли.

В результате анализа и исследований, проведенных в первой главе сделан вывод о необходимости использования многомерных моделей данных для повышения эффективности обработки информации.

Во второй главе исследуются и решаются задачи интеллектуального анализа данных с целью обнаружения знаний и прогнозирования. Для этого используются методы интеллектуального анализа, в число которых входят классификация, поиск ассоциативных правил, кластеризация, регрессия и др. На примерах возможности обслуживания клиентов в торговых организациях используются методы классификации (классификационные правила, наивный метод Байеса, деревья решений). Выбор между первым и вторым зависит от количества независимых атрибутов входящих в процесс классификации. Деревья решений используются для представления правил в иерархическом виде. Для оценки точности алгоритма и определения порядка атрибутов во время процесса разбиения объектов на классы предлагается выполнять это на основе теории информации. Тогда оценка среднего количества информации, необходимого для определения класса объектов из множества X, дает

При решении задачи поиска ассоциативных правил рассматриваются два подхода: по одному атрибуту или по нескольким. В первом случае решается задача определения наборов товаров, совместно приобретаемых (покупаемых) клиентами. В случае нескольких атрибутов исследуются отношения между возрастом клиентов, их доходов и объемом покупок. Характеристиками ассоциативных правил являются поддержка и достоверность.

Пусть 7'= ..,<„} множество транзакций, / = {;,,;г...,1'„1 - множество объектов. Тогда правило представляется в виде: если (условие) то (результат), (если X то У) с доверием С. Если С% транзакций из множества Т содержат X, то они также содержать У, с поддержкой Б. Если 8% транзакций множества Т содержат ХиУ, где X с! и У с I & X п У = 0.

т т

Поддержка правила: эиррХэУ и его доверия Соп^=у .

Т Тх

Алгоритм поиска требует нахождения наибольшего количества всех подгрупп {О}, состоящих из множества I объектов, которые всегда встречаются вместе.

Из тех подгрупп, которые повторяются больше, чем определенное число (поддержка) можно вычислить все возможные ассоциативные правила. Количество групп из множества N объектов можно определить по формуле л . № ЛП ) ¿=1 ^^.(N-(1)1 При этом из каждой группы извлекают ряд возможных подмножеств {X: —> X1 | Х,,Х 1 сХ апс1 Х,Г\Х. Количество возможных правил из множества N объектов определяется по формуле:

Предложен пример алгоритма поиска совместно встречаемых товаров, результаты поиска представлены на рис.1.

0,6

Поддержка Q 4 правила

а 106 а8й _____

лои аЮ6 адд |——<

а18 а7б пе. а106а106 аШЛ

376 * -« а88 -««

Список элементов ^

Рис.1. Результаты поиска ассоциативных правил

Задача поиска ассоциативных правил по нескольким атрибутам состоит в анализе отношений между атрибутами. Если рассмотрим многомерную базу данных, представленную в форме гиперкуба, то данные будут храниться в форме двух или более измерений. В этом случае нет отношения между значениями одного измерения. Пусть Д = (£>,,£)2,...£>„) множества измерений многомерной базы данных, каждый из них имеет свое множество значений:

x{d¡) = |гл],хт...хл mlll}, где carda— количество различных значений измерения «D¡».

Правила будут в форме:

1К=>1

где: k е {К} с {1,2,...п} и s б {S} с {1,2,...п} и {K}n{S}=0,1 е {1,2,...card Dk} , v е {1,2,...card Ds} •

В диссертации приведен алгоритм поиска ассоциативных правил для изучения отношения между возрастом клиента, его доходом и объемом покупок.

Для разделения объектов по целому набору параметров используется кластерный анализ. Кластерный анализ состоит в разделении множества объектов x = {x1,x2,..jcii} на группы похожих объектов, при этом каждый объект характеризуется набором атрибутов х, ={í,,í2,i3,-i,},- Пусть С множество кластеров, С = {с,,с2,с3,..£,}, где с, - кластер, содержащий объекты из множества X, похожих друг на друга.

С) ={*,,*„\х,е Х,хт е X и d(x¡tx„)<<r}, где d(x¡,xm)-расстояние между объектами х , и х т .а - величина, которая определяет меру близости.

Для категориальных объектов расстояние можно вычислить следующим образом:

d(x,y) = ^S(xl,yl) где = !ff У')

ы [1 \t х,*у,)

Алгоритм разбиения требует определения точек центров кластеров и их количества. Определим центры на основе энтропии Е(х) = - 1.р(х)\о%г(р(х)).

Энтропия системы будет минимальной, если энтропия каждого кластера также будет минимальной.

Поскольку количество кластеров заранее неизвестно, вычисляются все возможные кластеры в соответствии с алгоритмом.

1- For k=2 to N (Количество объектов) loop

2- Найти к наиболее разнородных объектов (по критерию энтропии)

3- Для каждого объекта из остальных повторить: 3-1- положить объект в наиболее близкий кластер,

■ п I

Найти min(d(x¡, с¡)) = mín(£ (ха - с¡,)2), /=i

где j=l,2,...K, i=l,2...n-k;

3-2- вычислить новый центр,

3-3- закончить, если все объекты размещены по кластерам и больше нет изменений в центрах кластеров. Основной проблемой кластерного анализа является предварительное определение количества центров кластеров. Для решения этой проблемы надо выполнить процесс кластеризации и определить качество разделения объектов на кластеры. Это означает, что необходимо выполнить процесс кластеризации и

выяснить эффективность разбиения с помощью критерия. Предлагается использование критериев Hubert и Schultz и индекса эффективности.

s — s

- Критерий Hubert и Schultz С--,

Q

I

д=\ 1=1

гдеS = X (X(*,V ~XJ,)2)2U,J - где и, =

1 если xltx! е одному кластеру О если нет '

<2 т 1 О т 1

■И * <=1 «

- сумма наименьших расстояний сочетаний всех пар для каждого кластера. 5т - сумма наибольших расстояний для всех пар. 5- представляет собой сумму расстояний над всеми парами модели из того же кластера. Минимум этого критерия дает оптимальное количество кластеров.

jl о

- Индекс эффективности: « = £ ^(c^ + XZv^V^)' где £ ä2(ct,x) -

»•1

межкластерные отличия, и " внутрикластерные отличия,

1 если xq б С4 "" ~ [0 если х, е Ск " Минимум этого критерия дает оптимальное количество кластеров.

На рис.2, представлен результат выполнения процесса кластеризации для исходных данных (возраст клиента, объем покупок) и на рис.3 представлен критерии эффективности результата на основе критериев Hubert и Schultz и индекса эффективности.

60

40

lO 20.

О

10 20 30 Возраст клиента

40

Рис.2. Результат процесса кластеризации

Для рассмотренного примера оптимальное количество центров кластеризации равно трем, на что указывают оба критерия.

1500

1000 ■

500

Индекс эффективности

0 2 4 6

Количество кластеров

£

4 -,

3 -

и 2 St

8 J ä ' 1 о

гэ 0

Критерий Hubert и Schultz

2 4 6 8

Количество кластеров

Рис.3. Критерии кластеризации

Для исправления эффективности алгоритма к-средний используем новый алгоритм на основе энтропии. Основная идея данного метода - найти объекты, которые окружены объектами, принадлежащими другому кластеру (см.рис.4). Если при вычислении энтропия будет уменьшаться, то перераспределение объектов по кластерам будет давать более правильный результат. Алгоритм улучшения разделения объектов по кластерам будет следующим:

Рис.4. Пример кластеризации А- Исходные данные, В - Кластеры на основе алгоритма к-средних, С- Кластеры с учетом исправлений на основе энтропии

1. Повторять для каждого объекта XI (принадлежат кластеру С;) исходных данных.

2. Найти самые близкие N объектов (У,, Уг,.......), где X, о У (V/ = 1..Л0.

3. Найти кластер С; каждого объекта У;.

4. Из этих кластеров найти кластер Су где есть большинство объектов

5. Если XIе Су.

6. уаг <- ¿(С, IЛГ,) ■- Ё(Х, | У) где

a. £(С, | X,): сумма энтропии всех кластеров, если XI е С(.

b. Е(Х11 У): сумма энтропии всех кластеров после изменения кластера объекта Х1 на Су.

7. Если уаг > 0 пусть XI б Су.

8. До стабильности объектов определенным кластерам.

Для прогнозирования финансового рынка, объема продаж, изменения ценовой политики приводится сравнение между экспоненциальным сглаживанием и использованием нейронных сетей для прогнозирования цены доллара в рублях (см.рис.5).

33,5

—результаты прогнозирования с помощью нейронной сети I с использованием экспоненциального сглаживания

Рис. 5. Результаты прогнозирование

В третьей главе разработана модель трехуровневого хранилища данных, с независимыми витринами данных, ориентированных на подразделения предприятия.

Для перехода от реляционной базы данных к хранилищу данных выделены три категории сущностей: сущность транзакций, составные сущности, сущности классификаций. Сущность транзакций это сущность, где собирается информация о конкретных событиях, которые происходят в бизнесе, например, «продажа», «заказ» и т.д. Составные сущности это сущности, которые непосредственно связаны с сущностями транзакций через отношения "один -ко - многим". Составные сущности определяют детали или компоненты каждой транзакции. Например, сущность, «клиент», «товар», «время» и т.д. Объекты составные сущности размещены в определенном порядке, называемым «классом иерархии».

Сущности классификации это сущности, которые имеют отношение к составным сущностям типа "один - ко - многим ", т. е. они функционально зависят от них. Они представляют иерархию, встроенную в модель данных, которые мо1уг быть свернуты в составные компоненты в форме таблиц

измерений в схеме "звезда". Например, сущность «тип-клиент», «тип-товар». Атрибуты сущностей транзакций представлены в виде фактов, а атрибуты составных сущностей представлены в виде измерений. Такое представление образует гиперкуб данных.

Математическая модель представления гиперкуба с «N» измерениями строится с использованием теории множеств. Такая модель включает следующие компоненты:

C = (D„,Ln,T„,C0n), (1)

где D, ={dx,dlt...dn,m), {dl,d2,...d„} - множество измерений куба и ">- мера, которая представляет собой факт куба (например, продажа); 1п = /2,.../,,ml) -множество значений измерения (уровни) или мера куба. Ts - Набор данных ячейки или набор кортежей в форме: i, =tn,tll..Jtl.,m_valuel, где tM е dom(dl),... tin б dom(ds).

Con -базовый куб, состоящий из детальных данных в соответствие с самым низким уровнем класса иерархии.

О)» = (Am > L¡¡n, тап ),

где D0„ =(d¡,d7,...d„,m), {di,d1,...dn)- множество измерений куба и т- мера, которая представляет собой факт куба (продажа); ¿0„ =(/1,/2,.../„,m/), множество значений измерения, представляющий самый низкий уровень класса иерархии; То„ - набор данных ячейки или набор кортежей в форме: i»'b,i"_valuelt где til s dom(di),... tin б dom(ds).

Утверждение. Отношение (1) отображает таблицу фактов и позволяет представить все возможные операции гиперкуба: срез, вращение, консолидация и детализация.

Операции на кубе

Одним из важнейших свойств куба данных является возможность получения другого куба с помощью функций группирования, таких как {sum, avg, count, max, min ....}. В диссертации даны формальные методы преобразования гиперкуба.

Покажем, что C'(p'n,L', J'„,C0„) = Lt (С = , где f - функции

группирования, к - номер атрибута группировки, если

* ■ Г.' = {х I Зу е Г, I t(xt ) = t(y„ ) I 6 L. П L\ & m _ value(x) = fd (m _ values(y)))

Для базового куба: = С0л,

здесь у может представлять одну или несколько строк, поэтому обычно количества строк в кубе С меньше чем количества строк в кубе С.

Операция проекции (л) позволяет уменьшить количество измерений

куба

C(D\L'X,C'0) = ít(C{D,L,T,C„),dk) если

. D'= D-d .

• L' = L-Ii\lt e уровни (dk).

• T' ={x\ 3y G TI y(d, ) = x(d, )Md, Ф d & m _ vahe(x) = m _ value(y)},

где is 1,—и количество измерения куба С.

Навигация (nav) -позволяет подготовить новый куб с новым состоянием, за счет использования функций навигации (Í). Обычно навигации выполняется над классом измерений, чтобы перейти на более низкий уровень данных или на более высокий уровень детализации.

Допустим куб, представляет данные, касающиеся продаж в виде (квартал, город, товар), но тут возникает необходимость просмотреть данные и на других уровнях измерений. В виде (год, город, товар) или (день, город, товар).

С(0',С,Г,с'„) = nav(C(D,L,T,C,),dkJ) еслИ

• £>' = £>

• Т' = {.X |3уе T\y(d¡) = x(d,)4d,*dk&m_value(x) = Д (m_values(y))}

Существуют пять основных команд OLAP (Roll Up, DRILL DOWN, SLICE, DICE, PIVOT), позволяющих производить определенные операции над кубом. Для успешного выполнения этих команд куб должен обладать определенными свойствами. Например, в кубе не допустимо, чтобы два уровня принадлежали одному и тому же иерархическому измерению.

- Операция Roll Up используется для перехода на более высокие уровни обобщения. Эта команда берет текущий куб - данных, и выполняет GROUP BY по одному из его измерений. Например, с учетом общего числа проданных единиц в месяц, можно установить продажи с обобщением за квартал или за год следующим образом:

C(D',L'X,Ct) = Roll Up (C{D,L,T,C»),dtJ) если

• £>' = £>

• L'„ =Lh -lt +/t ; где /(^ - новый уровень измерения, над которым была выполнена функция группирования.

• Т'= {х\3yeT\y(d¡) = x(di)W( Ф(1к & m_value(x) = fJk(m_values(y))} fá - функция группирование.

• с' = с

w0J» ОЧ '

- Операция DRILL DOWN, используется для перехода на более низкий уровень детализации. Здесь детализация идет сверху - вниз. Эта команда является противоположностью Roll Up, например, зная общее количество проданных товаров в стране, можно представить продажи по каждому городу. Чтобы выполнить данную операцию необходимо использовать «базовый» куб.

C(d\L',T',C'„) = dril down (C(d,l,t,Ca),dt, f ) если

• o'=o

• L[ где ltnm- новый уровень измерения, над которым была выполнена функция детализации.

' T' = {x\3yeT(l\y(dl-) = x(dl)Vdl *dk&m_value(x) = fjk(m__wlues(y))}, где T0 - строки центрального куба, fdk • функция группирования.

• С = С

- Операция Срез (Slice) позволяет взять куб с конкретным состоянием, вырезать указанные измерения и оставить остальные измерения без изменения так, как показана на рис.6, где срез выполнен по измерению «Товар».

• С'(р\L', 7", с;) = slice(C(p, L, Т, С0), dk)

• D' = D-dk

• L' -L-dlk

• T' = {x\3ys y(d,) = x{d,)Vd, *dt).

• C = c0„.

Скак Принтер Компьютер

2010 1 хвартм Январь Февраль Март 67 65 67 71 12

56 57 43 67 67

67 54 67 68 92

2 квартал Апрель Май Июнь 35 12 48 67 54

75 32 67 34 67

21 57 89 Ю 32

8 II а ЗД я о ч И I

i Он 5 1 1 Ч

В ! 5 ■3

1 квартал

Компьютер Январь 67

2010

¿квартал

Январь Февраль Март

Апрель

Май

Нюнь

81 £ s а я

2 о м

Рис. 6. Операция срез и кость над кубом данных

- Операция Кость (Dice) позволяет определить подкуб (кость) путем выборки по двум или более измерениям как показано на рис.6, где кость выполнена по измерениям «Время» и «Место».

C'(D',L',T',C0) = dice(C(D,L,T,C0),d, d2,..Jk) где к <п.

• D'=D-(d|,d2...,dk)

• L' = L

e Т'={х\3v б Г | Ж) = МШ £ {d,A.....d„)

В четвертой главе описывается система поддержки принятия решений для интеллектуального анализа данных и прогнозирования. Система включает в себя, несколько подсистем: подсистему извлечения данных, подсистему хранения, подсистему поиска, интеллектуального анализа, прогнозирования и подсистему безопасности.

Также в четвертой главе рассматриваются методы повышения эффективности обработки данных с целью ускорения времени выполнения запросов. Предложены следующие методы:

1. Использование материализованного представления, предназначенного для хранения агрегированных данных в отдельной таблице, что позволяет избежать эффекта разреженной таблицы. На рис.7 показан эффект использования материализованного представления во время выполнения запросов.

2. Разделение таблиц и параллельность выборки. Предлагается делить большие таблицы на маленькие и работать с полученным результатом в параллельном режиме. Таблицы могут быть разделены по вертикали или горизонтали. По вертикали они делятся в соответствии с витринами данных. Горизонтальное деление позволит сократить время выполнения запросов так, как показано на рис.8.

3. Индексирование данных также влияет на производительность ХД. Для этого могут быть использованы индексы «Bitmap» и «В-tree». Эффект от применения этих индексов показан на рис.9. Экспериментально доказана эффективность применения индекса «Bitmap» для таблицы фактов тогда, когда количество различных значений атрибутов не является достаточно большим. Индекс «В-tree» лучше использовать для таблиц с детализированными данными.

■ ■ ■-

о

20000 40000 60000 80000 100000

О 1000000 2000000 3000000 4000000 Количество записей в таблице

Рис.7 Время выполнения запроса с использованием материализованного представления (нижняя линия) и без использования материализованного представления (верхняя линия)

Рис.8 Сравнение стоимости выполнения запроса с разделением таблицы на фрагменты (нижняя линия) и без разделения (верхняя линия)

Система разработана в среде СУБД «Oracle 9.2» и программы «Developer 2000». Архитектура системы показана на рис.10, Система имеет возможность выполнения всех алгоритмов по анализу и добыче данных, представленных во второй главе.

Точка Диапазон

Тип запрос

A: Bitmap индекс. В: B-tree индекс. С: без индекса. Рис.9. Сравнение времени выполнения запросов в ХД без индекса и с использованием разных типов индексов

Рис. 10. Архитектура системы поддержки принятия решения

Основные результаты работы

1. Проведен анализ существующих систем хранения и обработки информации, который показал, что в случае анализа данных с целью принятия решения и прогнозирования на основе больших объемов данных лучше воспользоваться технологией ХД на основе многомерных данных. Экспериментально показано, что при использовании нереляционных моделей время выполнения запросов значительно уменьшается.

2. С целью интеллектуального анализа данных для корпоративных информационных систем предложено использование технологии «Data mining» с применением методов классификации, кластеризации, поиска ассоциативных правил и регрессионного анализа.

3. Для решения задачи прогнозирования разработана трехслойная нейронная сеть и проведен эксперимент по прогнозированию валютного рынка. Показана эффективность применения нейронной сети.

4. Дано формализованное описание многомерной модели данных и математическое представление гиперкуба данных. Разработаны методы повышения производительности ХД с использованием материализованного представления, индексирования данных и разделения таблиц, а также применение параллельности выборки.

5. Разработана система анализа данных и прогнозирования и поддержки решений в сфере торговли, в среде СУБД Oracle и программы «developer2000», на основе трехуровневого хранилища данных с использованием многомерных моделей данных. Коды составлены на языке запросов SQL и языке программирования PL/SQL.

Список публикаций по теме диссертации Статьи по теме диссертации, опубликованные в журналах, из перечня ВАК.

1. Рахал Я. , Ризаев И. С. Повышение эффективности обработки данных в СУБД / Вестник КГТУ им. А.Н. Туполева. Казань, 2008, №3. С. 98 -101.

2. Рахал Я. Итеративный метод кластерного анализа / Вестник КГТУ им. А.Н. Туполева. Казань, 2009, №4. С. 88-90.

Статьи в сборниках и материалах научно-технических конференции.

3. Рахал Я., Ризаев И.С. Группирование информации в хранилищах данных. Расширение функциональных возможностей баз данных // Инфокоммуникационные технологии глобального информационного общества. Сб. трудов 6-й ежегодной международной научно-практической конференции. Казань: ООО «Центр Оперативной печати», 2008. С. 137-143.

4. Ризаев И.С., Сапаркин П.В. Рахал Я. Инструментальные средства хранения и обработки пространственных данных // Международный журнал «Образовательные технологии и общество», 2009. Т.12. №1. 10 с. // Educational Technology & Society, 2009 (http://ifets.org/russion/periodical/jomakl.html) vl2/-Nl-10c/-ISSN

5. Рахал Я., Ризаев И.С. Классификация объектов на основе таблицы решений // Высокие технологии, фундаментальные исследования, образование: Сб. трудов 7-й международной конференции «Исследование, разработка и применение высоких технологий в промышленности». Санкт-Петербург: Изд-во Политехи, ун-та, 2009, С. 140-142.

6. Рахал Я., Ризаев И.С. Кластеризация объектов на основе энтропийной оценки // Материалы XVI Международной конференции по

вычислительной механике и современным прикладным программным системам. Алушта: Изд-во МАИ-Принт, 2009. С. 600-602.

7. Рахал Я., Ризаев И.С. Технология поиска ассоциативных правил // Инфокоммуникационные технологии глобального информационного общества. Сб. трудов 7-й международной научно-практической конференции. Казань: ООО «Центр Оперативной печати», 2009. С. 103-109.

8. Рахал Я., Ризаев И.С. Применение нейронные сетей для прогнозирования рыночных ситуаций // Образование в техническом вузе в XXI веке: Международный межвузовский научно-методический сборник, вып.6. Набережные Челны: Изд-во Камск. гос. инж.-экон. акад., 2010. С. 135-137.

Тезисы в сборниках и материалах научно-технических конференциях

9. Ризаев И.С. Рахал Я., Многомерные модели данных // Наука и профессиональная деятельность. Всероссийск. науч.-практич конференция. Нижнекамск: Изд-во КГТУ им. А.Н. Туполева, 2008. С. 237-238.

10. Рахал Я., Ризаев И.С. Группирование информации в хранилищах данных // Инфокоммуникационные технологии глобального информационного общества. 6-я международная конференция. Казань: ООО «Центр Оперативной печати», 2008. С. 152-154.

11. Рахал Я., Ризаев И.С. Концепция построения хранилищ данных // XVI Туполевские Чтения. Международная молодежная научная конференция. Казань: Изд-во КГТУ им. А.Н.Туполева, 2008. С.186 -188

12. Рахал Я. Применение таблицы решений для классификации объектов // XVII Туполевские чтения. Международная молодежная научная конференция. Том IV. - Казань: Изд-во КГТУ им. А.Н. Туполева, 2009. С.203-205.

13. Рахал Я. Кластеризация объектов // XVII Туполевские чтения. Международная молодежная научная конференция. Том IV. - Казань: Изд-во KrTV им. А.Н. Туполева, 2009. С. 206-208.

14. Рахал Я., Ризаев И.С. Применение кластерного анализа в сфере торговли // Наука: Современное состояние и перспективы развития : Материалы всероссийской научно-практической конференции. Нижнекамск. Изд-во КГТУ им. А.Н. Туполева, 2009. С. 173-174.

15. Ризаев И.С. Рахал Я., Повышение производительности хранилищ данных // Проблемы перехода к устойчивому развитию монопрофильных городов. Материалы всероссийской научно-практической конференции. Нижнекамск: Изд-во КГТУ им. А.Н. Туполева, 2010. С. 169-171.

Формат 60x84 1/16. Бумага офсетная. Печать офсетная.

Печ. л. 1,0. Усл. печ. л. 0,93. Уч.-изд. Д. 1,0. _Тираж 100. Заказ Н131._

Типография Издательства Казанского государственного технического университета 420111, Казань, К. Маркса, 10

Оглавление автор диссертации — кандидата технических наук Рахал Ясер

Введение

Глава 1. Анализ и исследование существующих систем хранения и обработки информации.

1.1. Реляционные модели хранения и обработки информации.

1.2. Переход к нереляционным моделям

1.3. Многомерное представление данных

1.3.1. OLAP технология.

1.3.2. Сравнение OLTP и OLAP систем.

1.3.3. Система поддержки принятия решений.

1.3.4. Многомерное представление данных.

1.3.5. Преимущества использование хранилищ данных.

1.4. Материализованное представление данных

1.5. Выводы.

Глава 2. Модели и алгоритмы обработки данных с использованием реляционных и многомерных баз данных

2.1. Добыча данных

2.2. Классификации.

2.2.1. Классификационные правила.

2.2.2. Методы Naive Bayes.

2.2.3. Деревья решений.

2.3. Регрессионый анализ.

2.4. Ассоциативные правила.

2.5. Кластерный анализ.

2.6. Методы прогнозирования.

2.7. Выводы.

Глава 3. Разработка хранилища данных для хранения объектной информации

3.1. Разработка хранилища данных

3.1.1. Архитектура хранилища данных.

3.1.2. Независимые витрины данных.

3.1.3. Двухуровневое хранилище данных.

3.1.4. Трехуровневое хранилище данных.

3.1.5. Характеристика хранилища данных.

3.2. Концептуальное моделирование хранилища данных

3.2.1. Переход от модели сущностей к многомерной модели.

3.2.2. Выявление иерархии при многомерном моделировании.

3.3. Построение многомерной модели

3.3.1. Алгоритмы определения классов иерархии.

3.3.2. Объединение в классы иерархии.

3.3.3. Схема фактов для предметной области сети магазинов.

3.3.4. Схема реализации модели.

3.4. Математическая модель многомерного представления данных

3.4.1. Основные понятия многомерной модели.

3.4.2. Пример измерения «География».

3.4.3. Операции на кубе.

3.5. Выводы.

Глава 4. Разработка системы поддержки принятия решений.

4.1. Концептуальная модель системы

4.2. Требование к системе

4.3. Алгоритм загрузки данных в ХД.

4.4. Безопосность СППР

4.5. Методы повышения эффективности обработки данных

4.5.1. Использование материализованного представления.

4.5.2. Разделение таблиц и параллельность выборки.

4.5.3. Индексирование данных.

4.6. Выбор СУБД.

4.7. Выводы.

4.8. Основные результаты работы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Рахал Ясер

Актуальность темы. В настоящее время базы данных широко используются в нашей повседневной жизни. Любая, успешно работающая организация, хранит свои данные и обрабатывает их с использованием современных систем управления базами данных. Они повсеместно используются для получения сведений о сотрудниках, о товарах, о продажах, бухгалтерских данных, данных бизнеса и т.д. Но информация сама по себе без обработки не представляет интерес, поэтому работа с базами данных всегда требует совершенствования способов хранения данных, а также сокращения времени выборки данных, необходимых для получения своевременной и необходимой информации.

Важным фактором в современных рыночных условиях является оперативное принятие деловых решений. Однако многие предприятия сталкивается с таким препятствием, как большой объём и высокая сложность данных. Решением данного вопроса может стать создание системы поддержки принятия решений (СППР) на основе хранилищ данных (ХД). Хранилище данных представляет собой накопитель информации из других систем (баз данных, файлов, электронных таблиц и др.), на основе которых строятся процессы принятия решений и анализа данных.

Системы поддержки принятия решений (СППР) — это системы, обладающие средствами ввода, хранения и анализа данных, относящихся к определённой предметной области, с целью поиска решений.

Основная задача СППР — предоставление аналитикам инструмента для выполнения анализа данных. СППР не гарантирует правильных решений, а только поставляет аналитику данные в виде таблиц, отчётов, графиков и т.п. для изучения и анализа.

Исследованию СППР на основе ХД посвящены работы Э.Спирли, Р.Кимбала, А.А.Барсегяна, И.А.Чубуковой, R.Agrawal, P.Vassiliadis,

С.Хайкина, И.С.Ризаева, А.Н.Кузьмина, Л.Ю.Емалетдиновой, Н.М.Вдовичева и др.

Трудно переоценить актуальность построения системы принятия решений (СППР) для крупных банков, предприятий нефтяной, газовой отрасли, машиностроении, металлургии, торговле и т.д. Конечно, СППР, основанная на технологии хранилищ данных или витрин данных (а большинство СППР базируются именно на них), будет быстрее окупаться на крупных предприятий или организациях с развитой филиальной сетью и разнообразной деятельностью, внедряющих корпоративные информационные системы.

Объект исследования. Системы хранения, обработки и извлечения информации из баз данных и хранилищ данных.

Предмет исследования. Модели и алгоритмы систем поддержки принятия решений на основе многомерных моделей баз и хранилищ данных.

Научная задача. Разработка новых аналитических моделей и алгоритмов интеллектуального анализа данных и программного комплекса системы поддержки принятия решений на основе многомерных моделей хранилищ данных

Цель и задачи исследований. Целью работы является повышение эффективности обработки и хранения больших объемов информации за счет использования технологии хранилищ данных.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Проанализировать и исследовать существующие способы хранения и обработки информации.

2. Разработать модели и алгоритмы интеллектуального анализа данных с целью прогнозирования и поддержки принятия решений.

3. Создать методику разработки концептуальной модели многомерного представления данных для эффективного хранения и быстрого выполнения запросов при хранении объектной информации.

4. Провести экспериментальные исследования моделей и алгоритмов с помощью разработанных программ интеллектуального анализа данных и системы поддержки принятия решений в среде СУБД ORACLE на основе концепции хранилищ данных

Методы исследования. При решении поставленных задач использовались математические модели и методы системного и интеллектуального анализа данных, теории вероятностей, теории множеств, теории нейронных сетей, классические методы линейного и целочисленного программирования, системного программирования. Научная новизна работы.

1. Предложено использование математической модели на основе теории множеств для интеллектуального анализа данных с целью решения задач классификации различных объектов. Разработаны алгоритмы разбиения клиентов на классы с использованием метода "классификационных правил", в случае учета нескольких независимых переменных наивный метод Байеса для получения таблицы решений.

2. Разработан алгоритм вычисления ассоциативных правил с учетом распределенного хранения информации с целью ускорения процесса выполнения таких правил.

3. Разработан модифицированный алгоритм кластеризации на основе к-среднего и предложен метод исправления результатов кластеризация для категориальных объектов на основе информационного подхода, с применением критерия энтропии.

4. Разработана структура трехслойной нейронной сети с вычислением весовых коэффициентов для прогнозирования и принятия решений.

5. Разработана методика построения многомерной модели хранилища данных, а также дано формализованное описание гиперкуба и возможных операций над кубом данных.

Практическая ценность диссертации состоит в следующем:

- разработан программный комплекс системы поддержки принятия решений и прогнозирования с использованием многомерных моделей для интеллектуального анализа данных;

- разработаны алгоритмы и комплексы программ на языке PL/SQL в среде СУБД ORACLE для решения задач классификации, кластеризации, поиска ассоциативных правил для крупных информационных предприятий;

- разработана структура трехслойной нейронной сети для решения задач прогнозирования для торговых организаций, банковских структур, и др-;