автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Методы и модели обработки информации в хранилищах данных

кандидата технических наук
Кузьмин, Андрей Николаевич
город
Казань
год
2006
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и модели обработки информации в хранилищах данных»

Автореферат диссертации по теме "Методы и модели обработки информации в хранилищах данных"

□03067835 На правах рукопйсй ! 1" и

КУЗЬМИН АНДРЕЙ НИКОЛАЕВИЧ

МЕТОДЫ И МОДЕЛИ ОБРАБОТКИ ИНФОРМАЦИИ В ХРАНИЛИЩАХ ДАННЫХ

05 13 18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук

Казань 2006

003067835

Диссертация выполнена в Казанском государственном техническом университете им А Н Туполева

Научный руководитель кандидат технических наук, доцент

Ризаев Ильдус Султанович

Официальные оппоненты доктор технических наук, профессор

Глова Виктор Иванович

доктор физико-математических наук, профессор Елизаров Александр Михайлович

Ведущая организация Марийский государственный технический

университет (г Йошкар-Ола)

Защита состоится «•? »' часов на заседании

диссертационного совета Д 212 079.01 в Казанском государственном техническом университеге им АН Туполева по адресу 420111, г Казань, ул К Маркса, 10

С диссертацией можно ознакомиться в научной библиотеке Казанского государственного технического университета им А Н Туполева

Автореферат разослан 00 £ г

Ученый секретарь диссертационного совета, доктор физ -мат наук, профессор

Цанилаев П Г

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы.

Корпоративные структуры часто сталкиваются с проблемой анализа больших объемов данных, имеющих сложную структуру Помочь в решении данной проблемы могут системы поддержки принятия решений (СППР), основанные на использовании технологии хранилищ данных (ХД)

Хранилище данных (data warehouse) - накопитель информации из других систем, на основе которых строятся процессы принятия решений и анализа данных Для хранилища данных характерны предметная ориентация, интеграция, поддержка хронологии и неизменяемость

Построение СППР актуально для крупных банков, предприятий нефтяной, газовой отрасли, машиностроения, металлургии и т д Причем, СППР, основанная на технологии хранилищ данных, будет быстрее окупаться на крупных предприя!иях или организациях с развитой филиальной сетью и разнообразной дея гельностью

Среди отечественных коммерческих информационно-аналитических систем, основанных на технологии ХД и предназначенных для автоматизации банковских процессов, можно вылечить такие продукты, как RS-DataHouse и InterBank v 52 (обе системы разработаны специалистами компании R-Style Softlab), IQ DW (разработка фирмы CSBI), 5NTe RETAIL (предложение от компании «Диасофт») Из зарубежных банковских технологий, использующих хранилища данных, наиболее перспективными являются разработки компании Misys Retail Banking

Тем не менее, несмотря на наличие уже готовых банковских систем, использующих технологию ХД, как правило, все имеющиеся на сегодня решения, ориентированы на конкретный тип банков Альфа-Банк использует систему Equation при доработке 20% программного кода, продукт IQ DW предназначен для задач розничного банковского обслуживания, Interbank v 5 2 разрабатывался в первую очередь для удобства корпоративных клиентов, Bankmaster Plus является специальной разработкой для небольших банков

Проблемами хранилищ данных занимались такие специалисты, как Э Спирли, J1 Хоббс, С Чаудхури, Д Шаша, Р Кимбал, С Хилсон, В Ганти, К Лисянский, С Архипенков, С Федечкин и др Вопросы анализа и добычи знаний поднимали в своих работах Кохонен Т, Эйриэнн X Слотер, Барсегян А А , Куприянов М С , Арсеньев С , Киселев М , Соломатин Е и др

Целью работы является повышение эффективности обработки больших объемов информации за счет использования технологии хранилищ данных (на примере банковской области)

Для достижения поставленной цели необходимо

1 Провести анализ и исследование существующих способов хранения данных и принятия решений, а также методов интеллектуального анализа, применимых в банковских системах на основе технологии хранилищ данных

2 Разработать модели существующих архитектур ХД

3 Используя разработанные модели, произвести выбор архитектуры ХД для создания СППР, предназначенной для использования в банковской сфере

4 Провести исследование повышения производительности работы с данными в хранилищах

5 Осуществить программную реализацию выбранных алгоритмов СППР, основанных на интеллектуальном анализе

Методы исследований. Для решения перечисленных вопросов использованы методы математического и имитационного моделирования, теория вероятностей, теория множеств, теория массового обслуживания Научная новизна работы представлена следующими результатами

1 Систематизированы архитектурные принципы хранилищ данных

2 Предложены математические модели взаимодействия пользователей с источниками данных и различными архитектурами хранилищ данных

3 Предложена трехуровневая архитектура хранилища данных с интерфейсом запросов

Практическая ценность диссертации состоит в следующем

- разработан комплекс SQL-запросов, при помощи которого реализован алгоритм, основанный на идее карт Кохонена, для распределения заемщиков-юридических лиц по заданным группам риска,

- разработана структура системы поддержки принятия решения, основанная на применении технологии хранилищ данных и предназначенная для крупных банков и предприятий, имеющих развитую филиальную сеть,

- разработана подсистема для осуществления операций по банковским картам,

- разработан программный модуль интерфейса управления запросами, предназначенный для ускорения работы аналитиков без знания структуры конкретных отношений, составляющих витрины и хранилище данных,

- разработан программный модуль для расчета показателей качества обспуживания, оказываемого многоканальной системой массового обслуживания с ограниченной длиной очереди при простейшем входящем потоке требований и распределении времени обслуживания по показательному закону

Апробация работы. Основные положения диссертационной работы и ее отдельные результаты докладывались и обсуждались на следующих конференциях и симпозиумах

1 Естественные науки 5-я международная конференция молодых ученых и студентов, Самара, 2004

2 Туполевские чтения Международная молодежная научная конференция, посвященная 1000-летию города Казани, Казань, 2005

3 IV Спиридоновские чтения Актуальные проблемы современной экономики Международная научно-практическая конференция, Казань, 2006

4 Доклад на кафедре автоматизированных систем обработки информации и управления, Казан гос техн ун-т, 2006

5 Информационная культура в системе подготовки будущею инженера Региональная научно-практическая конференция, Нижнекамск, 2006

6 XIX международная научная конференция Математические меюды в технике и технологиях, Воронеж, 2006

7 Научно-техническая конференция по вопросам информагики, вычислительной техники и информационной безопасности, Казань, 2006

8 Инфокоммуникационные технологии глобального информационною общества 4-я ежегодная международная научно-нракшческая конференция, Казань, 2006

На защиту выносятся:

1 Методы интеллектуального анализа и добычи знаний, применяемые для создания систем поддержки принятия решений, основанных на хранилищах данных

2 Модель трёхуровневого хранилища данных с ингерфейсом запросов, сохраняющая возможность создания запросов непосредовенно ви грине данных, общему ХД и предоставляющая пользователю возможность работы с лаконичным описанием данных

3. Способы выбора вариантов загрузки данных, типов индексов и количества получаемых атрибутов, приводящие к повышению производшельносш работы с ХД

4 Результаты вычислений основных показа1елей многоканальной банковской системы массового обслуживания с о1раниченной длиной очереди, предназначенной для обработки информации в ХД Публикации. Основные результаты диссертации опубликованы в 12-ш печатных работах, включая 3 статьи, 8 тезисов докладов (из них 5 па международных научных конференциях) и один препринт

Структура и объём диссертации. Диссертационная работа сосчош из введения, четырёх глав, заключения, библиографического списка и приложений Общий объем работы содержит 193 страницы, включая 153 страницы основного текста, 39 формул, 55 рисунков и 16 приложений Сиисок литературы содержит 103 наименования

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы, сформулированы цели и задача диссертационной работы, приводится краткое содержание ишв диссертации, показана научная новизна и её практическая значимое 1Ь Определены основные положения работы, выносимые на защиту

В первой главе исследована архитектура СППР в банковской сфере без использования технологии ХД на примере изменения процентной ставки но вкладам в иностранной валюте и проведения операций с ценными бумагами в Сберегательном банке Обобщённая архитектура СППР представлена па рис 1

___I I 1

Гис. 1, Архитектура системi.i поддержки пришгтя решении Gun использования технологии хранилищ данных

рассмотрены проблемы аномалий, присущих реляционным базам данных. )1 банковских системах, а также возможнее способы их устранения, которые сводятся к процессу нормализации, требующему значительных временных затрат- и наличия высококвалифицированных специалистов. Рассмотрены такие тины ограничений проектов реляционных баз данных, предназначенные для улучшения их схем, как декомпозиция, функциональные зависимости, ограничения ссылочной целостности и др.

Для (шшэта перехода от использования автоматизированных систем, работающих с изолированными в каждом филиале банка реляционными базами данных, к качественно новому единому унифицированному программному продукту, Основанному на СППР с использованием ХД, целесообразно проведение централизации ресурсов, которое заключается в размещении всех ЬД па серверах головного отделения.

В ходе проведённых исследований, целыо которых являлся выбор СУБД для создания ХД новой СГ111Р, было отдано предпочтение продукту Oracle 9i. Исследованиям подвергались следующие СУЬД: Microsoft SQL Server 2000, Oracle 9i и dBase IV. Другие системы (Informix, Sybase и т.п.) не исследовались но причине отсутствия прикладного программного обеспечения, в котором было 6r>i реализовано их применение. Результаты быстродействия исследуемых СУЕД представлены на рис. 2, из -которого следует, что Oracle 91 имеет1 лучшее быстродействие но ¿равнению с MS SQL Server 2000 и базами типа dBase IV.

Исследование проводилось при следующих условиях:

• удаление сервера баз данных от клиентских рабочих станций = 30 км;

" общий объем всех таблиц в каждой из сравниваемых баз данных = 10

Гбайт;

Г

4

• время доступа и рабочих станций до сервера ~ 21 мо (вычислено при количестве ping-ов равном 1000 с 32 байтами R каждом piiig-c).

Идея технологии ХД состоит в хранении ненормализованных исторически* данных, за счёт агрегирования которых увеличивается скорость доступа.

Концепция хранилищ данных должна способствовать решению проблемы использования огромных массивов накопленной информации и являться единой базой для всей корпоративной структуры системы поддержки Принятия решений, позволяющей улучшить аналитические, прогнозирующие и оперативные показатели.

Проведённый анализ имеющихся публикаций но использованию СЛШР, Основанных на применении технологии хранилищ данных, позволяет еде лап. вывод о перспективности этого направления, которое позволит обеспечить лучшее качество всех данных « хранилище, задействованным в подготовке отчетности для контролирующих органов и руководства.

Для более быстрого и эффективного анализа больших объёмов находящихся в хранилище данных исследована возможность использования OLA ^технологии. На примере операций среза, вращения, консолидации и детализации трехмерной модели «Доходность» (рис. 3) показана целесообразность применения методов OLAP-xexнолоши для аналитической обработки данных, представим ых в виде многомерного куба. Проведено исследование трех способов реализации OL АР-систем (МО LAV, ROLAP и HOLAP), а также получены результаты сравнения быстродействия двух аналогичных программных продуктов, работающих в нервом случае - с реляционными БД формата dUase, во втором случае с многомерной денормализованной БД на Microsoft 'SQL Server 2000 (результаты приведет.!

! 1 2 3

■ 1

(3 dBase 500 620 ] 320

■ BQL Sorter *'50 170 ' BH □ Oracle 50 DS IS

I-----

Рис. 2. Сравнение эффективности различных типов )_>Д при работе с большими объймнми дайрмх

на рис, 4). Проанализировано использование OLAР-технологии щ кредитном мониторинге банка «Сосье Же нерп ль Восток».

Измеренне Панк

Рис. 3. Представление многомерной модели данных «Доходность» к виде гиперкуба

Рис. 4. Результаты сравнения быстродействия реляционной

КД и многомерной БД

Во второй главе проведено исследование общих методов интеллектуального анализа, в число которых входят классификация, регрессия, поиск ассоциативных правил и др.

Вышеперечисленные методы являются основными задачами технологии Data Mining (добыча знаний) и применяются и СГ1ПР, основанных на использований хранилищ данных. Для решения этих задач в технологии Data Mining широко используются алгоритмы перебора, нечёткая логика, генетические алгоритмы к нейронные сети.

Задача классификации исследуется на примере автоматизации операции закрытия глобального банковского дня, и которой каждый объект, Оказывающий влияние па процесс закрытия глобального дня, характеризуется

Измерение Период

измерение

Финансовые

показатели

следующим набором переменных {Наличие открытого операционного дня исполнителя, Наличие открытого операционного дня филиалов Дневная капитализация, Пролонгация, Поднятие документов в бухгалтерию, Закрытие глобального операционного дня} В этом наборе переменная «Закрытие глобального операционного дня» - зависимая, а остальные - независимые

Данная задача решена двумя способами при помощи алгоритма покрытия и методом Naïve Bayes Несмотря на разные подходы (алгоритм покрытия предполагает построение деревьев решений для каждого класса по отдечьности, а метод Naïve Bayes основан на вычислениях условных вероятностей принадлежности объекта к некоторому классу при равенстве независимых переменных определённым значениям и их независимости друг от друга), результат решения задачи в обоих случаях получается одинаковым Однако, применение алгоритма покрытия для решения данной задачи более предпочтительно по причине наличия некоторых зависимостей переменных, определяющих условия возможности закрытия глобального дня. Поэтому, этот алгоритм рекомендован для реализации в СППР

Предложено использовать метод поиска ассоциативных правил для решения задачи по распространению услуг карточных продуктов. В качестве базового алгоритма для реализации поиска частых наборов в СППР предложено использовать алгоритм Арпоп, основанный на следующем свойстве поддержки ассоциативного правила «поддержка любого набора объектов не может превышать минимальной поддержки любого из его подмножеств»

Используя вероятностную сеть Байеса, составлена модель решения задачи о влияниях курсов валют на изменение процентных ставок по вкладам, граф рассуждений которой представлен на рис 5. В рассматриваемой сети введены следующие обозначения переменных А='Изменение курса рубля', В='Изменение курса евро', С='Изменение %-й ставки по рублевым вкладам', В='Изменение курса доллара', Е='Изменение %-й ставки по вкладам в евро'

Рис 5 Граф рассуждений решения задачи о влиянии курсов валют на изменение процентных ставок по вкладам

Построена модель решения задачи распределения предприятий-заёмщиков по группам риска, основанная на идее самоорганизующихся карт Кохонена, не требующих больших объёмов исходных данных (в отличие от статистических методов) Суть решения задачи описана ниже

Каждое предприятие характеризуется набором параметров, описывающих его благонадежность В стучае трех признаков, характеризующих предприятие (например, «Сумма в 1-й картотеке», «Сумма во 2-й картотеке», «Сумма просрочки по предыдущему кредиту»), возможен переход к представлению в обычном трехмерном пространстве На рис 6 показано размещение объектов (предприятий) в кубе единичного размера с наложенной картой Кохонена Каждой группе риска можно сопоставить узел карты Кохонена Предприятиям, имеющим близкую степень благонадежности, будут соответствовать соседние узлы карты Кохонена

Рис 6 Трехмерный куб с наложенной картой Кохонена

В третьей главе проведено исследование архитектурных решений хранилищ данных

Исследованы следующие два противоположных друг другу подхода к проектированию ХД- проектирование «снизу вверх» и «сверху вниз» Показано, что подход «снизу вверх» не подходит для проектирования хранилищ данных по следующим причинам'

1) недостаточная гибкость,

2) большая стоимость,

3) сложность в сопровождении.

Подход «сверху вниз» более гибок, имеет меньшую стоимость, прост в сопровождении, может объединить в себе все приложения и обладает свойством увеличения степени детализации при переходе на следующий уровень

Разработаны математические модели следующих архитектур-

• независимое тематическое ХД,

• зависимое тематическое ХД,

• двухуровневое ХД,

• трёхуровневое ХД с интерфейсом запросов

Кроме того разработана модель функциональной СППР, в которой хранилища данных, как таковые, не используются (анализ производится непосредственно из оперативных источников)

Под тематическим хранилищем данных понимается ХД, в котором размещены данные только из одной конкретной предметной области (например, кредитование, ценные бумаги), в то время как в общем ХД может находиться информация из разных предметных областей Но в принципе любое ХД можно считать тематическим (например, можно считать, что общее ХД имеет банковскую тематику) Тематическое хранилище считается независимым, если в него закачиваются данные непосредственно из рабочих систем (оно независимо от основного ХД) Тематическое хранилище считается зависимым в случае, когда данные поступают в него из основного ХД Использование тематических ХД оправдано в том случае, когда требуется быстрая реализация хранилища данных для какого-то одного (либо нескольких) отдельно взятого направления, а на разработку общей архитектуры для отрасли в целом нет времени (например, можно реализовать тематическое ХД отдельно для кредитования юридических лиц, а впоследствии присоединить его к общему хранилищу)

Для применения в крупных банках предложено использование трехуровневого хранилища данных, которое в состоянии обеспечить хорошую возможность расширения за счет быстрого добавления витрин данных. Для упрощения работы пользователей в архитектуру трёхуровневого хранилища данных добавлен интерфейс запросов, получив этим новую архитектуру, названную трёхуровневым хранилищем данных с интерфейсом запросов. Интерфейс запросов позволяет пользователям формировать запросы без детального знания структуры таблиц в основном хранилище и в витринах данных.

Для разработки математической модели трёхуровневого хранилища данных с интерфейсом запросов введены следующие обозначения X - множество всех отношений, составляющих общее ХД, 2, - множество всех отношений промежуточной области, = {г\ } - множество всех рабочих систем,

> } - множество функций, являющееся интерпретацией интерфейса управления запросами;

Ь = \е1,е2, ..,вт2 ] - множество всех внешних систем, Н = {Л,, И2, , Л„} - множество всех зависимых ХД, А = {а, ,а2, ., ар} _ множество всех пользователей,

■2» •'

^ _ - множество всех операций (запросов) пользователей

к рабочим системам, порождающее множество всех ответов

Ь = {/, ,/2,...,/?} _ множество всех операций (запросов) пользователей к внешним системам, порождающее множество всех ответов

Л = {Я,,Я2, _ множество всех операций пользователей к

интерфейсу запросов, порождающее множество всех ответов ^ = г,-

- количество рабочих источников данных, тпг - количество внешних источников данных, П — количество зависимых хранилищ данных,

- количество всех возможных запросов, определённых над множеством всех зависимых тематических хранилищ данных Н,

- количество всех возможных запросов, определённых над множеством всех отношений хранилища данных X ,

Уг - количество всех возможных запросов, определённых над множеством всех функций интерфейса запросов ¡V,

- количество правил, в соответствие с которыми информация из рабочих систем переносится в промежуточную область,

Ьг - количество правил, в соответствие с которыми информация из внешних систем переносится в промежуточную область,

Ь3 - количество правил, в соответствие с которыми информация из промежуточной области переносится в общее ХД,

- количество правил, в соответствие с которыми информация из ХД переносится в зависимые тематические хранилища,

Р - количество пользователей общего ХД и зависимых тематических хранилищ

С учётом принятых обозначений архитектуру трёхуровневого хранилища данных с интерфейсом запросов формально можно описать математической моделью (М 1), представленной ниже

Ы=1 с-1

где J = l,n,k = l,b4 (М1) ак О, =СД/гДгде ) = 1,«, ' = 1^,, к = 1,р ак: А, = где ч = ,к = 1,р

ак

т1,тг,п,У1,у2,Уъ,р,Ъ1,Ь2,Ьъ,ЬА е7\Г,Где N - множество __натуральных чисел

Функция /и (Л), интерпретирующая заполнение информацией промежуточной области 2 из рабочих систем, определяется формулой

1, если | с'] = су О, если -пЭс/) | с, = с ^

Формула (1) справедлива при (2), (3), (4) и (5).

ь

I (2), где г, - рабочая система, Ъ - количество отношений в г, ,

¿у =1_)с' (3). где - отношение базы данных рабочей системы , с, -(.1

атрибут отношения , Ь, - количество атрибутов в dJ,

ь , .

2 = (4), где . отношение из промежуточной области 2, Ь -/-1

количество отношений в Ъ ,

41

^у =ис< (5)> где ^7 - отношение из промежуточной области 2 , с, -атрибут отношения у, ^ - количество атрибутов в d]

Операция = есть сопоставление атрибуту С! е ^ I ~ ^ некоторого

/=1

/ \

атрибута С1 ~ ^: Равенство /„(>", )=1 в (1) означает перенос

¡=1

информации, имеющейся в атрибуте с1 (г = 1,6,) всех кортежей отношения с1] (у = 1 ,Ь) рабочей системы г,, в промежуточную область 2 Равенство /и('"|) = ® предполагает, что ни в одном из отношений (у =1,6) промежуточной области 2 , не имеется атрибутов, сопоставленных атрибутам кортежей отношений рабочей системы г,.

Функция УС(Е) определяется аналогично (1)

Функция фв(2), интерпретирующая перенос данных из области 2 в основное хранилище X , задаётся следующей системой

1, если Эй?] | м/^ е и/

ФЛг)=

О, если —Бс1] \-w~j ^

Формула (6) опирается на (7), (8), (9) и (10)

ь

^ = и (7), где - отношение из промежуточной области 2 , Ь -

м

количество отношений в области 2<,

ь'

= и^ (8), где - отношение из промежуточной области , -

1=1

атрибут отношения й) , Ь2 - количество атрибутов в ^] >

^ = (9), где - отношение из общего хранилища данных X , Ъ

- количество отношений в ХД X , Ь>

= и^' (10), где ^ 1 - отношение из ХД 2, - атрибут отношения ¡=1

^ , ¿з - количество атрибутов в отношении ^},

b

В (6) операция = означает сопоставление атрибуту W' 6 ^j I U^y ~ ^

j*i

Ьг\

некоторого атрибута wi е ^i IU wi

м

Для реализации архитектуры ХД, описанной моделью (М 1), предложено воспользоваться СУБД Oracle 9i, которая использует распространенный язык SQL, реализующий реляционную алгебру Кроме того, в Oracle 9i Database для улучшения производительности, управляемости и масштабируемости ХД введены такие возможности как, соединительные индексы на основе битовых карт, новый метод секционирования и др

Предложено реализовать проектируемую систему на четырехзвенной физической архитектуре с узлом управления питанием, относящейся к классу, которая называется «параллельная серверная конфигурация» В качестве системы дискового управления памяти предполагается использование массива RAID-5

В четвёртой главе исследованы вопросы повышения производительности работы с данными в хранилищах, приведены реализации рассмотренных выше алгоритмов, произведена оценка автоматизированной банковской системы, основанной на использовании ХД, при помощи показателей теории массового обслуживания

Архитектура трёхуровневого ХД с интерфейсом запросов предполагает следующую цепочку поступления данных в хранилище

(Рабочие прикладные системы (л)) v Внешние источники данных (ё)) -> -> (Промежуточная область (z)) -у (Хранилище данных (Л"))

Первоначальная закачка данных из существующих БД в новую систему Является наиболее сложной операцией по причине большого количества таблиц, территориально разбросанных по всей филиальной сети Предложено три варианта реализации первоначальной загрузки данных:

1) используя инструмент SQL ""Loader, входящий в Oracle 9i,

2) при помощи специально разработанного интерфейса загрузки,

3) с использованием транспортируемых табличных пространств

Загрузка данных часто предполагает соединение данных из многих

таблиц, сортировку, создание индексов и т п Как правило, все эти процессы занимают очень много времени Поэтому, в среде Oracle для уменьшения времени выполнения таких операций предусмотрена возможность параллельной обработки данных, которую можно применить и для ускорения процесса загрузки В случае закачки данных в секционированную таблицу используют загрузку в режиме прямого пути для параллельного ввода информации сразу в несколько разделов Использование при загрузке режима прямого пути (опция DIRECTJPATH) позволяет обходить ядро обработки запросов на сервере, что приводит к экономии времени

Процесс параллельной загрузки в режиме прямого пути можно описать при помощи следующей математической модели

(М 2) (б, U С,) 5, i,, Где г = \,п, i е N и п е N - множество всех натуральных чисел

Для создания модели (М 2) использовались следующие обозначения 5 = {i),s2, ,sn} - множество параллельных сеансов SQL *Loader, Т = - множество всех секций таблицы ХД, в которые

загружаются данные из сеансов множества S, причем s, t,, где i = \,п,

£ = {е,,е2, .,еп} - множество всех файлов данных загружаемых в параллельные сеансы SQL * Loader,

С' = {fj,с2, ,cn} - множество всех файлов для контроля загрузки в параллельные сеансы SQL ""Loader,

П - количество всех секций таблицы хранилища, в которую загружаются данные

(М 2) можно записать в виде (Е ^J С) —>• S —> Т .

Для того, чтобы загрузка, описанная моделью (М 2), не прерывалась и не выдавались сообщения об ошибках, во время её выполнения не проверяются ограничения, не запускаются триггеры и не обрабатываются индексы Алгоритм параллельной загрузки в режиме прямого пути SQL *Loader-a можно записать в виде следующей последовательности шагов Шаг 1 Отключить все ограничения и триггеры Шаг 2 Удалить все индексы Шаг 3 Загрузить данные, используя модель (М 2) Шаг 4 Проверить протокол загрузки данных. Шаг 5 Включить ограничения и триггеры, отключенные в Шаге 1 Шаг 6 Построить заново индексы, удалённые в Шаге 2

Для ускорения выполнения запросов, операций вставки и удаления исследуются.

• эффективность использования индексов для отношений, имеющих небольшие размеры,

• влияние длины ключа в В+-дереве на коэффициент ветвления,

• сравнение эффективности иерархических индексов и индексов на основе битовых карт при работе с многомерными данными,

На рис 7 и 8 показаны результаты применения иерархических индексов (В-деревья) и индексов на битовых картах при использовании различного набора данных в отношениях, полученных при выполнении алгоритма для

определения благонадежности предприятий, основанного на идее карг Кохонена

Рис.7 Результаты сравнения быстродействия Рис 8 Результаты сравнения быстролсйстия

алгоритма при использовании различных алгори гма при использовании различных

типов индексов и редко повторяющихся типов индексов и часто повторяющихся

данных данных

Приведена реализация интерфейса запросов, ключевым звеном которого является список сопоставлений, составляемый для каждой реализованной в СППР подсистемы (Международные карты, Кредитование юридических лиц, Ценные бумаги и т д) и представляющий собой список, содержащий следующие сведения

1) код подсистемы,

2) наименование сведения,

3) наименование отношения, в котором содержится данное сведение,

4) наименование атрибута отношения,

5) тип атрибута

Алгоритм работы интерфейса управления запросами можно онисахь следующей последовательностью шагов

Шаг 1 Получение информации от пользователей

Шаг 2 Сопоставление информации, полученной в Шаге 1. со сгру1«урои отношений в хранилище в соответствии с имеющимися метаданными Если поступившей информации и метаданных недостаточно для послроепия запроса, то возврат к Шагу 1, иначе - Шаг 3

Шаг 3 Построение вС^Ь-запроса для ХД и последующее е1 о выполнение Шаг 4 Преобразование результата выполнения БС^Ь-запроса к ношшюму пользователю виду

Шаг 5 Вывод результатов запросов для приняшя дальнейших решений

Произведена оценка качества обслуживания ароматизированной банковской системы (АБС), основанной на использовании ХД, при помощи следующих показателей вероятность отказа системы, среднее количество находящихся в системе запросов (уже обслуживаемых и стоящих в очереди) и

средняя длина очереди Для этого АБС рассматривалась как многоканальная сисгема массового обслуживания с ограниченной длиной очереди, и предполагалось, что входящий поток требований является простейшим, а распределение времени обслуживания происходит по показательному закону Сервера, задействованные в процессе обработки информации в ХД, считались каналами системы массового обслуживания

Введёны следующие обозначения

ТП - количество каналов, необходимых для обслуживания запросов всех отделений;

/ - количество мест в очереди,

Тоб - среднее время обслуживания,

р - интенсивность потока обслуженных требований одним каналом 1

системы, А - =

1 об

Р0 - верояшоегь состояния, при котором запросы в системе отсутствуют,

Р\ - вероятность состояния, при котором в системе находится один выполняющийся запрос, очереди отсутствуют,

Рт - верояшость состояния, при котором в системе йаходится т выполняющихся запросов, очереди отсутствуют,

Рт+1 - вероятность состояния, при котором в системе находится т +1 запрос т запросов выполняются, один - стоит в очереди,

Рщ+1 - вероятность состояния, при котором в системе находятся т + / запросов т запросов выполняются, I - стоят в очереди;

^отк - вероятность отказа системы, т е Рот = Р„ы

Кзаг - коэффициент загрузки системы

Вероятности состояний рассчитываются по формуле Ро, где « = 1,т, р= — (11)

I

Формула (11) справедлива для рассматриваемой системы, так как переход авломагашрованной системы из состояния, вероятность наступления которого

равна Р0, в состояние с вероятностью Р\ и далее до состояния с Рт совершается гак же, как и в системе массового обслуживания с отказами

Вероятное!и состояний системы при переходе системы массового обслуживания с ограниченной длиной очереди с (т + 1)-го состояния до

(т + /)-го состояния можно получить из системы уравнений стационарною режима

U Рт Л -{Х + т м) Ря+т Ц РтЛ --- О

поч Г Р" ~{Л + т +т » =0 _

UA) , ryei = l,m + /

Я Рт+М - т ц Рт+1 - 0

Произведены расчеты -^о, -Ротк, М , Мож и единой системы

массового обслуживания для всех отделений Сберегательною банка в республике Татарстан при количестве каналов т от 2 до 25-ти (при большем числе каналов результаты расчетов выходят за границы типа long double языка С++) и различных комбинациях I, fJ- и Я при следующих предположениях

• среднее время нахождения нужной информации по одному запросу равно одному часу,

• длина очереди, ограниченна числом 8

Такая величина среднего времени оправдана 1ем, что системы обслуживания клиентов будут работать не с ХД, а с оперативными базами данных, скорость обработки которых значительно выше

Длина очереди равная восьми должна гарантирован получение резулыащ к концу рабочего дня при условии, что в системе работоспособен юлько один канал и запрос был поставлен в очередь в течение первого часа рабоче1 о дня пользователя

На рис 9 приведены динамики изменений Ротк и К мг ПрИ различных комбинациях значений Л, I н № На графиках рис 9 по горизонтальной оси откладывается количество каналов, по вертикальной - коэффициент за1рузки системы Из полученных графиков видно, что для создания единой автоматизированной системы на основе хранилища данных для 41-ю отделения Сберегательного банка в Татарстане достаточно наличия восьми каналов Для более надежной работы системы предложено распределение отделений банка на восемь групп (по количеству каналов) с учетом их территориального расположения и объбма выполняемой работы

В конце главы приведен проект подсистемы «Международные карал», позволяющей решать следующее задачи

1 Первоначальная выдача банковских карт

2 Очередной и досрочный перевыпуск карт

3 Автоматическое отражение операций, совершенных с банковскими картами, в балансе отделения

4 Прием карт при закрытии и при истекшем сроке действия

5 Прием файлов расшифровок на списание и зачисление из Головно1 о пластикового центра

6 Получение отчёта о персонализации карты

Я ~ 26, I ■■■- 8, fi4i

Я - 26, fi = 3

Л = 26, /-16, ц-А

j--ЦОрОЯИПИь dwM

| ■ " Юиффммин' Mrp/*™ |

x=U, / - 32, ^Ц:

j ~Qtiao«nax:ib оюч | " ' (СэхффждекГ >»гру;>н

Рис. 9. Динамики изменений и К.,..

Л = 26, / = 16, ju-^l

В заключении сформулированы основные результаты работы.

В приложениях приведены: фрагменты модулей загрузки на языке запросов SQI,; фрагменты отношений, а также их структуры, используемые в решаемых задачах; блок схема, иллюстрирующая взаимодействие пользователя и интерфейса запросов; фрагмент списка сопоставлений.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ 1, Проанализированы и исследованы существующие способы хранения данных и принятия решений в банковской сфере.

Для ускорения процесса анализа данных, нредставимых в многомерном виде, было предложено более интенсивное применение ОТАР-тсхнологии в СТШ1\ основанных паХД.

П ходе проведенной® исследования методов интеллектуального анализа и добычи знаний, применимых и банковских системах на основе технологии ХД, было сделано следующее:

• решена задача автоматизации закрытия глобального! операционного для двумя способами: с использованием алгоритма покрытия и методом Naive fiayes;

• предложено решение задачи об учёте влияний курсов валют на величины процентных ставок вкладов при помощи вероятностных методик Байеса,

• решена задача распределения заёмщиков-юридических лиц по группам риска методом, основанном на идее карт Кохонена

2 Разработаны математические модели следующих хранилищ данных

• зависимое тематическое,

• независимое тематическое,

• двухуровневое ХД

Впервые предложена архитектура трёхуровневого хранилища данных с интерфейсом запросов Разработана математическая модель предложенной архитектуры

3 Для использования в банковской сфере была выбрана архитектура трёхуровневого хранилища данных с интерфейсом запросов, как наиболее перспективная и обладающая наилучшими возможностями для добавления новых предметных областей

4 Проведено исследование способов повышения производительности работы с данными в хранилищах

Разработана математическая модель параллельной загрузки в режиме прямого пути Разработаны алгоритм работы интерфейса запросов и его математическая модель Предложен алгоритм определения степени благонадежности предприятий-заемщиков, основанный на идее самоорганизующихся карт Кохонена

Доказана эффективность применения иерархических индексов при работе с частоповторяющимися данными, и индексов на основе битовых карт при работе с редкоповторяющимися данными многомерной структуры

Произведен расчет основных показателей качества обслуживания автоматизированной банковской системы, основанной на использовании ХД, при ее рассмотрении как системы массового обслуживания с ограниченной длиной очереди

5 Алгоритмы систем поддержки принятия решений на основе интелаектуального анализа и добычи данных реализованы в разработанном комплексе SQL-запросов и программных модулях

СПИСОК ПУБЛИКАЦИЙ

1 Чугунов А В , Кузьмин А H , Ризаев И С Концепции построения электронного документооборота // Труды 5-й международной конференции молодых ученых и студентов Естественные науки Часть 18-Б, Секция информатика, выч техника и управление, Самара, 2004 - С 94-96

2 Кузьмин А H, Сапаркин П В Технология хранилищ данных // Туполевские чтения международная молодёжная научная конференция, посвященная 1000-летию города Казани, Том 3, Казань, Изд-во Казан гос техн ун-та, 2005 - С 133-134

3 Кузьмин А H, Ризаев И С Методы устранения избыточности в банковских данных // IV Спиридоновские чгения Актуальные проблемы

современной экономики России международная научно-практическая конференция, Казань, И зд-во Казан roc техн ун-та, 2006 -С.148-150.

4 Кузьмин А H Проблемы реляционных баз данных в банковских системах, математические модели хранилищ данных и параллельной загрузки // Препринт 06П1, Казань, Изд-во Казан гос техн ун-та, 2006 -12С

5 Кузьмин А H , Ризаев И С О внедрении современных информационных технологий в сферу управления банком // Исследования по информатике, Выпуск 10, Институт проблем информатики АН РТ, Казань Отечество, 2006 -С 151-158

6 Кузьмин А H Применение вероятностных методик Байеса и нейронных сетей в системах поддержки принятия решении на основе хранилищ данных // Информационная кзлльтура в системе подготовки будущего инженера Материалы региональной научно-практической конференции, Казань, Изд-во Казан гос техн ун-та, 2006 -С.108-110

7 Кузьмин А H Задача поиска ассоциативных правил в системах поддержки принятия решений на основе хранилищ данных // Информационная культура в системе подготовки будущего инженера Материалы региональной научно-практической конференции, Казань, Изд-во Казан гос техн ун-та, 2006.-С 111-112

8 Кузьмин А H Трёхуровневая архитектура хранилища данных с интерфейсом запросов // Электронное периодическое издание СЭТС -Социально-экономические и технические системы исследование, проектирование, организация Секция математика, механика и выч техника, www http //kampi ru/sets, Набережные Челны, Камская гос инж -экон акад-я, №2 (18), 2006 -6С

9 Кузьмин А H, Ризаев И С Применение методов классификации в системах поддержки принятия решений на основе хранилищ данных // XIX международная конференция Математические методы в технике и технологиях Сборник трудов, Том 2, Воронеж, Воронежская гос технол акад-я, 2006-С 146-148

10 Кузьмин АН, Ризаев И С Интерфейс управления запросами в среде хранилищ данных // Научно-техническая конференция по вопросам информатики, вычислительной техники и информационной безопасности Материалы конференции, Казань, Изд-во Казан гос техн ун-та, 2006 -С 61-64

11. Кузьмин АН, Ризаев ИС, Яхина ЗТ О повышении производительности хранилищ данных // Инфокоммуникационные технологии глобального информационного общества Тезисы докладов 4-й ежегодной международной научно-практической конференции, 6-7 сентября 2006 г, Казань, Центр инновационных технологий, 2006, - С 106-110 12 Кузьмин АН Оценка качества автоматизированной системы, основанной на технологии хранилищ данных // Вестник Казанского технологического университета, Казань, Казан, гос технол ун-т Отечество №2,2006 -С 315-324

Формат 60x84 1/16 Бумага офсетная Печать офсетная Печ л 1,25 Уел печ л 1,16 Уел кр-отт 1,21 Уч изд л 1,0

_Тираж 100 Заказ И225 ■_

Типография Издательства Казанского государственного технического университета 420111, Казань, К Маркса, 10

Оглавление автор диссертации — кандидата технических наук Кузьмин, Андрей Николаевич

Введение.

Глава 1. Анализ и исследование существующих способов хранения данных и принятия решений в банковской сфере.

1.1. Организация электронного документооборота в Сберегательном банке без использования единой базы данных.

1.2. Концепция принятия решений без использования технологии хранилищ данных.

1.3. Использование реляционных моделей баз данных.

1.3.1. Аномалии реляционных баз данных.

1.3.2. Декомпозиция отношений.

1.3.3. Функциональные зависимости как способ устранения информационной избыточности.

1.3.4. Применение ограничений ссылочной целостности в реляционных моделях.

1.3.5. Другие ограничения реляционной модели.

1.3.6. Проблемы нормализации.

1.4. Централизация баз данных.

1.4.1. Организация единого хранения баз данных.

1.4.2. Сравнение быстродействия работы систем с территориально разрозненными и централизованными базами данных.

1.4.3. Сравнение пригодности разных типов СУБД для централизации ресурсов.

1.5. Концепция хранилищ данных.

1.5.1. Отличия хранилищ данных от традиционных баз данных.

1.5.2. Обзор имеющихся решений в области создания хранилищ данных и банковского программного обеспечения.

1.6. Технология OLAP.

1.6.1. Многомерная модель данных.

1.6.1.1. Срез.

1.6.1.2. Вращение.

1.6.1.3. Консолидация и детализация.

1.6.2. Типы архитектур OLAP-систем.

1.6.2.1. MOLAP.

1.6.2.2. ROLAP.

1.6.2.3. HOLAP.

1.6.3. Применение OLAP-технологии в кредитном мониторинге банка «Сосье Женераль Восток».

Выводы.

Глава 2. Методы интеллектуального анализа, применяемые в создании систем поддержки принятия решений, основанных на хранилищах данных.

2.1. Интеллектуальный анализ данных.

2.2. Классификация.

2.2.1. Алгоритм покрытия.

2.2.2. Метод Naive Bayes.

2.3. Поиск ассоциативных правил.

2.3.1. Применение задачи поиска ассоциативных правил.

2.3.2. Алгоритмы выявления часто встречающихся наборов.

2.3.3. Визуальное представление ассоциативных правил.

2.4. Вероятностные методики Байеса и методы нейросетей.

2.4.1. Модель использования сети Байеса для принятия решения об изменении процентной ставки.

2.4.2. Примеры применений вероятностных сетей Байеса в различных сферах деятельности человека.

2.4.3. Нейросетевые методики.

2.4.4. Построение модели, основанной на картах Кохонена, для определения неблагонадёжных предприятий-заёмщиков.

Выводы.

Глава 3. Проектирование архитектуры хранилища данных.

3.1. Уровни абстракции при разработке архитектуры.

3.2. Состав архитектуры хранилища данных.

3.3. Концептуальное моделирование.

3.3.1. Математические модели тематических хранилищ данных.

3.3.2. Классификация видов архитектур хранилищ данных в зависимости от использования витрин данных.

3.3.3. Классификация архитектурных решений хранилищ данных по Спирли.

3.3.4. Выбор архитектуры.

3.4. Выбор программных средств создания хранилища данных.

3.5. Логическое моделирование.

3.6. Физическая архитектура хранилища данных.

3.6.1. Выбор варианта физической архитектуры.

3.6.2. Управление физической памятью.

3.7. Обеспечение безопасности в Oracle.

Выводы.

Глава 4. Повышение производительности работы с данными в хранилищах и реализация алгоритмов.

4.1. Загрузка данных в хранилище.

4.1.1. Периодичность загрузки данных для некоторых направлений банковской деятельности.

4.1.2. Способы реализации первоначальной загрузки.

4.1.3. Параллельная обработка в процессах загрузки.

4.2. Применение индексов при работе с отношениями небольших размеров.

4.3. Влияние количества получаемых атрибутов на производительность системы.

4.4. Влияние длины ключа в В -дереве на коэффициент ветвления.

4.5. Алгоритм определения благонадёжности предприятий, основанный на картах Кохонена.

4.6. Использование индексов при работе с многомерными данными.

4.7. Интерфейс запросов.

4.8. Оценка автоматизированной банковской системы, основанной на использовании хранилища данных, при помощи показателей теории массового обслуживания.

4.9. Проектирование базы данных подсистемы учёта операций по международным банковским картам.

Выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Кузьмин, Андрей Николаевич

Корпоративные структуры часто сталкиваются с проблемой анализа больших объёмов данных, имеющих сложную структуру. Помочь в решении данной проблемы могут системы поддержки принятия решений (СППР), основанные на использовании технологии хранилищ данных (ХД).

Хранилище данных (data warehouse) - накопитель информации из других систем, на основе которых строятся процессы принятия решений и анализа данных. Целью построения хранилищ данных является своевременное предоставление необходимой информации только тем сотрудникам предприятия, которые действительно в ней нуждаются.

Хранилище данных - это набор данных, предназначенный для поддержки принятия управленческих решений и характеризующийся предметной ориентацией, интеграцией, поддержкой хронологии и неизменяемостью.

Построение СППР актуально для крупных банков, предприятий нефтяной, газовой отрасли, машиностроения, металлургии и т.д. Причём, система поддержки принятия решений, основанная на технологии хранилищ данных (а большинство СППР сегодня опираются именно на ХД), будет быстрее окупаться на крупных предприятиях или организациях с развитой филиальной сетью и разнообразной деятельностью.

Среди отечественных коммерческих информационно-аналитических систем, основанных на технологии хранилищ данных и предназначенных для автоматизации банковских процессов, можно выделить такие продукты, как RS-DataHouse, InterBank v 5.2 (обе системы разработаны специалистами компании R-Style Softlab), IQ DW (разработка фирмы CSBI), 5NTe RETAIL (предложение компании «Диасофт»), Из зарубежных банковских технологий, использующих хранилища данных, наиболее перспективными являются разработки компании Misys Retail Banking. Некоторые банки предпочитают использовать собственные системы (к таким банкам относятся, например, Внешторгбанк и Центр-Инвест).

Но, несмотря на наличие уже готовых банковских систем, использующих технологию ХД, как правило, все имеющиеся на сегодня решения, ориентированы на конкретный тип банков: Альфа-Банк использует систему Equation при доработке 20% программного кода; продукт IQ DW предназначен для задач розничного банковского обслуживания; Interbank v 5.2. разрабатывался в первую очередь для удобства корпоративных клиентов; Bankmaster Plus является специальной разработкой для небольших банков.

За рубежом имеется множество работ, посвященных вопросам применения хранилищ данных в различных отраслях, но в отечественной литературе данная тематика освещена недостаточно.

Проблемами хранилищ данных занимались такие специалисты, как Э. Спирли [4], Л.Хоббс [6], С. Хилсон [6], С. Чаудхури [15], В. Ганти [15], С. Федечкин [43], К. Лисянский [49], Д. Шаша [50], Р. Кимбал [99], С. Архипенков [100] и др. Вопросы анализа данных и добычи знаний поднимали в своих работах А. Барсегян [5], М. Куприянов [5], С. Арсеньев [12], Эйриэнн X. Слотер [13], М. Киселев [16], Е. Соломатин [16], Т. Кохонен [22] и др.

Целью работы является повышение эффективности обработки больших объёмов информации за счёт использования технологии хранилищ данных (на примере банковской области).

Для достижения поставленной цели необходимо:

1. Провести анализ и исследование существующих способов хранения данных и принятия решений, а также методов интеллектуального анализа, применимых в банковских системах на основе технологии ХД.

2. Разработать модели существующих архитектур ХД.

3. Используя разработанные модели, произвести выбор архитектуры ХД для создания СППР, предназначенной для использования в банковской сфере.

4. Провести исследование повышения производительности работы с данными в хранилищах.

5. Осуществить программную реализацию выбранных алгоритмов СППР, основанных на интеллектуальном анализе.

Методы исследований. Для решения поставленных задач использованы методы математического и имитационного моделирования, теория вероятностей, теория множеств, теория массового обслуживания.

Научная новизна работы представлена следующими результатами:

1. Систематизированы архитектурные принципы хранилищ данных.

2. Предложены модели взаимодействия пользователей с источниками данных и различными архитектурами хранилищ данных.

3. Предложена трёхуровневая архитектура хранилища данных с интерфейсом запросов.

Практическая ценность диссертации состоит в следующем:

- разработан комплекс SQL-запросов, при помощи которого реализован алгоритм, основанный на идее карт Кохонена, для распределения заёмщиков-юридических лиц по заданным группам риска;

- разработана структура системы поддержки принятия решения, основанная на применении технологии хранилищ данных и предназначенная для крупных банков и предприятий, имеющих развитую филиальную сеть;

- разработана подсистема для осуществления операций по банковским картам;

- разработан программный модуль интерфейса управления запросами, предназначенный для ускорения работы аналитиков без знания структуры конкретных отношений, составляющих витрины и хранилище данных;

- разработан программный модуль для расчета показателей качества обслуживания, оказываемого многоканальной системой массового обслуживания с ограниченной длиной очереди при простейшем входящем потоке требований и распределении времени обслуживания по показательному закону.

Апробация работы. Основные положения диссертационной работы и её отдельные результаты докладывались и обсуждались на следующих конференциях и симпозиумах:

1. Естественные науки: 5-я международная конференция молодых учёных и студентов, Самара, 2004.

2. Туполевские чтения: Международная молодёжная научная конференция, посвящённая 1000-летию города Казани, Казань,

2005.

3. IV Спиридоновские чтения: Актуальные проблемы современной экономики. Международная научно-практическая конференция, Казань, 2006.

4. Доклад на кафедре автоматизированных систем обработки информации и управления, Казан, гос. техн. ун-т, 2006 г.

5. Информационная культура в системе подготовки будущего инженера: Региональная научно-практическая конференция, Нижнекамск, 2006.

6. XIX международная научная конференция: Математические методы в технике и технологиях, Воронеж, 2006;

7. Научно-техническая конференция по вопросам информатики, вычислительной техники и информационной безопасности, Казань,

2006.

8. Инфокоммуникационные технологии глобального информационного общества: 4-я ежегодная международная научно-практическая конференция, Казань, 2006.

На защиту выносятся:

1. Методы интеллектуального анализа и добычи знаний, применяемые для создания систем поддержки принятия решений, основанных на хранилищах данных.

2. Модель трёхуровневого хранилища данных с интерфейсом запросов, сохраняющая возможность создания запросов непосредственно витрине данных, общему ХД и предоставляющая пользователю возможность работы с лаконичным описанием данных.

3. Способы выбора вариантов загрузки данных, типов индексов и количества получаемых атрибутов, приводящие к повышению производительности работы с ХД.

4. Результаты вычислений основных показателей многоканальной банковской системы массового обслуживания с ограниченной длиной очереди, предназначенной для обработки информации в ХД.

Публикации. Основные результаты диссертации опубликованы в 12-ти печатных работах, включая 3 статьи, 8 тезисов докладов (из них 5 на международных научных конференциях) и один препринт.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка и приложений. Общий объем работы содержит 193 страницы, включая 153 страницы основного текста, 39 формул, 55 рисунков и 16 приложений. Список литературы содержит 103 наименования.

Заключение диссертация на тему "Методы и модели обработки информации в хранилищах данных"

Основные результаты и выводы работы:

1. Проанализированы и исследованы существующие способы хранения данных и принятия решений в банковской сфере.

Для ускорения процесса анализа данных, представимых в многомерном виде, было предложено более интенсивное применение OLAP-технологии в СППР, основанных на ХД.

В ходе проведённого исследования методов интеллектуального анализа и добычи знаний, применимых в банковских системах на основе технологии ХД, было сделано следующее:

• решена задача автоматизации закрытия глобального операционного дня двумя способами: с использованием алгоритма покрытия и методом Naive Bayes;

• предложено решение задачи об учёте влияний курсов валют на величины процентных ставок вкладов при помощи вероятностных методик Байеса;

• решена задача распределения заёмщиков-юридических лиц по группам риска методом, основанном на идее карт Кохонена.

2. Разработаны математические модели следующих хранилищ данных:

• зависимое тематическое;

• независимое тематическое;

• двухуровневое ХД.

Впервые предложена архитектура трёхуровневого хранилища данных с интерфейсом запросов. Разработана математическая модель предложенной архитектуры.

3. Для использования в банковской сфере была выбрана архитектура трёхуровневого хранилища данных с интерфейсом запросов, как наиболее перспективная и обладающая наилучшими возможностями для добавления новых предметных областей.

4. Проведено исследование способов повышения производительности работы с данными в хранилищах.

Разработана математическая модель параллельной загрузки в режиме прямого пути. Разработаны алгоритм работы интерфейса управления запросами и его математическая модель. Предложен алгоритм определения степени благонадёжности предприятий-заёмщиков, основанный на идее самоорганизующихся карт Кохонена.

Доказана эффективность применения иерархических индексов при работе с частоповторяющимися данными, и индексов на основе битовых карт при работе с редкоповторяющимися данными многомерной структуры.

Произведён расчёт основных показателей качества обслуживания автоматизированной банковской системы, основанной на использовании ХД, при её рассмотрении как системы массового обслуживания с ограниченной длиной очереди.

5. Алгоритмы систем поддержки принятия решений на основе интеллектуального анализа реализованы в разработанном комплексе SQL-запросов и программных модулях.

Заключение

Библиография Кузьмин, Андрей Николаевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Джексон Г. Проектирование реляционных баз данных для использования с микро-ЭВМ, М.: Мир, 1991. 252 С.

2. Hector Garcia-Molina, Jeffrey D. Ullman, Jennifer Widom «Database System: The Complete Book», Department of Computer Science Stanford University, Prentice Hall, Upper Saddle River, New Jersey 07458, p. 1083

3. Мейер Д. Теория реляционных баз данных, М.:, Мир, 1987. 608 С.

4. Спирли Э. Корпоративные хранилища данных: планирование, разработка, реализация, Том 1, М.-СПб-Киев, Вильяме, 2001. 396 С.

5. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining, СПб: БХВ-Петербург, 2004.-333 С.

6. Л. Хоббс, С. Хилсон, Ш. Лоуенд Oracle 9iR2: Разработка и эксплуатация хранилищ баз данных, М.: Кудиз-Образ, 2004. 585 С.

7. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров, Издание шестое, СПб-М.-Краснодар, Лань, 2003. 831 С.

8. Козлов В.Н. Математика и информатика // Учебное пособие, М.-СПб, Питер, 2004. 265 С.

9. Сборник задач и упражнений по высшей математике: математическое программирование // Под ред. проф. Кузнецова А.В., Минск, Вышэйшая школа, 1995. 382 С.

10. Мантуров О.В. Элементы тензорного исчисления, М.: Просвещение, 1991.-255 С.

11. Банковское дело // Под ред. проф. Лаврушина О.И., М.: Финансы и статистика, 2003. 667 С.

12. Арсеньев С. Извлечение знаний из медицинских баз данных. Поисковая система eBoogle: http://www.eboogle.ru. 123 С.

13. Эйриэнн X. Слотер. Архитектуры OLAP // Перевод Interlab, Образовательный портал Ханты-Мансийского автономного округа: http://www.eduhmao.ru.

14. Пушников А.Ю. Введение в системы управления базами данных. Часть 1. // Учебное пособие, Уфа, Изд-во Башкирского ун-та, 1999. 108 С.

15. С. Чаудхури, У. Дайал, В. Ганти. Технология баз данных в системах поддержки принятия решений, Открытые системы, № 1, 2002.

16. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах, Открытые системы, № 4, 1997, С. 41-44

17. Коваленко Е. Система Sequent Extreme NUMA-Q, Открытые системы, №2, 1997, С. 6-13.

18. Дунаев С.Б. Доступ к базам данных и техника работы в сети: практические приёмы современного программирования, М.: Диалог-МИФИ, 2000.-416 С.

19. Сафрай В.М. Справочник по высшей математике (для студентов ВУЗов): с примерами решения задач, М.: Элит, 2004. 356 С.

20. Уоссермен Ф. Нейрокомпьютерная техника, М.: Мир, 1992.

21. Бойко В.В., Савинков В.М. Проектирование баз данных информационных систем, М.: Финансы и статистика, 1989. 350 С.

22. Кохонен Т. Ассоциативная память, М.: Мир, 1980. 239 С.

23. Розенблатт Ф. Принципы нейродинамики. Персептроны и теория механизмов мозга, М.: Мир, 1965. 480 С.

24. Минский М., Пейперт С. Персептроны, М.: Мир, 1971. 261 С.

25. Веденов А.А. Моделирование элементов мышления, М.: Наука, 1988. -160 С.

26. Лоскутов А.Ю., Михайлов А.С. Введение в синергетику, М.: Наука, 1990.-272 С.

27. Мкртчян С.О. Нейроны и нейронные сети, М.: Энергия, 1971. 232 С.

28. Горбань А.Н. Обучение нейронных сетей, М.: Параграф, 1990.

29. Галушкин А.И. Синтез многослойных схем распознавания образов, М.: Энергия, 1974.-367 С.

30. Гантмахер Ф.Г. Теория матриц, М.: Наука, 1988. 548 С.

31. Шеперд Г. Нейробиология. В 2-х томах. Том 1, М.: Мир, 1987. 454 С.

32. Банди Б. Методы оптимизации, М.: Радио и связь, 1988. 128 С.

33. D'Agostini G. «Bayesian reasoning in high energy physics principles and applications», CERN Yellow Report 99-03, July, 1999.

34. Bishop C.M. «Neural networks for pattern recognition», Oxford University Press, 1995.

35. Вентцель E.C. Теория вероятностей, M.: Высшая школа, 2001.

36. Giarratano J., Riley G. «Expert systems: Principles and programming», PWS Publishing, 1998.

37. Гнеденко Б.В. Курс теории вероятностей: 7-е издание, М.: Эдиториал УРСС, 2001.

38. Hastie Т., Tibshirani R., Friedman J. «The Elements of statistical learning. -Data Mining, Inference, and Prediction», Springer, 2001.

39. Лекции по нейроинформатике, Часть 1 // Научная сессия МИФИ-2003, V Всероссийская научно-техническая конференция, «Нейроинформатика-2003», М., МИФИ, 2003. 188 С.

40. Терехов С.А. Нейросетевые аппроксимации плотности в задачах информационного моделирования // Лекция для школы-семинара «Современные проблемы нейроинформатики»», М., МИФИ, 2002.

41. Cooper G.F. «The computational complexity of probabilistic inference using Bayesian belief», Artificial Intelligence, 1990.

42. Zachman J. «А Framework for Information Systems Architectures», IBM Systems Journal, № 3, vol. 26, 1987.

43. Федечкин С. Хранилище данных: вопросы и ответы, PCWeek, № 31, 2003.

44. Цикритзис Д., Лоховски Ф. Модели данных, М.: Финансы и статистика, 1985.-343 С.

45. Фокс Д. Программное обеспечение и его разработка, М.: Мир, 1985. -368 С.

46. Зиндер Е.З. Новое системное проектирование: информационные технологии и бизнес-реинжиниринг, 2-я часть, СУБД, № 1,1996.

47. Зиндер Е.З. Критерии выбора современной СУБД как объекта инвестиций для развития предприятия, СУБД, № 1, 1995.

48. Кречетов Н., Иванов П. Продукты для интеллектуального анализа данных, М.: ComputerWeek, № 14-15,1997.- С. 32-39.

49. Лисянский К. Архитектурные решения и моделирование данных для хранилищ и витрин данных // Образовательный портал Ханты -Мансийского автономного округа (http://www.eduhmao.ru).

50. Д. Шаша, Ф. Бонне Оптимизация баз данных: принципы, практика, решение проблем, М.: Кудиз-Образ, 2004. 431 С.

51. Кузьмин А.Н., Сапаркин П.В. Технология хранилищ данных // Туполевские чтения: международная молодёжная научная конференция, посвящённая 1000-летию города Казани, Том 3, Казань, Изд-во КГТУ им. А.Н. Туполева, 2005. С. 133- 134.

52. Шамис В.А. С++ Builder 4: Техника визуального программирования, М.: Нолидж, 2000. 650 С.

53. Р. Лейнекер Энциклопедия Visual С++, СПб.: Питер, 1999. 1147 С.

54. Paolo Franca С++: No experience required, Sybex, 1997. 521 P.

55. Тихомиров Ю.В. Самоучитель MFC, СПб.: БХВ-Санкт-Петербург, 2000.-640 С.

56. Шилдт Г. Самоучитель С++: 3-е издание, СПб.: БХВ-Санкт-Петербург, 1998.-683 С.

57. Скляров В.А. Программирование на языках Си и Си++: Учебное пособие, 2-е издание, М.: Высшая школа, 1999. 288 С.

58. Советов Б.Я., Яковлев С.А. Моделирование систем: Учебник для вузов, М.: Высшая школа, 1985. 271 С.

59. W. Richard Stevens «TCP/IP Illustrated: The Protocols», volume 1, Sydney, Bonn, Amsterdam, Tokyo, «Addison Wesley Longman», «Inc.», 1994. -671 P.

60. Мамаев E.B. Microsoft SQL Server 2000, СПб.: БХВ-Петербург, 2002. -1261 С.

61. Бритов П., Липчинский Е. Практика построения хранилищ данных: SAS System // Корпоративные системы, № 3,1999., СУБД, № 4-5, 1998.

62. Abiteboul Serge, Hull Richard, and Vianu Victor Foundation of Databases, Addison-Wesley, 1995.

63. Celko Joe, SQL for Smarties: Advanced SQL Programming, Morgan Kaufmann, 2000.-400 P.

64. Kim Won, On optimization an SQL-like nested query, TODS, 7(3), 1982. -443-469 P.

65. C. Mohan, ARIES/KVL: A Key-Value Locking Method for Concurrency Control of Multiaction Transactions on B-Tree Indexes, 16th Large Data Bases Conference, San Francisco: Morgan Kaufmann, 1990.

66. Weikum Gerhard, Vossen Gottfried, Transactional Information Systems: Theory, Algoritms, and Practice of Concurrency Control and Recovery, Morgan Kaufmann, 2001.

67. Oracle Corp. Performance and scalability in DSS environment with Oracle 9i, Oracle white paper, 2001.

68. Durbin Jason and Ashdown Lance, Oracle 8i Distributed Database System, Release 2 (8.1.6), Oracle Corporation, 1999.

69. Loney Kevin and Thierault Marlene, Oracle 9i DBA Handbook, Oracle Press, 1999.

70. T. Johson and D. Shasha, Utilization of B-trees with Inserts, Deletes, and Modifies // 8th ACM SIGACT-SIGMOD Conference on Principles of Database Systems, March, 1989. 235-246 P.

71. Кузьмин A.H. Проблемы реляционных баз данных в банковских системах, математические модели хранилищ данных и параллельной загрузки, Препринт 06П1, Казань, Изд-во Казан, гос. техн. ун-та, 2006. -12 С.

72. Джо Селко SQL для профессионалов: Программирование, М.: Лори, 2004.-442 С.

73. Ризаев И.С., Яхина З.Т. Базы данных, Учебное пособие, Казань, Мастер Лайн, 2004.- 100 С.

74. Кузьмин А.Н., Ризаев И.С. О внедрении современных информационных технологий в сферу управления банком // Исследования по информатике, Выпуск 10, Казань, Отечество, 2006. -151-158 С.

75. В. Дмитриев. OLAP-технология в кредитном мониторинге клиентов банка // Банковские технологии, № 10,2004.

76. И. Орехова CSBI о хранилище данных IQ DW // Банковские технологии, № 4,2004.

77. А. Шарак Новые технологии удаленного обслуживания для корпоративных клиентов // Банковские технологии, № 2, 2005.

78. Misys Retail Banking о будущей стратегии и продуктах // Банковские технологии, № 10,2004.

79. С. Иванов, В. Чернов, А. Зикунков, А. Курбатов Развитие компьютерной сети многофилиального банка // Банковские технологии, № 9, № 10, 2004.

80. JI. Хоревский, О. Старовойтова Потребительское кредитование: достижим ли успех с помощью автоматизации» // Банковские технологии, № 9, 2004.

81. М. Лазунский Корпоративное управление проектами на примере внедрения банковской АИС // Банковские технологии, № 9,2004.

82. И. Глушков Будущее рынка хранилищ данных // Банковские технологии, № 7, 2004.

83. В. Поливанов ИТ-департамент Альфа-банка отчитывается // Банковские технологии, № 4, 2004.

84. Калашников В.В., Рачёв С.Т. Математические методы построения стохастических моделей обслуживания, М.: Наука, Главная редакция физико-математической литературы, 1988. 312 С.

85. Беляева С.И. Имитационное моделирование систем массового обслуживания: текст лекций, Горький, Горьковский политехи, инст-т, 1988.-52 С.

86. Гантмахер Ф.Р. Теория матриц, М.: Наука, 1967. 576 С.

87. Бусленко Н.П. Моделирование сложных систем, М.: Наука, 1978. 350 С.

88. Теория вероятностей и математическая статистика: Учеб. пособие // Под ред. проф. Ермакова В.И., М.: ИНФРА-М, 2004. 287 С.

89. Дерк Луис. Borland С++ 5. Справочник // Пер. с нем., М.: БИНОМ, 1997.-560 С.

90. Женсыкбаев А.А. Проблемы восстановления операторов, М.-Ижевск: Институт компьютерных исследований, 2003. 412 С.

91. Ralph Kimball, John Wiley, The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses, 1996.

92. С.Я. Архипенков, Д.В. Голубев, О.Б. Максименко Хранилища данных, М.: Изд-во МИФИ, 2002, 528 С.

93. Кельтон В., Лоу А. Имитационное моделирование. Классика CS. 3-е изд., СПБ: Питер; Киев: BHV, 2004. 847 С.

94. Кузьмин А.Н. Оценка качества автоматизированной системы, основанной на технологии хранилищ данных // Вестник Казанского технологического университета, Казань, Казан, гос. технол. ун-т, Отечество, №2,2006. С. 315-324.