автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методика проектирования интегрированных программных систем многомерного анализа данных
Автореферат диссертации по теме "Методика проектирования интегрированных программных систем многомерного анализа данных"
На правах рукописи
УДК 004 4
Ровкин Игорь Олегович
Методика проектирования интегрированных программных систем многомерного анализа данных
Специальность 05 13 II «Математическое и программное обеспечение вычислительных машин, комплексов и
компьютерных сетей»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
□ОЗОбВВ13
Москва 2007
003066613
Работа выполнена в Московском Государственном Университете Приборостроения и Информатики
Научный руководитель д т н , проф Петров О М
Официальные оппоненты д ф -м н, проф Федунец Н И
к т н, доцент Лобанов Ю И
Ведущая организация Институт Проблем Управления РАН
Защита состоится 13 ноября 2007 года в 12 часов на заседании Диссертационного совета Д212 119 02 Московского Государственного Университета Приборостроения и Информатики по адресу 107996, г Москва, ул Стромынка, д 20
С диссерташей можно ознакомиться в библиотеке МГУПИ.
Автореферат разослан 10 октября 2007 г
Ученый секретарь
Диссертационного совета Д212 119 СЕ
к т н, профессор /Д"!,^ Г В Зеленко
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы
Повсеместное распространение компьютеров на производстве, в науке, бизнесе, образовании, быстрое увеличение числа информационных систем масштаба предприятия во всем мире, широкий охват компьютерными средствами автоматизации самых разнообразных технологий, отраслевых комплексов, финансовых структур, международных корпораций, предприятий малого, среднего и крупного бизнеса - все это привело к накоплению, хранению и обработке огромных объемов информации, от оперативности и качества анализа которой во многом стала зависеть выживаемость компаний в условиях острой рыночной конкуренции
Характерно, что большие и быстро растущие объемы информации пополняются главным образом за счет «сырых» и необработанных данных, из которых трудно извлечь полезную информацию при отсутствш современных аналитических программных средств, способных работать с большими объемами данных и извлекать из них ценные знания, помогающее принимать важные решения управленческого характера Поэтому проблема эффективного извлечения знаний из быстро накапливающихся массивов необработанных данных становится все более актуальной по мере роста объемов информации, используемой предприятиями в юмпьютерном виде
Повышение вычислительной мощности компьютеров способствует ускорению обработки больших объемов данных, но этого недостаточно для извлечения знаний, поскольку знания как более сложный вид информации получают с помощью специальных интеллектуальных методов обработки данных, имитирующих процессы мышления человека В настоящее время важным новым и перспективным направлением в интеллектуальном извлечении знаний из данных является многомерный OLAP-анализ (аббревиатура по названию On-Lme Analytical Processing переводится как многомерный оперативный анализ данных), который базируется на интеллектуальном процессе обобщения детализированных данных и позволяет получать знания из консолидированных по разным аспектам анализа взаимосвязанных фрагментов информации Благодаря такой интеллектуальной особенности OLAP-анализ получил в последние годы широкое распространение в практических приложениях, так как он дает возможность аналитикам и менеджерам легко работать с огромными объемами исходных данных, переводя их в очень сжатую, наглядную и синтезированную форму, по существу, в форму извлеченных из данных знаний
Однако, с позиций построения систем OLAP-анализа, интеллектуализация методов анализа, к сожалению, сопровождается усложнением моделей, алгоритмов, программ и разрабатываемых аналитических систем, что несомненно отражается на стоимости программных продуктов и затратах, связанных с их внедрением и эксплуатацией Поэтому в полной мере воспользоваться преимуществами OLAP-анализа пока могут только компании крупного бизнеса, обладающие необходимыми ресурсами для поддержки подобных усложненных и дорогих аналитических решений, способных работать с терабайтными базами и хранилищами данных Более широкое распространение этой перспективной информационной технологии на сектор малого и среднего бизнеса сдерживается из-за отсутствия недорогих, компактных и высокоэффективных аналитических систем на основе технологии OLAP, ориентированных на небольшие предприятия с ограниченными объемами баз данных, для которых первостепенное значение имеют простота и удобство работы с интеллектуальными процессами обработки данных, а не необходимость углубляться в специфику технологии работы со сверхбольшими объемами данных
Из сказанною выше следует, что на современном этапе развития OLAP-анализа актуальна проблема исследования методологии построения систем многомерного анализа данных для сектора малого и среднего бизнеса, а также создание новых подходов к интеллектуальной обработке данных на основе OLAP-технологии с учетом специфики задач, решаемых в малом бизнесе
Цель диссертационной работы
Основной целью диссертационной работы является формирование и исследование методологии построения компактных интегрированных систем многомерного OLAP-анализа, ориентированных на малый и средний бизнес, а также разработка комплекса алгоритмов и программ для реализации интегрированного подхода к OLAP-технологии и решения задач интеллектуальной обработки данных в условиях действия ограничений, характерных для малого бизнеса
Для достижения этой цели в работе решены следующие задачи
1 Выполнен анализ существующих методологий и методов построения аналитических систем многомерной обработки данных
2 Предложена новая классификация систем многомерного OLAP-аналща по степени шггегрированности компонентных технологий
3 Разработаны концепция и принципы интегрированного подхода к построению архитектуры OLAP-систем.
4 Сформирована и исследована методология построения компактных интегрированных систем многомерного OLAP-анализа, ориентированных на малый и средний бизнес
5 Исследованы фундаментальные свойства многомерных моделей данных в виде гиперкубовых структур и проблемы теоретического и прикладного характера, возникающие в многомерном анализе в связи с реализацией интегрированного подхода
6 Проведен анализ и выбор инструментальной среды для разработки интегрированных OLAP-систем
7 Разработан комплекс методов, алгоритмов и программ для решения типовых задач многомерного анализа данных и поддержки принятия решений в компаниях малого и среднего бизнеса
8 На основе полученных в диссертации теоретических результатов разработана практическая OLAP-система, которая внедрена в оптовых торгово-производственных компаниях, бизнес деятельность которых связана с реализацией металлопродукции и продукции пищевой промышленности.
Методы исследования
В диссертационной работе использованы методы системного анализа, информатики, теории принятия решений, математической логики, теории множеств, многомерного анализа данных, теории представления знаний
Результаты, выносимые на защиту
1 Классификация OLAP-технологии по степени интегрированности компонентных решений
2 Концепция интегрированного подхода к созданию систем многомерного анализа данных и модель интегрированной архитектуры систем OLAP-анализа
3 Методология построения интегрированных OLAP-систем в условиях действия ограничений, свойственных предприятиям малого и среднего бизнеса
4 Доказательство существования логического вывода решений для разреженных гиперкубовых структур
5 Методы аддитивной и неаддитивной декомпозиции гиперкубовых структур для повышения производительности и масштабируемости OLAP-систем и решения проблемы «взрывного» роста объемов данных
6 Метод и алгоритм нелинейного агрегирования данных декомпозированных гиперкубов в условиях пересечения индексов
7 Программная реализация предложенных методов и алгоритмов
8 Результаты внедрения разработанных в диссертации интегрированных OLAP-систем в малом и среднем бизнесе
Научная новизна работы
В диссертации получены следующие новые научные результаты
1 Предложена новая классификация ОЬАР-технологии, учитывающая степень взаимодействия основных компонентов многослойной структуры аналитической системы
2 Обоснован принцип интеграции системы многослойного ОЬАР-анализа на базе интегрированной инструментальной среды разработки приложений, обеспечивающий гибкую сбалансированность ОЬАР-решений и возможность построения компактных, недорогих и эффективных в функциональном отношении систем многомерного анализа данных
3 Сформирована методология синтеза интегрированных ОЬАР-систем на основе
• универсальной модели ОЬАР-объектов фреймового типа,
• многофункционального языка программирования и разработки приложений,
• встроенных внутренних и внешних интерфейсов
4 Введена мера неопределенности логического вывода решений гиперкубовой структурой, получены необходимые и достаточные условия уменьшения неопределенности логического вывода в условиях разреженных гиперкубов, произвольного числа размерностей и градаций шкал размерностей
5 Обоснована возможность решения специфической проблемы «взрывного» роста объемов данных в ОЬАР-системах с помощью методов декомпозиции гиперкубовых структур Получены необходимые и достаточные условия успешности декомпозиции гиперкубов
6 Исследована проблема нарушения целостности агрегирования данных в декомпозированном гиперкубе в результате действия нерегламентированных запросов и предложен эффективный метод решения этой проблемы
7 Построена компактная высокоэффективная интегрированная ОЬАР-система для оптовых торгово-производственных компаний в сфере малого и среднего бизнеса
Практическая ценность работы
Теоретические выводы и результаты диссертационной работы реализованы в виде программной системы многомерного ОЬАР-анализа, с помощью которой менеджеры, финансисты, трейдеры, аналитики компаний малого и среднего бизнеса могут извлекать необходимые знания из больших массивов накапливаемой в базах данных детализированной и слабоструктурированной информации в целях поддержки принятия решений по повышению эффективности и конкурентоспособности бизнеса компаний
На основе разработанной в диссертащи методологии построения интегрированных ОЬАР-систем создан комплекс алгоритмов и программ для многомерного анализа типовых бизнес процессов, осуществляемых оптовыми торгово-производственными предприятиями малого и среднего бизнеса Созданные компактные интегрированные ОЬАР-системы предназначены для широкого класса торгово-производственных компаний разной отраслевой направленности, а эффективность, обоснованность и корректность предлагаемых ОЬАР-решений и разработанных систем подтверждена результатами внедрения в компании по производству и реализации металлопродукции ООО «Металлик и КО» г Одинцово, Московской области и ряде компаний по переработке и реализации пищевых продуктов (2005-2007 годы)
Теоретические и прикладные результаты диссертации внедрены в учебный курс «Многомерный анализ данных и проектирование аналитических систем» и практические занятия на факультете Информационных технологий Университета Н Нестеровой (2006-2007 годы)
Реализация результатов
Результаты диссертации использованы при выполнении проекта 2 44 Программы фундаментальных исследований Президиума РАН «Математическое моделирование и интеллектуальные системы» (2001-2005 годы), проектов 01-04-00386, 01-07-00572 Российского фонда фундаментальных исследований (2004-2007 годы)
Апробация работы
Результаты диссертации и материалы исследований докладывались и обсуждались на 1-й международной конференцш «Системный анализ и информационные технологии (САИТ-2005), Переславль-Залесский, 12-16 сентября 2005 г, 10-й научно-технической конферешии Московской государственной академии приборостроения и информатики, апрель 2007 г, г Москва, 2-й международной конференции «Системный анализ и информационные технологии (САИТ-2007), г Обнинск, Калужской обл, 10-14 сентября 2007 г, на Научной сессии Отделения информационных технологай и вычислительных систем РАН 20 июня 2007 г
Публикации
По материалам диссертации опубликовано б работ (в том числе 3 публикации в ведущих рецензируемых научных изданиях, рекомендованных ВАК, 2 публикации в трудах международных конференций)
Личный вклад соискателя
Результаты, выносимые на защиту, получены автором самостоятельно Личный вклад соискателя в совместно опубликованных работах составляет 1 8 п л
Структура и объем работы
Диссертация состоит из введения, четырех глав, заключения, списка литературы (68 наименований) Общий объем работы составляет 115 стр , включая 13 таблиц и 50 рисунков
СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность работы, формулируется ее цель, представлены научная новизна, полученные результаты и структура диссертации
В первой главе проведен анализ особенностей многомерной обработки данных как интеллектуального процесса извлечения знаний из данных и обобщения детальной слабострукгурированной информации, а также дан обзор основных методологических подходов к построению аналитических систем на основе OLAP-технологии и выделены наиболее важные фундаментальные проблемы, характерные для многомерного анализа данных
OLAP-технология и хранилища данных- это сравнительно недавно, лишь в конце XX века возникшие направления информационной технологии, которые бурно развиваются в настоящее время Впервые концепцию OLAP сформулировал в 1993 г американский ученый Э Кода До появления этих направлений анализ больших объемов накапливаемых данных осуществлялся главным образом с помощью систем транзакционной обработки данных OLTP Режим оперативной обработки транзакций OLTP (On-Line Transaction Processing) применяется в информационных системах организационного управления для отражения актуального состояния предметной области в любой выбранный момент времени Обычно аналитические возможности OLTP-систем сильно ограничены Предоставляя данные из постоянно синхронизируемых (обновляемых) баз данных, транзакционные системы не отслеживают динамику изменения процессов на больших временных промежутках, практически не производят аналитическую обработку данных (за исключением определенных регламентированных расчетов) и, что самое важное, не формируют выводы по имеющимся данным, оставляя эту функцию лицу, принимающему решение В 1990-е годы были сделаны попытки наделить OLTP-системы сложной аналитикой, однако большого
успеха добиться не удалось из-за строгой ориентации таких систем на обработку транзакций и существенного недостатка, связанного с трудоемким негибким программированием аналитических задач
Поэтому в дальнейшем усилия ученых и специалистов были направлены на создание более сложных интеллектуальных методов обработки данных, связанных с извлечением знаний из больших объеме» необработанных данных, а не с простой переработкой одних данных в другие с помощью регламентированных расчетных процедур В результате возникло новое направление, получившее название «бизнес-интеллект» (business intelligence) Под этим названием были объединены такие понятия, как системы поддержки принятия решений (СППР или DSS), аналитические бизнес-приложения масштаба предприятия (Analytical Business Applications), системы многомерного оперативного анализа данных (OLAJP), хранилища и витрины данных (Data Warehouse), системы интеллектуального анализа данных (Data Mining) При этом понятие «системы поддержки принятия решений» расширилось Если прежде в понятие СППР включались в основном компьютерные программы, основанные на моделях выбора и принятия решений, то теперь к ним добавились программные средства, основанные на моделях данных (реляционная модель, многомерная модель, модель добычи данных) и на методах извлечения знаний из массивов взаимосвязанных данных Извлеченные из данных знания имеют как самостоятельное значение для принятия решений благодаря большему уровню структурированности и обобщенности исходной информации, так и упрощают применение моделей выбора, которые очень трудно реализуются на неструктурированных и неподготовленных данных. Таким образом, в настоящее время для анализа данных в масштабе предприятия или корпорации имеется целый арсенал аналитических средств, различающихся по степени извлечения знаний из исходных слабоструктурированных данных Наиболее простым уровнем извлечения знаний обладает технология OLTP - транзакционная обработка данных (с реляционной моделью данных) Более сложный уровень извлечения знаний присущ технологии OLAP- многомерной оперативной обработке данных (с многомерной моделью данных) Использование техники искусственного интеллекта позволяет выйти на наиболее сложный уровень извлечения знаний из данных с помощью технологии Data Mining -интеллектуального анализа данных (с моделями добычи данных) При этом технологии OLTP и OLAP уже тесно взаимодействуют между собой, дополняя друг друга А технология Data Mining пока развивается автономно, переходя постепенно от теории к практическим системам, однако ее сближение с OLAP ожидается в самой ближайшей перспективе Итак, на рубеже XX и XXI веков традиционные методы анализа бизнес деятельности предприятий были дополнены и расширены методами интеллектуального анализа, поэтому в диссертации сделан вывод о важности и актуальности исследования новых подходов к интеллектуальной обработке данных и прежде всего - исследования методологии построения систем многомерного анализа данных на базе OLAP-технологии
Основу OLAP-анализа составляет многомерная модель данных в виде гиперкубовой структуры В ячейках гиперкуба находятся измеренные значения (measures), которые представляют интерес для анализа, а по осям гиперкуба откладываются размерности (dimensions), с помощью которых индексируются данные гиперкуба Многомерная модель значительно сложнее реляционной модели данных, особенно если принять во внимание то, что реляционная модель (двумерная реляционная таблица) является частным случаем гиперкуба Но усложнение структуры модели оправдано благодаря появлению новых свойств - это специфические многомерные операции алгебры отношений, позволяющие осуществлять транспозицию размерностей (dice), выделять различные сечения гиперкуба (slice), консолидировать детальные данные в агрегаты (drill-up), декомпозировать агрегированные данные по разным уровням детализации (drill-down) Именно эти новые многомерные операции явились основой для реализации в OLAP-анализе интеллектуального процесса обобщения исходных разрозненных и слабоструктурированных данных в сжатую и обозримую форму консолидированных знаний Благодаря интеллектуальным особенностям
анализа OLAP-системы стали быстро распространяться на практике Однако усложнение модели данных и интеллектуализация анализа отразились на сложности и стоимости программной реализации OLAP-систем Это, в свою очередь, привело к тому, что качественные OLAP-решения до сих пор доступны лишь предприятиям крупного бизнеса, обладающим соответствующими ресурсами (десятки и сотни тысяч долларов) для поддержки дорогостоящей интеллектуальной обработки данных в масштабе корпорации, способной работать с терабайтными базами и хранилищами данных. В диссертации сделан вывод о том, что более широкое распространение перспективной OLAP-технологии связано с применением ее в секторе малого и среднего бизнеса, который принято считать главной опорой рыночной экономики В этом секторе фактически происходит отторжение новой технологии анализа из-за отсутствия недорогих, компактных и высокоэффективных OLAP-решений В связи с этим важное значение приобретает разработка новых подходов и методологий построения систем интеллектуальной обработки данных с учетом специфики малого и среднего бизнеса
В главе проведен аналитический обзор существующих методологий создания OLAP-сисгем и показано, что OLAP-анализ является многослойной технологией обработки данных, охватывающей несколько различающихся базовых компонентных технологий - обработку данных реляционными СУБД, трансформацию данных в хранилищах, обработку данных в многомерных структурах, интерпретацию результатов многомерного анализа для конечных пользователей с помощью технологии генерации отчетности Каждый слой специфичен по-своему, техника обработки данных в слоях имеет собственную историю развития и дает возможность реализовать концепцию многомерности анализа, опираясь на определенную компонентную технологию и модель данных - будь то электронная таблица, реляционная таблица, генератор отчетов, многомерный гиперкуб Поэтому большая часть существующих методологий построения OLAP-систем сформирована исходя из приоритета определенной компонентной технологии, что приводит к несбалансированным OLAP-решениям и существенной зависимости характеристик систем от свойств выбранного приоритетного компонентного слоя В диссертации сделан вывод о необходимости разработки иной методологии построения OLAP-систем, способствующей ослаблению влияния отдельных компонентных технологий на конечные OLAP-решения и позволяющей разработчика« гибко изменять сбалансированность решений в зависимости от особенностей решаемых прикладных задач Возможность создания такой методологии на базе интегрированного подхода, устраняющего отмеченные недостатки существующих методологий, представлена в последующих главах диссертации
Модификация OLAP-технологии в соответствии с требованиями малого и среднего бизнеса приводит к необходимости исследования фундаментальных проблем, характерных для систем многомерного анализа данных При этом компактные и недорогие OLAP-системы, необходимые для малого бизнеса, больше подвержены влиянию подобных проблем в связи с имеющимися в них существенными ограничениями предельных характеристик программных реализаций в отношении производительности и доступных объемов памяти В главе дан обзор наиболее важных фундаментальных проблем, исследуемых в OLAP-системах и требующих разработки новых методов решения в связи с реализацией предлагаемого в диссертации интегрированного подхода Выделены несколько крупных разделов, в рамках которых концентрируются теоретические исследования OLAP в США Японии и европейских странах
• исследование многомерной модели данных (гиперкуба),
• исследование проблем производительности и масштабируемости OLAP-решений,
• исследование проблем интеллектуального извлечения знаний из массивов необработанных дашых
В России фундаментальные проблемы OLAP начали исследовать лишь в последние годы, в частности, в Институте системного анализа РАН и некоторых высших учебных заведениях Москвы и Санкт-Петербурга
В диссертации поставлены теоретические и прикладные задачи в рамках названных выше разделов и получены решения для класса компактных интегрированных OLAP-систем
На основе обзорных и аналитических материалов первой главы сделаны выводы и сформулированы цели исследования
Во второй главе предложена и исследована методология интегрированного подхода к построению аналитических OLAP-систем Существо методологии составляет концепция интегрированной системы многомерного анализа данных, которая определяет многомерную аналитическую систему как многослойную структуру обработки данных с целостным системным объединением базовых компонентных технологий, представленных в соответствующих слоях обработки данных Эта концепция, во-первых, отражает тот факт, что любая система OLAP-анализа не может существовать в отрыве от основных функциональных компонентных технологий, которые обеспечивают последовательно, слой за слоем, структурирование и представление данных для многомерного анализа, многомерную обработку данных, вывод результатов К таким компонентным технологиям относятся
• базы данных реляционного или иного типа для сбора и хранения исходной информации,
• хранилище данных для преобразования, подготовки и очистки исходных данных, а также представления данных в хронологическом порядке,
• гиперкубовся структура для многомерного анализа данных,
• система генерации отчетов и интерпретации результатов анализа в виде, удобном конечным пользователям
Во-вторых, предлагаемая концепция свидетельствует о возможности построения OLAP-систем с разной степенью интеграции компонентных технологий — от полностью интегрированных целостных систем до наборов слабосвязанных между собой технологических решений
Существующая классификация OLAP-систем по способу хранения детальных и агрегированных данных подразделяет их на реляционные ROLAP, многомерные MOLAP и гибридные HOLAР системы Традиционная классификация, отражая специфику хранения данных, не показывает, как тесно взаимодействуют между собой функциональные компонентные технологии В диссертации предложен новый способ классификации OLAP-систем по степени интегрированное™ компонентных технологий В соответствии с этой классификаций многослойные OLAP-системы разделяются на трикласса
• встроенные OLAP-системы, которые разрабатываются в составе больших корпоративных информационных систем (ERP), интегрируются с ними и не используются отдельно от своих головных ERP систем Примерами являются OLAP решения в составе самых крупных и дорогих ERP корпоративного масштаба, созданных компаниями SAP и PeopleSoft,
• комбинированные или составные OLAP-системы, которые используют независимы: компонентные технологии, подключаемые через стандартные интерфейсы к клиент-серверному ядру многомерного анализа Обработка по слоям в комбинированных системах происходит совершенно автономно, а связь слоев возможна только при наличии дополнительных функций экспорта и импорта данных Примерами составных OLAP являются мощные системы Oracle Express компании Oracle и SQL Server Analysis Services компании Microsoft.
• интегрировечные OLAP системно объединяют компонентные технологии и клиент-серверное ядро анализа с помощью встроенных интерфейсов на основе единой платформы анализа и разработки Интегрированным системам не нужны внешние компонентные технологии (за исключением подсоединений к внешним источникам данных), так как все слои обработки данных реализуются и объединяются собственными средствами внутри интегрированной системы Однако им требуются специальные инструментальные среды, которые могут покрыть функциональность
компонентных технологий Примерами таких инструментальных сред, ориентированных на интегрированные решения, являются Power Play компании Cognos, Business Objects одноименной компании Проведенный в главе анализ этих классов OLAP-систем позволил сделать вывод о том, что класс интегрированных систем предпочтителен для построения OLAP-решений, ориентированных на сектор малого и среднего бизнеса, поскольку он более полно по сравнению с другими классами удовлетворяет требованиям и специфике этого сектора по обеспечению компактности, целостности, низкой стоимости, удобства в разработке и эксплуатации создаваемых прикладных решений
Различие существующих методологий построения OLAP определяется способами реализации концепдаи многомерности в зависимости от приоритета определенной компонентной технологии обработай данных - технологии электронных таблиц, технологаи генерации отчетов, технологии реляционных баз данных, технологии многомерных баз данных В отличие от существующих методологий в диссертации предложена методология построения интегрированных OLAP-систем, в основу которой положена интегрированная инструментальная среда разработки приложений, а не отдельные компонентные технологии Преимуществом такой методологии является независимость основных характеристик OLAP-системы от приоритетности отдельных компонентных технологий и возможность обеспечивать при разработке систем гибкую сбалансированность технологических решений
В рамках предложенной в диссертации методологии построения интегрированных OLAP-систем решены следующие задачи:
• разработаны требования к интегрированным аналитическим системам на основе тестов Э Кодда и FASMI с учетом специфики функционирования систем в малом и среднем бизнесе, которая определяет необходимость «бесшовной» интеграции компонентных технологий, низкую стоимость решений, прозрачность структуры системы для разработчиков и пользователей,
• проведен сравнительный анализ четырех интегрированных платформ и применяемой в них техники интеграции Cognos Power Play компании Cognos , Business Objects компании Business Objects, Bno Query компании Brio Technology , Clever Path Forest&Trees компании Computer Associates На основе анализа сделан выбор инструментальной среды Clever Path Forest&Trees (далее F&T), обладающей наилучшим соотношением по критерию стоимость/функциональное качество и развитой техникой интеграции компонентных технологий,
• разработаны основные принципы и методы интеграции базовых технологий многослойной обработки данных OLAP-систем с использованием таких преимуществ инструментальной среды F&T, как
о возможность построения единой платформы для многомерного анализа данных и разработки приложений на основе универсальной фреймовой модели объектов OLAP Фреймовая модель, являясь базовым строительным блоком аналитической системы, позволяет создать любые объекты в рамках OLAP-технологии, начиная от таблиц баз данных и заканчивая графическими или отчетными объектами, а также сложными процедурными объектами Гиперкубовая структура не является исключением и тоже строится с помощью универсальной модели Эта универсальность обеспечена фреймовой структурой модели, заполнение слогов которой порождает необходимые объекты OLAP-системы Создаваемые объекты принадлежат определенным классам, покрывающим важнейшие функции интегрированной системы - формирование SQL запросов, поддержка математических функций и программных процедур, динамический обмен данными с разнообразными Windows- приложениями Благодаря универсальной фреймовой модели создаются все компонентные технологии, интегрированные с гиперкубовой структурой, при этом по желанию разработчика выбирается реляционная либо многомерная модель данных, или применяются обе модели одновременно,
РогсЯ Ь • С '|к!в, ^Ь'р.Не*«, Т(
о наличие широкого набора встроенных внутренних и внешних интерфейсов. Внутренние интерфейсы обеспечивают структурные свя;у>! объектов аналитически системы, снял, компонентных технологий с «бесшовными» переходами между ними, взаимодействия с внешними программами и приложениями. Внешние интерфейсы связывают универсальную фреймовую структуру с внешними базами данных и иными источниками: о обеспечение автоматизированной разработки при жжений на бате эффективного многофу нкцн о нального языка профаммировання Ямы к программирования определяет и ктефацию системы на логическом уровне и одновременно удовлетворяет требованиям отдельных компонентных технологий. Учшывая разнообразие таких требований, используемый язык профаммиронания обладает функциями
■ языка реляционных и многомерных запросов к базе и хранилищу данных;
■ алгоритмического языка для выпошения разнообразных вычислений;
• процедурного языка, обеспечивающего взаимодействие всех объектов аналитической системы и управление объектами,
■ языка быстрой (автоматизированной) разрабо тки и отладки приложений исследованы особенности процесса синтеза интефнро ванных 01-А Г'-систем и разработаны основные этапы проектирования, связанные с построением баз данных на основе внуфенних или внешних источников информации, созданием хранилища в целях трансформации и подготовки данных для анализа, формированием гиперкубовой структуры для многомерной обработки данных, интерпретацией результатов многомерного анализа для конечных пользователей
На рисунке 1 представлен типовой вид многомерного гиперкуба, синтезированного в соответствии с предложенной методологией.
в
Рисунок I - Многомерный гиперкуб (14 размерностей)
Таким образом, в главе представлен и исследован новый подход к построению систем многомерного анализа данных на основе ОЬАР-технологии, позволяющий синтезировать компакт ные, интефированные и эффективные в функциональном отношении аналитические
системы, удовлетворяющие классу требований, характерных для предприятий малого и среднего бизнеса
В третьей главе исследованы фундаментальные проблемы многомерного анализа данных, возникающие при реализации интегрированного подхода к построению OLAP-систем
Целостность и компактность интегрированных OLAP-систем достигаются за счет определенного компромисса в характеристиках компонентных технологий обработки данных и общей производительности конечных решений То есть чем компактней интегрированная аналитическая система, тем ниже общая производительность конечного решения и предельные характеристики программных реализаций компонентных технологий Это вполне закономерно, поскольку любое экстенсивное усиление характеристик немедленно приводит к повышению стоимости конечных решений и выводит такую OLAP-сисгему из разряда доступных для сферы малого бизнеса Поэтому проблемы, свойственные OLAP-системам, влияют особенно остро на компактные решения и требуют специального исследования Проблема неопределенности вывода решений на разреженных гиперкубах В диссертации рассмотрена важная проблема неопределенности вывода решений с помощью многомерной модели данных - гиперкуба, в условиях разреженности данных гиперкуба и неограниченного числа размерностей и градаций на шкалах размерностей
Совокупность размерностей вместе со шкалами и их значениями задает некоторое многомерное пространство (гиперкуб) исходов, общая размерность которого равна п
П , где к, - число значений по шкале i-ой размерности, (=1
1=1, п,
С помощью тривиального запроса, соответствующего одному значению на каждой шкале размерностей, определяется сечение гиперкуба и вывод результата на самом нижнем уровне детальности информации Вывод результата становится неопределенным, если соответствующая данному сечению ячейка гиперкуба не содержит измеренного значения, что свидетельствует о разреженности гиперкуба Выбор интервал» значений на каждой шкале размерностей определяет покрытие гиперкуба в виде набора сечений, позволяющего обобщать детальную информацию В диссертации введено понятие страты гиперкуба как информативного покрытия, не содержащего в идеальном случае отсутствующих значений
Логарифм гиперкуба исходов представляет энтропию исходного критериального описания процесса генерации множества страт, покрывающих пнвркуб
w0=log2ri£,
Энтропия конечного состояния гиперкуба исходов равна
w=log/,
где г - число различных страт V t, Vr, покрывающих гиперкуб исходов
Информация о наборе сечений Vb Vr , которую необходимо получить, задается
следующей формулой
w w,= log2fl&,- log/
/«1
Введено Определение /
Мерой неопределенности задачи генерации описания страт гиперкуба называется отношение полезной информации к энтропии исходного критериального описания
а .»L.,--
Wo log г Пк, i = l
Исследовано поведение функции а (п, к, г) при некоторых наборах значений ее натуральных аргументов n, k, г При неизменном числе размерностей n=const необходимые и достаточные условия уменьшения меры неопределенности вывода решений дает следующая
Теорема 1
Пусть число градаций по шкалам к и число страт г увеличиваются, соответственно, на величины s>0 и ш>0 ki = к + s , ri = г + m. Тогда для того, чтобы мера неопределенности а (к,, т,) = a (k+s, r+m) была меньше меры неопределенности а (к, г) , необходимо и достаточно выполнения неравенства
a (k+s, r+m) < а (к, г) <-> log2 г log2 (k+s) < log2 (r+m) log2 к
При неизменном числе градаций на шкалах размерностей k = const необходимые и достаточные условия уменьшения меры неопределенности вывода решений дает следующая
Теорема 2
Пусть число критериев n и число страт г увеличиваются, соответственно, на величины q>0 и рХ) ni = n + q, ri=r + p Тогда для того, чтобы мера неопределенности a (nj, ri) = а (n+q, г+р) была меньше меры неопределенности а(п,г), необходимо и достаточно выполнения соотношения
a (n+q, г+р) < а (п, г) <-> iя < (1 + р/г)"
Доказанные теоремы позволили обосновать возможность снижения неопределенности вывода решений в условиях разреженного гиперкуба путем увеличения числа информативных покрытий гиперкуба, несмотря на увеличение числа размерностей и градаций на шкалах размерностей
Проблема «взрывного» роста объема данных при мюгомерном OLAP-анализе Хранилища данных и аналитические OLAP системы предназначены для анализа, систематизации и обобщения детальных данных, поэтому они могут включать полный объем детальных данных, содержащихся в базах-источниках, а также могут увеличивать объем данных в результате денормализации и дублирования части детальных данных, и, кроме того, объем данных может расти при добавлении к детальным данным агрегированной информации Этим объясняется ускоренный рост объемов данных в OLAP структурах по сравнению с темпом увеличения объемов исходных баз данных Нередко для обозначения такого явления используют термин «взрывной» характер объемов данных в гиперкубах Ускоренный рост объемов данных резко снижает производительность многомерного анализа и ограничивает масштабируемость систем В диссертации проведено исследование разных стратегий повышения производительности обработки запросов в реляционных хранилищах данных и аналитических OLAP-системах в условиях быстрого роста объема обрабатываемых данных и при характерном для компактных решений отсутствии встроенных механизмов повышения производительности и масштабируемости систем Рассмотрены стратегии
• разделения данных по актуальности использования,
• секционирования таблицы фактов хранилища и гиперкубовой структуры на секции и подкубы меньшего размера,
• организации параллельной обработки запросов
На базе вычислительного эксперимента с использованием реальных данных для ЯОЬАР архитектуры, построенной в среде Б&Т, проведен сравнительный анализ упомянутых стратегий повышения производительности и масштабируемости В зависимости от способа наложения ограничений по памяти для табличного представления выделены варианты 5-секционной и 13-секционной таблицы фактов хранилища По результатам анализа сделан вывод о том, что наибольший интегральный эффект повышения производительности и масштабируемости дает комбинированная стратегия, сочетающая стратегии секционирования и параллельной обработки секций, при этом доступный объем хранилища увеличился пропорционально числу секций таблицы фактов, а производительность запросов увеличилась в 9,37 раза - для 5-секционной таблицы фактов и в 15 раз - для 13-секционной таблицы Показано также, что специфика многомерного анализа не позволяет непосредственно переносить методы секционирования таблицы фактов на гиперкуб Это связано с различием процессов индексирования данных гиперкуба и реляционных таблиц Поэтому в главе исследованы условия индексирования без пересечения и с пересечением индексов и соответствующие им методы аддитивной и неаддитивной декомпозиции гиперкубовых структур С помощью введенной мультипликативной меры сложности Ц.2) декомпозиционного решения 7.
где с = const > 0, а, > 1, 1 = 1, , к, к- число размерностей, п, - число градаций на шкалах размерностей, доказано следующее утверждение Теорема 3
Предположим, что задача Z допускает декомпозицию на г подзадач Zi, ,Z„ i = 1, ,г, г > 2, Z, eF(Z) Пусть для любых j,ss{1, ,г} множество индексов на шкалах размерностей гиперкуба Н^, используемых для решения задач Z,, Zs, не пересекаются Тогда для сложности L(Zi, ,Z,) декомпозиционного способа решения задачи Z справедливо следующее неравенство L(Zi, ,Z,) < L°(Z)
Теорема 3 показывает, что декомпозиция (Zb ,Zr) решения задачи Z уменьшает сложность ее решения L(Z) вплоть до значения L°(Z), когда декомпозиция становится успешной То есть стратегия секционирования гиперкуба на основе аддитивной декомпозиции обеспечивает успешное решение задачи Z независимо от объема данных на входе гиперкуба, что позволяет применять такую стратегию в условиях быстрого роста объема данных хранилища и даже при «взрывном» росте данных в OLAP-системах
В более сложном случае неаодитивной декомпозиции с помощью меры сложности L(Z„) декомпозиционного решения Zm
где / - натуральное число, определяющее пересечение индексов, /< п, ш = 1, 2, , М - число вариантов разбиения значений на шкале размерностей, найдены условия уменьшения сложности декомпозиционного решения для частного случая декомпозиции гиперкуба на два подкуба Показано, что неаддитивная декомпозиция гиперкуба может приводить как к уменьшению, так и к увеличению сложности решения аналитических задач Это говорит о том, что только в аддитивном случае можно применять одинаковые стратегии секционирования для хранилища данных и гиперкубов Во всех остальных случаях необходима раздельная проверка сложности декомпозиционного решения для таблицы фактов и гигеркуба
Проблема нарушения иелостности многомерных данных в условиях действия неуегламентированных запросов к гиперкубу
OLAP-технология возникла как альтернатива традиционным методам анализа данных, основанным на регламентированных SQL-запросах к реляционной БД Главное преимущество OLAP заключается в широкой возможности формирования нерегламентированных запросов к аналитической БД Но, с теоретической точки зрения, неограниченная возможность формировать нерегламенгированные запросы к OLAP гиперкубам может при определенных условиях приводить к сложным проблемам, связанным с обеспечением целостности многомерных данных Подобная проблема возникает при использовании методов аддитивной декомпозиции гиперкубовой структуры на подкубы меньшего размера В этом случае нерегламентированный запрос, обращенный к полному гиперкубу, сначала обрабатывается подкубами, а результаты подкубов консолидируются в общий результат При нерегламентированных запросах индексирование данных гиперкуба становится произвольным, изменяется от запроса к запросу и может внести погрешности в процедуру консолидации расчетных результатов подкубов В диссертации подробно исследована представленная проблема и разработан новый метод ее решения, исключающий нарушение целостности данных, несмотря на неаддитивное индексирование аддитивно декомпозированных гиперкубов Проведен анализ условий индексирования данных в подкубах и доказано утверждение, позволяющее выявлять неискаженные подмножества данных Xg« и потенциально дефектные подмножества данных Х'яе в результате пересечения индексов в следующем виде
I,, - х\х = х\ Û< U ( хПх?) >
где п- число декомпозированных подкубов, X - исходный гиперкуб,
X = A" „U АГ .СЛГ-ЛЛГ =
В соответствии с полученными условиями разработан алгоритм многомерного
Рисунок 2 - Структура алгоритма многомерного агрегирования данных
Разработанный алгоритм проверен при решении конкретных прикладных задач и позволяет применять удобный способ аддитивной декомпозиции гиперкубовой структуры в условиях действия ¡«регламентированных запросов пользователей, приводящих к леаддитнвному индексированию данных гиперкуба Эффективность метода иллюстрируется на примере решения распространенного класса задач передачи ресурсов по контрактам, к которым относятся задачи продажи и покупки товаров, задачи лизинга и аренды оборудования или помещений, и многие другие задачи и бизнес-процессы, реализуемые на контрактной основе
В четвертой главе представлена программная реализация ОЬАР-снсгемы на базе методологии и теоретических результатов, полученных в предыдущих главах работы Целью разработан ¡((го в диссертации комплекса алгоритмов и программ является построение компактной интегрированной аналитической ОЬАР-системы для решения типовых задач гибкого прецизионного сегментирования клиентской базы оптовых торгово-промышленных компаний, относящихся к сфере среднего и малого бизнеса Многомерный анализ и сегментирование клиентской базы необходимы на разных этапах бизнес деятельности компании или а разные моменты контактного взаимодействия сотрудников компании с клиентами, например, в процессе заключения или исполнения контракта, во время распределения товарного запаса, в процессе отгрузки продукции, при оплате заказанного товара. В диссертации разработана общая модель потоков данных оптовой торгово-промышленной компании и типовые приложения по многомерному анализу данных на основе интегрирсеанной ОЬАР -системы (рисунок 3).
V оы .: ■ I: !Ш ■ к л пш
14 II I ■ ж!
ОЕЩАЯ ^ОДСЛЬЛОТОКйвДЛННЫХОПТОРОСЯоггСВО-ПРСМЫШ-ИРВОЙ ГО\Т1ЭЛН№1 П ИРОШССОВ ЛВЛ-1НП1Ч1СкОПй£ГЛ№ТКЛ^ННЬ4Х оиГСКСТЕМОа
вв
_
о-
Рисунок 3 - Модель ттоков данных оптовой торгово-промышленной компании.
В соответствии с моделью потоков данных разработаны следующие программны; модули для многомерного анализа и сегментирования клиентской базы:
• модуль анализа заказов и исполнения контрактов,
• модуль анализа распределения складских затасов,
• модуль анализа текущих отгрузок товара клигшам;
• модуль анализа текущей оплаты за товар;
• модуль анализа текущей и просроченной задолженности клиентов.
Пример структуры программного модуля анализа текущей и просроченной задолженности клиентов представлен на рисунке 4
Рисунок 4 - Структура программного модуля «Анализа задолженности клиентов»
Результаты работы модулей иллюстрируются примерами, которые относятся к оптовой торгово-промышленной компании в области продажи и переработки пищевой продукции, имеющей свыше 5000 клиентов, номенклатуру продукции свыше 40 наименований, 10-20 ежедневно заключаемых контрактов с клиентами и поставщиками, ежемесячный оборот компании превышает $ 10 млн Модули используются для решения задач анализа отдельных бизнес-процессов, также с их помощью решаются более комплексные задачи анализа, объединяющие все или несколько модулей В частности, все модули применены при решении задачи обеспечения равномерности продажи товара клиентам на основе договоров, заключаемых между компанией и ее заказчиками
Созданная типовая информационно-аналитическая система была внедрена в нескольких промышленных комплексах, специализирующихся в области производства и оптовой торговли пищевой продукцией, и к настоящему времени эксплуатируется в течение 3-х лет На примере выбранной фирмы, за это время были получены следующие результаты, свидетельствующие об эффективности разработанной ОЬАР-системы
• рост клиентской базы более чем в 2 раза с 2300 до 5000,
• повышение оборота фирмы на 3040%,
• увеличение объемов заключаемых сделок на 15%,
• повышение лояльности клиентов в результате ежегодного увеличения постоянных заказчиков на 7-10%,
• полный охват персонализированным обслуживанием всех наиболее ценных клиентских сегментов,
• снижение уровня просроченной задолженности клиентов на 40-50%,
• рост отношения завершаемых и не завершаемых сделок на 5-7%,
• разработанные в диссертации методы повышения производительности и масштабируемости ОЬАР-системы позволили увеличить объем анализируемых данных, эквивалентный 1,5 годам хронологии работы компании, до полного объема рабочей базы данных, эквивалентного 10 годам, при этом на порядок увеличена производительность системы
В 2006 году результаты диссертации были внедрены в учебный процесс на кафедре «Информационные технологии» Университета Н Нестеровой (г Москва) для проведения
практических занятий студентов по курсу «Многомерный анализ данных и проектирование аналитических систем»
В 2007 году разработаннье в диссертации типовые ОЬАР-решения были внедрены в компании по производству и реализации металлопродукции ООО «Металлик и КО» г Одинцово, Московской области
В заключении изложены основные результаты и выводы по диссертационной работе
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1 Предложен новый способ классификацж ОЬАР-технологии, учитывающий степень взаимодействия основных компонентов многослойной структуры аналитической системы и позволивший выделить для исследования класс интегрированных ОЬАР-систем
2 Обоснован принцип интеграции компонентных технологий в составе многослойного ОЬАР-анализа, обеспечивающий гибкую сбалансированность ОЬАР-решений и возможность построения компактных, недорогих и эффективных в функциональном отношении систем многомерного анализа данных, ориентированных на обширный класс предприятий малого и среднего бизнеса
3 Сформирована и исследована методология построения компактных интегрированных систем многомерного ОЬАР-анализа Основу методологии составляет интегрированная инструментальная среда разработки приложений, позволяющая создавать системно целостные ОЬАР-решения Преимуществом такой методологии является независимость основных характеристик ОЬАР-системы от приоритетности отдельных компонентных технологий и возможность обеспечивать при разработке систем гибкое сочетание технологических решений
4 На базе предложенной в диссертации методологии разработан комплекс методов, алгоритмов и программ для решения типовых задач многомерного анализа данных и поддержки принятая решений в компаниях малого и среднего бизнеса Эффективность разработанных методов подтверждена с помощью вычислительных экспериментов при работе с реальными базами данных.
5 На основе полученных в диссертации теоретических результатов разработана практическая ОЬАР-система, которая внедрена в оптовых торгово-производственных компаниях, бизнес деятельность которых связана с реализацией металлопродукции и продукции пищевой промышлгнности
Результаты диссертации внедрены в учебные процессы подготовки инженерных кадров в системе высшего образования
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ
1 ИМ Макаров, В 3 Рахманкулов, А А Ахрем, И О Ровкин Построение СППР на основе ОЬАР-технологии // Информационные технологии и вычислительные системы, № 2005, с 19-30
2 ИМ Макаров, В 3 Рахманкулов, А А Ахрем, И О Ровкин Исследование свойств гиперкубовых структур в ОЬАР-системах // Информационные технологии и вычислительные системы, № 2,2005, с4-9
3 Ахрем А А, Макаров И М, Рахманкулов В 3, Ровкин И О Свойства гиперкубовых структур в ОЬАР-системах // Труда 1-й международной конференции «Системный анализ и информационные технологии» САИТ-2005, 12-16 сентября 2005 г, Переславль-Залесский, т 2, -М КомКнига, 2005, с 56-61
4 ИМ Макаров, В 3 Рахманкулов, А А Ахрем, И О Ровкин Повышение производительности и масштабируемости реляционных хранилищ данных и ОЬАР-систем // Информационные технологии и вычислительные системы, № 3, 2007, с 55-66
5 И О Ровкин Интегрированный подход к построению ОЬАР-систем // «Новые информационные технологии» сборник трудов десятой всероссийской научной конференции, 19-20 апреля 2007 г Под редакцией АЛ Хныкина, АЮВыжигина -Москва, МГУПИ, 2007, с 128-134
6 ИМ Макаров, В 3 Рахманкулов, И О Ровкин Метод аддитивной декомпозиции ОЬАР-гиперкубов в условиях неаддитивного индексирования данных.// Труды 2-й международной конференции «Системный анализ и информационные технологии» САИТ-2007,10-14 сентября 2007 г, г Обнинск, т 1, -М издательство ЛКИ, 2007, с 46-49
ЛР № 020418 от 08 окпбря 1997 г
Подписано к печати 24 09 2007 г Формат 60x84 1/16 Объем 1,25 п л Тираж 100 экз Заказ № 181
Московский государственный университет приборостроения и информатики
107996, Москва, ул. Стромынка, 20
Оглавление автор диссертации — кандидата технических наук Ровкин, Игорь Олегович
ВВЕДЕНИЕ.
ГЛАВА 1. ХАРАКТЕРИСТИКА ОСОБЕННОСТЕЙ И ПРОБЛЕМ МНОГОМЕРНОГО АНАЛИЗА ДАННЫХ.
1.1. Бизнес-интеллект и СППР.
1.2. OLTP и анализ данных на основе транзакционных систем.
1.3. Подготовка данных для анализа и хранилища данных.
1.4. Аналитические средства.
1.5. Этапы развития многомерного анализа данных.
1.6. Функциональность OLAP-систем.
1.7. Классификация OLAP-систем по способам хранения детальных и консолидированных данных.
1.8. Проблемы исследования технологии OLAP-анализа, ориентированной на малый и средний иизнес.
ГЛАВА 2. МЕТОДОЛОГИЯ ИНТЕГРИРОВАННОГО ПОДХОДА К ПОСТРОЕНИЮ АНАЛИТИЧЕСКИХ OLAP-СИСТЕМ.
2.1. Классификация аналитических OLAP-систем по степени интеграции компонентных технологии.
2.2. Основные требования к интегрированным OLAP-системам и выбор инструментальной среды для построения интегрированных аналитических систем.
2.3. Метод интеграции компонентных технологий OLAP на основе универсальных фреймовых структур.
2.4. Функциональные возможности языка программирования для разработки интегрированных OLAP-систем.
2.5. Интеграция на основе встроенных внутренних и внешних Интерфейсов.
2.6. Этапы проектирования интегрированной OLAP-системы.
2.6.1. Формирование источников данных.
2.6.2. Подготовка данных для многомерной обработки.
2.6.3. Создание гиперкубовой структуры.
2.6.4. Вывод результатов многомерного анализа данных.
ГЛАВА 3. ИССЛЕДОВАНИЕ ФУНДАМЕНТАЛЬНЫХ ПРОБЛЕМ МНОГОМЕРНОГО OLAP-АНАЛИЗА.
3.1. Анализ свойств неопределенности вывода решений гиперкуба.
3.1.1. Базовые свойства многомерной модели данных.
3.1.2. Исследование свойств неопределенности вывода решений с помощью гиперкубовых структур.
3.2. Анализ влияния «взрывного» роста объема данных на производительность и масштабируемость гиперкубовых структур.
3.2.1. Стратегии повышения производительности и масштабируемости хранилищ данных.
3.2.1.1. ILM-стратегия повышения производительности и масштабируемости хранилищ данных.
3.2.1.2. Стратегия секционирования таблиц и индексов хранилища.
3.2.1.3. Стратегия параллельного исполнения запросов.
3.2.2. Анализ свойств декомпозируемое™ гиперкубовых структур.
3.2.2.1. Аддитивная декомпозиция гиперкуба многомерных данных.
3.2.2.2. Неаддитивная декомпозиция гиперкуба многомерных данных.
3.2.3 Сравнительный анализ стратегий повышения производительности и масштабируемости OLAP-систем.
3.3. Метод аддитивной декомпозиции гиперкубов в условиях неаддитивного индексирования данных.
3.3.1. Анализ условий индексирования для аддитивной декомпозиции гиперкубовой структуры.
ГЛАВА 4. КОМПЛЕКС АЛГОРИТМОВ И ПРОГРАММ ИНТЕГРИРОВАННОЙ OLAP-СИСТЕМЫ ДЛЯ ПРЕДПРИЯТИЙ ТОРГОВЛИ В СФЕРЕ МАЛОГО И СРЕДНЕГО БИЗНЕСА.
4.1. Типовые бизнес-процессы в подсистеме сбыта промышленно-торгового комплекса.
4.2. Программные модули OLAP-системы для решения задач прецизионного сегментирования клиентской базы.
4.3. Поддержка принятия решений по обеспечению равномерности отгрузок товара заказчикам.
4.4. Показатели эффекта от применения разработанной информационно-аналитической системы.
4.5. Внедрение интегрированных OLAP-решений.
Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Ровкин, Игорь Олегович
Актуальность работы.
Повсеместное распространение компьютеров на производстве, в науке, бизнесе, образовании, быстрое увеличение числа информационных систем масштаба предприятия во всем мире, широкий охват компьютерными средствами автоматизации самых разнообразных технологий, отраслевых комплексов, финансовых структур, международных корпораций, предприятий малого, среднего и крупного бизнеса - все это привело к накоплению, хранению и обработке огромных объемов информации, от оперативности и качества анализа которой во многом стала зависеть выживаемость компаний в условиях острой рыночной конкуренции.
Характерно, что большие и быстро растущие объемы информации пополняются главным образом за счет «сырых» и необработанных данных, из которых трудно извлечь полезную информацию при отсутствии современных аналитических программных средств, способных работать с большими объемами данных и извлекать из них ценные знания, помогающие принимать важные решения управленческого характера. Поэтому проблема эффективного извлечения знаний из быстро накапливающихся массивов необработанных данных становится все более актуальной по мере роста объемов информации, используемой предприятиями п компьютерном виде.
Повышение вычислительной мощности компьютеров способствует ускорению обработки больших объемов данных, но этого недостаточно для извлечения знаний, поскольку знания как более сложный вид информации получают с помощью специальных интеллектуальных методов обработки данных, имитирующих процессы мышления человека. В настоящее время важным новым и перспективным направлением в интеллектуальном извлечении знаний из данных является многомерный OLAP-анализ (аббревиатура по названию On-Line Analytical Processing переводится как многомерный оперативный анализ данных) [5, 57], который базируется на интеллектуальном процессе обобщения детализированных данных и позволяет получать знания из консолидированных по разным аспектам анализа взаимосвязанных фрагментов информации. Благодаря такой интеллектуальной особенности OLAP-анализ получил в последние годы широкое распространение в практических приложениях, так как он дает возможность аналитикам и менеджерам легко работать с огромными объемами исходных данных, переводя их в очень сжатую, наглядную и синтезированную форму, по существу, в форму извлеченных из данных знаний.
Однако, с позиций построения систем OLAP-анализа, интеллектуализация методов анализа, к сожалению, сопровождается усложнением моделей, алгоритмов, программ и разрабатываемых аналитических систем, что несомненно отражается на стоимости программных продуктов и затратах, связанных с их внедрением и эксплуатацией. Поэтому в полной мере воспользоваться преимуществами OLAP-анализа пока могут только компании крупного бизнеса, обладающие необходимыми ресурсами для поддержки подобных усложненных и дорогих аналитических решений, способных работать с терабайтными базами и хранилищами данных. Более широкое распространение этой перспективной информационной технологии на сектор малого и среднего бизнеса сдерживается из-за отсутствия недорогих, компактных и высокоэффективных аналитических систем на основе технологии OLAP, ориентированных на небольшие предприятия с ограниченными объемами баз данных, для которых первостепенное значение имеют простота и удобство работы с интеллектуальными процессами обработки данных, а не необходимость углубляться в специфику технологии работы со сверхбольшими объемами данных.
Из сказанного выше следует, что на современном этапе развития OLAP-анализа актуальна проблема исследования методологии построения систем многомерного анализа данных для сектора малого и среднего бизнеса, а также создание новых подходов к интеллектуальной обработке данных на основе OLAP-технологии с учетом специфики задач, решаемых в малом бизнесе.
Целью работы является формирование и исследование методологии построения компактных интегрированных систем многомерного OLAP-анализа, ориентированных на малый и средний бизнес, а также разработка комплекса алгоритмов и программ для реализации интегрированного подхода к OLAP-технологии и решения задач интеллектуальной обработки данных в условиях действия ограничений, характерных для малого бизнеса.
Для достижения этой цели в работе решены следующие задачи:
1. Выполнен анализ существующих методологий и методов построения аналитических систем многомерной обработки данных.
2. Предложена новая классификация систем многомерного OLAP-анализа по степени интегрированности компонентных технологий.
3. Разработаны концепция и принципы интегрированного подхода к построению архитектуры OLAP-систем.
4. Сформирована и исследована методология построения компактных интегрированных систем многомерного OLAP-анализа, ориентированных на малый и средний бизнес.
5. Исследованы фундаментальные свойства многомерных моделей данных в виде гиперкубовых структур и проблемы теоретического и прикладного характера, возникающие в многомерном анализе в связи с реализацией интегрированного подхода.
6. Проведен анализ и выбор инструментальной среды для разработки интегрированных OLAP-систем.
7. Разработан комплекс методов, алгоритмов и программ для решения типовых задач многомерного анализа данных и поддержки принятия решений в компаниях малого и среднего бизнеса.
8. На основе полученных в диссертации теоретических результатов разработана практическая OLAP-система, которая внедрена в оптовых торгово-производственных компаниях, бизнес деятельность которых связана с реализацией металлопродукции и продукции пищевой промышленности.
Структура работы
Диссертация состоит из введения, четырех глав, заключения, списка литературы. Во введении обоснована актуальность темы диссертации и поставлена общая цель работы.
Заключение диссертация на тему "Методика проектирования интегрированных программных систем многомерного анализа данных"
ВЫВОДЫ ГЛАВЫ 4
1. На основе разработанной в диссертации методологии построения интегрированных OLAP-систем создан комплекс алгоритмов и программ для многомерного анализа типовых бизнес процессов, осуществляемых оптовыми торгово-производственными предприятиями малого и среднего бизнеса. Разработана общая модель потоков данных оптовой торгово-промышленной компании и типовые приложения по многомерному анализу данных на основе интегрированной OLAP-системы.
2. С помощью комплекса алгоритмов и программ многомерного анализа разработана информационно-аналитическая OLAP-система, которая была внедрена в нескольких промышленных комплексах, специализирующихся в области производства и оптовой торговли пищевой продукцией, а также в компании по производству и реализации металлопродукции ООО «Металлик» г. Одинцово, Московской области. Результаты внедрения подтвердили высокую эффективность преложенных в диссертации теоретических и прикладных решений.
3. Полученные в диссертации результаты внедрены в учебный процесс на кафедре «Математическое обеспечение вычислительных систем» факультета Информационные технологии Университета Н.Нестеровой, г. Москва.
ЗАКЛЮЧЕНИЕ
В диссертации изложены научно-обоснованные теоретические и программные разработки, обеспечившие решение актуальной научной и практической задачи -построения компьютерных интегрированных систем многомерного анализа данных и поддержки принятия решений на основе OLAP-технологии, ориентированных на широкий класс предприятий малого и среднего бизнеса.
В диссертации получены следующие основные результаты:
1. Проведен анализ современных методов обработки информации в базах данных и хранилищах, а также методов построения систем поддержки принятия решений на основе многомерного OLAP-анализа, показавший актуальность исследования и развития этого перспективного направления информационной технологии, связанного с интеллектуализацией обработки больших объемов слабоструктурированных данных.
2. Предложен новый способ классификации OLAP-технологии, учитывающий степень взаимодействия основных компонентов многослойной структуры аналитической системы и позволивший выделить для исследования класс интегрированных OLAP-систем.
3. Обоснован принцип интеграции компонентных технологий в составе многослойного OLAP-анализа, обеспечивающий гибкую сбалансированность OLAP-решений и возможность построения компактных, недорогих и эффективных в функциональном отношении систем многомерного анализа данных, ориентированных на обширный класс предприятий малого и среднего бизнеса.
4. Сформирована и исследована методология построения компактных интегрированных систем многомерного OLAP-анализа. Основу методологии составляет интегрированная инструментальная среда разработки приложений, позволяющая создавать системно целостные OLAP-решения. Преимуществом такой методологии является независимость основных характеристик OLAP-системы от приоритетности отдельных компонентных технологий и возможность обеспечивать при разработке систем гибкое сочетание технологических решений.
5. Исследованы фундаментальные свойства многомерных моделей данных в виде гиперкубовых структур и проблемы, возникающие в многомерном анализе в связи с реализацией интегрированного подхода. Получены теоретические результаты для эффективного решения следующих проблем: проблемы снижения неопределенности логического вывода результатов для разреженных гиперкубовых структур, проблемы преодоления «взрывного» роста объемов многомерных данных с помощью методов декомпозиции многомерных моделей данных, проблемы устранения нарушений целостности многомерных данных в результате действия нерегламентированных запросов к гиперкубу.
6. На базе предложенной в диссертации методологии разработан комплекс методов, алгоритмов и программ для решения типовых задач многомерного анализа данных и поддержки принятия решений в компаниях малого и среднего бизнеса. Эффективность разработанных методов подтверждена с помощью вычислительных экспериментов при работе с реальными базами данных.
7. На основе полученных в диссертации теоретических результатов разработана практическая OLAP-система, которая внедрена в оптовых торгово-производственных компаниях, бизнес деятельность которых связана с реализацией металлопродукции и продукции пищевой промышленности.
8. Результаты диссертации внедрены в учебные процессы подготовки инженерных кадров в системе высшего образования.
Библиография Ровкин, Игорь Олегович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Арсеньев С.Б., Бритков В.Б., Маленкова Н.А. Использование технологии анализа данных в интеллектуальных информационных системах.// В кн.: Управление информационными потоками. -М.: УРСС, ИСА РАН,2002, с. 47-68.
2. Архипенков С. ORACLE Express OLAP. М.: Диалог МИФИ, 2000,320 с.
3. Архипенков С.Я. Как добываются знания. Применение технологии хранилищ данных и оперативного анализа в банковских системах поддержки принятия решений.// Банковские технологии, №2,1998.
4. Архипенков С., Голубев Д., Максименко О. Хранилища данных. От концепции до внедрения.- М.: ДИАЛОГ МИФИ, 2002, 528 с.
5. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. СПБ: БХВ-Петербург, 2004, 336 с.
6. Борк Джеймс. «Увеличение прибыли с помощью аналитических решений»// «Computerworld» 06/2001.
7. Бритков В.Б., Смирницкий А.В. Системный анализ основных направлений разработки комплексных корпоративных систем управления.// В кн.: Управление информационными потоками. -М.: УРСС, ИСА РАН,2002, с. 85-98.
8. Буров К. Обнаружение знаний в хранилищах данных. // Открытые системы, №5-6, 1999.
9. Вайдьнатха Г.К., Дешпанде К., Костелак Д. OraclelOl: настройка производительности. -М.: «Лори», 2003,407 с.
10. Вьейра P. SQL Server 2000. Программирование в 2 ч,- М.: БИНОМ. Лаборатория знаний, 2004, 807 с.
11. Гоппа В.Д. Введение в алгебраическую теорию информации. -М.: Наука, 1995.
12. Грешилов А.А. Статистические методы принятия решений. -М.: Радио и связь, 1998.
13. Дейт К.Дж. Введение в системы баз данных. 7-е изд. М.: «Вильяме», 2001.
14. Дюк В., Самойленко A. Data mining: учебный курс. -Спб.: Питер, 2001.
15. Корнеев В.В., Гареев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. -М.: «Нолидж», 2000,352 с.
16. Луни К., Терьо М. и эксперты TUSC. Oracle9i, настольная книга администратора. ~М.: «Лори», 2004, 748 с.
17. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных.// СУБД, №3,1997, с.30-40.
18. Макаров И.М., Рахманкулов В.З., Ахрем А.А., Ровкин И.О. Построение СППР на основе OLAP-технологии. // Информационные технологии и вычислительные системы, № 1,2005, с.19-30.
19. Макаров И.М., Рахманкулов В.З., Ахрем А.А., Ровкин И.О. Исследование свойств гиперкубовых структур в OLAP-системах.// Информационные технологии и вычислительные системы, № 2,2005, с А—9.
20. Мартин Н., Ингленд Дж. Математическая теория энтропии. ~М.: Мир, 1988.
21. Потгитер Й. Масштабируемость OLAP-данных. IntersoftLab, 2006. http://www.citcity.ru
22. Саймон А. Обработка транзакций.// СУБД, №2,1977, с.70-82.
23. Сахаров А.А. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server)// СУБД, №3,1996.
24. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Т.1: Пер. с англ.- М.: «Вильяме», 2001,400 с.
25. Способы оптимизации работы Хранилищ данных. IntersoftLab, 2006. http://www.intersoftlab.ru
26. Тихонов А.Н., Цветков В.Я. Методы и системы поддержки принятия решений.-М.: МАК-ПРЕССЮ, 2001.
27. Трахтенгерц Э.А. Компьютерная поддержка принятия решений.-М.: СИНЕГ, 1998.
28. Трофимова Л.А., Трофимов В.В. Управленческие решения (методологические аспекты).-СПб.: Изд-во СПбГУЭФ, 2000.
29. Федоров А., Елманова Н. Введение в OLAP-технологии Microsoft. М.: Диалог МИФИ, 2002,268 с.
30. Холл К. Интеллектуальное извлечение информации из транзакций, 2001, http://www.OLAP.ru
31. Хэпгуд Ф. Системы поддержки принятия решений (СППР) стали важнейшими инструментами бизнеса, 2001, http:// www.OLAP.ru
32. Шеремет И.А. Интеллектуальные программные среды для АСОИ. -М.: Наука, 1994.
33. Эдельштейн X. Битовые массивы ускоряют обработку запросов к информационным хранилищам// Компьютеруик, 28 (234) 1996.
34. Ben Messaoud R. Loudcher Rabaseda S. Boussaid O. Missaoui R. Enhanced mining of association rules from data cubes.// Proceedings of the 9th ACM international workshop on Data warehousing and OLAP, 2006, p. 11-18
35. Berry M., Linoff G., Mastering Data Mining, John Wiley & Sons, 2000.
36. Body M., Miquel M., Bedard Y. Tchounikine A. Handling Evolutions in Multidimensional Structures.// DOLAP '05, November 4-5,2005, Bremen, Germany.
37. Cuzzocrea A. Providing Probabilistically-Bounded Approximate Answers to Non-Holistic Aggregate Range Queries in OLAP. // DOLAP '05, November 4-5, 2005, Bremen, Germany.
38. Dehne F., Eavis Т., RauChaplin A. Parallel Querying of ROLAP Cubes in the Presence of Hierarchies. // DOLAP '05, November 4-5,2005, Bremen, Germany.
39. Demarest Marc. Building The Data Mart // DBMS July 1994 v7, n8, p44(7).
40. Furtado P. Experimental evidence on partitioning in parallel data warehouses.// Proceedings of the 7th ACM international workshop on Data warehousing and OLAP,2004, p. 23-30.
41. Golfarelli M., Rizzi S., Proli A. Designing what-if analysis: towards a methodology.// Proceedings of the 9th ACM international workshop on Data warehousing and OLAP, 2006, p. 51-58.
42. Han J., Kamber M., Data mining: concepts and techniques, Morgan Kaufmann, San Francisco, 2001.
43. Horner J., Song I., Chen P. An analysis of additivity in OLAP systems.// Proceedings of the 7th ACM international workshop on Data warehousing and OLAP, 2004, p. 8391.
44. Inmon W.H., Building the Data Warehouse, John Wiley & Sons, New York, 1996.
45. Inmon W.H., Rudin K., Buss C.K., Sousa R., Data Warehouse Performance, John Wiley & Sons, New York, 1999.
46. Inmon W.H., Zachman J., Geiger J. Data Stores, Data Warehousing, and the Zachman framework. McGraw-Hill, 1997.
47. Jones M., Song I. Dimensional modeling: identifying, classifying & applying patterns.// Proceedings of the 8th ACM international workshop on Data warehousing and OLAP,2005, p.29-38.
48. Kimball R., Merz R., The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse, John Wiley & Sons, New York, 2000.
49. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? Tandem Computers Inc., 1996.
50. Parsaye K. A Characterization of Data Mining Technologies and Processes // The Journal of Data Warehousing.- 1998.-1
51. Пендс H. Анализ рынка OLAP. http://www.olapreport.com.
52. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E.F.Codd, S.B.Codd, C.T. Salley, E.F.Codd & Associates, 1993.
53. Rud O.C., Data Mining Cookbook: Modeling Data for Marketing, Risk and Customer Relationship Management, Wiley & Sons, 2000.
54. Stockinger K. , Wu K., Arie Shoshani A. Strategies for processing ad hoc queries on large data warehouses.// Proceedings of the 5th ACM international workshop on Data Warehousing and OLAP, 2002, p. 72-79.
55. Swaminathan G. Strategies for Partitioning Relational Data Warehouses in Microsoft SQL Server, 2005. http://www.microsoft.com.
56. Theodoratos D. Exploiting hierarchical clustering in evaluating multidimensional aggregation queries.// Proceedings of the 6th ACM international workshop on Data warehousing and OLAP, 2003, p. 63-70.
57. Thomsen E. OLAP Solutions. John Wiley & Sons, Inc. 2002.
58. Tiwana A., Essential Guide to Knowledge Management, The E-Business and CRM Applications, Prentice Hall, 2000.
59. Todman C., Designing a Data Warehouse: Supporting Customer Relationship Management, Prentice Hall, 2001.
60. Watson H., Gray P. Decision Support in the Data Warehouse. Prentice-Hall, 1997.
61. Welbrock P.R. Strategic Data Warehousing Principles Using SAS Software. -SAS Institute, 1998.
62. Witten I.H., Frank E., Data Mining, Morgan Kaufmann Publishers, 2001.
63. Zachman J. A Framework for Information Systems Architectures // IBM Systems Journal, v.26, #3,1987.
-
Похожие работы
- Интеграция разнородных баз данных на основе многомерных моделей данных
- Алгоритмы и программное обеспечение параметрической идентификации многомерных динамических объектов на основе обобщенных временных характеристик
- Повышение эффективности управления сложными техническими системами на основе анализа и синтеза нелинейных моделей
- Построение интегрированной экспертной системы для поддержки начальных этапов проектирования технических объектов
- Основы теории и методы формирования базовых проектных решений модулей ЭВА в САПР
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность