автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Модели многомерного представления и обработки данных на основе алгебры кортежей в информационно-аналитической системе
Автореферат диссертации по теме "Модели многомерного представления и обработки данных на основе алгебры кортежей в информационно-аналитической системе"
На правах рукописи
00501
БЕЛОВ Вадим Николаевич
МОДЕЛИ МНОГОМЕРНОГО ПРЕДСТАВЛЕНИЯ И ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ АЛГЕБРЫ КОРТЕЖЕЙ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЕ
Специальности: 05.13.17-Теоретические основы информатики; 05.13.01 - Системный анализ, управление и обработка информации (приборостроение)
1 МАР 2012
Автореферат диссертации на соискание учёной степени кандидата технических наук
ПЕНЗА 2012
005015722
Работа выполнена в ФГБОУ ВПО «Пензенский государственный университет».
Научные руководители:
доктор технических наук, профессор Макарычев Петр Петрович;
кандидат технических наук, доцент Механов Виктор Борисович.
Официальные оппоненты:
Горбаченко Владимир Иванович, доктор технических наук, доцент, зав. кафедрой информатики и вычислительных систем Пензенского государственного педагогического университета им. В. Г. Белинского (г. Пенза);
Федосин Сергей Алексеевич, кандидат технических наук, доцент, зав. кафедрой «Автоматизированные системы обработки информации и управления» Мордовского государственного университета им. Н. Н. Огарева (г. Саранск).
Ведущая организация - ОАО «Научно-производственное предприятие "Рубин"» (г. Пенза).
Защита состоится ¿¿марта 2012 г., в « 14 00» часов, на заседании диссертационного совета Д 212.186.01 при ФГБОУ ВПО «Пензенский государственный университет» по адресу 440026, г. Пенза, ул. Красная, 40.
С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Пензенский государственный университет». Автореферат размещен на сайте университета.
Автореферат разослан « ю » февраля 2012 г.
Ученый секретарь
диссертационного совета
Турин Евгений Иванович
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящий момент имеет место тенденция широкого использования информационных технологий для хранения, обработки и анализа данных. Данная тенденция является следствием роста объема информации, используемой для принятия управленческих решений и развития методов интеллектуального анализа данных. Разработка информационно-аналитических систем, обеспечивающих внедрение информационных технологий, является ресурсоемким процессом. Однако построение математических моделей данных и обработки данных для информационно-аналитических систем позволяет сократить количество итераций разработки и уменьшить затраты ресурсов за счет использования процедуры доказательства корректности моделей обработки данных.
Процессы обработки и анализа данных, а также методы доказательства корректности моделей обработки данных исследовались в работах А. А. Барсегяна, С. А. Васильева, Б. А. Кулика, Ф. А. Новикова, К. Arrow, Э. Кларка (Е. Clarke), R. Creeth, Е. Emerson, R. Floyd, Ч. Xoapa (С. Hoare), M. Lacroix, T. Pedersen, N. Pendse, A. Pirotte, T. Саати (T. Saaty), J. Ullman и др.
Процессы обработки и анализа данных во многом зависят от модели представления данных. Выбор модели данных определяет применимые операции обработки данных и скорость проведения анализа данных. Исследованию моделей представления данных посвящены работы А. В. Вискова, Н. А. Левина, И. Д. Манделя, В. И. Мунермана, В. П. Сер-гееева, R. Agrawal, Э. Кодда (Е. Codd), К. Дейта (С. Date), Б. Инмона (W. Inmon), Р. Кимбала (R. Kimball) и др.
Несмотря на успехи в этих направлениях, остаются нерешенными несколько проблем. Первая проблема связана с недостаточной развитостью подхода к формализованному описанию данных, обеспечивающих решение задач статистического, оперативного и интеллектуального анализа данных, а также анализа данных, определяемого бизнес-процессами организации. Сложность решения проблемы построения математических моделей данных обусловлена:
- отсутствием методик построения моделей данных, удовлетворяющих требованиям, выдвигаемым тестом FASMI (Fast Analysis of Shared Multidimensional Information - быстрый анализ разделяемой многомерной информации);
- использованием, как правило, интуитивного подхода к разработке многомерных моделей данных и моделей вычислительных процессов.
Вторая проблема связана с недостаточной проработанностью методов проектирования с применением проверки корректности моделей обработки данных.
Третья проблема обусловлена малой исследованностью методик предварительной обработки данных, представленных в виде комплектов, при вычислении ключевых показателей эффективности с использованием номинальных и порядковых шкал. В этом случае традиционный подход к предварительной обработке данных, основанный на использовании метода анализа иерархий, не реализуем. Необходимость решения названных выше проблем определяет актуальность данного диссертационного исследования.
Целью диссертационной работы является разработка и исследование моделей представления данных, процессов обработки и анализа данных в информационно-аналитической системе с настраиваемыми метриками на основе ключевых показателей эффективности.
Для достижения поставленной цели решены следующие задачи:
- анализ процессов сбора, хранения, предварительной обработки и анализа данных в информационно-аналитических системах, реализуемых с применением настраиваемых метрик на основе ключевых показателей эффективности;
- теоретическое обоснование и исследование математических многомерных моделей данных для сбора и хранения, проведения оперативного и интеллектуального анализа средствами информационно-аналитической системы;
- теоретическое обоснование и исследование математических моделей обработки данных в процессе наполнения хранилища данных, проведения оперативного и интеллектуального анализа данных;
- разработка на основе предложенных модельных представлений данных и процессов транзакционной базы данных, многомерного хранилища данных, клиентских приложений прототипа информационно-аналитической системы и проведение экспериментов.
Предметом исследования являются математические модели и структуры многомерного представления данных, модели процессов извлечения, преобразования и загрузки данных, модели и алгоритмы обработки и анализа данных.
Объектом исследования являются процессы сбора, накопления, предварительной обработки, загрузки и анализа данных при создании информационно-аналитической системы.
Методы исследования основаны на алгебре кортежей, теории нечетких множеств, методах оперативного и интеллектуального анализа данных, теории принятия коллективных решений, теории матроидов, методах концептуального моделирования. При разработке программных средств использованы объектно ориентированный и реляционный подходы.
Научная новизна работы:
1. Предложена методика построения математической модели данных на основе настраиваемых метрик ключевых показателей эффективности, отличающаяся представлением объектов и связей в виде С-систем алгебры кортежей и обеспечивающая проверку модели данных на соответствие моделям проектируемых процессов предварительной обработки, загрузки и анализа данных аналитическими методами.
2. Доказано соответствие структуры многомерной модели данных матроидной структуре, в которой максимальные независимые подмножества функциональных взаимосвязей между мерами и измерениями являются базами, что позволяет автоматизировать эквивалентные преобразования структуры реляционных хранилищ данных.
3. Предложен жадный алгоритм поиска структуры реляционного хранилища данных, отличающейся представлением группы измерений и мер в виде матроида. Алгоритм обеспечивает выполнение требований по ограничению времени выполнения запросов в соответствии с тестом быстрого анализа разделяемой многомерной информации (РА8М1).
4. Предложено формализованное описание процессов сбора, загрузки в хранилище и анализа данных с использованием операций алгебры кортежей, что позволяет осуществить доказательство корректности моделей процессов формальными методами.
5. Разработана процедура предварительной обработки комплектов данных, отличающаяся применением рациональной и решающей функции для вычисления ключевых показателей эффективности, что позволяет уменьшить объем хранилища данных и сократить время на проведение анализа данных.
Практическая значимость исследований. Разработанные программные средства для реализации информационной технологии хранения, обработки и анализа данных при управлении организацией на основе ключевых показателей эффективности обеспечивают осуществление процессов сбора, предобработки, оперативного и интеллектуального анализа данных. Разработанный алгоритм поиска структуры реляционного хранилища данных системы оперативной аналитической обработки данных со сложностью 0{п) позволяет строить хранилища данных с
учетом требований скорости выполнения запросов. Разработанный подход к проектированию процессов обработки и анализа данных позволяет сократить количество итераций разработки программных средств за счет доказательства корректности моделей обработки и анализа данных на этапе проектирования.
Ha защиту выносятся:
1. Методика построения математических моделей данных на основе концепции многомерного пространства данных и операций алгебры кортежей.
2. Модельное представление структуры многомерных данных, отражающих совокупность ключевых показателей эффективности и используемых при принятии управленческих решений, в виде группы мат-роидов.
3. Алгоритм поиска структуры модели данных, удовлетворяющей требованию минимума затрат времени на выполнение запроса к многомерному реляционному хранилищу данных.
4. Модели сбора данных, преобразования и загрузки реляционного хранилища данных, оперативного и интеллектуального анализа данных в информационно-аналитической системе.
5. Процедура предварительной обработки и агрегации данных с применением рациональной и решающей функции ранжирования.
Реализация и внедрение результатов работы.
Теоретические и практические результаты диссертационного исследования внедрены:
- в Пензенском государственном университете при разработке информационно-аналитической системы оценки деятельности преподавателей, кафедр и факультетов на основе ключевых показателей эффективности;
- в ООО «Мое дело» г. Пензы для оценки деятельности сотрудников отдела «ERP» на основе ключевых показателей эффективности с применением Web-технологий.
Достоверность и обоснованность. Обоснованность и достоверность результатов определяются корректным использованием строгих и апробированных методов исследования и подтверждаются практическим применением полученных результатов при разработке программных средств, что подтверждено актом о внедрении результатов работы, а также апробацией работы на всероссийских и международных конференциях.
Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях: VII Всероссийской научно-практической конференции «Системы автоматизации в образовании, науке и производстве» (Новокузнецк, 2009); Международной конференции «Information Technologies in Education for All» (Киев, 2009); III Международной научно-практической конференции «Информационная среда вуза XXI века» (Петрозаводск, 2009); XII Всероссийской объединенной конференции «Интернет и современное общество» (Санкт-Пе-
тербург, 2009); IX Международной научно-технической конференции «Новые информационные технологии и системы» (Пенза, 2010); XV Международной научно-методической конференции «Университетское образование» (Пенза, 2011); Международной научно-практической конференции «Молодежь и наука: модернизация и инновационное развитие страны» (Пенза, 2011); V Международной научно-практической конференции «Информационная среда вуза XXI века» (Петрозаводск, 2011).
Публикации. Основные положения диссертации опубликованы в 12 статьях и тезисах конференций. Среди них 2 статьи в журналах из перечня ВАК.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 128 наименований и 6 приложений. Общий объем - 182 страницы. Основное содержание диссертации включает 19 рисунков и 46 таблиц.
СОДЕРЖАНИЕ ДИССЕРТАЦИИ Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи исследования, показаны научная новизна и практическая значимость результатов диссертационного исследования, приведены сведения об апробации работы и публикациях.
В первой главе дан обзор моделей представления данных в базах данных, рассмотрены современные подходы к организации сбора и обработки данных, выполнен анализ средств формализованного описания моделей данных и моделей обработки данных, определены требования к данным при проведении интеллектуального анализа данных и управлении организацией.
В диссертации рассмотрен современный подход к разработке информационно-аналитических систем, опирающийся на разделение систем оперативной обработки транзакций, с использованием которых организуется сбор данных, и систем оперативной аналитической обработки данных, с использованием которых организуется анализ данных. В рамках такого подхода данные системы оперативной обработки транзакций загружаются в систему оперативной аналитической обработки данных посредством процессов извлечения, преобразования и загрузки данных.
Для решения проблем, сформулированных при обосновании актуальности работы, необходимо обеспечить выполнение требований теста быстрого анализа разделяемой многомерной информации. В диссертации определено, что к представлению и обработке данных относятся следующие требования:
-многомерное концептуальное представление данных с поддержкой иерархий и множественных иерархий;
-поддержка статистического, оперативного и интеллектуального анализа данных, а также анализа, определяемого бизнес-процессами организации, независимо от используемого программного приложения, визуализации результатов в доступном для конечного пользователя виде;
- одинаково высокая скорость выполнения всех запросов к системе, характеризующаяся временем выполнения большинства аналитических запросов не более 5 с.
В диссертации проведен анализ требований, предъявляемых к модели данных при реализации алгоритмов интеллектуального анализа данных и анализа данных, определяемого бизнес-процессами организации, наиболее формализованным инструментом которого являются ключевые показатели эффективности, а также анализ средств формализованного описания моделей данных и моделей обработки данных.
На основании проведенного анализа делается вывод о том, что применение алгебры кортежей (АК) предоставляет наиболее широкие возможности для моделирования структур и процессов обработки данных. При этом эквивалентные преобразования структур данных могут быть осуществлены с использованием положений теории матроидов, а для формального доказательства корректности моделей процессов возможно использование логики Хоара.
Во второй главе выполнено теоретическое обоснование модели многомерного представления данных с использованием алгебры кортежей, разработана концептуальная модель обработки и анализа данных в информационно-аналитической системе, предложено и обосновано представление структуры многомерной модели данных в виде группы матроидов, предложен алгоритм поиска структуры реляционного хранилища данных, применение которого обеспечивает выполнение требований по ограничению времени выполнения запросов, и разработаны инфо-логические модели транзакционной базы данных и хранилища данных.
В диссертации проведен анализ процессов сбора, обработки и анализа данных на примере информационно-аналитической системы образовательного учреждения.
В соответствии с требованиями многомерной модели описания аналитического пространства в терминах «мера» и «измерение» в диссертации выделены следующие меры: «сотрудник» (р), «результат деятельности сотрудника» (Яр), «Результат деятельности кафедры» (/?*), результат деятельности факультета» (Я^).
Для меры р определены измерения «ученая степень» (С*), «должность» (Ор), «ученое звание» (О1), «время» (Г), а также измерения «кафедра» (А") и «факультет» (р), образующие иерархию уровней из-
мерения. При этом существует иерархия уровней измерения «к—>р». с помощью АК измерения поставлены в соответствие мерам, при этом получены С-системы, описывающие их взаимосвязи. Для меры р структура взаимосвязей мер и измерений описывается С-системой [-АУ]:
,0* ,ор ,к,т\
и*} И
Для меры яр выделены измерения «время» (т), «ключевой показатель эффективности» (1р), а также измерения «сотрудник» (р), «кафедра» (к) и «факультет» (р), образующие иерархию уровней измерения «р—*к—>р». Для меры яр структура взаимосвязей мер и измерений описывается С-системой ¿^[ХК]:
{р,1р,т}
Н {*}
{*} И
бу2[х¥] =
Для меры Я определены следующие измерения: «время» (Г),
«ключевой показатель эффективности» (7 ), а также измерения «кафедра» (К) и «факультет» (Р), образующие иерархию уровней измерения
и
«к —>р». Для меры я структура взаимосвязей мер и измерений описывается С-системой 5у3 [ХУ]:
{л*} {У*,г}
м И
Для меры Я^ выделены следующие измерения: «время» (Г), «ключевой показатель эффективности» и «факультет» (р). Для меры Я? структура взаимосвязей мер и измерений описывается С-системой
^[ЛУ]:
В диссертации меры и измерения с использованием АК также описываются как С-системы. Множество координат многомерного пространства описывается как декартово произведение элементов измерений. Для л-мерного пространства множество координат в терминах АК задается как частный универсум £\ х£)2 х...х£>л отношения со схемой
[Д£)2—А)]' гДе - атрибут, соответствующий уровню измерения;
j — п. Таким образом, гиперкуб «-мерного пространства, описывающий меры, характеризующиеся т показателями, задается в виде С-сис-темы sc\dx,d2,...,dn,vx,v2,...,vm\, где v; - показатель меры; / = 1,/я. В случае разреженного гиперкуба данные о мерах описываются С-сис-темой scd [dl,d2,...,dn,vbv2,...,vm], пустые ячейки описываются С-сис-темой scr\_dx,d2,...,dn,vl,v2,...,vm\, получаемой следующим образом:
^[^„..^„н* * - 1 п
П([* * ... *]nav,3v2..3v;
5cr[A,D2,...,A1,r„F2,...,Fm] = [* * ... * {null} {null} ... {nidi}]П
nVv1Vv2...Vvff,(^[D1,£l2,...,Dn]) .
Соответственно, разреженный гиперкуб задается следующим образом:
\)scd\d„d2,...,dn,vuv2,...,vm] .
В диссертации показано, что операция среза в АК равнозначна заданию значения одного или нескольких атрибутов отношения. Операция вращения может быть представлена как операция перестановки атрибутов, соответствующих вращаемым измерениям, схемы отношения, задающей куб, и изменение порядка сортировки элементарных кортежей.
Операция консолидации представлена как выполнение операции соединения С-системы, задающей гиперкуб, и С-системы, задающей более высокий уровень иерархии измерения, с последующим выполнением операции элиминации атрибутов, соответствующих более низкому уровню иерархии измерения. Выполнение операции консолидации по измерению, задаваемому атрибутом Г\ гиперкуба, описываемого С-сис-темой sc[d1,d2,...,d„,v1,v2,...,vm], показано ниже:
a \R[, адл]=4 [£>'i, А']; .....
s'[d[,d2,...,dn,vbv2,...,vmи* *...*** ... *]п
где 1x\d'x,l\,rx] к j[[r[,d{} - С-системы, описывающие уровни измерения, образующие иерархию «1х—*1[уу, d\ ,с\ - атрибуты, позволяю-
•(1)
щие определить координаты мер в многомерном пространстве; £¡,/(1 -атрибуты, имеющие информационное назначение и описывающие Ц и £>',. Операция детализации описана аналогичным образом, но при этом более высокий уровень иерархии заменяется более низким.
Результатом объединения С-систем, задающих структуру взаимосвязей мер и измерений, является С-система, задающая структуру многомерной модели данных. С-система задающая структуру многомерной модели данных, отвечающей требованиям обработки данных о деятельности образовательного учреждения, имеет следующий вид:
"{/г*} [р,1р,т]
.{*} И
Соответствие требованиям проведения статистического и интеллектуального анализа данных, а также анализа данных, определяемого бизнес-процессами организации, в диссертации доказано с помощью построения соответствующих моделей обработки данных.
В общем случае, структура хранилища данных не отвечает требованиям скорости выполнения запросов быстрого анализа разделяемой многомерной информации. Для поиска соответствующей структуры хранилища данных предложена модель описания структуры многомерной модели данных в виде группы матроидов. Подготовка данных включает задание С-системы С+[ЛУ], являющейся транзитивным замыканием множества мер £3 и множества всех мер и измерений
№. С использованием АК определен критерий необходимости связи между мерой а и некоторой мерой или измерением в многомерной модели на основании отсутствия между ними транзитивных связей:
\fZeW {г, в) е. (7+ [xv] => (а, г) £ [ху]. (2) Такие связи описываются С-системой
Матроид соответствующий части структуры многомерной
модели данных, описывается конечным множеством Е, являющимся С-системой, элементарные кортежи которой соответствуют связям между мерами и измерениями, и множеством независимых подмножеств е.
С-система, определяющая часть структуры многомерной модели данных, задающей группу матроидов, имеет следующий вид:
(С) ДО
{4}
ш
{С,О} {С,о}
{Ап-х} {С,О)
{щ .
(3)
где Бр [ЛУ] с С+ [ХУ]; Д- - мера; / = 1, от; т > 2; от - число мер в части
структуры многомерной модели данных, описываемой С-системой (3); С,В — мера или измерение. При этом должно выполняться условие
У£ е IV (Д£)ёС+[ЛТ], где Е - мера или измерение. На основании С-системы (3) задаются от матроидов в случае, если С = Ат, и от-1 в случае, если Ат е{А1,А2,...,Ат_1}, каждый из которых описывается С-системой следующего вида:
'{А,} {ХиХ2,Х3,...,*„,£>}"
{*,} {.х2,хг,...,хп,о}
{Х2} {Х3,...,Х„,П}
.М и
где х1 - мера или измерение; / = 1,и; п + 2 - количество мер и измерений части структуры многомерной модели данных, задающей матроид;
В диссертации сформулированы следующие правила, в соответствии с которыми задается матроид М(Е,е):
Я!: ранг матроида М(Е,б), задаваемого некоторой С-системой Бр[ХУ], равняется |-1, где 1Ур - множество, являющееся подмножеством объединения доменов атрибутов отношения [ХУ\, в котором элементы соответствуют мерам и измерениям, входящим в структуру, описываемую С-системой £ [ЛУ];
Я2: множество Е является множеством элементарных кортежей, входящих в С-систему Бр[ХУ]\
1(3 : множество независимых множеств е включает в себя пустое множество, максимальные независимые множества (базы) и их подмножества;
Я4: максимальное независимое множество [ЛГУ] удовлетворяет условиям , и2 и £/3:
их: [(с,б) е У[ЛУ])&(С,£>) е [ху] => (с,о) е [ху], где с, в - меры или измерения;
v2: {в,к) е б1 [ху] &(5,1) е [ ХУ] =>(к,1) «5 С/ 0 $ [ху],
где в,к,ь - меры или измерения; (7/[ЛУ] - транзитивное замыкание
и3: а&()&.^(3(н,а)е8р[ху^у2в(цгр\{а}) 3(а,г)ес}[ху], где \Ур - множество мер и измерений части структуры многомерной модели данных, описываемой матроидом; 2,Н- меры или измерения.
В соответствии с условием Ц требуется включение в максимальное независимое множество всех обязательных связей, определенных с помощью критерия (2) и входящих в конечное множество матроида. Условием и3 задается требование отсутствия циклов. Требованием условия II^ является наличие меры, имеющей связь со всеми остальными мерами и измерениями части структуры многомерной модели данных, описываемой матроидом.
В диссертации доказано, что является матроидом в соот-
ветствии с известными аксиомами матроидов.
Л/(£,е) удовлетворяет аксиомам независимости пустого множества и подмножеств независимого множества вследствие Л3. Независимое множество, имеющее наибольшее число вариантов образования зависимых множеств при добавлении элементарного кортежа, задается С-сис-темой вида
'{4}
ш ш
где 4, а2, ...,аке{в1} в2,...,вк,г), вьв2,...,вк,г^р, ^Ме с бр [ХК]. В этом случае С-система б'а [ху], содержащая элементарные
кортежи, в результате добавления каждого из которых в С-систему sa [АТУ] образуется зависимое множество, имеет следующий вид:
'{А} {в2,въ,...,вк}~
Поскольку множество в является независимым и выполняются условия /?4, в С-системе содержится не более к-1 элементарных кортежей, входящих во множество В. Включение любого другого элементарного кортежа в С-систему sa [ЛГ] не является причиной образования зависимого множества, и поскольку = к +1, то зеевха аU{е} ее. Следовательно, М (£,е) удовлетворяет аксиоме равной мощности максимальных независимых подмножеств. Таким образом, м (£, б) является матроидом.
В диссертации решена
(
Начало
J
Подготовка данных
Поиск структуры, задающей матровды
I ~
/Перебор матроидов, пока необработанные матровды существуют
/ Перебор элементов\, конечного множества, пока не вы
Перебор матроидов Ч / Перебор элементов конечного множества Ч /
1
С
Конец
J
задача определения веса элемента множества Е. В качестве веса предложено использование величины, обратно пропорциональной диаметру графа, задаваемого максимальным независимым множеством, которое образуется при добавлении элемента. Представление структуры многомерной модели данных в виде группы матроидов позволило использовать для уменьшения диаметра графа, соответствующего структуре реляционного хранилища данных, жадный алгоритм, имеющий сложность О(л). Разработанный алгоритм
Рис. 1. Алгоритм поиска структуры хранилища представлен на рис. 1. данных
На рис. 1 используются следующие обозначения: - независимое множество к-го матроида; N - число матроидов; со(е,) — вес /-го элемента множества £ к -го матроида; п - ранг к -го матроида; £ - С-система, описывающая построенную структуру хранилища данных.
На основании полученных результатов делается вывод о том, что использование АК позволяет разрабатывать многомерную модель данных в терминах мер и измерений, при этом имеется возможность перейти к модели реляционного хранилища данных. Предложенное представление структуры многомерной модели данных в виде группы матроидов позволяет использовать для поиска структуры хранилища жадный алгоритм, имеющий сложность О (л), применение которого обеспечивает выполнение требований по ограничению времени выполнения запросов.
Третья глава посвящена разработке моделей обработки и анализа данных. Разработаны модели выполнения запросов к транзакционной базе данных, модель процесса наполнения хранилища данных, позволяющая провести доказательство^ корректности моделей обработки данных, предложена процедура предварительной обработки и агрегации данных на основе рациональной и решающей функции, построена модель проведения анализа данных, определяемого бизнес-процессами организации, и модель проведения интеллектуального анализа данных методом нечеткой кластеризации.
С использованием АК проведено связывание моделей транзакционной базы данных и хранилища данных на основе построенных моделей обработки данных, преобразующих данные модели транзакционной базы данных в данные модели хранилища данных. Модели обработки данных, построенные с использованием АК, учитывают все аспекты процесса подготовки данных, включая извлечение, преобразование и загрузку данных, при этом подпроцессы представляются в виде последовательности операций АК. В диссертации показано, что корректность построенных моделей обработки данных может быть доказана с применением логики Хоара.
В диссертации предложена функция ранжирования Р, преобразующая N линейно упорядоченных множеств, каждое из которых упорядочено в соответствии с одним из N критериев решения относительно в альтернатив, обозначаемых как ь(в), в линейно упорядоченное множество, упорядоченное с учетом влияния всех критериев решения:
р :1{в)м ->цв). (4)
На основании требований, определяемых теоремой Эрроу, доказывается, что разработанная процедура обработки данных является рациональной и решающей. В результате вычислений с использованием
функции (4) формируется множество упорядоченное в соответст-
вии с множеством критериев принятия решения:
Ь(В) = {ЬиЬ2,...,Ьт}- (5)
При этом выполняется следующее условие:
1г(ь1)>ж(ь2)>...>щьт), _
где ]У(Ьк) - степень предпочтительности альтернативы Ък; к = \,т - номер альтернативы; т - число альтернатив.
Значение IV(Ьк) вычисляется следующим образом:
кр > 1 I
в
где = ^ 2 ) - ранг альтернативы Ър относительно О критериев
г=1
решения; тр & — ранг альтернативы Ър относительно критерия решения g; Б - количество критериев решения; а^ - вес критерия принятия решения g^, dp ~ предпочтительность альтернативы Ьр относительно доминирующего критерия решения (1. Для весов авыполняются усло-в
вияая>0,Хая=1-
Расчет значения Яр для формулы (6) производится по следующей формуле:
о < »■ ^
««¿^(РвЛг,/)
/=і
(7)
где /" - номер вида работы направления деятельности g; тя - количество видов работ направления деятельности g; /ХР^¡Д^,,) - функция расчета ранга сотрудника р по виду работ / направления деятельности g; р^- - вес вида работ с номером / направления деятельности g; кр ё1 - количество работ вида і направления деятельности g, выполненных
те <5
сотрудником р . При этом следует учитывать, что £ Р5 і = 1, £ = 1,
ая>0,ряі>0, шя>0.
Поскольку результаты деятельности сотрудников могут быть представлены в виде комплектов, то для расчета ранга сотрудника по виду работ необходимо учитывать число экземпляров элемента комплекта.
Предлагаемая функция расчета ранга сотрудника по виду работ Р(а,к) имеет следующий вид:
Р(а,к) = \а к(1~а\ке(0;со), (8)
0Д = 0
где а - вес вида работ; к - количество работ данного вида, выполненных сотрудником.
Доказывается, что функция, описываемая (5), (6), (7), (8) соответствует требованиям, выдвигаемым аксиомами Эрроу.
В диссертации построены модели процессов интеллектуального анализа данных и анализа данных, определяемого бизнес-процессами организации, в соответствии с требованием обеспечения возможности проведения анализа теста быстрого анализа разделяемой многомерной информации. Результаты, полученные с использованием формулы (7), представляют собой вещественные числа и соответственно могут быть использованы для проведения интеллектуального анализа методом нечеткой кластеризации. Каждый объект кластеризации хк пред-
19 и
ставляет собой точку в п-мерном пространстве хк = (хк,хк,...,хк) е Лп,
где к = \,р, р ~ число объектов кластеризации. Для определения числа кластеров в диссертации применена методика оценки качества кластеризации с использованием индекса «Хие-Бени».
Результаты ранжирования позволяют задавать щ -мерное пространство, векторы которого задаются значениями, вычисленными с использованием метода анализа иерархий по функции (7), и п2 -мерное пространство, векторы которого задаются значениями, вычисленными с использованием функции (8), где п{ «п2- В диссертации на примере данных информационно-аналитической системы образовательного учреждения получены значения пх = 1 и п2=45. Выигрыш в размере данных, требуемых для кластеризации, оценивается по следующей формуле:
.. 1 + т45
м=--Т,
1 + т
где / - размер данных, остающихся постоянными, независимо от размерности пространства, векторы которого задают объекты кластериза-
п
ции; т - размер данных, необходимых для задания объектов кластери-
1 45
зации в виде векторов 7-мерного пространства; т - размер данных,
необходимых для задания объектов кластеризации в виде векторов
45-мерного пространства. В диссертации получены следующие значе-
1
ния: « = 29745, т45 =1248930, т7 =194278, М = —-= 5,71.
224023
По результатам кластеризации получены значения, характеризующие распределение объектов по нечетким кластерам и вычисленные по следующей формуле:
£ы
-100%,
р
где г - номер кластера; п - арность пространства, в котором задаются координаты точек, характеризующие объекты кластеризации; р - число объектов кластеризации; и1к - степень принадлежности объекта к к кластеру /. Рассчитанные значения представлены в табл. 1.
Таблица 1
Распределение объектов по нечетким кластерам_
Номер кластера Ш45,%
1 56,5867 57,7123
2 31,0165 33,0361
3 12,3968 9,2516
Распределение объектов по с нечетким кластерам отличается незначительно, поскольку 2 М=}45 -аИ = 6,2904 %.
¡=\ 1
Разница в определении степени отношения объекта к определенному кластеру при изменении арности пространства, векторы которого
с р 21
•100% составила 9,3274%, медиана
/=и=1
45 7
"а
описывают объект,
ср
значения |45 - и]к | составила 0,0143.
Модели обработки и анализа данных, представляющие подпроцессы в виде последовательности операций алгебры кортежей, используют разработанные математические модели транзакционной базы данных и хранилища данных и позволяют проводить доказательство корректности моделей обработки данных с использованием логики Хоара. Применение предложенной рациональной и решающей функции ранжирования позволяет уменьшить объем хранилища данных при проведении кластерного анализа.
В четвертой главе приведено описание программных средств информационно-аналитической системы, разработанных с использованием
моделей данных и моделей обработки данных, представленных в диссертации. Показаны результаты проведения анализа данных, определяемого бизнес-процессами организации, а также результаты проведения кластерного анализа, полученные на основе реальных данных.
На основе построенных моделей данных и моделей обработки данных разработаны транзакционная база данных и хранилище данных для Microsoft SQL Server 2008. Программные средства сбора данных, имеющие трехуровневую архитектуру, были реализованы с использованием платформы Java ЕЕ и фреймворка Struts. Процессы извлечения, преобразования и загрузки данных реализованы как хранимые процедуры SQL SERVER 2008. Процедуры обработки и анализа данных в соответствии с требованиями, определяемыми бизнес-процессами организации, а также процедуры кластерного и статистического анализа реализованы с использованием математического пакета Matlab. С использованием разработанных программных средств автоматизированы процессы сбора, предварительной обработки, оперативного, интеллектуального и статистического анализа данных.
При анализе результатов кластеризации в диссертации была применена дефаззификация методом выбора четкого числа, соответствующего максимуму функции.
В диссертации рассчитано среднее время проведения кластерного анализа методом нечетких с-средних с использованием подготовленных
данных. Среднее время выполнения для 7-мерного пространства Рг составило 0,14 с. Для 45-мерного пространства соответствующее значение 5 равно 0,56 с. Таким образом, выигрыш во времени подготовки дан-f45
ных м„ = составил 6,40 раза. Алгоритм обработки данных, необхо-
г 'р
димых для кластерного анализа, представляющий данные в виде, соответствующем требованиям алгоритма нечетких ^-средних, был реализован в качестве хранимой процедуры SQL Server 2008. Среднее время подготовки данных для проведения кластерного анализа объектов, описываемых векторами 7-мерного пространства fp, составило 3,12 с. Среднее время подготовки данных для проведения кластерного анализа объектов, описываемых векторами 45-мерного пространства t*5, соста-
,45
вило 19,96 с. Выигрыш во времени подготовки данных Мг = составил
4,00 раза. Выигрыш во времени при расчете значения для всего процесса
^+,45
мт„, рассчитанный по формуле мгв = —составил 6,29 раза.
г+г
Использование 7-мерного пространства для проведения кластеризации позволило выполнить все операции, необходимые для получения результатов кластерного анализа за 3,36 с, что соответствует требованию быстрого анализа разделяемой многомерной информации.
В диссертации предложена интерпретация результатов кластерного анализа. Выполнен анализ значений атрибутов центроидов кластеров, математического ожидания значений атрибутов объектов кластеризации. На основании максимума значения характеристической функции нечетких подмножеств определены объекты кластеризации, наиболее близкие к центрам кластеров, а также данные, характеризующие такие объекты в терминах предметной области на этапе сбора данных.
Построенные модели данных и модели обработки данных могут быть использованы при реализации информационно-аналитических систем. Применение разработанной функции обработки и агрегирования данных позволило сократить время проведения кластерного анализа в 6,29 раза. Разработанные программные средства удовлетворяют требованиям быстрого анализа разделяемой многомерной информации.
В заключении сформулированы основные результаты диссертационной работы.
В приложении А приведен словарь базовых понятий. В приложении Б приведены листинги программных средств, реализующих обработку данных для проведения кластерного анализа, статистического анализа и анализа, определяемого бизнес-процессами организации, разработанные с использованием математического пакета МаЙаЬ. В приложении В представлены листинги и результаты выполнения программных средств, реализующих метод анализа иерархий в среде Мар1е. В приложении Г приведены листинги хранимых процедур, реализующих извлечение, преобразование и загрузку данных в хранилище данных. В приложении Д представлены результаты моделирования процессов анализа данных в среде МаЙаЬ. В приложении Е представлены акты, подтверждающие внедрение результатов.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
1. Предложена методика построения математической модели данных на основе настраиваемых метрик ключевых показателей эффективности, отличающаяся представлением объектов и связей в виде С-систем алгебры кортежей и обеспечивающая проверку модели данных на соответствие мо-
делям проектируемых процессов предварительной обработки, загрузки и анализа данных аналитическими методами.
2. Доказано соответствие структуры многомерной модели данных матроидной структуре, в которой максимальные независимые подмножества функциональных взаимосвязей между мерами и измерениями являются базами, что позволяет автоматизировать эквивалентные преобразования структуры реляционных хранилищ данных.
3. Предложен жадный алгоритм поиска структуры реляционного хранилища данных, отличающейся представлением группы измерений и мер в виде матроида. Алгоритм обеспечивает выполнение требований по ограничению времени выполнения запросов в соответствии с тестом быстрого анализа разделяемой многомерной информации (FASM1).
4. Предложено формализованное описание процессов сбора, загрузки в хранилище и анализа данных с использованием операций алгебры кортежей, что позволяет осуществить доказательство корректности процессов формальными методами.
5. Разработана процедура предварительной обработки комплектов данных, отличающаяся применением рациональной и решающей функции для вычисления ключевых показателей эффективности, что позволяет уменьшить объем хранилища данных и сократить время на проведение анализа данных.
6. Разработана процедура кластерного анализа данных, отличающаяся применением предложенной рациональной и решающей функции, что позволило сократить время проведения кластерного анализа в 6,29 раза.
7. Выполнена разработка и экспериментальное исследование прототипа информационной аналитической системы с функциями сбора, предварительной обработки, оперативного и интеллектуального анализа данных на основе технологии ключевых показателей эффективности.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
Публикации в изданиях, рекомендованных ВАК России
1. Белов, В. Н. Исследование соответствия схемы базы данных целям OLAP средствами алгебры кортежей / В. Н. Белов, П. П. Макарычев // Известия высших учебных заведений. Поволжский регион. - 2011. - № 4. -С. 25-36.
2. Белов, В. Н. Оптимизация хранилища данных с представлением структуры в виде матроида / В. Н. Белов, П. П. Макарычев // В мире научных открытий.-2011,-№ 12.-С. 160-171.
Публикации в других изданиях
3. Белов, В. Н. Автоматизация оценки деятельности сотрудников вуза/ Белов В. Н. // Системы автоматизации в образовании, науке и произ-
водстве : тр. VII Всерос. науч.-пракг. конф. - Новокузнецк : СибГИУ, 2009. -
4. Belov, V. ICT applications for university staff activities evaluation / V. Belov // Information Technologies in Education for All. - Kiev : IRTC, 2009.-P. 12-18.
5. Белов, В. H. Применение информационных технологий для оценки деятельности сотрудников вуза / В. Н. Белов // Информационная среда вуза XXI века : материалы III Междунар. науч.-практ. конф. (21-25 сентября 2009 г.). - Петрозаводск, 2009. - С. 23-25.
6. Белов, В. Н. Использование ИКТ для оценки деятельности сотрудников вуза / В. Н. Белов // Новые технологии в образовании. - 2009. - № 4. -
7. Белов, В. Н. Применение ИКТ для оценки деятельности сотрудников вуза / В. Н. Белов // Развитие региональной образовательной информационной среды. Сборник научных статей межрегиональной научно-практической конференции : тр. XII Всерос. объединенной конф. «Интернет и современное общество» / под ред. С. В. Агапонова, А. В. Чугунова. -СПб., 2009.-С. 11,12.
8. Белов, В. Н. Автоматизированная информационная система оценки деятельности преподавателей / В. Н. Белов, П. П. Макарычев, В. А. Мещеряков // Новые информационные технологии и системы : тр. IX Междунар. науч.-техн. конф. (г. Пенза, 9-10 ноября 2010 г.) : в 2 ч. - Пенза : Изд-во ПТУ, 2010. - Ч. 2. - С. 125-133.
9. Белов, В. Н. Оценка деятельности сотрудников вуза на основе анализа ключевых показателей / В. Н. Белов, П. П. Макарычев // Университетское образование : сб. ст. XV Междунар. науч.-метод. конф. (г. Пенза, 6-7 апреля 2011 г.) / под ред. В. И. Волчихина, Р. М. Печерской. - Пенза : Изд-во ПГУ, 2011. - С. 279-280.
10. Белов, В. Н. Оптимизация хранилища данных с представлением структуры в виде матроида средствами алгебры кортежей / В. Н. Белов, П. П. Макарычев // Информационная среда вуза XXI века : материалы V Междунар. науч.-практ. конф. (26-30 сентября 2011 г.). - Петрозаводск, 2011.-С. 29-32.
11. Белов, В. Н. Оптимизация хранилища данных с представлением структуры в виде матроида / В. Н. Белов, П. П. Макарычев // Молодежь и наука: модернизация и инновационное развитие страны : материалы междунар. науч.-пракг. конф. (г. Пенза, 15—16 сентября 2011 г.): в 3 ч. - Пенза : Изд-во ПГУ,2011.-Ч. 1.-С. 117-119.
12. Белов, В. Н. Выбор функции для оценки деятельности сотрудников / В. Н. Белов, П. П. Макарычев // Молодежь и наука: модернизация и инновационное развитие страны : материалы междунар. науч.-практ. конф.(г. Пенза, 15—16 сентября 2011 г.) : в 3 ч. - Пенза: Изд-во ПГУ, 2011. — Ч. 1.-С. 120-122.
С. 53-56.
С. 78-80.
Научное издание
Белов Вадим Николаевич
МОДЕЛИ МНОГОМЕРНОГО ПРЕДСТАВЛЕНИЯ И ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ АЛГЕБРЫ КОРТЕЖЕЙ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЕ
Специальности: 05.13.17- Теоретические основы информатики; 05.13.01 - Системный анализ, управление и обработка информации (приборостроение)
Редактор В. В. Чувашоеа Технический редактор М. Б. Жучкова Компьютерная верстка М. Б. Жучкоеой
Распоряжение № 7/2012 от 07.02.2012 г.
Подписано в печать 16.02.12. Формат 60х84'/16. Усл. печ. л. 1,16. Тираж 100. Заказ № 25.
Издательство ПГУ. 440026, Пенза, Красная, 40. Тел./факс: (8412) 56-47-33; е-таН: iic@pnzgu.ru
Текст работы Белов, Вадим Николаевич, диссертация по теме Теоретические основы информатики
61 12-5/2123
ПЕНЗЕНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
МОДЕЛИ МНОГОМЕРНОГО ПРЕДСТАВЛЕНИЯ И ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ АЛГЕБРЫ КОРТЕЖЕЙ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЕ
Специальности: 05.13.17 - Теоретические основы информатики 05.13.01 - Системный анализ, управление и обработка информации (приборостроение)
Диссертация на соискание учёной степени
На правах рукописи
БЕЛОВ ВАДИМ НИКОЛАЕВИЧ
кандидата технических наук
Научные руководители:
доктор технических наук, профессор Макарычев П.П.;
кандидат технических наук, доцент Механов В.Б.
Пенза 2012
СОДЕРЖАНИЕ
ВВЕДЕНИЕ..............................................................................................................4
1 АНАЛИЗ МОДЕЛЬНЫХ ПРЕДСТАВЛЕНИЙ ДАННЫХ И ПРОЦЕССОВ В ИНФОРМАЦИОННЫХ СИСТЕМАХ................................................................10
1.1 Технологии хранения и обработки данных информационно-аналитических систем........................................................................................10
1.2 Анализ данных в информационно-аналитической системе....................15
1.3 Модельные представления данных в современных базах данных.........19
1.4 Формализованное описание многомерного представления данных......24
1.5 Модели обработки данных с использованием исчисления предикатов
первого порядка..................................................................................................29
Выводы................................................................................................................36
2 МАТЕМАТИЧЕСКИЕ И ИНФОЛОГИЧЕСКИЕ МОДЕЛИ ДАННЫХ ДЛЯ ОПЕРАТИВНОГО АНАЛИЗА И ОБРАБОТКИ................................................38
2.1 Концептуальная модель обработки и анализа данных в информационно-аналитической системе......................................................................................38
2.2 Построение многомерной модели данных с применением алгебры кортежей..............................................................................................................42
2.3 Поиск структуры реляционного хранилища данных с применением теории матроидов...............................................................................................49
2.4 Инфологическая модель реляционного хранилища данных...................57
2.5 Инфологическая модель транзакционной базы данных..........................65
Выводы................................................................................................................79
3 МОДЕЛИ ОПЕРАТИВНОЙ ОБРАБОТКИ И АНАЛИЗА ДАННЫХ..........81
3.1 Математическая модель процесса сбора данных.....................................81
3.2 Математическая модель процессов извлечения, преобразования и загрузки данных.................................................................................................86
3.3 Функция ранжирования результатов деятельности сотрудников организации........................................................................................................94
3.4 Модели расчета значений ранга и ключевых показателей эффективности..................................................................................................103
3.5 Модель анализа данных методом нечеткой кластеризации..................107
Выводы..............................................................................................................114
4 РАЗРАБОТКА И ИССЛЕДОВАНИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ......................................................................116
4.1 Структура программных средств информационно-аналитической системы..............................................................................................................116
4.2 Оценка деятельности сотрудников на основе предложенных моделей данных и процессов.........................................................................................120
4.3 Интеллектуальный анализ данных методом нечеткой кластеризации. 124 Выводы..............................................................................................................135
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ............................................................136
СПИСОК ЛИТЕРАТУРЫ...................................................................................138
ПРИЛОЖЕНИЕ А. СЛОВАРЬ БАЗОВЫХ ПОНЯТИЙ..................................150
ПРИЛОЖЕНИЕ Б. ЛИСТИНГИ ПРОГРАММ ДЛЯ ПРОВЕДЕНИЯ
АНАЛИЗА ДАННЫХ СРЕДСТВАМИ МАТЬАВ...........................................154
ПРИЛОЖЕНИЕ В. РЕЗУЛЬТАТЫ МОДЕЛИРОВАНИЯ В СРЕДЕ
МАРЬЕ..................................................................................................................164
ПРИЛОЖЕНИЕ Г. ЛИСТИНГИ ХРАНИМЫХ ПРОЦЕДУР.........................168
ПРИЛОЖЕНИЕ Д. РЕЗУЛЬТАТЫ АНАЛИЗА ДАННЫХ В СРЕДЕ
МАТЬАВ...............................................................................................................174
ПРИЛОЖЕНИЕ Е. АКТЫ О ВНЕДРЕНИИ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ РАБОТЫ.....................................................................179
ВВЕДЕНИЕ
Актуальность темы
В настоящий момент имеет место тенденция широкого использования информационных технологий для хранения, обработки и анализа данных. Данная тенденция является следствием роста объема информации, используемой для принятия управленческих решений и развития методов интеллектуального анализа данных. Разработка информационно-аналитических систем, обеспечивающих внедрение информационных технологий, является ресурсоемким процессом. Однако построение математических моделей данных и обработки данных для информационно-аналитических систем позволяет сократить количество итераций разработки и уменьшить затраты ресурсов за счет использования процедуры доказательства корректности моделей обработки данных.
Процессы обработки и анализа данных, а также методы доказательства корректности моделей обработки данных исследовались в работах А. А. Барсегяна, С. А. Васильева, Б. А. Кулика, Ф. А. Новикова, К. Arrow, Э. Кларка (Е. Clarke), R. Creeth, Е. Emerson, R. Floyd, Ч. Xoapa (С. Hoare), M. Lacroix, T. Pedersen, N. Pendse, A. Pirotte, T. Саати (T. Saaty), J. Ullman и ДР-
Процессы обработки и анализа данных во многом зависят от модели представления данных. Выбор модели данных определяет применимые операции обработки данных и скорость проведения анализа данных. Исследованию моделей представления данных посвящены работы
A. В. Вискова, Н. А. Левина, И. Д. Манделя, В. И. Мунермана,
B. П. Сергеева, R. Agrawal, Э. Кодда (Е. Codd), К. Дейта (С. Date), Б. Инмона (W. Inmon), Р. Кимбала (R. Kimball) и др.
Несмотря на успехи в этих направлениях, остаются нерешенными несколько проблем. Первая проблема связана с недостаточной развитостью подхода к формализованному описанию данных, обеспечивающих решение задач статистического, оперативного и интеллектуального анализа данных, а
также анализа данных, определяемого бизнес-процессами организации. Сложность решения проблемы построения математических моделей данных обусловлена:
- отсутствием методик построения моделей данных, удовлетворяющих требованиям, выдвигаемым тестом FASMI (Fast Analysis of Shared Multidimensional Information - быстрый анализ разделяемой многомерной информации);
- использованием, как правило, интуитивного подхода к разработке многомерных моделей данных и моделей вычислительных процессов.
Вторая проблема связана с недостаточной проработанностью методов проектирования с применением проверки корректности моделей обработки данных.
Третья проблема обусловлена малой исследованностью методик предварительной обработки данных, представленных в виде комплектов, при вычислении ключевых показателей эффективности с использованием номинальных и порядковых шкал. В этом случае традиционный подход к предварительной обработке данных, основанный на использовании метода анализа иерархий, не реализуем. Необходимость решения названных выше проблем определяет актуальность данного диссертационного исследования.
Целью диссертационной работы является разработка и исследование моделей представления данных, процессов обработки и анализа данных в информационно-аналитической системе с настраиваемыми метриками на основе ключевых показателей эффективности.
Для достижения поставленной цели решены следующие задачи:
• анализ процессов сбора, хранения, предварительной обработки и анализа данных в информационно-аналитических системах, реализуемых с применением настраиваемых метрик на основе ключевых показателей эффективности;
• теоретическое обоснование и исследование математических многомерных моделей данных для сбора и хранения, проведения
оперативного и интеллектуального анализа средствами информационно-аналитической системы;
• теоретическое обоснование и исследование математических моделей обработки данных в процессе наполнения хранилища данных, проведения оперативного и интеллектуального анализа данных;
• разработка на основе предложенных модельных представлений данных и процессов транзакционной базы данных, многомерного хранилища данных, клиентских приложений прототипа информационно-аналитической системы и проведение экспериментов.
Предметом исследования являются математические модели и структуры многомерного представления данных, модели процессов извлечения, преобразования и загрузки данных, модели и алгоритмы обработки и анализа данных.
Объектом исследования являются процессы сбора, накопления, предварительной обработки, загрузки и анализа данных при создании информационно-аналитической системы.
Методы исследования основаны на алгебре кортежей, теории нечетких множеств, методах оперативного и интеллектуального анализа данных, теории принятия коллективных решений, теории матроидов, методах концептуального моделирования. При разработке программных средств использованы объектно-ориентированный и реляционный подходы.
Научная новизна работы заключается в следующем.
1. Предложена методика построения математической модели данных на основе настраиваемых метрик ключевых показателей эффективности, отличающаяся представлением объектов и связей в виде С-систем алгебры кортежей и обеспечивающая проверку модели данных на соответствие моделям проектируемых процессов предварительной обработки, загрузки и анализа данных аналитическими методами.
2. Доказано соответствие структуры многомерной модели данных матроидной структуре, в которой максимальные независимые подмножества
функциональных взаимосвязей между мерами и измерениями являются базами, что позволяет автоматизировать эквивалентные преобразования структуры реляционных хранилищ данных.
3. Предложен жадный алгоритм поиска структуры реляционного хранилища данных, отличающейся представлением группы измерений и мер в виде матроида. Алгоритм обеспечивает выполнение требований по ограничению времени выполнения запросов в соответствии с тестом быстрого анализа разделяемой многомерной информации (ТА8М1).
4. Предложено формализованное описание процессов сбора, загрузки в хранилище и анализа данных с использованием операций алгебры кортежей, что позволяет осуществить доказательство корректности моделей процессов формальными методами.
5. Разработана процедура предварительной обработки комплектов данных, отличающаяся применением рациональной и решающей функции для вычисления ключевых показателей эффективности, что позволяет уменьшить объем хранилища данных и сократить время на проведение анализа данных.
Практическая значимость исследований.
Разработанные программные средства для реализации информационной технологии хранения, обработки и анализа данных при управлении организацией на основе ключевых показателей эффективности обеспечивают осуществление процессов сбора, предобработки, оперативного и интеллектуального анализа данных. Разработанный алгоритм поиска структуры реляционного хранилища данных системы оперативной аналитической обработки данных со сложностью о(п) позволяет строить хранилища данных с учетом требований скорости выполнения запросов. Разработанный подход к проектированию процессов обработки и анализа данных позволяет сократить количество итераций разработки программных средств за счет доказательства корректности моделей обработки и анализа данных на этапе проектирования.
Результаты, выносимые на защиту:
1. Методика построения математических моделей данных на основе концепции многомерного пространства данных и операций алгебры кортежей.
2. Модельное представление структуры многомерных данных, отражающих совокупность ключевых показателей эффективности и используемых при принятии управленческих решений, в виде группы матроидов
3. Алгоритм поиска структуры модели данных, удовлетворяющей требованию минимума затрат времени на выполнение запроса к многомерному реляционному хранилищу данных.
4. Модели сбора данных, преобразования и загрузки реляционного хранилища данных, оперативного и интеллектуального анализа данных в информационно-аналитической системе.
5. Процедура предварительной обработки и агрегации данных с применением рациональной и решающей функции ранжирования.
Реализация и внедрение результатов работы.
Теоретические и практические результаты диссертационного исследования внедрены:
- в Пензенском государственном университете при разработке информационно-аналитической системы оценки деятельности преподавателей, кафедр и факультетов на основе ключевых показателей эффективности;
- в ООО «Мое дело» г. Пензы для оценки деятельности сотрудников отдела «ERP» на основе ключевых показателей эффективности с применением Web-технологий.
Достоверность и обоснованность.
Обоснованность и достоверность результатов определяется корректным использованием строгих и апробированных методов исследования и подтверждается практическим применением полученных
результатов при разработке программных средств, что подтверждено актом о внедрении результатов работы, а также апробацией работы на всероссийских и международных конференциях.
Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях: VII Всероссийская научно-практическая конференция «Системы автоматизации в образовании, науке и производстве» (Новокузнецк, 2009), Международная конференция «Information Technologies in Education for All» (Киев, 2009), III Международная научно-практическая конференция «Информационная среда вуза XXI века» (Петрозаводск, 2009), XII Всероссийская объединенная конференция «Интернет и современное общество» (Санкт-Петербург, 2009), IX Международная научно-техническая конференция «Новые информационные технологии и системы» (Пенза, 2010), XV Международная научно-методическая конференция «Университетское образование» (Пенза, 2011), Международная научно-практическая конференция «Молодежь и наука: модернизация и инновационное развитие страны» (Пенза, 2011), V Международная научно-практическая конференция «Информационная среда вуза XXI века» (Петрозаводск, 2011).
Публикации. Основные положения диссертации опубликованы в 12 статьях и тезисах конференций. Среди них 2 статьи в журналах из перечня ВАК.
1 АНАЛИЗ МОДЕЛЬНЫХ ПРЕДСТАВЛЕНИЙ ДАННЫХ И ПРОЦЕССОВ В ИНФОРМАЦИОННЫХ СИСТЕМАХ
Рассматриваются современные подходы к организации хранения и обработки данных. Определяются требования к данным при проведении интеллектуального анализа данных и управлении организацией. Дается обзор моделей представления данных в современных базах данных. Анализируются средства формализованного описания моделей данных и моделей обработки данных.
1.1 Технологии хранения и обработки данных информационно-
аналитических систем
Под информационно-аналитической системой (ИАС), как правило, понимается комплекс аппаратных, программных средств, информационных ресурсов и методик, которые используются для обеспечения автоматизации аналитических работ в целях обоснования принятия управленческих решений и других возможных применений [15, с. 10].
ИАС включает в себя средства решения следующих задач:
- оперативный, интеллектуальный анализ данных и подготовка оценки состояния управляемого объекта;
- организация хранения и предоставления пользователям необходимой для принятия решений информации;
- сбор и первичная обработка данных;
- извлечение данных из разнородных источников и приведение их к единой структуре;
- визуализация результатов оперативного и интеллектуального анализа.
Как правило, в ИАС задача сбора и первичной обработки данных решается с использованием транзакционной базы данных, являющейся частью системы OLTP [22] (On-Line Transaction Processing - оперативная
обработка транзакций), рассчитанной на быстрое обслуживание, связанное со сбором небольших объемов данных, которые поступают с высокой интенсивностью [86, с. 8]. Для решения проблемы ограниченности возможностей систем OLTP при интеллектуальном анализе данных в ИАС используется технология OLAP (On-Line Analytical Processing - оперативная аналитическая обработка данных). Основоположником технологии OLAP является Э. Кодд, сформулировавший в 1993 году двенадцать основных правил, которые должны служить основой для выбора наиболее подходящих инструментов OLAP [78]. Впоследствии количество правил выросло до 18, и они были разбиты на 4 группы.
Для того чтобы упростить проверку на соответствие инструментов OLAP необходимым требованиям, на основе предложенных Э. Коддом правил Н. Пендсом и Р. Критом был разработан тест FASMI (Fast Analysis Shared Multidimensional Information - быстрый анализ разделяемой многомерной информации) [117]. В соответствии с тестом приложение должно иметь возможность обращаться к любой нужной информации, независимо от её объёма и места хранения. Также OLAP-система должна поддерживать интеллектуальный анализ данных и анализ, определяемый бизнес-процессами организации, а также �
-
Похожие работы
- Методы уменьшения трудоемкости решения сложных интеллектуальных задач на основе алгебры кортежей
- Разработка математических и программных средствавтоматического дифференцирования длякомпьютерного моделирования физико-механическихполей
- Методика обработки темпоральной реляционной базы данных в миварном пространстве
- Управление данными в системе Таблично-ориентированного программирования
- Матрично-реляционная модель данных в организационно-производственных системах мониторинга и управления
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность