автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Автоматизированная технология проектирования модели данных и контроля качества данных при построении информационно-аналитических систем

кандидата технических наук
Ильин, Алексей Андреевич
город
Тамбов
год
2008
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Автоматизированная технология проектирования модели данных и контроля качества данных при построении информационно-аналитических систем»

Автореферат диссертации по теме "Автоматизированная технология проектирования модели данных и контроля качества данных при построении информационно-аналитических систем"

□□3165362

На правах рукописи

ИЛЬИН Алексей Андреевич

АВТОМАТИЗИРОВАННАЯ ТЕХНОЛОГИЯ ПРОЕКТИРОВАНИЯ МОДЕЛИ ДАННЫХ И КОНТРОЛЯ КАЧЕСТВА ДАННЫХ ПРИ ПОСТРОЕНИИ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ

Специальность 05 25 05 - Информационные системы и процессы, правовые аспекты информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Тамбов - 2008

003165362

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Тамбовский государственный университет имени Г Р Державина»

Научный руководитель: доктор технических наук, профессор

Арзамасцев Александр Анатольевич

Официальные оппоненты: доктор технических наук

Муромцев Дмитрий Юрьевич;

кандидат технических наук Громов Максим Сергеевич

Ведущая организация: ГОУ ВПО «Воронежский

государственный университет»

Защита состоится «_4_»_04_ 2008 г в 11 часов на заседании

диссертационного совета Д 212 260 05 при ГОУ ВПО «Тамбовский государственный технический университет» по адресу 392000, г Тамбов, ул Советская, д 106, Большой актовый зал

Отзыв на автореферат в двух экземплярах, заверенных гербовой печатью, просим направлять по адресу 392000, г Тамбов, ул Советская, д 106, ТГТУ, ученому секретарю диссертационного совета Д 212 260 05 Селивановой 3 М

С диссертацией можно ознакомиться в научной библиотеке Тамбовского государственного технического университета.

Автореферат разослан « » </К> _ 2008 г

Ученый секретарь диссертационного совета, доктор технических наук, доцент

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. Диссертация посвящена разработке автоматизированной технологии проектирования модели данных и контроля качества данных при построении информационно-аналитических систем Большинство организаций оперируют со значительным объемом данных, которые необходимо анализировать для получения полного представления о тенденциях, изменениях, других процессах, которые влияют или могут повлиять на деятельность организации Одним из классов средств, используемых для анализа, являются информационно-аналитические системы Информационно-аналитические системы состоят из набора интегрированных средств, выбор которых зависит от конкретной задачи В общем случае, построение информационно-аналитической системы подразумевает решение следующих задач 1) проектирование модели данных, 2) наполнение хранилища данных информацией с помощью процедур загрузки данных (ЕТЬ), 3) обеспечение необходимого качества данных, 4) предоставление доступа к информации пользователям и визуализация анализируемых данных

Для задач 2 и 4 созданы специализированные программные средства, пригодные для использования практически в любом проекте по созданию информационно-аналитической системы, поэтому в данной работе эти задачи рассматриваться не будут Задачи 1 и 3 являются уникальными для каждого проекта и решаются каждый раз заново В результате, проблемы, связанные с задачами 1 и 3, приводят к тому, что, несмотря на опыт и технологии, накопленные за более чем 30-летнюю историю, проекты по созданию информационно-аналитических систем остаются рискованными

Высокий уровень рисков, связанный с проектами по созданию информационно-аналитических систем, а также постоянно увеличивающийся спрос на системы данного класса требуют поиска и разработки новых технологий проектирования модели данных и контроля качества данных, что обусловливает актуальность представленной работы

Цель и задачи исследования. Целью данной работы является разработка автоматизированной технологии проектирования модели данных и контроля качества данных, позволяющей сократить трудозатраты, необходимые для создания информационно-аналитических систем

Для достижения поставленной цели решаются следующие задачи

1) анализ существующих технологий в области построения информационно-аналитических систем, выявление существующих недостатков и определение требований к технологии разработки систем данного класса,

2) разработка методов проектирования модели данных и контроля качества данных при построении информационно-аналитических систем,

удовлетворяющих сформулированным требованиям, 3) разработка программного комплекса, предназначенного проектировать модель данных и осуществлять контроль качества данных при построении информационно-аналитических систем в рамках разработанных методов, 4) экспериментальная проверка разработанной технологии с помощью макета информационно-аналитической системы для анализа деятельности вуза, 5) определение области применения разработанной технологии и возможности сокращения трудозатрат на основе анализа использования разработанной технологии для создания информационно-аналитических систем

Объект исследования: информационно-аналитические системы

Предмет исследования: технология проектирования модели данных и контроля качества данных для построения информационно-аналитических систем

Научная новизна. В диссертационной работе получены новые научные результаты

1) технология разработки модели данных для информационно-аналитических систем, отличительной особенностью которой является декомпозиция общей задачи построения модели данных на независимые подзадачи разработки модели предметной области и описание правил формирования физической модели данных, такая особенность позволяет проводить решение указанной проблемы независимо специалистами в предметной области и по системам управления базами данных и средствам анализа данных, а также использовать «предыдущий опыт» и наработки предшествующих проектов для разработки данного проекта, а разработанный набор правил формирования физической модели данных позволяет автоматизировать получение ее, требуя лишь описание объектов предметной области,

2) методика автоматизированного контроля качества данных на всех этапах создания информационно-аналитической системы в источниках данных, в приемнике, а также на всех промежуточных этапах,

3) программный комплекс, позволяющий автоматизировать решение задач проектирования модели данных и контроля качества информации и независимый от технологий, используемых при построении информационно-аналитической системы

На защиту выносятся следующие основные положения:

1) технология проектирования модели данных для информационно-аналитических систем, дающая возможность автоматизировать получение физической модели данных,

2) методика контроля качества данных, позволяющая автоматизировать контроль качества информации на всех этапах создания информационно-аналитической системы,

3) структура программного комплекса, предназначенного для решения задач автоматизации проектирования модели данных и контроля качества информации

Практическая ценность работы заключается в снижении трудозатрат при разработке информационно-аналитических систем, в возможности использования опыта предыдущих проектов в разработке данного, в возможности разделения функций «универсального» специалиста на независимые функции специалиста предметной области и специалиста по системам управления базами данных и средствам анализа данных Указанная технология позволяет построить компьютерно-ориентированную автоматизированную систему

Полученные в рамках диссертационной работы результаты были использованы в работе консалтинговой компании S&T International (г Москва) при исследованиях и разработках в области информационно-аналитических систем Разработанная технология и программный комплекс были успешно применены при разработке информационно-аналитических систем компаний Данон, Кампомос (обе - г Москва), Балтийский банк (г Санкт-Петербург) и М Видео (г Москва)

Апробация работы. Полученные результаты докладывались и обсуждались на третьей и четвертой ежегодных конференциях Business Intelligence (Москва, 2005 и 2006), конференции «XI Державинские чтения» (Тамбов, 2006), Всероссийских конференциях «XII и XIII Державинские чтения» (Тамбов, 2007 и 2008), XVII Международной конференции-выставке «ИТО-2007» (Москва, 2007) и в рамках публичных лекций для студентов и аспирантов в ходе мероприятий, посвященных 75-летию Института математики, физики и информатики ТГУ им Г Р Державина Результаты работы использовались в реализации совместного европейского проекта в ТГУ им Г Р Державина по использованию информационных технологий в модернизации университетского управления — TEMPUS TACIS «Joint European Project on System Modernization of University Management (SMOOTH, UMJEP 24217-2003)»

Публикации. Основные положения диссертации опубликованы в 12 печатных работах, в том числе 4 статьи опубликованы в двух журналах из Перечня рецензируемых научных журналов ВАК за 2006 г «Программные продукты и системы» (приложение к журналу «Проблемы теории и практики управления»), «Вестник Тамбовского университета Серия Естественные и технические науки»

Структура диссертационной работы. Диссертационная работа состоит из введения, трех глав и заключения, изложенных на 136 страницах, содержит 33 рисунка, 4 таблицы и библиографический список из 73 наименований

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении сформулирована цель работы, обоснована ее актуальность, научная новизна и практическая значимость Дается общая характеристика содержания диссертационной работы, изложены основные положения, выносимые на защиту

В первой главе «Задача проектирования модели данных и контроля качества данных при построении информационно-аналитических систем» приведен анализ существующих средств проектирования модели данных и контроля качества данных при построении информационно-аналитических систем, определены сильные и слабые стороны

В разделе 1.1 приведено определение модели данных и уровней модели данных, проведен анализ особенностей проектирования логического и физического уровней модели данных при построении информационно-аналитических систем

Описаны результаты анализа существующих технологий проектирования модели данных при построении информационно-аналитических систем Выделено три подхода к решению данной задачи 1) разработка модели данных «с нуля», 2) использование готовых индустриальных моделей данных, 3) использование универсальной модели данных

При разработке модели данных «с нуля» разработчик вначале проектирует логическую модель данных, определяя сущности предметной области, для которой она строится Среди определенных сущностей выделяются факты - числовые показатели, интересующие аналитиков, и атрибуты, в разрезе которых определены анализируемые факты После этого определяются виды связи между атрибутами и логические группировки атрибутов - иерархии На основании логического уровня модели данных разработчик проектирует физический уровень - набор таблиц реляционной базы данных, а также связи между ними Такой подход требует большого опыта по разработке моделей данных, владения инструментом, которым будет пользоваться конечный пользователь, знания предметной области, для которой строится хранилище данных Зачастую возникают сложности с поиском специалиста, одинаково хорошо владеющего предметной областью, технологией проектирований моделей данных и инструментом для их визуализации Разработка такой модели требует длительного времени, так как необходимо согласовывать требования со стороны различных специалистов по предметной области, по моделированию данных и по средствам визуализации

Описанных недостатков лишен второй подход, в основе которого лежит использование готовых индустриальных моделей данных компаний IBM, Oracle, SAS, Teradata, Sybase и др Основным недостатком индустриальных моделей является возможность их использования лишь для

ограниченного количества предметных областей Кроме того, необходимо отметить, что поскольку готовые индустриальные модели покрывают в среднем 80% потребностей, то оставшиеся 20% требуют разработки «с нуля»

Альтернативой описанным выше подходам является использование универсальной модели данных В качестве примера рассмотрена модель С1агау1е\у, которая создавалась для анализа произвольной информации, полученной из неструктурированных источников данных В этой модели не содержится сущности конкретной предметной области, а лишь высокоуровневые объекты, например сущность, связь, иерархия сущностей, иерархия связей и др При использовании универсальной модели данных часто возникают проблемы с производительностью системы, а также сложности с настройкой средства визуализации данных, так как каждое средство визуализации имеет набор определенных ограничений и рекомендаций к модели данных

В разделе 1.2 приводится определение качества данных Под качественными понимаются данные, обладающие следующими свойствами корректность, недвусмысленность, согласованность, полнота

Показано, что недостаточно контролировать качество информации лишь в целевой базе данных и источниках, необходимо контролировать качество данных на каждом этапе построения информационно-аналитической системы при извлечении информации из источников, приведении к общему формату, преобразовании и загрузке информации в хранилище

Описаны результаты анализа существующих технологий контроля качества данных репозитории метаданных, средства профилирования информации, системы мониторинга данных, средства очистки информации, системы управления базами данных, средства управления справочниками

В результате проведенного анализа у существующих технологий контроля качества данных выявлен ряд недостатков

Репозитории метаданных является фундаментом, лежащим в основе как решения задачи построения информационно-аналитической системы в целом, так и контроля качества данных, но сам по себе он не способен ни улучшить качество информации, ни даже определить проблемы, связанные с качеством данных

Средства профилирования и очистки информации крайне полезны на начальных стадиях проекта и после завершения проекта, но неприменимы на промежуточных этапах, в частности, для контроля процедур загрузки данных Таким образом, эти средства не позволяют контролировать качество данных на всех стадиях создания информационно-аналитической системы

Системы мониторинга данных и системы управления базами данных контролируют качество на уровне транзакций, поэтому они полезны при повышении качества данных в оперативных системах, но не при построении информационно-аналитических систем Кроме того, использование средств систем управления базами данных для контроля их качества серьезно сказывается на производительности системы

Средства управления справочниками решают задачу в узкой предметной области, но не задачу контроля качества данных в рамках всей информационно-аналитической системы

На основании проведенного анализа существующих технологий и программных средств в разделе 1.3 определяются требования, предъявляемые к разрабатываемой технологии

- технология должна позволять проектировать модель данных специалисту, обладающему знаниями лишь предметной области, и не требовать глубоких знаний теории хранилищ данных и требований, накладываемых на модель данных средством визуализации информации,

- возможность проектировать модель данных для решения аналитических задач в произвольной предметной области,

- возможность использовать произвольное средство визуализации данных для настройки над созданной моделью данных,

- необходимо обеспечить контроль качества данных на всех стадиях создания информационно-аналитической системы при извлечении информации из источников, приведении к общему формату, преобразовании и загрузке информации в хранилище данных,

- возможность настройки производительности системы в зависимости от требований, предъявляемых к информационно-аналитической системе,

- наличие единого программного комплекса, позволяющего автоматизировать проектирование модели данных и контроль качества данных при построении информационно-аналитических систем

Во второй главе «Формализация задачи и разработка автоматизированных методов проектирования модели данных и контроля качества информации» описаны разработанные методы проектирования модели данных и контроля качества данных

Раздел 2.1 посвящен автоматизированному проектированию модели данных

Логическая модель данных - ориентированный размеченный граф С(У,Е), где V - множество анализируемых объектов предметной области, Е - множество связей между анализируемыми объектами

Разметка вершин ] А —» Б определяется типом анализируемого объекта, то есть Б = {51, Б2, БЗ}, где Б1 = «факт», Б2 = «атрибут», БЗ = «медленно меняющаяся размерность» Разметка дуг £ Я —► К

определяется типом связи между объектами, то есть К = {Kl, К2, КЗ, К4}, где К1 = «факт-атрибут», К2 = «один-к-одному», КЗ = «один-ко-многим», К4 = «многие-ко-многим»

Ориентация графа определяется направлением связи «родитель —> потомок» в случае связей вида К2 - К4 и направлением связи «атрибут —► факт» в случае связи вида К1

Для определения физической модели данных используют реляционную модель Для определения реляционной модели данных необходимо определить множество отношений

Автоматизация разработки модели данных подразумевает, что физическая модель данных строится автоматически на основании логической модели данных и набора правил преобразования логической модели данных в физическую - шаблона генерации структуры базы данных

В работе доказано утверждение для произвольной логической модели данных и набора ограничений, накладываемых системой управления базами данных и средством визуализации данных, процесс построения физической модели данных для информационно-аналитической системы может быть автоматизирован

Предложена методика автоматизации построения модели данных В рамках данной методики предложено разделить решение задачи на две компоненты I Определение списка объектов предметной области, которые необходимо анализировать, и связей между выделенными объектами (осуществляется специалистом по предметной области) Определенные объекты сохраняются в специализированной базе данных - репозитории метаданных 2 Определение правил генерации структуры базы данных (осуществляется специалистом по теории хранилищ данных и средствам визуализации информации)

Специалист по предметной области определяет следующие виды объектов логической модели факты - числовые характеристики, которые можно агрегировать и обозначающие некоторое событие, атрибуты -текстовый контекст фактов определяет уровень, на котором определен тот или иной факт, иерархии - логические группировки атрибутов, связи между объектами и их тип

После этого разработчик выбирает правила генерации структуры базы данных Правила могут быть представлены в форме кода на реляционно-полном языке, например, SQL, в котором часть конструкций заменена макросами, которые в процессе макроподстановки будут заменены соответствующими элементами графа G(V,E) логической модели данных В работе показано, что для определения правил генерации структуры базы достаточно использовать макросы, описанные в табл 1

Таблица 1

Список макросов

Макрос Операция

#GetObj ectName Определение имени таблицы

#GetFacts Получение списка фактов для таблицы фактов

#GetAttributes Получение списка ссылок на атрибуты для таблицы фактов

#GetAttrID Получение идентификатора атрибута

#GetAttrDesc Получение описательных столбцов атрибута

#GetAttrParentID Получение идентификатора родителя атрибута

#Foreach Оператор цикла

В работе реализованы шаблоны генерации структуры базы данных для создания следующих видов таблиц фактов, атрибутов в схеме «звезда», атрибутов в схеме «снежинка», атрибутов «денормализованная снежинка», атрибутов с историей изменений (два варианта)

В результате объединения информации репозитория метаданных и шаблонов на основании утверждения автоматически создается определение структуры хранилища данных При разработке указанных шаблонов использовался стандарт ISO SQL92, таким образом, в результате работы получается код на SQL92, который может быть выполнен на любой системе управления базами данных, поддерживающей данный стандарт

При использовании технологии в реальном проекте следует учесть особенности используемой системы управления базами данных, а также средства визуализации данных, и в соответствии с ними выбирать один из разработанных шаблонов либо дополнять список шаблонов новыми

Раздел 2.2 посвящен разработке методов контроля качества данных при построении информационно-аналитической системы

Для различных видов объектов, входящих в информационно-аналитическую систему - фактов и измерений - разработаны методы проверки признаков качественной информации, определенных в разделе 1 2

Выделено пять классов проверок качества данных, которые необходимо реализовать для обеспечения необходимого качества данных в информационно-аналитической системе 1) контроль значений колонок таблицы, 2) контроль наличия в таблице всех необходимых значений, 3) контроль дубликатов, 4) контроль правила «трех сигм», 5) контроль качества информации с помощью прогнозирования

Для каждого из пяти сформулированных классов проверок описаны алгоритмы процедур контроля качества данных и определены параметры, необходимые для осуществления проверки

Предложен метод применения сформулированных видов проверок качества данных, удовлетворяющий требованию возможности контроля качества информации на всех этапах создания информационно-анали-8

тической системы. В соответствии с этим требованием разрабатываемая система должна быть применима на любой стадии процесса ETL. При создании процедур ETL разработчик определяет источники и приемники данных, а также преобразования, которые осуществляются над данными. Для обеспечения возможности контроля качества данных на любой стадии процесса ETL необходимо, чтобы к существующим компонентам средства ETL (коннекторы к системам управления базами данных, средства преобразования данных и так далее) был добавлен компонент, вызывающий подсистему контроля качества данных. При выполнении этого требования разработчик может установить вызовы необходимых проверок качества информации в те моменты выполнения процедуры ETL, когда риск появления некачественной информации наиболее высок. Кроме того, обладая возможностью использовать систему контроля качества данных при определении процедур ETL, разработчик может управлять производительностью системы загрузки данных.

В третьей главе «Разработка программного комплекса и анализ результатов применения разработанной технологии» приведена архитектура разработанного программного комплекса и описаны практические результаты использования разработанной технологии и программного комплекса для построения информационно-аналитических систем.

Разработанный программный комплекс состоит из двух подсистем: 1) подсистема проектирования модели данных; 2) подсистема контроля качества данных.

Подсистема проектирования модели данных состоит из четырех компонент: 1) редактор объектов предметной области; 2) редактор шаблонов генерации структуры базы данных; 3) репозиторий метаданных; 4) генератор структуры базы данных (рис. 1).

Редактор объектов предметной области

Объекты Шаблоны

Генератор структуры базы данных

Репозиторий метаданных

Редактор шаблонов генерации структуры базы данных

Рис. 1. Архитектура подсистемы проектирования модели данных

С помощью редактора объектов предметной области определяется логическая модель данных, то есть факты, атрибуты и иерархии, а также связи между различными объектами

С помощью редактора шаблонов генерации структуры базы данных определяются правила, по которым будет создана структура хранилища данных При создании шаблонов разработчик использует язык платформы, на которой будет создано хранилище данных При этом также используются макроподстановки, ссылающиеся на описанные объекты предметной области

Например, для генерации таблицы фактов использовался следующий шаблон на языке ISO SQL-92

CREATE TABLE #GetOb:ectName(this)( #GetFacts(this) , #GetAttributes(this))

Макроподстановка IGetObj ectName определяет имя таблицы фактов, #GetFacts - список фактов, #GetAttributes - список ссылок на атрибуты, в разрезе которых определены данные факты

Созданные определения предметной области и шаблоны генерации структуры базы данных сохраняются в служебную базу данных - репози-торий метаданных

После определения необходимых объектов предметной области и шаблонов генерации структуры базы данных автоматически создается определение физической модели данных с помощью генератора структуры базы данных, который производит замену макроподстановок, используемых в шаблонах, на соответствующие определения объектов предметной области

После проектирования модели данных определяются правила контроля качества данных, накладываемые на созданные объекты предметной области и проверяемые с помощью подсистемы контроля качества данных Подсистема контроля качества данных состоит из следующих компонент 1) средство определения правил проверки качества данных, 2) инструмент ETL, 3) серверная часть системы, осуществляющая проверку качества данных

Подсистема контроля качества данных позволяет создавать любой из 5 классов проверок, сформулированных в разделе 2 2 Созданные определения проверок качества данных переносятся в текстовый файл Затем в процедуры ETL добавляются компоненты проверки качества данных, в качестве параметра которых указывается имя файла, содержащего сформулированные правила проверки качества данных При выполнении процедур ETL происходит вызов необходимых проверок качества данных, результат выполнения которых определяет последующие действия про-

цедур ETL (продолжение загрузки данных либо предупреждение о низком качестве данных)

Для осуществления взаимодействия между ETL-средством и серверной частью системы был выбран один из универсальных способов интеграции нескольких приложений - web-сервисы, так как технология web-сервисов поддерживается большинством ETL-средств

Продемонстрирован механизм интеграции разработанного программного комплекса с ETL-средством IBM WebSphere DataStage Для этого в DataStage создан дополнительный модуль, состоящий из компоненты вызова web-сервиса и компоненты «Трансформер», который принимает на вход результат выполнения процедуры контроля качества данных и в зависимости от результата направляет информацию по одной из ветвей «true» или «false»

Созданный модуль можно использовать в любой создаваемой процедуре ETL аналогично другим компонентам, передавая в качестве параметра имя файла, содержащего ограничения, накладываемые на качество данных Например, можно разрешить продолжение обработки данных лишь в случае, когда информация удовлетворяет сформулированным ограничениям, в противном случае поступит уведомление об обнаруженных ошибках

В разделе 3.5 описана реализация макета информационно-аналитической системы, разработанной на основе созданной технологии и программного комплекса, для управления деятельностью университета Данный раздел работы выполнялся в рамках реализации проекта TEMPUS TACIS «System Modernization of University Management» в Тамбовском государственном университете им Г Р Державина

В работе предложен набор сущностей, которые могут быть использованы для анализа и управления деятельностью университета кафедры, студенты, сотрудники, полученные фанты, публикации, контакты, оценки и зачеты, отчетные данные кафедр, читаемые курсы В макет также добавлена информация, полученная при анкетировании студентов Тамбовского государственного университета им Г Р Державина Особенностью информации анкет является относительно небольшое количество фактов и большое количество атрибутов измерений, благодаря чему логическая модель данных для информации одной лишь анкеты получилась достаточно объемной Часть полученной модели данных (логический и физический уровень) представлена на рис 2-4

При работе с информацией анкет были выявлены примеры некачественных данных наличие неполной информации (отсутствие какого-либо ответа на вопрос анкеты), дубликаты (несколько ответов на вопрос, подразумевающий лишь один ответ) и пр

ю

1.5 Сшдетьньш статус родителей | |13Пол

—тгт:

]

1.4 Факультет

г

1.6 Материальное положение

\

4.1 Иктерес к общественной деятельности ;

31

•и к

р

о ч

Ст"

и

О ч

я о

КС

2 о

й а> й К 5а Р

а я

2.4 Допопншельные занятия

]

т

8.5 Взаимопонимание

+

2 Успеваемость из елке ты ____.__* ^

.1 Муж (жена Г| (}

Ггг^

_|| ^ 71г Ж

ш

4..5 Проблемы с общением в

8.6 Семейные дела

I

----

4.4 Общественная деятельность 8 будощэм |1

ТТТ VI —5.2 Склонность к искусству ^

4 Общественнаяапивностъ II ^^и^^ии^^виивш^иивл

3£Материальноеобеспечежевбудуц^м^ 3.8 Продолжение о6редоэвния| 3.7 Роль Уг^дерстета^

2,3 Участие в конференциях

ID участия в конференциях

Участие в конференциях

2.4 Дополнительные занятия

Ю вида дополнительного занятия

Вед дополнительного занятая

2.5 Научная работа

Ю Участия в научной работе

Научная работа

1 5 Социальный статус родителей 3 Пол 1 4 Факультет

Ю социального статуса родител ПолЮ | ID факультета

Социальный статус родителей hü Факультет

-П t

2 Успеваемость из анкеты ЖЖ Ж Студент i

Номер студента рК)

По специальности По математическим По информатике По общим и гуманитарным По иностранному языку По физкультуре Вид дополнительного занятая ^К) Участие в научной работе (РК) участие в конференциях (РК)

Номер студента

Пол (РК)

факультет (РК)

социальный статус отца (РК)

социальный статус матери (РК)

Имя студента

Год рождения

Год поступления

Курс на момент анкетирования

Количество детей

Рис. 3. Детализированная логическая модель данных

I ExtraSludy

Ех1гааийу_Ю: М

ExtraSiudy: varchar(50)

М М ExtraSiudy

ParentSocStatus

ParentSocStatusJD: int SexJD: int

PSocStatus: varchar(5D) 5вх: уагсЬаг(10)

" t

StudentJD: int ExtraStudyJD: int

! Department

>H t AnketMarks

t Conferences

Conference ID: int

Conference; varchar(3Q)

t Science

Science ID: int

Science: varchar(30)

4-■-K -4«

Student ID; int

Spec_Mark: decimal(3,2) Math_Marks: decimal(3,2) CS_Marks: decimal(3,2) Humanities JAerira: decimal(3,2) ForeignLang_Marks: decimal(3,2) PhysTraining_Marks: decimal(3,2) Science JD: int Conference ID: int

ОераПтепПО: ¡гЛ

Department: varchar(5D)

■14

Students

Student ID: int

Sexjd: int department jd: int FatherSocStatusJD: int MotherSocStatusJD: int StiidentJMame: varchar(50) Birth_Vear; int Еп1гапсе_Уваг: int CurStudy_Year: int FamJD: char(IB) Child Num: int

Рис. 4. Физическая модель данных

Таким образом, разработанная технология использована для создания информационно-аналитической системы для управления деятельностью университета Разработанная технология и программный комплекс могут быть также использованы и для решения широкого спектра аналитических задач в других областях (анализ деятельности предприятий в производственной, банковской и других сферах)

В разделе 3.6 приведен анализ возможности сокращения трудозатрат при использовании разработанной технологии и программного комплекса при создании информационно-аналитических систем Для сравнения была проанализирована усредненная статистика большого числа проектов по созданию информационно-аналитических систем, которые проводились компанией Б&Т 1п1егпайопа1, используя традиционные технологии, и проекты, при разработке которых использовались разработанные в рамках диссертационной работы технология и программный комплекс Данон (производство), Кампомос (производство), Банк Балтийский, М Видео (розничная торговля) Результаты сравнения трудозатрат проектов по длительности их этапов приведены в табл 2

Таблица 2

Сокращение трудозатрат в случае применения разработанной технологии и программного комплекса при создании информационно-аналитической системы

Этап проекта Данон (производство) Кампомос (производство) М Видео (розничная торговля) Банк Балтийский

Разработка модели данных (чел /дней) 20 17 27 30

Разработка ЕТЬ (чел /дней) 48 50 51 63

Разработка процедур контроля качества данных (чел /дней) 36 35 41 49

Настройка средства анализа данных (чел /дней) 18 17 21 23

Итого 122 119 140 165

Средняя длительность разработки без использования предлагаемого решения (чел /дней) 145 145 180 215

Сокращение трудозатрат, % 16 18 22 23

Из табл 2 следует, что использование разработанной технологии и программного комплекса позволяет сократить длительность разработки информационно-аналитической системы на 16-23 %, причем результативность использования увеличивается при возрастании сложности проекта

В заключении сформулированы основные результаты диссертационной работы

1 Проанализированы существующие решения в области построения информационно-аналитических систем, выявлены их сильные и слабые стороны и определены требования к технологии разработки систем данного класса

2 Разработаны методы проектирования модели данных и контроля качества данных при построении информационно-аналитических систем, удовлетворяющих сформулированным требованиям

3 Разработан программный комплекс, позволяющий проектировать модель данных и осуществлять контроль качества данных при построении информационно-аналитических систем в рамках разработанных методов

4 Проведена экспериментальная проверка разработанной технологии, для этого разработан макет информационно-аналитической системы для анализа деятельности вуза

5 На основе анализа результатов опытной эксплуатации макета определены возможности по сокращению трудозатрат и область применения разработанной технологии

Основные положения диссертации отражены в следующих печатных работах:

Статьи в журналах, рекомендованных ВАК, для публикации результатов диссертации

1 Ильин, А А Некоторые проблемы построения корпоративных хранилищ данных / А А Ильин // Программные продукты и системы (между-нар науч -практ приложение к междунар журналу «Проблемы теории и практики управления») -2005 -№3(71) - С 29-32

2 Ильин, А А Перспективы использования информационно-аналитических систем для управления в системе образования / А А Ильин, А А Арзамасцев // Вестн Тамб ун-та Сер Естеств и техн науки - Тамбов, 2006 -Т 11, вып 2-С 181-184

3 Ильин, А А Разработка информационной системы управления учебным процессом и научной деятельностью в Институте математики, физики и информатики ТГУ им Г Р Державина / А А Арзамасцев, Д В Слетков, Н А Зенкова, Ю А Зусман, А А Ильин, В П Дудаков, С Б Лазутин, Н О Шкута, А Н Королев, С С Банников, Л С Шкатова, Т Б Шохина, О С Алферова, О В Кукушкина // Вестн Тамб ун-та Сер Естеств и техн науки -Тамбов, 2006 -Т 11, вып 2 - С 177-180

4 Ильин, А А Построение информационно-аналитической системы для управления деятельностью университета / А А Ильин, А А Арзамасцев, М С Головкин, А С Ермаков, Е В Юрьева // Вестн Тамб ун-та Сер Ес-

теств и техн науки Материалы междунар конф «Информационные технологии в управлении университетом», Третье рабочее совещание по проекту SMOOTH 17-20 окт 2006 г, г Тамбов - Тамбов, 2006 - Т 11, вып 5 -С 698-704

Другие издания

5 Ильин, А А Методы контроля качества данных при построении систем поддержки принятия решений / А А Ильин // Сборник тезисов лучших дипломных работ 2005 года / сост А В Ильин, В В Фомичев -М Издат отдел Фак-та ВМиК МГУ им М В Ломоносова, 2005 - С 86-87

6 Ильин, А А BI-решения компании S&T International на основе уникальных технологий Sunopsis / А А Ильин // Business Intelligence результативность использования технологий и приложений материалы 3 конф - Москва, 30 нояб 2005 г - М , 2005 - С 13

7 Ильин, А А Построение систем Business Intelligence и Enterprise Application Integration на основе средства интеграции данных Sunopsis / А А Ильин // Business Intelligence материалы 4 конф 23 нояб 2006 г, г Москва - М ,2006 -С 13

8 Ильин, А А Инструменты Extract-Transform-Load (ETL) для создания хранилищ данных / М С Головкин, А А Ильин // Машиностроитель - 2006 - № 11 - С 26-29

9 Ильин, А А Контроль качества данных при построении информационно-аналитической системы / А А Ильин // Вестн Тамб ун-та Сер Естеств и техн науки XII Державинские чтения - Тамбов, 2007 -Т 12, вып 1 -С 119-120

10 Ильин, А А Автоматизация проектирования модели данных при построении информационно-аналитической системы для управления деятельностью университета / А А Ильин // XVII Междунар конф -выставка «Информационные технологии в образовании» (ИТО-2007) 9-11 нояб 2007 г, г Москва.-М МИФИ, 2007 -Ч 5 - С 41

11 Ильин, А А Будущее КИС Общемировые тенденции / Алексей Ильин, Илья Малиновский // Connect1 Мир связи - 2007 - № 11 (141) -С 128-131

12 Ильин, А А Автоматизированная технология проектирования модели данных при построении информационно-аналитической системы / А А Ильин // Вестн Тамб ун-та Сер Естеств и техн науки XIII Державинские чтения -Тамбов, 2008 -Т 13, вып 1 -С 89-90

Подписано к печати 26 02 2008 г Формат 60x84/16 Гарнитура Times New Roman Бумага офсетная Объем 1,0 уел печ л Тираж 100 экз Заказ 1075

Издательство Тамбовского государственного университета им Г Р Державина 392008, г Тамбов, Советская, 190г

Оглавление автор диссертации — кандидата технических наук Ильин, Алексей Андреевич

i ВВЕДЕНИЕ.

ГЛАВА ЗАДАЧА ПРОЕКТИРОВАНИЯ МОДЕЛИ ДАННЫХ И КОНТРОЛЯ КАЧЕСТВА ДАННЫХ ПРИ ПОСТРОЕНИИ ИНФОРМАЦИОННО; АНАЛИТИЧЕСКИХ СИСТЕМ.

1.1 Проектирование модели данных.

1.1.1 Логическая модель данных.

1.1.2 Физическая модель данных.

1.1.3 Классификация технологий проектирования моделей данных.

1.1.3.1 Разработка модели данных «с нуля».

1.1.3.2 Индустриальные модели данных.

1.1.3.3 Универсальная модель данных.

1.2 Обеспечение качества данных.

1.2.1 Классификация существующих технологий контроля качества данных. f< 1.2.1.1 Репозитории метаданных.

1.2.1.2 Средства профилирования информации.

1.2.1.3 Системы мониторинга данных.

1.2.1.4 Средства очистки информации.

1.2.1.5 Системы управления базами данных.

1.2.1.6 Средства управления справочниками.

1.3 Постановка задачи.

1.3.1 Недостатки существующих технологий проектирования модели данных.

1.3.2 Недостатки существующих средств повышения качества данных.

1.3.3 Требования к разрабатываемой технологии.

ГЛАВА

ФОРМАЛИЗАЦИЯ ЗАДАЧИ И РАЗРАБОТКА АВТОМАТИЗИРОВАННЫХ

МЕТОДОВ ПРОЕКТИРОВАНИЯ МОДЕЛИ ДАННЫХ И КОНТРОЛЯ

КАЧЕСТВА ИНФОРМАЦИИ.

2.1 Автоматизация проектирования модели данных.

2.1.1 Математическое моделирование модели данных.

2.1.2 Возможность автоматизации разработки модели данных. i 2.1.3 Макроязык для определения правил генерации структуры базы данных.

4 2.1.4 Шаблоны генерации структуры,базы данных.

5 2.1.5 Использование шаблонов автоматической генерации структуры

I базы данных и автоматизированная разработка модели данных.

2.2 Автоматизация контроля качества данных.

2.2.1 Контроль качества данных атрибутов. i 2.2.2 Контроль качества данных фактов.

1 2.2.3 Классы проверок качества данных.

2.2.3.1 Контроль значений колонок таблицы.

2.2.3.2 Контроль наличия в таблице всех необходимых значений.

2.2.3.3 Контроль дубликатов.

2.2.3.4 Контроль правила «3 о».

2.2.3.5 Контроль качества информации с помощью прогнозирования.

2.2.4 Контроль качества данных и ETL.

2.2.5 Абсолютное качество данных.

ГЛАВА

РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА И АНАЛИЗ

РЕЗУЛЬТАТОВ ПРИМЕНЕНИЯ РАЗРАБОТАННОЙ ТЕХНОЛОГИИ.

3.1 Архитектура программного комплекса.

3.2!Подсистема проектирования модели данных.

3.3 Подсистема контроля качества данных.

3.3.1 Использование системы контроля качества данных при разработке процедур ETL.

3.4 Репозиторий метаданных.

3.4 Производительность и расширяемость системы.

3.5 Информационно-аналитическая система для анализа деятельности университета.

3.6 Снижение трудозатрат при использовании разработанной технологии и программного комплекса при создании информационно-аналитических систем.

Введение 2008 год, диссертация по документальной информации, Ильин, Алексей Андреевич

Большинство организаций оперируют с большим объемом данных, которые необходимо правильно анализировать для получения полного представления о тенденциях, изменениях, других факторов, которые влияют или могут повлиять на деятельность организации. На сегодняшний-день разработан ряд программных средств, предназначенных для облегчения задачи анализа информации. Одним из классов таких программных средств являются информационно-аналитические системы.

Информационно-аналитические системы не являются готовыми продуктами, а состоят из набора интегрированных средств, выбор которых зависит от конкретной задачи.

Необходимая для анализа информация может содержаться в разных источниках: реляционных базах данных, текстовых файлах, документах html. Даже если работа предприятия управляется единой информационной системой, хранящей свою информацию в реляционной базе данных (такие базы называются оперативными), в большинстве случаев подобные системы не годятся для предоставления аналитической информации, так как оперативные системы и хранилища данных работают по разным принципам. Оперативные системы содержат текущую информацию, например, состояние банковского счета клиента, хранилище данных содержит историческую информацию, то есть в случае банковского счета хранится информация о средствах в разные моменты времени. Состояние оперативной системы все время изменяется, в ней происходит огромное количество небольших транзакций, например, перевод средств с одного счета на другой. Информация в ,хранилище остается неизменной и лишь пополняется новыми данными- по определенному расписанию. Оперативные системы лежат в основе работы предприятия, в то время как хранилища данных помогают ответить на вопрос: «Как работает предприятие?» и используются при разработке стратегий, направленных на повышение эффективности работы предприятия.

Перед оперативными системами и хранилищами данных ставятся разт ные задачи, поэтому архитектуры их также различаются. При построении хранилища обычно используют,многомерную модель данных [44, 57].

Для; наполнения хранилища информацией используется программное обеспечение класса ETL (Extract Transfer Eoad) [56]. Программное обеспечение этого класса предназначено для извлечения, приведения к общему формату, преобразованию и загрузки данных в хранилище.

Информационно-аналитические системы должны включать в себя также инструменты анализа информации, содержащейся в хранилище данных, и средства представления ее в более удобном, для восприятия виде (графики, сводные таблицы, отчеты), позволяющем принимать обоснованные решения. С этой целью используют инструменты Business Intelligence.

На основе типовых задач, решаемых разработчиками, можно привести определение информационно-аналитической системы. Понятие информационно-аналитической системы определяется различными авторами по-разному. В настоящей работе используется определение, приводимое Р. Кимбаллом: «Информационно-аналитическая система - программный комплекс, предназначенный для извлечения, очистки, проверки и загрузки данных из источников в многомерное хранилище данных, а также предоставляющий средства извлечения и анализа содержащейся в хранилище информации, с целью помощи в принятии решений» [56].

Построение информационно-аналитических систем состоит из следующих этапов:

1. Проектирование модели данных.

2. Наполнение хранилища данных информацией с помощью процедур ETL.

3. Обеспечение качества данных.

4. Предоставление удобного доступа к информации пользователям и визуализация анализируемых данных.

Для задач 2 и 4 созданы специализированные универсальные программные средства, пригодные для использования в любом проекте по созданию информационно-аналитической системы, поэтому в данной работе эти задачи рассматриваться не будут. Задачи 1 и 3 являются уникальными для каждого проекта и решаются каждый раз заново [42, 69, 72]. Таким образом, ключевыми факторами, влияющими на успех проекта по созданию информационно-аналитической системы, являются задачи проектирования модели данных и обеспечения качества данных [26,66]. В результате этого, несмотря на опыт и методики, накопленные за более чем 30-летнюю историю, проекты по созданию информационно-аналитических систем остаются рискованными. Джек Олсон приводит неутешительную статистику: 37 % проектов прекращаются, не получив каких-либо результатов;

50 % проектов доводятся до логического завершения, но при этом превышаются сроки или бюджет на 20 % и более; 13 % составляют успешные системы [66].

Высокий уровень рисков, связанный с проектами по созданию информационно-аналитических систем, а также постоянно увеличивающийся спрос на системы данного класса требуют поиска и разработки новых технологий проектирования модели данных и контроля,качества данных, что обусловливает актуальность представленной работы.

Цель и задачи исследования. Целью данной работы является разработка автоматизированной технологии проектирования модели данных и контроля качества данных, позволяющей сократить трудозатраты, необходимые для создания информационно-аналитических систем.

Для достижения поставленной цели решаются следующие задачи: 1) анализ существующих технологий в области построения информационно-аналитических систем, выявление существующих недостатков и определение требований к технологии разработки систем данного класса; 2) разработка методов проектирования модели данных и контроля качества данных при построении информационно-аналитических систем, удовлетворяющих сформулированным требованиям; 3) разработка программного комплекса, предназначенного проектировать модель данных и осуществлять контроль качества данных при построении информационно-аналитических систем в рамках разработанных методов; 4) экспериментальная проверка разработанной технологии с помощью макета информационно-аналитической системы для анализа деятельности вуза; 5) определение области применения разработанной технологии и возможности сокращения трудозатрат на основе анализа использования разработанной технологии для создания информационно-аналитических систем. •

Объект исследования: информационно-аналитические системы.

Предмет исследования: технология проектирования модели данных и контроля качества данных для построения информационно-аналитических систем.

Научная новизна. В диссертационной работе получены новые научные результаты:

1) технология разработки модели данных для информационно-аналитических систем, отличительной особенностью которой является декомпозиция общей задачи построения модели данных на независимые подзадачи разработки модели предметной области и описание правил формирования физической модели данных; такая особенность позволяет проводить решение указанной проблемы независимо специалистами в предметной области и по системам управления базами данных и средствам анализа данных, а также использовать «предыдущий опыт» и наработки предшествующих проектов для разработки данного проекта; а разработанный набор правил формирования физической модели данных позволяет автоматизировать получение ее, требуя лишь описание объектов предметной области;

2); методика автоматизированного контроля качества данных на всех этапах создания информационно-аналитической системы: в источниках данных, в приемнике, а также на всех промежуточных этапах;

3) программный комплекс, позволяющий автоматизировать решение задач проектирования модели данных и контроля качества информации и< независимый от технологий, используемых при построении информационно-аналитической системы.

На защиту выносятся следующие основные положения:

1) технология, проектирования модели данных для информационно-аналитических систем, дающая возможность автоматизировать получение физической модели данных;

2) методика контроля качества данных, позволяющая автоматизировать контроль качества информации на всех этапах создания информационно-аналитической системы;

3) структура программного комплекса, предназначенного для решения задач автоматизации проектирования модели данных и контроля- качества информации.

Практическая ценность работы заключается в снижении трудозатрат при разработке информационно-аналитических систем; в возможности использования опыта предыдущих проектов в разработке данного; в возможности разделения функций «универсального» специалиста на независимые функции специалиста предметной области и специалиста по системам управления базами данных и средствам анализа данных. Указанная технология позволяет построить компьютерно-ориентированную автоматизированную систему.

Полученные в рамках диссертационной работы результаты были использованы в работе консалтинговой компании S&T International (г. Москва) при исследованиях и разработках в области информационно-аналитических систем. Разработанная технология и программный комплекс были успешно применены при разработке информационно-аналитических систем компаний Данон, Кампомос (обе - г. Москва), Балтийский банк (г. Санкт-Петербург) и М.Видео (г. Москва).

Апробация работы. Полученные результаты докладывались и обсуждались на третьей и четвертой ежегодных конференциях Business Intelligence (Москва, 2005 и 2006) [6, 16]; конференции «XI Державинские чтения» (Тамбов, 2006); Всероссийских конференциях «XII и XIII Державинские чтения» (Тамбов, 2007 и 2008) [8, 11], XVII Международной конференции-выставке «ИТ02007» (Москва, 2007) [7] и в рамках публичных лекций для студентов и аспирантов в ходе мероприятий, посвященных 75-летию Института математики, физики и информатики ТГУ им. Г.Р. Державина. Результаты работы использовались в реализации совместного европейского проекта в ТГУ им. Г.Р. Державина по использованию информационных технологий в модернизации университетского управления - TEMPUS TACIS «Joint European Project on System Modernization of University Management (SMOOTH, UMJEP 24217-2003)».

Публикации. Основные положения диссертации опубликованы в 12 печатных работах [1, 6-16], в том числе 4 статьи опубликованы в двух журналах из Перечня рецензируемых научных журналов ВАК за 2006 г.: «Программные продукты и системы» (приложение к журналу «Проблемы теории и практики управления»), «Вестник Тамбовского университета. Серия: Естественные и технические науки».

Структура диссертационной работы. Диссертационная работа состоит из введения, трех глав и заключения, изложенных на 136 страницах, содержит 33 рисунка, 4 таблицы и библиографический список из 73 наименований.

Заключение диссертация на тему "Автоматизированная технология проектирования модели данных и контроля качества данных при построении информационно-аналитических систем"

Основные результаты диссертационной работы:

1. Проанализированы существующие решения в области построения информационно-аналитических систем, выявлены их сильные и слабые стороны и определены требования к технологии разработки систем данного класса.

2. Разработаны методы проектирования модели данных и контроля качества данных при построении информационно-аналитических систем, удовлетворяющих сформулированным требованиям.

3. Разработан программный комплекс, позволяющий проектировать модель данных и осуществлять контроль качества данных при построении информационно-аналитических систем в рамках разработанных методов.

4. Проведена экспериментальная проверка разработанной технологии, для этого разработан макет информационно-аналитической системы для анализа деятельности вуза.

5. На основе анализа результатов опытной эксплуатации макета определены возможности по сокращению трудозатрат и область применения разработанной технологии.

ЗАКЛЮЧЕНИЕ

Библиография Ильин, Алексей Андреевич, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Бондаренко, А.В. Доработка алгоритма прогнозирования объема продаж / А.В. Бондаренко. Электронный ресурс. - Режим доступа: http://www.cfin.ru/finanalysis/math/addtokosh.shtml, свободный. Загл. с экрана.

2. Вирт, Н. Алгоритмы + структуры данных = программы / Н. Вирт. -М.: Мир, 1977.-406 с.

3. Ильин, А.А. BI-решения компании S&T International на основе уникальных технологий Sunopsis / А.А. Ильин // Business Intelligence: результативность использования технологий и приложений: материалы 3 конф. Москва, 30 нояб. 2005 г. - М., 2005. - С. 13.

4. Ильин, А.А. Будущее КИС. Общемировые тенденции / Алексей Ильин, Илья Малиновский // Connect! Мир связи. 2007. - № 11 (141). - С. 128-131.

5. Ильин, А.А. Инструменты Extract-Transform-Load (ETL) для создания хранилищ данных / М.С. Головкин, А.А. Ильин // Машиностроитель. 2006. - № 11. - С. 26-29.

6. Ильин, А.А. Контроль качества данных при построении информационно-аналитической системы / А.А. Ильин // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. XII Державинские чтения. — Тамбов, 2007.-Т. 12, вып. 1.-С. 119-120.

7. Ильин, А.А. Некоторые проблемы построения корпоративных храни-• лищ данных / А.А. Ильин // Программные продукты и системы (междунар. науч.-практ. приложение к междунар. журналу «Проблемы теории и практики управления»). 2005. - № 3 (71). - С. 29-32.

8. Ильин, А.А. Перспективы использования информационно-аналитических систем для управления в системе образования / А.А. Ильин,i

9. A.А. Арзамасцев // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. -Тамбов, 2006. Т. 11, вып. 2. - С. 181-184.

10. Ильин, А.А. Построение систем Business Intelligence и Enterprise Application Integration на основе средства интеграции данных Sun-opsis / А.А. Ильин // Business Intelligence: материалы 4 конф. 23 нояб. 2006 г., г. Москва. М., 2006. - С. 13.

11. Касьянов, В.Н. Практикум по программированию / В.Н. Касьянов, Е.В. Касьянова. — Новосибирск, 2004 Электронный ресурс. — Режим доступа: Ьйр://рсол18.п8к.зиЯСР/Ргасйсе/ёёО/тёех.Мш1, свободный. Загл. с экрана.

12. Ким, В. Три основных недостатка современных хранилищ данных /

13. B. Ким // Открытые Системы. 2003. - № 2 Электронный ресурс. - Режим доступа: http://www.osp.ru/os/ 2003/02/069.html, свободный. Загл. с экрана.

14. Костяков, С. По карточкам дешевле и эффективнее / Сергей Костяков // Intelligent Enterprise. 2006. - № 14 (146). - 22 авг. Электронный ресурс. — Режим доступа: http://www.iemag.ru/?ID=613640, свободный. Загл. с экрана.

15. Кузнецов, С. Дубликаты, неопределенные значения, первичные и возможные ключи и другие экзотические прелести языка SQL / С. Кузнецов. Электронный ресурс. Режим доступа: http://www.citforum.ru/database/articles/art5 .shtml, свободный. Загл. с экрана.

16. Кузнецов, С.Д. Основы баз данных. Курс лекций / С.Д. Кузнецов. -М.: Интернет-университет информационных технологий, 2005. -488 с.

17. Линючев, П. ClaraBridge мост между неструктурированной и структурированной информацией / Павел Линючев. Электронный ресурс. - Режим доступа: http://clarabridge.ru/analytics/bridge.html, свободный. Загл. с экрана.

18. Линючев, П. Clarabridge Document Analytics инновационный инструмент для ситуационного анализа национальных проектов / Павел Линючев. Электронный ресурс. — Режим доступа: http://clarabridge.ru/ analytics/clarabridge.html, свободный. Загл. с экрана.

19. Линючев, П. Анализ: Business Intelligence (BI) видит неструктурированную информацию / Павел Линючев. Электронный ресурс. — Режим доступа: http://clarabridge.ru/analytics/bi.html, свободный. Загл. с экрана.

20. Построение хранилищ данных IBM Data Warehouse для различных индустрий. IBM, 2007. - 111 с.

21. Самохвалов, Р. Интеграция данных о клиентах: миссия выполнима? / Р. Самохвалов // PCWeek. 2004. - 39 Электронный ресурс.

22. Режим доступа: http://kis.pcweek.ni/Year2004/N39/CP 1251/Strategy/ chaptl.html, свободный. Загл. с экрана.

23. Умапати, С. Успешное прохождение Java сертификации. Ч. 4: SCEA / С. Умапати. Электронный ресурс. Режим доступа: http://www.ibm.com/ developerworks/ru/edu/j-scea/ section3.html, свободный. Загл. с экрана.

24. Французов, Д. Оценка производительности вычислительных систем / Д. Французов // Открытые системы. 1996. - № 02. Электронный ресурс. - Режим доступа: http://www.osp.ru/os/1996/02/ 178845/, свободный. Загл. с экрана.

25. Хеллер, П. Oracle Customer Data Hub: От качества информации к системе знаний о клиентах / П. Хеллер. Oracle, 2004. — 16 с.

26. Хоббс, JI. Oracle 9iR2: разработка и эксплуатация хранилищ баз данных / JI. Хоббс, С. Хилсон, Ш. Лоуенд. М.: Кудиц-образ, 2004. -586 с.

27. Шапошников, И. Web-сервисы Microsoft.NET / И. Шапошников. — СПб.: BHV, 2002.-336 с.

28. Ширяев, А.Н. Вероятность / А.Н. Ширяев. 2-е изд. - М.: Наука, 1989.-640 с.

29. Adelman, S. Data Warehouse Project Management / S. Adelman, L. Moss. Addison-Wesley, 2002. - P. 255-286.

30. Ambler, S. The Unified Process Elaboration Phase Best Practices in Implementing the UP / S. Ambler. - CMP Books, 2000.

31. Ballard, C. Data Modeling Techniques for Data Warehousing / C. Ballard, D. Herreman, D. Schau, R. Bell, E. Kim, A. Valencic. Электронный ресурс. — Режим доступа: http://www.redbooks.ibm.com/pubs/ pdfs/redbooks/sg242238.pdf, свободный. Загл. с экрана.

32. Brackett, М. Data Resource Quality: Turning Bad Habits into Good Practices / M. Brackett. Addison-Wesley, 2000. - 354 p.

33. Burleson, D. Oracle data warehouse date transformation / Don Burleson. Электронный ресурс. Режим доступа: http://www.dba-oracle.com/ twarehousedatetransformation.htm, свободный. Загл. с экрана.

34. Chatfield, С. The Analysis of Time Series. An Introduction / C. Chatfield // Chapman&Hall/CRC, 1995. 283 p.

35. Clarabridge. Converging Text and BI: The Case for a Content Mining Platform. Электронный ресурс. — Режим доступа: http://www.clarabridge.com/resources/downloadwhitepaper.php?where= fi*omform, свободный. Загл. с экрана.

36. Dyche, J. Customer Data Integration. Reaching a Single version of the Truth. / J. Dyche, E. Levy. Wiley, 2006. - 294 p.

37. Glass, R. Facts and Fallacies of Software Engineering / R. Glass. Addison Wesley, 2002. - 224 p.

38. Hayes, S. Tunning up for OLTP and Data Warehouse / S. Hayes, P. Gunning // DB2 Magazine. 2002. - Vol. 7, № 3. - P. 25-34.

39. Hays, J. Forecasting Computer Usage / J. Hays // J. of Statistics Education. 2003. - № 1 Электронный ресурс. - Режим доступа: http://www.amstat.org/publications/jse/vl lnl/datasets.hays.html, свободный. Загл. с экрана.

40. Hedin, М. Quality Manager. Methodology and Application Guide / M. Hedin. Ascential, 2001. - 61 p.

41. IBM Banking Data Warehouse. Transforming financial services Information into Business Intelligence. Электронный ресурс. Режим доступа: http://www.nouxbi.com/PDFs/BDW%20Brochure.pdf, свободный. Загл. с экрана.

42. Imhoff, С. Mastering Data Warehouse Design. Relational and Dimensional Techniques / C. Imhoff, N. Galemmo, J. Geiger. Wiley, 2003. -438 p.

43. Inmon, W.H. Summary Data in the Data Warehouse / W.H. Inmon // Operational Data Store Environment Электронный ресурс. Режим доступа: http://inmoncif.com/library/whiteprs/earlywp/ttsumm.pdf, свободный. Загл. с экрана.

44. Jacobson, R. Microsoft SQL Server 2000 Analysis Services Step by Step / R. Jacobson. Microsoft Press, 2000. - 368 p.

45. Kimball, R. Combining SCD Techniques / R. Kimball // Design Tips.- 2000. №15. Электронный ресурс. - Режим доступа: http://www.ralphkimball.com/html/designtipsPDF/ Design-Tips2000%20/ KimballDT15CombiningSCD.pdf, свободный. Загл. с экрана.

46. Kimball, R. Dealing with Dirty Data / R. Kimball // DBMS Magazine.- 1996. 14 Электронный ресурс. - Режим доступа: http://www.dbmsmag.com/9609dl4.html/, свободный. Загл. с экрана.

47. Kimball, R. Meta Meta Data Data / R. Kimball // DBMS Magazine. -1998. 5 Электронный ресурс. — Режим доступа: http://www.dbmsmag.com/9803d05.html/, свободный. Загл. с экрана.

48. Kimball, R. Surprising Value of Data Profiling / R. Kimball // Kimball Design Tip. — 2004. 59 Электронный ресурс. - Режим доступа:http://www.Mmballgroup.com/html/designtipsPDF/

49. KimballDT59SurprisingValue.pdf, свободный. Загл. с экрана.

50. Kimball, R. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning and Delivering Data / R. Kimball, J. Caserta. Wiley, 2004, -492 p.

51. Kimball, R. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling / R. Kimball, M. Ross. Wiley, 2002. - 421 p.

52. Kleppc, A. MDA Explained: The Model Driven Architecture™: Practice and Promise 7 A. Kleppe, J. Warmer, W. Bast. Addison Wesley, 2003. -192 p.

53. Marco, D. Building and Managing the Meta Data Repository: A Full Li-fecycle Guide / D. Marco. Willey&Sons, 2000: - 392 p.

54. Melnyk, R. DB2: The Complete Reference / R. Melnyk and P. Zikopoulos. -McGrew-Hill, 2002. ISBN 0072133449.-P. 559-571.

55. Microsoft Technet. Working with Large Levels in MS SQL Server 7.0 OLAP Services. Электронный ресурс. — Режим* доступа: http ://www.microsoft.com/technet/prodtechnol/sql/70/maintain/rferring.ms px, свободный. Загл. с экрана.

56. MicroStrategy Advanced Data Warehousing. MicroStrategy University, 2004. - 272 p.

57. MicroStrategy Architect. Project Desigm MicroStrategy. University, 2007.-362 p.

58. Mundy, J. The Microsoft Data Warehouse Toolkit: With SQL Server 2005 and the Microsoft Business Intelligence Toolset / J. Mundy, W. Thornthwaite, R. Kimball. Wiley (February 13, 2006).-P. 129-175.

59. Niemiec, R. Oracle9i Performance Tuning Tips & Techniques / R. Niemiec. Oracle Press, 2003. - 820 p.

60. Olson, J. Data Quality Accuracy Dimension / J. Olson. Morgan Kauffinann Publishers, 2003. - 293 p.

61. Oracle Data Integrator Knowledge Modules Reference Guide. Электронный ресурс. Режим доступа: http://www.oracle.com/ technology/products/oracle-data-integrator/10. 1.3/htdocs/documentation/ ora-cledikmreference.pdf, свободный. Загл. с экрана.

62. Stodder, D. The State of Business Intelligence / David Stodder // Intelligent Enterprise. 2007. № 30. Электронный ресурс. - Режим доступа: http://www.intelligenten-teфrise.com/channels/Ъi/ showArticle.jhtml;jsessionid= N3K05DN41Y3VGQSNDLPSKHS

63. Диаграмма классов серверной части программного комплекса1. Checkg$>SReader: Stream Reader ^.log : stringg*Parse() ^CreateSQL()

64. Автоматически сгенерированная физическая модель данныхдля анализа деятельности университета

65. PublicActivitiesID int, PublicActivitiesName varchar(3 0) ) CREATE TABLE tAnketMarks ( StudentID int, SpecMark decimal(3,2), MathMarks decimal(3,2), CSJMarks decimal(3,2), HumanitiesMarks decimal(3,2), ForeignLangMarks decimal(3,2),

66. PhysTrainingMarks decimal(3,2), ExtraStadyID int, ScienceID int, MindID int, ConferenceID int ) CREATE TABLE tArt ( ArtID int,

67. ArtName varchar(30) ) CREATE TABLE tAuthority ( AuthorityID int, AuthorityName varchar(30) ) CREATE TABLE tConferences ( ConferenceID int, ConferenceName varchar(3 0) ) CREATE TABLE tConvinient ( ConvinientID int,t

68. MaterialFutureName varchar(3 0) ) CREATE TABLE tMaterialStatus ( MaterialStatusID int, MaterialStatusName varchar(30) ) CREATE TABLE tMind ( MindID int, MindName varchar(3 0) ) CREATE TABLE tNecessary ( NecessaryID int,

69. Директор Института математики, физики и информатики ТГУ им. Г.Р. Державинаювин Ю.И.16чревраля 2007 г.1. АКТ ВНЕДРЕНИЯ

70. Руководитель проекта TEMPUS TACIS от ТГУ им. Г.Р. Державина д.т.н., профессор1. Исполнитель работ

71. Арзамасцев А.А. Ильин А.А.eiPS*вс .тть бы1гария crna бонд сeska republj* hrvatskalatyija ■ шс македонии toldovft osufiw polska romania' slovenija slovcnska republic a sr8ija укрд1нд1. Информационное письмо

72. Jwi: +7 (495) 255 3B 33. fax: +7 495} 155 38 351&4M4, S -PeMisbiiig Vyborgtkayj nib., 43. ot. 104

73. Tel.: +7 (612) 703 15 58, fix: H (812)703 1 5 59it SQienoHS a smim1. УТВЕРЖДАЮ»

74. Директор Института математики, физики и информатики ТГУ им. Г.Р. Державинад.ф.-м.н., профессор Жуковский Е.С.25 января 2008 г.1. АКТ ВНЕДРЕНИЯ

75. В период обучения в аспирантуре Ильиным А.А. был прочитан курс «Информационно-аналитические системы» для преподавателей и аспирантов кафедры компьютерного и математического моделирования.

76. Заведующий кафедрой компьютерного и математического моделирования ИМФИ ТГУ им. Г.Р. Державина д.т.н., профессор1. Исполнитель

77. Арзамасцев А.А. Ильин А.А.