автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Математическое и программное обеспечение системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику

кандидата технических наук
Вахитов, Александр Робертович
город
Томск
год
2010
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Математическое и программное обеспечение системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику»

Автореферат диссертации по теме "Математическое и программное обеспечение системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику"

094613573

Вахитов Александр Робертович

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СИСТЕМЫ ОПЕРАТИВНОЙ ОБРАБОТКИ И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ, ИСПОЛЬЗУЮЩЕЙ НЕЧЕТКУЮ ЛОГИКУ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 5 НОЯ 2010

Томск-2010

004613573

Работа выполнена в Национальном исследовательском Томском политехническом университете.

Научный руководитель:

доктор технических наук, профессор Силич Виктор Алексеевич

Официальные оппоненты:

доктор технических наук, профессор Спицын Владимир Григорьевич

кандидат технических наук, доцент Черкашин Михаил Владимирович

Ведущая организация

Иркутский государственный технический университет, г. Иркутск

Защита состоится «1» декабря 2010 г. в 14— на заседании совета по защите докторских и кандидатских диссертаций Д 212.269.06 при Национальном исследовательском Томском политехническом университете по адресу: 634034, г. Томск, ул. Советская, 84/3.

С диссертацией можно ознакомиться в научно-технической библиотеке Национального исследовательского Томского политехнического университета по адресу: 634034, г. Томск, ул. Белинского, 55.

Автореферат разослан «_» октября 2010 г.

Ученый секретарь совета по защите докторских и кандидатских

диссертаций Д 212.269.06, кандидат технических наук, доцент

Сонькин М.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Совершенствование информационных систем (ИС), во многом определяется тем, насколько успешно будут решаться проблемы представления и обработки знаний. Успехи в области создания интеллектуальных информационных систем (ИИС) стимулировали применение технологий и методов искусственного интеллекта для решения двух основных задач: повышения скорости обработки данных и расширения функций системы.

Одним из основоположников классического подхода к обработке баз данных (БД) был Э. Кодд. Данный подход предполагает использование транзакционных БД, набор аналитических функций в которых весьма ограничен. Схемы, используемые в OLTP-приложениях, основанных на транзакционных БД, осложняют создание даже простых отчетов, так как данные чаще всего распределены по множеству таблиц, и для их агрегирования необходимо выполнять сложные операции объединения. Кроме того, что в таких системах хранятся постоянно изменяющиеся данные. По мере осуществления операций записи-чтения суммарные значения меняются очень быстро, поэтому, чаще всего, анализ выполнятся по окончании отчетного периода, иначе картина может оказаться искаженной.

В значительной степени проблемы обработки данных на основе классического подхода решает переход к объединению и анализу данных учетной системы с помощью технологии Online Analytical Processing (OLAP). OLAP-моделью в работе называется логическая модель данных, лежащая в основе OLAP-технологии. Использование технологии OLAP для обработки запросов позволяет повысить скорость и удобство обработки данных. Клиент-серверная архитектура OLAP-продуктов обеспечивает одновременный доступ большого числа пользователей, при этом анализ проводится одинаково быстро по всем аспектам информации независимо от размера и сложности структуры БД. Однако зачастую преобразование реляционной модели обработки данных в OLAP-модель не решает проблем скорости обработки данных и их интеллектуального анализа.

Технология data mining, представляющая собой выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных, является расширением OLAP-технологии. Data mining включает методы и модели статистического анализа и машинного обучения, целью которых является автоматическая обработка данных. Инструменты data mining позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями. Однако на практике часто возникают задачи, для которых использование средств data mining является недостаточным в связи с тем, что постоянно увеличивается объем обрабатываемых данных, а также спектр требуемых функций системы по интеллектуальному анализу данных. Поэтому существует необходимость в создании эффективных алгоритмов по обработке и / анализу данных в ИИС. [

\ V..

\з ;

\

Другой проблемой ИИС систем является то, что они строятся как самостоятельные программы, имея собственную организацию хранения данных и знаний. Поэтому их применение для решения сложных задач в промышленных масштабах становится проблематичным. Разработка и внедрение ИИС требует не только значительно больших объемов информации, но и значительно более сложных вычислений, учета слабо формализуемых факторов, высокого уровня интерфейса, связи с уже существующими БД.

Таким образом, несмотря на имеющиеся достижения в области создания ИИС и на наличие целого ряда методов и программных средств обработки данных, задача создания информационной системы, обеспечивающей оперативную обработку информацию, обладающую возможностями интеллектуального анализа данных и имеющую интерфейс с активно использующимися СУБД, является актуальной и представляет интерес в научном и практическом плане, что определяет актуальность темы диссертационной работы.

Целью работы является создание математического и программного обеспечения системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику и обеспечивающей повышение эффективности процесса обработки данных.

Задачи для достижения поставленной цели:

• формирование требований к системе оперативной обработки и интеллектуального анализа данных;

• анализ подходов к построению математических моделей и обоснование выбора класса математической модели для разрабатываемой системы, реализующей функции логического вывода в условиях неопределенности и неполноты знаний исследуемой предметной области;

• анализ подходов к построению программного обеспечения и обоснование выбора программного обеспечения для реализации разрабатываемой системы, включающей функции OLAP, data mining, ключевых индикаторов производительности, деревьев решений и трендов;

• формирование концептуально-информационной модели предметной области (КИМПО) и реляционной модели обработки данных для обработки информации о НИРС в вузе;

• создание БД и базы знаний для обработки информации о НИРС в вузе;

• разработка математической модели системы с использованием аппарата нечеткой логики, в том числе описание исследуемой предметной области в терминах нечеткой логики и проектирование правил нечеткого логического вывода;

• разработка OLAP-модели данных на основе математической модели, КИМПО, реляционной схемы данных;

• расширение состава функций OLAP-модели путем разработки таких средств интеллектуального анализа данных, как data mining, трендов, ключевых индикаторов производительности и деревьев решений;

• программная реализация системы оперативной обработки и интеллектуального анализа данных на основе разработанных моделей и алгоритмов для обработки информации о НИРС в вузе;

• визуализация данных, применение алгоритмов кластеризации для интеллектуальной обработки данных;

• использование моделей, алгоритмов и программ для организации обработки данных в Учебном центре ТПУ & SoftLine Academy;

• использование моделей, алгоритмов и программ для организации обработки данных в ФГУП «Томской электротехнический завод».

Методы исследования. В процессе исследования использовались следующие теории и методы: теория реляционной модели данных, теория математической логики, аппарат нечеткой логики, теории принятия решений, методы объектно-ориентированного программирования, методы аналитической обработки информации, методы извлечения данных.

Научная новизна. Получены следующие основные результаты, обладающие научной новизной:

1. Предложена математическая модель интеллектуальной обработки данных, основанная на аппарате нечеткой логики и позволяющая повысить эффективность обработки данных и знаний при решении широкого круга задач.

2. Разработан оригинальный алгоритм обработки данных, использующий нечеткую логику, аналитическую обработку данных в реальном времени и механизм извлечения данных.

3. Разработан новый алгоритм совместного использования процедур-нечеткого логического вывода и процедур обработки данных (data mining, деревья решений, тренды и т.д.).

4. Впервые предложен алгоритм динамического изменения структуры данных на этапе работы пользователя с программной системой, позволяющий повысить эффективность его работы.

5. Создана и исследована программная система оперативной обработки и интеллектуального анализа данных на основе разработанных моделей и алгоритмов.

Практическая значимость работы. Практическая значимость исследования заключается в разработке системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику, которая предназначается для решения широкого круга задач по обработке и анализу данных. Использование системы позволяет автоматизировать процесс обработки данных, осуществлять интеллектуальный анализ данных, извлекать отсутствующие данных, увеличить скорость обработки данных и удобство представления данных конечному пользователю по сравнению с классическими методами.

Реализация результатов работы. Разработанные модели и алгоритмы использованы при создании программной системы WinDIFOT (свидетельство о регистрации в «Объединенном фонде электронных ресурсов «Наука и образование» № 15692 от 04.05.2010 г.).

Внедрение результатов работы. Результаты диссертационной работы внедрены в Учебном Центре ТПУ & SoftLine Academy и в ФГУП «Томский электротехнический завод», что подтверждено соответствующими актами.

Основные положения, выносимые на защиту:

1. разработанная математическая модель интеллектуальной обработки данных, основанная на аппарате нечеткой логики, позволяющая повысить скорость и эффективность обработки данных применительно к существующим задачам;

2. разработанная OLAP-модель данных, а также средства интеллектуального анализа данных, в том числе правила data mining, тренды, ключевые индикаторы производительности, которые наделяют систему возможностями оперативной аналитической обработки информации;

3. разработанный алгоритм обработки данных, использующий нечеткую логику, аналитическую обработку данных в реальном времени и механизм извлечения данных;

4. модель, включающая процедуры нечеткого логического вывода и процедуры обработки данных в рамках одной программной системы;

5. созданная система оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику, которая позволяет повысить эффективность процесса работы с данными.

Личный вклад автора. Основные результаты диссертационной работы получены автором лично. Программная система WinDIFOT для оперативной обработки и интеллектуального анализа данных разработана и реализована автором лично.

Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях:

• Молодежь и современные информационные технологии: IV Всероссийская научно-практическая конференции студентов, аспирантов и молодых ученых: Томск, 2006.

• Энергия молодых - экономике России: VII Международная научно-практическая конференция студентов и молодых ученых: Томск, 2006.

• Снежинск и наука - 2006: VII Международная научно-практическая конференция: Снежинск, 2006.

• Математическое моделирование и информационные технологии: VIII Школа-семинар молодых ученых: Улан-Удэ, 2006.

• Молодежь и современные информационные технологии: IV Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых: Томск, 2007.

• Современные техника и технологии СТТ 2007: XIII Международная научно-практическая конференция студентов и молодых ученых: Томск, 2007.

• Информационные системы и модели в научных исследованиях, промышленности и экологии: Всероссийская научно-техническая конференция: Тула, 2007

• Молодежь и современные информационные технологии: IV Всероссийской научно-практическая конференция студентов, аспирантов и молодых ученых: Томск, 2008.

• Технологии Microsoft в теории и практики программирования: VI Всероссийская научно-практическая конференции: Томск, 2009.

• Технологии Microsoft в теории и практики программирования: VI Всероссийская научно-практическая конференция: Томск, 2010.

Публикации. По теме диссертации опубликовано 13 работ: 2 - в рецензируемых отечественных изданиях, рекомендованных ВАК, 10 - в материалах российских и международных конференций, 1 - свидетельство о регистрации электронного ресурса. Список публикаций приведен в конце автореферата.

Структура и объем работы. Диссертация включает в себя: введение, три главы, заключение, список литературы (111 наименований) и приложения, иллюстрирующие технические детали работы. Общий объем работы составляет 152 страницы, включая 46 рисунков и 12 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы, приводятся цель, основные положения, выносимые на защиту, задачи и методы исследования, формулируется научная новизна, практическая значимость исследования, а также сведения о внедрении результатов, публикациях, апробации работы, личном вкладе автора, объеме и структуре диссертации.

Глава 1

В первой главе проводится анализ подходов к построению математических моделей и обосновывается выбор класса математической модели для разрабатываемой системы, реализующей функции логического вывода в условиях неопределенности и неполноты знаний, характерных для решения задач оперативной обработки и интеллектуального анализа данных. Также в этой главе обосновывается выбор модели обработки данных, включающей функции OLAP, data mining, ключевых индикаторов производительности, деревьев решений и трендов. Кроме того, в первой главе выявляются требования к системе оперативной обработки и интеллектуального анализа данных.

Создание математического обеспечения разрабатываемой системы предполагает обоснование выбора класса математической модели из множества X альтернативных вариантов хь а также непосредственное описание предметной области в терминах выбранного класса. К числу основных логических моделей, для которых разработаны формальные методы логического вывода, были отнесены: X] - исчисление высказываний, Х2 -исчисление предикатов, Хэ - семантические сети, Хд - дескриптивная логика, Х5 - нечеткая логика.

С учетом особенностей предметной области, связанных с неполнотой и неопределенностью знаний были определены следующие частные критерии выбора: Р) - полнота описания системы, Р2 - возможность построения логического вывода, Р3 - возможность работы с неполными и субъективными данными, р4 - возможность осуществления логических операций, - удобный интерфейс, Рб - высокая скорость обработки данных, F^ - наличие интеллектуальных возможностей обработки данных.

Затем каждый из альтернативных вариантов х, был описан относительно возможности применения в качестве класса математической модели для разрабатываемой системы.

Для выбора класса математической модели были использованы метод анализа иерархий, предложенный Томасом Саати, а также интегральные критерии, являющиеся функциями от частных критериев. Указанные методы нашли широкое распространение для обоснования выбора на множестве альтернативных вариантов.

На рис. 1. приведена иерархия целей для выбора класса математической модели системы с использованием метода Саати.

У роем

Мсчис.чские аыскаммпий (Х|)

Рис. 1. Иерархия цели для выбора класса математической модели системы

Затем для каждого уровня иерархии были построены матрицы парных сравнений в терминах доминирования одного элемента над другим. На рис. 2 приведены матрицы парных сравнений, построенные для второго и третьего уровней иерархии. Для каждого из экспертов была построена своя матрица

парных сравнений. Для построения обобщенной матрицы чаще всего был использован метод средней оценки влияния, т.е. каждый элемент обобщенной матрицы сравнений представляет из себя среднее арифметическое от

31 а2

а! 1 1/3

а2 3 1

а| а2

а] 1 1/3

аг 3 1

»1 а2

1 1/2

а2 2 1

3| а2

а! 1 1/4

а2 4 1

Р. Р2 Рз Р4 Р5 Рб Р7

1 1 1/3 4 Р5 1 1 1

1 1 2 2 Рб 1 1 5

3 1/2 1 6 Рт 1 1/5 1

1/4 1/2 1/6 1

матрицы для 1 -го эксперта

Р. Р2 Рз Р4 Р5 Рб Р7

Р. 1 2 1/3 3 Р5 1 1/4 3

1/2 1 1 4 Рб 4 1 7

3 1 1 5 Рт 1/3 1/7 1

р4 1/3 1/4 1/5 1

матрицы для 2-го эксперта

Р, р2 Рз Р4 Р5 Рб Р7

Р, 1 3 1/5 2 р5 1 1/2 2

Ь 1/3 1 5 1 Рб 2 1 1

Рз 5 1/5 1 4 1/2 1 1

1/2 1 1/4 1

матрицы для 3-го эксперта

Р| Р2 Рз Р4 ^ Рб Р7

Р| 1 2 1/4 3 Р.5 1 1/2 2

1/2 1 1/3 2 Рб 2 1 4

4 3 1 5 Р7 1/2 1/4 1

1/3 1/2 1/5 1

обобщенные матрицы Рис. 2. Матрицы парных сравнений второго и третьего уровня иерархии

На основе каждой из построенных матриц формируются наборы локальных приоритетов, которые отражают относительные приоритеты сравниваемых элементов. Для этого нужно вычислить множество собственных векторов для каждой матрицы, а затем нормализовать результат к единице, получая тем самым вектор приоритетов. Одним из наилучших путей вычисления нормализованных приоритетов является геометрическое среднее. Его можно получить, перемножая элементы в каждой строке и извлекая корни п-ой степени, где п - число элементов. Полученный таким образом столбец чисел нормализуется делением каждого числа на сумму всех чисел. В итоге для уровня акторов были получены следующие значения нормализованных приоритетов: а1=0,25; а2=0,75.

Для уровня целей и требований акторов были получены следующие значения нормализованных приоритетов: ¥¡=0,22; F2=0,15; F3=0,55; F4=0,08; F5=0,286; F6=0,57; F7=0,14.

На последнем шаге анализа локальные приоритеты были пересчитаны с учетом приоритетов направляемых элементов. Глобальный приоритет варианта х5 оказался самым высоким (0,418). Таким образом, по методу Саати обоснован выбор нечеткой логики в качестве класса математической модели системы.

Затем обоснование выбора класса математической модели системы производилось при помощи интегральных критериев. Общая формула интегральных критериев, являющихся функцией от частных критериев, имеет следующий вид: F = f(F,),i = \,n

Наиболее широко распространены такие интегральные критерии как:

1. Максимум суммы взвешенных оценок: F = ¿w •F.(x] )-> max

'=' Xj б X

2. Минимум суммы квадратов отклонений от «идеальной точки»: ¿и-.^^Ц))2^ min

Для определения значений весовых коэффициентов wj каждого из частных критериев Fj использовался метод парных сравнений. На основе матрицы сравнений, были получены следующие компоненты собственного вектора для каждой из строк: F,=l,24; F2=0,999; F3=2,83; F4=0,72; F5=0,407; F6=0,98; F7=0,99.

После деления каждой из полученных компонент на их сумму, равную 8,16, были получены следующие нормализованные приоритеты: F)=0,15; F2=0,12; F3=0,35; F4=0,09; Fs=0,05; F6=0,12; F7=0,12. Эти значения являются весовыми коэффициентами щ частных критериев Fj. В соответствии с усредненными значениями оценок на основе мнений каждого из экспертов были определены интегральные критерии для каждого из альтернативных вариантов. В качестве класса математической модели для исследуемой системы была выбрана нечеткая логика, поскольку она имеет преимущества перед альтернативными вариантами математического обеспечения системы по всем интегральным критериям, а также имеет самый высокий глобальный приоритет, определенный методом анализа иерархий Саати.

Описанные подход был использован также для выбора модели обработки данных. Было рассмотрено 5 основных моделей обработки данных: у\ -реляционная модель обработки данных, у2 - активные и дедуктивные БД, у3 -постреляционные БД, у4 - объектно-ориентированные БД, у5 - OLAP-модель, а также выявлено 5 частных критериев выбора: Gi - полнота представления предметной области, G2 - возможность извлечения отсутствующих данных, G3 - удобный интерфейс, G4 - высокая скорость обработки данных, G5 - наличие интеллектуальных возможностей обработки данных.

В итоге в качестве модели обработки данных для исследуемой системы была выбрана OLAP-модель, поскольку она имеет преимущества перед

альтернативными вариантами программного обеспечения системы по всем интегральным критериям, а также имеет самый высокий глобальный приоритет, определенный методом анализа иерархий Саати.

В первой главе описан ряд экспериментов с целью определения преимуществ OLAP-модели по скорости обработки данных в сравнении в реляционными базами данных. Эксперименты заключались в последовательном создании следующих отчетов:

1. Выборка информации об общем числе активностей по НИРС и их характеристиках.

2. Выборка информации о числе активностей по НИРС и их характеристиках определенного студента.

3. Выборка информации о числе активностей по НИРС и их характеристиках определенного студента и преподавателя.

Во всех экспериментах в первом случае источником данных являлась реляционная БД, во втором - OLAP-модель. Число записей в основной таблице сначала равнялось 500, затем было увеличено до 1000, 5000, 10000, 20000 и до 100000, аппаратная платформа для эксперимента была идентична1.

В результате экспериментов среднее время обработки запроса (создания отчета) на основе OLAP-модели оказалось в 11,6 раз меньше. Результаты эксперимента стали дополнительным основанием для выбора OLAP-модели в качестве модели обработки данных разрабатываемой системы.

Глава 2

Во второй главе формируются КИМПО, реляционная модель обработки данных, БД и базы знаний для исследуемой предметной области. Также в этой главе описана математическая модель системы с использованием аппарата нечеткой логики, исследуемая предметная область в терминах нечеткой логики и правила нечеткого логического вывода. Кроме того, в третьей главе производится разработка OLAP-модели данных на основе математической модели, КИМПО, реляционной схемы данных и расширение OLAP-модели путем разработки таких средств интеллектуального анализа данных, как data mining, трендов, ключевых индикаторов производительности и деревьев решений.

Основной экспериментальной предметной областью, исследуемой в рамках работы, является НИРС в вузе. В дальнейшем модели, алгоритмы, а также результаты экспериментов используются при внедрении системы в других областях. В главе производится описание основных характеристик и особенностей исследуемой предметной области: обозначены основные цели, задачи, виды НИРС и способы поощрения за активное участие в работе. В соответствии с этим описанием были выявлены 2 основные функции разрабатываемой системы: упорядочивание и централизованное хранение

1 В данном эксперименте значения записей не носят информативных характер, их высокое число используется для сравнения скорости обработки данных.

информации о НИРС в вузе и интеллектуальная обработка информации о НИРС целью автоматизации процесса принятия решений в области НИРС.

Проектирование КИМПО началось с выявления сущностей. В результате анализа информационных потребностей пользователей, а также на основе общего описание предметной области были выделены следующие сущности: студенты, преподаватели, НИРС, достижения, поощрения, наказания, принимаемые решения. Далее для этих сущностей были определены атрибуты, кроме того были выявлены дополнительные сущности в соответствии с выявленными атрибутами, проведена нормализация отношение по трем нормальным формам. В результате связывания сущностей и нормализации отношений была определена схема КИМПО для исследуемой системы. В соответствии с описанием предметной области и схемой КИМПО в системы были выделены 2 ОЬАР-куба: один содержит сведения о результатах НИРС, другой - о поощрения руководства вуза, связанных с НИРС.

В исследуемой системе для оценки результатов НИРС, а также для генерирования решений в области НИРС используется аппарат нечеткой логики. В данной главе произведено описание процесса нечеткого логического вывода в системе.

Система описываются следующими входными параметрами А; и выходными параметрами В;, таблица 1:

Таблица 1. Входные и выходные параметры системы.

Обозначение Описание

а, Количество результатов НИРС

а2 Сумма денег, полученных за НИРС

аз Число страниц, опубликованных по итогам НИРС

а, Число наград за НИРС

а5 Число поощрений по итогам НИРС

а6 Сумма денег, затраченных на поощрения

ат Число полученных грантов

аз Число участий в научных конкурсах

а9 Число призовых мест по итогам научных конкурсов

В! Премирование

В2 Назначение преподавателю руководства НИРС

вз Рекомендация для поступления в аспирантуру и магистратуру

в4 Рекомендация на стажировку

в5 Командировка на конференцию

Все универсумы находятся в пределах измеримого диапазона с 5 степенями градации (термами): очень низкий [О..Х1], средний [Х1..Х2], высокий [Х2..х3],. Конкретные значения х, зависят от масштабов анализа данных (на уровне конкретного студента или преподавателя, кафедры, факультета либо вуза в целом) и особенности измерения данного параметра. Далее приведены некоторые правилами вывода в системе:

Ьь (А5е[0..х1] д А«е[0..х1]) л (А1е[х2..х3] у А2е[х2..хз] V Азе[х2..хз] у А4е[х2..хз]) -> В, е[х1..х2];

Ь9: (А15[ х2..хз] v А2е[х2..хз] v Аз6[х2..хз]) -> В4 е [хь.х2];

Ь15: (А16[0..х1] у Абб[0..х1])-> А5 е [О..х1].

Алгоритм нечеткого вывода был рассмотрен на конкретном примере. У одного из студентов необходимо доопределить значение А5, зная значения А] и Аб, используя затем полученные параметры для генерирования решения о том, заслуживает ли студент каких-либо дополнительных поощрений.

Универсум значения числа поощрений А5 для этого студента находится в отрезке [0..6]. Начальное множество термов - низкое, среднее, высокое. Функции принадлежности ц(А5) имеют следующий вид, рис. 3:

Нечеткий логический вывод был осуществлен в 4 этапа:

1. Этап фаззификации.

На основе значений Ai=15 и Аб=7000 была осуществлена фаззификации, в результате которой были получены следующие степени уверенности в значениях входных переменных:

• Число достижений А] большое - 0,65;

• Число достижений А] среднее - 0,7;

• Число достижений А\ малое - 0,35;

• Сумма денег А6 большая - 1;

• Сумма денег Аб средняя - 0,5;

• Сумма денег Аб малая - 0.

2. Этап нечеткого вывода.

На данном этапе были вычислены степени уверенности посылок правил Li3~ L15, представляющих из себя нечеткие импликации:

• L13: min (А]е[х2..хз] л Абе[х2..х3]) = min(0,65;l) = 0,65;

• Li4: min (А!е[х2..хз] л A6£[0..Xi]) = min(0,65;0) = 0;

• L15: max(Aie[0..x,] vA66[0..x,]) = max(0,35;0) = 0,35.

3. Этап композиции.

Степень уверенности заключения задается функцией принадлежности соответствующего терма. Поэтому с использованием определения нечеткой импликации как минимума левой и правой частей были получены новые нечеткие переменные, соответствующие степеням уверенности в значении выходных данных при применении к заданным входам соответствующего

13

правила, а затем была проведена аккумуляция - объединение результаты

В результате была получена функция принадлежности для числа поощрений As, которая говорит о степени уверенности в значении искомого параметра на основе входных параметров и правил нечеткого логического вывода.

4. Этап дефаззификации.

Для преобразования нечеткого набора значений к точным был использован метод первого максимума, в результате чего было определено, что число поощрений находится в диапазоне «среднее» и равно примерно 3.

Затем полученные данные были использованы для определения выходных параметров Bj. Зная, что Ai = 15, А5 = 3, Аб=7000 согласно правилу нечеткого логического вывода L3: (A5e[xi..x2] л A66[xi..x2]) л (Ai е[х2..х3] v А2е[х2..х3] v А3е[х2..х3] v А.1е[х2..х3)) -> Bi g[0..Xi] было определено, что с данными показателями НИР этот студент заслуживает премирования в размере [0..2000].

В разрабатываемой системе в качестве инструментов интеллектуального анализа данных были использованы технологий data-mining, ключевые индикаторы производительности KPI и тренды.

В качестве наиболее характерного типа закономерностей для осуществления процесса data-mining были определены классификация и ассоциация, используемым методом исследования данных был метод деревьев решений. Применение модели деревьев решений для разрабатываемой системы рассмотрено на конкретном примере. Булевскими атрибутами, которые следует доопределить являются: склонность студентам в НИР, склонность преподавателя к руководству НИРС. Для измерения значений целевой функции используется интегральная оценка НИРС. Дерево решений для определения склонности студента к НИР и преподавателей к руководству НИРС (р -

вероятность исхода в определенном узле, п- число публикаций, в - сумма заработанных денег) показано на рис. 5:

Рис. 5. Дерево решений для определения склонности к НИРС

Зная, что общее число результатов=5, s=3000, п=2, после отсечения лишних ветвей получилось, что EMV (A)=l,5, a EMV (В)=3,5, то есть при данных показателях студент не склонен к НИР (преподаватель не склонен к руководству НИРС) с вероятностью 0,7.

OLAP-технология использовалась также при работе и ключевыми индикаторами производительности - key performance indicator (KPI). В исследуемой системе были выделены следующие KPI: общее число достижений в НИРС на факультете, общее число достижений в НИР определенного студента, число активностей по отдельным видам НИРС, число преподавателей, являющихся руководителями НИРС, а также число студентов, имеющих результаты НИР. Эти показатели сигнализируют конечному пользователю о достижении стратегических целей, либо о том, что те или иные показатели деловой активности организации нуждаются в улучшении.

Кроме того, при анализе данных были использованы тренды. Тренд представляет собой выраженную направленность изменения показателей любого временного ряда. Графики могут быть описаны различными уравнениями - линейными, логарифмическими, степенными и т. д. Фактический тип графика устанавливается на основе графического изображения данных временного ряда, путем осреднения показателей динамики ряда, на основе статистической проверки гипотезы о постоянстве параметров графика. С помощью трендов можно сделать прогноз об активности студентов в НИР в будущем и в соответствии с этим принять решение о

финансировании НИРС на данном факультете и сделать вывод об общих перспективах НИРС на факультете.

Глава 3

В третьей главе проводится программная реализация системы оперативной обработки и интеллектуального анализа данных на основе разработанных моделей и алгоритмов для обработки информации о НИРС в вузе. Здесь рассматриваются такие аспекты реализации системы как выбор инструментов реализации системы, варианты использования системы, физические модели данных и OLAP-кубов, создание иерархий измерений, KPI, трендов, дерева принятий решений, использования data mining. Кроме того, приведены экранные снимки интерфейса программной системы, а также описание процесса визуализации данных для повышения эффективности их интеллектуальной обработки. Также в этой главе описано применение моделей и алгоритмов для организации обработки данных в Учебном центре ТПУ & SoftLine Academy и в ФГУП «Томской электротехнический завод».

В начале главы производится обоснование выбора инструментов для реализации системы. Инструмент для реализации системы должен поддерживать все технологии и методики, выделенные на этапе проектирования. В соответствии с этим было выделено несколько сред разработки программных систем, а затем проведен их сравнительный анализов при помощи интегральных критериев, весовых коэффициентов и матрицы парных сравнений.

Было рассмотрено 4 альтернативных варианта: z\ - Microsoft SQL Server Analysis Services 2008, z2 - Oracle Database 1 lg, z3 - Deductor Studio 4, z4 - Crystal Analysis Professional 9 и выделено 10 частных критериев: Hi - поддержка технологии OLAP, в том числе возможность преобразования реляционной схемы данных в OLAP-модель; Щ - возможность реализации математической модели нечеткой логики; Н3 - программная поддержка нечеткого логического вывода; Н4 - поддержка data mining; Н5 - использование KPI; Н6 - использование трендов; Н7 - динамическое изменение базы знаний системы; Н8 - удобство представления информации конечному пользователю; Н9 - быстрота обработки информации; Ню - стоимость среды разработки.

В результате был выбран вариант zi - Microsoft SQL Server Analysis Services 2008. Указанная среда разработки имеет преимущества перед альтернативными вариантами инструментария для реализации системы по всем интегральным критериям.

Согласно КИМПО была создана схема данных в Microsoft SQL Server 2008, в соответствии с которой было построено 2 OLAP-куба, определенных на этапе проектирования системы. При создании OLAP-кубов в среде разработки Bisunsess Intelligence Development Studio (BIDS) в качестве основного источника данных выступала база данных SQL Server 2008. Схема OLAP-кубов результатов НИРС и поощрений за НИРС в BIDS представлена на рис. 6:

Рис. 6. Схема OLAP-кубов

Бизнес-логика для указанных на этапе проектирования измерений была внедрена путем создания иерархий. Каждая мера была определена с помощью MDX (Multi Dimension Expression) выражения - языка запросов для многомерных баз данных. Для мер, являющихся KPI, были указаны MDX-выражения для расчета целевого значения, выражение показателя эффективности, выражение для расчета состояния, а также вид используемого индикатора. В основе использования трендов находится выражения для расчета тренда при описании мер и вида индикатора для отображения тренда.

Для внедрения data mining использовалась методология добычи данных Microsoft Decision Trees, инструменты реализации которой входят в программную среду разработки BIDS. В таблице фактов OLAP-куба был задан отсутствующий атрибут, который необходимо определить: в данном случае это склонность студента к НИР. Кроме того, задаются входные данные для расчета отсутствующего значения: этими данными являются год поступления, средняя успеваемость, число результатов НИР у студентов, для которых известен атрибут «Склонность к НИРС».

В итоге была получена таблица, в которой записям с определенной долей вероятности присваиваются значения атрибута «склонность НИРС», имеющего сходные с искомым объектом входные параметры. Таким образом, с помощью однократной тренировки системы была реализована возможность получить множество недостающих в БД сведений. Далее приведен MDX-код, предназначенный для создания модели данных:

SELECT

(t.[l name]) as [Фамилия], (t.[f_name]) as [Имя],(t.[m name]) as [Отчество], ([Students 8].[lsNIR Student]) as [Значение атрибута], (PredictProbability([Students 8].[IsNIR Student])) as [Вероятность] From[Students 8JPREDICTION JOIN OPENQUERY ([NTRS], 'SELECT[l_name[,[f' name],[mjiame],[marks] FROM [dbo].[students data] ') AS t ON [Students 8]. [Marks] = t. [marks]

Основным клиентским инструментом для отображения данных является Microsoft Office Excel 2007, который предполагает использование в качестве источника данных службы аналитики Microsoft SQL Server. Следует отметить, что конечный пользователь имеет возможность динамически изменять структуру запроса к базе данных. Пользователю также доступны формы для просмотра исходной информации. Формы, реализованные с помощью технологии ASP. Net, представляют из себя web-интерфейс для просмотра и(или) редактирования данных. Программирование правил логического вывода в системе осуществлялось при помощи языка программирования C#.Net. Далее приведена часть программного кода, в котором описываются правила нечеткого логического вывода в системе:

namespace NIRS_app

{public partial class Rules : System.Web.UI.Page {protected void Page_Load(object sender, EventArgs e) {int а1,Ы,а2,Ь2,аЗ,ЬЗ,а4,Ь4,а5,Ь5,х1,х2,хЗ,аб; if (((a5 >= 0) & (a5 <= xl)) &((a6 >= 0) & (аб <= xl)) & ((al >= x2) & (al <= x3)) I ((a2 >= x2) & (a2 <= хЗ)) | ((аЗ >= x2) & (аЗ <= хЗ)) | ((a4 >= x2) & (a4 <= хЗ))) {Ы =1;} //правило L1

if (((a5 >= 0) & (a5 <= xl)) & ((аб >= 0) & (аб <= xl)) & ((al >= x2) & (al <= x3)) & ((a2 >= x2) & (a2 <= хЗ)) & ((аЗ >= x2) & (аЗ <= хЗ)) & ((a4 >= x2) & (a4 <= хЗ))) { Ы = 1; } // правило L3 }}}

Отдельная страница системы используется для просмотра и принятия управленческих решений, рис. 7:

Предлагаемое решение Отметка о прквятва

Принять решение Премирование студента (Петров И.С.. сумма 1000 р.) Р*

Принята решение Назначение преподавателю руководства НИРС (Сертеев И И . 3 ст.) Г

Принять решение Рекомендация для поступления в аспирантуру (Гребенщиков С.М.) Г

Принять решение Премирование преподавателя (Сысоев ПЛ.) Г~

Рис. 7. Страница просмотра и принятия управленческих решений

Система предполагает разграничение полномочий после ввода пользователями логина и пароля. Механизм авторизации реализован при помощи технологии Windows Forms.

В данной работе визуализация является дополнительным средством для эффективного отображения и интеллектуального анализа данных о результатах НИРС. В качестве инструментального средства визуализации данных использовался Novospark Visualizer 2.1. В среду Novospark Visualizer были импортированы представления данных из OLAP-куба результатов НИРС, в которых отражены общие количественные показатели результатов НИРС. На основе этих данных была построена трехмерная поверхность, оси которой соответствуют порядковым номерам студентов, числу результатов и времени этих результатов. Поверхность сформирована из совокупности кривых, отражающих результаты HPIPC каждого из студентов. Трехмерное визуальное 18

представление данных в виде поверхности позволяет сделать определенные выводы о тенденциях, связанных с НИРС. Кроме того, была проведена кластеризация данных с целью выделения студенческих проектных групп для выполнения курсовых, дипломных проектов, участия в научных мероприятиях и т.д. В системе были выявлены 6 кластерных групп.

Следующим набором данных, загруженным в среду Novospark Visualizer стала выборка студентов, содержащая сведения числовых характеристики результатов НИРС по отдельным видам работ. На основе этих данных была построена трехмерная поверхность, оси которой соответствуют порядковым номерам студентов, числу результатов и виду НИРС. Зависимость количественных показателей результатов НИРС от вида НИРС также была представлена в виде кластеров, содержащих группы студентов для реализации командных проектов. В результате были определены 6 кластерных групп. Средняя степень сходства соответствующего кластера из данной выборки с кластером выборки количественных показателей результатов НИРС от времени является достаточно высокой и составляет 71%, что может служить основанием для определения студенческих групп на основе этих кластеров. Таким образом, визуализация данных служит не только для повышения наглядности отображаемой информации, но и содержит в себе возможности интеллектуальной обработки данных, позволяя находить закономерности в наборах данных.

Кроме того, в третьей главе описывается использование алгоритмов и моделей системы в ФГУП «Томской электротехнический завод» Учебном центре ТПУ & Softline Academy.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Исследования, проведенные в диссертационной работе, направлены на решение актуальной важной народнохозяйственной задачи создания математического и программного обеспечения системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику и обеспечивающей повышение эффективности процесса обработки данных.

К основным результатам, в которых отражена научная новизна и практическая значимость данной работы, относятся:

1. Проведен анализ моделей обработки данных и классов математических моделей описания данных, на основе которого обоснован выбор классов моделей разрабатываемой системы.

2. Разработана математическая модель системы интеллектуальной обработки данных, основанная на аппарате нечеткой логики, позволяющая повысить эффективность обработки данных применительно к существующим задачам.

3. Разработана OLAP-модель данных системы, а также средства интеллектуального анализа данных, которые наделяют систему возможностями оперативной аналитической обработки информации.

4. Разработан алгоритм обработки данных в системе, использующий нечеткую логику, аналитическую обработку данных в реальном времени и механизм извлечения данных.

5. Разработана модель, включающая процедуры нечеткого логического вывода и обработки данных в рамках одной программной системы.

6. Создана система оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику, которая позволяет повысить эффективность процесса работы с данными.

7. Проведена визуализация данных на основе программного пакета Novospark Vizualizer, позволяющая представить данные в наглядной форме и обнаружить скрытые закономерности в наборах данных.

8. Разработанные модели, алгоритмы и технологии созданной системы применены для организации обработки данных в Учебном центре ТПУ & SoftLine Academy и в ФГУП «Томской электротехнический завод», что подтверждено соответствующими актами о внедрении.

В процессе исследования использовались следующие теории и методы: теория реляционной модели данных, аппарат математической логики, методы объектно-ориентированного программирования, методы аналитической обработки информации. В процессе разработки использовались технологии ASP.Net, OLAP, data mining, KPI, тренды. Для исследования были применены следующие программные средства: Design/IDEF 3.7, MS Office Word 2007, MS Office Excel 2007, MS Office Visio 2007, Rational Rose 2000, MS SQL Server 2008, MS Visual Studio 2008, Novospark Visualizer 2.1.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Вахитов, А.Р. Использование KPI, технологий OLAP И data-mining при обработке данных / А.Р. Вахитов // Известия Томского политехнического университета. - 2009. - Т. 314. - № 5. - С. 175-179.

2. Вахитов, А.Р. Преимущества использования OLAP-технологии при обработке данных / А.Р. Вахитов // Технологии Microsoft в теории и практики программирования: Сборник трудов VI Всероссийской научно-практической конференции студентов, аспирантов и молодых

" ученых: Томск, 2009. - С. 138-140.

3. Вахитов, А.Р., Новосельцев, В.Б. OLAP-технология как способ обработки данных / А.Р. Вахитов, В.Б. Новосельцев // Современные техника и технологии СТТ 2007: Материалы XIII Международной научно-практической конференции студентов и молодых ученых: Томск, 2007. - С. 342-344.

4. Вахитов, А.Р., Новосельцев, В.Б. Дескриптивная логика как способ обработки знаний / А.Р. Вахитов, В.Б. Новосельцев // Молодежь и современные информационные технологии: Материалы IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых: Томск, 2008. - С. 57-59.

5. Вахитов, А.Р., Новосельцев, В.Б. Обработка знаний при помощи дескриптивной логики / А.Р. Вахитов, В.Б. Новосельцев // Информационные системы и модели в научных исследованиях, промышленности и экологии: Материалы всероссийской научно-технической конференции: Тула, 2007. - С. 11-13.

6. Вахитов, А.Р., Новосельцев, В.Б. Оценка эффективности преобразования реляционной модели в OLAP-модель / А.Р. Вахитов, В.Б. Новосельцев // Молодежь и современные информационные технологии: Материалы IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых: Томск, 2007. -С. 146-148.

7. Вахитов, А.Р., Новосельцев, В.Б. Преимущества дескриптивной логики при обработке знаний / А.Р. Вахитов, В.Б. Новосельцев // Известия Томского политехнического университета. - 2008. - Т. 313. -№ 5.-С. 73-76.

8. Вахитов, А.Р., Соколова, В.В. Decision support system for quality management / А.Р. Вахитов, В.В. Соколова // Снежинск и наука - 2006: Материалы VII Международной научно-практической конференции: Снежинск, 2006. - С. 172-174.

9. Вахитов, А.Р., Соколова, В.В. Информационные технологии в системах поддержки принятия решений / А.Р. Вахитов, В.В. Соколова У/ Математическое моделирование и информационные технологии: Материалы VIII Школы-семинара молодых ученых: Улан-Удэ, 2006. -С. 231-236.

10. Вахитов, А.Р., Соколова, В.В. Система поддержки принятия решений руководителя кафедры / А.Р. Вахитов, В.В. Соколова // Молодежь и современные информационные технологии: Материалы IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых: Томск, 2006. - С. 35-37.

11. Вахитов, А.Р., Соколова, В.В. Система поддержки принятия решений для менеджмента качества / А.Р. Вахитов, В.В. Соколова // Энергия молодых - экономике России: Материалы VII Международной научно-практической конференции студентов и молодых ученых: Томск, 2006.-С. 89-91.

12. Вахитов, А.Р. Использование интеллектуального анализа данных на основе методологии деревьев решений и его реализация в среде BIDS / А.Р. Вахитов // Технологии Microsoft в теории и практики программирования: Сборник трудов VII Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых: Томск, 2010.-С. 81-83.

13. Вахитов А.Р. Программная система интеллектуальной обработки данных на основе нечеткой логики «WinDIFOT» // Свидетельство о регистрации в объединенном фонде электронных ресурсов «Наука и образование» №>15692 от 12.05.2010г.

Подписано к печати 26.10.2010. Формат 60x84/16. Бумага «Снегурочка». Печать XEROX. Усл. печ. л. 1,28. Уч.-изд. л. 1,16.

_Заказ 1764-10. Тираж 150 экз._

Национальный исследовательский Томский политехнический университет

NATIONAL QUALITY ASSURANCE по стандарту ISO 9001:2008

Система менеджмента качества Томского политехнического университета сертифицирована

издательством'ТПУ. 634050, г. Томск, пр. Ленина, 30 Тел/факс: +7 (3822) 56-35-35, www.tpu.ru

Оглавление автор диссертации — кандидата технических наук Вахитов, Александр Робертович

Введение.

Глава 1. Способы обработки знаний и данных.

1.1. Модели представления знаний.

1.1.1.-Использование метода Саати для выбора класса математической модели

1.1.2. Использование интегральных критериев для выбора класса математической модели.

1.2. Модели обработки данных.

1.2.1. Использование метода Саати для выбора класса модели обработки данных.

1.2.2. Использование интегральных критериев для выбора класса модели обработки данных.

1.3. Выводы.

Глава 2. Разработка моделей и алгоритмов системы оперативной обработки и интеллектуального анализа данных.

2.1. Общее описание предметной области.

2.2. Проектирование модели представления знаний.

2.3. Проектирование КИМ ПО.

2.4. Создание ОЬАР-модели.

2.5. Использование интеллектуального анализа данных.

2.6. Выводы.

Глава 3. Реализация системы оперативной обработки и интеллектуального анализа данных.

3.1. Выбор инструментов для реализации системы.

3.2. Программная реализация системы.

3.3. Визуализация данных.

3.4. Внедрение в ФГУП «Томский электротехнический завод».

3.5. Внедрение в Учебном центре ТПУ & SoftLine Academy.

3.5. Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Вахитов, Александр Робертович

Совершенствование информационных систем (ИС), информационно-поисковых систем, диалоговых систем, базирующихся на естественных языках, интерактивных человеко-машинных систем, используемых в различных областях (управлении процессами и производствами, проектировании, научных исследованиях) во многом определяется тем, насколько успешно будут решаться проблемы представления и обработки знаний.

Успехи в области создания интеллектуальных информационных систем (ИИС) [1, 6, 15, 28, 29, 30, 47, 49, 50, 103] стимулировали применение технологий и методов искусственного интеллекта для решения двух основных задач: повышения скорости обработки данных и расширения функций системы.

Одним из основоположников классического подхода к обработке баз данных (БД) был Э. Кодд [97-101]. Такие БД называются операционными или транзакционными, поскольку они характеризуются огромным количеством транзакций (операций записи-чтения). Компьютерные системы, осуществляющие учет операций и, собственно, доступ к транзакционным базам, принято называть системами оперативной обработки транзакций Online Transactional Processing (OLTP) или учетными системами [18]. Показателем эффективности таких систем является количество транзакций, выполняемых за секунду. Обычно операции над отдельными* записями очень малы и не связаны друг с другом. Набор аналитических функций в учетных системах обычно весьма ограничен. Схемы, используемые в OLTP-приложениях, осложняют создание даже простых отчетов, так как данные чаще всего распределены по множеству таблиц, и для их агрегирования необходимо выполнять сложные операции объединения. Кроме того, что в учетных системах хранятся постоянно изменяющиеся данные. По мере осуществления операций записи-чтения суммарные значения меняются очень быстро, и два комплексных анализа, проведенных с интервалом в несколько минут, могут дать разные результаты, поэтому, чаще всего, анализ выполнятся по окончании отчетного периода, иначе картина может оказаться искаженной. Недостатком классического подхода к обработке реляционных данных является также отсутствие интеллектуального анализа, который позволил бы автоматически обработать большой объем информации и представить пользователю данные в виде сгенерированных системой решений, комплексных отчетов и т. д. Кроме того, классический подход к обработке данных не содержит эффективных методов поиска закономерностей в больших объемах данных с целью извлечения отсутствующей информации.

В значительной степени проблемы обработки данных на основе классического подхода решает переход к объединению и анализу данных учетной системы с помощью технологии Online Analytical Processing (OLAP)

20, 22, 80,- 81]. Технология OLAP позволяет вести аналитическую обработку в реальном времени, включающую составление и динамическую публикацию отчётов и документов и предназначенную для быстрой обработки сложных многотабличных запросов к БД. OLAP-моделью в работе называется логическая модель данных, лежащая в основе OLAP-технологии.

Использование технологии OLAP для обработки запросов позволяет повысить скорость и удобство обработки данных. Реляционные БД хранят сущности в отдельных таблицах, нормализованных по третьей нормальной форме. Эта структура удобна для операционных БД (систем OLTP), но сложные многотабличные запросы, обрабатывающие множество строк, в ней выполняются относительно медленно. OLAP-технология значительно упрощает и ускоряет этот анализ за счет использования многомерных кубов* представления данных. Просматривая сводные таблицы, пользователь видит сначала итоговые значения показателей, и в случае необходимости может их 5 легко детализировать. Клиент-серверная архитектура OLAP-продуктов обеспечивает одновременный доступ большого числа пользователей. При этом анализ проводится одинаково быстро по всем аспектам информации независимо от размера и сложности структуры БД. Однако зачастую преобразование реляционной модели обработки данных в OLAP-модель не решает проблем скорости обработки данных и их интеллектуального анализа.

Технология data mining [43, 45, 108], представляющая собой выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных, является расширением OLAP-технологии. Data mining включает методы и модели статистического анализа и машинного обучения, целью которых является автоматическая обработка данных. Инструменты data mining позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями. Однако на практике часто возникают задачи, для которых использование таких средств data mining как классификация, кластеризация, сокращение описания, ассоциация, прогнозирование, анализ отклонений и визуализация является недостаточным в связи с тем, что постоянно увеличивается объем обрабатываемых данных, а также спектр требуемых функций системы по интеллектуальному анализу данных. Поэтому существует необходимость в создании эффективных алгоритмов по обработке и анализу данных в ИИС.

Другой проблемой ИИС систем является то, что они строятся как самостоятельные программы, имея собственную организацию хранения данных и знаний [66, 87, 109, 111]. Поэтому их применение для решения сложных задач в промышленных масштабах становится проблематичным. Разработка и внедрение ИИС требует не только значительно больших объемов информации, но и значительно более сложных вычислений, учета слабо формализуемых факторов, высокого уровня интерфейса, связи с уже существующими БД.

Таким образом, несмотря на имеющиеся достижения в области создания ИИС и на наличие целого ряда методов и программных средств обработки данных, задача создания информационной системы, обеспечивающей оперативную обработку информацию, обладающую возможностями интеллектуального анализа данных и имеющую интерфейс с активно использующимися СУБД, является актуальной и представляет интерес в научном и практическом плане, что определяет актуальность темы диссертационной работы.

Целью диссертационной работы является создание математического и программного обеспечения системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику и обеспечивающей повышение эффективности процесса обработки данных.

Для достижения поставленной в диссертационной работе цели были поставлены и решены следующие задачи:

• формирование требований к системе оперативной обработки и интеллектуального анализа данных;

• анализ подходов к построению математических моделей и обоснование выбора класса математической модели для разрабатываемой системы, реализующей функции логического вывода в условиях неопределенности и неполноты знаний исследуемой предметной области;

• анализ подходов к построению программного обеспечения и обоснование выбора программного обеспечения для реализации разрабатываемой системы, включающей функции OLAP, data mining, ключевых индикаторов производительности, деревьев решений и трендов;

• создание БД и базы знаний для обработки информации о НИРС в вузе;

• разработка математической модели системы с использованием аппарата нечеткой логики, в том числе описание исследуемой предметной области в терминах нечеткой логики и проектирование правил нечеткого логического вывода;

• разработка OLAP-модели данных на основе математической модели, КИМПО, реляционной схемы данных;

• расширение состава функций OLAP-модели путем разработки таких средств интеллектуального анализа данных, как data mining, трендов, ключевых индикаторов производительности и деревьев решений;

• программная реализация системы оперативной обработки и интеллектуального анализа данных на основе разработанных моделей и алгоритмов для обработки информации о НИРС в вузе;

• визуализация данных, применение алгоритмов кластеризации для интеллектуальной обработки данных;

• использование моделей, алгоритмов и программ для организации обработки данных в Учебном центре ТПУ & SoftLine Academy;

• использование моделей, алгоритмов и программ для организации обработки данных в ФГУП «Томской электротехнический завод».

Методы исследования. В процессе исследования использовались следующие теории и методы: теория реляционной модели данных, теория математической логики, аппарат нечеткой логики, теории принятия решений, методы объектно-ориентированного программирования, методы аналитической обработки информации, методы извлечения данных.

Научная новизна. Получены следующие основные результаты, обладающие научной новизной:

1. Предложена математическая модель интеллектуальной обработки данных, основанная на аппарате нечеткой логики и позволяющая повысить эффективность обработки данных и знаний при решении широкого круга задач.

2. Разработан оригинальный алгоритм обработки данных, использующий нечеткую логику, аналитическую, обработку данных в реальном времени и механизм извлечения данных.

3. Разработан новый алгоритм совместного использования процедур нечеткого логического вывода и процедур обработки данных (data mining, деревья решений, тренды и т.д.).

4. Впервые предложен алгоритм динамического изменения структуры данных на этапе работы пользователя с программной системой, позволяющий повысить эффективность его работы.

5. Создана и исследована программная система оперативной обработки и интеллектуального анализа данных на основе разработанных моделей и алгоритмов.

Практическая значимость. Практическая значимость исследования заключается в разработке системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику, которая предназначается для решения широкого круга задач по обработке и анализу данных. Использование системы позволяет автоматизировать процесс обработки данных, осуществлять интеллектуальный анализ данных, извлекать отсутствующие данных, увеличить скорость обработки данных и удобство представления данных конечному пользователю по сравнению с классическими методами.

Результаты диссертационной работы внедрены в Учебном Центре ТПУ & SoftLine Academy и в ФГУП «Томский электротехнический завод», что подтверждено соответствующими актами, приведенными в Приложении 5.

Основные положения, выносимые на защиту:

1. разработанная математическая модель интеллектуальной обработки данных, основанная на аппарате нечеткой логики, позволяющая повысить скорость и эффективность обработки данных применительно к существующим задачам;

2. разработанная OLAP-модель данных, а также средства интеллектуального анализа данных, в том числе правила data mining, тренды, ключевые индикаторы производительности, которые наделяют систему возможностями оперативной аналитической обработки информации;

3. разработанный алгоритм обработки данных, использующий нечеткую логику, аналитическую обработку данных в реальном времени и механизм извлечения данных;

4. модель, включающая процедуры нечеткого логического вывода и процедуры обработки данных в рамках одной программной системы;

5. созданная система оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику, которая позволяет повысить эффективность процесса работы с данными.

Основные результаты работы докладывались и обсуждались на следующих конференциях:

• Молодежь и современные информационные технологии: IV Всероссийская научно-практическая конференции студентов, аспирантов и молодых ученых: Томск, 2006.

• Энергия молодых - экономике России: VII Международная научно-практическая конференция студентов и молодых ученых: Томск, 2006.

• Математическое моделирование и информационные технологии: VIII Школа-семинар молодых ученых: Улан-Удэ, 2006.

• Молодежь и современные информационные технологии: IV Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых: Томск, 2007.

• Современные техника и технологии СТТ 2007: XIII Международная научно-практическая конференция студентов и молодых ученых: Томск, 2007.

• Информационные системы и модели в научных исследованиях, промышленности и экологии: Всероссийская научно-техническая конференция: Тула, 2007

• Молодежь и современные информационные технологии: IV Всероссийской научно-практическая конференция студентов, аспирантов и молодых ученых: Томск, 2008.

• Технологии Microsoft в теории и практики программирования: VI Всероссийская научно-практическая конференции: Томск, 2009.

• Технологии Microsoft в теории и практики программирования: VI Всероссийская научно-практическая конференция: Томск, 2010.

По теме диссертации опубликовано 13 работ: 2 - в рецензируемых отечественных изданиях, рекомендованных ВАК, 10 - в материалах российских и международных конференций, 1 - свидетельство о регистрации электронного ресурса.

Основные результаты диссертационной работы получены автором лично. Программная система WinDIFOT для оперативной обработки и интеллектуального анализа данных разработана и реализована автором лично. технические детали работы. Общий объем работы составляет 152 страницы, включая 46 рисунков и 12 таблиц.

В первой главе проводится анализ подходов к построению математических моделей и обосновывается выбор класса математической модели для разрабатываемой системы, реализующей функции логического вывода в условиях неопределенности и неполноты знаний. Также в этой главе обосновывается выбор модели обработки данных, включающей функции OLAP, data mining, ключевых индикаторов производительности, деревьев решений и трендов. Кроме того, в первой главе выявляются требования к системе оперативной обработки и интеллектуального анализа данных.

Во второй главе формируются КИМПО, реляционная модель обработки данных, БД и базы знаний для анализа эффективности НИРС в вузе. Также в этой главе описана математическая модель системы с использованием аппарата нечеткой логики, исследуемая предметная область в терминах нечеткой логики и правила нечеткого логического вывода. Кроме того, в третьей главе проводится разработка OLAP-модели данных на основе математической модели, КИМПО, реляционной схемы данных и расширение OLAP-модели путем разработки таких средств интеллектуального анализа данных, как data mining, трендов, ключевых индикаторов производительности и деревьев решений.

В третьей главе проводится программная реализация системы оперативной обработки и интеллектуального анализа данных на основе разработанных моделей и алгоритмов для обработки информации о НИРС в вузе. Здесь рассматриваются такие аспекты реализации системы как выбор инструментов реализации системы, варианты использования системы, физические модели данных и OLAP-кубов, создание иерархий измерений,

KPI, трендов, дерева принятий решений, использования data mining. Кроме того, приведены экранные снимки интерфейса программной системы, а

12 также описание процесса визуализации данных для повышения эффективности их интеллектуальной обработки. Также в этой главе описано применение моделей и алгоритмов для организации обработки данных в Учебном центре ТПУ & SoftLine Academy и в ФГУП «Томской электротехнический завод».

Заключение диссертация на тему "Математическое и программное обеспечение системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику"

3.5. Выводы

1. На основе выдвинутых требований к среде разработки системы сформированы критерии выбора программной среды для реализации системы.

2. Проведен сравнительных анализ программных на основе метода интегральных критериев для выбора варианта реализации системы.

130

В качестве программной среды была выбрана Microsoft SQL Server Analysis Services 2008, так как она имеет преимущества по всем интегральным критериям.

3. Создана и исследована программная система оперативной обработки и интеллектуального анализа данных на основе разработанных моделей и алгоритмов, которая позволяет повысить эффективность процесса работы с данными:

• На языке унифицированного моделирования UML описаны варианты использования системы для различных пользователей.

• Реализована реляционная база данных о НИРС в вузе, построено 2 аналитических OLAP-куба: для результатов НИРС и для поощрений за НИРС, созданы измерения, меры, иерархии измерений, ключевые индикаторы производительности, тренды, внедрена технология data mining на основе методологии деревьев решений.

• Реализован алгоритм совместного использования процедур нечеткого логического вывода, аналитической обработки данных в реальном времени и извлечения данных.

• Реализован пользовательский интерфейс программной системы. В главе приведены экранные снимки интерфейса реализованной системы.

• Реализован алгоритм динамического изменения структуры данных на этапе работы пользователя с программной системой.

• Проведена визуализация данных на основе программного пакета Novospark Vizualizer, позволяющая представить данные в наглядной форме, а также обнаружить скрытые закономерности в наборах данных.

4. Разработанные модели, алгоритмы и технологии созданной системы применены для организации обработки данных в Учебном центре ТПУ & SoftLine Academy и в ФГУП «Томской электротехнический завод», что подтверждено соответствующими актами о внедрении (Приложение 5).

ЗАКЛЮЧЕНИЕ

Исследования, проведенные в диссертационной работе, направлены на решение актуальной важной народнохозяйственной задачи создания математического и программного обеспечения системы оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику и обеспечивающей повышение эффективности процесса обработки данных.

К основным результатам, в которых отражена научная новизна и I практическая значимость данной работы, относятся:

1. Проведен анализ моделей обработки данных и классов математических моделей описания данных, на основе которого обоснован выбор классов моделей разрабатываемой системы.

2. Разработана математическая модель системы интеллектуальной обработки данных, основанная на аппарате нечеткой логики, позволяющая повысить эффективность обработки данных применительно к существующим задачам.

3. Разработана OLAP-модель данных системы, а также средства интеллектуального анализа данных, в том числе правила data mining, тренды, ключевые индикаторов производительности, которые наделяют систему возможностями оперативной аналитической обработки информации.

4. Разработан алгоритм обработки данных в системе, использующий нечеткую логику, аналитическую обработку данных в реальном времени и механизм извлечения данных. Основным отличительным свойством системы является совместное использование технологий OLAP и data mining, аппарата нечеткой логики, а также таких вспомогательных средств интеллектуального анализа как KPI и тренды.

5. Разработана модель, включающая процедуры нечеткого логического вывода и процедуры обработки данных в рамках одной программной системы.

6. Создана система оперативной обработки и интеллектуального анализа данных, использующей нечеткую логику, которая позволяет повысить эффективность процесса работы с данными. Основу созданной системы составляет математическая модель данных, выполненная с использованием теоретических основ нечеткой логики, и OLAP-модель обработки данных. В дальнейшем эти модели были реализованы в среде разработки Business Intelligence Development Studio с использованием СУБД SQL Server Analysis Services 2008. В результате была разработана программная система, которая предназначается для автоматизации процесса обработки данных. При этом система позволяет осуществлять интеллектуальный анализ данных, извлекать отсутствующие данных, увеличить скорость обработки данных и удобство представления данных конечному пользователю по сравнению с классическими методами. Предметной областью, для которой реализована система, является НИРС в вузе.

7. Проведена визуализация данных на основе программного пакета Novospark Vizualizer, позволяющая представить данные в наглядной форме, а также обнаружить скрытые закономерности в наборах данных.

8. Разработанные модели, алгоритмы и технологии созданной системы применены для организации обработки данных в Учебном центре ТПУ & SoftLine Academy и в ФГУП «Томской электротехнический завод», что подтверждено соответствующими актами о внедрении (Приложение 5).

В процессе исследования использовались следующие теории и методы: I теория реляционной модели данных, аппарат математической логики, методы объектно-ориентированного программирования, методы аналитической обработки информации, методы извлечения данных. В процессе разработки использовались такие технологии как ASP.Net, OLAP, data mining, KPI, тренды, нечеткая логика.

Для исследования были применены следующие программные средства: графический пакет Design/IDEF 3.7, Microsoft Office Word 2007, Microsoft Office Excel 2007, Microsoft Office Visio 2007, Rational Rose 2000, Microsoft SQL Server 2008, Microsoft Visual Studio 2008, Novospark Visualizer 2.1.

Библиография Вахитов, Александр Робертович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Аксёнов, С.В., Новосельцев В.Б. Организация и использование нейронных сетей (методы и технологии) / под общ. ред. В.Б. Новосельцева. — Томск: Изд-во НТЛ, 2006. 128 с.

2. Боуман Д, Эмерсон С., Дарновски М. Практическое руководство по SQL. Киев: Диалектика, 1997.

3. Братчиков, И. JI. Синтаксис языков программирования / И.Л. Братчиков. М.: Мир, 1975. - 232 с.

4. Букович У., Уильяме Р. Управление знаниями: руководство к действию (Wendi R. Bukowitz, Ruth L. Williams The Knowledge Management Fieldbook). M.: ИНФРА-М, 2002. - 504 c.

5. Васкевич Д. Стратегии клиент/сервер. — Киев: Диалектика, 1997.

6. Вахитов, А.Р. Использование KPI, технологий OLAP И data-mining при обработке данных / А.Р. Вахитов // Известия Томского политехнического университета. 2009. — Т. 314. — № 5. — С. 175— 179.

7. Вахитов, А.Р., Новосельцев, В.Б. Преимущества дескриптивной логики при обработке знаний / А.Р. Вахитов, В.Б. Новосельцев // Известия Томского политехнического университета. 2008. -Т. 313. -№ 5. -С. 73-76.

8. Вахитов, А.Р., Соколова, В.В. Decision support system for quality management / А.Р. Вахитов, В.В. Соколова // Снежинск и наука -2006: Материалы VII Международной научно-практической конференции: Снежинск, 2006. С. 172-174.

9. Вахитов, А.Р., Соколова, В.В. Система поддержки принятия решений руководителя кафедры / А.Р. Вахитов, В.В. Соколова //

10. Молодежь и современные информационные' технологии:i

11. Материалы IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых: Томск, 2006. С. 35—37.

12. Вирт, Н. Алгоритмы и структуры данных / Н. Вирт; пер. с англ. -СПб.: Невский диалект, 2001. 352 с.

13. Вольфенгаген, В.Э. Реляционные методы проектирования банков данных / В.Э. Вольфенгаген, JI. Т. Кузин, В. И. Саркисян. Клев-Наука, 1979. - 420 с.

14. Гаврилова, Т. Базы знаний интеллектуальных систем: учебник для вузов / Т. Гаврилова, В. Хорошевский. СПб.: Питер, 2000. - 384 с.

15. Гарсиа-Молина, Г. Системы баз данных. Полный курс / Г. Гарсиа-Молина, Дж. Ульман, Дж. Уидом. М.: Вильяме, 2003. - 1088 с.

16. Гасфилд, Д. Строки, деревья и последовательности в алгоритмах / Д. Гасфилд. СПб.: БХВ-Петербург, 2003 - 654 с.

17. Гилуа М.М. Множественная модель данных в информационных системах. М.: Наука, 1992.

18. Голосов, А.О. Аномалии в реляционных базах данных // СУБД. -1986.-№3.-С. 23-28.

19. Грабер М. Введение в SQL. М.: Лори, 1996. - 379 с.

20. Грабер М. Справочное руководство по SQL. М.: Лори, 1997. -291 с.

21. Дейт К. Введение в системы баз данных // 6-издание. Киев: Диалектика, 1998. - 784 с.

22. Дейт К. Руководство по реляционной СУБД DB2. М.: Финансы и статистика, 1988. - 320 с.

23. Джевонс, Стенли. Элементарный учебник логики дедуктивной и индуктивной. СПб., 1881.

24. Джинн К. Логика в статистике. М., 1973.

25. Диго, С.М. Проектирование и использование баз данных / С.М. Диго. М.: Финансы и статистика, 1983. - 208 с.

26. Дрибас, В.П. Реляционные модели баз данных / В.П. Дрибас. — Минск: БГУ им. Ленина, 1982. 191 с.

27. Ершов, Ю.Л., Палютин Е.А. Математическая логика. — М., 1979.

28. Жоль, К.К. Логика в лицах и символах. М., 1993.

29. Загорский, Г.И, Математическая статистика. М., 1985.

30. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976. - 165 с.

31. Замулин, A.B. Системы программирования баз данных и знаний / A.B. Замулин. Новосибирск: Наука, 1990. - 350 с.

32. Иванов, А.Ю. Основы построения и проектирования реляционных баз данных / А.Ю. Иванов, И.Б. Саенко. СПб: ВАС, 1998. - 80 с.

33. Иванов, Е.А. Логика. М., 1996.

34. Ивин, A.A. Строгий мир логики. М., Педагогика. 1988.

35. Ивин, A.A. Искусство правильно мыслить. М., 1990.

36. Илюшин, А.И. Многоуровневая модель архитектуры БД и ИПС / А.И. Илюшин, В.И. Филлипов // Программирование. 1980. - № 6. -С. 7-28.

37. Кнут, Д. Искусство программирования для ЭВМ. В 3 т. Т. 1. Основные алгоритмы / Д. Кнут. М.: Мир, 1976. - 453 с.

38. Когаловский, М. Р. Перспективные технологии информационных систем / М. Р. Когаловский. М.: ДМК-Пресс, 2003. - 288 с.

39. Когаловский, М.Р. Энциклопедия технологий баз данных /I

40. М.Р. Когаловский. М.: Финансы и статистика, 2002. - 800 с.

41. Коннолли, Т. Базы данных. Проектирование, реализация и сопровождение. Теория и практика. — 3-е изд., перераб. и доп. / Т. Коннолли, К. Бегг. - М.: Вильяме, 2003. - 1436 с. ■

42. Кормен, Т. Алгоритмы: построение и анализ / пер. с англ / Т. Кормен, Ч. Лейзерсон, Р. Ривест, К. Штайн. М.: Вильяме, 2005.- 1296 с.

43. Корниенко, A.B. Интеллектуальные информационные системы в экономике: учебное пособие. Томск: Изд-во Томского политехнического университета, 2008. — 177 с.

44. Корниенко, А. В. Логико-математические основы искусственного интеллекта и экспертных систем: учебно-справочное пособие. — Томск: Изд. ИПФ, 1999. 32 с.

45. Корниенко, A.B. Дискретная математика: учеб. пособие. 2-е изд! — Томск: Изд-во ТПУ, 2000. - 104 с.

46. Корниенко, A.B. Экспертные системы в экономике: учеб. пособие. — Томск: Изд-во ТПУ, 2002. 120 с.

47. Коровкин, С.Д., Левенец, И.А., Ратманова, И.Д., Старых, ' В.А., Щавелёв, Л. В. Решение проблемы комплексного оперативного анализа информации хранилищ данных // СУБД. -1997.-№5-6.-С. 47-51.

48. Котов, В. М. Структуры данных и алгоритмы: теория и практика / В. М. Котов, Е. П. Соболевская. Минск: БГУ, 2004. - 255с.

49. Кречетов Н., Иванов П. Продукты для интеллектуального анализа данных // ComputerWeek-Москва. 1997. - № 14-15. - С. 32-39.

50. Кудрявцев, В.Б. Введение в теорию конечных автоматов / В.Б. Кудрявцев, С. В. Алешин, А. С. Подколзин,- М.: Наука, 1975. -320 с.

51. Кузнецов, С. Д. Методы оптимизации выполнения запросов в реляционных СУБД / С. Д. Кузнецов // Вычислительные науки. Т. 1. Итоги науки и техники ВИНИТИ АН СССР. М.: ВИНИТИ АН СССР, 1989. - С. 76-153.

52. Кузнецов, С.Д. Основы баз данных. Курс лекций: учебное пособие / С.Д. Кузнецов М.: ИНТУИТ, 2005. - 488 с.

53. Кузнецов, С.Д. Неопределенная информация и трехзначная логика // СУБД. 1997. - №5. - С. 65-67.

54. Лавров, С.С. Программирование. Математические основы, средства, теория / С.С. Лавров М.: Наука, 2000. - 317 с.

55. Ладыженский, Г.М. Системы управления базами данных — коротко о главном // СУБД. 1995. - № 1, 2, 3, 4.

56. Мартин Д. Планирование развития автоматизированных систем. -М.: Финансы и статистика, 1984. 196 с.

57. Мейер М. Теория реляционных баз данных. М.: Мир, 1987. - 608 с.

58. Нагао М., Катаяма Т., Уэмура С. Структуры и базы данных. М.: Мир, 1986.- 197 с.

59. Новосельцев, В. Б. Теория структурных функциональных моделей / В. Б. Новосельцев // Сибирский математический журнал. 2006. -Т. 47.-№5.-С. 1014-1030.

60. Новосельцев, В. Б. Теория функциональных моделей /

61. B.Б. Новосельцев // Сибирский математический журнал. 2006. -Т. 47. -№ 6. - С. 1242-1354.

62. Обработка нечеткой информации в системах принятия решений / А.Н. Борисов, А.В. Алексеев, Г.В. Меркурьева и др. М.: Радио и связь, 1989.-304 с.

63. Пржиялковский, В. В. Сложный анализ данных большого объема: новые перспективы компьютеризации // СУБД. — 1996. — № 4. —1. C. 71-83.

64. Прохоров, А. Определение оптимальной структуры базы данных //1.formix magazine. Русское издание. 1998. - Апрель.

65. Раден Н. Данные, данные и только данные // ComputerWeek-Москва. 1996. - № 8. - С. 28.

66. Райли, Д. Д. Абстракция и структуры данных: Вводный курс / Д.Д. Райли / пер. с англ. М.: Мир, 1993. - 750 с.

67. Райордан, Р. Основы реляционных баз данных / Р. Райордан. М.: Русская Редакция, 2001. - 384 с.

68. Ревунков, Э. Н. Самохвалов, В. В. Чистов М.: Высшая школа, 1992.-367 с.

69. Роб, П. Системы баз данных: проектирование, разработка ииспользование / П. Роб, К. Коронел. — СПб.: БХВ-Петербург!, 2003.- 1200 с.

70. Романов, В.П. Интеллектуальные информационные системы в экономике: Учебное пособие. М.: Экзамен, 2003. - 496 с.

71. Саймон, А.Р. Стратегические технологии баз данных / А.Р. Саймон / пер. с англ. М.: Финансы и статистика, 1999. - 479 с.

72. Сахаров, А. А. Концепция построения и реализации информационных систем, ориентированных на анализ данных // СУБД. 1996. - № 4. - С. 55-70.

73. Сахаров, А. А. Принципы проектирования и использования многомерных баз данных // СУБД. 1996. - № 3. - С. 44-59.

74. Силич, В. А., Силич, М. П. Системный анализ и исследование операций: Учебное пособие. Томск: изд. ИПФ, 2000. - 97 с.

75. Силич, В. А., Силич, М. П. Реинжиниринг бизнес-процессов: Учебное пособие. Томск: Томск, государственный университет систем управления и радиоэлектроники, 2006. - 136 с.

76. Совместное использование учетных систем и технологии OLAP Электронный ресурс. — 2006. Режим доступа: http://www.basegroup.ru/library/analysis/tree/description/. -16.03.2010.

77. Совместное использование OLTP и OLAP систем Электронный ресурс. 2006. - Режим доступа: http://www.citforum.ru/database/articles/olapoltp.shtml. - 17.04.2009.

78. Тейз А., Грибомон П., Луи Ж. и др. Логический подход к искусственному интеллекту. М.: Мир, 1990. - Т. 1. От классической логики к логическому программированию. — С. 125— 134.

79. Тиори Т., Фрай Д. Проектирование структур баз данных. В 2 кн. -М.: Мир, 1985. Кн. 1. 287 е.: Кн. 2. - 320 с.

80. Тузовский, А.Ф., Чириков, C.B., Ямпольский, В.З. Системы управления знаниями (методы и технологии) / под общ. ред. В.З. Ямпольского. Томск: Изд-во НТЛ, 2005. - 260 с.

81. Тузовский А.Ф., Ямпольский В.З. От баз данных к базам знаний // Информационные технологии территориального управления. 2004. -№ 42.-С.49-56.

82. Туо Дж. Каждому пользователю свое представление данных // ComputerWeek-Москва. - 1996. - № 38. - С. 1, 32-33.

83. Ульман Д. Основы систем баз данных. М.: Финансы и статистика, 1983. — 334 с.

84. Цаленко, М.Ш. Моделирование семантики в базах данных. М.: Наука, 1988.

85. Цикритизис Д., Лоховски Ф. Модели данных. М.: Финансы и статистика, 1985. — 344 с.

86. Чамберлин, Д.Д., Астрахан, М.М., Эсваран, К.П., Грифитс, П.П., Лори, Р.А., Мел, Д.В., Райшер, П., Вейд, Б.В. SEQUEL 2: унифицированный подход к определению, манипулированию и контролю данных // СУБД. 1996. - №1. - С. 144-159.

87. Чаудхари С. Методы оптимизации запросов в реляционных системах // СУБД. 1998. - №3. - С. 22-36.

88. Чен П. Модель «сущность-связь» — шаг к единому представлению о данных // СУБД. 1995. - № 3. - С. 137-158.

89. Alalouf С. Hybrid OLAP. St. Laurent, Canada: Speedware Corporation Inc., 1997.

90. An Introduction to Multidimensional Database Technology. Kenan Systems Corporation, 1995.

91. Baader F., Nutt. W. Basic description logics Электронный ресурс. = Основы дескриптивной логики Электронный документ — Режим доступа: http://www.inf.unibz.it/-franconi/dl/course/dlhb/dlhb-02.pdf. -Загл. с экрана.

92. Brachman R., Sefridge P. Knowledge representation support for data archeology // Intelligent and Cooperative Information Systems. 1993. -№2.-P. 159-186.

93. Codd E.F., Codd S.B., Salley С. T. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E.F. Codd & Associates, 1993.

94. Codd E.F. Extending the Database Relation Model to Capture More Meaning // ACM Transaction on Database Systems. 1979 V. 4, № 4. -P.397-434.

95. Codd E.F. Relation Model of Data for Large Shared Data Banks // Comm. ACM. 1970. - V. 13, № 6. - P. 377-383.

96. Codd, E. F. A relation model of data for large shared data banks / E. F Codd // Communication of the ACM, v.13. 1970. - № 6. - P. 337387

97. Codd, E.F. Providing OLAP (On-Line Analytical Processing) to useranalysts: an IT Mandate / E.F Codd, S. B. Codd, С. T. Salley // CACM. 1993. - P. 223-354.

98. Demarest M. Building the Data Mart // DBMS. 1994. - № 7. - P. 4450.

99. Eswaran K.P., Gray J.N., Lorie R.A., Traiger I.L. The Notions of Consistency and Predicate Locks in a Data Base System // CACM. -1976. V.19, №11.

100. Fagin R. Multivalued Dependencies and New Normal Form for Relational Databases //ACM TODS. 1977. - V.2, №3.

101. Fagin R.A. Normal Form for Relational Databases That is Based on Domains and Key //ACM Transactions on Database Systems. 1981. — V.6, №3. - P.387-415.

102. Gray J., Lorie R., Putzolu G., Traiger I. Granularity of Locks and Degrees of Consistency in a Shared Data Base //in Readings in Database Systems, Second Edition, Chapter 3, Michael Stonebraker, Ed., Morgan Kaufmann. 1994.

103. Nardi D., Brachman J. An Introduction to Description Logics Электронный ресурс. = Введение в дескриптивную логику. -Электронный документ Режим доступа: http://www.inf.unibz.it/~franconi/dl/course/dlhb/dlhb-01.pdf. - Загл. с экрана.

104. Parsaye К.A Characterization of Data Mining Technologies and Processes // The Journal of Data Warehousing. -1998.-№ 1.

105. Parsaye K. OLAP and Data Mining: Bridging the Gap // Database Programming and Design. 1997. - № 2.

106. Parsaye K. Surveying Decision Support: New Realms of Analysis // Database Programming and Design. 1996. - № 4.

107. Voronkov A. Theorem proving in non-standard logics based on the inverse method // 11th Intern. Conf. on Automated Deduction, D. Kapur, Ed. Lecture Notes in Artificial Intelligence. 1992. - P. 648-662.