автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Восстановление закономерностей на основе нечетких регрессионных моделей

кандидата технических наук
Сапкина, Наталья Владимировна
город
Воронеж
год
2014
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Восстановление закономерностей на основе нечетких регрессионных моделей»

Автореферат диссертации по теме "Восстановление закономерностей на основе нечетких регрессионных моделей"

На правах рукописи

Сапкина Наталья Владимировна

ВОССТАНОВЛЕНИЕ ЗАКОНОМЕРНОСТЕЙ НА ОСНОВЕ НЕЧЕТКИХ РЕГРЕССИОННЫХ МОДЕЛЕЙ

Специальность 05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

5 /.у

Воронеж-2014

005549703

Работа выполнена в ФГБОУ ВПО «Воронежский государственный университет»

Научный руководитель доктор технических наук, профессор

Леденёва Татьяна Михайловна

Официальные оппоненты: Буховец Алексей Георгиевич, доктор

технических наук, доцент, ФГБОУ ВПО «Воронежский государственный аграрный университет», профессор кафедры прикладной математики и математических методов в экономике

Сербулов Юрий Стефанович, доктор технических наук, профессор, ФГБОУ ВПО «Воронежская государственная лесотехническая академия», профессор кафедры вычислительной техники и информационных систем

Ведущая организация: ФГАОУ ВПО «Белгородский государственный

национальный исследовательский университет»

Защита состоится «25» июня 2014 г. в 15.00 на заседании диссертационного совета Д.212.038.24 при ФГБОУ ВПО «Воронежский государственный университет» по адресу: 394006, г. Воронеж, Университетская пл., 1, ауд. 226.

С диссертацией можно ознакомиться в библиотеке и на сайте ФГБОУ ВПО «Воронежский государственный университет», http://www.science.vsu.ru

Автореферат разослан » мая 2014 г.

Ученый секретарь диссертационного совета

Воронина И.Е.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Использование компьютерных технологий привело к.пониманию важности задач, связанных с обработкой накопленной информации для извлечения знаний. Все более востребованным становится создание систем интеллектуального анализа данных, позволяющих выявить полезную скрытую информацию на основе классификации, кластеризации, статистического анализа, поиска ассоциативных правил и других подходов. Если данные представлены в виде динамических рядов каких-то показателей или их можно сгенерировать из базы данных, то для восстановления закономерностей используется техника регрессионного моделирования, при этом подразумевается, что данные являются числовыми. Однако, если информация относится к другому типу, например, является частично или полностью приближенной, то классические методы регрессионного анализа не применимы, и этот факт обусловливает необходимость их модификации. Одним из способов формализации приближенной информации является использование понятия нечеткого множества и его частного случая -нечеткого числа. Задача разработки регрессионных моделей, ориентированных на нечеткие числа, решалась зарубежными (H.Tanaka, P. Diamond, D. Dubois, M.S. Yang, M. Sakawa, M. Albrecht) и отечественными (P.A. Алиев, А.Э. Церковный, Г.А. Мамедова, Н.Г. Ярушкина и др.) учеными. В общем случае методы нечеткого регрессионного моделирования могут быть разделены на две группы: первая базируется на методе наименьших квадратов и его модификациях, а вторая - на линейном программировании. Анализ показал, что рассмотрены далеко не все возможные постановки задач, учитывающих нечеткость исходных данных и/или параметров модели, кроме того, во многих исследованиях отсутствует комплексность подхода к реализации всех этапов регрессионного моделирования. Построение нечетких регрессионных моделей опирается на математический аппарат, включающий определение арифметических операций над нечеткими числами и их сравнение. Только для некоторых типов нечетких чисел результат арифметической операции представляет собой нечеткое число того же типа. В других случаях требуется дополнительная аппроксимация. Необходимость совершенствования существующих методов нечеткого регрессионного моделирования за счет учета различных типов данных и параметров, представленных нечеткими числами 1-й-типа, и их реализации в рамках информационной системы интеллектуального анализа данных обусловливает актуальность диссертационного исследования.

Диссертационная работа выполнена в соответствии с одним из основных научных направлений Воронежского государственного университета «Математическое моделирование, программное и информационное обеспечение, методы вычислительной и прикладной математики и их применение к фундаментальным исследованиям в естественных науках».

Объект исследования - информационная система интеллектуального анализа данных, в которой реализуются нечеткие линейные регрессионные модели с коэффициентами в виде нечетких чисел 1-Л-типа.

Предмет исследования - нечеткий линейный регрессионный анализ на множестве нечетких чисел /,-Я-типа.

Цель диссертационной работы заключается в развитии подходов к решению задачи восстановления закономерностей в данных на основе нечеткого регрессионного моделирования.

Для достижения поставленной цели решаются следующие задачи:

1. Анализ существующих подходов к восстановлению закономерностей в данных на основе регрессионного моделирования и выявление путей их совершенствования на случай приближенной исходной информации.

2. Выявление алгебраических свойств операций над нечеткими числами ¿-Л-типа и разработка теоретической основы нечеткого регрессионного моделирования.

3. Определение оценок параметров нечетких регрессионных моделей и модификация общей процедуры регрессионного моделирования для выявления закономерностей в приближенной информации.

4. Разработка программного комплекса с применением современных компьютерных технологий для анализа и интеллектуальной обработки данных на основе предложенных алгоритмов нейросетевого и нечеткого регрессионного моделирования.

Методы исследования. В диссертационной работе использовались методы нечеткого и нейросетевого моделирования, линейной алгебры, математической статистики, теории нечетких множеств и нечеткой арифметики, объектно-ориентированного и модульного программирования.

Основные результаты, выносимые на защиту, и их научная новизна:

1) совокупность теоретических результатов, касающихся свойств арифметических операций над нечеткими числами ¿-/{-типа и существования алгебраических структур, что позволяет осуществлять вычисления при построении нечетких регрессионных моделей;

2) модификация процедуры регрессионного моделирования для восстановления закономерностей в данных, отличающаяся оценками параметров нечетких линейных (парной и множественной) регрессионных моделей, в которых коэффициенты представлены обычными и/или нечеткими числами ¿-Л-типа;

3) альтернативные подходы к выявлению множества существенных независимых переменных в рамках нечеткого регрессионного моделирования, основанные на нечетком коэффициенте корреляции, стандартизированном уравнении нечеткой множественной линейной регрессии и применении автоассоциативных нейронных сетей, «работающих» с приближенной информацией, что обеспечивает комплексность анализа данных на различных этапах процесса выявления закономерностей;

4) структура программного комплекса, включающая блок нечеткой арифметики, который может использоваться как самостоятельное приложение, и средства для проведения нечеткого линейного регрессионного моделирования, а также основанная на ней информационная система интеллектуального анализа данных, функционал которой ориентирован на выявление закономерностей в данных, содержащих частично или полностью приближенную информацию.

Область исследования. Диссертационная работа соответствует следующему пункту Паспорта специальности 05.13.17 «Теоретические основы информатики»: п. 5. «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях...».

Практическая значимость работы. Разработанная информационная система, в которой реализован предложенный комплекс алгоритмов нейросетевого анализа и нечеткого регрессионного моделирования, предназначена для обработки приближенной информации, выявления в ней функциональных зависимостей и проведения исследований в ситуациях, когда традиционные методы неприменимы. Результаты диссертационной работы используются для оценки качества выпущенной продукции с целью обоснования управленческих решений по совершенствованию технологических процессов специалистами ЗАО ЛЦ «ABC Фарбен», а также в учебном процессе ФГБОУ ВПО «Воронежский государственный университет» при чтении спецкурсов и выполнении курсовых и выпускных квалификационных работ.

Апробация работы. Основные результаты, полученные в диссертационной работе, докладывались и обсуждались на следующих международных и всероссийских конференциях: Международная научно-практическая конференция «Глобальная научная интеграция» (Тамбов, 2011); Международная конференция «Актуальные проблемы прикладной математики, информатики и механики» (Воронеж, 2011-2012); Всероссийская молодежная научная школа «Инженерия знаний. Представление знаний: состояние и перспективы» (Воронеж, 2012); Международная конференция «ExploIT Dynamics PhD Workshop» (Германия, г. Ольденбург, 2012); Международная конференция «Современные методы прикладной математики, теории управления и компьютерных технологий» (Воронеж, 2013); Международный научный семинар «Emerging Trends in Informations Systems (IS)» (Нижний Новгород, 2013).

Публикации. Основные результаты диссертации опубликованы в 12 научных работах, в том числе 5 - в изданиях, рекомендованных ВАК РФ. В работах, опубликованных в соавторстве, лично соискателю принадлежат: [1] — метод оценки параметров нечеткой линейной множественной регрессионной модели, анализ данных; [10] - детальная разработка и наполнение шагов нечеткого парного линейного регрессионного анализа.

Объём и структура работы. Диссертация состоит из введения, четырёх глав, заключения, списка использованных источников из 110 наименований,

двух приложений. Основная часть работы изложена на 151 странице и включает 42 рисунка и 17 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснованы актуальность темы, научная новизна и значимость работы, приведены цели и задачи исследования.

В первой главе рассмотрены информационные системы интеллектуального анализа данных, технология их построения и архитектура; приведена классификация задач интеллектуального анализа данных; представлены существующие подходы к восстановлению закономерностей на основе регрессионного моделирования; рассмотрен подход к отбору наиболее информативных признаков для проведения множественного регрессионного анализа данных.

Во второй главе рассмотрены теоретические основы обработки приближенной информации, представленной нечеткими числами L-R-типа. В основу исследования положены арифметические операции, определенные А. Piegat. В диссертации исследованы свойства введенных операций, построены алгебраические структуры на множестве нечетких чисел L-Л-типа.

В общем виде нечеткие числа задаются с помощью i-Ä-функций, при этом /.-функция - это непрерывная, неубывающая функция i: —> [0,l], которая удовлетворяет следующим дополнительным условиям: lim L(x) = 0 и

существует значение У e9t, такое, что L(x) = 1. Функция R(x) обладает аналогичными свойствами. Функции L(x) и R(x) описывают изменение функции принадлежности нечеткого числа на промежутках неопределенности.

Число А есть унимодальное нечеткое число L-Я-типа, если существуют константы a,ß> 0, такие, что функция принадлежности нечеткого числа А имеет вид:

та(х) =

L\ ——— |, если х < //,

'x-ju I ^

, если х > ц.

R

Р

где а и р - соответственно левый и правый коэффициенты нечеткости, /л -модальное значение нечеткого числа. Условно нечеткое число А обозначается тройкой параметров {ца,аа,ра).

Нечеткое число А считается положительным, если его модальное значение положительно, у отрицательного нечеткого числа мода отрицательна.

В диссертации исследованы свойства арифметических операций над нечеткими числами ¿-Л-типа: коммутативность, ассоциативность, дистрибутивность, наличие нейтрального и обратного элементов. Установлено, что нейтральным элементом для операции сложения нечетких чисел является обычное число 0, но обратного элемента не существует. Для

б

операции умножения нейтральным элементом является обычное число 1, а обратный элемент для заданного числа А определяется формулой

Пусть /-и:"'(9?) - семейство нечетких чисел ¿-Л-типа, определенных на множестве действительных чисел 91, * - арифметическая операция над нечеткими числами, тогда пара (рши<образует нечеткий группоид.

В диссертации исследованы свойства следующих нечетких группоидов: 1) {Ри:и<(Щ,*)\ 2) 3) . Полученные результаты

представлены в таблице 1.

Свойстеа\Группоид 1 1 2 3 3 3

Коммутативность + +

Ассоциативность + + + + + +

Единичный элемент 0 +

Единичный элемент 1 + + +

Обратный элемент + +

Алгебраическая структура полугруппа абелева полугруппа моноид группа абелева группа

Таким образом, множество нечетких чисел ¿-Л-типа образует абелеву группу по умножению и является моноидом по сложению.

В диссертации получены формулы для вычисления некоторых выражений над нечеткими числами, которые в дальнейшем используются в рамках нечеткого регрессионного моделирования.

В третьей главе рассмотрена задача оценки параметров нечеткой линейной регрессионной модели (парной и множественной), которая учитывает различные типы данных в выборке: а) четкие независимые переменные, нечеткие коэффициенты и зависимая величина; б) нечеткие зависимая и независимые переменные модели с четкими коэффициентами. Проведена оценка адекватности и точности моделей и предложены методы отбора существенных независимых переменных.

Пусть исходные данные представлены выборкой , где х1 е 3{, а

^ = - нечеткие числа ¿-Я-типа. Предполагается, что линейная

парная регрессионная модель с нечеткими коэффициентами имеет вид

У1=В„+В1х1+Е„г = 1п, (1)

где хеЯ, К = (//„,«,,Д,) - нечеткие числа ¿-/¿-типа, В„ =(цм1,ам,/3м) и А = (Мь\'аъ\>Рь\) ~ теоретические коэффициенты регрессии, Е, =(//е,,аи,Д,,) - отклонения в виде нечетких чисел ¿-/¿-типа наблюдаемых значений от значений, полученных на основе модели, / = 1 ,п - номер наблюдения.

Для получения коэффициентов регрессии В0 =(//Л0,«Л0,//Л0) и Вх = , ам, ) составляется оценочная модель

К = Д, + Дх,/ = Ги, (2)

где е 9? - наблюдаемые значения независимой переменной, К = (д,, «н, Д,) - оценки значений зависимой переменной.

В соответствии с методом наименьших квадратов оценки коэффициентов регресии находятся из решения задачи минимизации функции расстояния между нечеткими переменными К и К

т-у,г -

Необходимым условием существования минимума этой функции является равенство нулю ее частных производных по переменным Мю,аьо,/Зьо и рЬ1,аы,/Зн. С учетом алгебраических свойств операций над нечеткими числами получены следующие формулы для оценок параметров регрессии:

—»ггап

А,=

хцу - /лух со'

X2 -5с2 о-2 '

хау - ах со

х2 -х2

Ж "А* _ соу(х,Д.)

,<хЬ0=а-аЬ1х,

(3)

Адекватность построенной модели проводится на основе анализа построенного в диссертации нечеткого коэффициента корреляции

Л со\{х,ау) соу(х, Д

—>«м—.А.—

сг„ сг„ ст„

Для практических расчетов приведены модификации этой формулы. Оценка точности модели осуществляется путем вычисления средней 1 » 7-У

относительной ошибки Е = — У —-'- • 100%.

„й у.

В диссертации также предложена обобщенная нечеткая линейная множественная регрессионная модель с нечеткими коэффт^ентами

У, = А0+А,х1, +А2хп +...+А„х,„ + Е,,1 = \,т, (4)

где х,кеЯ,к = 1,п, V, = {/иу,, ау], Ру1), 1 = 1, те - нечеткие числа 1-Л-типа; А}= {цар ссарра]), j = 0,n - нечеткие регрессионные параметры; Е1 = (//,,, а,,, А ),1 = \,т - случайные ошибки, нечеткие числа ¿-Л-типа; / = 1, те -номер наблюдения, к = \,п - номер независимой переменной.

С помощью метода наименьших квадратов найдены оценки А; =(//а/,ащ,/?ц/), у = 0,п, параметров в матричной форме

Р. ={ХтХУХтцу,аа =(Х'ХУХгауХ=(ХтХГХтРу. (5)

Под качеством нечеткой линейной множественной регрессионной модели подразумевается адекватность модели, которая оценивается на основе анализа остаточной последовательности {Е: = У - К, / = 1, п), и точность модели, определяемая путем вычисления средней относительной ошибки У-У

100%. Для обеспечения применимости классических методов

1 "

оценки адекватности осуществляется переход от нечетких остатков к их дефазифицированным значениям.

Для того, чтобы коэффициенты регрессии в модели (4) выражались в сравнимых единицах измерения, построено стандартизованное уравнение нечеткой линейной множественной регрессии

Ту = + +-+вр1^р = и, (6)

где нечеткие коэффициенты В =

- Р Л

гап ^ у

\

ар хр ар хр гар хр

<у„ сг„ ' ет„

являются коэффициентами регрессии в стандартизированном масштабе,

Т =

ау-ау Ру-Ру \ __ . _(*,-*,)

и г =—£-—,р = 1,п — соответствующие

значения зависимой и независимых переменных регрессионной модели в стандартизованном виде. Коэффициенты Вр позволяют выявить наиболее существенные независимые переменные, оказывающие влияние на зависимую величину. Это приводит к сокращению количества независимых переменных, участвующих в модели.

В диссертационной работе предложен метод оценки неизвестных параметров нечеткой множественной линейной регрессионной модели с четкими коэффициентами

_% = а0 + а1Хп+...+ апХт + £„1 = 1^, (7)

где V = {//у1, сгн, Ру1) / = 1, /и - значения зависимой переменной, нечеткие числа 1-Л-типа; £. = (//я, аг., Д, ),/ = ], /я - случайные ошибки, нечеткие числа ¿-Л-типа, / = 1,/и - номер наблюдения; ХЛ = (//„4,агл1, Дп1) - значения независимой переменной, к = \,п — номер независимой переменной.

В результате найдена следующая формула оценок параметров регрессии а = (//>, + а[ах + Дг Д)-' + аТау + ртхРу). (8)

Для решения задачи отбора независимых переменных модели (7) предложен подход, основанный на использовании автоассоциативной нейронной сети, принцип работы которой был адаптирован для анализа

9

информации в нечеткой среде. Сеть содержит три слоя нейронов: входной и выходной слой, а также средний слой — «узкое горло», который в результате обучения выдает сжатое представление данных (вектор 2). Число выходов п совпадает с числом входов, а внутренний слой содержит меньшее количество нейронов т<п. _'

// Начальные данные

^^ т<п, Г = 0, £, IV", 1 = 1 ,т, ] = 1,п ^^

Т

Рисунок 1 - Схема обучения автоассоциативной нейронной сети

Обучение нейронной сети заключается в следующем (рисунок 1): пусть на наборе и-мерных данных обучается т линейных нейронов, выходное значение каждого из этих нейронов в случае нечетких данных вычисляется по формуле

г, = Е (я.„>, А.,,) • к. - РчР=й!, (9)

¡-\ /.I

тогда, согласно правилу обучения Ойя, весовые коэффициенты изменяются следующим образом:

пр =щ+ +А< +АД:Д/=1^,7=1^,(Ю)

где

- )=,, )Г(//;, <, ) - ,, /7^) ■ , , ).

V м

Сеть самообучается на воспроизведение входов — то есть ответ нейросети считается правильным, когда значения сигналов на каждом выходе совпадает со значением на соответствующем ему входе (X, = X,).

ю

Нейроны выходного слоя являются линейными с тождественной функцией активации

^ ^ т т _

х J = (я, Лл /У = IX ^ =Z ('ал = (11)

Ы1 к=1

Таким образом, сеть с узким горлом из скрытых линейных нейронов обучается воспроизводить на выходе значения своих входов. Скрытый слой такой сети при этом осуществляет оптимальное кодирование входных данных и содержит максимально возможное при данных ограничениях количество информации.

В четвёртой главе предложен подход к восстановлению закономерностей с использованием информационной системы интеллектуального анализа данных (ИАД), разработана структура информационного хранилища, рассмотрены функции системы администрирования, приведена структура программного комплекса, разработанного в среде программирования CodeGear Borland С++ Builder и предназначенного для проведения нечеткого регрессионного моделирования.

Структура программного комплекса представлена на рисунке 2. К его основным функциональным возможностям относятся: реализация калькулятора нечетких чисел для осуществления различных арифметических операций над нечеткими числами L-R-типа и построения графиков их функций принадлежности; выполнение отбора существенных независимых переменных на основе автоассоциативных нейронных сетей; проведение нечеткого линейного парного и множественного регрессионного анализа с нахождением коэффициентов модели и средней ошибки вычислений; построение стандартизированного уравнения нечеткой множественной линейной регрессии.

Система интеллектуального анализа данных основана на технологии информационного хранилища. Ее структура (рисунок 3) предусматривает наличие двух приложений — аналитического (основного) и системы администрирования (вспомогательного). Последнее предназначено для выполнения SQL-запросов к базам данных информационной системы при участии аналитика.

Информация о формах и переходах содержится в специальной базе данных ИС, которая может быть локальной или удаленной. На рисунке 4 приведена физическая модель информационного хранилища в виде таблиц сущностей, которые взаимосвязаны между собой.

Сущность «Показатель» включает описание экономических, технических и иных показателей, которые необходимы для проведения аналитической работы. Они имеют иерархическую структуру. Сущность «Единица измерения» создана для хранения данных в единой форме и содержит информацию об используемых измерениях, коэффициент пересчета между которыми представлен атрибутом «Множитель». Сущность «Данные» содержит значения показателей по каждому измерению в виде трех атрибутов для внесения модального значения, левого и правого коэффициентов

11

неопределенности нечеткого числа. Кроме того, она ссылается на идентификатор показателя, его тип, период действия и дату актуальности, что позволяет при необходимости иметь информацию о значениях определенных показателей в более детальном виде.

р-

Модуль для работы с нечеткими числами

Модуль парной регресии

Осяоввой модуль программы

' Модуль множественной регрессии

Модуль для отбора £ звачнмых перемешай |

Модуль для построения графиков

Модуль с информашей о программе

'Модуль описания статических переменных

Модуль для загрузки S и обработки ааниых |

Моду-« арифметических операций над нечеткими числами

^1од\ль для работы : с матрицами и векторами

:-: г':-: м::-'- ^'--:''. : :

'Модуль дгл работы с авюассоииатнвнон иейгюйяой сетью

ттттюаМШШШт

ОС Windows

Рисунок 2 - Структура ПО нечеткого регрессионного моделирования

Аналитик

Знания

ИАД: нечеткое регрессионное моделирование

Предварительная обработка данных

База данных ИС

Отбор рабочих данных для анализа р--

Селекция

Программист

Система администрирования

Информационное хранилище

Рисунок 3 - Структура информационной системы ИАД

Разработанная информационная система использовалась для анализа данных по выпускаемой лакокрасочной продукции и проведения оценки качества товаров с целью принятия управленческих решений по совершенствованию технологических процессов.

1 1 I 1

Unit of measuie Indicator

Ш СОМ NUMBER ID INDICATOR NUMBER

яю сом NUMBER iD UOM NUMBER

ХАМЕ VARCHAR2(100) RID INDICATOR NUMBER

ссет NUMBER NAME varchar:oow

1

Validity period Data

ID VALIDITY NUMBER ID .INDICATOR NUMBER

SDATE DATE ID VALIDITY NUMBER

EDATE DATE MIDDLE VALUE NUMBER

OPENED VARCHAR2C» LEFT VALUE NUMBER

RIGHT VALUE NUMBER

Рисунок 4 - Физическая модель информационного хранилища

Процесс интеллектуального анализа данных состоял из следующих этапов:

1. Подготовка данных, которая заключалась в предварительной обработке информации для проведения нечеткого регрессионного моделирования. В таблице 2 представлены исходные данные, в которых в качестве показателей (независимых переменных) выступают проценты наполнителей, растворителей и связующих веществ эмалированной краски, а результирующая величина (зависимая переменная) представляет собой примерное качество выпускаемой продукции и принадлежит множеству нечетких чисел ¿-Л-типа.

Таблица 2 - Исходные данные

X, 11 10 11 12 13,5 14 15 16 17 17,5 19 20

x2 10 10,5 12,5 12 13 13,5 14 16 14,5 15 17 16,5

X, 12 12,5 13 14,5 16 16,5 17 18 19,5 20,5 21 22

My 11,2 12,5 12,9 14,1 14,8 16,1 17,5 18,9 18,9 20 21,1 22,2

a У 0,9 0,1 1 0,5 1,1 1,2 0,1 0,5 0,3 1,3 1,1 0,2

Py 0,2 0.4 0,5 1,1 0,7 0,1 0,08 1,2 0,7 0,48 1,9 0,4

В результате обучения автоассоциативной нейронной сети с одним нейроном среднего слоя было получено сжатое представление независимых переменных: вектор х = (11,11.5,13,14,15,15.5,16,17,18,19,21, 22).

2. Проведение нечеткого линейного регрессионного моделирования, в ходе которого было получено уравнение парной регрессии У = (0.6,0.6,0.01) + (1,0.004,0.04)х (таблица 3).

3. Проверка построенной модели, включающая оценку ее качества путем нахождения средней погрешности вычислений б' = (0.4,0.4,0.3).

Таблица 3 - Полученные значения результирующей переменной

Я 11,5 12,1 13,6 14,6 15,6 16,1 16,6 17,6 18,6 19,6 21,6 22,6

а У 0,65 0,65 0,65 0,66 0,66 0,66 0,67 0,67 0,68 0,68 0,68 0,69

д. 0,45 0,47 0,53 0,57 0,61 0,63 0,65 0,69 0,73 0,77 0,85 0,89

По каждому наблюдению / = 1,12 был построен у-срез для точного и регрессионного результирующего значения: \р —а (1 — y),fi + ßy{\ — у)] и

[Д, — а (1 — у),ру + Д (1 - у)] соответственно (рисунок 5). Точность вычисления в зависимости от выбранного у -среза приведена на рисунке 6, где

? = - ?П/12 при Y = цу + 0,5(1 - уЩ-ау), Y = Д, + 0,5(1 - у)(Д - а ).

Выявлено, что погрешность уменьшается при увеличении значения у.

11 11,5 13 14 15 15,5 16 17 18 19 21 22 Рисунок 5- График регрессии на 0.5-срезе

0,62 0,6 0,58 0,56 0,54 0,52

Рисунок 6 - Погрешность вычислений £ в зависимости от у -среза 4, Интерпретация проведенного моделирования, результаты которого были проанализированы и использованы при формировании бюджета закупки сырья.

В заключении излагаются основные результаты исследований и вычислительного эксперимента.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Проанализированы существующие подходы к восстановлению закономерностей в данных и определены направления модификации методов нечеткого регрессионного моделирования для восстановления в данных, содержащих частично или полностью приближенную информацию.

2. Выявлены свойства арифметических операций над нечеткими числами Ь-Я-типа и соответствующие алгебраические структуры, построены выражения для некоторых формул с нечеткими числами, которые позволяют проводить вычисления в ходе нечеткого регрессионного моделирования.

3.На основе операций над нечеткими числами предложены оценки параметров нечеткой парной и множественной линейной регрессионной модели с помощью метода наименьших квадратов, выведены формулы для нахождения точности модели и определена процедура оценки адекватности построенной модели.

4. Предложены альтернативные подходы к формированию множества существенных переменных для множественной регрессионной модели, основанные на нечетком коэффициенте корреляции, стандартизированном уравнении нечеткой множественной линейной регрессии и применении автоассоциативных нейронных сетей, принцип функционирования которых был обобщен на нечеткую информацию.

5. Разработан программный комплекс для интеллектуального анализа данных, включающий в качестве инвариантной составляющей блок нечеткой арифметики и средства для проведения нечеткого линейного регрессионного моделирования.

Публикации по теме исследования

Публикации в изданиях, рекомендованных ВАК РФ

1. Сапкина Н.В. Нечеткая множественная линейная регрессионная модель для симметричных нечетких чисел Ь-Я-типа / Т.М. Леденева, Н.В. Сапкина // Современная экономика: проблемы и решения: науч.-практ. журнал. - Воронеж: ИПЦВГУ, 2011. -№ 10.-С. 174-181.

2. Сапкина Н.В. Применение сети Эльмана для задачи прогнозирования изменения курса ценных бумаг / Н.В. Сапкина // Системы управления и информационные технологии. — Москва-Воронеж: ИПЦ «Научная книга», 2011. — № 2.1 (44).-С. 169-172.

3. Сапкина Н.В. Свойства операций над нечеткими числами / Н.В. Сапкина // Вестник ВГУ. Серия Системный анализ и информационные технологии. - Воронеж: ИПЦ ВГУ, 2013. - №1. - С. 23-28.

4. Сапкина Н.В. Нечеткая парная линейная регрессия и корреляция / Н.В. Сапкина // Современная экономика: проблемы и решения: науч.-практ. журнал. — Воронеж: ИПЦВГУ, 2013. -№ 10 (46).-С. 178-189.

5. Сапкина Н.В. Нечеткая линейная множественная регрессионная модель с четкими коэффициентами. Отбор значимых переменных модели с помощью нейросетей / Н.В. Сапкина // Системы управления и информационные технологии. -Москва-Воронеж: ИПЦ «Научная книга», 2013. - №4 (54). - С. 27-30.

Свидетельства о государственной регистрации программы для ЭВМ

6. Сапкина Н.В. Отбор наиболее значимых факторов с помощью нейронной сети / Н.В. Сапкина // Свидетельство о гос. регистрации программы для ЭВМ №2013660206, РФ, 2013.

7. Сапкина Н.В. Реализация нечеткого множественного линейного регрессионного анализа / Н.В. Сапкина // Свидетельство о гос. регистрации программы для ЭВМ №2013660211, РФ, 2013.

Статьи и материалы конференций

8. Сапкина Н.В. Прогнозирование курса акции с помощью вероятностной нейронной сети и средств технического анализа / Н.В. Сапкина // Актуальные проблемы прикладной математики, информатики и механики: сб. тр. междунар. конф., Воронеж, 22-24 июня 2009 г. - Воронеж: ИПЦ ВГУ, 2009. - Ч. 2. - С. 156-161.

9. Сапкина Н.В. Применение нейронной сети Эльмана для прогнозирования курса акций / Н.В. Сапкина // Актуальные проблемы прикладной математики, информатики и механики: сб. тр. междунар. конф., Воронеж, 20-22 сент. 2010 г. -Воронеж: ИПЦ ВГУ, 2010. - С. 319-325.

10. Сапкина Н.В. Нечеткие линейные регрессионные модели. Метод наименьших квадратов для модели с четкими входами и гауссовым нечетким выходом / Н.В. Сапкина // Глобальная научная интеграция: сб. материалов междунар. науч.-практ. конф., Тамбов, 30 июня 2011 г. -Тамбов: ТМБпринт, 2011. -С. 68-71.

11. Сапкина Н.В. Метод наименьших квадратов для нечеткой линейной регрессионной модели / Н.В. Сапкина // Актуальные проблемы прикладной математики, информатики и механики: сб. тр. междунар. конф., Воронеж, 26-28 сентября 2011 г. - Воронеж: ИПЦ ВГУ, 2011. - С. 344-345.

12. Сапкина Н.В. Нечеткий парный лилейный регрессионный анализ / Н.В. Сапкина, A.A. Татаринцев // Инженерия знаний. Представление знаний: состояние и перспективы: материалыВсероссийской молодежной научной школы, Воронеж, 2930 июня 2012 г. - Воронеж: ИПЦ «Научная книга», 2012. - С. 260-261.

13. Сапкина Н.В. Нечеткий парный линейный регрессионный анализ / Н.В. Сапкина // Актуальные проблемы прикладной математики, информатики и механики: сб. тр. междунар. конф., Воронеж, 26-28 ноября 2012 г. - Воронеж: ИПЦ ВГУ, 2012,-Ч. 1.-С. 331-334.

14. Сапкина Н.В. Свойства группоида нечетких чисел LR-типа / Н.В. Сапкина // Современные методы прикладной математики, теории управления и компьютерных технологий: Сборник трудов VI Международной конференции, Воронеж, 10-16 сентября 2013г. - Воронеж: ИПЦ ВГУ, 2013. - С. 216-218.

Подписано в печать 23.04.14. Формат 60*84 '/id. Усл. печ. л. 0,93. Тираж 100 экз. Заказ 381.

Отпечатано с готового оригинал-макета в типографии Издательского дома ВГУ. 394000, Воронеж, ул. Пушкинская, 3

Текст работы Сапкина, Наталья Владимировна, диссертация по теме Теоретические основы информатики

ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

Сапкина Наталья Владимировна

ВОССТАНОВЛЕНИЕ ЗАКОНОМЕРНОСТЕЙ НА ОСНОВЕ НЕЧЕТКИХ РЕГРЕССИОННЫХ МОДЕЛЕЙ

Специальность 05.13.17 - Теоретические основы информатики

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук

Научный руководитель:

доктор технических наук, профессор

Леденёва Татьяна Михайловна

Воронеж-2014

СОДЕРЖАНИЕ

ВВЕДЕНИЕ........................................................................................5

1. Информационные системы анализа данных на основе регрессионного моделирования.........................................................................................................10

1.1. Информационные системы интеллектуального анализа данных...............10

1.1.1. Технологии построения информационных систем анализа данных..........10

1.1.2. Архитектура информационной системы интеллектуального анализа данных.............................................................................................13

1.1.3. Классификация задач интеллектуального анализа данных........................14

1.2. Постановка задачи регрессионного анализа...................................................16

1.2.1. Понятие регрессии и регрессионной модели................................................16

1.2.2. Отбор наиболее существенных объясняющих переменных.......................19

1.2.3. Парный линейный регрессионный анализ....................................................21

1.2.4. Множественный линейный регрессионный анализ.....................................27

1.2.5. Стандартизированное уравнение линейной регрессии...............................30

1.3. Существующие подходы к восстановлению закономерностей на основе нечеткого регрессионного моделирования.............................................................31

1.4. Цели и задачи исследования.............................................................................40

Выводы по главе 1.....................................................................................................42

2. Алгебраические структуры на множествах нечетких чисел Ь-Л типа.............................................................................................................................43

2.1. Нечеткие множества и нечеткие числа...........................................................43

2.2. Нечеткие числа Ь-Я типа и операции над ними.............................................48

2.3. Закон нечеткой внутренней композиции........................................................55

2.3.1. Понятие закона композиции. Нечеткий группоид.......................................55

2.3.2. Основные свойства группоида нечетких чисел £-./?-типа............................56

2.3.3. Типы алгебр с одной и двумя арифметическими операциями...................73

2.4. Некоторые дополнительные свойства операций над нечеткими числами

£-Л-типа......................................................................................................................74

Выводы по главе 2.....................................................................................................80

3. Разработка нечетких регрессионных моделей для восстановления закономерностей в данных, содержащих приближенную информацию......81

3.1. Нечеткая парная линейная регрессионная модель.........................................81

3.1.1. Оценка параметров нечеткой парной линейной регрессионной модели.........................................................................................................................81

3.1.2. Оценка качества нечеткой парной линейной регрессионной модели.........................................................................................................................87

3.2. Нечеткая линейная множественная регрессионная модель..........................94

3.2.1. Оценка параметров нечеткой линейной множественной регрессионной модели. Адекватность и точность модели..............................................................94

3.2.2. Стандартизированное уравнение нечеткой линейной множественной регрессионной модели............................................................................................101

3.2.3. Метод наименьших квадратов для модели с четкими коэффициентами и нечеткими данными.................................................................................................104

3.3. Отбор независимых переменных в нечетком регрессионном анализе на

основе нейронных сетей.........................................................................................107

Выводы по главе 3...................................................................................................111

4. Программный комплекс для проведения интеллектуального анализа данных на основе нечеткого регрессионного моделирования......................112

4.1. Разработка информационной системы интеллектуального анализа данных......................................................................................................................112

4.1.1. Структура информационной системы интеллектуального анализа данных на основе нечеткого регрессионного моделирования..........................................112

4.1.2. Информационное хранилище системы ИАД..............................................114

4.1.3. Система администрирования.......................................................................117

4.1.4. Процесс интеллектуального анализа данных.............................................118

4.2. Программное обеспечение нечеткого регрессионного моделирования....122

4.3. Анализ данных на основе приближенной информации по выпускаемой

лакокрасочной продукции......................................................................................131

Выводы по главе 4...................................................................................................137

ЗАКЛЮЧЕНИЕ.....................................................................................................138

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ........................................139

Приложение А. Копия акта о внедрении результатов диссертационного

исследования............................................................................................................149

Приложение Б. Копии свидетельств о государственной регистрации программ...................................................................................................................150

ВВЕДЕНИЕ

Актуальность темы. Использование компьютерных технологий привело к пониманию важности задач, связанных с обработкой накопленной информации для извлечения знаний. Все более востребованным становится создание систем интеллектуального анализа данных, позволяющих выявить полезную скрытую информацию на основе классификации, кластеризации, статистического анализа, поиска ассоциативных правил и других подходов. Если данные представлены в виде динамических рядов каких-то показателей или их можно сгенерировать из базы данных, то для восстановления закономерностей используется техника регрессионного моделирования, при этом подразумевается, что данные являются числовыми. Однако, если информация относится к другому типу, например, является частично или полностью приближенной, то классические методы регрессионного анализа не применимы, и этот факт обусловливает необходимость их модификации. Одним из способов формализации приближенной информации является использование понятия нечеткого множества и его частного случая - нечеткого числа. Задача разработки регрессионных моделей, ориентированных на нечеткие числа, решалась зарубежными (H.Tanaka, P. Diamond, D. Dubois, M.S. Yang, M. Sakawa, M. Albrecht) и отечественными (P.A. Алиев, А.Э. Церковный, Г.А. Мамедова, Н.Г. Ярушкина и др.) учеными. В общем случае методы нечеткого регрессионного моделирования могут быть разделены на две группы: первая базируется на методе наименьших квадратов и его модификациях, а вторая - на линейном программировании. Анализ показал, что рассмотрены далеко не все возможные постановки задач, учитывающих нечеткость исходных данных и/или параметров модели, кроме того, во многих исследованиях отсутствует комплексность подхода к реализации всех этапов регрессионного моделирования. Построение нечетких регрессионных моделей опирается на математический аппарат, включающий определение арифметических операций над нечеткими числами и их сравнение. Только для некоторых типов нечетких чисел результат арифметической операции

представляет собой нечеткое число того же типа. В других случаях требуется дополнительная аппроксимация. Необходимость совершенствования существующих методов нечеткого регрессионного моделирования за счет учета различных типов данных и параметров, представленных нечеткими числами ¿-Я-типа, и их реализации в рамках информационной системы интеллектуального анализа данных обусловливает актуальность диссертационного исследования.

Диссертационная работа выполнена в соответствии с одним из основных научных направлений Воронежского государственного университета «Математическое моделирование, программное и информационное обеспечение, методы вычислительной и прикладной математики и их применение к фундаментальным исследованиям в естественных науках».

Объект исследования - информационная система интеллектуального анализа данных, в которой реализуются нечеткие линейные регрессионные модели с коэффициентами в виде нечетких чисел Ь-Я-типа.

Предмет исследования — нечеткий линейный регрессионный анализ на множестве нечетких чисел Ь-Я-ттта..

Цель работы и задачи исследования. Цель диссертационной работы заключается в развитии подходов к решению задачи восстановления закономерностей в данных на основе нечеткого регрессионного моделирования.

Для достижения поставленной цели решаются следующие задачи:

1. Анализ существующих подходов к восстановлению закономерностей в данных на основе регрессионного моделирования и выявление путей их совершенствования на случай приближенной исходной информации.

2. Выявление алгебраических свойств операций над нечеткими числами Ь-Я-типа и разработка теоретической основы нечеткого регрессионного моделирования.

3. Определение оценок параметров нечетких регрессионных моделей и модификация общей процедуры регрессионного моделирования для выявления закономерностей в приближенной информации.

4. Разработка программного комплекса с применением современных компьютерных технологий для анализа и интеллектуальной обработки данных на основе предложенных алгоритмов нейросетевого и нечеткого регрессионного моделирования.

Методы исследования. В диссертационной работе использовались методы нечеткого и нейросетевого моделирования, линейной алгебры, математической статистики, теории нечетких множеств и нечеткой арифметики, объектно-ориентированного и модульного программирования.

Основные результаты, выносимые на защиту, и их научная новизна:

1. Совокупность теоретических результатов, касающихся свойств арифметических операций над нечеткими числами ¿-/?-типа и существования алгебраических структур, что позволяет осуществлять вычисления при построении нечетких регрессионных моделей.

2. Оценка параметров нечетких линейных (парной и множественной) регрессионных моделей для задач, в которых исходная информация является полностью или частично приближенной, а коэффициенты моделей представлены обычными и/или нечеткими числами, что позволяет модифицировать общую процедуру регрессионного моделирования для восстановления закономерностей в разнородных и приближенных данных на основе использования нечетких чисел Ь-Я-типа.

3. Альтернативные подходы к выявлению множества существенных переменных в рамках нечеткого регрессионного моделирования, основанные на нечетком коэффициенте корреляции, стандартизированном уравнении нечеткой множественной линейной регрессии и применении автоассоциативных нейронных сетей, «работающих» с приближенной информацией, что позволяет обеспечить комплексность анализа данных на различных этапах процесса выявления закономерностей в данных.

4. Информационная система интеллектуального анализа данных и структура программного комплекса, включающего блок нечеткой арифметики, который

может использоваться как самостоятельное приложение, и средства для проведения нечеткого линейного регрессионного моделирования.

Область исследования. Диссертационная работа соответствует следующему пункту Паспорта специальности 05.13.17 «Теоретические основы информатики»: п. 5. «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях...».

Практическая значимость работы. Разработанная информационная система, в которой реализован предложенный комплекс алгоритмов нейросетевого анализа и нечеткого регрессионного моделирования, предназначена для обработки приближенной информации, выявления в ней функциональных зависимостей и проведения исследований в ситуациях, когда традиционные методы неприменимы. Результаты диссертационной работы используются для оценки качества выпущенной продукции с целью обоснования управленческих решений по совершенствованию технологических процессов специалистами ЗАО ЛЦ «ABC Фарбен», а также в учебном процессе ФГБОУ ВПО «Воронежский государственный университет» при чтении спецкурсов и выполнении курсовых и выпускных квалификационных работ.

Апробация работы. Основные результаты, полученные в диссертационной работе, докладывались и обсуждались на следующих международных и всероссийских конференциях: Международная научно-практическая конференция «Глобальная научная интеграция» (Тамбов, 2011); Международная конференция «Актуальные проблемы прикладной математики, информатики и механики» (Воронеж, 2011-2012); Всероссийская молодежная научная школа «Инженерия знаний. Представление знаний: состояние и перспективы» (Воронеж, 2012); Международная конференция «ExploIT Dynamics PhD Workshop» (Германия, г. Ольденбург, 2012); Международная конференция «Современные методы прикладной математики, теории управления и компьютерных технологий» (Воронеж, 2013); Международный научный семинар «Emerging Trends in Informations Systems (IS)» (Нижний Новгород, 2013).

Публикации. Основные результаты диссертации опубликованы в 12 научных работах, в том числе 5 - в изданиях, рекомендованных ВАК РФ. В работах, опубликованных в соавторстве, лично соискателю принадлежат: [1] -метод оценки параметров нечеткой линейной множественной регрессионной модели, анализ данных; [10] - детальная разработка и наполнение шагов нечеткого парного линейного регрессионного анализа.

Объём и структура работы. Диссертация состоит из введения, четырёх глав, заключения, списка использованных источников из 110 наименований, двух приложений. Основная часть работы изложена на 151 странице и включает 42 рисунка и 17 таблиц.

Глава 1. Информационные системы анализа данных на основе регрессионного моделирования

В данной главе рассмотрены информационные системы интеллектуального анализа данных, технологии их построения и архитектура; представлена классификация задач интеллектуального анализа данных; рассмотрены теоретические основы и этапы регрессионного моделирования; приведен подход к отбору наиболее информативных признаков для проведения множественного регрессионного анализа данных; указаны принципы построения стандартизированного уравнения нечеткой линейной множественной регрессии; рассмотрены существующие подходы к восстановлению закономерностей на основе нечеткого регрессионного моделирования; приведены цели и задачи исследования.

1.1. Информационные системы интеллектуального анализа данных

1.1.1. Технологии построения информационных систем анализа данных

Для выполнения задач анализа данных и поиска решений необходимо накопление и хранение достаточно больших объемов данных. Этим целям служат программно-аппаратные комплексы, называемые автоматизированными информационными системами (АИС) [38]. Основой построения современных АИС являются базы данных - модели некоторой предметной области, состоящие из связанных между собой данных об объектах, их свойствах и характеристиках [8]. Предполагается, что создание базы данных, поддержание ее в актуальном состоянии и обеспечение эффективного доступа пользователей и их приложений к содержащейся в ней информации осуществляется с

помощью специального программного инструметария - системы управления базами данных (СУБД) [34].

Чтобы сохранять данные согласно какой-либо модели предметной области, структура базы данных должна максимально соответствовать этой модели. Наиболее распространены в настоящее время реляционные СУБД, основанные на реляционной модели данных, имеющей солидный теоретический фундамент - теорию множеств и исчисление предикатов. СУБД реляционной модели должна обеспечивать выполнение операций над базой данных, предоставляя при этом возможность одновременной работы нескольким пользователям (с нескольких компьютеров) и гарантируя целостность данных. Для соблюдения этих правил в СУБД используется механизм управления транзакциями [8].

Информационная система анализа данных основана на интеллектуальном подходе. Она обрабатывает большие массивы данных, осуществляет автоматизированный поиск ранее неизвестных закономерностей, скрытых и неочевидных правил в базах данных. Полученные знания помогают оптимизировать процессы деятельности предприятия и могут быть использованы для принятия решений [2, 8].

В качестве основных причин, способствующих распространению систем интеллектуального анализа данных выступают следующие [2]:

- определение того, что в больших по объемам базах данных содержатся скрытые ценные знания, способствующие повышению эффективности управления;

- развитие технологии информационных хранилищ позволяет создать единое информационное пространство, собрав требуемые для анализа данные в центральной базе;

- благодаря внедрению ин�