автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Методы и алгоритмы редукции нечетких правил в базах знаний интеллектуальных систем

кандидата технических наук
Абдулхаков, Айдар Рашитович
город
Казань
год
2015
специальность ВАК РФ
05.13.18
Автореферат по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы редукции нечетких правил в базах знаний интеллектуальных систем»

Автореферат диссертации по теме "Методы и алгоритмы редукции нечетких правил в базах знаний интеллектуальных систем"

На правах рукописи

АБДУЛХАКОВ АЙДАР РАШИТОВИЧ

МЕТОДЫ И АЛГОРИТМЫ РЕДУКЦИИ НЕЧЕТКИХ ПРАВИЛ В БАЗАХ ЗНАНИЙ ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ

05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

ИЮЛ 2015

Казань-2015

005570777

005570777

Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ»

Научный руководитель: кандидат технических наук, доцент, Катасёв Алексей Сергеевич

Официальные оппоненты: Симонова Лариса Анатольевна, доктор технических наук, профессор, Набережночелнинский институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Казанский (Приволжский) федеральный университет», заместитель директора по научной деятельности, заведующий кафедрой автоматизации и управления

Наместников Алексей Михайлович, кандидат технических наук, доцент, федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Ульяновский государственный технический университет», доцент кафедры информационных систем

Ведущая организация: федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Поволжский государственный технологический университет», г. Йошкар-Ола

Защита состоится «25» сентября 2015 г. в 14ш часов на заседании диссертационного совета Д 212.080.13 при федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Казанский национальный исследовательский технологический университет» (420015, г. Казань, ул. К. Маркса, д. 68, Зал заседаний Ученого совета - каб. 330).

С диссертацией можно ознакомиться в библиотеке федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Казанский национальный исследовательский технологический университет» и на сайте www.kstu.ru.

Автореферат разослан «_»_2015 г.

Ученый секретарь диссертационного Клинов

совета Д 212.080.13, доктор технических Александр

наук, профессор Вячеславович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. В настоящее время интеллектуальные системы, основанные на знаниях, получили широкое распространение в различных прикладных областях человеческой деятельности для решения таких задач, как прогнозирование, распознавание образов, диагностика, управление, автоматизированное проектирование и другие. Основным компонентом интеллектуальных систем является база знаний (БЗ), включающая набор правил принятия решений, выраженных в форме четких или нечетких продукций. Использование нечетко-продукционных правил позволяет решать практические задачи в условиях нечеткости, неопределенности и неполноты исходных данных.

Для формирования правил базы знаний до недавнего времени использовались преимущественно методы инженерии знаний, основанные на извлечении знаний у эксперта. Данный подход требует большой аналитической работы эксперта, что затрудняет разработку интеллектуальной (особенно нечеткой) системы.

В последнее время актуальность приобретают методы автоматического формирования нечетких правил, основанные на применении методов и алгоритмов интеллектуального анализа данных. Использование такого подхода значительно упрощает и ускоряет процесс разработки интеллектуальной системы, база знаний которой адаптируется к анализируемым данным. Исследованиям в этой области посвящены работы известных российских и зарубежных ученых: Херре-ры Ф„ Фукуды T., Kappa Ч., Лозано М., Сакава М., Кордона О., Касиласа Ж., Хоффмана Ф„ Янга Р., Круглова В.В., Ротштейна А.П., Штовбы С.Д., Финна В.К., Вагина В.Н., Кобринского Б.А., Загоруйко Н.Г., Ярушкиной Н.Г., Сидорки-ной И.Г., Симоновой Л.А., Наместникова A.M., Ходашинского И.А., Емалетдино-вой Л.Ю., Паклина Н.Б. и др.

Однако, несмотря на достоинства данного подхода, автоматически сформированные базы знаний, как правило, обладают избыточностью, что не позволяет использовать их с максимальной эффективностью при решении практических задач. Для повышения эффективности использования адаптивных интеллектуальных систем требуется оценка избыточности и редукция их баз знаний. Исследованиям в данной области посвящены работы ученых: Загоруйко Н.Г., Комарцо-вой Л.Г., Катасёва A.C., Сергиенко М.А., Олейника A.A., Щуревич Е.В. и др. Однако, описываемые ими подходы к редукции нечетких правил не лишены недостатков, в частности возможности снижения точности принимаемых решений на основе редуцированных баз знании. Это актуализирует необходимость разработки и апробации новых эффективных методов и алгоритмов редукции нечетких правил в базах знаний интеллектуальных систем.

Таким образом, актуальной задачей, решаемой в диссертации, является разработка математического и программного обеспечения редукции нечетких правил для повышения эффективности использования интеллектуальных систем.

Объект исследования: нечеткие базы знаний интеллектуальных систем.

Предмет исследования: методы и алгоритмы редукции нечетких правил в базах знаний интеллектуальных систем.

Цель работы: повышение эффективности использования интеллектуальных систем путем разработки математического и программного обеспечения редукции их баз знаний. Эффективность определяется точностью и скоростью решения

практических задач на основе редуцированных баз знаний, их адекватностью и интерпретируемостью.

Достижение поставленной цели потребовало решения следующих задач:

1) разработка кластерно-генетического метода редукции базы знаний интеллектуальной системы;

2) разработка алгоритма редукции исходной базы знаний на основе кластеризации входящих в нее нечетких правил с получением промежуточной базы знаний;

3) разработка метода идентификации значений параметров функций принадлежности (ФП) в логическом центре кластера;

4) разработка генетического алгоритма (ГА) редукции промежуточной базы знаний с получением искомой базы знаний;

5) разработка программного комплекса редукции нечетких правил в базах знаний на основе предложенных методов и алгоритмов;

6) проведение исследований на базе программного комплекса для оценки эффективности разработанного математического обеспечения;

7) решение задач редукции баз знаний в различных предметных областях.

Методы исследования. Для решения обозначенных задач использованы методы математического моделирования, нечеткой логики и нечетких нейронных сетей, кластерного анализа, объектно-ориентированного программирования.

Достоверность полученных результатов. Предложенные в диссертационной работе оригинальные методы и алгоритмы теоретически обоснованы и не противоречат известным положениям других авторов. Достоверность полученных результатов обеспечена математически строгим выполнением расчетов, подтверждена исследованиями и результатами практического использования.

Научная новизна работы заключается в разработке:

1) эффективного численного метода редукции базы знаний интеллектуальной системы, основанного на алгоритме кластеризации нечетких правил и генетическом алгоритме минимизации числа кластеров, и позволяющего получать редуцированную модель системы нечеткого логического вывода;

2) алгоритма кластеризации нечетких правил, основанного на принципах таксономии знаний и представляющего правила исходной базы знаний в виде точек в п-мерном пространстве, объединяющихся в кластеры;

3) эффективного численного метода идентификации значений параметров функций принадлежности, позволяющего строить новые правила в логических центрах кластеров;

4) генетического алгоритма редукции нечетких правил, обеспечивающего минимизацию числа правил промежуточной базы знаний без потери точности классификации на основе редуцированной базы знаний.

Теоретическая значимость диссертационной работы заключается в разработке эффективных методов и алгоритмов редукции нечетких правил в базах знаний интеллектуальных систем.

Практическая ценность работы заключается в разработке программного комплекса редукции нечетких правил в базах знаний интеллектуальных систем.

По проблеме диссертации опубликованы 16 работ, в том числе 1 монография, 3 статьи в российских рецензируемых научных журналах, 12 публикаций в

материалах научных семинаров и конференций. Получено 1 свидетельство о регистрации программы для ЭВМ.

С целью апробации основные результаты диссертации докладывались и обсуждались на следующих конференциях: УП ежегодной международной научно-практической конференции «Инфокоммуникационные технологии глобального информационного общества» (Казань, 2009); международной молодежной научной конференции «XVII Туполевские чтения» (Казань, 2009); международной молодежной научной конференции «ХУШ Туполевские чтения» (Казань, 2010); всероссийской научно-технической конференции «Проблемы и перспективы развития информационных технологий» (Казань, 2012); ГУ международной научно-практической конференции «Проблемы анализа и моделирования региональных социально-экономических процессов» (Казань, 2013); XIV международной научно-технической конференции «Кибернетика и высокие технологии XXI века» (Воронеж, 2013); международной научно-практической конференции «Закономерности и тенденции развития науки в современном обществе» (Уфа, 2013); VIII международной научно-практической конференции «Логистика и экономика ресурсосбережения в промышленности» (Москва, 2014); VII-ой Межрегиональной научно-практической конференции «Информационная безопасность и защита персональных данных. Проблемы и пути их решения» (Брянск, 2015); XVIII Международной конференции по мягким вычислениям и измерениям (SCM'2015) (Санкт-Петербург, 2015).

Реализация результатов работы. Результаты исследования:

• внедрены в промышленную эксплуатацию в виде модуля редукции нечетких правил интеллектуальной скоринговой системы оценки кредитоспособности физических лиц;

• использованы при редукции нечетких правил базы знаний экспертной системы предварительного выявления писем несанкционированной массовой рассылки;

• внедрены в учебный процесс ФГБОУ ВПО «Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ» и используются при изучении дисциплин «Системы искусственного интеллекта» и «Базы знаний интеллектуальных систем».

Пути дальнейшей реализации. С целью развития научного направления, связанного с редукцией нечетких правил в базах знаний интеллектуальных систем, целесообразно совершенствование разработанного математического и программного обеспечения, расширение классов решаемых задач, а также разработка, внедрение и практическое использование интеллектуальных систем в различных сферах человеческой деятельности.

На защиту выносятся следующие результаты:

1) кластерно-генетический метод редукции базы знаний интеллектуальной системы;

2) алгоритм редукции исходной базы знаний на основе кластеризации входящих в нее нечетких правил;

3) метод идентификации значений параметров функций принадлежности в логическом центре кластера;

4) генетический алгоритм редукции промежуточной базы знаний;

5) программный комплекс редукции нечетких правил в базах знаний интеллектуальных систем.

Структура и объем диссертации. Диссертация изложена на 140 страницах машинописного текста, содержит 37 рисунков, 16 таблиц, состоит из введения, четырех глав, заключения, списка использованной литературы из 163 наименований на 18 страницах и 3 приложений на 7 страницах.

Сведения о личном вкладе автора. Личный вклад автора состоит в разработке методов и алгоритмов редукции нечетких правил в базах знаний интеллектуальных систем. Автором лично предложен кластерно-генетический метод редукции нечетких правил в базах знаний интеллектуальных систем, а также численный метод идентификации значений параметров функций принадлежности для логических центров кластеров. Автор лично разработал программный комплекс для оптимизации баз знаний систем нечеткого логического вывода. Кроме того, содержание диссертации и все представленные в ней результаты получены лично автором. Подготовка к публикации результатов проводилась совместно с соавторами, причем вклад диссертанта был определяющим.

Диссертационная работа выполнялась в рамках государственного задания Министерства образования и науки Российской Федерации для выполнения научно-исследовательских работ по теме «Математическое и программное обеспечение автоматизированного формирования баз знаний мягких экспертных систем диагностики состояния сложных объектов» (2013 г., per. № 01201354277).

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность диссертационного исследования, приведены основные научные положения и результаты.

В первой главе рассматриваются общие вопросы и задачи формирования и редукции баз знаний интеллектуальных систем. Описываются способы получения знаний, а также технология их автоматического извлечения из баз данных. Проводится анализ существующих методов автоматической генерации нечетких правил и делается вывод об избыточности формируемых баз знаний. Анализируются существующие подходы к оптимизации баз знаний интеллектуальных систем. С целью повышения эффективности практического использования интеллектуальных систем ставится задача разработки кластерно-генетического метода редукции нечетких правил.

В настоящее время в различных сферах человеческой деятельности широкое распространение получили интеллектуальные системы, основанные на знаниях (экспертные системы), используемые, как правило, для поддержки принятия решений в слабоструктурированных предметных областях.

Основным компонентом интеллектуальной системы является база знаний, формирование которой может осуществляться как вручную, так и автоматически. Первый подход является трудоемким и требует большой аналитической работы эксперта, особенно при формировании нечеткой базы знаний. Второй подход к получению знаний привлекает разработчиков и исследователей способностью автоматически извлекать знания из данных, производить их оценку и использовать в базах знаний интеллектуальных систем. Реализация данного подхода возможна в рамках технологии обнаружения знаний в базах данных.

При формировании базы знаний интеллектуальной системы важно выбрать модель представления знаний: фреймовую, семантическую или продукционную. Продукционная модель по сравнению с другими моделями обладает преимуществами: простотой построения и применения, высокой интерпретируемостью и наличием развитых механизмов логического вывода.

Обобщением продукционных правил являются нечеткие продукции, которые получили широкое распространение при формировании нечетких баз знаний. Примером нечетко-продукционного правила может служить нечеткая продукция вида «ЕСЛИ ИХ2~Л2 И ... И х„ - А„ ТО у = В», входные значения которой могут быть как четкими, так и нечеткими.

Анализ существующих подходов к автоматической генерации нечетких правил показал, что базы знаний с высокой точностью аппроксимации являются избыточными.

Таким образом, для устранения избыточности и повышения эффективности использования баз знаний возникает необходимость редукции входящих в них нечетких правил. Для оптимизации баз знаний интеллектуальных систем в настоящее время используются методы таксономии знаний, генетические и муль-тиагентные алгоритмы, методы редукции вырожденных и незначимых правил, алгоритмы структуризации правил базы знаний и другие (см. табл. 1).

Табл. 1. Анализ подходов к редукции баз знаний

N. Критерии Подходы N. Возможность редукции БЗ большой размерности (более 1000 правил) Отсутствие необходимости генерации новых правил Инвариантность к алгоритму логического вывода Не уменьшите классифицирующей способности базы знаний Скорость сходимости

Таксономия знаний в экспертных системах + - + + Высокая

Оптимизация баз знаний на основе генетического алгоритма - + + - Высокая

Редукция баз знаний на основе мультна-гентного подхода + - - - Низкая

Редукция правил в базах знаний интеллектуальных систем + + - + Высокая

Структуризация правил базы знаний + + - + Средняя

Анализ достоинств и недостатков существующих подходов к оптимизации баз знаний указывает на необходимость решения следующих задач:

1) разработки кластерно-генетического метода редукции базы знаний интеллектуальной системы;

2) разработки алгоритма редукции исходной базы знаний на основе кластеризации входящих в нее правил с получением промежуточной базы знаний;

7

3) разработки метода идентификации значений параметров функций принадлежности в логическом центре кластера;

4) разработки генетического алгоритма редукции промежуточной базы знаний с получением искомой базы знаний;

5) разработки программного комплекса редукции нечетких правил в базах знаний на основе предложенных методов и алгоритмов.

Во второй главе разрабатывается математическое обеспечение для редукции нечетких правил в базах знаний интеллектуальных систем. Для решения датой задачи предлагается кластерно-генетический метод, основанный на алгоритме кластеризации нечетких правил и генетическом алгоритме минимизации числа кластеров. Описывается разработанный метод идентификации значений параметров функций принадлежности в логическом центре кластера, а также условия и ограничения его применимости.

В основу разработанного метода редукции нечетких правил положены принципы таксономии знаний (кластеризации нечетких правил), а также эволюционного моделирования (генетической оптимизации). Обобщенная схема кла-стерно-генетического метода представлена на рисунке 1.

Кластеризация . Редукция

нечетких / \ правил на правил к /_ \ основе ГА

Рис. 1. Схема кластерно-генетического метода редукции нечетких правил

Разработанный кластерно-генетический метод редукции нечетких правил состоит из 2-х этапов:

1) кластеризация (таксономия) нечетких правил в исходной базе знаний с получением промежуточной базы знаний, состоящей из правил, соответствующих центрам кластеров;

2) редукция нечетких правил промежуточной базы знаний на основе генетического алгоритма, позволяющего минимизировать число правил и сформировать искомую базу знаний.

Пусть имеется исходная база знаний /?={/?], , Лт}, где Л, Ц=1...т) - нечетко-продукционные правила Такаги-Сугено вида:

ЕСЛИ = Д! И х2 = Д2 И ... хп = А,„ ТО у = В,

ЕСЛИ*! =А2] Их2=А22 И ... хв=А2л ТОу = В2 (1)

ЕСЛИ Х1 =Ат1 И л:2 = Ап1 И ... =4,„ ТО у = Вк где х1,...,хп - входные лингвистические переменные, Аи,...,А)а,А2„...,Ат11 - их нечеткие значения, у-четкая выходная переменная, В,,..., Д, - классы решений.

Представим антецеденты нечетких правил в виде вектора их нечетких ограничений. Тогда система правил примет следующий вид:

(А11,А12,...,А{п),(А21,А21,...,А2П),..;(Аг111,Ат2,...,Атп) (2)

8

Перейдем от нечетких множеств Л,у (г=1../л,/=1..л) к их четким аналогам Хц, используя процедуру дефаззификации по методу центра тяжести:

(*,.)*.г,)

Хця='ъ^ ' (3)

I

где //д (х,) - функция принадлежности нечеткого множества А. После дефаззификации выражение (2) примет вид:

Хтд- (4)

Таким образом, исходная база знаний представляется точками в /2-мерном Евклидовом пространстве, количество координат которых соответствует количеству входных параметров нечетких правил. Следовательно, задача таксономии нечетких правил сводится к задаче кластеризации полученных точек данных.

В общем случае значения входных параметров нечетких правил измерены в разных шкалах, поэтому перед кластеризацией необходимо произвести нормировку дефаззифицированных значений антецедентов, используя метрику вида:

^.-пнпЦ,)

,_ 1-].т _

тах(х)-т'т(хл)'

(5)

где х^ - исходное значение параметра, х^ - нормированное значение.

Результатом данной процедуры является множество точек в нормированном л-мерном пространстве:

(Хп,Х12,...,Х1п),(Х21,Х22<—,Х2„),—Лхт1,Хт2,...,Хт„). (б)

Таксономию знаний необходимо производить независимо для каждого класса решений, поэтому перед выполнением кластеризации необходимо разделить множество точек данных на подмножества по классам решений и в каждом подмножестве кластеризацию производить отдельно.

На рисунке 2 представлена блок-схема разработанного алгоритма кластеризации с получением промежуточной базы знаний. В качестве алгоритма кластеризации точек данных выбран расширенный алгоритм ¿-средних, благодаря его масштабируемости (возможности работы с большими массивами данных) и способности работать с разнотипными параметрами. При выборе лучшего кластерного решения необходимо руководствоваться критерием ошибки обобщения, получаемой интеллектуальной системой при ее работе на тестовой выборке данных:

N л £= 11-1-2-

^общ

► пнп, (7)

к

где - количество правильно классифицированных примеров, Ы0бщ - общее количество примеров, к - количество кластеров.

Вход ) ♦_

\ Исходная база знаний

X

Представить антецеденты правил векторами своих нечетких ограничений

Дефаззифицировать функции

принадлежности нечетких _ограничений__

I

Нормировать полученные значения и представить их точками в п-мерном пространстве

| Разбить точки на группы | по классам решений

Рис. 2. Блок-схема алгоритма кластеризации

В полученном кластерном решении центры кластеров могут, как совпадать с имеющимися правилами в базе знаний (физические центры кластера), так и не совпадать с ними (логические центры кластеров). В последнем случае возникает задача идентификации значений параметров функций принадлежности нового нечеткого правила, соответствующего данной точке. Для ее решения разработан численный метод (метод средних координат). Рассмотрим пример идентификации значений параметров треугольной функции принадлежности (см. рис. 3).

м

А

\

\

\

Л.

1с г х Рис. 3. Пример треугольной функции принадлежности

Треугольная функция принадлежности задается тройкой чисел {/,с,г}, при этом функция принадлежности определяется по следующей формуле:

О, х-1

с-1'

г—х

г-с

о,

х<1 1<х<с

с<х<,г

Необходимо получить параметры функций принадлежности, соответствующих каждой координате из ЛГ точек кластера у = 1,л и для

каждой у-й координаты логического центра кластера вычислить значения параметров функции принадлежности по следующим формулам: 1 » 1 * 1 »

Следует отмеппъ, что предложенный метод идентификации значений параметров функций принадлежности применим только для кусочно-линейных функций.

Результатом кластеризации нечетких правил в исходной базе знаний является промежуточная база знаний, состоящая из правил, соответствующих центрам кластеров. Для минимизации правил используется редукция нечетких правил на основе генетического алгоритма, позволяющего минимизировать число сформированных кластеров.

Пусть имеется промежуточная база знаний /?={/?ь /?2,.-- , /?,„}> содержащая множество нечетких правил Щ ,/=1 ..т, где т - объем базы знаний.

Закодируем базу знаний в виде хромосомы:

(0, если й, неактивно (исключено га базы знаний), где /г. = \

II, если Я - активно (включаю в базу знаний).

Пример кодирования базы знаний: Я,

1! о 1111

О 11 ! о

1

Н\ Я} К*

Создание начальной популяции объемом т выполняется следующим образом: в популяцию включается родительская хромосома и набор потомков, полученных в результате случайной мутации ее генов с вероятностью 0.02.

Задача редукции нечетких правил сводится к поиску хромосомы, позволяющей достичь максимума оценки классифицирующей способности базы знаний (не меньше исходной точности классификации) при минимальном числе активных правил. Таким образом, используемая в генетическом алгоритме фитнесс-функция определяется следующим образом:

) = шах, (10)

ли

где 1Яправ - число правильно распознанных примеров в выборке данных, ^общ - объем выборки данных.

Рассмотрим реализацию генетических операторов.

На этапе селекции производится отбор 2-х родительских хромосом из начального хромосомного набора, используя метод колеса рулетки. В данном методе вероятность выбора хромосомы определяется следующим образом:

Оператор скрещивания позволяет получать 2-х потомков от родительских хромосом на основе одно- и двухточечного кроссинговера.

Мутация осуществляется путем инверсии с вероятностью 0.02 одного из единичных генов дочерних хромосом.

После определения приспособленности дочерних хромосом выполняется оператор редукции, в результате которого происходит удаление 2-х худших хромосом из текущего хромосомного набора и формируется новая популяция.

Данный алгоритм выполняется до тех пор, пока в результате вычислений не будут появляться хромосомы с лучшей функцией приспособленности в течение определенного числа поколений. После окончания его работы отбирается одна хромосома с лучшими значениями фитнесс-функции, которая и будет определять искомую (редуцированную) базу знаний интеллектуальной системы.

Исходя из условий и ограничений применимости разработанных методов и алгоритмов, предъявляются следующие требования к редуцируемой базе знаний:

1. Большая размерность.

2. Тип базы знаний: нечетко-продукционная с кусочно-линейными функциями принадлежности нечетких антецедентов.

3. Задача, решаемая на правилах базы знаний: задача классификации.

4. Известен алгоритм логического вывода на правилах базы знаний.

5. База знаний сформирована автоматически на основе методов и алгоритмов машинного обучения (например, нейронных сетей).

6. Доступны все экспериментальные данные, на основе анализа которых сформирована база знаний.

В третьей главе разрабатывается программный комплекс, основанный на предложенных методах и алгоритмах редукции нечетких правил в базах знаний интеллектуальных систем. Описываются его структура, состав и алгоритм функционирования. На базе программного комплекса проводятся численно-параметрические исследования оценки эффективности разработанного математического обеспечения для решения практических задач.

Для разработки программного комплекса использована среда моделирования МаНаЬ. На рисунке 4 представлена схема программного комплекса.

Рис. 4. Структурная схема программного комплекса

Разработанный программный комплекс состоит из двух основных модулей, отвечающих за редукцию базы знаний и оценку ее классифицирующей способности. Редукция выполняется на основе предложенного кластерно-генетического метода. Точность классификации на основе редуцированной базы знаний оценивается с помощью применения известной методики десятикратной десятиблочной кросс-валидации.

Для проведения исследований на базе разработанного программного комплекса использован общедоступный набор данных для решения задачи выявления нестандартных транзакций с банковскими картами. Исходная выборка данных включала 690 записей по 14 входным параметрам и одному выходному с двумя классами решений (стандартные и нестандартные транзакции).

Формирование исходных баз знаний (с использованием треугольных и трапециевидных функций принадлежности) выполнено на основе нечеткой нейронной сети АКИБ. Характеристики баз знаний представлены в таблице 2.

Табл. 2. Характеристики исходных баз знаний

Число нечетких правил Классифицирующая способность Время выполнения логического вывода, с

треуг. ФП трапец. ФП треуг. ФП трапец. ФП треуг. ФП трапец. ФП

13 608 13 608 0.88 0.91 0.43 0.41

С целью выбора лучших параметров алгоритмов редукции нечетких правил проведены исследования влияния метода дефаззификации на эффективность ал-горш-ма кластеризации нечетких правил исходных баз знаний (см. табл. 3), а также влияния типа кроссинговера на эффективность генетического алгоритма редукции нечетких правил промежуточных баз знаний (см. табл. 4).

Табл. 3. Результаты исследований кластеризации нечетких правил

Метод дефаззификации Классифицирующая способность Количество правил в промежуточной БЗ

треуг. ФП трапец. ФП треуг. ФП трапец. ФП

Центр тяжести 0.88 0.92 (+1.09%) 973 (-93%) 954 (-93%)

Медиана 0.88 0.92 (+1.09%) 982 (-93%) 965 (-93%)

Наибольший из максимумов 0.88 0.91 1059 (-92%) 987 (-93%)

Наименьший из максимумов 0.88 0.91 1059 (-92%) 978 (-93%)

Центр максимумов 0.88 0.91 1059 (-92%) 978 (-93%)

Результаты проведенных исследований показали, что использование метода центра тяжести при дефаззификации позволяет достичь лучших результатов кла-

стеризации нечетких правил.

_ Табл. 4. Результаты исследований генетического алгоритма редукции

Кроссипговер Количество поколений ГА Точ1 классш теть шкацпп Количество правил в базе знаний

треуг. ФП трапец. ФП треуг. ФП трапец. ФП треуг. ФП трапец. ФП

Одноточечный с фиксированной точкой 905 715 0.88 0.92 926 (-4.8%) 908 (-4.8%)

Одноточечный с плавающей точкой 725 624 0.89 (+1.13%) 0.92 903 (-7.1%) 885 (-7.2%)

Двухточечный с фиксированными точками 836 746 0.88 0.92 907 (-6.7%) 891 (-6.6%)

Двухточечный с плавающими точками 649 610 0.89 (+1.13%) 0.93 (+1.08%) 893 (-8.2%) 874 (-8.3%)

Исследования генетического алгоритма показали, что двухточечный крос-синговер с плавающими точками наиболее эффективен и показывает лучшие результаты по сравнению с другими, как в точности классификации, так и в объеме редуцированной базы знаний.

Результаты проведенных исследований показали, что редуцированные базы знаний показывают лучшие свойства классифицирующей способности и скорости логического вывода по сравнению с исходными базами знаний (см. табл. 5).

Табл. 5. Сравнительная характеристика исходных и редуцированных баз знаний

База знаний Число нечетких правил Классифицирующая способность Время выполнения логического вывода, с

треуг. ФП трапец. ФП треуг. ФП трапец. ФП треуг. ФП трапец. ФП

Исходная 13 608 13 608 0.88 0.91 0.43 0.41

Промежуточная 973 (-93%) 954 (-93%) 0.88 0.92 (+1.09%) 0.08 (-81.3%) 0.07 (-82.9%)

Искомая 649 (-95%) 610 (-96%) 0.89 (+1.13%) 0.93 (+2.19%) 0.07 (-83.7%) 0.06 (-85.4%)

Таким образом, редукция баз знаний интеллектуальных систем на базе разработанного математического обеспечения приводит к устранению избыточности баз знаний, повышению классифицирующей способности и интерпретируемости базы знаний, а также повышению скорости принятия решений.

В четвертой главе решаются практические задачи редукции нечетких правил на базе разработанного программного комплекса. Описываются исходные базы знаний и их характеристики. Производится редукция баз знаний и оценка классифицирующей способности исходных и редуцированных баз знаний. Полученные результаты классификации сравниваются с результатами других авторов.

С целью апробации произведена редукция нечетких правил в базах знаний интеллектуальных систем в банковской сфере и сфере информационной безопасности. В таблице 6 представлена информация о внедрении результатов диссертационного исследования.

Табл. 6. Внедрение результатов диссертационного исследования

Решенная задача Объект внедрения Место внедрения

Редукция базы знаний для опенки кредитоспособности физических лиц Интеллектуальная скоринговая система оценки кредитоспособности физических лиц ОАО «АИКБ «Татфондбанк», ООО КБЭР «Банк Казани»

Редукция базы знаний для фильтрации электронных почтовых сообщений Экспертная система предварительного выявления писем несанкционированной массовой рассылки Управление связи, специальной техники и автоматизации МВД по РТ

Разработаны новые разделы программ учебных дисциплин подготовки магистров направления 09.04.01 «Информатика и вычислительная техника» Учебные дисциплины «Системы искусственного интеллекта», «Базы знаний интеллектуальных систем» Казанский национальный исследовательский технический университет им.А.Н. Туполева-КАИ

В банковской сфере редуцирована база знашш интеллектуальной скоринго-вой системы оценки кредитоспособности физических лиц. Исходная база знаний формировалась по 9 входным параметрам и содержала 10 368 нечетких правил. Классифицирующая способность исходной базы знаний составляла 0.892 со скоростью принятия решения 1.18 с. Классифицирующая способность редуцирован-

14

ной базы знаний составила 0.923 со скоростью принятия решения 0.15 е., что на 3.48% выше классифицирующей способности исходной базы знаний, а также на 87% быстрее.

В таблице 7 представлено сравнение результатов работы кластерно-генетичсского метода редукции нечетких правил системы оценки кредитоспособности физических лиц с существующими подходами к редукции.

Табл. 7. Сравнение результатов редукции БЗ системы оценки __кредитоспособности физических лиц

Метод редукции Число нечетких правил Классифицирующая способность Время выполнения логического вывода, с

Кластерно-генетический метод 854 0.923 0.35

Редукция БЗ на основе мультиагентного подхода 1253 (+46.7%) 0.853 (-7.6%) 0.21 (+40%)

Редукция правил в БЗ интеллектуальных систем 1643 (+92.3%) 0.892 (-3.4%) 0.33 (+120%)

Структуризация правил БЗ 1882 (+120.4%) 0.892 (-3.4%) 0.42 (+180%)

В области информационной безопасности редуцирована база знаний для фильтрации электронных почтовых сообщений. Исходная база знаний сформирована по 7 входным параметрам и содержала 2187 нечетких правила. Ее классифицирующая способность составляла 0.86 со скоростью принятия решений за 0.13 с. В результате редукции классифицирующая способность базы знаний составила 0.91 со скоростью принятия решения 0.02 е., что на 5.8% выше классифицирующей способности исходной базы знаний, а также на 84.6% быстрее.

В таблице 8 представлено сравнение результатов работы кластерно-генепгческого метода редукции нечетких правил системы спам-фильтрации с существующими подходами к редукции.

Табл. 8. Срзвнение результатов редукции БЗ системы спам-фнльтраиии

Метод редукции Число нечетких правил Классифицирующая способность Время выполнения логического вывода, с

Кластерно-генетический метод 473 0.91 0.02

Редукция БЗ на основе мультиагентного подхода 689 (+45.7%) 0.83 (-8.8%) 0.03 (+50%)

Редукция правил в БЗ интеллектуальных систем 849 (+79.5%) 0.86 (-5.5%) 0.04 (+100%)

Структуризация правил БЗ 915 (+93.4%) 0.86 (-5.5%) 0.04 (+100%)

Таким образом, результаты апробации и сравнение разработанного математического обеспечения с другими подходами показали его эффективность и пригодность к решению практических задач редукции нечетких правил в базах знаний шггеллектуальных систем с высокой степенью точности.

В заключении сформулированы основные научные и практические результаты работы, намечены направления перспективных исследований.

В приложении 1 приведено обоснование экономической эффективности редукции нечетких правил в базе знаний интеллектуальной скоринговой системы оценки кредитоспособности физических лиц.

В приложении 2 представлены акты о внедрении и использовании результатов диссертационного исследования.

В приложении 3 представлено свидетельство о государственной регистрации пр01раммы оптимизации баз знаний систем нечеткого логического вывода.

ЗАКЛЮЧЕНИЕ

1. На основе анализа существующих подходов в области разработки интеллектуальных систем для повышения эффективности их практического использования сформулирована задача и обоснована необходимость разработки математического и программного обеспечения редукции нечетких правил в базах знаний интеллектуальных систем.

2. Разработано математическое обеспечение для редукции баз знаний:

2.1) эффективный численный метод редукции базы знаний интеллектуальной системы, основанный на алгоритме кластеризации нечетких правил и генетическом алгоритме минимизации числа кластеров, и позволяющий получать редуцированную модель системы нечеткого логического вывода;

2.2) алгоритм кластеризации нечетких правил, основанный на принципах таксономии знаний и представляющий правила исходной базы знаний в виде точек в п-мерном пространстве, объединяющихся в кластеры;

2.3) метод идентификации значений параметров функций принадлежности, позволяющий строить новые правила в логических центрах кластеров;

2.4) генетический алгоритм редукции нечетких правил, обеспечивающий минимизацию числа правил промежуточной базы знаний без потери точности классификации на основе редуцированной базы знаний.

3. На основе предложенных методов и алгоритмов реализован программный комплекс для автоматической редукции нечетких правил в базах знаний интеллектуальных систем.

4. Проведены исследования оценки эффективности разработанного математического обеспечения при редукции баз знаний, сформированных на основе анализа известного набора данных. Результаты исследований показали повышение эффективности использования редуцированных баз знаний:

- число нечетких правил сократилось в среднем на 95.5%;

- классифицирующая способность базы знаний увеличилась на 1.66%;

- время выполнения логического вывода сократилось на 84.55%.

Также улучшилась общая интерпретируемость баз знаний за счет снижения количества нечетких правил.

5. Произведена редукция базы знаний интеллектуальной системы оценки кредитоспособности физических лиц и системы спам-фильтрации. Результаты апробации и сравнение разработанного математического обеспечения с другими подходами показали его эффективность и пригодность к решению практических задач редукции нечетких правил в базах знаний интеллектуальных систем с высокой степенью точности.

Таким образом, в диссертации на основании выполненных автором исследований решена актуальная научная задача, имеющая важное хозяйственное значение с точки зрения развития и применения средств математического моделирования, численных методов и комплексов программ для редукции нечетких правил в базах знаний интеллектуальных систем, используемых в различных областях человеческой деятельности.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Основное содержание диссертации опубликовано в следующих работах: в монографии

1. Абдулхаков, А.Р. Математическое и программное обеспечение редукции нечетких правил в базах знаний интеллектуальных систем: монография / А.Р. Абдулхаков, A.C. Катасёв. - Казань: Центр инновационных технологий, 2015. - 160 е., ил.

в российских рецензируемых научных журналах

1. Абдулхаков, АР. Редукция нечетких правил в задаче оптимизации баз знаний экспертных систем / A.C. Катасёв, А.Р. Абдулхаков // Вестник КГТУ им. А.Н. Туполева. - 2012. - № 3. - С. 110-115.

2. Абдулхаков, А.Р. Алгоритм и программный комплекс редукции баз знаний мягких экспертных систем [Электронный ресурс] / А.Р. Абдулхаков // Труды МАИ Московский авиационный институт (национальный исследовательский университет). Электронный журнал. - 2014. - № 75. - Режим доступа: http://www.mai.ru/science/trudy/published.php?ID=49703.

3. Абдулхаков, А.Р. Методы редукции нечетких правил в базах знаний интеллектуальных систем / А.Р. Абдулхаков, A.C. Катасёв, А.П. Кирпичников // Вестник Казанского технологического университета. - 2014. - Т. 17, № 23. - С. 389392.

в материалах научных семинаров п конференций:

1. Абдулхаков, А.Р. Методика оценки кредитоспособности физических лиц / А.Р. Абдулхаков // Международная молодежная научная конференция "XVII Тупо-левские чтения»: материалы конференции. Том IV. г. Казань, 26-28 мая, 2009. С. 105-107.

2. Абдулхаков А.Р. Защищенная информационная система оценки кредитоспособности физических лиц / А.Р.Абдулхаков, Р.И.Насыров // Инфокоммуникац. технологии глобального информац. общества: сб. трудов 7-й междунар. науч-но-практ. конф. - Казань, 2009. - С. 442-446.

3. Абдулхаков, А.Р. Таксономия знаний при оптимизации баз знаний экспертных систем / А.Р. Абдулхаков // Международная молодежная научная конференция "XVIII Туполевские чтения»: материалы конференции. Том IV. г. Казань, 26-28 мая, 2010. С. 208-210.

4. Абдулхаков А.Р. Редукция нечетких правил для оптимизации баз знаний экспертных систем / А.Р. Абдулхаков, A.C. Катасёв // Проблемы и перспективы развития информационных технолопш: Всерос. научно-техническая конф., посвященная 40-летию основания Института технической кибернетики и информатики КНИТУ-КАИ. - Казань, 2012. - С. 353-361.

5. Абдулхаков, А.Р. Редукция баз знаний в системах искусственного интеллекта / А.Р. Абдулхаков II XIV Междунар. научно-техническая конф. «Кибернетика и высокие технологии XXI века». Сб. статей. - Воронеж, 2013. - С. 105-111.

6. Абдулхаков, А.Р. Оптимизация баз знаний в экспертных системах / А.Р. Абдулхаков // Закономерности и тенденции развития науки в современном обществе: сб. статей Междунар. научно-практ. конференции. - Уфа, 2013. - С. 60-67.

7. Абдулхаков, А.Р. Оптимизация баз знаний экспертных систем в сфере потребительского кредитования / A.C. Катасёв, А.Р. Абдулхаков // Проблемы анализа и моделирования региональных социально-экономических процессов: IV Международная научно-практ. конференции. - Казань, 2013. -С. 110-113.

8. Абдулхаков, А.Р. Применение генетических алгоритмов в задачах оптимизации баз знаний экспертных систем / А.Р. Абдулхаков // «Применение современных информационных технологий в процессе реализации программ поведения человека в кризисных ситуациях». Казань, 16-19 сентября, 2013. - С. 35-47.

9. Абдулхаков, А.Р. Редукция баз знаний экспертных систем в розничном кредитовании / А.Р.Абдулхаков // «Достижения и перспективы эконометрических исследований в России»: материалы докладов научно-практического семинара. Казань, 2014.-С. 3-5.

10. Абдулхаков, А.Р. Редукция баз знаний в интеллектуальных системах / А.Р. Абдулхаков // Логистика и экономика ресурсосбережения в промышленности: сб.научных трудов по материалам VHI Международной научно-практической конференции ЛЭРЭП-8-14. Москва, 19-20 ноября, 2014. - С. 307-311.

11. Абдулхаков, А.Р. Оптимизация базы знаний системы спам-фильтрации на основе кластерного метода редукции нечетких правил / А.Р. Абдулхаков, A.C. Катасёв // Материалы VII Межрегиональной научно-практической конференции «Информационная безопасность и защита персональных данных. Проблемы и пути их решения». - Брянск, 2015. - С. 5-9.

12. Абдулхаков, А.Р. Кластерный метод редукции нечетких правил в базах знаний интеллектуальных систем / А.Р. Абдулхаков, A.C. Катасёв II Сб.докладов XVIII Междунар. конф. по мягким вычислениям и измерениям. - СПб, 2015. - Т. 2 -С. 25-28.

свидетельства:

1. Абдулхаков А.Р. Свидетельство о государственной регистрации программы для ЭВМ №2015610634. Программа для оптимизации баз знаний систем нечеткого логического вывода / А.Р. Абдулхаков, A.C. Катасёв. - М.: Роспатент, 2015.

Подписано в печать 09.07.2015. Формат 60x84 1/16. Бумага офсетная. Печать ризографическая. Гарнитура «Times». Тираж 100 экз. Заказ 364 Типография ООО «Глаголь»

420021, г.Казань, ул. Г. Тукая, 113а Тел./факс (S43) 278-96-96,278-97-97