автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Модель и метод кластеризации объектов с нечеткими значениями параметров

кандидата технических наук
Назаров, Александр Олегович
город
Казань
год
2015
специальность ВАК РФ
05.13.18
Автореферат по информатике, вычислительной технике и управлению на тему «Модель и метод кластеризации объектов с нечеткими значениями параметров»

Автореферат диссертации по теме "Модель и метод кластеризации объектов с нечеткими значениями параметров"

На правах рукописи

НАЗАРОВ АЛЕКСАНДР ОЛЕГОВИЧ

МОДЕЛЬ И МЕТОД КЛАСТЕРИЗАЦИИ ОБЪЕКТОВ С НЕЧЕТКИМИ ЗНАЧЕНИЯМИ ПАРАМЕТРОВ

05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

т

005559771

Казань - 2015

005559771

Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ»

Научный руководитель: кандидат технических наук, доцент Аникин Игорь Вячеславович

Официальные оппоненты: Афанасьева Татьяна Васильевна

доктор технических наук, профессор, федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Ульяновский государственный технический университет», профессор кафедры информационных систем

Ажмухамедов Искандер Маратович

кандидат технических наук, доцент, федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Астраханский государственный технический университет», доцент кафедры информационной безопасности

Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Уфимский государственный авиационный технический университет», г. Уфа

Защита состоится «03» апреля 2015 г. в 14— часов на заседании диссертационного совета Д 212.080.13 при ФГБОУ ВПО «Казанский национальный исследовательский технологический университет» (420015, г. Казань, ул. К. Маркса, д. 68, Зал заседаний Ученого совета - каб. 330).

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Казанский национальный исследовательский технологический университет» и на сайте www.kstu.ru.

Автореферат разослан «70» февраля 2015 г.

Ученый секретарь диссертационного

совета Д 212.080.13, доктор ., С.

технических наук, профессор

Клипов

Александр

Вячеславович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. Задача кластеризации является одной нз важнейших задач интеллектуального анализа данных в различных проблемных областях - технических, ест ественнонаучных, социальных. Кластеризация является примером задачи обучения без учителя и сводится к разбиению исходного множества объектов на подмножества классов таким образом, чтобы элементы одного хласса были максимально схожи между собой, а элементы различных классов - отличались.

Традиционные методы кластерного анализа работают с объектами, параметры которых заданы исключительно в четком виде, что затрудняет их практическое использование при работе с объектами нечеткой природы. В настоящее время для кластеризации подобных объектов активно развиваются методы, основанные на нечеткой логике. Исследованиям в данной области посвящены работы известных зарубежных и российских ученых: Bezdek J.C., Pedrycz YV., Zadeh L.A., Аверкина A.H., Батыршина И.З., Вагина В.Н., Васильева В.И., Вятченина Д.А.' Елизарова С.И. Куприянова М.С., Холода И.И., Ярушкиной Н.Г. и др.

Существует множество методов нечеткой кластеризации, таких как Fuzzy С-Means, Гюстафсона-Кесселя, FOPTICS и др. Данные методы формируют кластеры, границы которых размыты, а объект может одновременно относиться к нескольким из них с различными степенями принадлежности. Однако следует отметить, что известные методы нечеткой кластеризации работают с четко заданными значениями параметров объектов, формируя кластерные решения, например, на основе оценки расстояний между объектами и центрами кластеров. Такой подход не позволяет эффективно осуществлять кластеризацию объектов с нечетко заданными значениями параметров. В связи с этим, актуальной задачей является разработка мгтодов кластеризации, способных учитывать нечеткую природу объектов, то есть работать с параметрами, заданными в виде функций принадлежности.

Кроме этого, для решения ряда практических задач, требующих обработки исходных данных в реальном режиме времени, актуально использование методов концептуальной кластеризации, таких как COBWEB. Основным преимуществом подобных методов является отсутствие необходимости предварительного задания полного множества объектов и числа кластеров. Классический вариант реализации метода COBWEB не предполагает работу с нечеткими значениями параметров, чтс актуализирует решение поставленной выше задачи для данного метода.

Объект исследования: кластеризация объектов с нечеткими значениями параметров.

Предмет исследования: модели и методы концептуальной кластеризации объектов нечеткой природы.

Цель работы: повышение эффективности концептуальной кластеризации путем разработки модели, метода и реализующего их программного комплекса для кластеризации объектов с нечеткими значениями параметров на основе метода COBWEB. Эффективность определяется способностью предложенного метода находить кластерное решение для объектов с нечеткими значениями параметров и достигаемой точностью кластеризации.

Достижение поставленной цели потребовало решения следующих задач:

- разработки модели концептуальной кластеризации объектов с нечеткими значениями параметров;

- разработки нового метода концептуальной кластеризации, обобщающего метод COBWEB, для работы с объектами с нечеткими значениями параметров;

- разработки эффективного численного метода формирования функций принадлежности параметров кластеризуемых объектов;

- разработки программного комплекса нечеткой концептуальной кластеризации объектов;

- проведения исследований и экспериментов для оценки точности разработанного метода кластеризации;

- решения практических задач концептуальной кластеризации объектов с нечеткими значениями параметров.

Методы исследования: математическое моделирование, кластерный анализ, теория нечетких множеств, численные методы, объектно-ориентированное программирование.

Научная новизна работы

1. Разработан новый метод кластеризации, который, в отличие от существующих методов, позволяет строить модель концептуальной кластеризации для объектов нечеткой природы, а также повышать точность кластеризации по сравнению с известными четкими методами.

2. Предложена модифицированная формула оценки полезности концептуальной кластеризации для объектов с нечеткими значениями параметров.

3. Разработан численный метод формирования кусочно-линейных и П-образных функций принадлежности для параметров кластеризуемых объектов на основе анализа исходных данных.

4. Экспериментальным путем показано, что использование кусочно-линейных функций принадлежности для задания нечетких значений параметров объектов позволяет увеличить разделяющую способность кластеров по сравнению с использованием П-образных функций принадлежности.

5. Теоретически доказан ряд утверждений, определяющих качество разбиения объектов по кластерам для разработанного метода кластеризации.

Достоверность результатов работы. Предложенные в диссертации оригинальные модель и методы теоретически обоснованы и не противоречат известным положениям других авторов. Достоверность полученных результатов обеспечена математически строгим выполнением расчетов, подтверждена вычислительными экспериментами и результатами практического использования.

Теоретическая значимость диссертационной работы заключается в разработке модели и метода концептуальной кластеризации объектов с нечеткими значениями параметров и эффективного численного метода формирования кусочно-линейных и П-образных функций принадлежности.

Практическая значимость диссертации заключается в разработке программного комплекса б среде С#, позволяющего осуществлять концептуальную кластеризацию объектов с нечеткими значениями параметров, проводить исследования разработанного метода концептуальной кластеризации, решать практические задачи по кластеризации объектов, описанных в нечетком виде.

Публикации по теме диссертации. Основные результаты диссертационного исследования опубликованы в 15 печатных работах, в том числе 7 статей в российских рецензируемых научных журналах, 7 публикаций в материалах научных д™ ЭВМ* " К0нференцнй; получено 1 «идетельство о регистрации программы

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на Международной молодежной научной конференции «Туполевские чтения» (Казань, 2009, 2010), Всероссийской научной конференции «Информационные технологии в системе социально-экономической безопасности России и ее регионов» (Казань, 2010, 2012), региональном научном семинаре «Методы моделирования» (Казань, 2013).

Реализация результатов работы. Результаты исследования:

- использованы в Министерстве внутренних дел по Республике Татарстан для выявления вредоносного программного обеспечения на рабочих станциях информационных систем;

- использованы в ОАО «Таттелеком» для решения задачи автоматизации формирования пользовательских ролей и выявления несанкционированных действии пользователей;

- внедрены в учебный процесс ФГБОУ ВПО «Казанский национальный исследовательский технический университет им. А.Н. Туполева-КАИ» и используются при изучении дисциплин «Интеллектуальные информационные системы» «1 ехнологии интеллектуального анализа данных».

Положения, выносимые на защиту:

- модель и метод концептуальной кластеризации объектов с нечеткими значениями параметров;

- формула оценки полезности концептуальной кластеризации объектов нечеткой природы;

- численный метод формирования кусочно-линейных и П-образных функции принадлежности параметров кластеризуемых объектов;

- программный комплекс нечеткой концептуальной кластеризации.

Структура и объем работы. Диссертация изложена на 131 страницах машинописного текста, содержит 36 рисунков, 15 таблиц, состоит из введения, четырех глав, заключения, списка использованной литературы из 76 наименований на 8 страницах и 6 приложений на 16 страницах.

Сведения о личном вкладе автора. Личный вклад автора состоит в разработке модели и метода концептуальной кластеризации для работы с объектами с нечеткими значениями параметров. Автором лично предложена формула оценки полезности концептуальной кластеризации объектов с нечеткими значениями параметров, сформулированы и доказаны утверждения, определяющие качество разоиения объектов по кластерам. Предложен численный метод формирования функции принадлежности для нечетких параметров на основе анализа исходных данных. Лично разработан программный комплекс нечеткой концептуальной кластеризации.

СОДЕРЖАНИЕ РАБОТЫ

Во введении отражена актуальность темы исследования, сформулированы цель и задачи диссертации, показаны научная новизна, практическая ценность, достоверность и обоснованность результатов диссертации, приведены основные положения, выносимые на защиту, указана степень апробации и реализации результатов диссертационного исследования, кратко раскрыто содержание глав диссертации.

Первая глава посвящена анализу систем распознавания объектов, методов кластеризации данных и формулировке целей исследования.

Задача кластеризации - пример задачи обучения без учителя, которая сводится к разбиению исходного множества объектов данных о = {о, }„- на подмножества в виде классов с = {с,},.— таким образом, что элементы одного класса существенно отличались друг от друга по заданному набору параметров л = {¿Д.— от элементов других классов, и были максимально схожи с элементами своего класса.

Отмечено, что кластеризацию объектов с нечеткими значениями параметров сложно провести с помощью классических (четких) методов кластеризации. Большинство методов нечеткой кластеризации (Fuzzy C-Means, FOPTICS) работают с четко описанными параметрами.

Актуализирована необходимость решения задачи разработки метода концептуальной кластеризации, обобщающего метод COBWEB, для работы с объектами с нечеткими значениями параметров.

Вторая глава посвящена исследованию метода концептуальной кластеризации COBWEB, разработке модели и метода концептуальной кластеризации, обобщающих COBWEB, для объектов с нечеткими значениями параметров.

Для формализации метода кластеризации COBWEB обозначим через ° = {°, },.77 множество распознаваемых объектов, характеризуемое бинарными параметрами а = {лД.—, принимаемыми одно из возможных значений vv е {о. /} . {с„.С,.....С,} - множество формируемых кластеров, где « — заранее неизвестно.

Полезность кластеризации в методе COBWEB рассматривается как функция CU, определяющая сходство объектов в рамках одного кластера и их различие по отношению к объектам из других кластеров. Внутриклассовое сходство определяется условной вероятностью р{а, = vri \с,), а межклассовое сходство - условной вероятностью р{с, | а, =<',).

Функция полезности кластеризации определяется в виде:

= г> 'с>)г - к,у] (1)

п

где п - количество кластеров.

Метод COBWEB строит дерево классификации с вероятностными описаниями концептов. Выбор возможного способа кластеризации объектов основан на значениях функции полезности кластеризации (1). При построении дерева классификации используются следующие 4 операции:

- отнесение объекта к наилучшему из существующих кластеров;

- добавление нового кластера, содержащего единственный объект;

- слияние двух существующих кластеров в один новый с добавлением в него этого объекта;

- разбиение существующего кластера на два и отнесение объекта к лучшему из вновь созданных кластеров.

Предлагается модель концептуальной кластеризации объектов в виде дерева, представленного на рисунке 1.

р1х\с^=/с'<г.....

Р1х\С})ш[СР/г......С", И-.] Р,х\С,>*{фг......СЧ/г,1

С0:) ы

Р1г\с,.)=[с'1/г1.....с;/г, ]

Р1х\С4)=[С'4-г......С-/г,] ^ С. ^

р(х\с!)=[с-гг......с:/г,]

Рис. 1. Модель концептуальной кластеризации где С'к - число раз, когда значение параметра л, = 1 для объектов в кластере с,, гк - число объектов в кластере С„.

Формально данная модель концептуальной кластеризации объектов представляется в виде взвешенного графа (дерева) (2)

с = (о,р,н) (2)

где й = {с0,с,,„с„> - множество вершин графа, определяющих кластеры, /г -

множество ребер графа, я = (V.....*,} - веса вершин графа, определяющих'внут-

риклассовое сходство на основе условных вероятностей =''(-|С,) = |с| 1г„,...,С" /г,].

Метод концептуальной кластеризации

1. Вводится корневой кластер Со, свойства которого совпадают со свойствами

первого объекта 0,=[Уи..... Уш]. Для каждого последующего объекта

и' 1"..... выполняется цикл, реализующий шаги 2-6, в рамках которых выполняются 4 выше представленные операции.

2. Объект О, добавляется поочередно в кластеры О, О.....Ск. После каждого

добавления вычисляется полезность кластеризации Си!, ..., СЪ'к.

3. Для объекта О. создается новый кластер Си/, объект помещается в кластер и вычисляется полезность кластеризации ССЛ+у.

4. Объединяются два кластера с максимальными значениями полезности кластеризации из Си,.....ССЛ. Образуется новый кластер, в него добавляется объект

СЛ. Вычисляется полезность кластеризации С1Л~2.

5. Объект Oi добавляется в кластер с максимальным значением полезности кластеризации из CUi,..., CUk. Образуется новый кластер с двумя кластерами-потомками. Вычисляется полезность кластеризации CUk+з.

6. Выбирается максимальное значение полезности кластеризации среди по-лезностей CUi,....CUk,CUk+i,CUk+2,CUk+3, в соответствии с ним выбирается операция разбиения объектов по кластерам.

В диссертационной работе разработан метод концептуальной кластеризации, основанный на методе COBWEB, позволяющий работать с объектами, характеризуемыми параметрами с нечеткими значениями. Данный метод предполагает реализацию классического метода концептуальной кластеризации в следующих условиях:

1. Множество распознаваемых объектов о = {о,},.- характеризуется параметрами, описанными в нечетком виде а - {л у} ;

2. Значение параметра л t для объекта О, определяется в виде функции принадлежности M j (х) е {о,/};

3. Степень сходства двух функций принадлежности м-й(*) и определяется их наибольшей верхней границы в виде:

v„ = «v "м \иа,Мl0''! ^

где W - функция принадлежности параметра а, для объекта О,, а ц-л(А -

функция принадлежности параметра Л, для объекта О,;

4. Основываясь на формуле полезности кластеризации (1) и положениях 1-3, оценка полезности кластеризации осуществляется по модифицированной формуле (4)

2 к,! к ,.! 2 I.1.0.C, 2 I.jn.f, v J" 11 2 J.I I.I (Л\

си -----:——--—1-■ rv

n

где v - степень сходства двух функций принадлежности, [с,| - количество объектов в кластере с,, г - общее количество рассматриваемых объектов, п - количество кластеров, j = i,m , i,i = I,г .

E" Z' Z' v„/|c,|e {0,1} - вычисляет среднее арифметическое значение

степеней сходства функций принадлежности по параметру л, для всех объектов О,, принадлежащих кластеру С,.

X" X, ■ Л-/г 6 ~~ вычисляет среднее арифметическое значение степеней сходства функций принадлежности по параметру ~At для всего множества распознаваемых объектов О,.

си' е {o.i) - полезность кластеризации для объектов, описанных нечеткими параметрами.

Данный метод формирует модель концептуальной кластеризации объектов (2), при этом значения А, формируются по модифицированным формулам с учетом нечеткого вида параметров объектов.

Утверждение!. Если Г,.,а Ф,| = /,а Х„ХХ.,>,.

то Си ' — 1.

Утверждение 2. Выражение Х.Х,.,,..сХ-,о^ , Ф.И, когда объекты, отнесенные в кластер С,, имеют идентичные функции принадлежности параметров.

Утверждение 3. Выражение £'.X., I= когда все рассматриваемые объекты имеют различные функции принадлежности параметров (т.е. сравниваемые функции не имеют точек пересечения).

Третья глава посвящена разработке численного метода формирования кусочно-линейных и П-образных функций принадлежности параметров кластеризуемых объектов.

Кусочно-линейные функции принадлежности определены в виде (5)

(о,-г <; а }

!

-,а < х <. 6

|с — Ь I

]

П-образные функции принадлежности определены в виде (6)

!0,х<а: 1

\ , I

а+Ь I

Кпт — '

т—=-1 .~<*<ь;

/п(*:и.Ь.с,с1 ) = \1.х = Ь,х = с: > ^

[ {¿-с) 2 |

\ (¿-х)1 с + <! |

О,Л < х.

В диссертационной работе предложен численный метод формирования кусочно-линейных и П-образных функций принадлежности для параметров, заданных в нечетком виде, на основе анализа статистических данных. При этом минимизируется функция ошибки, определяемая в виде отклонения аналитически заданной функции принадлежности от реальных данных. Для кусочно-линейных функций принадлежности суммарная ошибка определяется в виде (7)

где е", е' - ошибки по левой и правой частям функции принадлежности. Минимизация функции ошибки осуществляется путем корректировки параметров функции принадлежности с помощью метода градиентного спуска по следующим формулам.

х,-ь

(8)

,.,Кь~а )

с-Ъ

--У,

(Ь-

х, -Ь

(О- ■Ь)1

— а

(9)

") (с-Ь)' У")(Ь-а/)

(10)

Для П-образных функций принадлежности суммарная ошибка определяется в виде (11), а корректировка параметров функции принадлежности осуществляется согласно формулам (12)-(15)

(11)

Уравнения (11) для П-образных функций можно представить в следующем

виде:

уЬ-а ) уь-а ) (Ь-а)1

с1-х..

{¿-с ) у <1 -с ) (с!-с)!

ч

V Л-с ) (Л-с)' ]

(Ь-а)1 }

~У') (Ь-оУ)

(12)

(13)

(14)

(15)

Степень сходства двух функций принадлежности //(*) и <(*) определяется согласно формуле (3). На основании функции (3) определяется наибольшая верхняя граница пересечения графиков функций принадлежности //(*) и '(*) (рисуно1с 2).

Рис. 2. Наибольшая верхняя граница пересечения графиков функций принадлежности

Исходя из способа задания П-образных функций принадлежности (6), точку их пересечения можно представить как:

Подставляя значение х в (6), получим степень сходства функций принадлежности /„„,(*;",„,,.>>,.<,и /,„><*;",ц,*«,,^,,.,■<*„.,)■

Пересечение двух кусочно-линейных функций принадлежности, определяется согласно (17)

Подставляя значение х в (5), получим степень сходства функций принадлежности.

В четвертой главе представлено описание программного комплекса, реализующего разработанный метод кластеризации объектов с нечеткими значениями параметров. Представлена архитектура программного комплекса. Решен ряд практических задач по кластеризации объектов и проведены экспериментальные исследования для сравнительной оценки точности кластеризации.

Для практического решения задач с применением теоретических результатов, полученных ранее, был разработан программный комплекс в среде С#. Данный комплекс позволяет проводить численно-параметрические исследования разработанной модели и метода концептуальной кластеризации объектов, решать практические задачи по кластеризации объектов с нечеткими значениями параметров. На разработанный комплекс программ получено свидетельство о государственной регистрации программы для ЭВМ (№ 2013614934).

С помощью разработанного программного комплекса решена практическая задача по автоматизации построения пользовательских ролей в корпоративной информационной системе (КИС). Решение данной задачи позволяет с одной стороны значительно упростить работу администратора информационной безопасности по формированию пользовательских ролей в КИС, с другой стороны позволяет обнаруживать аномальное поведение пользователей в КИС, выявляя недобросовестных сотрудников, использующих информационные ресурсы организации не только для выполнения своих функциональных обязанностей, но и в личных целях.

Архитектура системы, предназначенной для автоматизации построения пользовательских ролей, представлена на рисунке 4 и состоит из 4 модулей:

Модуль подготовки данных Модуль обработки данных

Модуль сбора данных

Рис. 4. Архитектура системы, предназначенной для автоматизации построения пользовательских ролей

1. Модуль сбора данных, предназначенный для сбора статистических данных об объектах. Для решения задачи кластеризации пользователей в КИС сбор данных осуществляется на основе анализа журналов событий. Статистические данные сохраняются на жестком диске в виде текстового файла с разделителями.

2. Модуль подготовки данных позволяет построить функции принадлежности для каждого объекта по каждому из параметров. Выходом данного модуля являются сформированные нечеткие описания объектов в виде функций принадлежности их параметров.

3. Модуль обработки данных реализует разработанный метод концептуальной кластеризации объектов с нечеткими значениями параметров.

4. Модуль интерпретации результатов. Результаты работы метода можно увидеть в отдельном окне, в котором представляются результаты кластеризации и полученная иерархия кластеров.

В качестве примера решена задача автоматизации формирования пользовательских ролей для тестовой зоны информационной системы ОАО «Таттелеком». Структура информационной системы представлена на рисунке 5. Она включает в себя четыре отдела: Администрация, Бухгалтерия, Отдел продаж, Технический отдел. В состав локальной вычислительной сети (ЛВС) входит один почтовый и два файловых сервера, коммутатор, сетевой принтер, 3 МФУ. Осуществляется выход во внешнюю сеть через прокси-сервер.

Бухгалтерия

Отдел продаж

Почтовый Файловый Файловый

Ом 7_______О;,

Технический отдел

Коммутатор

Рис. 5. Структура информационной системы организации

Осуществлялась кластеризация 22 пользователей: о = {о,}" , представленных в таблице 1.

Таблица 1. Пользователи КИС

Пользователь Должность Отдел

Oi Генеральный директор

02 Финансовый директор

Оз Технический директор Администрация

04 Секретарь

05 Офис-менеджер

Об Главный бухгалтер

07 Зам. главного бухгалтера Бухгалтерия

08 Бухгалтер

09 Начальник отдела продаж

Ою Зам. начальника отдела продаж Отдел продаж

Ой- Oi3 Менеджеры

Он Начальник технического отдела

015 Зам. начальника технического отдела Технический отдел

016-021 Технические специалисты

022 Администратор ЛВС Отдел ИТ

А = iA, }'(8„,, представленных в таблице 2.

Таблица 2. Параметры пользователей

Параметр Описание параметра

Ai Количество обращений к почтовому серверу в сутки

Аг Количество обращений к файловому серверу H в сутки

Аз Количество обращений к файловому серверу Z в сутки

A4 Количество обращений к коммутатору в сутки

As Количество обращений к сетевому принтеру «Бухгалтерия» в сутки

Аб Количество обращений к сетевому МФУ «Секретариат» в сутки

Ä7 Количество обращений к сетевому МФУ «Менеджеры» в сутки

As Количество обращений к сетевому МФУ «Тех.отдел» в сутки

А9 Количество обращений к прокси-серверу в сутки

Аю Количество принятых, отправленных писем через Microsoft Office Outlook в сутки

Ап Количество обращений к «1С:Бухгалтерия 8» в сутки

Al2 Количество обращений к «1С:Документооборот» в сутки

An Количество обращений к «Ю.Предприятие 8» в сутки

Al4 Количество обращений к «Microsoft Navision 3.60» в сутки

Al5 Количество обращений к «1С:Зарплата и управление персоналом 8» в сутки

Al6 Количество обращений к модулю «Монитор сопровождения» в сутки

Al 7 Объем внешнего сетевого трафика в сутки

Ais Средний процент загруженности центрального процессора в сутки

На основании анализа поведения пользователей по выше перечисленным параметрам осуществлялось распределение пользователей по кластерам. Результаты кластеризации представлены в таблице 3.

Кластер Объект (Пользователь)

с, О,

с2 02

Сэ 03

с4 о4, о5

С5 о6, о7,08

Сб О9, Ою, Он, 0,3

С7 0,2

С8 0,4, 0|5, 0,6, 0,8, 0,9. О20, 02,

С, 0,7

Сю 022

Анализируя таблицу 3, можно сделать вывод, что программа сформировала 10 кластеров. Первые три кластера описывают действия пользователей руководящего состава: генерального директора, финансового директора и технического директора соответственно. Кластер С4 описывает поведение объектов 04 и О5 — пользователи секретарь и офис-менеджер.

В связи с функциональными обязанностями администратора ЛВС его действия в ИС отличны от действий других пользователей. Поэтому для администратора ЛВС (022) был создан отдельный кластер.

Так же были выделены кластеры, характеризующие поведение пользователей, входящих в различные структурные подразделения организации:

Бухгалтерия-С5;

Отдел продаж - С6;

Технический отдел - С8.

Пользователи, относящиеся к кластерам Ci и С? были выделены в отдельные кластеры, что свидетельствует об их аномальном поведении. Проведя детальный анализ, было выявлено, что объем внешнего сетевого трафика объекта 0,2 превышает показатели использованного трафика других пользователей отдела продаж, что и формирует подобную аномалию. А пользователь Оп обращался к программам, использование которых не является необходимым при выполнении функциональных обязанностей сотрудника технического отдела, что также сформировало соответствующую аномалию. Выявление подобных инцидентов позволяет администратору безопасности своевременно отреагировать на них.

На примере задачи автоматизации формирования пользовательских ролей экспериментальным путем показано, что использование кусочно-линейных функций принадлежности для задания нечетких значений параметров объекта позволяет увеличить разделяющую способность кластеров в разработанном методе по сравнению с использованием П-образных функций.

Также с помощью разработанного метода решена задача определения вредоносного программного обеспечения (ПО) в компьютерных системах на основе анализа параметров, отражаемых в журналах событий. Были отобраны 20 виртуальных машин VMvvare Workstation, некоторые из которых были заражены вредоносным ПО. В качестве вредоносного ПО использовалось Trojan-PSW, Trojan-Spy, Trojan-Downloader, IM-Worm, Email-Worm, IRC-Worm. Разработанный метод кластеризации позволил осуществить верную классификацию зараженных узлов в 95% случаев.

Также был рассмотрен пример решения задачи распределения животных по кластерам на основе их параметров, заданных в нечетком виде. Для каждого семейства животных (медвежьи, зайцевые, кошачьи) взята выборка по 7 видов -° = },".,• Каждое животное было описано 3 параметрами, описанными в нечетком виде (длина тела, вес, скорость) - А = {л, }'.,. В таблице 4 представлены рассматриваемые объекты.

Oi Большая панда OS Лазающий заяц 015 Гепард

02 Очковый медведь 09 Бушменов заяц Oie Обыкновенная рысь

Оз Бурый медведь Ою Полосатый заяц 017 Пума

04 Чёрный медведь Он Заяц-русак Ois Канадская рысь

05 Белый медведь 012 Заяц-беляк Ol9 Дымчатый леопард

Об Гималайский медведь Oi3 Калифорнийский кролик О20 Леопард

О? Губач Ol4 Дикий кролик 021 Ирбис

Разработанный метод концептуальной кластеризации распределил объекты по 3 кластерам в соответствии с семействами животных. На примере решения данной задачи, разработанный метод кластеризации показал 100% точность кластеризации.

Для сравнительного анализа, данная задача также была решена с помощью известных методов кластеризации ЕМ и g-means. При этом выполнялась дефаззи-фикация параметров объектов, заданных в нечетком виде. Результаты сравнительного анализа точности кластеризации методов представлены на рисунке 6.

Разработанный метод концептуальной кластеризации Iточность 100%)

Кластер Объект (Животное)

С, OlOlO^lO,. 0,.0,

С, 0к.0,.0№0„.0„.0„.0„

С, 0к,0ц.0„.0„.0№0№0м

Метод кластеризации g-means fточность 76,1%)

Кластер Объект (Жиаотиое!

с,

С, 0„,,0,..0„.0„.0№0„

С, 0,.0«0№0„.0„.0„

С. Oi.0,.0*

С, 0,, 0„0S,0,

С. 0„

Метод кластеризации Expectation Maximization ¡точность ЩЭ%)

Кластер Объект (Животное)

с, Oj.O^O^O.i.O,,

С, 0,, 0,. 0„,0U,0„,0,„0„,0„,0„.0,0. 0,1

с. 0|,0,,0„.0,

Рис. 6. Сравнительный анализ методов кластеризации

Таким образом, видим, что точность решения задачи кластеризации методами ЕМ и g-means составила, соответственно, 80,9% и 76,1%, что меньше точности, полученной в результате работы разработанного метода.

Проведена оценка производительности разработанного программного комплекса. Для ПЭВМ, построенной на базе процессора Intel Core ¡З-ЗЗОМ 2,13 ГГц, метод выполнил кластеризацию 5000 объектов, характеризуемых 48 параметрами, за 12 секунд. Затрачиваемая производительность составила =10,3 GFlops. Полученный результат не является существенным для производительности современных компьютеров.

В заключении приведены основные результаты исследований, представленные в диссертации.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ И ВЫВОДЫ

1. Разработана модель концептуальной кластеризации объектов с нечеткими значениями параметров в виде взвешенного графа (дерева), на основании которого происходит разбиение объектов по кластерам.

2. Разработан новый метод концептуальной кластеризации, основанный на методе COBWEB, который, в отличие от существующих методов, позволяет строить модель концептуальной кластеризации для объектов нечеткой природы, а также повышать точность кластеризации по сравнению с известными четкими методами. Основу метода составляет предложенная в работе модифицированная формула оценки полезности концептуальной кластеризации для объектов с нечеткими значениями параметров. Кроме этого, сформулирован ряд утверждений, определяющих качество разбиения объектов по кластерам.

Разработан программный комплекс нечеткой концептуальной кластеризации объектов в среде С#, позволяющий осуществлять концептуальную кластеризацию объектов с нечеткими значениями параметров, проводить исследования разработанного метода концептуальной кластеризации, решать практические задачи по кластеризации объектов, описанных в нечетком виде. На разработанный программный комплекс получено свидетельство о государственной регистрации программы для ЭВМ (№ 2013614934).

4. Предложен эффективный численный метод формирования кусочно-линейных и П-образных функций принадлежности для параметров кластеризуемых объектов на основе анализа исходных данных. При этом с помощью метода градиентного спуска минимизируется функция ошибки, определяемая в виде отклонения аналитически заданной функции принадлежности от реальных данных. На примере задачи автоматизации формирования пользовательских ролей, экспериментальным путем показано, что использование кусочно-линейных функций принадлежности для задания нечетких значений параметров объекта позволяет увеличить разделяющую способность кластеров в разработанном методе по сравнению с П-образными функциями.

5. Решен ряд практических задач по кластеризации объектов с нечеткими значениями параметров. Проведены исследования и эксперименты для оценки точности разработанного метода кластеризации. Полученные в работе теоретические результаты были использованы для решения задачи автоматизации формирования пользовательских ролей в корпоративной информационной сети и выделения пользователей, характеризующихся аномальным поведением. Вторая практическая задача заключалась в выявлении узлов, зараженных вредоносным программным обеспечением. Разработанный метод кластеризации позволил осуществить верную классификацию зараженных узлов в 95% случаев. На примере задачи кластеризации животных была сравнена точность разработанного метода кластеризации с другими известными методами, ЕМ и g-means, точность составила 80,9% и 76,1% соответственно. Разработанный метод показал 100% точность распознавания.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Основное содержание диссертации опубликовано в следующих работах: в российских рецензируемых научных журналах

1. Назаров, А.О. Выбор вида функции принадлежности в нечеткой модификации алгоритма Cobweb для задачи формирования пользовательских ролей / А.О. Назаров, И.В. Аникин // Вестник Казанского государственного технического университета им. А Н Туполева, 2014.2.-С. 214-219.

2. Назаров, А.О. Практическое применение метода концептуальной кластеризации объектов, характеризуемых нечеткими параметрами / И.В. Аникин, А.П. Кирпичников, А.О. Назаров // Вестник Казанского технологического университета. -2014. - Т. 17. - С. 203-207.

3. Назаров, А.О. Модель и метод концептуальной кластеризации объектов, характеризуемых нечеткими параметрами / А.О. Назаров // Фундаментальные исследования. - 2014. — №9 (5). - С. 993-997.

4. Назаров, А.О. Кластеризация пользователей информационной системы на основе их действий в компьютерной сети [Электронный ресурс] / А.О. Назаров // Современные проблемы науки и образования. - 2014. - №4. -URL: httpV/www.science-education.ru/118-13961

5. Назаров, А.О. Автоматизация процесса формирования пользовательских ролей на основе метода концептуальной кластеризации данных / А.О. Назаров, C.B. Суханов, Д.А. Токарев // Известия Института инженерной физики. - 2014. - № 3. - С. 2-6.

6. Назаров, А.О. Формирование эталонных профилей поведения пользователей в корпоративных информационных системах / А.О. Назаров, И.В. Аникин // Вестник Казанского государственного технического университета им. А.Н. Туполева. - 2012. -ХаЗ. - С. 138-142.

7. Назаров, А.О. Распознавание поведения объектов методом нечеткой кластеризации данных / А.О. Назаров, И.В. Аникин // Вестник Казанского государственного технического университета им. А.Н. Туполева. — 2012. -№4(1).-С. 222-228.

в материалах научных семннаров и конференций:

8. Назаров, А.О. Метод формирования эталонных профилей поведения пользователей в корпоративных информационных системах [Электронный ресурс] / А.О. Назаров // Информационные технологии в системе соц,-экономич. безопасности России и ее регионов: Электронная библиотека Казанского (Приволжского) федерального университета - Казань, 2012. -URL: http://dig'iïb kpfu.ru/xmlui/handle/123456789/792

9. Назаров, А.О. Сравнительный анализ методов кластеризации данных относительно формирования элементов ролевого разграничения доступа [Электронный ресурс] / А.О. Назаров // Информационные технологии в системе соц.-экономич. безопасности России и ее регионов: Электронная библиотека Казанского (Приволжского) Федерального Университета -Казань, 2012. - URL: http://diglib.kpfu.ru/xmlui/handle/123456789/791

Ю.Назаров, А.О. Ролевая модель разграничения доступа в корпоративных информационных системах / А.О. Назаров // Информационные технологии в системе соц.-экономич. безопасности России и ее регионов: сб. трудов III Всерос. научной конф. - Казань, 2010. - С. 304-307.

11.Назаров, А.О. Обеспечение безопасности информационной системы с помощью алгоритма кластеризации и нечетких параметров пользователей / А.О. Назаров // Информационные технологии в системе соц.-экономич. безопасности России и ее регионов: сб. трудов III Всерос. научной конф. -Казань, 2010.-С. 206-209.

12.Назаров, А.О. Сравнительный анализ алгоритмов кластеризации / А.О. Назаров // XVIII Туполевские чтения. Междунар. молодежная научная конф.: тез. докл. - Казань, 2010. - С. 220-222.

13.Назаров, А.О. Формирование пользовательские ролей с помощью алгоритма кластеризации и нечетких методов / А.О. Назаров // XVIII Туполевские чтения. Междунар. молодежная научная конф.: тез. докл. — Казань, 2010.-С. 218-220.

14.Назаров, А.О. Оценка рисков информационной безопасности на базе экспертных систем / А.О. Назаров // XVII Туполевские чтения. Междунар. молодежная научная конф.: тез. докл. - Казань, 2009. - С. 81-82.

свидетельства:

15.Назаров, А.О. Свидетельство о государственной регистрации программы для ЭВМ № 2013614934. КНЗ-1 / А.О. Назаров. - М.: Роспатент, 2013.

Заказ ' -----------ЗштУШ*

Офсетяая лаборатория КНИТУ, 420015, Казань, К.Маркса, 68