автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Разработка и исследование метода весовых функций для решения задач интеллектуального анализа данных при выявлении аномальной сетевой активности

кандидата технических наук
Карайчев, Глеб Викторович
город
Ростов-на-Дону
год
2011
специальность ВАК РФ
05.13.19
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование метода весовых функций для решения задач интеллектуального анализа данных при выявлении аномальной сетевой активности»

Автореферат диссертации по теме "Разработка и исследование метода весовых функций для решения задач интеллектуального анализа данных при выявлении аномальной сетевой активности"

005002294

Карайчев Глеб Викторович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДА ВЕСОВЫХ ФУНКЦИЙ ДЛЯ РЕШЕНИЯ ЗАДАЧ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПРИ ВЫЯВЛЕНИИ АНОМАЛЬНОЙ СЕТЕВОЙ АКТИВНОСТИ

Специальность 05.13.19 Методы и системы защиты информации, информационная безопасность

1 1 НОЯ 2011

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Ростов-на-Дону - 2011

005002294

Работа выполнена на кафедре «Информатики и вычислительного эксперимента» факультета «Математики, механики и компьютерных наук» федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет».

Научный руководитель: кандидат физико-математических наук, доцент Нестеренко Виктор Александрович

Официальные оппоненты: доктор экономических наук, доцент

Тищенко Евгений Николаевич

кандидат технических наук, доцент Тумоян Евгений Петрович

Ведущая организация: ФГНУ НИИ «Спецвузавтоматнка», г. Ростов-на-Дону

Защита диссертации состоится «01» декабря 2011 г. в 14-20 на заседании диссертационного совета Д 212.208.25 Южного федерального университета по адресу: 347928, Ростовская область, г. Таганрог, ул. Чехова, 2, ауд. И-409.

Отзывы на автореферат в двух экземппярах, заверенные гербовой печатью, просьба направлять по адресу: 347928, Ростовская область, г. Таганрог, пер. Некрасовский, 44. Технологический институт Южного федерачьного университета в г. Таганроге. Ученому секретарю диссертагцюныого совета Д 212.208.25 Брюхо.тщком\> Ю. А.

С диссертацией можно ознакомиться в Зональной научной библиотеке Южного федерального университета по адресу: 344006, г. Ростов-на-Дону, ул. Пушкинская, 148.

Автореферат разослан «27» октября 2011 г.

Ученый секретарь диссертационного совета Д 212.208.25,

кандидат технических наук

Ю. А. Брюхомнцкнй

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования

В последнее десятилетие обработка и эффективное использование информации стало невозможным без использования современных вычислительных технологий. В то же время произошло и резкое увеличение числа преступлений, связанных с атаками на информационные компьютерные системы, попыток фальсификации, кражи, искажения критически важных цифровых данных. По этой причине все больше компаний внедряют серьезные меры по обеспечению своей информационной безопасности, но применяемые меры не спасают, по приблизительным оценкам, каждую десятую компанию. Многие исследователи констатируют, что в настоящее время не существует универсальной системы или подхода, позволяющей выявлять все виды неизвестных вторжений. Усугубляет ситуацию и постоянное появление новых видов атак, в связи с чем дальнейшее совершенствование сигнатурных методов выявления злоупотреблений стаю невозможным без дополнения их методами интеллектуального анализа данных (НАД). При этом, говорить о полной безопасности сетевых систем все равно не приходится, можно говорить лишь о заданном уровне вероятности, что очередная атака не будет успешной. Большая актуальность состоит в повышении данной вероятности в условиях того, что задача распознавания сетевых злоупотреблений до cía пор не решена. Это следует из того, что общая задача проверки функциональной эквивалентности программ относится к числу алгоритмически неразрешимых проблем. Следовательно, требуется повышать инструментарий для обнаружения аномалий, дополняя современные системы обнаружения вторжений (СОВ) новыми методами выявления сетевых атак.

Разработкой СОВ занимается много компаний, однако большинство предлагаемых ими решений являются коммерческой тайной и их воссоздание или модифицирование, зачастую, практически невозможно. По этой причине большую теоретическую и практическую ценность имеет разработка и программная реализация эффективных методов обнаружения новых видов атак на основе методов НАД, успешно конкурирующих с «закрытыми» аналогами, по при этом имеющих открытый программный код и подробно описанный алгоритм функционирования.

Современные методы, анализирующие статистическое состояние системы и воспроизводящие ее нормальный профиль функционирования, имеют дело с данными, накопленными за продолжительный период времени, и обновляются в реальном времени по мере поступления новых событий. Однако они работают не с самими характеристиками событий, а с их обобщенными выборочными значениями, такими как средняя величина, среднеквадратичное отклонение и др., т.е. параметрами накапливающего типа. Таким образом, в процессе прямого вычисления сетевых характеристик и хранении их в памяти за продолжительные интервалы времени, нагрузка на компьютерную систему, занимающуюся НАД, сильно возрастает, что приводит к «пропусканию» некоторых событий, которые могут являться ключевыми, и общем замедлении реакции СОВ. Необнаруженные или не вовремя обнаруженные события являются причиной серьезных информационных и финансовых потерь. Повышение нагрузки на системные ресурсы становится еще больше, когда, имея сетевые данные за определенный интервал времени, возникает необходимость рассчитать некоторые характеристики за иной период на основе этих данных. Например, для выявления циклических колебаний нагрузки на сеть, связанных с чередованием рабочих, выходных дней, времени суток и т.п. потребуется наряду с анализом недельных и дневных графиков учитывать и часовые, минутные графики. Другими словами, потребуется использо-

вать специальное окно, «вырезающее» интересующий нас произвольный интервал времени из набора собранных данных. В подобных ситуациях в обязательном порядке придется хранить в памяти и все, анализируемые по заданному интервалу времени, сетевые события. В связи с этим трудно переоценить актуальность создания математического алгоритма, позволяющего компактно представлять большие объемы сетевых характеристик, поступающих и обрабатываемых в реальном масштабе времени, и за счет этого снизить нагрузку на вычислительные ресурсы (оперативную память, кэшпамять, дисковые накопители) и повысить реактивность СОВ.

Цель работы

Целью диссертационного исследования является разработка и развитие методов эффективного представления сетевых характеристик при выявлении аномальной сетевой активности, используя интеллектуальный анализ данных. Научная задача

Научная задача состоит в создании нового математического аппарата весовых функций, обеспечивающего снижение потребления памяти. Задачи исследования

Поставленные цели обуславливают необходимость решения следующих задач:

1. Провести анализ предметной области, изучить существующие подходы к обеспечению информационной безопасности в сети, выявить перспективные направления методов интеллектуального анализа данных.

2. Разработать новый математический аппарат для вычисления специальных видов весовых функций, позволяющих компактно представлять сетевые данные в реальном масштабе времени, определить исходные положения метода, провести оценку его погрешности.

3. Разработать на основе аппарата предложенных весовых функций новые и усовершенствовать существующие методы интеллектуального анализа данных с обучением «без учителя», выявляющие аномальную сетевую активность.

4. Разработать программную реализацию всех предложенных методов и алгоритмов.

5. Провести теоретическую и практическую оценку эффективности всех предложенных в диссертационном исследовании методов на основе весовых функций, используя разработанные программные решения.

Объект исследования

Объектом исследования являются методы интеллектуального анализа данных, выявляющие аномальную сетевую активность. Предмет исследования

В качестве предмета исследования выступают механизмы повышения эффективности существующих методов интеллектуального анализа данных, решающих задачи выявления аномальной сетевой активности.

Научная задача

Научная задача состоит в создании нового математического аппарата весовых функций, обеспечивающего повышение эффективности выявления сетевых аномалий.

Методологическая основа исследования

При решении поставленных в работе задач, были использованы методы математического анализа, дифференциального исчисления, аналитической геометрии, теории вероятности, математической статистики и кластерного анализа.

Информационная база исследования

При работе над диссертационным исследованием были использованы современные научные публикации по изучаемой проблематике. В качестве статистического источника данных были использованы базы КОЭ СиР'1999 и Ы8ИШО'2009. Также' был проведен собственный эксперимент по сбору, классификации и анализу сетевых событий в ЛВС одного из факультетов ЮФУ. Научная новизна работы

Научная новизна диссертации определяется следующими положениями:

1. Разработан новый метод весовых функций на основе рекуррентных соотношений, избавляющий от необходимости хранения всех сетевых характеристик, позволяя держать в памяти и использовать лишь ограниченный набор параметров, при этом показатели метода не зависит от объема анализируемой информации.

2. Разработана новая сеточная модель кластерного анализа сетевых данных на основе адаптивных сеток и преобразования Кархупена-Лоэва, реализованная на основе предложенных весовых функций.

3. Разработан новый метод выявления аномальной сетевой активности на основе критериев согласия, использующий предложенный метод весовых функций, который позволяет строить нормальный профиль функционирования сети только на основе распределения пакетов по 1Р адресам.

Основные положения, выносимые на защиту

На защиту выносятся следующие основные научные положения:

1. Разработанный метод весовых функций позволяет в реальном масштабе времени компактно представлять последовательность наблюдаемых сетевых характеристик в виде ограниченного набора специальных коэффициентов.

2. Разработанный метод весовых функций позволяет варьировать точность и ресур-соемкость своей работы в зависимости от типа выбранной весовой функции и числа используемых специальных коэффициентов.

3. Разработанная сеточная модель кластерного анализа данных на основе адаптивных сеток и преобразования Кархунена-Лоэва, используя метод весовых функций при выявлении аномалий, в отличие от аналогов, дает высокое число правильно выявленных сетевых атак уже при малой величине числа ложных тревог.

4. Разработанный метод выявления аномальной активности на основе критериев согласия, используя метод весовых функций, позволяет только по информации о распределении 1Р адресов выявлять сетевые аномалии с заданным уровнем значимости.

5. Экспериментальные оценки, подтверждающие эффективность разработанных и программно реализованных алгоритмов и методов.

Практическая ценность работы

Практическая полезность диссертации состоит в следующих аспектах:

1. Разработанный мегод весовых функций может быть использован в широком спектре программно-аппаратных систем обнаружения вторжений, в которых ведется сбор и анализ большого объема статистических характеристик в реальном масштабе времени. При этом средняя погрешность при использовании предлагаемого математического аппарата не превышает 1%-3% в зависимости от типа весовой функций и размера ограниченного набора коэффициентов.

2. Разработанные методы выявления аномальной сетевой активности и их программная реализация могут быть использованы при усовершенствовании существующих

систем на основе интеллектуального анализа данных. При этом метод адаптивных сеток обеспечивает 64.5% правильно выявленных аномалий уже при 1% ложных срабатываний системы, что превосходит показатели других методов. 3. Предлагаемые алгоритмы универсальны и могут быть с успехом использованы в различных областях науки и техники, в том числе при интеллектуальном анализе финансовой, статистической информации, анализе текстов, при оценке подлинности художественных произведений и т.п.

Достоверность и обоснованность научных положений и результатов

Достоверность сделанных выводов и обоснованность научных положений подтверждается систематизацией значительного числа актуальных публикаций по исследуемой проблематике, обеспечивается повторяемостью результатов на больших объемах экспериментальных данных, обладающих репрезентативностью современных видов сетевых аномалий, что не противоречит строгим математическим выкладкам, сделанным в работе, и подтверждается апробацией всех научных результатов на всероссийских и международных конференциях. Реализация и внедрение результатов

Положения диссертации использовались в учебном процессе Южного федерального университета при чтении курсов «Защита информации в компьютерных сетях» и «Информационная безопасность и защита информации». Результаты диссертации приняты к внедрению в Федеральном государственном унитарном предприятии «Всероссийский научно-исследовательский институт "ГРАДИЕНТ"» (г. Ростов-на-Дону), Научно-производственном предприятии «"ТЕСТ" радиотехника - специальные технологии» (г. Ростов-на-Дону), ООО «АРК Коммерсаль» (г. Москва). Также работа стала лауреатом ЮФУ и была использованы при подготовке конкурсной документации на грант в рамках ФЦП «Научные и научно-педагогические кадры инновационной России». Имеются соответствующие акты о внедрении. Апробация работы

Результаты диссертационной работы были представлены и обсуждались на научно-технической конференции «Информационные системы и технологии 2007» (ИА-ТЭ, Обнинск, 2007); IX, XI международных научно-технических конференциях «Информационная безопасность» (ТРТУ, Таганрог, 2007, 2010); I Всероссийской молодежной конференции по проблемам информационной безопасности «ПЕРСПЕКТИ-ВА-2009» (ТРТУ, Таганрог, 2009) на которой конкурсной комиссией доклад был признан лучшим и отмечен дипломом I степени. Личный вклад автора

Все научные результаты получены автором лично. Публикации

По теме диссертации опубликовано 11 научных работ, из них 3 статьи в журналах, рекомендованных ВАК.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения и списка литературы из 147 наименований.

Работа содержит 13 таблиц, 25 рисунков и изложена на 153 страницах машинописного текста.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Введение

Обоснована актуальность выбранной темы исследования, определены задача, цель и вопросы исследования; раскрыты принципы используемых подходов и методики; показана научная новизна и практическая значимость диссертации, сформулированы выносимые на защиту положения; приведены апробации результатов исследования.

Первая глава

Глава представляет собой исторический обзор развития методов и СОВ, анализ существующих подходов для обеспечения информационной безопасности в сети, предлагаемых методик для повышения эффективности выявления сетевых атак.

Проведенный в работе анализ более ста литературных источников позволил проследить эволюцию развития СОВ на основе выявления аномалий, начиная со знаменитой работы Дороти Деннинг и закапчивая современными подходами, основанными на кластеризации и методе опорных векторов таких авторов, как Р. Липпманн (R. Lippmann), Р. Квитт (R. Kwitt), А. Гош (A. Ghosh), Е. Эскин (Е. Eskin), Н. Кристиани-ни (N. Cristianini), Д. Андерсон (D. Anderson), Г. Явите (Н. Javitz) и др. Показано, что сигнатурные методы не отвечают требованиям времени, а их специфические недостатки являются структурными и не могут быть преодолены в рамках методов, поэтому в работе также выделены наиболее перспективные направления развития методов выявления аномальной активности. Примечательно, что гипотеза Д. Деннинг о том, что «использование уязвимостей системы приводит к ее необычному поведению и, следовательно, может быть выявлено, используя шаблоны аномального поведения» (выдвинутая общими усилиями с Питером Нейманом в 1986 г. в разработанной модели СОВ реального времени), не потеряла своей актуальности и сегодня. Это предположение до сих пор используется современными системами выявления аномалий.

Особое внимание уделено методам НАД (Data mining). Одним из его направлений становится обнаружение знаний в базах данных (Knowledge discovery in databases), в основу которой положена концепция паттернов. Отмечается, что одни и те же алгоритмы НАД могут с успехом применяться в разнообразных задачах.

Проведенный обзор литературных источников также показал, что современные методы выявления аномалий в реальном времени предъявляют повышенные требования к системным ресурсам и для исключения общего замедление реакции системы требуется повышение их эффективности. Следовательно, путь дальнейшего совершенствования СОВ лежит в комбинировании различных успешных ресурсоэффек-тивных алгоритмов, т.е., па примере рассмотренных работ, использовать подход, при котором сигнатурные методы уверенно выявляют известные атаки, а затем обращаются к методам выявления аномалий, которые пытаются выявить оставшиеся незамеченные виды сетевых атак. Но указывается, что окончательного предпочтения нельзя отдать и ни одному из существующих методов выявления аномалий. Так, П. Ласков и П. Дюссель в своей статье изучили компромисс между двумя диаметрально противоположными взглядами на обучающий трафик - свободный от аномалий, но трудно генерируемый, и сырой, но удовлетворяющий ряду не всегда выполнимых требований, и пришли к выводу, что будущее за их комбинацией.

В конце главы делается вывод, что разработка методов выявления аномальной активности, используя ИАД на основе построения базового профиля «без учителя», а также оптимизация его вычисления с целью уменьшения нагрузки на вычислительные ресурсы

с одновременным повышением реактивности системы, является актуальным и наиболее перспективным направлением совершенствования современных СОВ.

Вторая глава

Во второй главе предлагается метод весовых функций, в ней подробно рассмотрены задачи, решаемые данным подходом, вопросы вычисления рекурсивно реализуемых , весовых функций при расчете сетевых характеристик, вывод их соотношений, теоретическая оценка погрешности.

Рассматривается ситуация функционирования СОВ на сетевом узле в условиях понимания ожидаемого поведения контролируемых объектов системы, когда в беспорядочном (promiscuous) режиме захватывается весь сетевой трафик напрямую с сетевой карты или шины сетевого оборудования, минуя операционную систему, что позволяет уменьшить зависимость от нее и тем самым повысить эффективность системы обнаружения атак. Вводится понятие величины X,, I < ¡< jV характеризующей некоторое событие из сетевого трафика. Это может быть, например, состояние заданного флага из заголовка 1Р пакета или размер сетевого пакета. Возможно рассматривать и произвольные характеристики, т.е. функцию функции j(X), которая является дисперсией сг величины А" или средним значение X . В качестве статистической характеристики, для простоты, используется среднеарифметическое выборочной функции J[X) от величины X. Не теряя общности рассуждений, следует заметить, что те же самые рассуждения абсолютно справедливы и для многомерных многокомпонентных статистических величин. Итак, рассмотрим:

Вводится весовая функция F(z) и определяется величина;

M(N) = \/AformW-^Fft,,-t,)X, (2)

i-i

N

где Norm(N) = F(tN -t,).

M

Указывается, что использование весовой функции подходящего вида позволяет выделить из всей последовательности подпоследовательность п сетевых событий. Простым примером такой весовой функции может служить тета-функция: Fe{z) = e{\-zlrn)jn, где 6(z) определяется как:

ч Г 1 при х>0 в{х) = \ „ . (3)

[ 0 при х < О

Если п < N, можно записать M(N) = — Y\X , где п = Norm(N).

пы

Утверждается, что использование весовой функции Fe(z) имеет серьезный недостаток: при вычислении характеристики (1) для набора из п сетевых событий требуется хранить все значения Xh что повышает нагрузку на аппаратное обеспечение и замедляет обработку данных в реальном времени. Таким образом, в качестве весовой необходимо выбрать другую функцию.

В работе показапо, что весовая функция для получения рекуррентных соотношений должна обладать специальным свойством, называемым факторизацией, которое выражается соотношением: Ч^ (z, + z2) = (г,)- 4',. (z,). К функциям с таким свойствам от-

J

носятся показательные, степенные, тригонометрические функции и их комбинации. В работе рассматривается использование весовой функции такого вида на примере расчета временных интервалов между соседними пакетами, для чего вводится 2 типа весовых функций.

Так, предлагается весовая функция на основе экспоиепт:

W = T^-exP(-«-z) (4)

Отмечается, что функция F (г) локализована вблизи нуля и довольно быстро (экспоненциально) убывает с ростом аргумента, а параметр а имеет следующий смысл: величина Т, обратная параметру а(т = \/а), определяет интервал, на котором эффективно вычисляется усреднённая величина.

Используемое в работе представление весовой функции (4) позволяет получить рекуррентные соотношения для вычисления величины (2): М P{N) = ap(N)jbp{N),

a (N) = ^Ak(N), br(N) = ^TiB/l(N). Рекурсивное выделение вклада последнего сете-

к=0 Ы О

вого события приводит к следующим соотношениям:

к (аА )к'т

Ак (N) = Х„8п + ехр(-аД„) -£V Л„ (N-1).

ш=о (к — т)!

Вк(N) = <5, + ехр(-аЛи) ■ ± -Вт (N -1).

»1=0 (1С —111)1

где &N=tN .

При этом указывается, что формула, связывающая величину п и параметр а, входящего в определение функции (4), будет иметь следующий вид: а = {Ср -л-А] , где

1 1 + т)\

Д,=<,Ч,=АиС„=-

2(р+1) 2 ¡!т!

В работе отмечается, что выражение (4) представляет собой семейство функций /•^(г) отличающихся друг от друга значением параметрар, а конкретное значение этого параметра задаёт поведение функции /^(г) вблизи нуля (см. рис. 1):

' d'

- О при 0 <к< р

2=0

Указывается, что с ростом значения параметра р функция Fp(z) приближается к виду тета-функции, определенной в (3), это происходит по причине того, что выравнивается относительный вклад разных событий.

Др3(г)

\\FioW р .......................т\............—1 №

\ \

5(пД-2)

ПД

Рис. 1. Семейство функций /^(г) в сравнении с тета-функцией В работе также предлагается весовая функция на основе тригонометрических со-

отношений следующего вида: —

п

-----7

2 * (|(2У-1)

1

Формула (2) в этом случае: М(Ы) = — • V

п

вт

_'о У

!<у-0

Х„

Попытка выделения вклада последнего сетевого события приводит к формулам:

п

2 ,=о

(5)

где ^ - число слагаемых ряда которые мы будем учитывать. В(Ы) = ХН + В(М-1),

м(ы)=--

п

Далее в работе указывается, что (5) может быть использована для нахождения статистических характеристик (2) на интервале усреднения содержащего только половину, т.е. п = Г, событий для сетевого трафика, состоящего из N <2Т событий, поэтому следует переключаться с одного набора параметров В(М), ■УДЛ'), СД/У) для весовой функции б, (г) на другой набор, через каждые Г событий. При этом требуется, чтобы выполнялось условие: начала рекурсий для этих наборов должны быть сдвинуты относительно друг друга на величину Т.

Рис. 2. Результаты вычисления весовых функций (4), (5) и тетя-функции

Результаты вычисления весовых функций (4) и (5) и тета-функции для заданного числа параметров, приведены на рис. 2. Отмечается, что функция (5) лучше приближается к тета-«ступеньке», давая более точный результат по сравнению с функцией (4), что подтверждают и результаты прямых вычислений. Указывается, что объем необходимых вычислений для расчета локальных характеристик на основе функции (5) превышает объем вычислений для функции на основе (4). Также отмечается, что при весовых функций (4) делается предположении о распределении сетевого трафика согласно модели Пуассона.

Третья глава

В третьей главе обсуждается сеточная модель кластерного анализа сетевых данных на основе адаптивных сеток и преобразования Кархунена-Лоэва, реализованная на основе весовых функций, предложенных во второй главе. Построение адаптивной сетки производится, используя новый алгоритм на основе функции плотности распределения событий в ячейках сетки. В заключении обсуждаются возможные пути оценки эффективности разработанного метода, используя известные ROC кривые на основе тестовых размеченных данных KDD CUP4999 и NSL-fCDD'2009, предоставляющих возможность для сравнения полученных результатов оценки эффективности с мировыми аналогами.

Основа метода адаптивных сеток состоит в следующем. Вводится последовательность случайных событий Xt,...,XN, произошедших в момент времени tt,...,(N.

Si<z> G5(z)

Данные события характеризуются некоторыми числовыми характеристиками. В общем случае, анализируемое пространство характеристик является многомерным, при этом в работе проанализирован случай двумерного с указанием на то, что для многомерного случая аналогичные рассуждения справедливы.

В выбранном пространстве в работе вводится сетка размера и, Хп2: А = {«,,}, где я,у - количество событий в клетке (/', у); К ' {Кьс, Кнс}, где и Ккс -координаты ' /'левого нижнего и правого верхнего углов сетки, соответственно: К1С = ( А'£Гг, Ки.у ),

Ккс={Квсх>Кнс})> а вект°Р В={г,,В2}, где В1

В2 ~^Ь2],...,Ь2| содержит отношение ширины каждой границы к общей ширине

сетки (рис. 3). Т.о. (А, К, В) полностью определяет введенную сетку.

Перед анализом адаптивной сетки предлагается начинать построение структуры с

равномерным шагом Ьц =-—_/=1,и( +1, / = 1,2. И если X =(х1}х2) - очередное

событие, то рассматривается действие функции, отображающей множество координат точек из пространства событий во множество номеров клеток сетки. Далее вводятся понятия высоты (//) и ширины (И) сетки, вычисляемые по формулам: IV = (ККСх - К1Сх), Н ={ККСу - Ки,.). Тогда номер ячейки (х, (), в которой окажется новое событие X, удовлетворяет следующим неравенствам:

н-ь21<х2-к1Су<н-ь2^, !=игг, (6) •А',,,, Кы,)

(А'/.СО < > )

Рис. 3. Сетка (А, К, В)

V-

Для вновь поступившего события вычисляется соответствующая ячейка с;,, и счетчик событий в ней увеличивается на единицу. В том случае, если событие X попадает за пределы области сетки, изменяются границы сетки.

В связи с тем, что в пространстве события распределены неравномерно, автором предлагается изменять размеры ячеек сетки таким образом, чтобы количество событий

в разных клетках было примерно одинаковым. Перестраивая сетку, вводится предположение, что события внутри каждой ячейки распределены с одинаковой плотностью.

Для реализации процесса адаптации в работе предложен следующий алгоритм. Вводится 2 множества Л, = (г,,,...,'ц ),Л2 =('*21,...,/'2л2 где - сумма событий ву'-ом

ряду клеток 1-ой размерности: = ^ак/, = Тогда среднее число событий в

/¡=1 /Ы

- 1 "'

ряду клеток одной размерности: п =—, / = 1,2. Вводится функция плотности

я, ^

распределения событий в ряду по одной размерности:

Л = , \ . / = ' = 1>2. (7)

Лмч -/V/

В качестве конкретного вида весовой функции выбирается (4). В работе проводится адаптация по всем размерностям и строится новая сетка, в которой количество событий в каждой клетке примерно одинаково.

На рис. 4 представлен пример построения адаптивной сетки, совмещенной с пространством случайных событий. По осям Xи К- выбранные характеристики событий, темный цвет - клетки с высокой плотностью событий, светлый - с низкой, кружки -отдельные события (черные - нормальные события, белые - аномальные).

о ] I

Рис. 4. Пример построения адаптивном сетки

Примечательно, что атаки попадают в области с низкой плотностью, а почти все нормальные события - в области с высокой плотностью. Поэтому для их разделения вводится пороговое значение плотности (рд) клетки в пространстве характеристик, вычисляемое как р„- к ■ max (а;;), где max {ац) - показатель плотности ячейки с максимальной величиной, к - коэффициент плотности распределения событий в клетке. Тогда ячейки, величина плотности (6) которых превышает р0> считаются нормальными, остальные признаются аномальными и если очередное событие по (7) помещается в аномальную ячейку, то оно классифицируется как атака.

С ростом числа анализируемых событий возрастает и нагрузка на вычислительные ресурсы и в особенности, когда речь заходит о сетевых узлах с высокой интенсивностью передачи данных. В этой связи возникает необходимость сокращения

числа рассматриваемых характеристик сетевых событий до оптимально необходимого без существенной потери значимой информации. Для этих целей предлагается использование универсального метода поиска ортогональных проекций - преобразования Капхунеиа-Лозва. хорошо зарекомендовавшее себя. Сама же задача метода поиска проекций с наибольшим рассеянием сводится к выявлению такого ортогонального преобразования в новую систему координат, для которого были бы верны следующие условия: 1) выборочная дисперсия данных вдоль первой координаты максимальна; 2) выборочная дисперсия данных вдоль второй координаты максимальна при условии ортогональности первой координате; 3) выборочная дисперсия данных вдоль значений к-ой координаты максимальна при условии ортогональности первым к-1 координатам. Главные компоненты, соответствующие большим собственным значениям (СЗ), в основном, связаны с регулярными зависимостями сетевых характеристик друг от друга; соответствующие малым СЗ - связаны со случайными несущественными отклонениями. Поэтому отмечается, что наиболее эффективно использование компонент, соответствующих середине интервала СЗ.

Далее в третьей главе проводится обсуждение подходов для оценки эффективности выявления сетевых аномалий методом адаптнвных сеток, а именно алгоритм и тестовые данные для оценки. Анализу подвергаются два набора тестовых данных - стандарт «де факто» KDD CUP'1999 (V Международная конференция «Knowledge Discovery and Data Mining») и современная модификация этого набора данных - NSL-KDD '2009. Эти данные были получены благодаря стараниям М. Тавали и Е. Багери в 2009 г., которые предложили обновить KDD CUP'1999, оставив в нем лишь актуальные атаки, параллельно избавив его от недостатков, отмеченных в 2000-е гг. Таким образом, в качестве тестовых данных для экспериментальных исследований предлагается использование KDD CUP'1999 и NSL-KDD'2009, а в качестве алгоритма оценки эффективности метода адаптивных сеток - ROC кривые. Данный термин возник в теории сигналов и является графической интерпретацией зависимости между чувствительностью (или относительным числом правильных срабатываний, TPR) исследуемой системы и ее тревожностью (или относительным числом ложных срабатываний, FPR) при изменении пороговых параметров анализируемого метода. Формулы для построения ROC кривых представлены ниже:

TP FP

TPR = ——-, FPR = ———, (8)

TP + FN FP + TN

где TP - число выявленных аномалий, FN - пропущенных аномалий,

FP-ложных срабатываний, TN - верно отмеченных событий как нормальных.

При построении ROC кривых в качестве варьируемого параметра метода адаптивных сеток используется значение пороговой плотности (р0).

Решение задачи об учёте заданного числа последних событий осуществляется на основе метода весовых функций, для чего используется вырезающее окно за выбранный промежуток времени. Вводится весовая функцию F(z) и значения сетевых характеристик fV(N) вычисляется по формуле:

1=1

где TV - номер события, т„ - параметр, задающий количество событий, учитываемых при вычислении функции, X/ - событие, Д*) - общий вид функции, выделяющей характеристику события Xi.

Наличие аргумента у величины ЩИ) говорит о том, что значение локальной характеристики вычисляется вблизи //-го события потока и размер выборки, для которой находится эта величина, определяется видом весовой функции и значением ее параметра. Использование весовых функций позволяет выделять из всей последовательности характеристик подпоследовательности меньшего размера. Если совокупность характеристик последовательности событий учитываются при помощи накапливающих параметров (например, сумма событий в отдельной ячейке сетки), то подходящий выбор весовых функций позволяет существенно упростить и повысить эффективность процесса вычислений.

Сбор всех доступных сетевых характеристик

Выделение некоррелирующих характеристик, отбрасывание коррелирующих

Представление сетевых характеристик в виде кончен ого набора весовых коэффициентов

Выделение нормальных и аномальных событий

Обнаруженные сетевые атаки | I ^ | Запись в журнал сетевых атак

Рис. 5. Схема взаимодействия метода адаптивных сеток с методом весовых

функций

Общая предлагаемая схема взаимодействия метода адаптивных сеток с методом весовых функций и преобразованием Кархунена-Лоэва представлена на рис. 5.

Исходный сетевой трафик

Преобразование Кархунена-Лоэва j (

Метод весовых функций

Метод адаптивных сеток

Четвертая глава

В четвертой главе рассматриваются вопросы практической реализации и внедрения метода весовых функций, оценка технического эффекта от его использования. Проводится экспериментальная оценка точности и эффективности работы метода адаптивных сеток на основе наборов данных KDD CUP'1999 и NSL-KDD'2009, используя ROC кривые по схеме, предложенной в главе 3. В заключении описываются программные решения, реализующие все предложенные в работе методы.

Применение весовых функций в случае вычислении локальных статистических характеристик в сети на примере распределения временных интервалов между

пакетами

Вначале рассматривается применение весовых функций в случае вычислении локальных статистических характеристик в сети на примере распределения временных интервалов между пакетами. Результат расчета весовых функций в реальном масштабе времени для определения заданной характеристики сетевых пакетов приведен на рис. 6: пунктиром обозначена функция (4), темно-серым цветом - функция (5) и черным цветом - точное значение средней величины.

В табл. 1 приведено сравнение точности при вычислении выбранной сетевой характеристики (средняя величины временных интервалов между пакетами) за различные интервалы времени, используя точное значение (с хранением информации о всех событиях в оперативной памяти) и весовые функции (с хранением в памяти ограниченного набора весовых коэффициентов). В табл. 2 представлено сравнение ресурсо-эффективности при вычислении выбранной сетевой характеристики за различные интервалы времени, при этом число значений - информация, которую требуется хранить в памяти, число операций - количество арифметических действий, требующихся для пересчета весовых коэффициентов при поступлении очередного события, точность -относительная точность расчета. Делается вывод, что использование тригонометрических соотношений дает более точный результат, но имеет большие накладные вычислительные расходы, чем при расчете, используя экспоненциальные соотношения. При этом технический эффект от использования весовых функций может составлять гигабайты сэкономленной памяти (при повышении нагрузки на процессор) для хранения сетевых событий в случае вычисления многомерных характеристик за обширные интервалы времени.

Рис. 6. Результат расчета весовых функций в реальном масштабе времени

Таблица 1

Точность вычисления заданной сетевой характеристики на различных интервалах времени, используя предложенные весовые функцни двух типои

Интервал времени Способ вычисления \ Минута, мсек Час, мсек Сутки, мсек Абсолютная 1 погрешность вычислений, мсек ] ■ относи- ; тельная погрешность ; вычислений, 1 %

Точное значение 2720.570 2367.860 2747.91 0 0

Экспоненциальное соотношение (4) 2770.256 2520.106 2815.324 89.784 3.135

Тригонометрическое соотношение (5) 2760.069 2451.742 2755.965 43.812 1.657

Таблица 2

Накладные расходы при вычислении заданной сетевой характеристики

на различных интервалах времени, используя приложенные весовые функции

11 нтервал иремепп Точная величина Экспоненциальные соотношения (4), р = 5 Тригонометрические соотношения (5), 4 = 5

Число значений Число значений Число операг/ий Точность, % Число значений Число операций Точность, %

Минута 400 13 115 2,4 25 175 1,1

Час 24 ООО 13 115 2,1 25 175 1

Сутки 576 ООО 13 115 1,8 25 175 0,9

Отметим, что использование весовых функций для некоторых интервалов времени накладывает неоправданно высокие вычислительные издержки и существует некоторая эмпирическая величина Т„ф„ определяющая минимальный интересы времени для которого актуально использование весовых функций. В работе изложены подробные рекомендации по оценке этого интервала. Также в диссертации выявлена тесная связь между показателями погрешности и экономии памяти предлагаемых в работе весовых функций и даны рекомендации по выбору их оптимального соотношения.

Применение весовых функиий в случае статистического анализа сетевых данных на примере метода распределения по 1Р-адресам

Далее в четвертой главе рассматривается применение весовых функций в случае статистического анализа сетевых данных на примере метода распределения по 1Р-адресам. Обсуждаются исходные положения разработанного метода распределения по 1Р адресам, подробно рассматривается техника его построения, проводится оценка и сравнение различных критериев согласия для проверки выдвигаемой гипотезы об отсутствии аномалий в сети.

Работа метода основана на том, что в момент времени, соответствующий поступлению Л/-ого пакета из сети, имеются данные о частотах распределения X, последних п пакетов по адресам источника и/или назначения и производится упорядочивание этих частот в порядке убывания:

Х(Ы) = (Х1,Х2,...,Хт), т<п (9)

Каждый такой т-мерный вектор рассматривается как характеристика текущего события. Вводится вектор, состоящий из усредненных компонент вектора (9) за продолжительный интервал времени, предположительно соответствующий базовому профильному значению:

Г(Л?)=(У;,г2,...Д„о), тс <п (Ю)

Относительно сетевого трафика в работе делается предположение, что количество аномалий в нем незначительно, в соответствии с положениями подхода с обучением «без учителя». Общий вид формулы для расчета компонент (10) имеет вид:

У1=±Р{{Ы-к)1пх)х:, (И)

ы

где X* - значение, соответствующее /-ой компоненте ¿-ого события ДАО- В качестве конкретного вида весовой функции Р'(г) выбирается (5). Схема взаимодействия метода весовых функций с методом распределения по 1Р адресам приведена на рис. 7.

Исходный сетевой трафик

Г

Метод весовых функций

Метод распределения по 1Р адресам

Обнаруженные сетевые атаки

Сбор всех доступных сетевых характеристик

Представление сетевых характеристик в виде конченого набора весовых коэффициентов

Выделение нормальных и аномальных событий

Запись в журнал сетевых атак

Рис. 7. Схема взаимодействия метода распределения по 1Р адресам с методом весовых функций

Для исследований была использована ЛВС Южного федерального университета Результат вычисления глобальной и локальной характеристик потока пакетов в сети представлен на рис. 8. На приведенной гистограмме белые столбики соответствуют глобальной, а черные - локальной характеристикам, при этом по оси абсцисс заданы номера соответствующих компонент (9) и (10), а по оси ординат - их значения.

Отмечается, что при построении профиля системы старые соединения могут рваться, а новые - устанавливаться, но это сильно не изменит вида гистограммы. Для проверки гипотезы, заключающейся в том, что выборки

Х[Щ=[Х1,Х2,...,Хт) и У{И) = {Ух,У2,...,У„1а] соответствуют одной и той же

функции распределения пакетов в сети по адресам источников (т.е. факта отклонения профиля системы от нормы) в работе предлагается использовать критерий согласия Пирсона. Для этого частоты (10) распределяются по 6 группам 1 < $ <6, причем так, чтобы количество пакетов в разных группах было примерно одинаковым.

К У

I

Рис. 8. Результат вычисления глобальной и локальной характеристик в сети

Частоты (9) распределяются по тем же группам : 1 < 5 < 6. Для численной оценки выдвинутой гипотезы используется статистика:

Л=1 *ь

Статистика (12) подчиняется стандартному ^-распределению с 5-ю степенями свободы и уровень значимости можно задавать, сообразуясь с решаемой задачей, используя табличные значения статистики.

Другой способ сравнения в работе локальной и глобальной характеристик связан с использованием критерия согласия Колмогорова-Смирнова. Проверка гипотезы, используя критерий согласия Колмогорова при заданном уровне значимости а, приводит к необходимости нормировки выборок (9) и (10).

»1

Вычисляются Хг = и рассматриваются вектора:

/=! (=1

Х*(Н) = {Х1ХЪ...,Х1), где = где ^ А

Далее вводятся функции и анализируется покомпонент-

¡=1 ¡=1

ный модуль разности этих рядов, в результате выбирается наибольшее значение О =шах|/%г —Далее оценивается значение характеристики =/>„■>/«. В работе указывается, что при больших п: < 2} « , где £>(Л)-функция распределения Колмогорова. Если данная величина превышает пороговое значение, заданное пользователем по таблицам в соответствии с решаемой задачей, это будет говорить о неверности выдвинутой ранее гипотезы.

критическая граница характеристики Колмогорова; 2 - критическая граница характеристики^2 ; 3 - характеристика Колмогорова; 4-характеристика £ Рис. 9. Сравнение критериев согласия

На рис. 9 представлен фрагмент сетевого трафика, собранного в ЛВС 10ФУ, в котором содержалась атака, успешно проведенная с нескольких 1Р-адресов, расположенных в Канаде (Калгари), США (Потвин, Толедо, МкВинвилл) и Китае (Бейджинг)

с компьютеров жертв, на которых были предустановленны ЬоЮОоБ-модули. Возможно, заражение происходило с одного веб-ресурса Интернета. Данное злоупотребление предварялось замаскированным и растянутым в течение часа сканированием открытых портов ранним утром. Для анализа представленного набора данных был использован метод распределения по 1Р адресам источника на основе весовых функций по двум критериям согласия - Пирсона и Колмогорова-Смирнова. Временное окно было выбрано продолжительностью один час (или около 38 ООО событий). Как видно из рисунка, оба критерия своевременно подали сигнал о совершении атаки. Также в четвертой главе обсуждается выбор уровня значимости для каждого из критериев для более качественного выявления сетевых атак.

Отметим, что применение метода весовых функций к методу распределения по 1Р адресам в приведенном выше примере позволило сэкономить используемую память. Из таблицы 3 следует, что экономия памяти составила порядка 1500 раз, а погрешность приближения практически не отразилась на результативности выявления атак, что дает основания говорить о существенном положительном эффекте от использования весовых функций при выявлении аномальной сетевой активности методами статистического анализа.

Таблица 3

Сравнение экономии вычислительных ресурсов при выявлении аномалий методом распределения по 1Р адресам с использованием весовой функции (11) и

п | и! м bijiii ыч и слеш i с м в се х значении

Прямое вычисление Весовая функция

Число значений Число операций TPR FPR Число значении Число операции TPR FPR

38 250 4 90,1% 11,3% 25 175 88.5% 11,5%

Применение весовых функций в случае кластерного анализа сетевых данных на примере метода адаптивных сеток

Исследования метода адаптивных сеток проводилось, используя набор тестовых размеченных данных KDD CUP4999 и NSL-KDD'2009, обсуждаемых в третьей главе. Так на рис. 10 изображены ROC кривые, иллюстрирующие эффективность обнаружения атак методом адаптивных сеток в сравнении с методами, разработанными победителями K.DD CUP'1999. Как видно из рисунка, метод адаптивных сеток дает высокий показатель выявления аномалий уже при малой величине ложных тревог, а его эффективность сравнима с лучшими методами выявления аномалий.

Рис. 10. График ROC кривых для различных методов выявления вторжений

Известно, что средний уровень падения точности распознавания атак для одних и тех же методов на наборе данных Ы5ь-К00'2009 по сравнению с КЭО С11РЧ999 составляет 33,4%. И как видно из рис. 11, метод адаптивных сеток на Ы5ь-К00'2009 также демонстрирует тенденцию, сравнимую с наиболее популярными на сегодня методами (опорными векторами и нейронными сетями). Таким образом, можно говорить о том, что метод адаптивных сеток обладает высокой эффективностью обнаружения современных видов сетевых аномалий.

Применение весовых функций в случае кластерного анализа сетевых данных на примере метода адаптивных сеток также дает существенный положительный эффект в виде экономии вычислительных ресурсов. Результаты сравнения экономии вычислительных ресурсов при выявлении аномалий методом адаптивных сеток, используя весовые функции и прямое вычисление, приведено в табл. 4. Исследования проводились на наборе данных 1ШО СиР'1999, используя временное окно продолжительностью несколько часов. Заметим, что результаты тестирования на Ы8ь-К00'2009 дают аналогичный результат. Как видно из таблицы, экономия памяти составила порядка 500 раз, а погрешность приближения практически не отразилась на результативности выявления атак, что дает основания говорить о существенном техническом преимуществе от использования весовых функций при выявлении аномальной сетевой активности современными кластерными методами.

Адаптивная сетка Л Адаптивная сетка

■ на НСД-KDD на NSL-KDD

Рис. 11. График ROC кривых выявления аномалий методом адаптивных сеток на наборах данных KDD CUP'1999 и NSL-KDD'2009

Таблица 4

Сравнение экономии вычислительных ресурсов при выявлении аномалий методом адаптивных сеток с использованием весовых функций (5) и прямым вычислением всех значений _

Прямое вычисление Весовые функции

Число значений Число операций TPR FPR Число значений Число операций TPR FPR

133 350 40 95,3% 10% 250 1 750 93.3% 10%

В заключении четвертой главы приводится краткое описание всех разработанных в ходе диссертационного исследования программных решений, реализующих предложенные алгоритмы и методы.

Так, обзору подвергается программа для определения статистических характеристик WFStatistic, позволяющая строить графики некоторых характеристик сети и их обобщенных значений. Вся информация, включая сведения о сэкономленных вычислительных ресурсах, выводится на экран. В процессе работы над диссертацией была создана еще одна программа StatDistAnalysis, которая позволяет строить гистограммы распределения пакетов по адресам источников и назначения и анализировать различные сетевые характеристики, используя весовые функции. При этом разработанная программа может самостоятельно генерировать сообщения об аномалиях и записывать их в журнал событий. В качестве источника данных выступают журналы сетевой активности tcpdump и windump.

Рис. 12. Интерфейс работы программы/! daptiveGridA п a lysis

В рамках диссертационного исследования была также разработана учебно-демонстрационная программа AdaptiveGridAnalysis. Идея, которая лежит в ее основе -кластеризация сетевых пакетов методом адаптивных сеток на основе весовых функций для последующего выявления аномалий. AdaptiveGridAnalysis позволяет устанавливать различные фильтры: можно анализировать отдельные протоколы или службы, как, например, HTTP, ICMP, AOL, BGP, FTP, SMTP и многое дру roe. В качестве источника сетевых данных могут выступать журналы сетевой активности tcpdump и windump, или наборы данных KDD CUP'1999 в NSL-KDD'2009 с размеченными атаками (что позволяет строить ROC кривые). Пример работы программы приведен на рис. 12.

Заключение

В заключении работы изложен основной научный результат диссертации и, в свою очередь, сформулированы важнейшие теоретические и прикладные результаты, полученные в ходе научного исследования.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В работе решена актуальная научная задача совершенствования методов интеллектуального анализа данных, позволяющих повысить эффективность выявления аномальной сетевой активности, и создания математического аппарата весовых функций, обеспечивающих снижение нагрузки на вычислительную систему за счет компактного представления анализируемой информации.

При проведении исследовательской работы по теме данной диссертации были получены следующие результаты:

1. Проведен анализ существующих методов выявления аномалий и интеллектуального анализа данных, выявлены наиболее перспективные направления их совершенствования, а также взаимосвязь между высокими требованиями современных систем обнаружения вторжений к системным ресурсам и их эффективностью.

2. Разработан новый математический аппарат весовых функций, позволяющий создать основу для повышения эффективности существующих методов выявления аномальной сетевой активности за счет существенной экономии используемой памяти. В качестве примера рассмотрен случай вычисления усредненной величины анализируемой выборочной функции. Особенно актуально применение весовых функций оказывается при вычислениях, осуществляемых в реальном масштабе времени, за счет снижения нагрузки на ресурсы вычислительного оборудования и уменьшения вероятности сбоя или пропуска событий, благодаря компактному представлении сетевых данных. Предлагаемый подход позволяет компактно представлять как одномерные, так и многомерные статистические характеристики неограниченного числа сетевых событий, используя ограниченные набор коэффициентов. При этом, чем большее количество коэффициентов используется, тем, с одной стороны, выше точность метода, а с другой, больше нагрузка на вычислительные ресурсы; таким образом, в зависимости от решаемой задачи, предоставляется возможность варьировать соотношение скорости и точности, что повышает универсальность подхода. В исследовании проведено обоснование использования в качестве весовых функций экспоненциальных и тригонометрических соотношений для вычисления выборочного среднего, при этом для экспоненциальных соотношений делается дополнительное предположение о соответствии сетевого трафика модели Пуассона. Для такого случая и были выведены с математической строгостью рекуррентные зависимости весовых функций, кроме того, в главе дана теоретическая оценка сходимости использованных весовых функций к точным значениям и оценка погрешности, возникающей при их использовании.

3. Разработана оригинальная сеточная модель кластерного анализа сетевых данных на основе адаптивных сеток. Адаптация проводится, используя функцию распределения событий в клетках. Преимуществами предлагаемой модели является минимум свободных параметров, высокая производительность, однопроходность, возможность использования метода весовых функций, что повышает его универсальность. В данном подходе также предлагается использование хорошо зарекомендовавшего себя преобразования Кархунена-Лоэва, позволяющего снизить размерность пространства характеристик с одновременным выделением наиболее значимой информации. Метод адаптивных сеток является обучаемым «без учителя» и использует для построения базового профиля системы «сырой» набор данных, что исключает трудную задачу очистки данных от атак.

4. Разработана новая техника выявления аномальной сетевой активности - метод распределения событий по IP адресам. Его особенностью является выявление сетевых атак на основе построения базового профиля «без учителя», используя различные критерии согласия. Для построения нормального профиля функционирования системы используется минимум информации - данные о распределении сетевых пакетов по IP адресам.

5. Разработаны программные реализации всех предложенных методов и алгоритмов, которые позволяют оценить эффективность выявления сетевых атак как на синтетических, так и на реальных данных, а также имеют функцию ведения журнала сетевых аномалий.

6. Проведены как теоретические, так и экспериментальные оценки точности и эффективности всех предложенных методов, выявлен положительный практический эффект от их использования. Так, на примере разработанных методов показано, что применение весовых функций позволяет экономить оперативную память вычислительной системы при малой потере эффективности обнаружения аномалий и незначительном увеличении потребления процессорного времени. Получены результаты из которых следует, что эффективность схемы на основе метода адаптивных сеток превышает эффективность многих существующих алгоритмов выявления аномальной сетевой активности, таких как Canberra, ¿-ближайших средних и других при оценке синтетической методикой тестирования на наборах данных KDD CUP'1999 и NSL-KDD'2009.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ

Публикации в ведущих рецензируемых изданиях, рекомендуемых ВАК РФ

1. Карайчев Г.В. Нестеренко В.А. Применение весовых функций для определения локальных статистических характеристик потока пакетов в сети. // Известия высших учебных заведений. Северо-Кавказский регион. Естественные науки. -Ростов н/Д, 2008. № 1. С. 10-14.

2. Карайчев Г.В. Выявление аномальной активности методом адаптивных сеток. // Известия ЮФУ. Технические науки. Тематический выпуск. «Информационная безопасность». - Таганрог: ТТИ ЮФУ, 2009. №11 (100). С. 84-92.

3. Карайчев Г.В. Нестеренко В.А. Выявление аномальной активности в сети методами статистического анализа заголовков IP-пакетов. // Известия высших учебных заведений. Северо-Кавказский регион. Естественные науки. 2010. №4. С. 13-17.

Публикации в других изданиях

4. Карайчев Г.В. Использование распределения пакетов по IP-адресам для определения аномального поведения потока пакетов в сети. // Тезисы докладов научно-технической конференции «Информационные системы и технологии 2007». Обнинск: Обнинский институт атомной энергетики, 2007. С. 60-61.

5. Карайчев Г.В. Нестеренко В.А. Использование распределения пакетов по IP-адресам для определения аномального поведения потока пакетов в сети. // Материалы IX Международной научно-технической конференции «Информационная безопасность». Таганрог: ТТИ ЮФУ, 2007. С. 203-206.

6. Карайчев Г.В. Нестеренко В.А. Распределение пакетов по IP-адресам для определения аномального поведения потока пакетов в сети. // Научно-практический журнал «Информационное противодействие угрозам терроризма», № 11.

М.: ФГПУ НТЦ, 2008. С. 189-194. URL: http://www.contrterror.tsure.ru/ /www/magazine 11/07-21 .htm (Дата обращения: 01.12.2008).

7. Карайчев Г.В. Выявление сетевых вторжений методом кластеризации данных с использованием адаптивных сеток // Труды аспирантов и соискателей ЮФУ, Том XIV. - Ростов н/Д: ИПО ПИ ЮФУ, 2009. С. 29-33.

8. Карайчев Г.В. Выявление аномальной активности методом адаптивных сеток // Материалы 1 Всероссийской молодежной конференции по проблемам информационной безопасности «ПЕРСПЕКТИВА-2009». Таганрог: ТИ ЮФУ, 2009. С. 116-122.

9. Карайчев Г.В., Нестеренко В.А. Применение весовых функций к методу адаптивных сеток при совместном использовании с методом распределения по IP-адресам. // Материалы XI Международной научно-технической конференции «Информационная безопасность». Таганрог: ТИ ЮФУ, 2010. Т. 2. С. 41^46.

10. Карайчев Г.В. Сравнение метода кластеризации данных с методом распределения пакетов по IP-адресам. // Труды аспирантов и соискателей ЮФУ, Том XV. -Ростов н/Д: ИПО ПИ ЮФУ, 2010. С. 35-38.

11. Карайчев Г.В., Нестеренко В.А. Применение весовых функций к методу адаптивных сеток при совместном использовании с методом распределения по IP-адресам. // Научно-практический журнал «Информационное противодействие угрозам терроризма», № 14. М.: ФГПУ НТЦ, 2010. С. 116-121. Систем, требования: Adobe AcrobatReader. URL: http://www.contrterror. tsure.ru/www/magazinel4/ PDF/29.pdf (Дата обращения: 03.02.2011).

Сдано в набор 25.10.2011. Подписано в печать 25.10.2011. Формат 60x84 1/16. Цифровая печать. Усл. печ. л. 1,0. Бумага офсетная. Тираж 130 экз. Заказ 2510/01.

Отпечатано в ЗАО «Центр универсальной полиграфии» 340006, г. Ростов-на-Дону, ул. Пушкинская, 140, телефон 8-918-570-30-30

www.copy61.ru e-mail: info@copy61.ru

Оглавление автор диссертации — кандидата технических наук Карайчев, Глеб Викторович

ОГЛАВЛЕНИЕ.

ВВЕДЕНИЕ.

Актуальность темы исследования.

Цель работы.

Научная задача.

Задачи исследования.

Объект исследования.

Предмет исследования.

Методологическая основа исследования.

Информационная база исследования.

Научная новизна работы.

Основные положения, выносимые на защиту.

Практическая ценность работы.

Достоверность и обоснованность научных положений и результатов.

Реализация и внедрение результатов.

Апробация работы.

Личный вклад автора.

Публикации.

Структура и объем диссертации.

ГЛАВА 1. АНАЛИЗ СУЩЕСТВУЮЩИХ СИСТЕМ ОБЕСПЕЧЕНИЯ СЕТЕВОЙ БЕЗОПАСНОСТИ И РАЗВИТИЯ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ.

1.1. Анализ первых работ в области обнаружения вторжений.

1.2. Анализ работ в области интеллектуального анализа данных.

1.3. Анализ работ по проблеме выявления аномальной активности.

Особенности современных методов обнаруэ/сения вторжений.

Общие принципы методов выявления аномальной активности.

Выявление аномальной активности с обучением «без учителя».

Статистические методы выявления аномалий.

1.4. Анализ работ по проблеме уменьшения размерности вероятностного пространства характеристик.

1.5. Анализ работ в области оценки эффективности существующих систем и методов обнаружения вторжений.

1.6. Выводы по первой главе.

ГЛАВА 2. РАЗРАБОТКА МЕТОДА ВЕСОВЫХ ФУНКЦИЙ ДЛЯ КОМПАКТНОГО ПРЕДСТАВЛЕНИЯ НАБОРА СЕТЕВЫХ ХАРАКТЕРИСТИК.

2.1. Введение в метод весовых функций.

2.2. Весовая функцшьна основе экспоненциальных соотношений.

2.3. Весовая функция на основе тригонометрических соотношений.

2.4. Исследование сходимости весовых функций к точной величине— тета-функции.

2.5. Исследование погрешности, возникающей при использовании весовых функций.

2.6. Выводы по второй главе.

ГЛАВА 3. РАЗРАБОТКА МЕТОДА АДАПТИВНЫХ СЕТОК

ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОЙ СЕТЕВОЙ АКТИВНОСТИ.

3.1. Основные понятия метода адаптивных сеток.

3.2. Снижение размерности пространства сетевых характеристик, используя преобразование Кархунена-Лоэва.

3.3. Обсуждение набора тестовых данных для оценки эффективности выявления сетевых аномалий методом адаптивных сеток.

3.4. Применение метода построения ROC кривых для оценки эффективности выявления сетевых аномалий методом адаптивных сеток.

3.5. Применение весовых функций к методу адаптивных сеток.

3.6. Выводы по третьей главе.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ РАЗРАБОТАННЫХ МЕТОДОВ И ОЦЕНКА ИХ ПРАКТИЧЕСКОЙ ЗНАЧИМОСТИ.

4.1. Применение весовых функций в случае вычислении локальных статистических характеристик в сети на примере распределения временных интервалов между пакетами.

4.2. Применение весовых функций в случае статистического анализа сетевых данных на примере метода распределения по IP-адресам.

Применение критерия согласия Пирсона при оценке распределения событий по IP адресам.

Применение критерия согласия Колмогорова-Смирнова при оценке распределения по IP адресам.

Сравнение эффективности критериев согласия Пирсона и Колмогорова-Смирнова на тестовых данных.

4.3. Применение весовых функций в случае кластерного анализа сетевых данных на примере метода адаптивных сеток.

4.4. Программная реализация предлагаемых методов.

Программа статистики на основе весовых функций.

Программа для анализа статистического распределения.

Программа анализа адаптивными сетками.

4.5. Выводы по четвертой главе.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Карайчев, Глеб Викторович

Актуальность темы исследования

В последнее десятилетие обработка и эффективное использование информации стало невозможным, без использования современных вычислительных технологий. В то же время произошло и резкое увеличение числа преступ1 лений, связанных с атаками на информационные компьютерные системы, попыток фальсификации, кражи, искажения критически важных цифровых данных. По этой причине все больше компаний внедряют серьезные меры по обеспечению своей информационной безопасности, но применяемые меры не спасают, по приблизительным оценкам, каждую десятую компанию. Многие исследователи констатируют, что в настоящее время не существует универсальной системы или подхода, позволяющей выявлять все виды неизвестных вторжений. Усугубляет ситуацию непостоянное появление новых видов атак, в связи с чем дальнейшее совершенствование сигнатурных методов выявления злоупотреблений стало невозможным без дополнения их методами интеллектуального анализа данных (НАД). При этом, говорить о полной безопасности сетевых систем все равно не приходится; можно говорить лишь о заданном уровне вероятности, что очередная атака не будет успешной. Большая* актуальность состоит в повышении данной вероятности в условиях того, что задача распознавания сетевых злоупотреблений до сих пор не решена. Это следует из того, что общая задача проверки функциональной эквивалентности программ относится к числу алгоритмически неразрешимых проблем. Следовательно, требуется повышать инструментарий для обнаружения аномалий, дополняя современные системы обнаружения вторжений (СОВ) новыми методами выявления сетевых атак.

Разработкой СОВ занимается много компаний, однако большинство предлагаемых ими решений являются коммерческой тайной и их воссоздание или модифицирование, зачастую, практически невозможно. По этой причине большую теоретическую и практическую ценность имеет разработка и програлшная реализация эффективных методов обнаружения новых видов атак на основе методов ИАД, успешно конкурирующих с «закрытыми» аналогами, но при этом имеющих открытый программный код и подробно описанный алгоритм функционирования.

Современные методы, анализирующие статистическое состояние системы и воспроизводящие ее нормальный профиль функционирования, имеют дело с I данными, накопленными за продолжительный период времени, и обновляются в реальном времени по мере поступления новых событий. Однако они работают не с самими характеристиками событий, а с их обобщенными выборочными значениями, такими как средняя величина, среднеквадратичное отклонение и др:, т.е. параметрами накапливающего типа. Таким образом; в процессе прямого вычисления сетевых характеристик и хранении их в памяти за продолжительные интервалы времени, нагрузка на компьютерную систему, занимающуюся ИАД, сильно возрастает, что приводит к «пропусканию»- некоторых событий, которые могут являться ключевыми, и,общем замедлении реакции СОВ. Необнаруженные или не вовремя обнаруженные события являются причиной серьезных информационных и финансовых потерь. Повышение нагрузки на системные ресурсы становится еще больше, когда, имея сетевые данные за определенный интервал времени, возникает необходимость рассчитать некоторые характеристики за иной период на основе этих данных. Например, для выявления циклических колебаний нагрузки на сеть, связанных с чередованием рабочих, выходных дней, времени суток и т.п. потребуется'наряду с анализом недельных и дневных графиков»учитывать и часовые, минутные графики. Другими словами, потребуется, использовать специальное окно, «вырезающее» интересующий нас произвольный интервал времени из набора собранных данных. В подобных ситуациях в обязательном порядке придется хранить в памяти и все, анализируемые по заданному интервалу времени, сетевые события. В' связи с этим трудно переоценить актуальность создания математического алгоритма, позволяющего компактно представлять большие объемы сетевых характеристик, поступающих и обрабатываемых в реальном масштабе времени, и за счет этого снизить нагрузку на вычислительные ресурсы (оперативную память, кэш-память, дисковые накопители) и повысить реактивность СОВ.

Цель работы

Целью диссертационного исследования является разработка и развитие методов эффективного представления сетевых характеристик при выявлении аномальной сетевой активности, используя интеллектуальный анализ данных.

Научная задача

Научная задача состоит в: создании нового математического аппарата весовых функций; обеспечивающего снижение потребления памяти.

Задачи исследования

Поставленные цели обуславливают; необходимость решения следующих задач: '

1. Провести анализ предметной; области, изучить существующие подходы к обеспечению информационной безопасности в: сети, выявить перспективные направления методов интеллектуального анализа данных.

2. Разработать новый математический аппарат для- вычисления, специальных видов весовых функций; позволяющих компактно представлять сетевые данные в реальном масштабе времени, определить исходные положения метода, провести оценку его погрешности.

3. Разработать на* основе аппарата предложенных весовых функций новые и усовершенствовать существующие методы интеллектуального анализа данных с обучением «без учителя», выявляющие аномальную сетевую активность.

4. Разработать программную реализацию всех предложенных методов и алгоритмов:

5. Провести теоретическую и практическую оценку эффективности всех предложенных в диссертационном исследовании методов на основе весовых функций, используя разработанные программные решения.

Объект исследования

Объектом исследования являются методы интеллектуального анализа данных, выявляющие аномальную сетевую активность.

Предмет исследования

В качестве предмета исследования выступают механизмы повышения эффективности существующих методов интеллектуального анализа данных, решающих задачи выявления аномальной сетевой активности.

Методологическая основа исследования

При решении поставленных в работе задач, были использованы методы математического анализа, дифференциального исчисления, аналитической геометрии, теории вероятности, математической статистики и кластерного анализа.

Информационная база исследования

При работе над диссертационным исследованием были использованы современные научные публикации по изучаемой проблематике. В качестве статистического источника данных были использованы базы КХ)Б СиР'1999 и N51.-КХШ'2009. Также был проведен собственный эксперимент по сбору, классификации и анализу сетевых событий в ЛВС одного из факультетов ЮФУ.

Научная новизна работы

Научная новизна диссертации определяется следующими положениями:

1. Разработан новый метод весовых функций на основе рекуррентных соотношений, избавляющий от необходимости хранения всех сетевых характеристик, позволяя держать в памяти и использовать лишь ограниченный набор параметров, при этом показатели метода не зависит от объема анализируемой информации.

2. Разработана новая сеточная модель кластерного анализа сетевых данных на основе адаптивных сеток и преобразования Кархунена-Лоэва, реализованная на основе предложенных весовых функций.

3. Разработан новый метод выявления аномальной сетевой активности на основе критериев согласия, использующий предложенный метод весовых функций, который позволяет строить нормальный профиль функциони рования сети только на основе распределения пакетов по 1Р адресам. N

Основные положения, выносимые на защиту

На защиту выносятся следующие основные научные положения:

1. Разработанный метод весовых функций позволяет в реальном масштабе времени компактно представлять последовательность наблюдаемых сетевых характеристик в виде ограниченного набора специальных коэффициентов.

2. Разработанный метод весовых функций позволяет варьировать точность и ресурсоемкость своей работы в зависимости от типа выбранной весовой функции и числа используемых специальных коэффициентов.

3. Разработанная сеточная модель кластерного анализа данных на основе адаптивных сеток и преобразования Кархунена-Лоэва, используя метод весовых функций при выявлении аномалий, в отличие от, аналогов, дает высокое число правильно выявленных сетевых атак уже при малой величине числа ложных тревог.

4. Разработанный метод выявления аномальной активности на основе критериев согласия, используя метод весовых функций, позволяет только по информации о распределении 1Р адресов выявлять сетевые аномалии с заданным уровнем значимости.

5. Экспериментальные оценки, подтверждающие эффективность разработанных и программно реализованных алгоритмов и методов.

Практическая ценность работы

Практическая полезность диссертации состоит в следующих аспектах:

1. Разработанный метод весовых функций может быть использован в широком спектре программно-аппаратных систем обнаружения вторжений, в которых ведется сбор и анализ большого объема статистических характеристик в реальном масштабе времени. При этом средняя погрешность при использовании предлагаемого математического аппарата не превышает 1%-3% в зависимости от типа весовой функций и размера ограниченного набора коэффициентов.

2. Разработанные методы выявления^ аномальной сетевой активности и их программная реализация могут быть использованы при усовершенствовании существующих систем'на1 основе интеллектуального'анализа данных. При этом метод адаптивных сеток обеспечивает 64.5% правильно выявленных аномалий уже при 1% ложных срабатываний системы, что превосходит показатели других методов.

3. Предлагаемые алгоритмы универсальны и могут быть с успехом использованы в различных областях науки и техники, в том? числе при интеллектуальном анализе финансовой, статистической информации, анализе текстов, при оценке подлинности-художественных произведений-и т.п.

Достоверность и обоснованность научных положений и результатов

Достоверность сделанных выводов и обоснованность научных положений подтверждается систематизацией значительного числа актуальных публикаций по исследуемой проблематике, обеспечивается повторяемостью результатов на больших объемах экспериментальных данных, обладающих репрезентативностью современных видов сетевых аномалий, что не противоречит строгим математическим выкладкам, сделанным в работе, и подтверждается апробацией всех научных результатов на всероссийских и международных конференциях.

Реализация и внедрение результатов

Положения,диссертации использовались в учебном процессе Южного федерального университета при чтении курсов «Защита информации в компьютерных сетях» и «Информационная безопасность и защита информации». Результаты диссертации приняты к внедрению в Федеральном государственном унитарном предприятии «Всероссийский научно-исследовательский институт "ГРАДИЕНТ"» (г. Ростов-на-Дону), Научно-производственном предприятии «"ТЕСТ" радиотехника специальные технологии» (г. Ростов-на-Дону), ООО «АРК Коммерсаль» (г. Москва). Также работа стала лауреатом ЮФУ и была использованы при подготовке конкурсной документации на грант в рамках ФЦП «Научные и научно-педагогические кадры инновационной России». Имеются соответствующие акты о внедрении.

Апробация работы

Результаты диссертационной работы были представлены и обсуждались на научно-технической конференции «Информационные системы и технологии 2007» (ИАТЭ, Обнинск, 2007); IX, XI международных научно-технических конференциях «Информационная безопасность» (ТРТУ, Таганрог, 2007, 2010); I Всероссийской молодежной конференции по проблемам информационной безопасности «ПЕРСПЕКТИВА-2009» (ТРТУ, Таганрог, 2009) на которой конкурсной комиссией доклад был признан лучшим и отмечен дипломом I степени.

Личный вклад автора

Все научные результаты получены автором лично.

Публикации

По теме диссертации опубликовано 11 научных работ, из них 3 статьи в журналах, рекомендованных ВАК.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения и списка литературы из 147 наименований.

Заключение диссертация на тему "Разработка и исследование метода весовых функций для решения задач интеллектуального анализа данных при выявлении аномальной сетевой активности"

4.5. Выводы по четвертой главе

Целью данной главы стала экспериментальная оценка эффективности всех предложенных в диссертации методов и алгоритмов. Для этого использовалось несколько эталонных наборов тестовых данных и разработанные в ходе исследования программы, реализующие все вышеизложенные алгоритмы. Набором данных выступали размеченные сетевые пакеты KDD CUP '99, набор размеченных сетевых пакетов NSL-KDD, журналы tcpdump, полученные в ходе собственного эксперимента в ЛВС ЮФУ.

Практические результаты дают основания утверждать, что использование весовых функций, предложенных во второй главе, позволяет существенно экономить вычислительные ресурсы системы за счет компактного представления сетевых данных, приводя к малым накладным расходам, выражающимся в 2-5% погрешности приближения. При этом увеличении экономии оперативной памяти ведет к некоторому увеличению нагрузки на процессор. На основании практических оценок также даны рекомендации по определению минимального интервала усреднения на котором актуально осуществлять вычисление весовых функций.

В главе было также показано, что метод адаптивных сеток, предложенный в третьей главе, по эффективности сравним с ведущими методами аномального анализа, давая высокий процент выявления сетевых атак уже при низком уровне ложных срабатываний, а применение к нему весовых функций позволяет экономить память в сотни раз при этом практически не снижая результативность обнаружения сетевых атак.

В данной главе был также предложен новый метод построения статистических характеристик потока 1Р пакетов — метода распределения по 1Р адресам, вычисляющий локальное и глобальное распределения сетевых данных по адресам источника и назначения. Гибкость в использовании различных критериев согласия, проверяющих гипотезу о том, что сделанные выборки соответствуют одной и той же базовой функции распределения, характеризующей нормальное состояние функционирования сети, позволяет адаптировать данный метод к выявлению различных техник сетевых атак. К данному методу был применен аппарат рекуррентных весовых функций, благодаря наличию у метода распределения по. 1Р адресам параметров накапливающего типа. В результате уровень распознавания атак существенно не изменился, а памяти для хранения сетевых характеристик было использовано в 1 500 раз меньше. г

ЗАКЛЮЧЕНИЕ

В работе решена актуальная научная задача совершенствования методов интеллектуального анализа данных, позволяющих повысить эффективность выявления аномальной сетевой-активности, и создания математического аппарата весовых функций, обеспечивающих снижение нагрузки на вычислительную систему за счет компактного представления анализируемой информации.

При проведении исследовательской работы по теме данной диссертации были получены следующие результаты:

Проведен анализ существующих методов« интеллектуального анализа данных, выявлены- наиболее перспективные направления его развития. Обнаружены повышенные требования современных GOB" к системным ресурсам и поставлена задача повышения эффективности их функционирования."

Разработан новы математический аппарат весовых функций, позволяющий создать основу для повышения- эффективности, существующих методов выявления аномальной сетевой активности. В> качестве примера рассмотрен случай вычисления среднеарифметического значения^ анализируемой,5 выборочной функции. Особенно, актуально применение весовых функций оказывается при вычислениях в реальном времени, оно позволяет снизить нагрузку на ресурсы вычислительного оборудования-и уменьшить вероятность сбоя или пропуска событий, благодаря компактному представлении сетевых данных. Предлагаемый подход также избавляет от необходимости хранить всю историю наблюдений, экономя, тем самым, память, благодаря использованию всего несколько весовых коэффициентов. При этом, чем-большее количество коэффициентов используется, тем, с одной стороны, выше точность метода, а с другой, больше вычислительная нагрузка; таким образом, в зависимости от решаемой задачи, предоставляется возможность варьировать соотношение скорости и точности, что повышает универсальность подхода.

Разработана сеточная модель кластерного анализа сетевых данных на основе адаптивных сеток. Адаптация проводится, используя функцию распреде ления событий в клетках. Преимуществами предлагаемой модели является минимум свободных параметров, высокая производительность, однопроходность, V возможность использования метода весовых функций, что повышает его универсальность. В данном подходе также предлагается использование преобразования Кархунена-Лоэва, позволяющего снизить размерность пространства характеристик с одновременным выделением наиболее значимой информации.

Разработана новая техника выявления» аномальной сетевой-активности — метод распределения событий по IP адресам. Его особенностью является выявление сетевых атак на основе построения базового профиля «без учителя», используя различные критерии согласия. Для построения нормального профиля функционирования системы используется минимум информации — данные о распределении IP адресов.

Экспериментально исследована эффективность схемы на основе метода адаптивных сеток. Были продемонстрированы' результаты, превосходящие эффективность многих существующих алгоритмов выявления аномальной сетевой активности, таких как Canberra, ^-ближайших средних и др. при оценке синтетической методикой тестирования! на наборе данных KDD CUP'1999 и NSL-KDD'2009. Метод адаптивных сеток является» обучаемым «без учителя» и использует для построения базового профиля системы «сырой» набор данных, что исключает трудную задачу очистки данных от. атак.

Разработаны программные реализации всех предложенных методов и алгоритмов, которые позволяют оценить эффективность выявления сетевых атак как на синтетических, так и на реальных данных, а также имеют функцию ведения журнала сетевых аномалий.

Проведены теоретические и экспериментальные исследования применения весовых функций к различным методам выявления сетевых, выявлен положительный практический эффект от их использования. Так, на примере разработанных методов адаптивных сеток и распределения по IP адресам показано, что применение весовых функций позволяет экономить вычислительные ресурсы системы при малой потере эффективности обнаружения аномалий.

Библиография Карайчев, Глеб Викторович, диссертация по теме Методы и системы защиты информации, информационная безопасность

1. Anderson J. Computer security threat monitoring and surveillance / James P. Anderson Co. USA, Washington PA: 1980.

2. Cohen F. Computer Viruses — Theory and experiments 11 Computers & Security. 1984. № 6. P. 22-35

3. Denning D., Neumann P. Requirements and model for ides a real-time intrusion detection system / Technical report ; computer science lab. SRI International: 1985.

4. Denning D. An intrusion detection model // In Proceedings of the Seventh IEEE Symposium on Security and Privacy. 1986. April. P. 118-131.

5. Lunt Т., Jagannathan R., Lee R., Llstgarten S., Neumann P., Javitz H., Valdes A. The IDES: the enhanced prototype a real-time intrusion-detection expert system / SRI-CSL-88-12 ; SRI Project 4185-010. SRI International: 1988. October.

6. Stephen S. Haystack: An intrusion detection system / The Fourth Aerospace Computer Security Applications Conference, Orlando, FL. 1988. December.

7. Vaccaro H., Liepins G. Detection of Anomalous Computer Session Activity / The 1989 IEEE Symposium on Security and Privacy. 1989. May.

8. Henry Т., Kaihu C., Stephen L. Adaptive Real-time Anomaly Detection Using Inductively Generated Sequential Patterns / 1990 IEEE Symposium on Security and Privacy. 1990.

9. Lunt Т., Tamaru A., Gilham F., Javitz H., Valdes A., Neumann P. A real-timeчintrusion-detection expert system / SRI-CSL-90-05 Technical report. SRI Inxternational: 1990. June.

10. Javitz H., Valdes A. The SRI IDES Statistical Anomaly Detector / IEEE Symposium on Security and Privacy. 1991.

11. Javitz H., Vadles A. The NIDES statistical component: description and justification / Technical report. SRI International: 1993.

12. Anderson D., Lunt Т., Javitz H., Tamaru A., Valdes A. Detecting unusual program behavior using the statistical component of the next-generation intrusion detection expert system (NIDES) / Technical Report; SRI-CSL-95-06. SRI International: 1995.

13. Anderson D., Frivold 71, Valdes A. Next-generation Intrusion Detection Expert System (NIDES): a summary / SRI-GSL-95-07; USA, Menlo Park, CA. SRI International: 1995. May.

14. Lane Т., Brodley C. Sequence matching and learning in anomaly detection for computer security // In Proceedings of the АААГ Workshop on AI Approaches to Fraud Detection and Risk Management. AAAI Press: 1997. P. 43-49.

15. Paxson V., Floyd S. Wide-area traffic: the failure of poisson modeling / IEEE ACM Transactions on Networking. 1995. Vol. 3. June.

16. Paxon V. Bro: a system for detecting network intruders in real-time // In Proceedings of the 7th USENIX Security Symposium, San Antonio, TX. 1998.

17. Брюхомицкий Ю.А. Учебное пособие «Нейросетевые модели для систем информационной безопасности» / Таганрог: ГОУ ВПО ТРТУ, 2005. 160 с.

18. Абрамов Е.С., Бабенко J1.K., Макаревич О.Б., Пескова О.Ю. Разработка архитектуры СОА' на основе нейронной сети // Материалы VI Международной научно-практической конференции «Информационная безопасность». Таганрог: ТРТУ, 2004.

19. Lippmann R. An Introduction to computing with neural nets / IEEE ASSP Magazine. 1987. April. P. 4-22.

20. Debar H., Becker M., Siboni D. A neural network component for an intrusion detection system. // In Proceedings of the 1992 IEEE Computer Sociecty Symposium on Research in Security and Privacy; USA, Oakland, CA: 1992. May. P. 240-250.

21. Ghosh A., Schwartzbard A. A study in using neural networks for anomaly and misuse detection / In Proceedings of the 8th USENIX Security Symposium; USA, Washington D.C.: 1999. August. P. 23-36.

22. DARPA Intrusion Detection Data Set / MIT Lincoln Laboratory: 1998. URL: http://wwwЛl.mit.edu/mission/communications/ist/coфoгa/ideval/data/1998dat a.html (Дата обращения: 08.06.2007).

23. Fayyad U., Piatetsky-Shapiro G., Smyth P. Knowledge discovery and data mining: towards a unifying framework // In Proceedings of 2nd'International Conference on Knowledge Discover and Data Mining; USA, Portland: 1996. P. 82-88.

24. Knorr E., Ng R. Extraction of spatial proximity patterns by concept generalization // In Proceedings of 2nd Int. Conf Knowledge Discovery and Data Mining (KDD-96); USA, Portland: 1996. August. P. 347-350.

25. Ester M., Kriegel H.-P, Sander J,, XuX. A density-based algorithm for discovering clusters in large spatial databases with noise I I In Proceedings of KDD-96.1996. P. 226-231.

26. Lee IV., Stolfo S. Data mining approaches for intrusion detection // In Proceedings of the 7th USENIX Security Symposium (SECURITY '98). 1998.

27. Laskov P., Schrafer C., Kotenko /. Intrusion detection in unlabeled data with quarter-sphere support vector machines // In Proceedings of DIMVA. 2004. P. 71-82.

28. Knowledge Discovery in Databases Cup 1999 / MIT Lincoln Laboratory: 2007. URL: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html (Дата обращения: 08.06.2007).

29. Zanero S., Savaresi S. Unsupervised learning techniques for an intrusion detection system // In Proceedings of the ACM Symposium on Applied Computing. ACM SAC: 2004.

30. Savaresi S., Boley D. On the performance of bisecting K-means and PDDP // In Proceedings of the 1st SIAM conference on Data Mining. 2001. P. 1-14.

31. DARPA Intrusion Detection Data Set / MIT Lincoln Laboratory: 1999. URL: http://www.il.mit.edu/mission/communications/ist/coфora/ideval/data/1999dat a.html (Дата обращения: 15.09.2008).

32. Escamilla Т. Intrusion detection: network security beyond the firewall / John Wiley & Sons, USA, New York: 1998.

33. Ghosh A., Schwartzbard A., Schatz M. Learning program behavior profiles for intrusion detection // In Proceedings of the 1st USENIX Workshop on Intrusion Detection and Network Monitoring. USA, Santa Clara: 1999. P. 51-62.

34. Lane Т., Brodley C. Temporal sequence learning and data reduction for anomaly detection / ACM Trans Inf. Systems Security. 1999. № 2 (3). P. 295-331.

35. Eskin E. Anomaly Detection Over Noisy Data Using Learned Probability Distributions. In Proceedings of the International Conference on Machine Learning, 2000.

36. Lee W, Stolfo S., MokK. Data mining in work flow environments: experiences in intrusion detection // In Proceeding of the 1999 conference on knowledge discovery and data mining (KDD-99). 1999.

37. Portnoy L., Eskin E., Stolfo S. Intrusion Detection with unlabeled data using clustering // In Proceedings of ACM CSS Workshop on Data Mining Applied to Security (DMSA-2001). USA, Philadelphia, PA: 2001.

38. Forrest S., Hofmeyr S., Somayaji A. Computer immunology // Communications of the ACM. 1997. № 40(10). P. 88-96.

39. Ko C., Fink G., Levitt K. Execution monitoring of security critical programs in distributed systems: a specification-based approach // In proceedings of the 1997 IEEE Symposium on Security and Privacy. 1997. P. 134-144.

40. Ryan T. Statistical Methods for Quality Improvement / John Wiley & Sons: New York, 2000.

41. Hotelling H. Multivariate quality control / Techniques of Statistical Analysis. Eisenhart C., Hastay M., Wallis W.; McGraw-Hill: New York, 1947.

42. Woodall W., Ncube M. Multivariate CUSUM qualitycontrol procedures / Tech-nometrics. 1985. № 27. P. 185-192.

43. Lowry C., Woodall W., Champ C., Rigdon S. Multivariate exponentially weighted moving average control chart / Technometrics. 1992. № 34. P. 46-53.

44. David B., Lindenbaum M. Learning distributions by their density levels: a paradigm for learning without a teacher / Ji Comput. System.Sci. 1997. № 55. P. 171-182.

45. Warrender C. Forrest S., Pearlmutter B. Detecting intrusions using system calls: alternative data models // IEEE Computer Society. 1999. P. 133-145.

46. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines / Cambridge University Press: UK, Cambridge, 2000."

47. Ng R., Han J. Efficient and effective clustering methods for spatial data mining // In proceedings of the 20th International Conference on Very Large Data

48. Bases, Chile, Santiago. Morgan Kaufmann Publishers: USA, San Francisco, 1994. P. 144-155.

49. McCallum A., Nigam K., Ungar L. Efficient clustering of high-dimensional data sets with application to reference matching // In Knowledge Discovery and Data Mining. 2000. P. 169-178.

50. ArningA., Agrawal R., Raghavan P. A linear method for deviation detection in large databases // In proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, Portland. AAAI Press: 1996. P. 164-169:

51. Knorr E., Ng R. Algorithms for mining distance-based outliers in large datasets

52. In proceedings of the 24th International Conference on Very Large Datai

53. Bases. USA, New York: 1998. P. 392-403.

54. Ruts /., Rousseeuw P. Computing depth contours of bivariate point clouds // Journal of computational statistics and data analysis. 1996. № 23. P. 153-168.

55. Breunig M., Kriegel H.~PNg R., Sander J. LOF: identifying density-based local outliers I I In proceedings of the ACM SIGMOD 2000'Conference on Management of Data. USA, Dallas: 2000. P. 93-104

56. Zhang T., Ramakrishnan R., Linvy M. BIRCH: an efficient data clustering method for very large databases // In proceedings of the ACM SIGMOD Conference on Management of Data. ACM Press: USA, New York, 1996. P. 103-114.

57. Wang W., Yang J., Müntz R. Sting: a statistical information grid approach to spatial data mining // In Proceedings of the 23rd International Conference on Very Large Data Bases. USA, New York: 1997. P. 186-195.

58. Li Y., Fang B., Guo L., Chen Y. Network anomaly detection based on TCM-KNN algorithm // In Proceedings of the 2nd ACM symposium on Information, computer and communications security. Singapore: 2007. March 20-22. P. 13-19.

59. Nagesh K, Goil S., Choudhary A. A scalable parallel subspace clustering algorithm for massive data sets // In Proceedings of the International Conference on Parallel Processing. 2000. P. 477-484.

60. Leung K., Leckie C. Unsupervised anomaly detection in network intrusion detection using clusters // In Proceedings of the 28 Australasian Computer Science Conference (ACSC2005). Australia, Newcastle: 2005. February 1-3. P. 333-342.

61. Ye N. Chen Q. An anomaly detection technique based on a chi-square statistic for detecting intrusions into information* systems // Quality and Reliability Engineering Journal. 2001. Vol. 17. P. 105-112.

62. Vinay A., Xiaoyong W., Douglas S. Detection of Denial-of-QoS attacks based on x2 statistic and EWMA control charts / NC State University. Raleigh: 2002. February.

63. Feinstein D., Schnackenberg R., Balupari D., KinRed O. Statistical approaches to ddos attack detection and response / In Proceedings of the DARPA Information Survivability Conference and Expostion (DISCEX'03). 2003. April.

64. Yamanishi K., Takeuchi J., Williams G. On-line unsupervised outlier detection using finite mixtures with discounting learning algorithms // Data Mining and Knowledge Discovery. 2004. № 8. P. 275-300.

65. Kwitt R., Hofmann U. Robust methods for unsupervised PCA-based anomalydetection / IEEE-IST Workshop on Monitoring; Attack Detection and Mitigattion. Germany, Tuebingen: 2006. September 28-29.

66. Ramah K., Ayari H., Kamoun F. Traffic anomaly detection and characterization in the tunisian national university network // In Proceedings of the Networking 2006. Portugal, Cobimbra: 2006. May. P. 136-147.

67. Marius K., Brefeld U., Diissel P., Gehl C., Laskov P. Automatic feature selection for anomaly detection // In Proceedings of the AI Security. 2008. P. 71-76.

68. Ankerst M., Breunig M., Kriegel H.-P., Sander J. Optics: ordering points to identify the clustering structure // In Proceedings*of the SIGMOD. 1999: Rec. 28 (2). P. 49-60.

69. Han J., Pei J., Yin Y. Mining frequent patterns without candidate generation // In Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. ACM Press: USA, New York, 2000. P. 1-12.

70. Qu G., Hariri S., Mazin Y. A new dependency and correlation analysis for features / IEEE Transactions on Knowledge and Data Engineering; Special Issue on Intelligent Data Preparation. 2005. September.

71. Bykova M., Ostermann S., Tjaden B. Detecting network intrusions via a statistical analysis of network packet characteristics // In Proceedings of the 33rd Southeastern Symposium on System Theory (SSST 2001). IEEE: USA, Athens, 2001. March. P. 309-3141

72. Qu G., Hariri S., Jangiti S., Hussain S., Oh S., Fayssal S., YousifM. Abnormaltity metrics to detect and protect against network attacks / In the Proceedings of IEEE-ACS International Conference on Pervasive Services (ICPS 2004). Beirut, Lebanon: 2004.

73. Steinwart I., Hush D., Scovel C. A classification framework for anomaly detection // Machine Learning Research Journal. 2005. Vol. 6. P. 211-232.

74. Shirazi H.A intrusion detection system using information theory, K-NN and KMC algorithms // Australian Journal of Basic and Applied Sciences. 2009. № 3(3). P. 2581-2597.

75. Lazarevic A., Ertoz L., Kumar V., Ozgur A., Srivastava J. A comparative study of anomaly detection schemes in network intrusion detection / In Proceedings of the Third SIAM International Conference on Data Mining, 2003. May 1-3.

76. Ramaswamy S., Rastogi R., Shim K. Efficient algorithms for mining outliers from large data sets // In proceedings of the ACM SIGMOD 2000 Conference on Management of Data. USA, Dallas: 2000.

77. Mahalanobis P. On tests and meassures of groups divergence // International Journal of the Asiatic Society of Benagal. 1930. № 26. P. 541.

78. Laskov P., Diissel P., Schäfer C., Rieck K Learning intrusion detection: supervised or unsupervised? // ICIAP. Italy, Cagliari: 2005. P. 50-57.

79. Fogla P., Sharif M, Perdisci R., Kolesnikov O., Lee W. Polymorphic blending attacks // In proceedings of the 15th USENIX Security Symposium Security '06. 2006. P. 241-256.

80. Fogla P., Lee W. Evading network anomaly detection systems: formal reasoning and practical techniques // In Proceedings of the 13th ACM Conference on Computer and Communications Security (CCS). USA, Alexandria: 2006. October 30-November 3. P. 59-68.

81. Panda S., Mahapatra S. PCA fused NN approach for drill wear prediction in drilling mild steel specimen // In Proceedings of the ICCSIT. 2009. P. 85-89.

82. Blumberg D., Ohel E., Rotman S. Anomaly detection in noisy multi and hyper spectral images of urban environments // In Proceedings of the ISPRS 3rd URBAN Symposium. USA, Tempe: 2005. March. P. 390-399.

83. Borghys D., Truyena E. Anomaly detection in hyperspectral images of complex scenes // In Proceedings of the 29th Earsel Symposium. Chania: 2009. June.

84. Higgins J., Harris A. VAST: a program to locate and analyze volcanic thermal anomalies automatically from remotely sensed data // Computers & Geos-ciences Journal. 1997. Vol. 23 (6). P. 627-645.

85. Sarnovsky M., Butka P. Grid-based support for different text mining tasks // In Proceedings of the Acta Polytechnica Hungarica. 2009. Vol. 6 (4). P. 5-27.

86. Guthrie D., Guthrie L., Allison В., Wilks Y. Unsupervised anomaly detection. // In Proceedings of the 20th international joint Conference on Artifical intelligence. 2007. January. P. 1624-1628.

87. D. Gollmann. Computer Security. Wiley: 2009. 2nd edition. 352 p.

88. Тер-Крикоров А., Шабунин M. Курс математического анализа. M.: Физ-матлит, 2001. 671 с.

89. Loiseaua P., Vicat-Blanc P., Goncalves P. A long-range dependent model for network traffic with flow-scale correlations // Stochastic Models. 2011. Vol. 27(2). P.1 333-361.

90. Крылов В., Самохвалова С. Теория телетрафика и ее приложения. СПб.: БХВ-Петербург, 2005.

91. Frost V., Melamed B. Traffic Modeling for Telecommunications Networks // IEEE Communications Magazine. 1994. № 32(3). P. 70-80.

92. Leland W., Taqqu M., Willinger W., Wilson D. On the self-similar nature of ethernet traffic// In Proceedings of the ACM SIGCOMM. 1993. P. 183-193.

93. Karagiannis Т., Molle M., Falautsos M., Broido A. A nonstationary poisson view of internet traffic // In Proceedings of the IEEE INFOCOM. China: Hong Kong, 2004. P. 1558-1569.

94. Cao J., Cleveland W., Lin D., Su D. The effect of statistical multiplexing on the long-range dependence of internet packet traffic: theory and empirical study / Bell Labs Technical Report. USA: 2001.

95. Вентцель E. Теория вероятностей. M.: Высшая школа. 2001. 575 с.

96. Понтрягин Л. Обыкновенные дифференциальные уравнения. М.: Наука, 1974. 331 с.

97. Василего И. Ряды. Учебное пособие. Оренбург: ГОУ ОГУ, 2004. 114 с.

98. Ильин В., Позняк Э. Основы математического анализа. М.: Физматлит. Ч. 1 2005, 648 е.; Ч. 2 - 2002, 464 с.

99. Толстое Г. Ряды Фурье. М.: Физматлит, 1960. 392 с.

100. Бари N. Тригонометрические ряды. М.: Физматгиз, 1961. 936 с.

101. Айвазян С., Бухштабер В., Енюков И., Мешалкин Л. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

102. Pearson К. On lines and planes of closest fit to systems of points in space // Philosophical Magazine. 1901. № 2 (6). P. 559-572.

103. Jolliffe I. Principal Component Analysis. Springer: 2002. 2nd edition. 487 p.

104. Wang W., Battiti R. Identifying intrusions in computer networks with principal component analysis // In Proceedings of the First International Conference on Availability, Reliability and Security (ARES'06). 2006. April. P. 270-279.

105. Lippmann R, Cunningham R., Fried D., Kendall K, Webster S., Zissman M. Results of the DARPA 1998 offline intrusion detection evaluation // In Proceedings of the RAID 1999. MIT Lincoln Lab.: 1999. P. 1-29.

106. Lippmann R., Fried D., Graf I., Haines J., Kendall K., Mc-Clung D., Weber D., Webster S., Wyschogrod D., Cunningham R., Zissman M. The 1999 DARPA off-line intrusion detection evaluation // Computer Networks. 2000. № 34(4). P. 579-595.

107. Kristopher K. A database of computer attacks for the evaluation of intrusion detection systems / K. Kristopher. Masters Thesis. MIT Lincoln Lab:: 1999.

108. Engen V., Vincent J., Phalp K. Exploring discrepancies in findings obtained with the KDD Cup '99 data set // International Journal of Intelligent Data Analysis. 2011. № 15. P. 251-276.

109. Mahoney M., Chan P. An analysis of the 1999 DARPA: Lincoln laboratory evaluation data for network anomaly detection // In Proceedings of the 6th International Symposium on Recent Advances in Intrusion Detection (RAID'03). 2003. Vol. 2820. P. 220-237.

110. Sabhnani M., Serpen G. Why machine learning algorithms fail in misuse detection on kdd intrusion detection data set // Intelligent Data Analysis. 2004. Vol. 8. P. 403-415.

111. Bouzida Y., Cuppens F. Detecting known and novel network intrusions 11 In Proceedings of the International Information Security Conference (IP/SEC'06). 2006. P. 258-270.

112. Brugger T. An assessment of the DARPA IDS evaluation dataset using Snort / Technical Report CSE-2007-1. USA, University of California: 2007.

113. Tavallaee M., Bagheri E., Lu W., Ghorbani A. A detailed analysis of the KDD CUP'99 data set // In Proceedings pf the 2nd IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA'09). 2009. July. P. 53-58.

114. Gu G., Fogla P., Dagon D., Lee W., Skoric B. Measuring intrusion detectioncapability: an information-theoretic approach (ASIACCS'06). Taiwan, Taipei: 2006. March 21-24.

115. Green D., Swets J. Signal detection theory and' psychophysics. USA, New York: John Wiley and Sons Inc., 1966. <

116. Spackman K. A. signal detection theory: valuable tools for evaluating inductive learning // In Proceedings of the Sixth International Workshop on- Machine Learning. USA, San Mateo: Morgan Kaufmann, 1989. P. 160-163.

117. Леман Э. Проверка статистических гипотез. М.: Наука, 1979. 408 с.

118. Ван дер Варден. Математическая статистика. М.: Иностр. лит., 1960. 435 с.

119. Смирнов Н., Дунин-Барковский И. Курс теории вероятностей и математической статистики для технических приложений. М.: Наука, 1969. 512 с.

120. Кобзарь А. Прикладная математическая статистика. М.: Физматлит, 2006. 816 стр.

121. Levin I. KDD-99 classifier learning contest: LLSoft's results overview // ACM SIGKDD Explorations. 2000. January. P. 67-75.

122. Pfahringer B. Winning the KDD99 classification cup: bagged boosting // ACM SIGKDD Explorations. 2000. January. P. 65-66.

123. Miheev V., Vopilov A., Shabalin I. The MP13 approach to the KDD'99 classifier Learning Contest. ACM SIGKDD Explorations// ACM SIGKDD Explorations. 2000. January. P. 76-77.

124. NSL-KDD data set for network-based intrusion-detection systems. 2009. URL: http://nsl.cs.unb.ca/NSL-KDD/ (Дата обращения: 01.04.2010).

125. Карайчев Г. Использование распределения пакетов по IP-адресам для определения аномального поведения потока пакетов в сети. // Тезисы докладов научно-технической конференции «Информационные системы и технологии 2007». Обнинск: ОБИАЭ, 2007. С. 60-61.

126. Карайчев Г. Нестеренко В. Применение весовых функций для определения локальных статистических характеристик потока пакетов в сети. // Известия высших учебных заведений. Северо-Кавказский регион. Естественные науки. Ростов н/Д: 2008. № 1. С. 10-14.

127. Карайчев Г. Выявление сетевых вторжений методом кластеризации данных с использованием адаптивных сеток // Труды,аспирантов и соискателей ЮФУ, Том XIV. Ростов н/Д: НПО ПИ ЮФУ, 2009. С. 29-33.

128. Карайчев Г. Выявление аномальной активности методом адаптивных сеток // Материалы I Всероссийской молодежной конференции по проблемам информационной безопасности «ПЕРСПЕКТИВА-2009». Таганрог: ТТИ ЮФУ, 2009. С. 116-122.

129. Карайчев Т. Выявление аномальной активности методом адаптивных сеток // Известия ЮФУ. Технические науки. Тематический выпуск. «Информационная безопасность». Таганрог: ТТИ ЮФУ, 2009. №11 (100). С. 84-92.

130. Карайчев Г. Нестеренко В. Выявление аномальной активности в сети методами статистического анализа заголовков IP-пакетов. // Известия высших учебных заведений. Северо-Кавказский регион: Естественные науки. 2010. №4. С. 13-17.

131. Карайчев Г. Сравнение метода кластеризации данных с методом распределения пакетов по IP-адресам. // Труды аспирантов и соискателей ЮФУ, Том XV. Ростов н/Д: ИПО ПИ ЮФУ, 2010. С. 35-38.