автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Исследование и разработка комплексной методики обнаружения сетевых вторжений

кандидата технических наук
Шевченко, Александр Сергеевич
город
Москва
год
2007
специальность ВАК РФ
05.13.13
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка комплексной методики обнаружения сетевых вторжений»

Автореферат диссертации по теме "Исследование и разработка комплексной методики обнаружения сетевых вторжений"

□0305Б783

На правах рукописи

Шевченко Александр Сергеевич

ИССЛЕДОВАНИЕ И РАЗРАБОТКА КОМПЛЕКСНОЙ МЕТОДИКИ ОБНАРУЖЕНИЯ СЕТЕВЫХ ВТОРЖЕНИЙ

Специальность 05.13.13 - "Телекоммуникационные системы и компьютерные сети"

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Научный руководитель к.т.н, профессор А. К. Зыков

Москва - 2007

003056783

Работа выполнена в Московском государственном институте электроники и математики (техническом университете) на кафедре «Вычислительная техника»

Научный руководитель: Кандидат технических паук, профессор

Зыков Адольф Константинович Официальные оппоненты: Доктор физико-математических наук,

профессор Грушо Александр Александрович

Доктор технических наук, профессор Цветков Виктор Яковлевич Ведущая организация: ФГУ Государственный научно-

исследовательский институт информационных технологий и телекоммуникаций - „Информика"

Защита диссертации состоится ППКС^Ч 2007 г. в У-*7 часов на

заседании диссертационного совета Д 212.133.03 при Московском государственном институте электроники и математики (МИЭМ): 109028, Москва, Б. Трехсвятительский иер., дом 3/12.

С диссертацией можно ознакомиться в библиотеке МИЭМ.

Автореферат разослан г1_1СМ1щ 2007 г.

Ученый секретарь диссертационного совета кандидат технических наук, доцент

Ю. Л. Леохин

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Современный этап развития общества характеризуется возрастающей ролью информационной сферы, которая представляет собой совокупность инфраструктуры и субъектов, осуществляющих сбор, формирование и распространение информации. Интенсивное развитие и широкое применение информационных технологий во всех сферах человеческой деятельности является объективным фактором, определяющим проблему обеспечения информационной безопасности как одну из наиболее важных.

В связи с широким распространением глобальной информационной сети Интернет и развитием компьютерных сетей, возникла потребность в защите компьютеров от внешних воздействий со стороны злоумышленников. Осуществление атак через сеть Интернет становится мощным средством проведения информационных операций, а также совершения преступлений в финансовой и других сферах, в том числе членами террористических организаций.

Компьютерные сети на протяжении всего периода их развития представляли собой потенциальную угрозу потери обрабатываемой или передаваемой информации. В последнее время, когда большинство организаций имеют собственные сети, а также выход в глобальную сеть, этот вопрос стал еще более актуальным. В условиях изменчивости качественных и количественных характеристик сетевых атак возникает потребность в совершенствовании существующего методического аппарата, а также систем и алгоритмов обнаружения вторжений, что представляет собой актуальную научную задачу.

Степень разработанности темы. Вопросам исследования состояния и направлений развития систем обнаружения вторжений посвящено достаточно большое количество работ. Диссертация разрабатывалась на основе детального изучения и критического анализа материалов отечественных и зарубежных источников. К настоящему времени в области обнаружения сетевых вторжений преобладает подход обнаружения злоупотреблений, который бази-

руется па построении модели атаки. Данный подход имеет очевидные ограничения, связанные с отсутствием возможности обнаружения новых атак. Это обстоятельство обуславливает необходимость развития подхода обнаружения аномалий, основанного на построении моделей поведения пользователей или программ. Исследованиям в этой области посвящены работы Петровского М.И. "Исследование и разработка алгоритмов поиска исключений в системах интеллектуального анализа данных", Хафизова А.Ф. "Нейросетевая модель обнаружения атак на VVWW-сервер", Дружинина Е.Л. "Разработка методов и программных средств выявления аномальных состояний компьютерной сети", Сердюка В.А. "Разработка и исследование математических моделей защиты автоматизированных систем от информационных атак", Слюсаренко И.М. "Методика обнаружения и оценивания аномалий информационных систем на основе системных вызовов" и др. За рубежом данные вопросы освещены в работах Mahoney M. V. "A Machine Learning Approach to Detecting Attacks by Identifying Anomalies in Network Traffic", Lazarevic A. "A Comparative Study of Anomaly Detection Schemes in Network Intrusion Detection". Ke Wang, Salvatore J. Stolfo "Anomalous Payload-based Network Intrusion Detection" и др.

Объект исследования. Интеллектуальные системы анализа данных с целью обнаружения вторжений в телекоммуникационных сетях.

Предмет исследования. Методы, алгоритмы и аппаратно-программные средства обнаружения несанкционированного доступа к информационным ресурсам.

Цель исследования. Целью данной работы является повышение эффективности обнаружения сетевых вторжений в компьютерных сетях.

Рамки исследования. В процессе исследования рассматриваются возможности обнаружения аномалий прикладной части протокола с неизвестной структурой путем применения методов сегментации и восстановления грамматики.

Для достижения поставленной цели в работе решались следующие науч-

ные задачи:

1. Анализ существующих сетевых атак, систем и методов обнаружения сетевых вторжений;

2. Выбор критериев оценки методов обнаружения аномалий протокола;

3. Разработка методики сегментации;

4. Разработка методики восстановления грамматики;

5. Формирование и обоснование методики поиска исключений;

6. Формирование и обоснование критериев оценки протокола;

7. Разработка методики проведения экспериментов.

Научная новизна работы заключается в следующем:

1. Разработана методика сегментации термов исследуемой грамматики;

2. Разработана методика восстановления грамматики;

3. Разработана и обоснована методика поиска исключений.

Практическая ценность работы. На основе проведенных теоретических

исследований разработана и реализована первая версия программного комплекса обнаружения аномалий протокола с неизвестной структурой. Применение разработанных методов и созданной на их основе первой версии модуля обнаружения аномалий протокола позволило снизить количество ложных срабатываний и повысить эффективность обнаружения аномалий на 15-17 процентов по сравнению с ведущим методом в данной области.

Теоретические результаты диссертационной работы, а также разработанная на их основе версия модуля обнаружения аномалий протокола для поиска исключений в условиях неизвестной структуры протокола, используется в компании ООО "СТОКОНА", а также в научно-исследовательской работе и учебном процессе Московского государственного института электроники и математики (технический университет).

Апробация работы. Основные результаты работы опубликованы в ряде рецензируемых научно-технических изданий. Отдельные результаты диссертационного исследования докладывались на научных семинарах в Московском

государственном институте электроники и математики, а также на следующих конференциях и семинарах:

1) ежегодные научно-технические конференции студентов, аспирантов и молодых специалистов МИЭМ (Москва, 2003-2006 гг.);

2) XIV международная студенческая школа-семинар "НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ" (Судак, 2005 г.);

3) международный семинар, проводимый ведущей в области информационной безопаспости финской компанией Г-Эссиге (Хельсинки, 2006 г.).

Методы исследования. В работе использовались методы системного анализа и теории принятия решений. При разработке методики сегментации и поиска исключений применялись методы теории распознавания образов, а также теории математической статистики. Методика восстановления грамматики базируется на структурных методах распознавания образов. Широко использовалось моделирование на персональных ЭВМ, в том числе с использованием самостоятельно разработанного автором программного обеспечения.

Публикации. По теме диссертации автором опубликовало 9 печатных работ.

На заишту выносятся.

1. Методика сегментации термов исследуемой грамматики;

2. Методика восстановления грамматики;

3. Методика поиска исключений.

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы (135 наименований). Работа изложена на 136 страницах машинописного текста, содержит 15 рисупков, 19 таблиц. СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы, определен объект, предмет, цели и научная задача исследования. Дана общая характеристика диссертационной работы и определены частные задачи исследования, а также

обоснованы научная новизна, практическая значимость и теоретическая ценность диссертации.

В первой главе проведен анализ сетевых атак, который показал, что наиболее целесообразно классифицировать их относительно характера воздействия. Такой подход позволил провести исследование данных атак относительно деструктивного воздействия на компьютерные сети и системы, выделяя следующие основные группы:

- несанкционированный удаленный доступ;

- несанкционированное получение привилегированных прав доступа;

- отказ в обслуживании;

- сканирование.

На основе проведенного анализа исследованы основные методические подходы и системы обнаружения сетевых вторжений. В частности, рассмотрены системы обнаружения сетевых вторжений, классификация которых представлена на рис. 1, и их основные особенности.

Результаты анализа позволили выделить основные методы и подходы, использующиеся в данных системах.

Показано, что основным сдерживающим фактором применения всех существующих методов является их ограниченное признаковое пространство, которое включает в себя 4 группы параметров:

1. Basic features of individual TCP connections, Ip адреса, порты, протоколы, количество байтов, продолжительность, количество пакетов;

2. Content based features, пример: количество SYN пакетов;

3. Time based features, т.е. различные условные комбинации параметров в последние Т секунд;

4. Connection based features, т.е. различные условные комбинации параметров в последние N соединений.

Рис. 1. Классификация систем обнаружения вторжений

Следует отметить, что данные параметры описывают только сетевую и транспортную часть протокола. Хотя ряд алгоритмов используют дополнительные характеристики из прикладной части, по этого недостаточно для эффективного обнаружения аномалий протокола.

На основе результатов анализа, проведенного в первой главе, показано, что наиболее актуальным вопросом является развитие методов обнаружения аномалий протокола, которые позволят обнаруживать ранее неизвестные атаки. Для этого проведеп анализ существующих методов обнаружения аномалий'протокола с неизвестной структурой. В табл. 1 показана декомпозиция существующих подходов и методов обнаружения сетевых вторжений.

Основными результатами исследования, проведенного в первой главе, являются сформированная классификация основных типов атак и анализ основных методических подходов и систем обнаружения сетевых вторжений. На основе проведенного анализа сформулирована постановка задачи и частные задачи исследования.

Таблица 1

Декомпозиция методических подходов обнаружения сетевых вторжений

Обнаружение злоупотреблений 1. Сигнатурные методы: - распознавание шаблонов (Pattern matching); - комплексное распознавание шаблонов (Stateful pattern matching); - сигнатурный анализ, основанный на протоколе (Protocol decode-based signatures); - эвристический анализ сигнатур (Heuristic-based signatures). 2. Метод с контролируемым обучением.

Обнаружение аномалий 1. Сигнатурные методы: - эвристические методы; - профили поведения. 2. Методы с контролируемым обучением. 3. Методы с неконтролируемым обучением. 4. Методы обнаружения аномалий протокола.

Вторая глава посвящена разработке комплексной методики обнаружения сетевых вторжений. В ней приведена структура и составные части предлагаемой методики. Проведен выбор показателя эффективности обнаружения сетевых вторжений. Разработана методика сегментации, позволяющая осуществлять формирование словаря исследуемого протокола. Разработала методика восстановления грамматики, формирующая описание исследуемого протокола и формирование грамматики. Проведен выбор эффективных методов поиска исключений и разработаны требования по применению их для оценки аномалий работы исследуемого протокола. Сформированы критерии оценки корректности работы протокола.

В процессе разработки комплексной методики обнаружения сетевых вторжений сформирована ее общая структура и взаимоувязанные составные части. Разрабатываемая комплексная методика состоит из следующих модулей: 1. Модуль сегментации, формирующий словарь ожидаемой грамматики

исследуемого протокола. Он позволяет выделить термы грамматики, т.е. часто встречающиеся последовательности символов. Все остальные последовательности символов характеризуются как изменчивые данные. Под изменчивыми данными понимаются данные, которые формируются пользователем или программой для передачи в компьютерной сети данных с использованием выбранного протокола;

2. Модуль восстановления стохастической грамматики, описывающий условные переходы между грамматическими термами и восстанавливающий грамматические цепочки, а также осуществляющий сбор статистической информации для последующего поиска исключений;

3. Модуль обнаружения аномалий, позволяющий выявлять аномалии профиля работы пользователя или программы, а также работы протокола.

Применительно к рассматриваемой задаче для оценки обнаружения аномалий выбраны следующие показатели: коэффициент обнаружения Ко (detection rate), коэффициент ложных тревог Клт (false alarm rate) и ROC кривые (Receiver Operating Characteristic Curves). Для проведения верификации разрабатываемого метода относительно других, ранее известных методов, выбран критерий Ко, при условии, когда Клт < 1%. Кроме того, исследуется эффективность методики относительно показателя max(F-мера), который позволяет оценивать методику при максимальной эффективности обнаружения вторжений относительно ошибок обнаружения.

Для решения поставленной научной задачи потребовалось провести анализ существующих методов сегментации и выбор базовой методики, которая была модифицирована применительно к рассматриваемым в диссертационной работе условиям. На основе данной методики был разработан алгоритм сегментации термов грамматики, что позволило сформировать словарь анализируемой грамматики протокола и определять изменчивые данные. На рис. 2 представлена общая схема работы алгоритма модуля сегментации. Разрабатываемый алгоритм будет обеспечивать вычисление в три этапа.

Начало

Рис. 2. Схема работы модуля сегментации термов

Этап 1. На основе разработанной методики осуществляется формирование анализируемых последовательностей символов из тренировочного набора данных.

Этап 2. На этом этапе производится формирование списка последовательностей окружения для каждой последовательности символов. Данный список состоит из последовательностей, содержащих дополнительные боковые символы, которые встречаются в контексте. Следующей задачей является вычисление основных характеристик для каждой последовательности, используемых при оценке данных. Для этой цели определяются пять основных характеристик:

1. Взаимная информация для последовательностей длиной в два символа;

2. Левая и правая взаимная информация для последовательностей длиной

больше двух символов;

3. Левая и правая усложненная взаимная информация, вычисляющаяся относительно соседних символов;

4. Левая и правая условная энтропия;

5. Показатель границ для исследуемой последовательности символов.

Дапиые характсриситики вычисляются для каждой выделенной последовательности символов.

Вычисление взаимной информации производится следующим образом. Считаем, что взаимная информация случайных переменных аиЬ - отношение вероятностей а и Ъ к независимым вероятностям того, что а и Ь присутствуют в последовательности символов. Высокий показатель взаимной информации указывает на то, что а и 6 встречаются вместе в исследуемых данных чаще, чем ожидается. В алгоритме используется левая и правая взаимная информация, как критерий в процедуре извлечения терма.

С целью дальнейшей оценки данных на предмет их случайности, выбраны модифицированные критерии взаимной информации, позволяющие оценивать последовательность символов относительно левого и правого дополнительного бокового символа. Также потребовалось учитывать зависимость исследуемых характеристик относительно длины данной последовательности.

С целью определения степени зависимости от соседних символов для последовательности длиной в два символа, используются классические критерии взаимной информации:

М1(х,у) = ±1 og^gsL;

где: х - правый символ; у - левый символ; Т - длина последовательности;

Чем выше будет данный показатель, тем больше вероятность того, что данные символы взаимосвязаны.

Левая взаимная информация (Ьтп) и правая взаимная информация (Rm) строки хуz определены как:

^(Жу2) = 11о gjggL,; Rm(xyz) = ^logj^j,

где: х - правый символ;

у - последовательность символов, находящихся между х и у, z - левый символ; Т - длина последовательности;

Если хуz слово, то значения параметров Lrn(xyz) и Rm(xyz) должны быть высокими. Напротив, если xyz последовательность символов не являющаяся словом, но может состоять из слов и символов слова, то значения его левой и правой взаимной информации будут низкими.

Усложненная левая и правая взаимная информация будет такой же, за исключением того, что анализироваться будет взаимосвязь исследуемой последовательности с ее боковыми символами.

Вычисление левой и правой энтропии (Left Entropy and Right Entropy) осуществляется с использованием левой и правой условной вероятности появления новых боковых символов. Левая и правая энтропия используются как критерии в рассматриваемом алгоритме извлечения слова. Левая энтроиия(Ье) и правая энтропия(Ле) строки у определены как:

Щу) = - Е p(zy|y)i°g2p(zyl2/);

xiA

Re{y) = - Е P{yz\y) 1

где: у - рассматриваемая последовательность символов; А - набор всех элементов алфавита; х, z - любой элемента из алфавита А.

Результаты вычисления оцениваются следующим образом. Если у - слово, тогда распределение символов слева и справа должно иметь высокую энтропию. Если у - незаконченное слово, то его левая и правая энтропия будут низкими.

С целью определения предполагаемой границы для каждой последовательности, оцепивается вероятность нахождения последовательности в начале и конце запроса или наличие высоких боковых показателей энтропии.

Этап 3. В соответствии с определенными условиями осуществляется классификация того, относится ли последовательность к терму или к случайным данным.

Такой методический подход имеет существенное ограничение, заключающееся в том, что не производится оценка односимвольной последовательности. В результате этого можно определить, что односимвольная последовательность всегда принадлежит к случайным данным, если она не входит в состав более длиной последовательности, определенной как терм грамматики. Также ограничением является применение методики в условиях, когда грамматика имеет древовидную структуру и между термами не присутствуют произвольные данные. Это приводит к тому, что показатель энтропии, используемый для определения границы, у термов не будет большим.

Таким образом, использование выбранных критериев в составе разработанных взаимоувязанных алгоритмов, позволяет определять последовательности символов, которые являются термами исследуемой грамматики.

Модуль восстановления стохастической грамматики формирует грамматические правила исследуемого протокола. Для проведения исследования разработал алгоритм формирования нерекурсивной грамматики, описывающий каждый TCP запрос заданного направления, позволяющий для заданного множества терминальных цепочек формировать грамматику исследуемого протокола. С целыо дальнейшего поиска исключений в данном модуле собирается статистическая информация для каждого правила. К ней относятся средняя частота символов, находящихся в промежутках между термами, и частота правил в каждом запросе для каждого ряда.

С целью оценки разработанного методического подхода для анализа прикладного протокола с неизвестной структурой был выбран метод поиска ис-

ключений, базирующийся на метрике LOF. Данная методика анализирует количество правил относительно сформированных рядов. Основными понятиями, на которых основывается метрика LOF, является /с-окрестность и fc-расстояпие. Вводится понятие количества объектов, удаленных от а; не далее, чем £-й по порядку Л^-дst(x)(x) и достижимое расстояние объекта £ по отношению к ¿-окрестности объекта у: reach — dist^x, у) = тах{к — dist(y), dist(x, у)}.

С помощью функции reach — distk(x,y) при фиксированном значении к = MinPts оценивается локальная достижимая плотность (local reachability density) в точках х как величина:

2 reach-distm„PU(x,y)

lrdMinPts{x) = "6NMi"Pt*(|VJVfi„i,l5(,)|-•

На основе функции lrdj\finjpts(x) вводится функция LOF^{inpts{x), которая и определяет насколько данная точка является исключением:

мыР1з\,з-) - |лгМ4пР1Лх)|

Таким образом, локальная мера исключительности "представляет собой среднее отношение локальной достижимой плотности „соседей" объекта и локальной достижимой плотности самого объекта.

Сформированы критерии оценки корректности протокола, использующие длину распределения случайных данных в грамматических правилах и модифицированную методику проекта PAYL для оценки характера передаваемых данных. С целью упрощения оценки характера передаваемых данных предложено анализировать энтропию случайных данных в грамматических правилах.

В целом путем использования согласованных по входным и выходным параметрам вышеназванных модулей сформирован методический аппарат, позволяющий эффективно производить поиск аномалий протокола с неизвестной структурой.

В третьей главе проведено экспериментальное обоснование проведенных исследований, разработана методика создания искусственной выборки и разработаны практические рекомендации по применению комплексной методики обнаружения сетевых вторжений. В частности, осуществлена программная реализация разработанной методики. Получены результаты экспериментов оценки сегментации термов и поиска исключений, а также проведен сравнительный анализ с существующим ведущим методом оценки аномалий протокола с неизвестной структурой.

Показано, что методика сегментации выделяет термы с 70% вероятностью. Установление, что разработанный метод имеет эффективность на 1517% больше по сравнению с известным подходом проекта PAYL. Вместе с тем следует отметить, что при сравнении их в условиях, когда протокол известен и применяются те же методы поиска исключений, результаты могут оказаться хуже. Данное обстоятельство связано с неточностью восстаповлепия грамматики. Результаты сегментации термов исследуемого протокола получены при проведении эксперимента №1.

Исследование условий применения метода обнаружения аномалий протокола показало, что характерной особенностью данных является их сложная структура. В связи с тем, что достаточно трудно разделять грамматики различных протоколов, необходимо вводить в качестве параметров - порт исследуемого протокола и направление. С использованием этих параметров собирается обучающая выборка.

В третьей главе описаны также методы и средства реализации первой версии программного комплекса обнаружения аномалий протокола, основные режимы работы программного комплекса, приводится обоснование выбора использованных программных средств реализации.

Программный комплекс, реализующий метода обнаружения аномалий протокола, разработал па основе операционной системы Windows. Ядро экспериментальной системы обнаружения аномалий протокола состоит из сле-

дующих модулей:

TDI-фильтр - сетевой фильтр, разработаный как драйвер и реализующий возможность перехвата сетевого трафика;

Системный сервис - реализован как Windows NT сервис. Данный сервис содержит следующие модули:

- обработчик запросов;

- модуль восстановления грамматики;

- модуль поиска исключений.

Обработчик запросов - является промежуточным модулем в сервисе ответственным за обработку и принятие решении на основании тех или иных запросов. Использует настройки, заданные в конфигурационном файле;

Модуль восстапвления грамматики - реализует часть предложенного метода обнаружения аномалий протокола с неизвестной структурой. Данный модуль обеспечивает сегментацию термов и формирование гра-матики на основании сформированной обучающей выборки; Модуль поиска исключений - выполняет третью часть предложенной методики и оценивает проходящий трафик па предмет аномальности протокола;

Кроме того, в состав программного комплекса входят:

- внешняя консоль управления, которая обеспечивает подачу сигнала сервису об обновлении конфигурационного файла;

- внешнее хранилище - представляет собой структурированные файлы. Структура разработанного прототипа показана на рис. 3.

Основным компонентом, осуществляющим перехват трафика, является ' TDI-фильтр. Он представляет собой драйвер, подключенный к объектам -устройствам драйвера TCP/IP, что позволяет перехватывать запросы, исходящие от TDI-клиентов к транспортному драйверу.

Рис. 3. Структурная схема экспериментальной СОВ

Сформированные рекомендации по использованию предлагаемой методики влючают также ограничения на характеристики анализируемого протокола. Например, длина терма должна быть больше или равна двум. Кроме того, приведены рекомендации по действиям, осуществляемым на основании полученных результатов обнаружения вторжений.

Применение разработапных методов и созданных на их основе первой версии прототипа обнаружения аномалий протокола подтвердили целесообразность использования методов сегментации и востановления грамматики в процессе обнаружения аномалий протокола с неизвестной структурой.

Результаты диссертационного исследования используются при разработке компонент обнаружения вторжений в комплексном решении обеспечения безопасности корпоративной сети компании ООО "Стокона" (г. Москва). ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ Применение разработанных методов и средств обнаружения аномалий протокола подтвердило целесообразность использования методов сегмента-

ции и восстановления грамматики в процессе восстановления исследуемой структуры протокола, что позволяет снизить количество ложных срабатываний и повысить эффективность обнаружения аномалий в разрабатываемых системах обнаружения сетевых вторжений на 15-17 процентов по сравнению с ведущим методом в дашюй области.

Проведенные исследования и практическая работа позволили получить следующие результаты:

1. Разработана методика сегментации термов исследуемой грамматики, позволяющая выделять последовательности символов, являющиеся термами грамматики анализируемого протокола.

2. Разработана методика восстановления грамматики, которая позволяет описать с использованием полученных термов грамматические цепочки исследуемого протокола.

3. Разработана и обоснована методика поиска исключений, которая включает в себя комплексное применение методов для анализа термов грамматики и передаваемых данных в протоколе.

По теме диссертации опубликованы следующие работы:

1. Говов И.Ю., Шевченко A.C. Персональные и корпоративные межсетевые экраны. Сборник „Обеспечение безопасности информации в корпоративных сетях", под редакцией Филиппова, Институт компьютерных технологий, г. Москва, 2002 г. - С. 19-22.

2. Иржевский A.A., Шевченко A.C., Корпоративная антивирусная защита, Сборник „Обеспечение безопаспости информации в корпоративных сетях", Под редакцией Филиппова, Институт компьютерных технологий, г. Москва, 2002 г. - С.&-14.

3. Шевченко A.C. Результаты паучно-исследовательской работы в области антивирусной защиты информационных сетей. Научно-технический отчет по НИР "Композитор". Учебный центр банковских технологий МГ-ТУ "Промстройбанк". 2002 г. (подраздел 1.6. Программно-аппаратные

системы защиты программного ресурса, С.35-43 и подраздел 2.1.4, Обзор антивирусных средств, С.61-63.

4. Шевченко A.C. Системная служба для анализа процессов, выполняемых Windows NT/2000, Журнал „Информационные технологии", №8, 2003. - С.52-56.

5. Шевченко A.C. Исследование методов интеллектуального анализа данных в задачах обнаружения сетевых атак. Научно-техническая конференция студентов, аспирантов и молодых специалистов МГИЭМ. Тезисы докладов, М., 2005 г. - С.201,

6.'Шевченко A.C. Исследование применения структурных методов распознавания в задачах обнаружения сетевых вторжений. XIII Международная студенческая школа-семинар "Новые-информационные технологии", Сборник докладов, 2005 г. - С.264.

7. Шевченко A.C., Зыков А.К. Методы обнаружения сетевых вторжений. Информационные, сетевые и телекоммуникационные технологии. Сборник научных трудов, под ред. проф. д.т.н. Жданова B.C., МГИЭМ, М.:,

2005. - С.114-117.

8. Шевченко A.C. Методы обнаружения аномалий в системах обнаружения сетевых вторжений. Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов, Ростов-на-Дону, 2006 г. - С.138

9.. Шевченко A.C. Обнаружение аномалий прикладного протокола с неизвестной структурой в компьютерных сетях. Научный и общественно-теоретический журнал "Научная мысль Кавказа", Приложение №11,

2006. - С.278-283.

Тираж 100 экз. Заказ № 846 Отпечатано «АллА Принт» Тел.: (495) 621-86-53 Факс: (495) 621-70-09 www.allaprint.ru

Оглавление автор диссертации — кандидата технических наук Шевченко, Александр Сергеевич

Список сокращений.

Введение.

ГЛАВА 1. Анализ методов и алгоритмов обнаружения сетевых атак

1.1. Анализ сетевых атак.

1.2. Основные методические подходы и системы обнаружения сетевых вторжений.

1.3. Постановка научной задачи и частные задачи исследования

1.4. Выводы по главе.

ГЛАВА 2. Разработка комплексной методики обнаружения сетевых вторжений

2.1. Структура и составные части комплексной методики.

2.2. Выбор показателя оценки обнаружения сетевых вторжений

2.3. Методика сегментации термов прикладного протокола.

2.3.1. Анализ методов сегментации.

2.3.2. Выбор и обоснование методики сегментации.

2.3.3. Разработка алгоритма сегментации.

2.4. Методика восстановления стохастической грамматики прикладного протокола.

2.4.1. Анализ методов восстановления грамматики.

2.4.2. Выбор и обоснование методики восстановления грамматики

2.4.3. Разработка алгоритма восстановления грамматики.

2.5. Выбор методов обнаружения аномалий протоколов.

2.5.1. Анализ методов поиска исключений.

2.5.2. Выбор и применение метода поиска исключения.

2.5.3. Оценка аномальности работы пользователя или программы

2.6. Выводы по главе.

ГЛАВА 3. Эксперементальное обоснование научных результатов исследования

3.1. Технология проведения эксперементов.

3.2. Исследование условий обнаружения аномальности протокола

3.3. Программная реализация комплексной методики обнаружения сетевых вторжений.

3.3.1. Архитектура и функциональность экспериментальной системы обнаружения атак.

3.4. Верификация результатов исследования.

3.5. Разработка рекомендаций использования комплексной методики обнаружения сетевых вторжений.

3.6. Выводы по главе.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Шевченко, Александр Сергеевич

Актг)альиостъ темы. Современный этап развития общества характеризуется возрастающей ролью информационной сферы, представляющей совокупность информационной инфраструктуры и субъектов, осуществляющих сбор, формирование и распространение информации.

Интенсивное развитие и широкое применение информационных технологий во всех сферах человеческой деятельности является объективным фактором, определяющим проблему информационной безопасности актуальной, как в настоящее время, так и в перспективе.

В связи с широким распространением глобальной информационной сети Интернет и развитием компьютерных сетей, возникла реальная потребность в их защите от внешних воздействий со стороны злоумышленников. Например, осуществление атак через сеть Интернет становится способом проведения информационных операций, а также совершения преступлений в финансовой и других сферах, в том числе членами террористических организаций.

Компьютерные сети на протяжении всей своей истории развития содержали потенциальную опасность нарушения конфиденциальности обрабатываемой или передаваемой информации. В последнее время, когда большинство государственных и коммерческих организаций имеют собственные сети, а также выход в глобальную сеть, вероятность несанкционированного доступа к закрытым для посторонних лиц сведениям значительно возрастает и обуславливает необходимость своевременного принятия специальных мер защиты, в частности, использования систем обнаружения вторжений. Вместе с тем, в условиях изменчивости качественных и количественных характеристик сетевых атак, возникает потребность в совершенствовании существующих систем и алгоритмов обнаружения вторжений, что представляет собой актуальную научную задачу.

Состояние научной задачи. К настоящему времени в области обнаружения сетевых вторжений преобладает подход обнаружения злоупотреблений, который основан на построении модели сетевой атаки. Однако, данный подход имеет очевидные ограничения, связанные, прежде всего, с невозможностью обнаружения новых, отличающихся от предыдущих, атак. С целью устранения таких ограничений был предложен и в течение последнего десятилетия получил развитие подход обнаружения аномалий, основанный на построении моделей поведения пользователей или программ. Исследованиям в этой области посвящены работы Петровского М.И. "Исследование и разработка алгоритмов поиска исключений в системах интеллектуального анализа данных", Хафизова А.Ф. "Нейросетевая модель обнаружения атак на WWW-сервер", Дружинина E.JI. "Разработка методов и программных средств выявления аномальных состояний компьютерной сети", Сердюка В.А. "Разработка и исследование математических моделей защиты автоматизированных систем от информационных атак", Слюсаренко И.М. "Методика обнаружения и оценивания аномалий информационных систем на основе системных вызовов" и

ДР

За рубежом данные вопросы освещаются в работах Mahoney М. V. "А Machine Learning Approach to Detecting Attacks by Identifying Anomalies in Network Traffic", Lazarevic A. "A Comparative Study of Anomaly Detection Schemes in Network Intrusion Detection", Ke Wang, Salvatore J. Stolfo "Anomalous Payload-based Network Intrusion Detection" и др. В целом в данных работах достаточно подробно рассматриваются вопросы обнаружения аномалий. Однако, предложенные в них методы обнаружения аномалий, оценивающие прикладную часть протокола, имеют недостаточную эффективность и не удовлетворяют предъявляемым современным требованиям.

Объект исследования. Интеллектуальные системы анализа данных с целью обнаружения вторжений в телекоммуникационных сетях.

Предмет исследования. Методы, алгоритмы и аппаратно - программные средства обнаружения несанкционированного доступа к информационным ресурсам.

Цель исследования. Целью данной работы является повышение эффективности обнаружения сетевых вторжений в компьютерных сетях.

Рамки исследования. В процессе исследования рассматриваются возможности обнаружения аномалий прикладной части протокола с неизвестной структурой.

Научная задача. Научная задача состоит в разработке методов и алгоритмов обнаружения несанкционированного доступа к информационным ресурсам. В соответствии с поставленными целями решаются следующие научные задачи:

1. Анализ существующих сетевых атак, систем и методов обнаружения сетевых вторжений;

2. Выбор критериев оценки методов обнаружения аномалий протокола;

3. Разработка методики сегментации;

4. Разработка методики восстановления грамматики;

5. Формирование и обоснование методики поиска исключений;

6. Формирование и обоснование критериев оценки протокола;

7. Разработка методики проведения экспериментов.

Актуальность научной задачи. Актуальность научной задачи обусловлена необходимостью совершенствования методического аппарата обнаружения сетевых вторжений в условиях динамики и неопределенности используемых в компьютерных сетях прикладных протоколов.

Методы исследования. В работе использовались методы системного анализа и теории принятия решений. При разработке методики сегментации и поиска исключений применялись методы теории распознавания образов, а также теории математической статистики. Методика восстановления грамматики базируется на структурных методах распознавания образов. Широко использовалось моделирование на персональных ЭВМ, в том числе с использованием самостоятельно разработанного автором программного обеспечения.

Краткая аннотация частей. В первой главе изложен анализ сетевых атак. Проведена их классификация и рассмотрены основные типы атак. Рассмотрены основные методические подходы и системы обнаружения сетевых вторжений. На основании результатов проведенного анализа сформулированы постановка задачи и частные задачи исследования.

Вторая глава посвящена разработке комплексной методики обнаружения сетевых вторжений, которая включает методику сегментации признаков, методику восстановления грамматики и методику обнаружения аномалий прикладного протокола с неизвестной структурой. Приведены структура и согласованные по входным и выходным параметрам составные части предлагаемой методики. На основе анализа основных методических подходов, используемых в исследуемой области, проведен выбор показателя эффективности обнаружения сетевых вторжений. В процессе проведенного исследования разработана методика сегментации, осуществляющая формирование словаря исследуемого прикладного протокола и определение случайных данных. Основной отличительной особенностью поставленной в диссертационной работе научной задачи является то, что она направлена на повышение эффективности ее решения в условиях отсутствия априорной информации о прикладном протоколе. С целью повышения эффективности обнаружения аномальности работы прикладного протокола разработана методика восстановления грамматики, позволяющая описывать исследуемый прикладной протокол. Произведен выбор метода поиска исключений и разработаны требования по применению его для оценки аномалий работы исследуемого прикладного протокола. Выбранный для диссертационного исследования метод базируется на применении локального фактора исключительности (LOF - local outlier factor), обеспечивающего поиск исключений. Кроме того, для оценки корректности работы прикладного протокола сформированы дополнительные критерии оценки. С целью оценки характера передаваемых в компьютерных сетях данных с использованием анализируемого протокола и последующим их сравнением предложено усовершенствовать методику обнаружения аномалий распределения данных в прикладной части пакета, которая была разработана в Колумбийском университете (США) в рамках проекта PAYL.

В третьей главе проведено экспериментальное обоснование эффективности методического аппарата и разработаны практические рекомендации по применению разработанной методики. В частности, осуществлена программная реализация комплексной методики обнаружения сетевых вторжений. В процессе проведения исследования получены результаты экспериментов оценки сегментации термов и поиска исключений, а также проведен их сравнительный анализ с существующими методами оценки аномалий прикладного протокола с неизвестной структурой.

При проведении исследования предложено использовать новый для данной области научный подход, основанный на восстановлении грамматики прикладного протокола с неизвестной структурой. На основе полученных результатов исследования сформированы предложения по использованию методов обнаружения аномальности прикладных протоколов.

Реализация и внедрение. Результаты диссертационного исследования реализованы в виде: модуля обнаружения сетевых вторжений на основе методов поиска исключений; межсетевого экрана с возможностью анализа сетевой активности; сетевого фильтра, осуществляющего анализ сетевого трафика с целью выявления злонамеренных действий и данных, способных оказать деструктивное влияние на работу компьютера; предложений по использованию локальных метрических алгоритмов в задачах обнаружения аномалий поведения пользователя или программ. Они использованы при разработке компонент обнаружения вторжений в комплексном решении обеспечения безопасности корпоративной сети компании ООО "Стокона" (г. Москва), в научно-исследовательской работе и учебном процессе Московского института электроники и математики (технический университет).

Апробация работы, публикации по теме диссертации. Основные научные результаты диссертационного исследования опубликованы в 9 печатных работах. Отдельные результаты работы докладывались на научных семинарах в Московском государственном институте электроники и математики, а также на следующих конференциях и семинарах:

- ежегодные научно-технические конференции студентов, аспирантов и молодых специалистов МИЭМ (Москва, 2003-2006 гг.);

- XIV международная студенческая школа-семинар "НОВЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ" (Судак, 2005 г.);

- международный семинар, проводимый ведущей в области информационной безопасности финской компанией Г-8есиге(Хельсинки, 2006 г.).

Заключение диссертация на тему "Исследование и разработка комплексной методики обнаружения сетевых вторжений"

Основные результаты диссертационной работы заключаются в следующем:

1. Предложен метод формирования словаря восстанавливаемой грамматики протокола и выделения в структуре распределения случайных данных;

2. Разработан метод восстановления грамматики;

3. Исследована возможность применения выбранных методов поиска исключений для обнаружений аномалий протокола.

4. Разработана методика создания искусственного набора данных.

5. Проведен сравнительный анализ полученных результатов с методом обнаружения аномалий протокола с неизвестной структурой, разработанным и применяемым ведущими в данной области организациями;

6. Предложенная комплексная методика обнаружения сетевых вторжений реализованна в програмном компоненте. На базе данной компоненты построена экспериментальная система обнаружения атак.

Сформулированная цель диссертационной работы достигалась решением основной научной задачи, которая состояла в разработке комплексной методики обнаружения сетевых вторежений.

Процесс исследования осуществлялся путем последовательного решения частных задач исследования:

- анализ существующих сетевых атак, систем и методов обнаружения сетевых вторжений;

- выбор критериев оценки методов обаружения аномалий протокола;

- разработка методики сегментации;

- разработка методики восстановления грамматики;

- формирование методики поиска исключений;

- формирование критериев оценки протокола.

На основании сформированной системы полученных научных результатов работы представляется правомочным общий вывод о том, что поставленную научную задачу решить удалось. Доказательством обоснованности вывода являются следующие положения.

Показано:

1. Разработанная методика обнаружения сетевых вторжений превосходит существующие решения на 15 - 17 процентов;

2. Применение методов сегментации и восстановления грамматики с целью формирования структуры протокола повышает эффективность обнаружения аномальности протокола по сравнению с существующими методами;

3. Совместное использование локального метрического алгоритма и метода поиска аномалий передаваемых данных повышает эффективность обнаружения аномалий поведения пользователя или программы по сравнению с ранее известными методами поиска аномалий.

Доказано:

1. Использование алгоритмов сегментации языковых структур и методов восстановления грамматики позволяет восстанавливать исследуемую грамматическую структуру исследуемого протокола для проведения дальнейшего поиска исключений;

2. Комплексное применение различных методов поиска исключений при условии частично восстановленной структуры протокола с помощью разработанных методик сегментации и восстановления грамматики повышает эффективность обнаружения аномалий протоколов по сравнению с методикой проекта PAYL.

Предложены:

1. Подход использования методов сегментации и структурных методов распознования образов для восстановления исследуемой структуры грамматики протокола;

2. Практические рекомендации по применению разработанной в диссертации комплексной методики обнаружения сетевых вторжений при построении и развертывании корпоративной сети, удовлетворяющей требованиям защиты информации.

Обоснованы:

- основные направления дальнейшего развития методического аппарата обнаружения сетевых вторжений путем совершенствования методики сегментации и востановления грамматики, а также разработки более эффективных методов поиска исключений;

- практические рекомендации по использованию разработанной методики в различных условиях.

Полученные в ходе диссертационного исследования результаты опубликованы в 9 печатных работах, докладывались на научных конференциях и семинарах.

Соответствие полученных результатов исследования требованиям, предъявляемым к содержанию решения научной задачи, свидетельствует о достижении цели работы.

Научная новизна работы определяется получением новых научных результатов:

1. Разработана методика сегментации термов исследуемой грамматики;

2. Разработана методика восстановления грамматики;

3. Разработана и обоснована методика поиска исключений;

Достоверность и обоснованность полученных в диссертации результатов подтверждается:

- применением исходных данных и математических моделей, адекватных реальным условиям функционирования существующих компьютерных сетей;

- программной реализацией и экспериментальным подтверждением эффективности разработанных методов и моделей;

- использованием научных методов исследования и доказательностью сформулированных положений;

- реализацией предложенных практических рекомендаций в процессе разработки компоненты обнаружения вторжений в программном продукте Stocona Antivirus. Личный вклад автора в науку характеризауется разработкой нового методического подхода в исследовании и выявлении аномалий протокола с неизвестной структурой и возможностью использования основных результатов диссертационного исследования в развитии теории и практики защиты информации в компьютерных сетях.

Предметная область перспективных исследований по тематике работы не ограничивается рамками данной диссертации и предполагает в последующем углубленную разработку вопросов, связанных, прежде всего, с восстановлением структуры неизвестных данных и методов поиска исключений в компьютерных сетях и системах.

ЗАКЛЮЧЕНИЕ

Исследование информационных процессов, протекающих в компьютерных сетях, а также анализ научных публикаций по теме исследования показали, что в настоящее время не существует работ в полной мере отражающих вопросы, затрагиваемые в данной диссертационной работе.

В процессе проведения сопоставительного анализа существующих статистических методов моделирования и обнаружения аномалий были выявлены недостатки, присущие известным методам и системам. Было установлено, что все опубликованные и практикуемые методы обнаружения сетевых вторжений не способны в полной мере обеспечить решение задач обнаружения новых атак. Таким образом, объективно возникла необходимость развития и совершенствования методов обнаружения аномалий. Кроме того, такие методы, хотя принципиально и могли бы использоватся для обнаружения новых атак, в связи с ограниченным признаковым пространством не обеспечивают эффективного обнаружения атак прикладного уровня. Ряд других методов, которые способны осуществлять данную задачу, имеют ограничения, связанные с обобщенными критериями оценки прикладного протокола.

С учетом выявленных недостатков и актуальности выбранной темы была сформулированна цель диссертационной работы, которая заключалась в совершенствовании методического аппарата и создании алгоритма обнаружения аномалий протокола с неизвестной структурой для обнаружения сетевых атак в компьютерных сетях. В соответствии с поставленной целью сформулирована и решена научная задача разработки методов и алгоритмов обнаружения несанкционированного доступа к информационным ресурсам.

Библиография Шевченко, Александр Сергеевич, диссертация по теме Телекоммуникационные системы и компьютерные сети

1. Агеев M., Кураленок И. Официальные метрики ромип '2004 // Труды второго российского семинара по оценке методов информационного поиска. — 2004. — С. 142-150. http://romip.narod.ru/romip2004/.

2. Атака из Internet / И. Д. Медведовский, П. В. Семьянов, Д. Г. Леонов, А. В. Лукацкий. М.: СОЛОН-Р, 2002. - 368 с.

3. Беляев А., Петренко С. Системы обнаружения аномалий: новые идеи в защите информации.— Экспресс-Электроника №2.— 2004. http: //www.uran.donetsk.ua/masters/2004/fvti/zlatokrilets/library/ sourcel .htm.

4. Говов И. Ю., Шевченко А. С. Персональные и корпоративные межсетевые экраны // Сборник «Обеспечение безопастности информации в корпоративных сетях», Под редакцией Филиппова. — 2002. — С. 19-22.

5. Гонсалес Д. Т. Р. Принципы распознавания образов.— М.: Изд-во «Мир», 1978.

6. Друэ/синин Е. Л. Разработка методов и программных средств выявления аномальных состояний компьютерной сети: Ph.D. thesis / Московский Инженерно-физический Институт. — 2005.

7. Ирэюевский А. А., Шевченко А. С. Корпоративная антивирусная защита // Сборник „Обеспечение безопастности информации в корпоративных сетях11, Под редакцией Филиппова. — 2002. — С. 8-14.

8. Касперски К. Техника сетевых атак. — Москва: СОЛОН-Р, 2001.

9. Лукацкий А. В. Атаками весь мир полнится // Компьютер-Пресс.— 2001. № 10.

10. И. Лукацкий А. В. Обнаружение атак 2-е издание.— Санкт-Петербург: БХВ-Петербург, 2003. 608 с.

11. Самоучитель по программированию систем безопасности. http://xsector.ru/2006/09/01/print:page,l, programmirovaniesistemzashhity.html.

12. Сердюк В. А. Разработка и исследование математических моделей защиты автоматизированных систем от информационных атак: Ph.D. thesis / Российский Государственный Технологический Университет им. К.Э. Циолковского. — 2004.

13. Слюсареико И. М. Методика обнаружения и оценивания аномалий информационных систем на основе анализа системных вызовов: Ph.D. thesis / Петербургский государственный университет путей сообщения. 2006.

14. Фу К. Структурные методы в распознавании образов. — Издательство «Мир», 1977.

15. Хафизов А. Ф. Нейросетевая система обнаружения атак на WWW-сервер: Ph.D. thesis / Уфимский государственный авиационный технический университет. — 2004.

16. Шевченко А. С. Системная служба для анализа процессов, выполняемых windows nt/2000 // Журнал „Информационные технологии".— 2003.-№8.-С. 52-56.

17. Шевченко А. С. Исследование методов интеллектуального анализа данных в задачах обнаружения сетевых атак // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. — 2005. — С. 201.

18. Шевченко А. С. Исследование применения структурных методов распознавания в задачах обнаружения сетевых вторжений // XIII Международная студенческая школа-семинар "Новые информационные технологии". - 2005. - С. 264.

19. Шевченко А. С. Методы обнаружения сетевых вторжений // Информационные, сетевые и телекоммуникационные технологии: сборник научных трудов, под ред. проф. д.т.н. Жданова B.C., МГИЭМ. — 2005. — С. 114-117.

20. Шевченко А. С. Методы обнаружения аномалий в системах обнаружения сетевых вторжений // Научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ. Тезисы докладов. — 2006. С. 138.

21. Шевченко А. С. Обнаружение аномалий прикладного протокола с неизвестной структурой в компьютерных сетях // Научная мысль Кавказа. 2006. — № П. — С. 278-283.

22. Adam: Detecting intrusions by data mining / D. Barbara, J. Couto, S. Ja-jodia et al. // IEEE Workshop on Information Assurance and Security. — 2001.

23. Ando R. K., Lee L. Mostly-unsupervised statistical segmentation of Japanese kanji sequences // Journal of Natural Language Engineering. — 2003. citeseer.ist.psu.edu/ando03mostlyunsupervised.html.

24. Angiulli F.; Pizzuti C. Outlier mining in large high-dimensional data sets // IEEE Transactions on Knowledge and Data Engineering. — 2005. — Vol. 17, no. 2.-Pp. 203-215.

25. Huang X., Peng F., Schuurmans D. et al. Applying machine learning to text segmentation for information retrieval. — 2002. cite-seer.ist.psu.edu/huang02applying.html.

26. Arning A., Agrawal R., Raghavan P. A linear method for deviation detection in large databases // Knowledge Discovery and Data Mining. — 1996. — Pp. 164-169. citeseer.ist.psu.edu/arning961inear.html.

27. Aroonmanakun W. Collocation and thai word segmentation. — 2002. cite-seer.comp.nus.edu.sg/aroonmanakun02collocation.html.

28. Barford P., Plonka D. Characteristics of network traffic flow anomalies.— In Proceedings of the ACM SIGCOMM Internet Measurement Workshop. —2001. citeseer.ist.psu.edu/barford01characteristics.html.

29. Kruegel C., Mutz D., Robertson W., Valeur F. Bayesian event classification for intrusion detection. — In 19th Annual Computer Security Applications Conference, Las Vegas, Nevada.— 2003. cite-seer.ist.psu.edu/kruegel03bayesian.html.

30. BenGal I. Outlier detection. — Kluwer Academic Publishers, 2005.

31. Bolzoni D., Etalle S. Approaches in anomaly-based intrusion detection systems. — 1st Benelux Workshop on Information and System Security.— 2006. November 8-9.

32. Brent M. An efficient, probabilistically sound algorithm for segmentation and word discovery. — Machine Learning, 34:71-106. — 1996. http://www.cs.fit.edu/ pkc/ml/related/brent-mlj99.pdf.

33. Brent M., Cartwright T. Distributional regularity and phono-tactic constraints are useful for segmentation.— 1996. cite-seer.ist.psu.edu/brent96distributional.html.

34. Burgess M. Probabilistic anomaly detection in distributed computer // CiteSeer.IST Scientific Literature Digital Library, cite-seer.ist.psu.edu/696673.html.

35. Tang J., Chen Z., Fu A., Cheung D. Capabilities of outlier detection schemes in large datasets, framework and methodologies. — Knowledge and Information Systems. — 2006.

36. Cert/cc statistics 1988-2006: Tech. rep.: Software Engineering Institute, 2006. http://www.cert.org/stats/certstats.html#vulnerabilities.

37. Chan P. K., Mahoney M. V., Arshad M. H. A machine learning approach to anomaly detection: Tech. Rep. CS-2003-06. Melbourne, FL 32901: Department of Computer Sciences, Florida Institute of Technology, 2003. — March.

38. Chen Z., Fu A. W.-C., Tang J. On complementarity of cluster and outlier detection schemes. // DaWaK.— 2003.— Pp. 234243. http://springerlink.metapress.com/openurl. asp?genre=article&;issn=0302-9743&volume=2737&spage=234.

39. Christiansen M., Allen J. Coping with variation in speech segmentation // Language Acquisition: Knowledge Representation and Processing. — 1997. Pp. 327-332.

40. Christiansen M., Allen J., Seidenberg M. Learning to segment speech using multiple cues: A connectionist model. — 1998. cite-seer.ist.psu.edu/christiansen981earning.html.

41. A Comparative Study of Anomaly Detection Schemes in Network Intrusion Detection.— San Francisco, 2003.— May. Proceedings of Third SIAM Conference on Data Mining, http: / / www.cs.umn.edu/research/minds/papers/siam2003.pdf.

42. A compression-based algorithm for Chinese word segmentation / W. J. Teahan, Y. Wen, R. J. McNab, I. H. Witten // Computational Linguistics.— 200.— Vol. 26, no. 3.— Pp. 375-393. cite-seer. ist. psu. edu/article / teahanOOcompressionbased .html.

43. Das K. Protocol anomaly detection for network-based intrusion detection // SANS. — 2001. http://www.sans.org/rr/whitepapers/detection/349.php.

44. Deligne S., Bimbot F. Language modeling by variable length sequences: Theoretical formulation and evaluation of multigrams // Proc. ICASSP '95.- Detroit, MI: 1995.- Pp. 169-172. citeseer. ist. psu .edu/deligne951anguage.html.

45. Emran S. M., Ye N. Robustness of Canberra metric in computer intrusion detection. — Workshop on Information Assurance and Security United States Military Academy, West Point. — 2001.

46. Ge X., Pratt W., Smyth P. Discovering Chinese words from unsegmented text (poster abstract) // Research and Development in Information Retrieval.— 1999.— Pp. 271-272. citeseer.ist.psu.edu/ge99discovering.html.

47. Eskin E., Arnold A., Prerau M. et al. A geometric framework for unsupervised anomaly detection: Detecting intrusions in unlabeled data.— In Data Mining for Security Applications.— 2002. cite-seer.ist.psu.edu/eskin02geometric.html.

48. Hoagland J. — Silican Defense. — 2000. http://www.silicondefense.com /software/ spice.

49. Hua Y. Unsupervised word induction using mdl criterion, cite-seer .ist .psu.edu/380240.html.

50. Cretu G. F., Parekh J. J., Wang K., Stolfo S. J. Intrusion and anomaly detection model exchange for mobile ad-hoc networks. http://wwwl.cs.columbia.edu/ids/publications/.

51. Intrusion detection faq. — Web page.— 2006. http: / / www.sans.org/resources/idfaq/.

52. Intrusion detection methodologies demystified. — 2003. http://www.seclib.com/seclib/ids.general/IDMethodologiesDemystified.pdf.

53. Javits H. S., Valdes A. The nides statistical component: Description and justification: Tech. rep.: SRI International, Computer Science Laboratory, 1993.

54. Jin W., Tung А. К. H., Han J. Mining top-n local outliers in large databases // Knowledge Discovery and Data Mining. — 2001. — Pp. 293-298. cite-seer.ist.psu.edu/440808.html.

55. Kazienko P., Dorosz P. Intrusion detection systems (ids) part 2 classification; methods; techniques // WindowSecurity.com.— 2004. http: //www.windowsecurity.com/articles/IDS-Part2-Classification-metliods-techniques.html.

56. Kit C. Unsupervised Lexical Learning as Inductive Inference: Ph.D. thesis / University of Sheffield,UK. — 2000. kit00unsupervised.pdf.

57. Kit C., Wilks Y. Unsupervised learning of word boundary with description length gain. — 1999. citesecr.ist.psu.edu/kit99unsuperviscd.html.

58. Knorr E. M., Ng R. T. Algorithms for mining distance-based outliers in large datasets // Proc. 24th Int. Conf. Very Large Data Bases, VLDB.— 1998. —24-27 .— Pp. 392-403. citeseer.ist.psu.edu/knorr98algorithm.html.

59. Kruegel C., Vigna G. Anomaly detection of web-based attacks. — In Proceedings of 10th ACM Conference on Computer and Communications Security (CCS'03).— 2003. — October, cite-seer. ist. psu.edu / article/kruegel03anomaly. html.

60. Kruegel C., Vigna G., Robertson W. A multi-model approach to the detection of web-based attacks // Comput. Networks. — 2005. — Vol. 48, no. 5. — Pp. 717-738.

61. Kruengkrai C., Sornlertlamvanich V., Isahara H. A conditional random field framework for thai morphological analysis. — Proceedings of the Fifth International Conference on Language Resources and Evaluation. — 2006.

62. Krugel C., Toth Т., Kirda E. Service specific anomaly detection for network intrusion detection // ACM Symposium on Applied Computing. — 2002.

63. Lazarevic A. Personal page. — Web page, http://www-users.cs.umn.cdu/ aleks/.

64. Lazarevic A., Kumar V. Feature bagging for outlier detection. — SIGKDD. — 2005.

65. Lee W. A Data Mining Framework for Constructing Features and Models for Intrusion Detection Systems: PhD dissertation / Columbia University. — 1999.

66. Lee W., Stolfo S. J. A framework for constructing features and models for intrusion detection systems // Information and System Security. — 2000. — Vol. 3, no. 4.— Pp. 227-261. citeseer.ist.psu.edu/article/leeOOframework.html.

67. Li W. Mutual information functions versus correlation functions. — 1990. citeseer.ist.psu.edu/li90mutual.html.

68. Li Z., Das A., Zhou J. Model generalization and its implications on intrusion detection // ACNS. 2005. - Pp. 222-237.

69. Liao Y., Vemuri V. R. Using text categorization techniques for intrusion detection //11th USENIX Security Symposium. — San Francisco, С A: 2002. — August 5-9. — Pp. 51-59. citeseer.ist.psu.edu/liao02using.html.

70. Locasto M. et al. Towards collaborative security and P2P intrusion detection. citeseer.ist.psu.edu/locasto05towards.html.

71. LOF: identifying density-based local outliers / M. M. Breunig, H.-P. Kriegel, R. T. Ng, J. Sander // Proc. ACM SIGMOD 2000 Int. Conf. On Management of Data. — 2000. — Pp. 93-104. citcsccr.ist.psu.edu/breunig001of.html.

72. Lozano E., Acuna E. Parallel algorithms for distance-based and density-based outliers // ICDM '05: Proceedings of the Fifth IEEE International Conference on Data Mining. — IEEE Computer Society, 2005.

73. Lu Q. Term segmentation for Chinese clir. — 2004. — December, http: / / www.nvc.vt.edu/ceege/qifeng/lukelufiles/CCLIR.pdf.

74. Ma P. — Log Analysis-Based Intrusion Detection via Unsupervised Learning. — Master's thesis, School of Informatics University of Edinburgh, 2003. citeseer. ist .psu.edu / ma031og. html.

75. Mahoney M. Network traffic anomaly detection based on packet bytes. —2003. citeseer.ist.psu.edu/mahoncy03network.html.

76. Mahoney M., Chan P. Phad: Packet header anomaly detection for identifying hostile network traffic. — Technical report, Florida Tech. — 2001. — April. citeseer.ist.psu.edu/mahoney01phad.html.

77. Mahoney M., Chan P. Learning nonstationary models of normal network traffic for detecting novel attacks. — Edmonton, Alberta: Proc. SIGKDD. — 2002. citeseer.ist.psu.edu/mahoney021earning.html.

78. Mahoney M. V. A Machine Learning Approach to Detecting Attacks by Identifying Anomalies in Network Traffic: Ph.D. thesis / College of Engineering at Florida Institute of Technology.— 2003. http://www2.cs.fit.edu/ pkc/theses/mahoney03.pdf.

79. Mahoney M. V., Chan P. K. An analysis of the 1999 darpa/lincoln laboratory evaluation data for network anomaly detection.— 1999. cite-seer.ist.psu.edu/mahoney03analysis.html.

80. Maxion R. A., Roberts R. R. Proper use of roc curves in intrusion/anomaly detection: Tech. rep.: School of Computing Science, Newcastle University,2004. http://www.cs.ncl.ac.uk/research/pubs/trs/papers/871.pdf.

81. MEKNAVIN S., CHAROENPORNSAWAT P, KIJSIRIKUL B. Feature-based thai word segmentation. — 1997. cite-seer. ist. psu.edu/meknavin97feat ur ebased. ht ml.

82. The MINDS Minnesota Intrusion Detection system / L. Ertoz, E. Eilert-son, A. Lazarevic et al. // Next Generation Data Mining. — MIT Press, 2004. http://www.cs.umn.edu/research/minds/papers/mindschapter.pdf.

83. Nagao M., Mort S. A new method of n-gram statistics for large number of n and automatic extraction of words and phrases from large text data of japanese. citeseer.ist.psu.edu/nagao94new.html.

84. Northcutt S., Novak J. Network Intrusion Detection. 3rd edition. — 2002. — 512 pp.

85. A novel anomaly detection scheme based on principal component classifier / M.-L. Shyu, S.-C. Chen, K. Sarinnapakorn, L.-W. Chang // IEEE Foundations and New Directions of Data Mining Workshop. — 2003.

86. OPTICS-OF: Identifying local outliers / M. M. Breunig, H.-P. Kriegel, R. T. Ng, J. Sander // Principles of Data Mining and Knowledge Discovery. — 1999. — Pp. 262-270. citeseer.ist.psu.edu/242188.html.

87. Hawkins S., He H., Williams G., Baxter R. Outlier detection using replicator neural networks. — 2002. citeseer.ist.psu.edu/hawkins02outlier.html.

88. Peng F. Automatic Multi-Lingual Information Extraction: Ph.D. thesis / Computer Science Department The University of Waterloo, citeseer.ist.psu.edu/peng01automatic.html.

89. Peng F. The Sparse Data Problem in Statistical Language Modeling and Unsupervised Word Segmentation: Ph.D. thesis / Computer Science Department The University of Waterloo. — 2001. — October, proposal3.pdf.

90. Peng F., Schuurmans D. A hierarchical em approach to word segmentation // CiteSeer.IST Scientific Literature Digital Library.— 2001. cite-seer.ist.psu.edu/article/pengOlhierarchical.html.

91. Porras P., Neumann P. Emerald: Event monitoring enabled responses to anomalous live disturbances. — National Information Systems Security Conference. — 1997.

92. Portnoy L., Eskin E., Stolfo S. Intrusion detection with unlabeled data using clustering. — In ACM Workshop on Data Mining Applied to Security. — 2001. citeseer.ist.psu.edu/portnoy01intrusion.html.

93. Potipiti Т., Sornlertlamvanich V., Charoenporn T. Automatic corpus-based thai word extraction // CiteSeer.IST Scientific Literature Digital Library. —2000. citeseer.ifi.unizh.ch/potipitiOOautomatic.html.

94. Provost F., Fawcett T. Robust classification for imprecise environments // CiteSeer.IST Scientific Literature Digital Library.— 1999. eite-seer.ifi.unizh.ch/provost01robust.html.

95. Qin M., Hwang K. Anomaly intrusion detection by internet datamining of traffic episodes: Tech. rep.— Los Angeles, CA 90089: Internet and Grid Computing Laboratory University of Southern California, 2003.

96. Rennie J. D. M. — 2004. — February, http://people.csail.mit.edu/jrennie/writing.

97. Tang J., Chen Z., Fu A., Cheung D. A robust outlier detection scheme in large data sets. — PAKDD. — 2002. citeseer.ist.psu.edu/tang01robust.html.

98. Application of Machine Learning Algorithms to KDD Intrusion Detection Dataset within Misuse Detection Context.— Las Vegas, 2003. http://www.cs.unc.edu/ jeffay/courses/nidsS05/ai/mlmta03.pdf.

99. Sarkar A., Zeman D. Automatic extraction of subcategorization frames for czecll. — 2000. citeseer.ist.psu.edu/sarkarOOautomatic.html.

100. The science of intrusion detection system, attack identification, 1992-2003. — 2003. www.cisco.com/warp/public/ сс/pd/sqsw/sqidsz / prodlit/idssa wp.pdf.

101. Smirnov V. V. Firewall for windows. — 2000-2005. http://www.ntkernel.com.

102. Sommer R. Viable Network Intrusion Detection in High-Performance Environments: Ph.D. thesis / Technical Universary Munchen. — 2005.

103. Sornlertlamvanich V., Potipiti Т., Charoenporn T. Automatic corpus-based thai word extraction with the c4.5 learning algorithm. — 2000. citeseer.ist.psu.edu/sornlertlamvanich00automatic.html.

104. Sornlertlamvanich V., Tanaka H. The automatic extraction of open compounds from text corpora.— 1996. cite-seer.ist.psu.edu/article/sornlertlamvanich96automatic.html.

105. Sun M., Shen D., Tsou B. Chinese word segmentation without using lexicon and hand-crafted training data. In Proc. of COLING-ACL '98. - 1998.citeseer.ist.psu.edu/sun98chinese.html.

106. Tandon G., Chan P., Mitra D. Data cleaning and enriched representations for anomaly detection in system calls.— In Machine Learning and Data Mining for Computer Security: Methods and Applicatioins. — 2006.

107. Taylor C., Alves-Foss J. An empirical analysis of nate: Network analysis of anomalous traffic events. — 10th New Security Paradigms Workshop (NSPW).— 2002. citeseer.ist.psu.edu /taylor02empirical.html.

108. Theuns V., Ray H. Intrusion detection techniques and approaches. — Computer Communications, №25. — 2002.

109. Zurich, CH: ACM Press, New York, US, 1996.- Pp. 298-306. citeseer.ist.psu.edu/lewis96training.html.

110. Church K., Gale W., Hanks P., Hindle. Using statistics in lexical analysis. — Bell Laboratories and Oxford University Press. — 1991.

111. Valeur F., Mutz D., Vigna G. A learning-based approach to the detection ofsql attacks. http://www.auto.tuwien.ac.at/Workshops/dimva05/materials/vigna.pdf.

112. Vigna G., Kemmerer R. A. Netstat: A network-based intrusion detection approach // ACSAC. — 1998. — P. 25. citeseer.ist.psu.edu/vigna98netstat.html.

113. Wang K., Stolfo S. J. Anomalous payload-based network intrusion detection // RAID.— 2004. — September.http://wwwl.cs.columbia.edu/ids/publications/RAID4.PDF.

114. Wikipedia. http://en.wikipedia.org/wiki.

115. Williams G., Baxter R. et al. A comparative study of rnn for outlier detection in data mining. — 2002. citeseer.ist.psu.edu/williains02comparative.html.

116. Yamamoto M., Church K. Using suffix arrays to compute term frequency and document frequency for all substrings in a corpus // Proceeding of Sixth Workshop on Very.— 1998. http://www.milab.is.tsukuba.ac.jp/ mya-ma/publications/pdf/wvlc98yc.pdf.

117. Yang Y. An evaluation of statistical approaches to text categorization // Information Retrieval— 1999.— Vol. 1, no. 1/2.— Pp. 69-90. cite-seer.ist.psu.edu/article/yang99evaluation.html.

118. Yoo I. Defence Mechanisms against Vulnerabilities in Network Protocols and Risk Assessment of Data Packets: Ph.D. thesis / Department of Computer Science University of Fribourg. — Switzerland.

119. Zhang L. Network intrusion detection systems. — Presentation. — 2005. http://www.cs.utsa.edu/ danlo/teaching/cs7123/Fall2005/LikeZhangNIDS.ppt.