автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Разработка модели и алгоритмов обнаружения вторжений на основе динамических байесовских сетей

кандидата технических наук
Дайнеко, Вячеслав Юрьевич
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.19
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка модели и алгоритмов обнаружения вторжений на основе динамических байесовских сетей»

Автореферат диссертации по теме "Разработка модели и алгоритмов обнаружения вторжений на основе динамических байесовских сетей"

ДАЙНЕКО Вячеслав Юрьевич

На правах рукописи

РАЗРАБОТКА МОДЕЛИ И АЛГОРИТМОВ ОБНАРУЖЕНИЯ ВТОРЖЕНИЙ НА ОСНОВЕ ДИНАМИЧЕСКИХ БАЙЕСОВСКИХ СЕТЕЙ

05.13.19 — Методы и системы защиты информации, информационная безопасность

АВТОРЕФЕРАТ 1 8 АПР 2013

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург — 2013

005052140

Работа выполнена на кафедре проектирования и безопасности компьютерных систем федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики» (НИУИТМО).

доктор технических наук; профессор, Арустамов Сергей Аркадьевич

Ожиганов Александр Аркадьевич, доктор технических наук, профессор, НИУИТМО,

профессор кафедры вычислительной техники

Соколов Сергей Сергеевич, кандидат технических наук, ФГБОУ ВПО «Государственный университет морского и речного флота имени адмирала С.О. Макарова», доцент кафедры прикладной математики

Федеральное военное государственное образовательное учреждение высшего профессионального образования «Военно-космическая академия имени

А.Ф. Можайского» Министерства обороны Российской Федерации (BKA имени А.Ф. Можайского)

Защита диссертации состоится «10» апреля 2013 года в 15 ч 50 мин на заседании диссертационного совета Д 212.227.05 при Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики по адресу: 197101, г. Санкт-Петербург, Кронверкский пр., д. 49.

Отзывы на автореферат, заверенные печатью, просим направлять по адресу: 197101, Санкт-Петербург, Кронверкский пр., д. 49, НИУ ИТМО, ученому секретарю диссертационного совета Д 212.227.05.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики.

Автореферат разослан « 7 » марта 2013 г. Ученый секретарь

диссертационного совета Д 212.227.05 кандидат технических наук, доцент

Научный руководитель: Официальные оппоненты:

Ведущая организация:

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Развитие средств защиты для компьютерных систем продиктовано применением со стороны злоумышленников новых техник проникновения и появлением новых видов использования уязвимостей в компьютерных системах. С каждым годом количество вредоносных программ, реализующих новые типы атак, увеличивается. Для построения комплексной системы защиты наравне с остальными традиционно используемыми инструментами защиты все чаще применяют системы обнаружения вторжений (СОВ).

К сожалению, низкая надежность работы СОВ приводит к необходимости частого участия человека в обслуживании СОВ для корректировки метода обнаружения. Система обнаружения вторжений после ввода в эксплуатацию способна в течение некоторого промежутка времени эффективно функционировать. Однако с течением времени эффективность системы может снижаться, что приводит к увеличению ложных срабатываний и отсутствию реакции на вторжения. Поэтому СОВ сложны в наладке и требуют высококвалифицированного обслуживающего персонала. Изложенные особенности функционирования известных СОВ делают решение проблемы автономности работы СОВ актуальной.

Автором предложен подход для построения сетевой системы обнаружения вторжений на основе вероятностной модели, которая способна описывать процессы в условиях нехватки данных. Задачи, способные решать вероятностные модели, используют процедуры вероятностного вывода. Различные процессы порождают последовательности данных, которые находят свое отражение в пространстве окружения протекания процесса. Процесс вторжения в компьютерных системах проявляется в изменениях последовательности сетевого трафика, профиля поведения пользователя, последовательности системных вызовов к ядру операционной системы. В работе для сетевых СОВ предлагается вероятностная модель, на основе последовательности характеристик сетевого трафика, так как большинство вторжений происходит с использованием компьютерных сетей. Как правило, выделяют три этапа вторжения: сканирование сети; воздействие на уязвимость; повторное получение управления системой через загруженную программу, использующую недокументированный вход в систему. Среди разновидностей вероятностных моделей наиболее перспективным является применение динамических байесовских сетей (ДБС), которые описываются в пространстве состояний в виде ориентированных графов. Методы и алгоритмы, основанные на использовании ДБС, превосходят другие вероятностные модели в точности описания моделируемых процессов и гибкости применения, однако требуют применения более трудоемких алгоритмов, чем, например, скрытые Марковские модели или фильтр Калмана. В развитие теории ДБС большой вклад внести зарубежные ученые Murphy К., Pearl J., Zweig G. Для построения и использования динамических байесовских сетей требуется обучить параметры и структуру сети. Алгоритмы обучения структуры ДБС требуют высоких вычислительных затрат, поэтому задача разработки параллельного алгоритма обучения является также актуальной.

Таким образом, задача разработки методов и алгоритмов обнаружения вторж;ений с использованием ДБС также является актуальной.

Объектом исследования являются сетевые системы обнаружения процесса вторжения в компьютерную сеть.

Предметом исследования являются алгоритмы обучения и методы вероятностного вывода с использованием динамических байесовских сетей.

Цель диссертационной работы заключается в разработке модели и алгоритмов обнаружения вторжений на основе протоколирования характеристик сетевого трафика в компьютерной сети с использованием динамических байесовских сетей.

Задачи исследования. Для достижения указанной цели необходимо решить следующие задачи:

1. Разработать метод анализа информативных характеристик сетевого трафика для обнаружения вторжений.

2. Разработать вероятностную модель процесса вторжения в компьютерную сеть.

3. Разработать метод поиска новых типов вторжений с использованием вероятностного вывода в динамических байесовских сетях.

4. Разработать параллельный алгоритм обучения структуры байесовских сетей.

5. Провести экспериментальное исследование и сравнительный анализ последовательного и параллельного алгоритма обучения структуры байесовских сетей.

6. Разработать систему обнаружения вторжений на основе функционирования динамических байесовских сетей и сравнить с существующими системами.

Методы исследования основаны на использовании теории вероятности, теории информации, математической статистики, математического моделирования, теории параллельных вычислений. В работе широко применяется компьютерное моделирование, в том числе с использованием самостоятельно разработанного программного обеспечения (ПО).

Информационной базой исследования являются отечественные и зарубежные литературные источники: методические рекомендации, монографии, публикации в отраслевых периодических журналах, материалы крупных исследовательских и методических центров. Также использованы материалы, размещенные в сети Интернет.

Научная новизна работы. В результате проведенного исследования были получены следующие результаты, характеризующиеся научной новизной:

1. Разработан метод анализа информативных характеристик сетевого трафика для обучающих наборов данных при использовании в системах обнаружения.

2. Разработана вероятностная модель обнаружения вторжений на основе динамических байесовских сетей. В отличие от существующих вероятностных моделей вторжений данная модель учитывает три основных этапа вторжения в компьютерную сеть.

3. Разработан оригинальный метод поиска новых типов вторжений с использованием вероятностного вывода в динамических байесовских сетях, который в отличие от существующих методов позволяет эффективно обнаруживать как известные, так и новые типы вторжений.

4. Разработан параллельный алгоритм обучения структур байесовских сетей с использованием технологии вычислений на основе графических видеокарт.

5. Разработана структура системы обнаружения вторжений, основанная на функционировании динамических байесовских сетей.

Реализация и внедрение результатов исследования. Основные результаты исследований использованы на кафедре проектирования и безопасности компьютерных систем НИУ ИТМО при выполнении ряда научно-исследовательских работ и внедрении в образовательный процесс лабораторных работ по защите информационных процессов в компьютерных сетях.

Достоверность полученных результатов подтверждается корректностью математического аппарата и теоретических обоснований, а также результатами экспериментов, проведенных с помощью разработанного в диссертации ПО.

Практическая значимость результатов диссертации заключается в следующем.

1. Разработанный метод анализа информативных характеристик сетевого трафика позволяет сократить затраты на вычисления в обучении и вероятностном выводе при выборе числа переменных в вероятностных моделях с заданным порогом отбора.

2. Разработанная вероятностная модель адекватно работает на всех трех этапах вторжения и может быть расширена для более точного описания различных аспектов особенностей атаки на сетевую систему.

3. Разработанная система обнаружения вторжений на основе функционирования динамических байесовских сетей позволяет обнаружить новые типы вторжений.

4. Разработан параллельный алгоритм обучения структуры байесовской сети, позволяющий сократить время ее обучения, реализованный в виде нескольких программных модулей. Их можно использовать и в других задачах, решаемых ДБС, например, в других областях исследований.

Внедрение и реализация. Практические результаты работы были внедрены и использованы в НИУ ИТМО, что подтверждено соответствующим актом о внедрении.

Публикации по теме диссертации. По теме диссертации опубликовано десять научных работ, из них семь выполнено самостоятельно, три в соавторстве. Две статьи опубликованы в рецензируемом научном журнале, определенном в перечне ВАК.

Апробация работы. Основные научные положения и практические результаты работы были представлены и обсуждены на следующих научно-технических конференциях:

1) VII всероссийской межвузовской конференции молодых ученых, 2010 г.;

2) XL научной и учебно-методической конференции, 2011 г.;

3) VIII всероссийской межвузовской конференции молодых ученых, 2011 г.;

4) IX всероссийской межвузовской конференции молодых ученых, 2012 г.;

5) XLI научной и учебно-методической конференции, 2012 г.;

6) VIII mezinarodni vedecko-praktickakonference «Aktualni vymozenosti — 2012», 2012 г.;

7) XLII научной и учебно-методической конференции НИУ ИМТО, 2013 г.

Основные научные положения, выносимые на защиту:

1. Метод анализа информативных характеристик сетевого трафика для обучающих наборов данных при использовании в системах обнаружения вторжений. Метод не зависит от количества принимаемых значений для свойств.

2. Вероятностная модель обнаружения вторжений на основе динамических байесовских сетей. В отличие от существующих вероятностных моделей вторжения данная модель учитывает три основных этапа вторжения в компьютерную сеть и может быть уточнена путем включения в модель дополнительных переменных.

3. Оригинальный метод поиска новых типов вторжений с использованием вероятностного вывода в динамических байесовских сетях, который в отличие от существующих методов позволяет эффективно обнаруживать как известные, так и новые типы вторжений.

4. Параллельный алгоритм обучения структур байесовских сетей с использованием технологии вычислений на основе графических видеокарт, что позволяет добиться уменьшения времени обучения и стоимости оборудования по сравнению с применением кластерных систем.

5. Структура системы обнаружения вторжений, основанная на функционировании динамических байесовских сетей.

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы. Материал изложен на 130 страницах компьютерного текста, иллюстрирован 31 рисунком и 10 таблицами.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи исследования, описаны объект и предмет исследования, указаны теоретические и методологические основы, раскрыты элементы научной новизны работы, ее теоретическая и практическая значимость.

В первой главе работы вводятся определения основных понятий, рассматривается типовая структура и классификация систем обнаружения вторжений. Анализируются существующие подходы и применяемые методы для решения задачи обнаружения вторжений. Исходя из приведенного анализа формулируется ряд проблем современного состояния теории обнаружений вторжений, на основании которых ставятся цели и задачи дальнейших исследований.

Система обнаружения вторжений (СОВ) — программное или аппаратное средство, предназначенное для выявления фактов неавторизованного доступа в компьютерную систему или сеть либо несанкционированного удаленного управления ими. По типу СОВ делятся на сетевые, узловые и гибридные. Как правило, архитектура типовой СОВ включает в себя следующие подсистемы:

а) сенсорную подсистему, собирающую информацию с защищаемой системы;

б) подсистему выявления вторжений на основе анализа данных с сенсорной подсистемы;

в) подсистему хранения, предназначенную для накопления информации о событиях и анализа;

г) подсистему управления и конфигурирования СОВ.

На практике применяют два распространенных метода обнаружения вторжений: методы, основанные на сигнатурах и на аномалиях. Сигнатурный метод производит сравнение контролируемых данных с известными шаблонами вторжений и позволяет точно обнаружить известные вторжения и классифицировать их. Метод аномалий создает профили нормального поведения контролируемого процесса и сравнивает текущее состояние процесса с его нормальным профилем. Метод, основанный на аномалиях, позволяет выявить новые типы вторжений, но имеет низкую надежность выявления известных типов вторжений.

Наиболее перспективным является метод обнаружения вторжений, который анализирует последовательности контролируемого процесса. Анализируемые последовательности могут быть: характеристиками сетевого трафика в компьютерных сетях; профилями поведения пользователя на уровне приложения или операционной системы; последовательностями системных вызовов, поступающих к ядру операционной системы от работающих процессов и т. д. При этом в случае неизвестного или скрытого процесса не все характеристики наблюдаемы. Для описания таких скрытых последовательностей используют вероятностные модели, которые способны моделировать различные последовательности, порождаемые процессами в условиях нехватки данных.

Вторая глава работы посвящена обоснованию выбора предметной области исследования. Приводится аналитический обзор существующих вероятностных моделей и алгоритмов обучения и вероятностного вывода. Обосновывается выбор динамических байесовских сетей. Дается описание проблемы задания априорных вероятностей.

Последовательности, порождаемые процессами и динамическими системами, могут быть корректно описаны методами пространства состояний. Пространство состояний описывается тремя переменными в момент времени / как 2, = (и! ,Х1,У1), где и, —состояние системы, X, —ненаблюдаемая или скрытая переменная, У, — наблюдаемая переменная.

Вероятностные модели являются факторизованным совместным распределением вероятностей на множестве случайных величин и представляют модель предметной области. Каждый из этих факторов является функцией, определенной на некотором небольшом подмножестве переменных, и такие подмножества называют фактором областей. С вероятностной точки зрения факторизованное представление кодирует независимости отношения, в то время как с технической точки зрения ослабляет строгие требования к необходимой памяти и скорости вычислений для использования вероятностных моделей, что позволяет применять модели для широкого круга задач. Вероятностные графические модели — это вероятностные модели, представленные в виде графа, вершины которого моделируют случайные переменные, а ребра показывают взаимосвязи между ними. Вероятностные графические модели включают в себя переменные и структурные связи между ними. Переменные модели могут быть либо дискретными векторами, которые принимают конечное число значений, либо непрерывными векторами.

Скрытая Марковская модель (СММ) — статистическая модель, имитирующая работу процесса, похожего на Марковский процесс первого порядка неизвестными параметрами. Задача разгадывания неизвестных параметров на основе наблюдаемых решается СММ. Полученные параметры могут быть использованы в дальнейшем анализе, например для распознавания образов. СММ может быть рассмотрена как простейшая байесовская сеть доверия.

Фильтр Калмана — эффективный рекурсивный фильтр, оценивающий вектор состояния динамической системы, использующий ряд неполных и зашумленных измерений. Фильтр Калмана можно рассматривать как аналог скрытых моделей Маркова с тем отличием, что переменные непрерывны. Кроме того, скрытые модели Маркова могут использовать произвольные распределения для последующих значений вектора состояния, в отличие от фильтра Калмана, использующего модель нормально распределенного шума.

Байесовская сеть (БС) — это графическая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. БС представляют собой удобный инструмент для описания достаточно сложных процессов и событий с неопределенностями. БС оказалась особенно полезной при разработке и анализе машинных алгоритмов обучения. Основной идеей построения графической модели является понятие модульности, то есть разложение сложной системы на простые элементы. Для объединения отдельных элементов в систему используются результаты теории вероятностей.

Динамические байесовские сети являются обобщенной моделью в пространстве состояний. Название «динамические» указывает не на зависимость структуры от времени, а только на зависимость от моделирования процесса. СММ является упрощенной ДБС без причинно-следственных связей. Если пространство состояний непрерывное, то такая модель называется фильтром Кальмана, в дискретном случае — ДБС. Структура БС остается неизменной во всех временных срезах. Срезом называют текущее состояние ДБС в дискретный момент времени. Верши-

на в сети может иметь родителя только в своем временном срезе или в непосредственно предшествовавшем временном срезе. Другими словами, ДБС определяется как Марковский процесс первого порядка. ДБС состоит из двух байесовских сетей исходной Ви определяющей априорные распределения доступной

модели Р(г(1)), и транзитной В2, определяющей вероятности переходов между двумя ближайшими временными срезами. Пример ДБС в виде графической модели с двумя срезами приведен на рис. 1.

Рис. 1. Графическая модель ДБС из двух слоев

Вероятностная модель ДБС задается моделью переходов (1)

р(г11 _ )=ПI (1)

1=1

и моделью совместного распределения (2)

р(гь)=иир(г!\ра(г;у), (2)

¡=1

где — срез байесовской сети в момент времени ?; — узел сети в момент времени I; Ра(2',)—множество родительских узлов для узла сети X]; N — число узлов сети в срезе. Выражение (1) задает вероятности переходов между узлами БС из предшествующего среза 2'г_1 в текущий срез X,. В случае разделения модели на множество не наблюдаемых переменных X, и множество регистрируемых переменных У, описание вероятностной модели переходов (1) задается моделью состояния и моделью наблюдения.

В третьей главе описываются методы и модели, которые позволяющие использовать ДБС в решении задач обнаружения вторжений. Дается описание разработанному методу анализа информативных характеристик сетевого трафика для выбора оптимальной структуры ДБС. Разрабатывается вероятностная модель обнаружения вторжений, применяемая для моделирования процесса вторжения в

динамических байесовских сетях. Описывается метод поиска новых типов вторжений с использованием вероятностного вывода.

При тестировании и сравнении с другими СОВ разрабатываемых подходов для обнаружения сетевых вторжений часто применяют два стандартных набора данных: KDD 99 и NSL-KDD. Сетевой трафик данных наборов протоколирован на основании 41 свойства, что является избыточным для использования байесовской сети и приводит к значительному увеличению вычислительной сложности обучения и вероятностного вывода. Для решения проблемы избыточности свойств сетевого трафика предлагается метод анализа информативных характеристик сетевого трафика, призванный сократить число используемых свойств в БС.

В основу метода анализа информативных характеристик сетевого трафика положен критерий из теории информации — прирост информации (от англ. information gain). Прирост информации 1(Y,X) атрибута X по отношению к атрибуту У класса показывает снижение неопределенности относительно значения У, когда известно значение X. Неопределенность значения У измеряется через энтропию H(Y). Относительная неопределенность значения Y, когда известно значение X, определяется по условной энтропии Y относительно X, H(Y | X). Если прирост информации равен энтропии атрибута Y, то I(Y,X) = H(Y), тогда два атрибута являются независимыми. Прирост информации рассчитывается по формуле (3):

I{Y,X) = H(Y)-H{Y\X). (3)

Когда Y и X представляют собой дискретные переменные, которые принимают значения в диапазоне {.Vi—}^} и {xi---xt}> то энтропия атрибута Y определяется как:

Я (У) = = • 1о§2(Р(У = у,)). (4)

/=1

Условная энтропия Y относительно X вычисляется как:

Я(У IX) = -ZP(X = *,) -H(Y\X = *,.). (5)

j=i

Поскольку прирост информации рассчитывается только для дискретных значений, непрерывные значения из набора данных следует дискретизировать. В работе применяется метод дискретизации равных интервалов частот. В методе равных интервалов частот значения пространства разбиваются на произвольное число разделов, каждый раздел содержит одинаковое количество точек данных, то есть одинаковую частоту. Метод равных интервалов частот позволяет добиться лучшей классификации значения данных, чем классический метод разбития интервалов по значениям.

Прирост информации зависит от количества значений для атрибута. Чем больше количество значений, тем меньше получается энтропия для атрибутов и больший прирост информации. Для решения данной проблемы применяется коэффициент усиления информации (от англ. gain ratio). Коэффициент усиления информации G(Y,X) учитывает не только количество информации, требуемое

для записи результата, но и количество информации Н(Х), необходимой для разделения по текущему атрибуту X. Количество информации для разделения по атрибуту X рассчитывается как энтропия атрибута Н(Х) по формуле (6):

ад==*у ) • 1о§2 (пх=*у)). (6)

j=1

Коэффициент усиления информации рассчитывается по формуле (7):

(7(У,Х) = ^ = Я(У)-Я(Г'Х). (7)

Н(Х) Н(Х)

Для вычисления прироста информации и коэффициента усиления информации была разработана программа на языке С++, работающая в операционной системе Ubuntu 12.04. Наборы данных KDD 99 и NSL-KDD в виде файлов .txt подавались на вход программы. Наборы данных состоят из 41 свойства сетевого трафика и содержит 4 категории: базовые свойства; контекстные свойства; свойства трафика, зависящие от времени и свойства трафика, зависящие от хоста. Наборы данных имеют маркировки типа трафика для сравнения СОВ, и включает в себя 23 класса, объединенные в 5 категорий: Dos, Probe, u2r, r2J и Normal. Рассчитанные информационные критерии показаны на диаграммах (рис. 2-4).

Рис. 2. Диаграмма коэффициента усиления информации для свойств набора данных KDD 99, файла обучения 10% KDD и файла тестирования Whole KDD

Рис. 3. Диаграмма прироста информации I для всех свойств набора данных КЗЬ-ЮЭБ, 11 — КХЮТгат+, 12 — КХШТгат+_20Регсет, 13 — КЛБТевН-, 14 — КООТгат-21

□ 01

ЕЮЗ о а-*.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 26 29 30 31 32 33 34 35 36 37 38 39 40 41 №

Рис. 4. Диаграмма коэффициента усиления информации О для всех свойств набора данных КЭЬ-КХЮ, — КХЮТгат+, в2 — КХ>ОТгат+_20РегсегП, вЗ — КХ>ОТез1+, в4 — К1ЖТгат21

В результате задания уровней пороговых значений для рассчитанных коэффициентов было выбрано четыре набора свойств (табл. 1), имеющих наиболее информативные значения коэффициента усиления информации.

Таблица 1. Наборы свойств сетевого трафика

Число узлов Номера свойств Названия свойств

11 3,4,5,6,12, 25, 26, 29, 30,38, 39 service, flag, sourcebytes, destination_bytes, loggedin, serror_rate, srv_serror_rate, same srv rate, diff srv rate, dst host serror rate, dst gost srv serror rate

8 4, 5, 6,12,25, 26,38, 39 flag, source bytes, destinationbytes, logged in, serror_rate, srv serror rate, dst host serror rate, dst gost srv serror rate

6 4,5,6, 12, 38,39 flag, source_bytes, destination_bytes, logged_in, dst host serror rate, dst gost srv serror rate

3 4,5,6 flag, source bytes, destination bytes

Исходя из анализа применяемых злоумышленниками техник по вторжению в компьютерные сети, была разработана вероятностная модель вторжения. Вторжения на компьютерные сети представляют следующую последовательность:

а) сканирование (от англ. scan) сети;

б) воздействие на уязвимость (от англ. exploiting);

в) повторное получение управления системой через загруженную программу, использующую недокументированный вход в систему (от англ. backdoor).

Как правило, злоумышленник не обладает достаточной информацией об атакуемой системе. Для того чтобы не перебирать все известные уязвимости вслепую, злоумышленнику требуется собрать о ней недостающую информацию. Сбор недостающих данных ведется при помощи сканирования доступных каналов передачи данных, то есть компьютерной сети. Процесс сканирования находит свое отражение в изменении сетевого трафика компьютерной сети. После получения всей собранной информации злоумышленник, используя свою квалификацию, реализует потенциальные уязвимости в сетевых устройствах, в различных службах и программах и операционных системах. Злоумышленник также может сузить поиск и целенаправленно воздействовать только на предполагаемую уязвимость, используя типовые или нестандартные запросы для получения более полной информации о цели. Процесс воздействия на целевую систему сети также вызывает изменение трафика. Этап воздействия на уязвимость зависит от результатов сканирования. В случае успеха на этапе воздействия на уязвимость злоумышленник получает возможность использовать найденную уязвимость. На целевую систему могут быть загружены программные модули, способные автоматизировать действия злоумышленника по поднятию своих прав до требуемого уровня. Тем самым система полностью захватывается злоумышленником и может стать отправной точкой для последующего захвата и вторжения во всю сеть.

Описание процесса вторжений, которые подразумевают получение несанкционированного доступа в защищаемую систему в результате последовательных действий атакующего на целевую систему, может быть описано в виде вероятностной модели ДБС. Так как этапы процесса вторжений scan, exploit, backdoor непосредственно не наблюдаемы, то они считаются скрытыми. На рис. 5 показана графическая модель состояний в виде ДБС из двух срезов, описывающая процесс вторжения. На рис. 5 и рис. 6 этап сканирования обозначен буквой S, этап воздействия на уязвимость буквой Е и получения управления системой буквой В соответственно. Этапы вторжений являются скрытыми, поэтому их требуется опре-

делить при помощи вероятностного вывода на основании наблюдаемых свойств сетевого трафика (рис. 6), которые порождаются в процессе вторжения.

N-1

N

Рис. 5. Графическая модель состояний Рис. 6. Графическая модель наблюдений

между двумя срезами ДБС

в виде БС

Предложенная вероятностная модель состояний (см. рис. 5) использована в разработанной СОВ и задается уравнениями (8) и (9):

Р(ЛГ(»1)|Яв(А-(И))) = П/Чх,(я)|Рв(*)(и))), (8)

ПР(х,(") I Ра(х,(«))) = Р(Ф) .<«-!))• Р(е(п)\е(п-\)Лп-1))• Р(Ь(п) \ Ъ(п-1),е(и-1))• (9)

Модель наблюдений (см. рис. 6) описывает связь переменных наблюдений с переменными состояниями системы в ДБС в виде (10)—(14):

Р(У(п) | Ра(У(п))) = П />(у>) ] Ра(у-(г>)У),

(10)

м

ПР(у»{п) | Ра(у»(п))) = 1\Р(у*(п) I Ра(Мп))У>

/=1 1-1

*ПР(У?(") I Ра(е(п)))у\\Р(у!;(п) | Ра(Ь(п))\

У=5 У=»

(И)

П Р(у-(п) | Рв(*(и))) = Р{у](п) I .*■(«)) • Р(у*(п) I .ф,)) ■ Р(у1(п) \ ,(„)) ■ Р{у\{п) | .<,(«)) ,(12)

м

ПР(У- (") IРФШ = Р(у;5 (И) | е(п)) ■ Р(у16 (и) I е(п)) ■ Р(у? (п) \ е(п)) ■ Р(уГ (») | ф)) ,(13)

У=5

П Р{у?(п) I Рф(п))) = Р(у12(п) I Ь(п)) ■ Р(у\о(п) I £(«)) • Р(7,3,0(И) 16(п))> О4)

у=9

где j = 1...11 — число наблюдаемых переменных, N — номер свойства сетевого трафика.

Вероятностный вывод — процесс вычисления апостериорного распределения переменных на основании наблюдаемых переменных. В контексте поиска новых типов вторжений используются четыре задачи вероятностного вывода с использованием алгоритма вывода соединения деревьев (от англ. junction tree inference), представленные в табл. 2.

Таблица 2. Описание и использование вероятностного вывода

№ Задача Алгоритм Число используемых переменных в ДБС

1 Предсказание P(x{t + dt)\y{\U)) Экстраполяция распределения вероятностей для будущих состояний И

2 Фильтрация Р(х(0Ь(1:0) Оценка текущего состояния модели 11

3 Сглаживание Оценка всех скрытых состояний в прошлом с учетом всех наблюдений до текущего времени 6

4 Витерби maxPWlrOIKl:/)) Вычисление наиболее возможных последовательностей скрытых состояний по полученным данным 8

Комбинация данных алгоритмов используется в модуле байесовского вывода разработанной структуры СОВ.

Метод поиска новых типов вторжения показан на рис. 7 и заключается в следующем. В каждом временном срезе производится фильтрация текущих состояний скрытых переменных и предсказание на следующий срез. Если предсказанные состояния не совпали с текущими фильтрованными состояниями, то вычисляется сглаживание состояний на предыдущие срезы глубиной с/1. Если в результате сглаживания будет зафиксировано вторжение, потребуется решить задачу Ви-терби для нахождения последовательности ненаблюдаемых переменных и переобучить ДБС путем включения обнаруженной после-Рис. 7. Метод поиска вторжений на основании Довательности в обучающую вы-вероятностного вывода борку.

Вторжение

Сглаживание на-►Витерби

N-dT

Фильтрация N

Предсказание = Фильтрация N+l N+1

Предсказание = Фильтрация N+2 N+2

Предсказание N+3

N N+l N+2

Четвертая глава посвящена разработке и реализации параллельного алгоритма обучения структуры ДБС для множественных последовательностей наблюде-

ний. Исследована эффективность параллельного алгоритма обучения структуры ДБС в зависимости от величины данных обучения.

В основе алгоритмов обучения структуры байесовской сети лежит два подхода: ограничение условной независимости (в этом случае сеть может оказаться неориентированной, частично обученной) и оценка меры качества сети (оптимизация локального поиска с полным перебором всех комбинаций, сопровождающаяся экспоненциальным ростом вычислений с увеличением числа узлов сети).

Известный гибридный алгоритм обучения структуры байесовской сети Max-Min Hill-Climbing (ММНС) включает два данных подхода и состоит в следующем. Вначале применяется алгоритм ограничения условной независимости, Max-Min Parents and Children (MMPC), который на основе данных обучения восстанавливает «скелет» БС в виде неориентированного графа. Далее в алгоритме ММНС применяется алгоритм оптимизации меры качества сети Hill-Climbing (НС), применяемый к ограниченному пространству на основе найденного «скелета» БС. Тем не менее применение гибридного алгоритма ММНС при обучении крупных БС не решает проблему времени обучения, \ поэтому требуется уменьшить

Конец ) временя обучения гибридного

__У алгоритма ММНС. Блок-схема

алгоритма ММНС представлена Рис. 8. Блок-схема алгоритма ММНС на рис. 8.

Предлагается использование архитектуры вычислений на графических процессорах (ГП) Compute Unified Device Architecture (CUDA), которая позволяет добиться значительного вычислительного ускорения. При этом необходимо учитывать архитектуру работы графических устройств CUDA. Архитектура CUDA для ГП поколения Geforce 600 позволяет объединить 4 видеокарты с двухъядерными ГП, что позволяет одновременно работать с 12 288 потоковыми процессорами. Основные подходы для распараллеливания алгоритма обучения ММНС заключается в следующих оптимизациях для архитектуры CUDA:

1. Разбитие обрабатываемых данных на подмножества и расчет промежуточных значений для каждого подмножества отдельными потоковыми процессорами, работающими одновременно. Необходимо произвести загрузку данных обучения

Hill-climbing

по 16 кбайт из глобальной памяти в разделяемую память мультипроцессора. Доступ к глобальной памяти в 100 раз медленнее, чем к разделяемой памяти.

2. Размещение результатов работы функций ядра в общую память, доступную для использования в последующих расчетах, что приводит к сокращению числа копирований между центральным процессором и видеокартой.

3. Использование механизма синхронизации между потоками процессов выделения и копирования данных внутри блока процессов. Тем самым гарантируется исключение конфликтов при доступе к памяти, приводящих к последовательному доступу к памяти между потоками.

4. Масштабирование размеров заданий пулом потоков для функции ядра в зависимости от выбранного количества работающих потоков в блоках вычисления и используемой памяти для их работы.

5. Из-за особенности используемой архитектуры SIMD (от англ. single instruction, multiple data) сведение к минимуму ветвлений внутри одного пула потоков.

В параллельном алгоритме применяются разработанные функции ядра на языке С для вычисления на архитектуре CUDA:

a) cudaFreq — вычисление частоты S появления всех комбинаций принимаемых значений между тремя тестируемыми переменными Xt,Yj,Zk из обучающего набора данных D с N экспериментами для вычисления статистическим тестом на независимость по формуле (15):

Данный массив рассчитывается каждый раз до вычисления функции ядра еиёа1п-dependent;

б) cudaIndependent — вычисление теста на независимость 1пс1(Х\У \ 2) двух переменных X и У при данной переменной 2, используя статистический тест на независимость. Предварительно рассчитанные частоты функцией окЫ-гед используются для вычислений результата независимости тестируемых переменных;

в) ок!а8соге — вычисление меры качества сети на основании байесовского информационного критерия, рассчитываемого из уравнения (16)

где L(G,D) —логарифм функции правдоподобия структуры сети G и набора данных D; d — число параметров. Вычисление меры качества сети производится для целевого узла Т относительно множества родителей и потомков РСТ.

Вспомогательный алгоритм ММСРС (от англ. Max-Min Candidate Parents and Children) используется в алгоритме ММРС. Блок-схемы применяемых алгоритмов представлены на рис. 9.

(15)

В1С = L(G,D)-—\ogN,

(16)

Конец

( Начало ^

■ t

| Инициализация |

Фаза 1 ММСРС

While

CudaFreq

CudaFreq (XJICPC)

CudaFreq (Х,Т|СРС)

cudalndep

cudalndcp (X.TjCPC)

IL

cudalndcp

(Х,Т;СРС) j

Max Mm Heuristic

Пока С PC k присоединяется

о

9

Фаза 2 ММСРС -Ы For all х in CPC

CudaFreq ¥

I

CudaFreq (X.TjCPC)

X

CudaFreq (XJICPC)

cudalndep

cudalndcp (X.TCPC)

cudalndcp (X.TICPC)

-П" CPC

^ Конец ^

С

Начало

ZI=

J

Инициал hi иция G=cmpty L=empty

T

-►f While l^pass imp]

cudaScore

cudaScore

(x, PCx)

cudaScore (x, PCx)

Конец

Рис. 9. Блок-схема алгоритма ММРС (а); блок-схемы параллельных алгоритмов ММСРС (б) и НС (в)

Для исследования работы последовательного и параллельного алгоритмов обучения структуры ММНС использовался тестовый стенд в виде персонального компьютера, включающего; центральный процессор (CPU) Intel Core i5 2500 с тактовой частотой 3,5 ГГц; оперативную память 4 Гб DDR3; видеокарту (GPU) Nvidia Geforce 9600GT с 1 Гб видеопамяти GDDR3, имеющую 64 потоковых скалярных процессора, работающих на частоте 1625 МГц. Использовалась операционная система Ubuntu 12.04 и набор разработчика CUDA Toolkit 4.0. В расчетах программы применялся тип данных float размером 4 байта. Из набора данных NSL-KDD для тестирования СОВ был выбран файл для обучения KDDTrain+_20Percent из 25 192 наблюдений. Программа протестирована с пятью разными входными данными для последовательного и параллельного алгоритмов. Использовался набор из 11 свойств. Результаты тестирования представлены в табл. 3.

Таблица 3. Результаты сравнения последовательного и параллельного алгоритма ММНС

Номер Размер Время работы алгоритма ММНС, с CPU/GPU

теста данных CPU GPU

1 1024 2,3 0,09 25,0

2 2048 4,6 0,18 25,1

3 4096 10,1 0,37 27,7

4 8192 22,2 0,73 30,4

5 16384 52,6 1,46 36,0

На рис. 10 представлен график зависимости времени работы последовательного и параллельного алгоритмов от размера данных. Обученная структура БС из набора 11 свойств приведена на рис. 11.

Рис. 10. Сравнение производительности Рис. 11. Обученная структура БС

последовательного и параллельного по алгоритму ММНС

алгоритмов ММНС

В пятой главе приводятся результаты тестирования разработанной системы обнаружения вторжений на основе разработанных в диссертации алгоритмов и методов. Представлено сравнение разработанной системы с другими СОВ. Опи-

сана программная реализация разработанной системы. Приводятся рекомендации по практическому внедрению разработанной СОВ.

Разработанная структура системы обнаружения вторжений (см. рис. 12) включает в себя пять модулей.

В модуле байесовского вывода применяется разработанный метод поиска известных и новых типов вторжений на основании собранной информации с сенсоров о свойствах сетевых сессий в защищаемой сети и выбранной обученной модели ДБС. Под сеансом связи понимается промежуток времени между запросом на соединение и запросом на разрыв соединения, в течение которого между двумя адресатами посылаются потоки данных по определенному протоколу.

Модуль обучения отвечает за обучение ДБС. Возможен выбор критерия обучения для применяемого алгоритма обучения структуры БС, который производится модулем конфигурации СОВ.

Модуль конфигурации СОВ управляет работой СОВ и отвечает за выбор алгоритма обучения и использование процедуры вывода.

Модуль базы моделей ДБС содержит обученные модели ДБС, применяемые в модуле вывода.

Модуль сбора и обработки информации с сенсоров устанавливается в контролируемые узлы сети, формируя последовательности свойств сессий для модуля байесовского вывода. На рис. 12 данный модуль объединен с группой внешних сенсоров. Сетевым сенсором является программный комплекс, который включает использование сетевой библиотеки Л¥тРсар для захватывания и сбора сетевого трафика. Собранный сетевой трафик агрегируется, обрабатывается в виде свойств сетевых сессий и передается на вход модуля байесовского вывода в форматированном виде.

Модуль сбора и обработки информации

Miuj.ii.

---------- кимфи] \ ¡>:ишн

СОК

1

гЧ п/

""Л Модуль

байесовского

вывода

\

/>— Модуль базы \Н моделей ДБС

Рис. 12. Структура СОВ

С обучения ДБС начинается период инициализации работы СОВ. Используя один из алгоритмов обучения и обучающих данных, в модуле обучения формируется модель ДБС. После обучения модель добавляется в базу моделей СОВ. В базе моделей каждая модель ранжируется по убыванию в зависимости от размера и оценки качества при обучении. Далее СОВ переходит в режим эксплуатации. Модуль байесовского вывода на основании лучшей модели ДБС, наблюдаемым свойствам сетевых сеансов и выбранного алгоритма вывода производит оценку байесовского вывода о наличии признаков вторжений в последовательностях скрытых переменных ДБС. На этапе вывода модулем конфигурации СОВ произ-

водится оценка корректности описания наблюдаемых свойств сессий для текущей модели ДБС и вычисляются будущие состояния на основе разработанного метода обнаружения вторжений. Если перебор моделей ДБС не дал желаемых результатов, то модуль конфигурации СОВ производит обучение новой модели ДБС путем изменения алгоритма обучения. В случае обнаружения вторжений задача модуля конфигурации СОВ заключается в занесении обнаруженной последовательности в обучающие данные и обучении новой модели ДБС для получения лучшей модели описания вторжений. Также модуль конфигурации может включать в себя функцию блокирования источников вторжений путем добавления выявленного источника вторжений в черный список или выработки дополнительных правил для межсетевого экрана. В этом случае взаимодействие между СОВ и межсетевым экраном позволяет СОВ работать в режиме предотвращения вторжений.

Для тестирования работы СОВ была построена тестовая доменная сеть (рис. 13), развернутая в виртуальном окружении VMware. Тестовая доменная сеть состоит из контроллера домена на Windows 2003 R2 и пяти клиентов с операционной системой Windows ХР SP3. Сетевые сенсоры СОВ установлены на каждую клиентскую машину тестовой сети и контроллер домена. На контроллере домена развернута служба Active Directory, хранящая критическую информацию, и запущены следующие серверы: DNS-сервер доменных имен, сервер службы принтеров, база данных Microsoft SQL.

Межсетевой экран

Сервер базы данных у

Рис. 13. Схема тестовой доменной сети

Как правило, атаки на доменную сеть проводят в три этапа вторжений: первоначальное сканирование сети, проведение атак на найденные уязвимости для получения доступа к узлам сети, поднятие своих прав до уровня администратора домена. Для тестирования были реализованы несколько видов сканирований и атак на домен. Для создания обучающих данных были проведены вторжения на защищаемую доменную сеть и запротоколированы свойства сетевого трафика. Вторжения выполнялись в ручном режиме.

После обучения и включения СОВ в режиме эксплуатации с компрометирующего ресурса запускался диспетчер атак, который осуществлял вторжения в случайной последовательности на фоне легитимного трафика. Время между ата-

ками выбиралось случайным образом в интервале от 5 до 10 мин. Информация о времени запуска и атаке сохранялась в файле истории.

Для сравнения работы предложенной структуры СОВ были выбраны открытые системы обнаружений вторжений Snort и Suricata. Всего было проведено 355 атак на фоне 9846 нормальных сессий. В табл. 4 представлены результаты сравнения работы систем.

Системы Snort и Suricata в результате тестирования не обнаружили ни одного нового типа вторжений, так как такие системы используют метод сигнатур. Предложенная СОВ показала способность обнаружения новых вторжений и не худшую по сравнению с Snort и Suricata вероятность ложных срабатываний и пропусков вторжений.

Таблица 4. Сравнение результатов работы разработанной СОВ, Snort и Suricata

СОВ Обнаруженные вторжения Ложные срабатывания (ошибка I рода) Пропущено вторжений (ошибка II рода) Нормальные сессии Обнаруженные новые вторжения

Suricata 329 (92,60 %) 312 (3,1 %) 26 (7,40 %) 9 534 (96,9 %) 0

Snort 326 (91,84 %) 285 (2,9 %) 29 (8,16%) 9 561 (97,1 %) 0

Разработанная СОВ 330 (92,95 %) 325 (3,3 %) 25 (7,05 %) 9 521 (96,7 %) 5

В заключение подводятся основные итоги диссертационной работы и приводятся основные результаты, полученные в ходе выполненной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ

На основании полученных результатов диссертационной работы можно сделать вывод, что цель диссертации, сформулированная во введении, достигнута и поставленная задача решена.

Основные научные и практические результаты диссертационной работы:

1. Разработан метод анализа информативных характеристик сетевого трафика для обучающих наборов данных при использовании в системах обнаружения вторжений.

2. Разработана вероятностная модель обнаружения вторжений на основе динамических байесовских сетей. В отличие от существующих вероятностных моделей вторжения, данная модель учитывает три основных этапа вторжения в компьютерную сеть.

3. Разработан оригинальный метод поиска новых типов вторжений с использованием вероятностного вывода в динамических байесовских сетях, который в отличие от существующих методов позволяет эффективно обнаруживать как известные, так и новые типы вторжений.

4. Разработан параллельный алгоритм обучения структур байесовских сетей с использованием технологии вычислений на основе графических видеокарт.

5. Разработано и внедрено программное обеспечение, реализующее модели и алгоритмы системы обнаружения вторжений, основанная на функционировании динамических байесовских сетей.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Опубликовано в рецензируемых изданиях из списка ВАК:

1. Арустамов С. А., Дайнеко В, Ю. Применение динамической байесовской сети в системах обнаружения вторжений // Научно-технический вестник информационных технологий, механики и оптики. — СПб.: НИУ ИТМО, № 3(79), 2012, —С. 128-133.

2. Арустамов С. А., Дайнеко В. Ю. Параллельный алгоритм обучения структуры байесовской сети // Научно-технический вестник информационных технологий, механики и оптики. — СПб.: НИУ ИТМО, № 2(84), 2013. — С. 170-171.

Опубликовано в других изданиях:

3. Дайнеко В. Ю. Временной фактор в системах обнаружения вторжения // Сборник тезисов докладов конференции молодых ученых. Вып. 1.— СПб.: СПбГУ ИТМО, 2010. — С. 177.

4. Дайнеко В. Ю. Разработка комплексной системы защиты информации линейно-производственного управления газотранспортного предприятия // Сборник трудов молодых ученых, аспирантов и студентов научно-педагогической школы кафедры ПКС «Информационная безопасность, проектирование и технология элементов и узлов компьютерных систем» / Под ред. Ю. А. Гатчина. — СПб.: СПбГУ ИТМО, 2010. — С. 21-22. — 60 с.

5. Дайнеко В. Ю. Разработка комплексной системы защиты информации информационно-управляющей системы производственно хозяйственной деятельности линейно-производственного управления газотранспортного предприятия // Аннотируемый сборник научно-исследовательских выпускных квалификационных работ студентов СПбГУ ИТМО, 2010. — С. 30-31.

6. Дайнеко В. Ю. Динамическая байесовская сеть в системах обнаружения вторжения // Сборник тезисов докладов конференции молодых ученых. Вып. 1. — СПб.: СПбГУ ИТМО, 2011, —С. 122-123.

7. Дайнеко В. Ю. Динамические байесовские сети в системах обнаружения вторжений // Альманах научных работ молодых ученых. — СПб.: НИУ ИТ-МО, 2012. — С. 54-59. — 348 с.

8. Дайнеко В. Ю. Модель автономной системы обнаружения вторжений // «Актуальные научные достижения — 2012»: Materiály VIII mezinárodní védecko-praktická konference «Aktuální vymozenosti védy — 2012». Praha: Publishing House «Education and Science» s.r.o. — 2012. — С. 64-66.

9. Арустамов С. А., Дайнеко В. Ю. Система обнаружения вторжения с использованием байесовских сетей // Сборник трудов молодых ученых, аспирантов и студентов научно-педагогической школы кафедры ПБКС «Информационная безопасность, проектирование и технология элементов и узлов компьютерных систем» / Под ред. Ю. А. Гатчина. — СПб.: НИУ ИТМО, 2012. — С. 13-14. — 59 с.

10.Дайнеко В.Ю. Эффективные алгоритмы обучения динамических байесовских сетей в системах обнаружения вторжений// Сборник тезисов докладов конгресса молодых ученых. Вып. 1. — СПб.: СПбГУ ИТМО, 2012. — С. 128-129. — 246 с.

Подписано в печать 05.03.13 Формат 60x84'/iб Цифровая Печ. л. 1.0 Тираж 100 Заказ 04/03 печать

Отпечатано в типографии «Фалкон Принт» (197101, г. Санкт-Петербург, ул. Большая Пушкарская, д. 54, офис 2, тел. 313-26-39, e-mail: fc2003@mail.ru)

Текст работы Дайнеко, Вячеслав Юрьевич, диссертация по теме Методы и системы защиты информации, информационная безопасность

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего

профессионального образования Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

РАЗРАБОТКА МОДЕЛИ И АЛГОРИТМОВ ОБНАРУЖЕНИЯ ВТОРЖЕНИЙ НА ОСНОВЕ ДИНАМИЧЕСКИХ БАЙЕСОВСКИХ СЕТЕЙ

05.13.19 — Методы и системы защиты информации, информационная безопасность

Диссертации на соискание ученой степени

кандидата технических наук

Научный руководитель — доктор технических наук,

профессор Арустамов С. А.

Санкт-Петербург — 2013

На правах рукописи

04201355802

ДАИНЕКО Вячеслав Юрьевич

ОГЛАВЛЕНИЕ

Список сокращений.....................................................................................................5

Введение........................................................................................................................7

Глава 1 Анализ систем обнаружения вторжений...................................................15

1.1 Системы обнаружения вторжений.................................................................15

1.2 Обзор проблем обнаружения вторжений.......................................................17

1.3 Различие между системой обнаружения атак и системой обнаружения вторжений................................................................................................................22

1.4 Выводы..............................................................................................................23

Глава 2 Вероятностные модели обнаружения вторжений....................................25

2.1 Обзор вероятностных моделей........................................................................25

2.1.1 Марковские сети.................................................................................27

2.1.2 Скрытая Марковская модель..............................................................27

2.1.3 Авторегрессивная скрытая Марковская сеть....................................29

2.1.4 Задачи, решаемые с помощью скрытых Марковских моделей........30

2.1.5 Фильтр Калмана..................................................................................30

2.1.6 Байесовские сети.................................................................................32

2.1.7 Вероятностные запросы.....................................................................34

2.1.8 Байесовский вывод.............................................................................35

2.2 Динамические байесовские сети.....................................................................36

2.3 Обучение динамических байесовских сетей.................................................41

2.3.1 Алгоритмы обучения параметров байесовской сети........................42

2.3.2 Алгоритмы обучения структуры байесовской сети..........................43

2.4 Вероятностный вывод на основе динамических байесовских сетей..........46

2.4.1 Алгоритмы вероятностного вывода...................................................47

2.5 Проблема задания априорных вероятностей.................................................49

2.6 Выводы..............................................................................................................52

Глава 3 Разработка модели и методов обнаружения вторжений..........................55

3.1 Разработка метода анализа информативных характеристик сетевого трафика.....................................................................................................................55

3.1.1 Критерий прироста информации.......................................................56

3.1.2 Коэффициент усиления информации................................................59

3.1.3 Описание набора данных KDD 99.....................................................60

3.1.4 Описание и анализ набора данных NSL-KDD..................................63

3.1.5 Сравнительный анализ набора данных KDD 99...............................72

3.2 Разработка вероятностной модели обнаружения вторжений......................74

3.3 Разработка метода поиска новых типов вторжений с использованием вероятностного вывода..........................................................................................79

3.4 Выбор числа срезов динамических байесовских сетей................................82

3.5 Выводы..............................................................................................................83

Глава 4 Разработка параллельного алгоритма обучения структуры динамических байесовских сетей.............................................................................85

4.1 Обзор алгоритмов обучения структуры байесовских сетей........................85

4.1.1 Алгоритмы обучения структуры байесовской сети на основании ограничений условной независимости.......................................................86

4.1.2 Алгоритмы обучения структуры байесовской сети на основании оптимизации меры качества сети...............................................................88

4.1.3 Гибридные алгоритмы........................................................................90

4.2 Последовательный алгоритм обучения Max-Min Hill-Climbing.................91

4.2.1 Преимущества гибридного алгоритма Max-Min Hill-Climbing........92

4.2.2 Недостатки гибридного алгоритма Max-Min Hill-Climbing.............93

4.2.3 Описание гибридного алгоритма Max-Min Hill-Climbing................94

4.3 Разработка параллельного алгоритма обучения Max-Min Hill-Climbing...99

4.4 Сравнение последовательного и параллельного алгоритмов обучения структуры байесовской сети Max-Min Hill-Climbing.......................................105

4.5 Выводы............................................................................................................107

Глава 5 Разработка и тестирование системы обнаружения вторжений на основе динамических байесовских сетей...........................................................................109

5.1 Описание разработанной системы обнаружения вторжений....................109

5.2 Тестирование разработанной системы обнаружения вторжений.............111

5.3 Рекомендации для практического внедрения разработанной системы обнаружения вторжений......................................................................................115

5.4 Выводы............................................................................................................116

Заключение...............................................................................................................117

Список литературы..................................................................................................120

СПИСОК СОКРАЩЕНИЙ

СОВ система обнаружения вторжений

ДБС динамическая байесовская сеть

ПО программное обеспечение

ФСТЭК федеральная служба по техническому и экспортному контролю

БС байесовская сеть

СММ скрытая Марковская модель

ВВ вероятностный вывод

СОА система обнаружения атак

НС Hill-Climbing

БД Байес-Дирихле

ЭБД эквивалент Байеса-Дирихле

БИК байесовский информационный критерий

МДО минимальная длина описания

ВИ взаимная информация

НМП нормализованный минимум правдоподобия

PNL probabilistic networks library

ВК Boyen-Koller

I information gain

G gain ratio

DAPRA defense advanced research projects agency

AIMB incremental association Markov blanket

MMPC Max-Min parents and children

MMHC Max-Min Hill-Climbing MMCPC Max-Min candidate parents and children

GPU graphics processing unit

CUDA compute unified device architecture

SIMD single instruction multiple data

CPU central processing unit

ARP address resolution protocol

MAC media access control

NetBIOS network basic input/output system

FP false positive

FN false negative

ВВЕДЕНИЕ

Актуальность темы. Развитие средств защиты для компьютерных систем продиктовано применением со стороны злоумышленников новых техник проникновения и появлением новых видов использования уязвимостей в компьютерных системах. С каждым годом количество вредоносных программ, реализующих новые типы атак, увеличивается. Для построения комплексной системы защиты наравне с остальными традиционно используемыми инструментами защиты все чаще применяют системы обнаружения вторжений (СОВ).

К сожалению, низкая надежность работы СОВ приводит к необходимости частого вмешательства человека в процесс обслуживания СОВ для корректировки метода обнаружения. Система обнаружения вторжений после ввода в эксплуатацию способна в течение некоторого промежутка времени эффективно функционировать. Однако с течением времени эффективность системы может снижаться, что приводит к увеличению ложных срабатываний и отсутствию реакции на вторжения. Поэтому СОВ сложны в наладке и требуют высококвалифицированного обслуживающего персонала. Изложенные особенности функционирования известных СОВ делают решение проблемы автономности работы СОВ актуальной.

Автором предложен подход для построения сетевой системы обнаружения вторжений на основе вероятностной модели, которая способна описывать процессы в условиях нехватки данных. При решении задач вероятностными моделями используются процедуры вероятностного вывода. Различные процессы порождают последовательности данных, которые находят свое отражение в пространстве окружения протекания процесса. Процесс вторжения в компьютерных системах проявляется в изменениях последовательности сетевого трафика, профиля поведения пользователя, последовательности системных вызовов к ядру операционной системы. В работе для сетевых СОВ

предлагается вероятностная модель на основе последовательности характеристик сетевого трафика, так как большинство вторжений происходит с использованием компьютерных сетей. Как правило, выделяют три этапа вторжения: сканирование сети; воздействие на уязвимость; повторное получение управления системой через загруженную программу, использующую недокументированный вход в систему. Среди разновидностей вероятностных моделей наиболее перспективным является применение динамических байесовских сетей (ДБС), которые описываются в пространстве состояний в виде ориентированных графов. Методы и алгоритмы, основанные на использовании ДБС, превосходят другие вероятностные модели в точности описания моделируемых процессов и гибкости применения, однако требуют применения более трудоемких алгоритмов, чем, например, скрытые Марковские модели или фильтр Калмана. В развитие теории ДБС большой вклад внести зарубежные ученые Murphy К., Pearl J., Zweig G. Для построения и использования динамических байесовских сетей требуется обучить параметры и структуру сети. Алгоритмы обучения структуры ДБС требуют высоких вычислительных затрат, поэтому задача разработки параллельного алгоритма обучения является также актуальной.

Таким образом, задача разработки методов и алгоритмов обнаружения вторжений с использованием ДБС также является актуальной.

Объектом исследования являются сетевые системы обнаружения процесса вторжения в компьютерную сеть.

Предметом исследования являются алгоритмы обучения и методы вероятностного вывода с использованием динамических байесовских сетей.

Цель диссертационной работы заключается в разработке модели и алгоритмов обнаружения вторжений на основе протоколирования характеристик сетевого трафика в компьютерной сети с использованием динамических байесовских сетей.

Задачи исследования. Для достижения указанной цели необходимо решить следующие задачи:

1. Разработать метод анализа информативных характеристик сетевого трафика для обнаружения вторжений.

2. Разработать вероятностную модель процесса вторжения в компьютерную сеть.

3. Разработать метод поиска новых типов вторжений с использованием вероятностного вывода в динамических байесовских сетях.

4. Разработать параллельный алгоритм обучения структуры байесовских сетей.

5. Провести экспериментальное исследование и сравнительный анализ последовательного и параллельного алгоритма обучения структуры байесовских сетей.

6. Разработать систему обнаружения вторжений на основе функционирования динамических байесовских сетей и сравнить с существующими системами.

Методы исследования основаны на использовании теории вероятности, теории информации, математической статистики, математического моделирования, теории параллельных вычислений. В работе широко применяется компьютерное моделирование, в том числе с использованием самостоятельно разработанного программного обеспечения (ПО).

Информационной базой исследования являются отечественные и зарубежные литературные источники: методические рекомендации, монографии, публикации в отраслевых периодических журналах, материалы крупных исследовательских и методических центров. Также использованы материалы, размещенные в сети Интернет.

Научная новизна работы. В результате проведенного исследования были получены следующие результаты, характеризующиеся научной новизной:

1. Разработан метод анализа информативных характеристик сетевого трафика для обучающих наборов данных при использовании в системах обнаружения вторжений.

2. Разработана вероятностная модель обнаружения вторжений на основе динамических байесовских сетей. В отличие от существующих вероятностных моделей вторжений данная модель учитывает три основных этапа вторжения в компьютерную сеть.

3. Разработан оригинальный метод поиска новых типов вторжений с использованием вероятностного вывода в динамических байесовских сетях, который в отличие от существующих методов позволяет эффективно обнаруживать как известные, так и новые типы вторжений.

4. Разработан параллельный алгоритм обучения структур байесовских сетей с использованием технологии вычислений на основе графических видеокарт.

5. Разработана структура системы обнаружения вторжений, основанная на функционировании динамических байесовских сетей.

Реализация и внедрение результатов исследования. Основные результаты исследований использованы на кафедре проектирования и безопасности компьютерных систем НИУ ИТМО при выполнении ряда научно-исследовательских работ и внедрении в образовательный процесс лабораторных работ по защите информационных процессов в компьютерных сетях.

Достоверность полученных результатов подтверждается корректностью математического аппарата и теоретических обоснований, а также результатами экспериментов, проведенных с помощью разработанного в диссертации ПО.

Практическая значимость результатов диссертации заключается в следующем.

1. Разработанный метод анализа информативных характеристик сетевого трафика позволяет сократить затраты на вычисления в обучении и вероятностном выводе при выборе числа переменных в вероятностных моделях с заданным порогом отбора.

2. Разработанная вероятностная модель адекватно работает на всех трех этапах вторжения и может быть расширена для более точного описания различных аспектов особенностей атаки на сетевую систему.

3. Разработанная система обнаружения вторжений на основе функционирования динамических байесовских сетей позволяет обнаружить новые типы вторжений.

4. Разработан параллельный алгоритм обучения структуры байесовской сети, позволяющий сократить время ее обучения, реализованный в виде нескольких программных модулей. Их можно использовать и в других задачах, решаемых ДБС, например, в других областях исследований.

Внедрение и реализация. Практические результаты работы были внедрены и использованы в НИУ ИТМО, что подтверждено соответствующим актом о внедрении.

Публикации по теме диссертации. По теме диссертации опубликовано десять научных работ [3, 4, 6, 7, 37, 59, 60, 90, 91, 92], из них семь выполнено самостоятельно, три в соавторстве. Две статьи [90, 91] опубликованы в рецензируемом научном журнале, определенном в перечне ВАК.

Апробация работы. Основные научные положения и практические результаты работы были представлены и обсуждены на следующих научно-технических конференциях:

1. VII всероссийской межвузовской конференции молодых ученых, 2010 г.;

2. XL научной и учебно-методической конференции, 2011 г.;

3. VIII всероссийской межвузовской конференции молодых ученых,

2011 г.;

4. IX всероссийской межвузовской конференции молодых ученых,

2012 г.;

5. XLI научной и учебно-методической конференции, 2012 г.;

6. VIII mezinarodni vedecko-prakticka konference «Aktualni vymozenosti — 2012», 2012 г.;

7. XLII научной и учебно-методической конференции НИУ ИМТО,

2013 г.

Основные научные положения, выносимые на защиту:

1. Метод анализа информативных характеристик сетевого трафика для обучающих наборов данных при использовании в системах обнаружения вторжений. Метод не зависит от количества принимаемых значений для свойств.

2. Вероятностная модель обнаружения вторжений на основе динамических байесовских сетей. В отличие от существующих вероятностных моделей вторжения данная модель учитывает три основных этапа вторжения в компьютерную сеть и может быть уточнена путем включения в модель дополнительных переменных.

3. Оригинальный метод поиска новых типов вторжений с использованием вероятностного вывода в динамических байесовских сетях, который в отличие от существующих методов позволяет эффективно обнаруживать как известные, так и новые типы вторжений.

4. Параллельный алгоритм обучения структур байесовских сетей с использованием технологии вычислений на основе графических видеокарт, что позволяет добиться уменьшения времени обучения и стоимости оборудования по сравнению с применением кластерных систем.

5. Структура системы обнаружения вторжений, основанная на функционировании динамических байесовских сетей.

Структура и объем диссертации. Диссертация состоит из введения, пяти глав, заключения, списка литературы. Материал изложен на 130 страницах компьютерного текста, иллюстрирован 31 рисунком и 10 таблицами.

В первой главе работы даются определения основных понятий, рассматривается типовая структура и классификация систем обнаружения вторжений. Анализируются существующие подходы и применяемые методы для решения задачи обнаружения вторжений. Исходя из приведенного анализа формулируется ряд проблем современного состояния теории обнаружений вторжений, на основании которых ставятся цели и задачи дальнейших исследований.

Вторая глава работы посвящена обоснованию выбора предметной области исследования. Приводится аналитический обзор существующих вероятностных моделей и алгорит�