автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Мониторинг работы пользователей корпоративных сетей

кандидата физико-математических наук
Трошин, Сергей Владимирович
город
Москва
год
2010
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Мониторинг работы пользователей корпоративных сетей»

Автореферат диссертации по теме "Мониторинг работы пользователей корпоративных сетей"

Московский государственный университет имени М. В. Ломоносова Факультет вычислительной математики и кибернетики

На правах рукописи

Трошин Сергей Владимирович

МОНИТОРИНГ РАБОТЫ ПОЛЬЗОВАТЕЛЕЙ КОРПОРАТИВНЫХ СЕТЕЙ

Специальность 05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

004600944

Москва-2010

004600944

Работа выполнена на кафедре автоматизации систем вычислительных комплексов факультета вычислительной математики и кибернетики Московского государственного университета имени М. В. Ломоносова.

Научные руководители: доктор физико-математических наук,

профессор Машечкин Игорь Валерьевич; кандидат физико-математических наук, доцент Петровский Михаил Игоревич

Официальные оппоненты: доктор физико-математических наук,

член-корр. РАН

Защита диссертации состоится « 23 » апреля 2010 г. в 11:00 на заседании диссертационного совета Д 501.001.44 в Московском государственном университете имени М. В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет вычислительной математики и кибернетики, ауд. 685.

С диссертацией можно ознакомиться в библиотеке факультета вычислительной математики и кибернетики МГУ имени М. В. Ломоносова. С текстом автореферата можно ознакомиться на официальном сайте факультета ВМК МГУ имени М. В. Ломоносова: http://cs.msu.su в разделе «Наука» - «Работа диссертационных советов» - «Д 501.001.44».

Автореферат разослан « 23 » марта 2010 г.

Ученый секретарь диссертационного совета

Воеводин Владимир Валентинович;

кандидат физико-математических наук, доцент Головин Игорь Геннадьевич

Ведущая организация: Межведомственный суперкомпьютерный

центр РАН

профессор

Н.П. Трифонов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Введение

Диссертация посвящена исследованию и разработке технологий построения специализированных систем мониторинга работы пользователей корпоративных сетей.

Предлагается новая технология построения систем мониторинга работы корпоративных пользователей, основанная на формировании и анализе моделей поведения отдельных пользователей и пользовательских групп. Данная технология позволяет создавать специализированные системы мониторинга, предназначенные для решения таких актуальных задач как:

• обнаружение действий пользователей, которые могут предшествовать внутренним вторжениям1 (далее «раннее обнаружение внутренних вторжений»);

• обнаружение некомпетентных действий пользователей, а также случаев нецелевого использования вычислительных и информационных ресурсов корпоративной сети.

Общей характеристикой данных задач является то, что при их решении затруднено использование экспертных знаний, описывающих сценарии «интересных» для аналитика действий пользователей. Для внутренних вторжений практически отсутствуют сценарии, описывающие последовательность действий, определяющих подготовку внутреннего вторжения. Для нецелевого и непрофессионального использования не могут быть созданы однозначные правила, так как такие действия могут трактоваться каждой организацией по-своему и зависеть от контекста работы пользователей. Таким образом, традиционные подходы, применяемые в большинстве систем информационной безопасности, основанные на использовании сигнатурных баз данных, описывающих атаки или нецелевые действия, не могут обеспечить полное решение задачи.

Актуальной является разработка технологии, позволяющей на основе сбора, консолидации и централизованного анализа данных формировать модели корректного поведения пользователей (или групп пользователей), затем, путем сопоставления текущих действий пользователей с построенными моделями, решать обозначенные выше задачи. Выявляя аномальные относительно моделей события, можно определять действия пользователей, которые могут являться фактами нецелевого или непрофессионального использования, подготовкой внутренних вторжений или иными отклонениями в работе, требующими внимания аналитика. Для проведения такого анализа аналитик должен выбрать «эталонные» данные

'Под внутренним вторжением понимаются действия легального пользователя, направленные на нарушение целостности, конфиденциальности или доступности данных корпоративной сети.

для построения моделей поведения и данные, которые необходимо оценить на основе построенных моделей. Особенностью такого подхода является проведение анализа в отложенном режиме, т.е. по требованию аналитика на основе заданных им параметров. Данная схема исключает необходимость поиска и формирования экспертами сигнатур и правил, характеризующих обнаруживаемые действия.

Важной характеристикой систем мониторинга является тип данных, который используется для анализа. Большинство существующих систем информационной безопасности построено на основе анализа содержательной (контентной) информации. Для поиска вторжений, могут составляться наборы правил, объединяющих ключевые слова и признаки документов. Эти правила используются для контроля содержимого электронных документов. Такой подход имеет целый ряд недостатков, среди которых главным является то, что анализ контентной информации потенциально снижает уровень защищенности корпоративных данных в сети. Это происходит по следующим причинам:

• Эксперты, настраивающие систему безопасности, получают доступ к конфиденциальной информации.

• Вся информация проходит через систему, что может приводить к возникновению новых потенциальных уязвимостей.

Актуальным является исключение использования контентной информации при проведении мониторинга. Требуется разработка технологии, основанной на использовании журналируемой информации, т.е. информации, не являющейся содержимым файлов или иных документов, а являющейся совокупностью описания событий работы пользователей или программ. Такие события могут фиксироваться операционной системой, прикладными программами или специализированными системами.

Основной характеристикой новой технологии является возможность создания систем мониторинга, учитывающих особенности корпоративной сети: размеры сети и состав наблюдаемых систем, цели мониторинга и набор доступной информации. В связи с этим, актуальным является разработка унифицированных моделей и методов, позволяющих производить сбор, консолидацию и анализ журналированных событий из различных источников и наблюдаемых систем, с учетом особенностей и ограничений использования сети передачи данных и других компонентов корпоративной сети.

Цель диссертационной работы

Целью диссертации является исследование методов, алгоритмов и подходов проведения мониторинга и разработка, на основе результатов исследования, новой технологии построения специализированных систем мониторинга работы пользователей с ресурсами корпоративной сети. Технология должна основываться на использовании журналируемой информации и реализовывать моделирование поведения и поиск аномалий в

работе пользователей. Построенные на основе технологии системы должны позволять накапливать информацию, описывающую параметры работы пользователей, и проводить отложенный анализ с целью решения ряда специфических задач, таких как раннее обнаружение внутренних вторжений, выявление нецелевого и непрофессионального использования ресурсов корпоративной сети.

Научная новизна работы

Предложенная в работе технология построена на новых принципах раннего обнаружения внутренних вторжений, а так же нецелевого и непрофессионального использования ресурсов корпоративной сети. Предложенные принципы основаны на моделировании поведения пользователей, поиске аномалий в действиях пользователей и изменений состава используемых ресурсов и параметров использования ресурсов.

Практическая значимость

Предложенная в работе технология может быть использована для построения систем мониторинга работы корпоративных пользователей, позволяющих решать такие актуальные задачи как раннее обнаружение внутренних вторжений, обнаружение некорректного и нецелевого использования корпоративных ресурсов, анализ статистики работы пользователей. В свою очередь это позволяет минимизировать утечки конфиденциальной информации, а так же оптимизировать рабочий процесс и использование ресурсов организации.

Методы исследования

В работе использовались алгоритмы интеллектуального анализа данных (data mining) и технология оперативной аналитической обработки OLAP. При проектировании и разработке экспериментальной системы мониторинга применялся объектно-ориентированный подход и мультиагентная архитектура.

Апробация работы и публикации

Основные результаты диссертации опубликованы в девяти печатных работах [1-9]. Статья [9] опубликована в издании, рекомендованном ВАК для публикации результатов кандидатских диссертаций. Основные положения работы докладывались на следующих конференциях и семинарах:

1. XIII Международная конференция студентов, аспирантов и молодых

учёных «JIOMOHOCOB-2006», МГУ, Москва, 2006 г.

2. Конференция «Ломоносовские чтения 2006», МГУ, Москва, 2006 г.

3. Конференция «Тихоновские чтения», МГУ, Москва, 2006 г.

4. First Spring Young Researches' Colloquium on Software Engineering

(SYRCoSE'2007), Moscow, Russia, 2007.

5. Вторая международная конференция «Системный анализ и информационные технологии» САИТ-2007, Обнинск, Россия, 2007 г.

6. 13-я Всероссийская конференция «Математические методы распознавания образов», Зеленогорск, Россия, 2007 г.

7. 6-я международная конференция по программированию «УкрПРОГ'2008», Киев, Украина, 2008 г.

Структура и объем работы

Диссертация состоит из введения, трех глав, заключения, списка литературы и приложений. Объем диссертации с приложениями составляет 170 страниц. Список литературы включает 88 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении сформулированы цели и задачи работы. Обоснована ее актуальность.

Первая глава посвящена исследованию и сравнительному анализу существующих методов и подходов к построению систем мониторинга. В главе сформулированы и обоснованы требования к системам мониторинга, основанным на сборе, консолидации и анализе журналируемой информации. Основными требованиями являются: расширяемость набора источников данных; масштабируемость системы и возможность работы в крупных сетях; проведение фильтрации, нормализации, агрегации и корреляции собираемых данных; оперативная аналитическая обработка уже накопленных данных, поиск аномальных событий и отклонений в работе пользователей. В результате проведенного исследования отобран ряд широко используемых систем управления информацией и событиями безопасности (SIEM - Security Information and Event Management), а так же систем мониторинга работы персонала. С целью уточнения направлений исследования проведен сравнительный анализ их возможностей, используемых методов и подходов. Основными анализируемыми параметрами являлись: методы сбора журналируемых событий, методы долговременного централизованного хранения данных, методы построения статистических ответов и методы поиска «значимых» событий. В результате анализа показано, что на сегодняшний день не существует систем мониторинга, удовлетворяющих всем поставленным требованиям и решающих поставленные задачи.

Сформулированы основные системные и архитектурные концепции построения систем мониторинга работы корпоративных пользователей, а так же направления исследования. Мониторинг должен быть основан на моделировании поведения пользователей и поиске аномалий в работе пользователей. При этом модель поведения и методы анализа должны позволять обнаруживать как отдельные аномальные действия пользователей, так и изменения состава используемых ресурсов и параметров их использования, таких как количество, частота, продолжительность и т.п.

Системы мониторинга должны использовать журналируемую информацию и позволять анализировать работу пользователей с различными ресурсами организации. Системы должны обеспечивать производительность, достаточную для работы в современных корпоративных сетях, минимизировать дополнительную нагрузку на наблюдаемые компьютеры и корпоративную сеть, а так же обеспечивать защищенность данных от аварийных ситуаций и противодействий со стороны пользователей.

Во второй главе описывается разработанная в рамках диссертационной работы модель мониторинга, основанная на формализации сбора и обработки данных, описывающих работу пользователей с ресурсами. Построение модели предполагает выбор формата исходных данных и разработки методов их предобработки, формальное описание представления моделей поведения пользователей, разработку методов построения моделей поведения и методов поиска аномалий на их основе. Предполагается, что данная модель должна служить основой для разработки технологии мониторинга работы пользователей с ресурсами корпоративной сети.

Выбор формата исходных данных и разработка методов их предобработки. В качестве исходных данных мониторинга в работе предложено использовать системные и прикладные журналы. Журналируемая информация содержит описание отдельных событий, например: «запуск пользователем Userl процесса telnetexe» или «передача пакета данных процессом telnetexe». Под событием понимается набор event = (type,time,attrxattrn)) где type _ ТИп события, time - время

события, а аЩ.....attrn - набор типизированных атрибутов события, при

этом множество атрибутов не всегда указывает на пользователя и на ресурс. Для анализа параметров работы пользователей с ресурсами представляют интерес не только отдельные события, но и их множества и последовательности, описывающие совокупное действие, например, формирование процесса и суммарный объем данных переданный этим процессом. Таким образом, требуется проведение агрегации журналируемых событий в новые более информативные события, описывающие законченную работу пользователей с ресурсами.

Для описания эрегированных событий вводится понятие факта

активности fact = (type,user,computer,time,а{.....аи)) где type - тип ресурса

(факта активности), user,computer,time - атрибуты, описывающие пользователя, компьютер и время, _ набор именованных свойств

(атрибутов) факта. Числовые атрибуты описывают параметры работы с ресурсом, а текстовые - ресурс и действие над ресурсом.

Предложен метод построения фактов активности, основанный на выделении из потока журналируемых событий цепочек событий,

относящихся к одному факту. Входными данными метода являются упорядоченный по времени поток журналируемых событий EV = [event1,event2,...] и формализованные сценарии построения фактов. Результатом работы метода является множество фактов F = [factvfactl,..].

Сценарий построения факта активности - это автомат, дополненный условиями и действиями S = (S, Туре, Filter,t, Em, fact), где

• S - конечное множество состояний, среди которых выделяется начальное и конечное состояние;

• Туре - конечное множество типов агрегируемых событий;

• Filter - конечное множество условий на значения атрибутов событий. Каждое условие задается в виде аЩ = Vj, где vy. -требуемое значение атрибута;

• t - функция переходов между состояниями i: S х (Type, Filter) S, переход однозначно определяется текущим состоянием и типом пришедшего события, но осуществляется, только при выполнении соответствующих условий на атрибуты события, заданных в Filter. В случае невозможности перехода событие игнорируется, а состояние не изменяется;

• Env - множество переменных окружения сценария. Переменные используются для хранения промежуточных данных агрегации и служебных переменных;

• fact - формируемый факт активности с необходимыми атрибутами, {fact.а} - множество атрибутов факта.

Каждому состоянию s е S ставятся в соответствие три множества функций, вычисляемых после перехода в это состояние: s = {{ffunc],{efunc},{tfunc}), где ffunc, efunc и tfiinc - функции, определенные над переменными окружения, атрибутами факта и атрибутами пришедшего события: jfunc: £m>x {fact.а) х {event.attr) {fact.а) изменяет значение атрибута формируемого факта;

efunc \ Env х {fact.а) х {event.attr} Env изменяет значение переменной окружения; tfunc: Env х {fact.а] х {event.attr] -» Filter изменяет условие на значение атрибута события (функцию перехода). Факт активности считается сформированным, когда автомат приходит в заключительное состояние.

Сценарий задается экспертом в виде регулярной грамматики. Множество терминальных символов соответствует типам событий Туре. Множество нетерминальных символов - множеству состояний S. Дополнительно эксперт указывает условия на значения атрибутов события для каждого правила вывода (перехода), а так же функции {ffunc], [efunc], [tfunc] для каждого нетерминального символа.

Множество построенных фактов активности используется для построения модели поведения пользователей. Модель поведения предложено представлять в виде пары М = ({Л},Рго/), где {Л} - множество шаблонов поведения пользователей (правил, описывающих связь значений атрибутов отдельных фактов активности), Prof ~ профиль использования ресурсов (статистические параметры работы, вычисленные на основе распределения значений свойств фактов активности) (рис. 1).

/журналируемые V. события

Метод построения

фактов активности Ч/"

Факты активности

Модель поведения

Профиль работы

Шаблоны поведения

иценка аномальности фактов

Поиск изменений в работе

£

Аналитик

Рис. 1. Концептуальная схема использования модели.

Основные шаги предложенной схемы мониторинга следующие:

1. На основе выбранного аналитиком подмножества фактов активности строиться модель поведения пользователей.

2. Шаблоны поведения используются для поиска отдельных аномальных фактов активности.

3. Профили используются для поиска изменений параметров использования ресурсов.

4. Найденные изменения и аномалии могут визуализироваться аналитику. Далее в главе рассматривается построение шаблонов поведения и их

использование для поиска аномалий, а так же построение профилей работы и их использование для поиска изменений в статистике работы.

Формальное описание представления шаблонов поведения. Шаблоны поведения предложено описывать в виде ассоциативных правил над атрибутами фактов активности. С целью построения шаблонов поведения аналитиком выделяется обучающий набор однотипных фактов активности, обычно, описывающих типовую работу определенных пользователей за определенное время. Затем выбирается подмножество атрибутов фактов, для которых будут строиться шаблоны. Перед построением правил проводится дискретизация числовых атрибутов с помощью алгоритма expectation maximization(EM)2. Для построения ассоциативных правил используется алгоритм Apriori2.

Каждое ассоциативное правило R определено как импликация:

2 А. А. Барсегян, М.С. Куприянов // Методы и модели анализа данных: OLAP и Data Mining. Санкт-Петербург, 2004, се. 129-147.

где: 4(а/)>-®/(а/) - условия на значения 1-го атрибута факта активности. Для дискретных атрибутов используется условие «равно», для числовых «принадлежит интервалу» (например, ргосе55=«1е1пе1.ехе» или (Зигайоп^^^З»), 5 - поддержка правила. Правило А(а\)>->А(а„)В\(а\)>->Вт(ат) имеет поддержку я, если у процентов фактов активности обучающего набора содержат атрибуты,

удовлетворяющие условиям А,(а,).....Л„(а11)и£1(а1).....Вт(ат).

с - достоверность правила определенная как:

ПД(а1>.....АпЮ)

Ассоциативные правила могут быть построены по произвольному фиксированному набору атрибутов фактов активности, и описывать зависимости параметров работы пользователей, например: «пользователь = иБег1 и процесс = telnet.exe => адрес = 158.250.19.39 с достоверностью 0.9».

Метод поиска аномалий. Шаблоны предложено использовать для поиска отдельных аномалий в работе пользователей, что соответствует обнаружению отдельных фактов активности пользователя, существенно отличающихся от шаблонов поведения, описанных моделью поведения. Для этого аналитиком выбирается набор фактов активности, описывающий работу пользователей, которую требуется проверить на наличие аномалий.

Предложенный метод оценки степени аномальности факта активности /ас1 = (а1=у1,...,ап=у11) основывается на использовании множества построенных ассоциативных правил для прогнозирования значений одного атрибута факта по значениям остальных атрибутов: вычисляется функция оценки ожидаемости значения атрибута

= V | = У],...,ам = = ум,...,ап = у„) , определенная как

тах сопйёепсе(Ду (я, =v^,...,ai_^=vi.i,a¡ = v,aí+1 = У1+1,..,а„ =у„))

С целью вычисления такой функции для выбранного факта и его атрибутов А*с* = (о\=У1>->ап = Уп) ищутся все правила, где условия на атрибуты левой части правила удовлетворяют значениям я, = V,.,,ам = vм,...,al¡ =у„. Среди таких правил выбираются те,

где условия правой части соответствуют значению атрибута я,- = V. Рассчитывается совокупная достоверность по системе таких правил как максимальная достоверность среди правил.

Затем вычисляется степень нормальности значения атрибута

n(al=v\a^=vl,...,al_^=vм,aм=vм.....а„=у11)г как отношение ожидаемости

наблюдаемого значения V к максимальной ожидаемости значений атрибута:

Р(щ =v|fl, =У,,...,а,._, =vM,gM =vM,...,a, =v„) max P(a,. | o, = v„...,eM = vw,ai+I = vw„.,a, =vj

Если значение атрибута я,- совпадает с наиболее ожидаемым, т.е. тем, которое прогнозируется на основе ассоциативных правил, то нормальность такого атрибута равна 1. Если же такое значение ранее вообще не встречалось, то нормальность атрибута будет равна нулю, что соответствует «аномальному» значению. В остальных случаях значение нормальности будет меняться от 0 до 1.

В случае если для значения атрибута не найдено ассоциативных правил (значение не зависит от других атрибутов), то нормальность атрибута вычисляется следующим образом:

( I \ s(ai =v)

и (в, =v\a, =v,,...,aM =v,_t,aM =vM,...,a = v„) =-'——

maxs(a,)>

аот^щ)

где s - поддержка значения атрибута, т.е. маргинальная вероятность появления указанного значения для данного атрибута (может рассматриваться как вырожденное ассоциативное правило, где условие состоит из одного атрибута, и нет правой части).

Аномальность факта вычисляется на основе степеней нормальности его атрибутов:

anom{fact) = \~Y{n{ai =v| о, =у„...,ам = vM,ai+1 = vM,...,a„ = v„)

i

Представленный подход позволяет интерпретировать найденные аномалии, т.е. определять какие комбинации из значений атрибутов, описывающих ресурс, пользователя или параметры работы привели к аномальности факта.

Факты активности описывают отдельные действия пользователей, но не учитывают статистику таких действий. В частности, не описывается интенсивность обращений к ресурсу, распределение обращений во времени и суммарные данные использования. Статистика использования ресурсов необходима для поиска изменений состава используемых ресурсов и параметров их использования.

Формальное описание представления профилей работы. Для расчета и хранения статистики работы пользователей предложена специальная структура (профиль), содержащая агрегированные параметры использования ресурсов в зависимости от пользователя, действий с ресурсом и временных интервалов. Примером таких агрегированных параметров может быть зависимость суммы переданных байт от процесса, пользователя и времени: traffic('Userl', 'telnet.exe', 'Март')=431, traffic('User2', 'telnet.exe\ 'Март')=0, trafficf'Userl'ping.exe', 'Март')=1530, traffic('User2\ 'ping.exe', 'Март')=14252. Профиль описывается парой Prof = (ДМ), где

• D - конечное множество дискретных атрибутов факта активности.

• M - конечное множество агрегированных значений числовых атрибутов фактов активности.

С целью построения профиля для каждой требуемой функции агрегирования А задается отображение A'.Dix...xDnx{fact.a}->М,л<|£>(. Для этого предложено использовать технологию оперативной аналитической обработки данных OLAP. Результатом применения технологии является OLAP-куб - т.е. набор представлений. Пример куба для фактов передачи данных различными пользователями с использованием различных процессов приведен на рис. 2. Названия узлов обозначают атрибуты факта, по которым в представлении имеются данные, по значениям «ALL» производится агрегация.

4!, All, All)

(All, All, Time) (All, Process, Time)

is, Time)

Рис. 2. Пример представления куба.

Для вычисления агрегированных параметров фиксируется набор дискретных атрибутов и выбирается соответствующее представление в кубе. Например, для получения суммарного объема переданных пользователем Userl данных в зависимости от процесса, на основе представления «User, Process, АН» может быть построено отображение Dpnce, -> SumBytesSend, при условии что Dmer = 'Userl',А = 'sum',I = 'bytesSend'.

Построенные отображения описывают состав используемых ресурсов и распределение параметров их использования. Отображения рассматриваются как гистограммы, которые могут быть визуализированы эксперту, а так же применяются для поиска изменений в работе. Предложенный метод поиска изменений основан на сравнении двух гистограмм от одинаковых наборов атрибутов и рассматривается отдельно для случая изменения работы пользователя во времени и для сравнения работы пользователей и групп.

Метод поиска изменений в работе. С целью обнаружения изменения работы пользователя во времени сравниваются две гистограммы параметров использования ресурсов, определенных над одним множеством дискретных атрибутов Dv...,Dm,m<n, но для различных временных интервалов: («эталонный») и Чтег («проверяемый»). Для сравнения гистограмм

используются критерий согласия Пирсона. В случае непринятия гипотезы о соответствии гистограммы за временной интервал Ите2 у гистограмме за интервал йте^, делается вывод об изменении рассматриваемого параметра работы пользователя с ресурсами, описываемыми атрибутами ДБт,т < п.

Для сравнения работы группы пользователей предложен метод, основанный на вычислении меры сходства гистограмм для двух пользователей. Для этого используется симметричное расстояние хи-квадрат:

где func'^, и futtcфункции распределения, построенные по гистограммам, описывающим работу пользователей userx и изегг t и

определенным над множеством Д.....Dm,m<n_ Вычисленные меры

используются для иерархической кластеризации пользователей. Результаты кластеризации могут быть отображены в виде дендрограммы, что позволяет находить группы похожих пользователей, и пользователей, отличающихся от других пользователей, или находить различные группы пользователей.

Предложенная модель мониторинга, позволяет реализовать концепцию раннего обнаружения с помощью применения методов интеллектуального анализа данных для поиска аномальных действий пользователей, технологии OLAP для получения агрегированных показателей работы пользователей и сравнения статистики с целью поиска изменений в работе. Найденные изменения и аномалии передаются эксперту и могут трактоваться как нарушения, либо быть сигналом к усилению контроля над определенными параметрами работы определенных пользователей.

Третья глава посвящена исследованию методов и подходов к организации сбора, консолидации и централизованного хранению данных, полученных на основе журналируемой информации, а так же разработке технологии построения систем мониторинга, реализующей предложенную модель.

Основными требованиями к системам мониторинга являются:

1. масштабируемость систем для работы в крупных сетях;

2. расширяемость набора собираемых исходных данных;

3. минимизация дополнительной нагрузки на процессор, память и диск наблюдаемых систем, а так же на сеть передачи;

4. долговременное хранение собранных фактов активности;

5. обеспечение защищенности собираемых и обрабатываемых данных от порчи, кражи, подмены и потери в результате сбоев в работе компонентов сети.

Предложено системное решение, основанное на мультиагентной архитектуре, которая является масштабируемой за счет тиражирования

2М.....'.ад*-»* Jùnc^(d„...,dH)+funcJK (</,,...,dm) '

агентов и расширяемой за счет создания агентов для новых типов наблюдаемых систем (рис. 3).

Подсистема анализа

Щ

¡ш

Витрина данных

Консоль управления сбором

яшмш-

ваша |>

ШВИ®!1 Профили

Шаблоны поведения

Рис. 3. Общая архитектура системы.

Агент осуществляет чтение журналируемых данных, формирует факты активности и передает их на сервер консолидации, который размещает факты в хранилище. Подсистема анализа запрашивает с сервера выбранное аналитиком подмножество фактов активности в витрину данных и проводит их анализ. Архитектура допускает использование нескольких подсистем анализа данных, нескольких серверов консолидации и проведение иерархической консолидации.

Предложен модульный принцип построения агента сбора, основанный на использовании системно-независимых модулей (отмечено штрихом на рис. 4) и модулей, требующих разработки для каждого типа системы.

Модуль слежения

~Тёю

екстовые журналы

"Системные журналы

нЛ

':'.; Чтение текстовых журналов

Чтение системных журналов

Л

Ф ш X °

ш

X ю

Т 5

р е> га

К

ф:

х о х х т- -ш

£ га 5 т ар о В ©я

щ

М\

«8 § £

|| ш1

Л

Рисунок 4. Схема обработки данных в подсистеме сбора.

Расширяемость набора исходных данных достигается за счет настраиваемого модуля чтения текстовых журналов и возможности добавления модулей слежения за работой пользователей, каждый из которых сохраняет собранные параметры в журналах. Это обеспечивает защищенность данных, а так же унифицирует работу с различными модулями за счет чтения данных из одного или нескольких журналов.

Модуль уточнения атрибутов реализует преобразования, которые возможны только на наблюдаемой системе, например: определение адресов по 1Р-адресам, восстановление имен пользователей по их системным идентификаторам и пр. Так же модуль реализует определение процессов, в

рамках которых происходят действия пользователей, для этого поддерживается список запущенных в системе процессов.

Агент буферизирует построенные факты активности и передает данные на сервер согласно стратегиям: фиксированный объем, фиксированное количество фактов или через равные временные промежутки. Буфер защищен от сбоев в работе наблюдаемой системы и от противодействий со стороны пользователей за счет избыточного копирования и средств разграничения доступа файловой системы. Передаваемые шифруются с помощью криптографического протокола SSL.

С целью построения сервера консолидации и хранилища оценена требуемая производительность импорта и экспорта активности, а так же сформулированы ограничения на использование дискового пространства. Проведен сравнительный анализ времени добавления и извлечения данных и эффективности использования дискового пространства традиционными решениями, такими как текстовые форматы и реляционные СУБД (Oracle 10g и MS SQL 2008). В результате анализа показано, что рассмотренные средства не удовлетворяют поставленным требованиям для сетей насчитывающих более 2 тысяч компьютеров.

Для хранения фактов активности разработано специализированное хранилище, основанное на использовании файловой системы, учитывающее особенности данных и основных операций (рис. 5).

данные

данных фактов

/-V

Компьютер 1 День 1-1 -Основные атрибуты 1

Рис. 5. Структура файлов хранилища.

Запись о факте активности разделяется между двумя файлами данных и файлами-справочниками. Два файла используются для хранения основных (тип факта, пользователь, компьютер, время) и дополнительных атрибутов, соответственно, что позволяет производить поиск по основным атрибутам, не считывая полную запись о факте. Значения текстовых атрибутов, имена атрибутов, имена пользователей и компьютеров хранятся в трех справочниках, соответственно. Это позволило уменьшить объем хранилища, без ущерба производительности, за счет хранения часто используемых данных в небольших справочниках. Данные хранилища организованы в древовидную структуру, что позволяет быстро получать «срезы» по компьютерам и дням, а так же решает проблемы копирования и запроса части хранилища за счет обращения только к необходимым файлам.

Для обеспечения надежности хранилища реализуется механизм транзакций для добавления данных, основанный на реализации собственных механизмов контрольных точек файлов и избыточного хранения для справочников. Требование защищенности данных удовлетворяется за счет средств разграничения доступа ОС.

Построение профилей основано на применении технологии OLAP, для чего факты активности отображаются на специальную структуру витрины данных типа «снежинка». В центре структуры находятся таблицы фактов, которые содержат значения числовых атрибутов и внешние ключи на таблицы измерений, где хранятся текстовые атрибуты. В таблицы измерений отображаются записи справочников. С целью повышения наглядности отчетов отдельно строятся таблицы с иерархическими измерениями для основных атрибутов «пользователь» и «компьютер», а так же для часто встречаемых атрибутов «имя процесса» и «имя файла». Построение OLAP-кубов по витрине данных осуществляется средствами реализации технологии OLAP продукта Microsoft Analysis Services 2005.

Шаблоны поведения пользователей строятся на основе фактов активности из витрины данных. Для построения шаблонов используется алгоритм Apriori. Методы оценки степени аномальности фактов активности реализованы в работе на языке Си++, что позволило добиться необходимой производительности.

Для заполнения витрины данных предложено использовать механизм объемной вставки (bulk insert). Считанные из файлов хранилища факты активности, а так же необходимые значения справочников отображаются во временные текстовые файлы, которые затем без перерасчета идентификаторов и внешних ключей помещаются в базу.

Заполнение витрины данных, построение моделей поведения и поиск аномалий производится в фоновом режиме, что позволяет обеспечить требуемую производительность анализа за счет использования вычислительных ресурсов в то время, пока аналитик просматривает уже готовые материалы.

В рамках апробации технологии была построена экспериментальная система мониторинга, собирающая следующие факты активности: сеансы работы пользователей; запуск процессов; работа с клавиатурой и мышью; сетевые TCP соединения; работа с файловой системой; изменение состава программ и аппаратной конфигурации.

Производительность системы оценивалась на компьютере со следующими характеристиками: Intel Xeon 2,83 ГГц (2 шт.); 8 Гб; Windows Server 2003 R2 64bit. Скорость приема и импорта данных от агентов составила 72 миллиона фактов активности в сутки, т.е. для работы в сетях, насчитывающих 10 тысяч компьютеров, достаточно одного сервера консолидации.

Оценка производительности подсистемы анализа была проведена для основных сценариев использования, а именно: запрос выбранных аналитиком данных с сервера консолидации и заполнение витрины данных, построение модели поведения (профили работы и шаблоны поведения) пользователей по выбранным фактам, оценка степени аномальности подмножества фактов на основе модели поведения (табл. 1)._

Сценарии 100 тыс. фактов 250 тыс. фактов 500 тыс. фактов 1 млн. фактов

Заполнение витрины 28 сек 1 мин 2 мин 4 мин

Построение профилей 5 сек 7 сек 12 сек 20 сек

Построение шаблонов 8 сек 15сек 31 сек 64 сек

Оценка аномальности 1 мин 3 мин 7 мин 12 мин

Табл. 1. Результаты оценки производительности.

Полученные результаты можно трактовать следующим образом. Время заполнения витрины данных и оценки аномальности фактов линейно зависит от количества фактов. Для полной загрузки и обработки данных, полученных с 10 тыс. компьютеров за месяц системе потребуется не более 80 часов (т.е. 12% времени работы подсистемы анализа). Учитывая тот факт, что анализ данных осуществляется в фоновом режиме и распределен во времени, можно утверждать, что одной подсистемы анализа так же достаточно для работы в сетях, насчитывающих более 10 тыс. компьютеров. Тиражируя подсистемы анализа можно обеспечить параллельную обработку данных крупных сетей, при этом анализ может осуществляться несколькими аналитиками.

Таким образом, предлагаемая в работе технология, основанная на построенной модели, разработанном системном решении и совокупности методов сбора, консолидации и анализа, позволяет создавать системы мониторинга, отвечающие всем поставленным требованиям.

Основные результаты работы

1. Предложена модель мониторинга, формализующая сбор и анализ данных, описывающих работу пользователей с информационными и вычислительными ресурсами корпоративной сети. Модель реализует концепцию раннего обнаружения внутренних вторжений и нецелевого использования ресурсов корпоративной сети за счет поиска отдельных аномалий в работе пользователей и изменений статистики работы.

2. Разработана технология построения специализированных систем мониторинга работы пользователей корпоративных сетей, реализующая предложенную модель. Предложенные в рамках технологии алгоритмические и программные решения позволяют учитывать особенности конкретных корпоративных сетей, обладают необходимой производительностью, обеспечивают надежность работы и защищенность данных.

Разработанная технология апробирована в виде экспериментальной системы мониторинга. Построенная система мониторинга официально внедрена в эксплуатацию в один из органов государственной власти Российской Федерации, насчитывающий более 1250 рабочих мест пользователей, и успешно эксплуатируется с 2009 года.

Публикации по теме диссертации

1. Трошин С. В. Консолидация и предобработка информации из журналов регистрации ВС для систем обнаружения вторжений // Сборник «Программные системы и инструменты», №6, М.:Изд-во «МАКС Пресс», 2005, сс. 68-80.

2. Машечкин И. В., Петровский М. И, Трошин С. В., Шестимеров А. А. Система сбора данных и анализа поведения пользователей вычислительной сети// Сборник тезисов XIV Международной конференции «ЛОМОНОСОВ», МГУ, 2007, сс. 79-80.

3. Igor V. Mashechkin, Mikhail I. Petrovskiy, Sergey V. Troshin, Andrew A. Shestimerov Data Gathering and User Behavior Analysis System // SYRCoSE 2007., 2007, volume 1, pp. 39-45.

4. Машечкин И. В., Петровский M. И., Трошин С. В., Шестимеров А. А. Система мониторинга и анализа поведения пользователей компьютерной системы // Сборник докладов Международной научной конференции «Системный анализ и информационные технологии» (САИТ-2007), Обнинск, 2007, сс. 183-187.

5. Петровский М.И., Машечкин И.В., Трошин C.B. Исследование и разработка методов интеллектуального анализа данных для задач компьютерной безопасности// Сборник докладов Международной научной конференции «Математические методы распознавания образов» (ММРО-13), Москва, 2007, сс. 522-528.

6. Трошин С. В. Консолидация данных об активности пользователей вычислительных систем// Сборник тезисов XX Международной научной конференции «Математические методы в технике и Технологиях», Ростов-на-Дону, Изд. центр ДГТУ, 2007, сс. 254-256.

7. Машечкин И. В., Петровский М.И., Трошин C.B. Применение моделирования поведения пользователей в задачах компьютерной безопасности// Вестник молодых ученых «Ломоносов» выпуск IV, Москва 2007, сс. 87-94.

8. Машечкин И. В., Петровский М. И., Трошин С. В. Мониторинг и анализ поведения пользователей компьютерных систем // Сборник докладов VI Международной научной конференции по про1раммированию УкрПРОГ'2008, Украина, г. Киев, 2008., сс. 22-29.

9. Трошин С. В. Мониторинг работы корпоративных пользователей //Вопросы современной науки и практики. Университет им. В. И. Вернадского №2(16)/2009, г. Тамбов, 2009, сс. 59-72.

Напечатано с готового оригинал-макета

Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. Подписано к печати 22.03.2010 г. Формат 60x90 1/16. Усл.печ.л. 1,0. Тираж 70 экз. Заказ 117. Тел. 939-3890. Тел./факс 939-3891 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 627 к.

Оглавление автор диссертации — кандидата физико-математических наук Трошин, Сергей Владимирович

СОДЕРЖАНИЕ

ВВЕДЕНИЕ 1 • к

ГЛАВА 1. МЕТОДЫ. ПОДХОДЫ И СИСТЕМЫ МОНИТОРИНГА

1.1. Существующие классы решений.

1.2. Критические параметры.

1.3. Критерии сравнения.

1.4. Выбор решений для сравнения.

1.5. Сравнение решений.

1.5.1. Системы управления информацией и событиями безопасности.

1.5.2. Системы мониторинга работы персонала.

1.6. Выводы и результаты.

ГЛАВА 2. МОДЕЛЬ МОНИТОРИНГА РАБОТЫ ПОЛЬЗОВАТЕЛЕЙ

2.1. Исходные данные для мони I орингл.

2.1.1. созда11ие фактов актив1юсти.

2.1.2. Объединение фактов.

2.1.3. Выборка и проекция.

2.2. Предлагаемый подход к мониторингу.

2.3. Шаблоны поведения пользователей и поиск аномалий.

2.3.1. Формальное описание шаблонов поведения.

2.3.2. Поиск аномалий.

2.3.3. Решение практических задач.

2.4. Профили использования ресурсов и поиск изменений в работе.

2.4.1. Формальное описание профилей работы.

2.4.2. Визуализация профилей работы.

2.4.3. Поиск изменений в работе.

2.5. Выводы и результаты.

ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

3.1. Архитектура системы мониторинга.

3.2. Подсистема сбора данных.

3.2.1. Сбор журналируемых событий.

3.2.2. Организация журналирования работы пользователей.

3.2.3. Фильтрация журналируемых событий.

3.2.4. Организация буферизации и отправки данных на сервер.

3.3. Консолидация и централизованное хранение данных.

3.3.1. Форматы представления данных и организация хранилища.

3.3.2. Устойчивость к сбоям в работе сервера консолидации.

3.3.3. Организация приема данных и очереди импорта на сервере консолидации.

3.3.4. Настройка и контроль параметров сбора.

3.3.5. Обновление исполняемых файлов установленных агентов.

3.4. подсистема анализа данных.

3.4.1. Запрос данных для анализа.

3.4.2. Построение моделей поведения.

3.4.3. Планирование выполнения анализа данных.

3.5. Практические эксперименты.

3.5.1. Оценка производительности сервера консолидации.

3.5.2. Производительность методов анализа данных.

3.5.3. Оценка качества обнаружения аномалий.

3.6. Выводы и результаты.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Трошин, Сергей Владимирович

Одной из важных особенностей современных корпоративных сетей является их размер, который зачастую исчисляется тысячами, а и иногда и десятками тысяч компьютеров. При этом деятельность пользователей может быть распределена среди различных компьютеров, а одна и та же проблема часто решается группами пользователей [1]. Важной задачей является контроль работы, как отдельных пользователей, так и групп пользователей. Основными целями контроля являются: обеспечение информационной безопасности, выявление случаев некорректного, непрофессионального или нецелевого использования ресурсов, оценка характеристик функционирования корпоративной сети и параметров использования ресурсов.

Основной задачей обеспечения информационной безопасности является «раннее обнаружение» внутренних1 вторжений, т.е. выявление действий пользователей, которые могут предшествовать внутренним вторжениям. Чем крупнее организация, тем актуальней является для нее проблема предотвращения внутренних вторжений, в частности кражи информации, так как именно кража является конечной целью большинства внутренних вторжений. Связано это с тем, что в больших организациях затрудняется контроль над обращением информации и существенно возрастает цена ее утечки. Более 90% компаний и организаций сталкивались и получали ущерб от внутренних вторжений, а 60% сталкиваются с этим регулярно [2,3]. Указанные обстоятельства определяют высокий уровень озабоченности данной проблемой со стороны крупного бизнеса и правительственных организаций [4,5].

Так как не все внутренние вторжения удается предотвратить, актуальна задача поиска и анализа попыток и результатов уже произошедших внутренних вторжений. Поиск таких прецедентов позволяет определить

1 Под внутренним вторжением понимаются действия легального пользователя, направленные на нарушение целостности, конфиденциальности или доступности данных корпоративной сети. виновных, оценить убытки и, главное, обнаружить уязвимость. Более 30% времени работы отделов 1Т безопасности уходит на обнаружение следов уже случившихся внутренних вторжений [2,3].

Очевидно, желательно обнаружить внутреннее вторжение именно на подготовительном этапе. Практика показывает, что в большинстве случаев внутреннему вторжению предшествует активность пользователя, которая является легитимной, но в то же время нехарактерной с точки зрения его предыдущей активности или активности его пользовательской группы. В большинстве случаев такая активность является следствием поиска уязвимостей и может продолжаться довольно длительное время. Особенностью обнаружения такой активности является тот факт, что всевозможные подготовительные к внутреннему вторжению действия пользователей невозможно описать заранее и тем более невозможно формализовать.

Некорректное использование вычислительных и информационных ресурсов часто является следствием отсутствия навыков или желания у сотрудников использовать специализированные программные продукты, применяемые в организации. Например, похожая ситуация была замечена на практике и заключалась в том, что после внедрения специализированной системы документооборота, сотрудники компании не использовали предоставляемые системой сервисы хранения и передачи данных, обеспечивающие надежность и защищенность, а передавали корпоративную информацию как делали это ранее, в незащищенных файлах посредством электронной почты. Причиной этому было «непонимание» и неумение пользоваться системой, о чем сотрудники не сообщали руководству. Непрофессиональное использование ресурсов может приводить к потере производительности, снижению качества результата работы, повышению нагрузки на вычислительные ресурсы, а так же к снижению уровня надежности и безопасности сети и данных. В 71 % случаев причиной утечки корпоративных данных были не спланированные вторжения, а беспечность пользователей и пренебрежение правилами [7].

Обнаружение фактов нецелевого использования вычислительных ресурсов. К нецелевой активности относят действия сотрудников, связанные с использованием корпоративных ресурсов в нерабочих целях. В частности это может быть использование доступа к сети Интернет в личных целях, просмотр видеофильмов, компьютерные игры, музыка, электронные книги и другое [8]. Перечисленная активность может приводить как к снижению эффективности труда, так и косвенно к снижению надежности и увеличению рисков утечки конфиденциальных данных. Например, за счет создания уязвимостей вследствие распространения вирусов и другого вредоносного ПО, распространение которого сопряжено с посещением «зараженных» интернет сайтов или установкой «зараженных» программ.

Анализ характеристик функционирования корпоративной сети и параметров использования ресурсов заключается в определении состава используемых информационных и вычислительных ресурсов, а так же параметров их использования. Контроль указанных параметров позволяет заблаговременно определить «узкие» места функционирования вычислительных ресурсов и уязвимости систем доступа к информационным ресурсам. Построить профили работы пользователей с ресурсами, в частности определить, кто из пользователей, для решения каких задач какие ресурсы использует.

Решение указанных задач может быть построено на основе мониторинга2 за параметрами и характеристиками работы пользователей с ресурсами. Целью мониторинга при этом является выявление соответствующих фактов или нарушений в работе. На сегодняшний день для обнаружения интересующих фактов работы (активности) успешно применяется сигнатурный поиск, основанный на сравнении текущей активности с набором правил [9]. Правила задаются экспертом априори, и описывают интересующие шаблоны активности или характеристики функционирования. Параметры текущей активности фиксируются и сравниваются с правилами, в случае Под мониторингом понимается систематический сбор и анализ информации удовлетворения хотя бы одному из правил, система генерирует оповещение соответствующего типа. Стоит заметить, что методы сигнатурного поиска работают с ограниченным набором исходных данных, для которых существуют правила, это является недостатком, так как некоторые значимые действия пользователей могут попросту не оставлять следов в используемых источниках. Методы сигнатурного поиска не являются автономными, т.е. зависят от внешних баз знаний, что, во-первых, недопустимо в некоторых организациях, а, во-вторых, делает качество обнаружения существенно зависящим от качества базы знаний. Основной же проблемой использования сигнатурного подхода является невосприимчивость к еще неописанным экспертом шаблонам, или к модифицированным старым шаблонам. Таким образом, метод не работает, пока эксперт не обновит базу сигнатур. И, что более важно, метод просто неприменим, когда невозможно заранее формализовать объект поиска, как, например, в задаче раннего обнаружения внутренних вторжений.

Развитием сигнатурного поиска являются интеллектуальные методы поиска злоупотреблений, работающие по принципу построения моделей активности, которую требуется обнаружить, и сравнения текущей активности с построенной моделью [9]. Данный подход позволяет обнаруживать модифицированные известные сценарии работы, однако, так же практически неприменим для обнаружения активности, которую невозможно априори формализовать.

Выявление неформализуемой или плохо формализуемой деятельности пользователей, такой как подготовка внутренних вторжений или некоторые виды нецелевого или непрофессионального использования ресурсов, как правило, возможно, только с помощью подхода на основе обнаружения аномалий [9]. Обнаружение аномалий предполагает, что любые действия, отличающиеся от «обычной» активности, интерпретируются системой как аномалия. Для этого строится модель нормального поведения, а текущая активность сравнивается с моделью. Так, например, одним из сценариев использования подхода может быть определение отклонений в работе пользователя по сравнению с моделью работы его пользовательской группы. Найденные отклонения (аномалии) свидетельствуют об отличии активности пользователя от активности его группы. Учитывая тот факт, что группа в целом обычно работает корректно, найденные аномалии могут свидетельствовать о поиске уязвимостей, нецелевом использовании ресурсов или об иных нарушениях со стороны пользователя. Однако, учитывая особенности современных корпоративный сетей, а именно тот факт, что пользователи могут работать в группах и на различных компьютерах, вторжения или иные нарушения могут так же носить групповой характер, а следы таких действий могут быть распределены по сети. Требуется совокупный анализ различных данных, описывающих параметры работы различных пользователей. Спецификой такой задачи является необходимость поиска неявных закономерностей в больших объемах данных. Поэтому для построения моделей поведения и поиска аномалий требуются методы на основе современных алгоритмов машинного обучения и методов интеллектуального анализа данных, позволяющие выявлять скрытые закономерности, и факты [10].

Минусом подхода, основанного на поиске аномалий, является то, что система не может самостоятельно безошибочно без вмешательства аналитика отличить типы и корректность найденных аномалий. Как следствие, затруднена возможность автоматического проведения мероприятий по реагированию.

Часто для принятия решения помимо аномального события или набора аномальных параметров требуется уточнение различных характеристик работы. Задачу наглядного представления требуемых данных в работе предложено решать с помощью проведения статистического анализа. Результатом статистического анализа в общем случае является набор агрегационных показателей и зависимостей, отражающих характер работы пользователей и функционирования компонентов. Основным требованием к методам статистического анализа является возможность гибкого построения и уточнения отчетов с целью детализации результатов по произвольным параметрам, вплоть до конкретных фактов и отображение результатов в понятном» аналитику виде. Учитывая то, что такие отчеты будут использоваться с целью поиска информации, формирование статистических отчетов должно происходить достаточно оперативно, в идеале — в режиме реального времени. Детализированный статистический анализ, удовлетворяющий поставленным требованиям, позволяет полностью решить задачу определения характеристик функционирования корпоративной сети.

Особенностью такого подхода является проведение анализа в отложенном режиме, т.е. по требованию аналитика на основе заданных им параметров.

Следует отметить, что существует множество систем, с разной степенью полноты решающих некоторые перечисленные задачи, однако, совокупное решение всех задач, очевидно, будет обладать существенным преимуществом, так как результаты анализа дополняют друг друга. С одной стороны, фиксация фактов нецелевого использования может стать сигналом к более глубокому контролю активности с целью обнаружения попыток внутренних вторжений, с другой стороны, похожие на атаку или аномальные действия со стороны пользователя могут являться причиной для проведения детального анализа использования ресурсов. ч

Особенностью мониторинга пользователей современных корпоративных сетей является необходимость сбора и совокупного анализа широкого спектра параметров работы. Для анализа требуется объединение информации, собранной из различных источников. Указанная задача может решаться различными методами, однако с ростом корпоративных сетей становится все более необходимой консолидация и централизованное хранение всех собранных параметров и характеристик функционирования. Консолидация позволяет получать полную информацию об активности объекта, производить сравнение поведения объектов, а так же проводить агрегацию и корреляцию данных из различных источников. Решения, построенные с использованием общего хранилища, предоставляют ряд дополнительных сервисов, таких как возможность проведения отложенного анализа, поддержание доказательной базы для расследования уже случившихся нарушений. Так же наличие исторических данных позволяет отслеживать изменение поведения. Централизованный анализ не нагружает наблюдаемые системы, более того они могут быть выключены.

Одним из основных вопросов построения систем мониторинга является выбор исходных данных. Можно выделить следующие основные источники: контентная информация - содержательные данные, с которыми работают пользователи и журналируемая информация — данные из системных журналов, журналов прикладных программ и других источников журналируемой информации.

На основе контроля перемещения контентной информации с большой вероятностью могут обнаруживаться утечки корпоративных данных, так как копирование данных является конечной целью большинства внутренних вторжений. По такой схеме работают, например, решения компании Info Watch [6]. Однако использование контентной информации имеет и ряд недостатков. Во-первых, контентная информация не формализована, требуется разработка методов извлечения требуемых данных из контента различных форматов. При этом содержание контентной информации не подходит для решения некоторых задач, в частности затруднен статистический анализ, так как контент не содержит параметров функционирования. Во-вторых, контентная информация занимает больший объем, поэтому задачи ее консолидации, хранения и анализа обычно более ресурсоемкие. И главное, анализ контентной информации потенциально снижает уровень защищенности корпоративных данных и сети. Это происходит по следующим причинам:

• За счет предоставления экспертам, разрабатывающим наборы правил и настраивающих систему, ключевых слов или иных признаков документов фактически происходит их ознакомление с конфиденциальной информацией, которую следует охранять от несанкционированного доступа.

• Системам безопасности предоставляется доступ ко всей информации, тем самым снижается уровень безопасности, т.к. образуется программный продукт, через который проходит вся конфиденциальная информация.

Использование событий журналируемой информации позволяет избежать обозначенных проблем. Журналируемая информация легко формализуется, содержит явные параметры и характеристики работы пользователей, функционирования устройств и программ. Журналируемая информация не компрометирует безопасность организации, так как не содержит конфиденциальных данных. Данная работа посвящена разработке средств мониторинга, основанных на использовании журналируемой информации.

Для решения каждого конкретного типа задач часто требуется специализированный набор данных [11]. Так для контроля характеристик функционирования вычислительных ресурсов могут применяться параметры их использования каждым пользователем. Для обнаружения нецелевого использования, параметры, описывающие работу пользователя с файлами, сетью и программами. О подготовке внутреннего вторжения же может свидетельствовать, практически, любой из параметров работы. В то же время состав программных и аппаратных средств, используемых в организациях, и соответственно журналов может сильно варьироваться. Следует отметить тот факт, что для проведения некоторых типов анализа могут требоваться дополнительных данные, не представленные ни в контентном, ни в журналируемом виде. Решить проблему получения необходимых данных можно только с помощью установки дополнительного программного обеспечения, в задачу которого входит определение требуемых параметров. В связи с этим, актуальным является разработка унифицированных моделей и методов, позволяющих производить сбор, консолидацию и анализ журналированных событий из различных источников и наблюдаемых систем, с учетом особенностей и ограничений использования сети передачи данных и других компонентов корпоративной сети.

Масштабы современных сетей, интенсивность функционирования компонентов, а так же комплексный состав используемых прикладных программ приводят к потокам в сотни, а зачастую и тысячи журналируемых событий в секунду, при этом большинство событий не представляет практической ценности для решения необходимых задач. Однако, очевидно, для решения различных задач, требуются различные журналируемые события. Требуется наличие настраиваемых механизмов фильтрации и агрегации собираемых данных, а так же планирования нагрузки на сеть, необходимы эффективные средства консолидации и централизованного хранения журналируемых данных. Принимая во внимание тот, факт, что любой мониторинг не имеет смысла, если существует возможность повлиять на достоверность исходных данных или результатов анализа, системы мониторинга должны обеспечивать защищенность данных от аварийных ситуаций и противодействий со стороны пользователя, как на этапе сбора и консолидации, так и на этапе хранения и анализа. Все модули системы должны быть защищены от «обхода» пользователем и от возможного отключения злоумышленником.

Обобщая вышеуказанное, можно утверждать, что актуальным является разработка технологии, позволяющей создавать системы мониторинга работы корпоративных пользователей, основанные на сборе, консолидации, централизованном хранении и анализе журналируемой информации, которые удовлетворяют следующим требованиям:

1. Подготовка исходных данных на основе использования различных источников журналируемой информации.

2. Эффективная консолидация и долговременное централизованное хранение данных.

3. Оперативная аналитическая обработка накопленной информации с целью вычисления явных зависимостей, статистических оценок параметров работы пользователей с ресурсами и поиска отклонений в работе.

4. Применение методов интеллектуального анализа данных с целью обнаружения неявных (скрытых) зависимостей в работе пользователей и аномалий в работе.

5. Минимизация дополнительной нагрузки на наблюдаемые системы и сеть передачи данных.

6. Обеспечение надежности и защищенности собранных данных и компонентов системы мониторинга.

Целью диссертации является исследование методов, алгоритмов и подходов проведения мониторинга и разработка, на основе результатов исследования, новой технологии построения специализированных систем мониторинга работы пользователей с ресурсами корпоративной сети. Технология должна основываться на использовании журналируемой информации и реализовывать моделирование поведения и поиск аномалий в работе пользователей. Построенные на .основе технологии системы должны позволять накапливать информацию, описывающую параметры работы пользователей, и проводить отложенный анализ с целью решения ряда специфических задач, таких как раннее обнаружение внутренних вторжений, выявление нецелевого и непрофессионального использования ресурсов корпоративной сети.

Постановка задачи. Исследование и разработка технологий построения систем мониторинга работы пользователей в рамках современных корпоративных сетей:

1. Исследование и разработка модели мониторинга, основанной на формализации сбора и обработки данных, описывающих работу пользователей с ресурсами корпоративной сети. Модель должна реализовывать концепцию раннего обнаружения за счет поиска аномалий в работе пользователей.

2. Исследование и разработка алгоритмических и программных решений, реализующих сбор, консолидацию, долговременное хранение и анализ журналируемых данных, позволяющих учитывать особенности конкретных корпоративных сетей, обладающих необходимой производительностью, обеспечивающих надежность работы и защищенность данных.

Результаты диссертационной работы докладывались на следующих конференциях и научных семинарах:

1. XIII Международная конференция студентов, аспирантов и молодых учёных «ЛОМОНОСОВ-2006», МГУ, Москва, 2006 г.

2. Конференция «Ломоносовские чтения 2006», МГУ, Москва, 2006 г.

3. Конференция «Тихоновские чтения», МГУ, Москва, 2006 г.

4. First Spring Young Researches' Colloquium on Software Engineering (SYRCoSE'2007), Moscow, Russia, 2007.

5. Вторая международная конференция «Системный анализ и информационные технологии» САИТ-2007, Обнинск, Россия, 2007 г.

6. 13-я Всероссийская конференция «Математические методы распознавания образов», Зеленогорск, Россия, 2007 г.

7. 6-я международная конференция по программированию «УкрПРОГ'2008», Киев, Украина, 2008 г.

Основные результаты работы изложены в девяти научных публикациях [11, 12,61,63,74, 77, 80, 85, 86].

Диссертационная работа состоит из введения, трех глав, заключения, библиографии и приложений. Далее излагается краткое содержание работы.

Заключение диссертация на тему "Мониторинг работы пользователей корпоративных сетей"

3.6. Выводы и результаты

Предлагаемая в работе технология, основанная на построенной модели, разработанном системном решении и совокупности методов сбора, консолидации и анализа, позволяет создавать системы мониторинга, отвечающие всем поставленным требованиям.

Технология обеспечивает производительность достаточную для работы в крупных корпоративных сетях. Решены проблемы защищенности данных от сбоев в функционировании компонентов сети и противодействий со стороны пользователей. В основе технологии находится:

• Мультиагентная архитектура, обеспечивающая масштабируемость и расширяемость систем мониторинга.

• Подсистема сбора данных, допускающая: a. расширяемость модулей слежения за параметрами работы; b. расширяемость набора используемых текстовых журналов; c. настройку методов фильтрации и формирования фактов активности; d. буферизацию и планирование передачи данных на сервер; e. шифрование передаваемых данных.

• Хранилище, основанное на файловой системе, специализированном формате представления данных и древовидной структуре, реализующее: a. механизм транзакций для импорта данных; b. механизм резервного копирования справочников.

• Независимая подсистема анализа данных, реализующая: а. применение технологии OLAP за счет заполнения соответствующей структуры витрины данных; b. эффективное по времени построение моделей поведения и обнаружение отдельных аномальных фактов активности и изменений статистики работы; c. механизм теневых заданий для фоновой подготовки отчетов;

1. визуализацию моделей поведения и найденных аномалий в виде сетей зависимостей, сводных таблиц и сводных диаграмм.

Заключение

Основными результатами диссертации являются:

1. Предложена модель мониторинга, формализующая сбор и анализ данных, описывающих работу пользователей с информационными и вычислительными ресурсами корпоративной сети. Модель реализует концепцию раннего обнаружения внутренних вторжений и нецелевого использования ресурсов корпоративной сети за счет поиска отдельных аномалий в работе пользователей и изменений статистики работы.

2. Разработана технология построения специализированных систем мониторинга работы пользователей корпоративных сетей, реализующая предложенную модель. Предложенные в рамках технологии алгоритмические и программные решения позволяют учитывать особенности конкретных корпоративных сетей, обладают необходимой производительностью, обеспечивают надежность работы и защищенность данных.

Разработанная технология апробирована в виде экспериментальной системы мониторинга. Построенная система мониторинга официально внедрена в эксплуатацию в один из органов государственной власти Российской Федерации, насчитывающий более 1250 рабочих мест пользователей, и успешно эксплуатируется с 2009 года.

Результаты опытной эксплуатации системы мониторинга показали, что:

1. Средний объем информации, передаваемый с одного компьютера на сервер консолидации агентом сбора, составил приблизительно 400 Кбайт в сутки;

2. Система при своем функционировании не нарушала эксплуатационных характеристик локальной вычислительной сети — не выявлены факты нарушения работоспособности компьютеров, на которые были установлены агенты сбора, не выявлены факты нарушения работоспособности сети за счет чрезмерного увеличения трафика, связанного с передачей собираемой агентами информации, не выявлены факты нарушения работы основных информационных сервисов;

3. Технология предоставляет возможности по выявлению фактов в работе пользователей, которые могут представлять интерес подразделению, ответственному за информационную безопасность (обращения к определенным категориям электронных документов, использование РпР устройств и обращение к документам на удаленных компьютерах, работа с определенными сетевыми ресурсами, использование игр, установка программного обеспечения, изменение аппаратной конфигурации и пр.);

4. Технология позволяет выявлять вирусы, пропущенные антивирусными средствами.

Построенные на основе технологии системы обладают следующими характеристиками:

1. Автономность. Не использует в своей работе данные внешних баз знаний. Для оценки аномальности фактов активности используются модели, построенные на собранных данных.

2. Адаптивность и самообучаемость. Система способна обнаруживать новые виды внутренних вторжений и аномалии в работе пользователей наблюдаемой компьютерной системы.

3. Масштабируемость. Система позволяет подключать к мониторингу дополнительные рабочие места пользователей за счет распространения агентов сбора данных.

4. Расширяемость. Система позволяет расширять набор исходных журналируемых данных и методов анализа данных за счет унификации сбора и представления собранных данных.

5. Безопасность. Система не понижает существующий уровень безопасности организации, в частности не использует контентную информацию. Передаваемые по сети данные шифруются с помощью SSL. Собранные данные хранятся во внутреннем представлении и защищены средствами разграничения прав доступа ОС.

Библиография Трошин, Сергей Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Мартин Файлер // Архитектура корпоративных программных приложений. М.: Изд. дом «Вильяме», 2004, сс. 27-104.

2. Computer Crime and Security Survey//Computer Security Institute. 7 апреля 2002. HTML. (http://www.gocsi.com/press/20020407.jhtml)

3. National Survey on Managing the Insider Threat//ComputerWorld. 12 сентября 2006 HTML. (http ://www. computerworld.com/action/article.do?command=viewArticle Basic&articleld=9003211)

4. InfoWatch. Внутренние ИТ-угрозы в России 2004 HTML. (http://www.securelist.com/ru/analysis/204007530/VnutrennieITugrozy vRossii2006)

5. Алексей Доля // Внутренняя ИТ-безопасность. КомпьютерПресс №4'2005 HTML. (http://www.compress.ru/article.aspx?id=10495&iid=430)

6. Описание продуктов компании InfoWatch HTML. (http ://www. infowatch.ru/ solutions)

7. InfoWatch. Внутренние IT-угрозы в России 2007-2008: итоги и прогнозы HTML. (http://www.infowatch.ru/threatsandrisks/analyticalreports/2414/)

8. Figures and Facts//ROMIR Monitoring Research Holding (http://romir.ru/en/news/resresults/l 19.html)

9. Amoroso, Edward, G., Intrusion Detection // 1st ed., Intrusion.Net Books, Sparta, New Jersey, USA, 1999

10. Jiawei Han, Micheline Kamber // Data Mining. Concepts and Techniques. USA, Academic press, 2001, cc. 5-16, cc. 39-85, cc.225-279.

11. П.Трошин С. В. Консолидация и предобработка информации из журналов регистрации ВС для систем обнаружения вторжений //

12. Сборник «Программные системы и инструменты» (под ред. чл-корр. РАН Л.Н.Королёва), №6, М.:Изд-во «МАКС Пресс», 2005, сс. 68-80.

13. Mark Nicolett, Kelly M. Kavanagh. Magic Quadrant for Security Information and Event Management, 29 мая 2009 //Gartner RAS Core Research Note G00167782

14. Михаил Романов // Безопасность корпоративных сетей: мониторинг, анализ, управление, «Storage News» № 1 (30), 2007.

15. J. Allen, A. Christie, W. Fithen, J. McHuge, J. Pickel, E. Stoner, State of Practice of intrusion detection technologies // Technical Report CMU/SEI-99-TR-028. Carnegie Mellon Software Engineering Institute. 2000

16. Kathleen A. Jackson. Intrusion Detection Systems (IDS). Product Survey. Version 2.1 (06/25/99) Computing, Information, and Communication Division, Los Alamos National Laboratory. USA.

17. Д. Кренке // Теория и практика построения баз данных (8-е издание). Спб.: Изд-во «Питер», 2003, сс. 166-205

18. Описание продукта Quest InTrust HTML. (http ://www. quest, com/intrust/)

19. Э. Таненбаум // Компьютерные сети (третье издание). Спб.: Питер, 2002, сс. 605-650.

20. Компания Gartner HTML. (http://www.gartner.com/technology/home.jsp)

21. Mark Nicolett. Critical Capabilities for Security Information and Event Management Technology, 29 мая 2009 //Gartner RAS Core Research Note G06022010

22. Описание продукта Prelude SIM. HTML. (http://www.preludeids.com/solutions/sim-universel/index.html) 23.Описание продукта OSSIM HTML.http://www.alienvault.com/solutions.php?section=LogManagement)

23. Описание решения EMC Centera HTML. (http://www.emc.com/products/family/emc-centera-family.htm)

24. Описание СУБД MSSQL HTML. (http ://www. microsoft, com/ sqlserver/2008/ en/us/default, aspx)

25. Брайан Ларсон // Microsoft SQL Server 2005 Reporting Services. Традиционные и интерактивные отчеты. Создание, редактирование, управление. М.: НТ Пресс, 2008.

26. Описание продукта NetForensics Sim One HTML.http://www.netforensics.com/products/SimOne/) 28.Ричард Дж.Ниемек // Oracle9i. Оптимизация производительности.

27. Описание SIEM решения SenSage HTML.http://sensage.com/solutions/siem.php?expandable=l)

28. Column-oriented DBMS HTML. (http://en.wikipedia.org/wiki/Column-orienteddatabase)

29. B. Bloom. Space/time trade-offs in hash coding with allowable errors. Communications of ACM, 13, July 1970.

30. ISO 17799, PDF. (http://gostexpert.ru/gost/getDoc/2794)

31. Health Insurance Portability and Accountability Act. HTML.(http://www.hipaa.org/)

32. Sarbanes-Oxley Act of 2002. PDF. (http://www.bsc-consulting.ru/images/download/EmbeddedFile.pdf)

33. Federal Information Security Management Act. HTML. (http://csrc.nist.gov/groups/SMA/fisma/index.html)

34. National Industrial Security Program Operating Manual. HTML. (http://ftp.fas.org/sgp/library/nispom.htm)

35. LogLogic Security Event Manager HTML. (http://loglogic.com/products/security-event-management/index.php)

36. Реализация syslog-ng HTML. (http://en.wikipedia.org/wiki/Syslog-ng)

37. Стандарт syslog HTML. (http://en.wikipedia.org/wiki/Syslog)

38. Описание продукта ArcSight ESM HTML.http://www.arcsight.com/products/products-esm/)

39. Описание продукта ArcSight Logger HTML.http://www.arcsight.com/products/products-logger/)

40. Описание продукта Prism Microsystems Event Tracker HTML. (http://www.prismmicrosys.com/EventTracker/)

41. RFC 3174 US Secure Hash Algorithm 1 (SHA1) HTML.(http://tools.ietf.org/html/rfc3174)

42. MS-CAB.: Cabinet File Format. Microsoft Corporation. 2009. [HTML] (http://download.microsoft.com/download/5/D/D/5DD33FDF-91F5-496D-9884-0A0B0EE698BB/%5BMS-CAB%5D.pdf)

43. Описание продукта LanAgent HTML. (http://www.lanagent.ru/)

44. Описание продукта StaffCop HTML. (http://staffcop.ru/)

45. Описание продукта Maxapt QuickEye HTML. (http://www.maxapt.ru/)

46. Описание продукта Work Examiner HTML.http ://www. workexaminer.com)

47. Fourth Annual SANS 2008 Log Management Market Report. PDF. (http://www.sans.org/readingroom/analystsprogram/LogMgtJune08.pd f)

48. Международная конвергенция измерения капитала и стандартов капитала: Уточненные рамочные подходы. PDF. (http://www.cbr.ru/today/pk/Basel.pdf)

49. The Gramm-Leach Bliley Act. HTML. (http://www.ftc.gov/privacy/privacyinitiatives/glbact.html)

50. Information Security Management Specification With Guidance for Use. HTML. (http://www.27001-online.com/)

51. Payment Card Industry (PCI) Data Security Standard. PDF.(http://www.pcidss.ru/files/pub/pdf/pcidssvl. 2english.pdf)

52. Sergey Dorofeev, Peter Grant. Statistics for Real-Life Sample Surveys. Non-Simple-Random Samples and Weighted Data.

53. Трошин С. В. Мониторинг работы корпоративных пользователей //Вопросы современной науки и практики. Университет им. В. И. Вернадского №2(16)/2009, г. Тамбов, 2009, сс. 59-72

54. Хантер Р. //Проектирование и конструирование компиляторов, 1984г. сс.164-170

55. Трошин С. В. Консолидация данных об активности пользователей вычислительных систем// XX Международная научная конференция Математические Методы в Технике и Технологиях, Ростов-на-Дону, Издательский центр ДГТУ, 2007, сс. 254-256.

56. Steven Т. Eckmann, Giovanni Vigna, Richard A. Kemmerer // STATL: An Attack Language for State-based Intrusion Detection. Department of Computer Science University of California.

57. Alfred V. Aho, Ravi Sethi, Jaffrey D. Ullman. Compilers. Principles, Techniques, and Tools. // Addison-Wesley, pages 113-134, 1988.

58. Петровский М.И. Алгоритмы выявления исключений в системах интеллектуального анализа данных. //Журнал РАН «Программирование», Москва, 2003, №4, сс. 66-80.

59. А.А. Барсегян, М.С. Куприянов // Методы и модели анализа данных: OLAP и Data Mining. Санкт-Петербург, 2004, сс. 13-26, сс. 49-54, сс. 129-141, сс. 141-147.

60. Саймон Хайкин // Нейронные сети: полный курс, 2-е зд., испр. М.ЮОО «И.Д.Вильямс», 2006, сс. 31-171.

61. Jiawei Han, Micheline Kamber // Data Mining. Concepts and Techniques. USA, Academic press, 2001, cc. 5-16, cc. 39-85, cc.225-279.

62. K. Ilgun, R.A. Kemmerer, P.A. Porras, State Transition Analysis: A Rule-Based Intrusion Detection System // IEEE Trans. Software Eng. vol. 21, no. 3, Mar. 1995.

63. А. А. Корниенко, И.М. Слюсаренко. // Системы и методы обнаружения вторжений: современное состояние и направления совершенствования,2009.

64. HTML. (http ://www. citforum.ru/security/internet/idso verview/)

65. Jiawei Han, Micheline Kamber // Data Mining. Concepts and Techniques. USA, Academic press, 2001, cc. 5-16, cc. 39-85, cc.225-279.

66. D. Heckerman, D.M. Chickering, C. Meek, R. Rounthwaite, and C. Kadie. Dependency Networks for Inference, Collaborative Filtering, and Data Visualization//Microsoft Research.

67. Igor V. Mashechkin, Mikhail I. Petrovskiy, Sergey V. Troshin, Andrew A. Shestimerov Data Gathering and User Behavior Analysis System // SYRCoSE 2007., 2007, volume 1, pp. 39-45. 75.Скотт Мэйерс, Эффективное использование Си++. // М.: Изд.-во ДМК, 2006.

68. Алексей Федоров, Наталия Елманова. Введение в OLAP. HTML. (http ://olap.ru/basic/OLAPintro 1 .asp)

69. Петровский М.И., Машечкин И.В., Трошин С.В. Исследование и разработка методов интеллектуального анализа данных для задач компьютерной безопасности// Математические методы распознавания образов ММРО-13, Москва, 2007, сс. 522-528

70. В. Столлингс // Передача данных. 4-е изд. Спб.: Питер, 2004, сс. 582587, сс. 682-683

71. Описание программного интерфейса Windows event log API HTML. (http://msdn.microsoft.com/en-us/library/aa385780(VS.85).aspx)

72. Машечкин И. В., Петровский М. И., Трошин С. В. Мониторинг и анализ поведения пользователей компьютерных систем //УкрПРОГ'2008: шестая международная конференция по программированию, Украина, г. Киев, 2008.: Сборник докладов., сс. 22-29.

73. Overview of the Windows Installer Technology HTML. (http://support.microsoft.eom/kb/310598).

74. Microsoft Association Algorithm Technical Reference HTML. (http://msdn.microsoft.com/en-us/library/cc280428.aspx)

75. Massachusetts institute of technology. Lincoln laboratory HTML. (http://www.ll.mit.edu/)

76. Defense Advanced Research Projects Agency HTML. (http://www.darpa.mil/)

77. Машечкин И. В., Петровский М.И., Трошин С.В. Применение моделирования поведения пользователей в задачах компьютернойбезопасности// Вестник молодых ученых «Ломоносов» выпуск IV, Москва 2007, сс. 87-94.

78. Илья Григорьевич Венецкий, Вера Ивановна Венецкая. // Основные математико-статистические понятия и формулы в экономическом анализе. Справочник. М.: Статистика, 1979

79. Дейт, К., Дж. Введение в системы баз данных, 7-е издание М.: Изд.-во «Вильяме», 2001, сс. 397-469.