Распознавание вредоносного программного обеспечения на основе скрытых марковских моделей

Козачок, Александр Васильевич

Методы и системы защиты информации, информационная безопасность

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Распознавание вредоносного программного обеспечения на основе скрытых марковских моделей

кандидата технических наук: Козачок, Александр Васильевич
город: Орел
год: 2012
специальность ВАК РФ: 05.13.19

Диссертация по информатике, вычислительной технике и управлению на тему «Распознавание вредоносного программного обеспечения на основе скрытых марковских моделей»

Автореферат диссертации по теме "Распознавание вредоносного программного обеспечения на основе скрытых марковских моделей"

На правах рукописи

КОЗАЧОК Александр Васильевич

РАСПОЗНАВАНИЕ ВРЕДОНОСНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ НА ОСНОВЕ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ

Специальность: 05.13.19 - Методы и системы защиты информации, информационная безопасность

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

6 ЛЕН 2012

Воронеж-2012

005056673

Работа выполнена в Академии Федеральной службы охраны Российской Федерации

Научный руководитель Мацкевич Андрей Георгиевич

кандидат технических наук

Официальные оппоненты:

Белоножкин Владимир Иванович доктор технических наук, доцент, руководитель аппарата уполномоченного по правам человека в Воронежской области;

Ведущая организация:

Проскурин Вадим Геннадьевич кандидат технических наук, доцент, Институт криптографии, связи и информатики Академии ФСБ России, заместитель начальника кафедры программирования и компьютерной безопасности

ОАО "Концерн "Созвездие" (г. Воронеж)

Защита состоится 27 декабря 2012 г. в 1300 часов в конференц-зале на заседании диссертационного совета Д 212.037.08 ФБГОУ ВПО "Воронежский государственный технический университет" по адресу, 394026, г. Воронеж, Московский просп., 14.

С диссертацией можно ознакомиться в научно-технической библиотеке ФБГОУ ВПО "Воронежский государственный технический университет".

Автореферат разослан 21 ноября 2012 г.

Ученый секретарь диссертационного совета

Чопоров О. Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. В современных условиях при высоком уровне информатизации общества деятельность всех организаций связана с необходимостью обмена информацией по сети. Широкое распространение при этом получили корпоративные информационно-вычислительные сети (КИВС). Корпоративные сети относятся к распределенным компьютерным системам, осуществляющим автоматизированную обработку информации.

Важный аспект функционирования КИВС составляет обеспечение информационной безопасности данных, хранимых, обрабатываемых и передаваемых по сети. Наиболее опасными угрозами информационной безопасности при этом являются: аппаратные и программные сбои, заражение ЭВМ вредоносными программами, сетевые атаки, халатность сотрудников, и др.

Для противодействия угрозам информационной безопасности в состав современных операционных систем (ОС) встраивается подсистема безопасности, состав которой во многом определяется сервисами безопасности. Базовой ОС для ПЭВМ КИВС является ОС семейства Windows. При этом наименее проработанным аспектом защиты и в то же время наиболее опасной угрозой остается угроза заражения ЭВМ вредоносными программами.

Анализ эффективности антивирусных средств, сертифицированных в Российской Федерации, показал, что известные штаммы вредоносных программ практически со стопроцентной вероятностью распознаются данными средствами. Однако вероятность распознавания новых и модифицированных штаммов составляет около 0,616 (для Eset NOD32 Antivirus 5.0, по данным AV-Comparatives).

Анализ работ исследователей, занимающихся разработкой антивирусных средств, как отечественных, так и иностранных, позволил сделать вывод о том, что существующие в настоящее время механизмы распознавания вредоносных программ не удовлетворяют современным требованиям.

Таким образом, возникает противоречие между тенденцией к увеличению числа ежемесячно выпускаемых компьютерных вирусов и качеством их распознавания существующими средствами противодействия вредоносным программам.

Несомненно, задача разработки новых механизмов распознавания вредоносных программ является актуальной, и ее решение позволит повысить качество функционирования антивирусных средств и эффективность работы подсистемы безопасности операционной системы Windows по защите от угрозы заражения вредоносными программами в целом.

Данная диссертационная работа выполнена в соответствии с одним из основных научных направлений Академии Федеральной службы охраны Российской Федерации.

Объект исследования: подсистема антивирусной защиты операционных систем семейства Windows.

Предмет исследования: модели, методы и алгоритмы распознавания вредоносных программ в исполняемых файлах операционных систем семейства Windows.

Цель исследования: снижение риска заражения вредоносными программами за счет повышения эффективности процесса распознавания вредоносного

программного обеспечения на основе применения скрытых марковских моделей и методов кластерного анализа исполняемых файлов.

В соответствии с поставленной целью были сформулированы следующие

основные задачи:

- разработал, функциональную и аналитическую модели системы распознавания вредоносного программного обеспечения на основе применения аппарата скрытых марковских моделей и алгоритмов иерархической кластеризации;

- разработать методику распознавания вредоносных программ на основе скрытых марковских моделей и реализовать ее в виде комплекса алгоритмов;

-обосновать выбор параметров системы распознавания, сформировать предложения по практической реализации комплекса алгоритмов распознавания вредоносного программного обеспечения, основанного на применении аппарата скрытых марковских моделей и методов иерархического кластерного

анализа. я

Научная задача исследования: на основе скрьгшх марковских моделей

и методов кластерного анализа данных разработать модель и методику распознавания вредоносного программного обеспечения в условиях отсутствия априорных данных об их сигнатуре, позволяющие существенно снизил, риск заражения вредоносными программами операционных систем семейства \Vin-(1о\У8.

Решение научной задачи основывается на использовании теории машинного обучения, методах кластерного анализа, теории вероятностей и математической статистики, теории алгоритмов, методов математического моделирования.

Научная новизна диссертационной работы определяется:

-обоснованием на основе математического моделирования и натурного эксперимента возможности повышения эффекшвности распознавания вредоносных программ путем применения аппарата скрытых марковских моделей и методов иерархического кластерного анализа;

- применением аппарата скрытых марковских моделей для решения задачи кластеризации исполняемых файлов различных классов программного кода (незаряженных файлов и вредоносных программ);

-разработкой аналитической модели системы распознавания вредоносного программного обеспечения на основе аппарата скрытых марковских моделей в условиях отсутствия априорных сведений об их сигнатуре;

-разработкой методики распознавания вредоносного программного обеспечения на основе скрытых марковских моделей.

Основные положения, выносимые на защиту:

1 Аналитическая модель процесса распознавания вредоносного программного обеспечения, основанная на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, учшывающая механизмы порождения машинного кода разных классов.

2 Методика распознавания вредоносного программного обеспечения, отличающаяся от аналогов применением аппарата скрытых марковских моделей и реализованная в виде комплекса алгоритмов.

3 Научно-технические предложения по практической реализации комплекса' алгоритмов распознавания вредоносного программного обеспечения,

основанных на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, включающих: рекомендации по программной реализации, выбору параметров системы распознавания, а также варианты применения разработанного комплекса алгоритмов.

Практическая значимость результатов диссертационной работы заключается в разработке и программной реализации комплекса алгоритмов распознавания вредоносного программного обеспечения на основе скрытых марковских моделей, а также в их применении в КИВС в качестве добавочного механизма распознавания и первичного анализа исполняемых файлов.

Научные результаты, полученные в процессе работы над диссертационным исследованием, используются в Академии Федеральной службы охраны Российской Федерации на кафедре "Безопасности сетевых технологий" при подготовке курсантов по специальности 090106 - Информационная безопасность телекоммуникационных систем, а также в деятельности ООО НТЦ "Фобос-НТ", что подтверждено актами о внедрении.

В соответствии с формулой специальности 05.13.19 "Методы и средства защиты информации, информационная безопасность" в диссертации решались задачи разработки модели и методики распознавания вредоносных программ на основе скрытых марковских моделей. Полученные в диссертации научные результаты соответствуют следующим пунктам области исследования специальности 05.13.19:

- методы и средства (комплексы средств) информационного противодействия угрозам нарушения информационной безопасности в открытых компьютерных сетях, включая Интернет (п. 5);

- модели противодействия угрозам нарушения информационной безопасности для любого вида информационных систем (п. 8).

Апробация работы. Основные научные и практические результаты диссертационной работы и отдельные ее аспекты докладывались и обсуждались на следующих конференциях:

- 16-я Всероссийская конференция "Проблемы информационной безопасности в системе высшей школы" (11-й Национальный форум информационной безопасности) (Москва, 2009);

- 15-я международная конференция "Современные проблемы информатизации в анализе и синтезе программных и телекоммуникационных систем" (Воронеж, 2010);

- 7-я Всероссийская научная конференция "Проблемы развития технологических систем государственной охраны, специальной связи и информации" (Орел, Академия ФСО, 2011);

-Межрегиональная научно-практическая конференция "Инновации и информационные риски" (Воронеж, ВГТУ, 2012).

Публикации и личный вклад автора. По теме диссертации опубликовано 9 научных работ, в том числе 4 - в изданиях, рекомендованных ВАК Ми-нобрнауки России; получено свидетельство об официальной регистрации программы для ЭВМ № 2010611715 "Кластерный анализатор исполняемых файлов на наличие файловых вирусов СЬЫегАУ"; одобрена заявка на полезную модель №2012115337. В работах, опубликованных в соавторстве и приведенных в конце автореферата, лично соискателю принадлежат: обоснование подхода к

модификации структурного метода распознавания вирусов [1],функциональная модель системы распознавания разрушающих программных средств [2], оценка эффективности применения алгоритма обнаружения вредоносных программ на основе анализа их поведения [3], оценка эффективности модифицированного структурного механизма обнаружения вредоносных программ [7], анализ механизмов распознавания разрушающих программных средств [9].

Структура и объем работы. Диссертационная работа состоит из введения трех глав, заключения, библиографического списка, включающего 128 наименований, и восьми приложений. Текст диссертации изложен на 151 странице, содержит 33 рисунка и 15 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении раскрыта актуальность научных исследований в области разработки антивирусных средств; сформулирована научная задача; приведены основные положения, выносимые на защшу; представлена структура диссертационной работы.

В первой главе проведен анализ условий функционирования корпоративных информационно-вычислительных сетей. Базовой ОС для ПЭВМ КИВС является ОС Windows. По статистике, опубликованной компанией Net Applications на более чем 92 % ЭВМ корпоративных сетей устанавливаются операционные системы семейства Windows, для серверных платформ доля ОС Windows

составляет более 75 %. ,

В результате анализа было выявлено, что одной из опасных угроз информационной безопасности КИВС является угроза заражения вредоносными программами, цель которых - уничтожение, кража и/или модификация информации в сети.

Для решения задач по противодействию вредоносным программам в корпоративных сетях в настоящее время используются антивирусные средства, качество которых по показателю вероятности ошибки второго рода

(в , =0 384, для Eset NOD32, по данным AV-Compaiatives) не удовлетворя-v ^ош.2

ет требованиям ФСТЭК, предъявляемым по данному показателю (рош2 ^ °.3)-Основной функцией антивирусного средства является анализ объектов на предмет наличия в них вредоносного программного кода. Блок, отвечающий за данный функционал, является ключевым и в значительной степени определяет качество распознавания вредоносных программ и качество системы антивирусной защиты в целом.

Целью функционирования антивирусных средств является обеспечение определенного уровня защищенности системы от угрозы заражения вредоносными программами. Одним из этапов анализа защищенности системы является

проведение оценки рисков.

В качестве подхода к оценке рисков был выбран детальный анализ риска в соответствии с ГОСТ РИСО/МЭК 13335-3-2007. Данный подход является качественным, так как основывается на экспертной оценке. Анализ риска производился в рамках одной угрозы - угрозы заражения вредоносными програмМаМИ На рисунке 1 представлена типовая структура корпоративной информа-

ционно-вычислительной сети.

Представленный фрагмент сети состоит из двух сегментов, удаленных друг от друга географически и объединенных посредством сети WAN.

На этапе оценки угроз в соответствии с документом NIST800-30 "Руководство по менеджменту риска для систем информационных технологий" по значению вероятности реализации угрозы ей присваивается степень вероятности реализации. Степень реализации угрозы заражения вредоносными программами является средней

( 0,1 < рош j < 0,5 ); значения вероятности ошибки второго рода для большинства известных антивирусных средств находятся в этом диапазоне.

Во второй главе проведен анализ особенностей функционирования вредоносных программ (ВП), который подтвердил наличие ярко выраженного жизненного цикла на стадии их исполнения. Данный факт позволяет сделать вывод о возможности использования представления машинного кода в виде цепочек машинных команд для анализа исполняемых файлов на предмет зараженности и применения аппарата скрытых марковских моделей для кластеризации данных последовательностей (распознавания вредоносного программного кода).

В работе представлена функциональная модель системы распознавания вредоносного программного обеспечения на основе скрытых марковских моделей и методов иерархического кластерного анализа (рис. 2), которая состоит из трех подсистем:

1) подсистемы предварительной обработки, реализующей процедуру выделения цепочки машинных команд (трассы исполнения) из анализируемого файла;

2) подсистемы обучения, предназначенной для восстановления моделей кластеров машинного кода различных классов программ;

3) подсистемы распознавания, принимающей решение о зараженности по последовательности машинных команд, выделенной из файла и характеризующей в семантическом смысле его функциональное предназначение.

Сформирована аналитическая модель системы распознавания вредоносных программ на основе скрытых марковских моделей и методов иерархического кластерного анализа, которая определяет решение двух взаимосвязанных задач: обучения множества моделей кластеров машинного кода различных классов программ, а также обратной задачи - распознавания факта зараженно-

Рис. 1. Типовая структура корпоративной информационно-вычислительной сети

Цепочка машинных

Контрольны^

выборки Обучающие

выборки

Предварительна* обработка

Множество цепочек

' Множество Решение о принадлежности |__Ка моделей _ файлах определенному классу

Обучение__

Множество

Расчет правдоподобия Массив Выбор кластера по

порождения цепочки значений критерию

Г1жции »1 »пялеров по граадоподобия максимального

алгоритму прямого хода да К* моделе! правдоподобия

База данных моделей

ста анализируемого файла на основе оценке вероятностных свойств последова тельности, выделенной из исполняемого файла и характеризующей его^унк циональное предназначение.

Обучение системы распознавания вредоносного программного обеспечения на основе скрытых марковских моделей включает в себя три этапа (рис. 2):

1) обучение множества скрытых марковских моделей по алгоритму Баума-Уэлча;

2) построение

1С* моделей

обу*

моделей по алгоритму Баума-Уэлча

и* моделей

расстояний

Рис. 2. Функциональная модель системы распознавания вредоносных программ на основе скрытых марковских моделей

матрицы межкластерных расстояний;

3) кластеризация и обучение моделей полученных кластеров.

Применение процедуры кластеризации для построения системы распознавания вредоносных программ обусловлено тем, что в задачах машинного обучения в аспекте антивирусного распознавания объем данных обучающей выборки не должен влиять на время, затрачиваемое на распознавание данных на основе обученных моделей. Подход, при котором процедура обучения восстанавливает число скрытых марковских моделей по числу файлов обучающей выборки, не удовлетворяет данному требованию. Таким образом, для преодоления данного недостатка была разработана процедура кластеризации, позволяющая обеспечить ограниченное число кластеров машинного кода независимо от объема обучающей выборки.

На вход подсистемы обучения поступает множество цепочек машинных команд, выделенных из исполняемых файлов обучающей выборки одного из классов программ (незараженных файлов и вредоносных программ) подсистемой предварительной обработки.

На первом этапе производится обучение множества скрытых марковских моделей по алгоритму Баума-Уэлча. Скрытая марковская модель (СММ) представляет собой дважды стохастический процесс, состоящий из пары случайных процессов - основного и ненаблюдаемого (скрытого). В данном случае основным процессом является процесс появления символов наблюдения (идентификаторов машинных команд архитектуры 1А 32/1А 64), а скрьггым - процесс перехода между функциональными элементами программы.

Для задания СММ необходимо ввести следующие обозначения :

1) - множество состояний модели, //-число состояний;

2) К={у, },/=й? - множество наблюдаемых символов (идентификаторов

1 Рабинер Л. Р. Скрытые Марковские модели и их применение в избранных приложении при распознавании

речи. Обзор. // ТИЭР - М: Наука, 1989. - Выпуск 2. - Том 77. - С. 86-102.

машинных команд);

3) A={aijlaij=P[qt+i=Sj\qt=Sill<iJ<N - распределение вероятностей переходов;

4) Я={Ьу(*)} bj(k)=P\ykatt\qt=Sj[\<j<N,l<k<M - распределение вероятностей символов наблюдения (машинных команд);

5) л-={л-,}, rri=F[qi=si \ i=\,N- начальное распределение вероятностей состояний;

6) 0=0\,0ъ...,0х - последовательность наблюдаемых значений (цепочка машинных команд), под временем t понимается момент наблюдения символа О,, Г-длина цепочки;

7) Á=(N,M,A,B,x) - скрытая марковская модель, М = 1517, N - варьируемый параметр.

В приложении к системе распознавания ВП изначально для каждой цепочки машинных команд, выделенной из обучающей выборки, задается СММ, матрицы распределений вероятностей А, В, п при этом для каждой модели заполняются равновероятными значениями (этап инициализации). Затем по алгоритму Баума-Уэлча каждая модель обучается для соответствующей последовательности наблюдаемых значений итеративно с некоторым заданным исследователем порогом точности £.

Результатом данного этапа являются кластеров, обученных на последовательностях наблюдаемых значений, выделенных из репрезентативной обучающей выборки.

На втором этапе обучения производится расчет матрицы межкластерных расстояний. Исходя из определения СММ для расчета расстояний между моделями, можно воспользоваться мерами для определения близости распределений вероятностей. Для построения матрицы межкластерных расстояний было выбрано расстояние Кульбака-Лейблера. Данная мера позволяет определить, насколько далеки друг от друга два вероятностных распределения. Однако вследствие несимметричности она не является метрикой на пространстве распределений.

Существуют различные подходы к симметризации расстояния Кульбака-Лейблера. Автором была выбрана процедура симметризации расстояния по схеме "среднего сопротивления" (Resistor Average). Которая дает наименьшую среднюю ошибку при использовании оптимального байесовского классификатора:

1,1,1 DsymKLÍP-q) Dfa(p,q) Df^(q,p) (1)

В приложении к алгоритму Баума-Уэлча расстояние Кульбака-Лейблера будет рассчитываться между моделями и с учетом наблюдаемых последовательностей. Алгоритм расчета расстояний между моделями с учетом того, что модель Ар обучалась на последовательности Ор, а модель Лд - на последовательности Од соответственно, представлен в выражении:

BKL^p,Xq)= PlPT-(2)

В приложении к системе распознавания ВП, используя выражения (1), (2) можно построить матрицу взаимных расстояний между СММ, восстановленными на первом этапе обучения.

Результатом второго этапа обучения является симметричная матрица с нулями на главной диагонали, заполненная значениями симметризованных расстояний Кульбака-Лейблера, рассчитанных попарно между всеми моделями кластеров.

На заключительном этапе обучения производится выделение схожих кластеров по принципу минимизации межкластерного расстояния по матрице, полученной на втором этапе:

% = min DsymKL(i,j), i = IL^J = l.imjfc-

i.j

В качестве алгоритма кластеризации автором был выбран алгоритм восходящей иерархической классификации, в основе которого лежит обобщенная алгомеративная процедура. Данный алгоритм является иерархическим, не зависит от выбора начальной точки, варьируемым параметром при этом является число кластеров Кс/.

Для пересчета матрицы межкластерных расстояний автором предложено использовать комбинаторное решение - производить пересчет матрицы межкластерных расстояний с использованием гибкой стратегии иерархической кластеризации по рекуррентной формуле Жамбю. Общий вид данной формулы для гибкой стратегии представлен в следующем выражении:

D(UvV,S)=0,625DQJ, S) + 0,625D(F, S) - 0,25DQJ, V) (4)

Для определения числа кластеров предлагается воспользоваться алгоритмом Кржановского и Лая. Данный критерий позволяет определил, рациональное число кластеров для заданного разбиения. Критерий останова процедуры кластеризации заключается в максимизации функции KL(K) и основывается на варьировании порядка изменчивости внутренних дисперсий:

KL(KcI)=

DIFF(K)

(5)

П1ГР(Кс,) = {К-1)2'Р}У(К-\)-(К)2'Г}Г{К), (6)

где р - размерность пространства;

Ж(К) - сумма квадратов межкластерных расстояний.

В приложении к системе распознавания данный алгоритм будет выглядеть следующим образом:

а) поиск по матрице расстояний минимального значения межкластерного

расстояния - выбор двух кластеров для объединения, выражение (3);

б) объединение кластеров, выбранных на шаге а);

в) пересчет матрицы межкластерных расстояний.

На первом шаге каждый объект является отдельным кластером, заданным

СММ - результат первого этапа обучения. На следующем шаге объединяются два ближайших объекта, которые образуют новый кластер, выражения (7), (8), определяются расстояния от этого кластера до всех остальных моделей, и размерность матрицы межкластерных расстояний сокращается на единицу. Итерации повторяются до тех пор, пока не останется заданное Кс1 число кластеров.

птз

_ ,, ч P{Q2\h)-P{Q2\X\) (8)

"кьулг>Л\)=-=-•

т2

В результате процедуры обучения для обучающей выборки каждого из классов программного кода задается определенное число кластеров:

- для класса незараженных файлов K^jear;

у virus

- для класса вредоносных программ лс/

Выходными данными при осуществлении процедуры обучения являются

Kclear + faints модслей кластеров машинного кода, представляющих собой ба-

ci cl

зу моделей кластеров.

Второй составляющей аналитической модели является процедура распознавания, которая включает в себя два основных этапа. На первом этапе на вход системы распознавания поступает выделенная из анализируемого файла цепочка машинных команд. На основе данной последовательности наблюдений для каждого кластера из базы моделей кластеров по алгоритму прямого хода производится расчет правдоподобия порождения данной цепочки:

^ (9)

где Оа - анализируемая цепочка машинных команд, K^ear + K™™s - общее

число кластеров класса незараженных файлов и класса вредоносных программ.

На втором этапе по критерию максимального правдоподобия производится выбор кластера и принимается решение о принадлежности анализируемого файла к определенному классу:

Си/ с= max P{Oa\Xi), 1 = 1 • <10)

Отличительными особенностями разработанной аналитической модели в сравнении с существующими подходами к распознаванию вредоносных программ являются: „

- задание класса вредоносных программ и класса незараженных файлов на основе аппарата скрытых марковских моделей;

- введение процедуры внутриклассовой кластеризации машинного кода, позволяющей обеспечить ограниченное число кластеров машинного кода независимо от объема обучающей выборки;

-применение в качестве меры сходства скрытых марковских моделей расстояния Кульбака-Лейблера, симметризованного по формуле "среднего сопротивления";

^^ Начало ^^

/ Входные данные /

•>

/ ч

Цикл обработки трасс Тгасе[П,

Инициализация начальных значений СММ

Обучение СММ по алгоритму Баума-Уэлчадля последовательности ТгасеН

Цикл иерархической кластеризации

Выбор двух кластеров для объединения по критерию М1я межкластерного _расстояния

Пересчет матрицы межкластерных расстояний по рекуррентной

формуле

- применение гибкой стратегии иерархической кластеризации для кластеризации цепочек машинных команд.

В третьей главе разработана методика распознавания вредоносного программного обеспечения, основанная на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, которая включает в себя два основных этапа:

1) подготовка системы распознавания к работе (этап обучения);

2) работа системы распознавания (этап распознавания вредоносных программ).

Основными процедурами первого этапа являются:

1) формирование обучающих выборок для класса вредоносного программного обеспечения и класса незаряженных файлов;

2) предварительная обработка исходных данных - выделение цепочек машинных команд из всех файлов обучающих выборок обоих классов машинного кода;

3) работа алгоритма обучения системы распознавания ВП на основе СММ.

Методика распознавания вредоносных программ реализована в виде комплекса алгоритмов распознавания вредоносного программного обеспечения, основанного на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, который, в свою очередь, включает в себя алгоритм обучения системы распознавания вредоносного программного обеспечения и алгоритм распознавания программ с потенциально опасными последствиями.

Алгоритм обучения системы распознавания вредоносного программного обеспечения на основе скрытых марковских моделей реализует подсистему обучения функциональной модели системы распознавания вредоносных программ (рис. 2). На рисунке 3 приведена блок-схема алгоритма обучения систе-

Цикл иерархической

кластеризации V НММГЬ^] /

Выбор числа

кластеров по

критерию

Крж&новского и Ли

14 >-

Построение матрицы межкластерных расстояний

Выходные данные

Окончание

Рис. 3. Блок-схема алгоритма обучения системы распознавания ВП на основе СММ

мы распознавания вредоносных программ на основе скрытых марковских моделей.

На вход алгоритма обучения поступают трассы выполнения исполняемых файлов обучающей выборки одного из классов машинного кода, полученные в результате процедуры предварительной обработки обучающей выборки (эмуляции исполнения кода или динамической инструментации кода).

На первом шаге алгоритма производится задание числа скрытых марковских моделей по числу трасс, поступивших на вход системы распознавания.

Далее в блоках 2-5 производится цикл обработки массива входных трасс, в котором для каждой трассы:

- в блоке 3 задается СММ и производятся инициализация начальных параметров модели и заполнение матриц в соответствии с равномерным законом распределения (равновероятными значениями);

- в блоке 4 производится обучение скрытой марковской модели по алгоритму Баума-Уэлча для данной цепочки машинных команд.

Выходными данными блока 5 является массив скрытых марковских моделей, обученных на соответствующих последовательностях. В блоке 6 осуществляется построение матрицы межкластерных расстояний на основе расчета симметризованного расстояния Кульбака-Лейблера для всех моделей, полученных на предыдущем шаге. Выходом данной процедуры является симметричная матрица взаимных расстояний с нулями на главной диагонали, размерности {^х^}.

В блоках 7-10 реализован цикл иерархической кластеризации, который осуществляется до тех пор пока число моделей в результате кластеризации не станет равным единице. На каждом шаге цикла над массивом моделей осуществляются следующие действия:

- в блоке 8 производится выделение двух схожих кластеров по принципу минимизации межкластерного расстояния для объединения;

- в блоке 9 происходит объединение кластеров и пересчет матрицы межкластерных расстояний с использованием гибкой стратегии иерархической кластеризации по рекуррентной формуле Жамбю.

Таким образом, в данном цикле число моделей, участвующих в формировании матрицы межкластерных расстояний, изменяется от Ьтк (начальное значение) до единицы (критерий останова цикла), уменьшаясь на единицу на каждом шаге кластеризации. Выходными данными цикла кластеризации является множество значений матриц межкластерных расстояний, полученных на каждом шаге кластеризации, вместе с данными об объединяемых кластерах.

Затем с выхода блока 10 все данные поступают в блок 11, где по критерию Кржановского и Лая осуществляется выбор рационального числа кластеров для данных входных параметров.

Выходными данными алгоритма обучения системы распознавания ВП на основе СММ (блок 12) являются модели кластеров машинного кода, восстановленные по последовательностям цепочек машинных команд в соответствии с числом кластеров, определенным в блоке 11 (Кы) для одного класса файлов. Аналогичные действия производятся и над другим классом программ. Для ра-

боты системы распознавания необходимо обучить классов программного кода.

Алгоритм распознавания вредоносных программ на основе скрытых марковских моделей реализует подсистему распознавания функциональной модели системы распознавания разрушающих программных средств (рис. 2). На рисунке 4 приведена блок-схема алгоритма распознавания вредоносных программ на основе скрытых марковских моделей.

В блоке 1 на вход подсистемы распознавания поступает анализируемый файл. Затем в блоке 2 производится предварительная обработка данного файла с целью проверки корректности исполняемого файла и выделения цепочки машинных команд Оа.

В блоках 3-5 осуществляется цикл расчета правдоподобия порождения цепочки Оа каждой моделью из множества моделей кластеров, полученных в результате процедуры обучения. В блоке 4 производится расчет правдоподобия по алгоритму прямого хода.

В блоке 6 по критерию максимума правдоподобия осуществляется выбор кластера, к которому с максимальной вероятностью можно отнести анализируемый файл. В блоке 7 принимается решение о зараженности анализируемого файла и принадлежности его к определенному классу программ в зависимости от того, к какому кластеру данная цепочка была отнесена в блоке 6.

Отличительные особенности разработанной методики:

- реализован подход к кластеризации скрытых марковских моделей на основе применения гибкой стратегии иерархической кластеризации;

- использован критерий Кржановского и Лая для обоснования выбора числа кластеров машинного кода;

-разработана процедура выделения цепочек машинных команд, основанная на использовании процедуры эмуляции исполнения кода (интеллектуальный дизассемблер) или динамической инструментации кода - выделение трасс машинных команд в процессе исполнения программы в среде "безопасного" исполнения.

Программная реализация комплекса алго-

систему на выборках обоих

Распознавание

Анализируемый файл

Выделение трассы машинных команд

О.

/ Цикл расчета \ правдоподобия для последовательности О, на всех НММ(р, ¡-1,Ка

Расчет Р(0, | по алгоритму прямого хода

Цикл расчета правдоподобия для последовательности О,

Выбор кластера по критерию максимального правдоподобия

Принятие решения о зараженности анализируемого файла

Распознавание

Рис. 4. Блок-схема алгоритма обучения системы распознавания ВП на основе СММ

ритмов распознавания вредоносных программ позволила провести верификацию аналитических моделей путем натурного моделирования и выработать предложения по реализации, выбору параметров системы и применению комплекса алгоритмов.

Оценка частных показателей эффективности предложенной системы распознавания вредоносного программного обеспечения осуществлялась путем экспериментальных испытаний на контрольной выборке файловых вирусов и незараженных файлов. Исходные данные эксперимента: общее число исследуемых исполняемых файлов каждого класса - 6850, каждый файл имеет формат РЕ, что соответствует формату исполняемых файлов операционных систем семейства Windows. Такой объем контрольных выборок позволил рассчитать оценки показателей эффективности с надежностью у = 0,90 при точности е = 0,01.

В процессе верификации разработанной аналитической модели и оценки эффективности полученного решения были поставлены 6 групп экспериментов с целью обоснования выбора: рационального числа кластеров, числа скрытых состояний марковской модели, длины анализируемой цепочки машинных команд, минимального объема обучающей выборки, а также оценки эффективности системы распознавания при использовании системы динамической инструмен-тации кода в качестве подсистемы предварительной обработки и оценки оперативности функционирования системы распознавания.

Проведенные эксперименты позволили обосновать следующие значения параметров системы распознавания вредоносных программ на основе скрытых марковских моделей:

дг = 1 _ число скрытых состояний СММ;

Т= 90 - длина анализируемой цепочки машинных команд;

Xvir = 38 - число кластеров класса вредоносного кода;

КЫг = 38 - число кластеров класса незараженных файлов;

LZ 800 - минимальный объем обучающей выборки для каждого из классов машинного кода.

Рис. 5. Схема включения системы распознавания вредоносных программ на основе скрытых марковских моделей при построения системы распределенной антивирусной защиты

В диссертационном исследовании разработаны научно-технические предложения по практической реализации комплекса алгоритмов распознавания вредоносного программного обеспечения, основанного на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, включающие: рекомендации по программной реализации, выбору параметров системы распознавания, а также варианты применения разработанного комплекса алгоритмов для защиты КИВС от угрозы заражения вредоносными программами (рис. 5) при построении системы распределенной антивирусной защиты (с установкой только на сервер антивирусной защиты) и как дополнительное средство первичного анализа исполняемых файлов.

Кроме того был проведен расчет оценок частных показателей эффективности распознавания вредоносных программ на основе скрытых марковских моделей на контрольных выборках Таблица 1

(таблица 1): вероятность ошибки Результаты оценки качества процесса распо-первого и второго рода при распо- знавания вредоносных программ на основе знавании. Также были эксперимен- скрытых марковских моделей

тально определены значения оценок вероятностей ошибок первого рода,

рош 1 = 0,018, и второго рода,

р 2=0,01, при параметрах системы распознавания, указанных выше.

В результате оценки остаточного риска, проведенной для КИВС по анализу защищенности от угрозы заражения вредоносными программами по аналогии с оценкой рисков, проведенной первоначально, было выявлено, что при использовании разработанной системы 2 =

(при 0 < рош 2 < 0,1) в соответствии с №8Т800-30, степень вероятности реализации угрозы заражения вредоносными программами является низкой. Таким образом, в результате применения предложенного подхода к распознаванию вредоносных программ произошло снижение степени вероятности реализации угрозы заражения вредоносными программами с уровня средний до уровня низкий, что подтверждает эффективность применения разработанной системы.

Произведенный расчет по методике оценки рисков в соответствии с ГОСТ РИСО/МЭК 13335-3-2007 по матрице с заранее определенными значениями показал, что при использовании предлагаемого решения для защиты КИВС от угрозы заражения вредоносными программами суммарное значение риска для выбранных активов и уязвимостей составило 55. Применение системы распознавания вредоносных программ на основе скрытых марковских моделей позволило добиться существенного снижения риска заражения - на 34 %

Показатели качества Экспериментальные Требуемые

Значение ошибки первого 0,018 <0,03

Р°Да РошЛ

Значение ошибки второго рода 0,01 5 0,3

Ро ш.2

Скорость анализа машинного кода >2,02 Мбайт/с >1,75 Мбайт/с

(от начального значения 83 до значения 55), что подтверждает эффективность разработанной системы для защиты от угрозы заражения вредоносными программами и является показателем достижения цели диссертационной работы.

В заключении представлены основные выводы, сделанные в результате проведенного диссертационного исследования, и определены перспективные направления дальнейших исследований.

Обоснованность и достоверность предлагаемых решений подтверждаются корректной постановкой общей и частных задач исследования, применением для их решения апробированного математического аппарата, практической реализацией и экспериментальной проверкой качества разработанных моделей.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В результате решения задачи по разработке модели и методики распознавания вредоносного программного обеспечения на основе скрытых марковских моделей и методов иерархического кластерного анализа получены следующие результаты:

1) для защита корпоративных информационно-вычислительных сетей от угрозы заражения ЭВМ вредоносными программами предложен подход, предполагающий использование добавочного механизма - системы распознавания вредоносных программ на основе скрытых марковских моделей - устанавливаемого на выделенную машину в сети - антивирусный сервер;

2) разработана аналитическая модель системы распознавания вредоносного программного обеспечения, основанная на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, которая позволяет производить классификацию машинного кода различных классов программ. При этом разработанная модель отличается от аналогичных моделей эвристического анализа машинного кода наличием дополнительной процедуры - кластеризации исполняемых файлов на основе анализа последовательностей машинных команд, выделенных из файлов обучающей выборки на этапе обучения системы распознавания вредоносных программ, а также блоком принятия решения о зараженности анализируемого файла на основе применения аппарата

скрытых марковских моделей.

Введение данных механизмов позволяет распознавать вредоносные программы в условиях отсутствия априорных сведений об их сигнатуре;

3) разработана методика распознавания вредоносных программ, реализованная в виде комплекса алгоритмов распознавания вредоносных программ, основанных на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа. Для решения задачи выделения последовательностей машинных команд применяются система эмуляции выполнения машинного кода в безопасной среде и система динамической инструментации кода, а для классификации выделенных цепочек машинных команд - аппарат

скрытых марковских моделей.

Практическая ценность разработанной методики заключается в возможности ее применения для решения задач, касающихся защиты операционной системы Windows от угрозы заражения вредоносными программами; _

4) разработана программа:"Кластерный анализатор исполняемых файлов на наличие файловых вирусов ChisterAV", на которую получено свидетельство

об официальной регистрации в ФИПС № 2010611715;

5) проведена экспериментальная оценка эффективности разработанного решения для распознавания вредоносных программ, а также оценка рисков для корпоративной сети при использовании разработанного решения для защиты от угрозы заражения вредоносными программами.

Основные результаты диссертации опубликованы в следующих работах:

Публикации в изданиях, рекомендованных ВАКМинобрнауки России

1. Козачок А. В. Модификация структурного метода распознавания вирусов / А. В. Козачок, А. Г. Мацкевич // Информация и безопасность: регион, науч.-техн. журнал. - Воронеж, 2010. - Вып. 1. С. 33-36.

2. Козачок А. В. Функциональная модель системы распознавания разрушающих программных средств на основе скрытых марковских моделей / А. В. Козачок, А. Г. Мацкевич, А.Л. Кузьмин // Известия ТулГУ. - Тула, 2011. — Вып. 5. Ч. 3. С. 245-251.

3. Козачок А. В. Алгоритм обнаружения вредоносных программ на основе анализа их поведения / А. В. Козачок, Н. В. Шишкин, Е. Е. Мацкевич // Информация и безопасность: регион, науч.-техн. журнал. - Воронеж, 2012. -Вып. 3. С. 337-345.

4. Козачок А. В. Математическая модель системы распознавания разрушающих программных средств на основе скрьггых марковских моделей / А. В. Козачок// Вестник СибГУТИ. - Новосибирск, 2012. - Вып. 3, С. 29-39.

Статьи и материалы конференций

5. Козачок А. В. Система распознавания вредоносных программ на основе скрытых марковских моделей / А. В. Козачок// Информационные технологии моделирования и управления. - Воронеж : "Научная книга", 2012. - Выпуск 3(75).-С. 217-225.

6. Козачок А. В. Прототип системы автоматической кластеризации машинного кода / А. В. Козачок // Сборник научных трудов 16-й Всероссийской конференции "Проблемы информационной безопасности в системе высшей школы", Москва 2009. - С. 141-142.

7. Козачок А. В. Перспективы и направления развития структурного метода распознавания файловых вирусов / А. В. Козачок, А. Г. Мацкевич, А. А. Полков // Проблемы развития технологических систем государственной охраны, специальной связи и информации : материалы 6-й Всероссийской научной конференции. В 7 ч. Ч. 4. - Орел: Академия ФСО России, 2009. - С. 262-265.

8. Козачок А. В. Прототип системы кластеризации машинного кода / А. В. Козачок // Сборник трудов по результатам XV международной конференции: Современные проблемы информатизации в анализе и синтезе программных и телекоммуникационных систем. - Воронеж, 2010. — Вып. 15. - С. 429-430.

9. Козачок А. В. Анализ существующих механизмов распознавания разрушающих программных средств / А. В. Козачок, П. А. Филимонов // Проблемы развития технологических систем государственной охраны, специальной связи и информации: материалы 7-й Всероссийской научной конференции. В 6 ч. Ч. 5. - Орел: Академия ФСО России, 2011. - С. 93-97.

Подписано в печать 19.11.2012. Формат 60x84/16. Бумага для множительных аппаратов. Усл. печ. л. 1,0. Тираж 85 экз. Заказ № 131

ГОУ ВПО "Воронежский государственный технический университет" 394026 Воронеж, Московский просп., 14

Оглавление автор диссертации — кандидата технических наук Козачок, Александр Васильевич

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1. АНАЛИЗ СОСТОЯНИЯ НАУЧНЫХ ИССЛЕДОВАНИЙ В ОБЛАСТИ АНТИВИРУСНОЙ ЗАЩИТЫ.

1.1. Структурные и функциональные особенности построения и защиты корпоративных информационно-вычислительных сетей.

1.2. Исследование принципа функционирования вредоносных программ и антивирусных средств.

1.3. Анализ существующих моделей вредоносного кода и механизмов распознавания вредоносных программ.

1.4. Постановка задачи диссертационного исследования.

Выводы.

2. МОДЕЛЬ СИСТЕМЫ РАСПОЗНАВАНИЯ ВРЕДОНОСНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ, ОСНОВАННАЯ НА ПРИМЕНЕНИИ АППАРАТА СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ И МЕТОДОВ ИЕРАРХИЧЕСКОГО КЛАСТЕРНОГО АНАЛИЗА.

2.1. Обоснование выбора математического аппарата, предназначенного для решения задачи диссертационного исследования.

2.2. Обобщенная функциональная модель системы распознавания вредоносных программ на основе скрытых марковских моделей.

2.3. Аналитическая модель процесса распознавания вредоносных программ на основе скрытых марковских моделей.

Выводы.

3. МЕТОДИКА РАСПОЗНАВАНИЯ ВРЕДОНОСНЫХ ПРОГРАММ, ОСНОВАННАЯ НА ПРИМЕНЕНИИ АППАРАТА СКРЫТЫХ

МАРКОВСКИХ МОДЕЛЕЙ И МЕТОДОВ ИЕРАРХИЧЕСКОГО КЛАСТЕРНОГО АНАЛИЗА.

3.1. Алгоритм обучения системы распознавания вредоносных программ на основе скрытых марковских моделей и алгоритмов кластерного анализа.

3.2. Алгоритм распознавания вредоносных программных средств на основе скрытых марковских моделей.

3.3. Научно-технические предложения по практической реализации комплекса алгоритмов распознавания вредоносного программного обеспечения, основанного на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, и оценка ее эффективности.

Выводы.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Козачок, Александр Васильевич

Актуальность темы. Внедрение информационных технологий во все сферы производства, автоматизация документооборота, расширение спектра услуг, повышение надежности передачи информации по каналам связи обусловили интенсивное развитие корпоративных информационно-вычислительных сетей. Корпоративные сети относятся к распределенным компьютерным системам, осуществляющим автоматизированную обработку информации.

Важным аспектом функционирования корпоративной информационно-вычислительной сети является обеспечение информационной безопасности данных хранимых, обрабатываемых и передаваемых по сети. Основными угрозами информационной безопасности при этом являются следующие [1]: аппаратные и программные сбои, заражение электронно-вычислительных машин (ЭВМ) вредоносными программами, сетевые атаки, халатность сотрудников и кража информации.

Для противодействия угрозам информационной безопасности в составе современных операционных систем присутствует подсистема безопасности, состав которой во многом определяется сервисами безопасности [2]. Базовой операционной системой для персональных компьютеров корпоративных сетей является операционная система семейства Windows, по статистике на более 92 % ЭВМ устанавливаются системы семейства Windows. При этом одной из наиболее опасных угроз является угроза заражения ЭВМ вредоносными программами [1].

Анализ качества антивирусных средств, сертифицированных в Российской Федерации, показал, что известные штаммы вредоносных программ практически со стопроцентной вероятностью распознаются данными средствами [3]. Однако вероятность распознавания новых и модифицированных штаммов составляет около 0,616 [4].

Анализ работ исследователей, занимающихся разработкой антивирусных средств, как отечественных (Е. Касперский [4], М. Бочков [5], Е. Кореновский [6]), так и иностранных (Ф. Коэн [7], А. Клементи [8], Г. Тезауро [9], В. Хофман [10], С. Вайт [11]), позволил сделать вывод о том, что существующие в настоящее время механизмы распознавания вредоносных программ не удовлетворяют современным требованиям.

Таким образом, возникает противоречие между тенденцией к увеличению ежемесячно выпускаемых вирусов с модифицированными штаммами [12] и качеством их распознавания существующими средствами противодействия вредоносным программам [4].

Следовательно, задача разработки новых механизмов распознавания вредоносных программ, несомненно, является актуальной, и ее решение позволит повысить качество функционирования антивирусных средств и эффективность работы подсистемы безопасности операционной системы Windows по защите от угрозы заражения вредоносными программами в целом [13, с. 44].

Объект исследования: подсистема антивирусной защиты операционных систем семейства Windows.

Цель исследования: снижение риска заражения вредоносными программами за счет повышения эффективности процесса распознавания вредоносного программного обеспечения на основе применения скрытых марковских моделей и методов кластерного анализа исполняемых файлов.

Научная задача исследования: на основе скрытых марковских моделей и методов кластерного анализа данных разработать модель и методику распознавания вредоносного программного обеспечения в условиях отсутствия априорных данных об их сигнатуре, позволяющие существенно снизить риск заражения вредоносными программами операционных систем семейства Windows.

Частные научные задачи исследования-.

1) проанализировать существующие механизмы распознавания программ с потенциально опасными последствиями;

2) разработать функциональную и аналитическую модели системы распознавания вредоносного программного обеспечения на основе применения аппарата скрытых марковских моделей и алгоритмов иерархической кластеризации;

3) разработать методику распознавания вредоносных программ на основе скрытых марковских моделей и реализовать ее в виде комплекса алгоритмов;

4) оценить эффективность системы распознавания вредоносных программ, построенной на основе разработанной методики;

5) обосновать выбор параметров системы распознавания, сформировать предложения по практической реализации комплекса алгоритмов распознавания вредоносного программного обеспечения, основанного на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа.

Решение научной задачи основывается на использовании теории машинного обучения, методах кластерного анализа, теории вероятностей и математической статистики, теории алгоритмов, методах математического моделирования.

Основные положения, выносимые на защиту:

1. Аналитическая модель процесса распознавания вредоносного программного обеспечения, основанная на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, учитывающая механизмы порождения машинного кода разных классов.

2. Методика распознавания вредоносного программного обеспечения, отличающаяся от аналогов применением аппарата скрытых марковских моделей, реализованная в виде комплекса алгоритмов.

3. Научно-технические предложения по практической реализации комплекса алгоритмов распознавания вредоносного программного обеспечения, основанного на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, включающие: рекомендации по программной реализации, выбору параметров системы распознавания, а также варианты применения разработанного комплекса алгоритмов.

Структурно диссертационная работа состоит из введения, трех глав, заключения, библиографического списка, включающего 128 источников, 8 приложений. Текст диссертации изложен на 151 странице, включая 33 рисунка и 15 таблиц.

Заключение диссертация на тему "Распознавание вредоносного программного обеспечения на основе скрытых марковских моделей"

Выводы

1. Разработана методика распознавания вредоносных программ, реализованная в виде комплекса алгоритмов распознавания вредоносного программного обеспечения на основе скрытых марковских моделей. Отличительные особенности разработанной методики:

- использован критерий Кржановского и Лая для обоснования выбора числа кластеров машинного кода;

- разработана процедура выделения цепочек машинных команд, основанная на использовании процедуры эмуляции исполнения кода (интеллектуальный дизассемблер) или динамической инструментации кода -выделение трасс машинных команд в процессе исполнения программы в среде "безопасного" исполнения.

2. Разработан алгоритм обучения системы распознавания вредоносных программ на основе скрытых марковских моделей, позволяющий восстановить модели кластеров различных классов машинного кода.

3. Разработан алгоритм распознавания вредоносных программ на основе скрытых марковских моделей, позволяющий производить классификацию машинного кода в условиях отсутствия априорных сведений об их сигнатуре и основанный на учете скрытых марковских моделей машинного кода различных классов (незараженных файлов, вредоносных программ).

4. Подробно описаны основные процедуры, позволяющие реализовать комплекс алгоритмов программно, осуществлена проверка основных свойств алгоритмов.

5. Произведены группы экспериментов и обоснованы параметры системы распознавания вредоносных программ на основе скрытых марковских моделей (таблица 3.8).

Результаты оценки рисков для угрозы заражения вредоносными программами

Параметр Значение

Число состояний скрытой марковской модели (ТУ) 1

Длина анализируемой цепочки машинных команд (7) 90

Число кластеров класса вредоносных программ (Ку1Г) 38

Число кластеров класса незараженных файлов (КС1г) 38

Минимальный объем обучающей выборки для каждого из классов машинного кода (Ь) 800

6. Разработаны научно-технические предложения по практическому применению разработанной программы для ЭВМ "СЛ^егАУ" для защиты корпоративных информационно-вычислительных сетей от угрозы заражения вредоносными программами при построении системы распределенной антивирусной защиты (с установкой только на сервер антивирусной защиты), а также как дополнительное средство первичного анализа исполняемых файлов.

7. Проведен расчет оценок частных показателей эффективности распознавания вредоносных программ на основе скрытых марковских моделей на контрольных выборках: вероятность ошибки первого и второго рода при распознавании. Были экспериментально определены значения оценок вероятностей ошибок первого рода, />ошл = 0,018, и второго рода, Л>ш.2=0,01, при параметрах системы распознавания, указанных выше (пункт 5).

8. Произведена оценка остаточного риска для корпоративной сети при использовании разработанного решения для угрозы заражения вредоносными программами, показавшая снижение риска на 34%, по отношению к первоначальному значению риска полученному в результате первичной оценки рисков. В результате применения разработанной системы распознавания вредоносных программ произошло снижение степени вероятности реализации угрозы заражения вредоносными программами с уровня Средний до уровня Низкий, что подтверждает эффективность применения данной системы, а также за счет применения шлюзов для сегментов (антивирусных серверов), произошло снижение степени вероятности реализации уязвимости - отсутствие фильтрации между сегментами сети, с уровня Высокий до уровня Низкий.

ЗАКЛЮЧЕНИЕ

1) для защиты корпоративных информационно-вычислительных сетей от угрозы заражения ЭВМ вредоносными программами предложен подход, предполагающий использование добавочного механизма - системы распознавания вредоносных программ на основе скрытых марковских моделей, устанавливаемого на выделенную машину в сети - антивирусный сервер;

2) разработана аналитическая модель системы распознавания вредоносного программного обеспечения, основанная на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа, которая позволяет производить классификацию машинного кода различных классов программ. При этом разработанная модель системы распознавания вредоносных программ на основе скрытых марковских моделей отличается от аналогичных моделей эвристического анализа машинного кода наличием дополнительной процедуры -кластеризации исполняемых файлов на основе анализа последовательностей машинных команд, выделенных из файлов обучающей выборки, на этапе обучения системы распознавания вредоносных программ, а также блоком принятия решения о зараженности анализируемого файла на основе применения аппарата скрытых марковских моделей;

Введение данных механизмов позволяет распознавать вредоносные программы в условиях отсутствия априорных сведений об их сигнатуре.

3) разработана методика распознавания вредоносных программ, реализованная в виде комплекса алгоритмов распознавания вредоносных программ, основанного на применении аппарата скрытых марковских моделей и методов иерархического кластерного анализа. В котором для решения задачи выделения последовательностей машинных команд применяется система эмуляции выполнения машинного кода в безопасной среде и система динамической инструментации кода, а для классификации выделенных цепочек машинных команд применен аппарат скрытых марковских моделей;

4) разработана программа: "Кластерный анализатор исполняемых файлов на наличие файловых вирусов ClusterAV", на которую получено свидетельство об официальной регистрации в ФИПС № 2010611715;

Направлением дальнейших исследований автор считает расширение возможностей подсистемы предварительной обработки, для обеспечения возможности анализа упакованных исполняемых файлов, а также разработку комплексной системы антивирусной защиты с использованием нескольких механизмов распознавания вредоносного кода.

Библиография Козачок, Александр Васильевич, диссертация по теме Методы и системы защиты информации, информационная безопасность

1. Доля А. Внутренние ИТ-угрозы в госсекторе 2011 электронный ресурс./ Обзоры и обозрения. М., 2011. Режим доступа: http://www.cnews.ru/reviews/free/gov201 l/articles/innerdanger. shtml.

2. Информационная безопасность открытых систем. Учебник для вузов. В 2 x томах. Том 1. Угрозы, уязвимости, атаки и подходы к защите / С. В. Запечников, Н. Г. Милославская, А. И. Толстой, Д. В. Ушаков. М.: Горячая линия - Телеком, 2006. - 536 с.

3. Касперский Е. В. Компьютерные вирусы: что это такое и как с ними бороться. M.: CK Пресс, 1998. - 288 с.

4. Ильин С. Сравнение эффективности проактивной антивирусной защиты электронный ресурс. / Главная / Аналитика. М., 2011. Режим доступа: http://www.anti-malware.ru/index.phtml?part=analysis.

5. Бочков М. В. Теоретические основы адаптивной защиты информации в вычислительных сетях от несанкционированного доступа. Монография / Под ред. С. Н. Бушуева и В. Ф. Комаровича. Орел: Академия Спецсвязи России, 2004.

6. Бочков М. В., Кореновский Е. Н. Метод идентификации форматов данных и обнаружения деструктивного кода на основе статистических методов распознавания образов. Деп. в ЦВНИ МО РФ, 21.01.04 № В5578. -М.: 2004 серия Б, вып. №66.

7. Касперский Е. Теоретические сведения о компьютерных вирусах электронный ресурс. / Курс: Вирусы и средства борьбы с ними. М., 2010. Режим доступа: http://www.intuit.ru/department/security/viruskasper/2/.

8. Clementi Andreas. Anti-Virus Comparative No. 14. Proactive / retrospective test (on-demand detection of virus/malware) электронный ресурс. AV comparatives, May 2012. Режим доступа: http://www.av-comparatives.org.

9. Tesauro G., Kephart O., Sorkin G. B. Neural Networks for computer virus recognition. IEEE Expert, vol. 11, no 4, Aug. 2006.

10. Hoffman В. Patent WO 01/69356 A2. Histogram-Based Virus Détection. Symantec Corporation, September 2007.

11. White Steve. Open Problems in Computer Virus Research электронный ресурс. / Home / Conférence / VB2008 / Munich, 2008. Режим доступа: http://www.virusbtn.com/pdf/conferenceslides/2008/ StiveWhiteVB2008.pdf.

12. Kaspersky Security Bulletin 2011. Развитие вредоносных программ электронный ресурс. Москва, 2011. Режим доступа: http://www.securelist.com/ru/analysis/208050741/KasperskySecurityBulletin0 snovnayastatistikaza201 lgod.

13. ФСТЭК России. Руководящий документ. Антивирусные средства. Показатели защищенности и требования по защите от вирусов. М.: 1998. -9 с.

14. Биячуев Т. А. Безопасность корпоративных сетей: Учебное пособие. СПб.: Санкт- Петербургский государственный университет информационных технологий, механики и оптики, 2004. 163 с.

15. Статистика использования операционных систем в корпоративных сетях электронный ресурс. М., 2012. Режим доступа: http://www.netmarketshare.com/operating-system-marketshare.aspx? qprid=8&qpcustomd=0.

16. Михайлов А. В. Компьютерные вирусы и борьба с ними: Учеб. пособие. М.: Диалог-МИФИ, 2012.-104 с.

17. Девянин П. Н., Михальский О. О., Правиков Д. И., Щербаков А. Ю. Теоретические основы компьютерной безопасности, учебное пособие для вузов. М.: Радио и связи, 2000. - 192 с.

18. Козачок А. И., Биркун Н. И. Основы информационной безопасности. Курс лекций. Орел: Академия Спецсвязи России, 2010. -291 с.

19. Преображенский Е. Внутренние ИТ-угрозы в России 2011 электронный ресурс. / Обзоры и обозрения. М., 2011. Режим доступа: http://www.infowatch.ru/threats?chapter=147151396&id=178488464.

20. Антивирусная защита компьютерной сети электронный ресурс. М., 2011. Режим доступа: http://it-sektor.ru/antivirusnaya-zaschita-seti.html.

21. Губенков А. А., Байбурин В. Б. Информационная безопасность. -М.: ЗАО Новый издательский дом, 2005. 128 с.

22. Щербаков А. Разрушающие программные воздействия. М.: Изда-тельство "Эдэль", 1993. - 64 с.

23. Michael Sikorski Practical Malware Analysis. No starch press, 2012. -p. 802.

24. ГОСТ P 51188-98. Испытания программных средств на наличие компьютерных вирусов.

25. Зайцев О. В. ROOTKITS, SPYWARE/ADWARE, KEYLOGGERS & BACKDOORS: обнаружение и защита. СПб.: БХВ-Петербург, 2006. -304 с.

26. Sheehan С. Pump my РЕ: parsing malicious and malformed executables электронный ресурс. / Home / Conference / VB2008. Vienna, 2008. Режим доступа: http://www.virusbtn.com/pdf/conferenceslides/ 2008/CaseySheehan.pdf.

27. Рейман JT. Д. О стратегии развития информационного общества в Российской Федерации электронный ресурс. / Новости. М., 2010. Режим доступа: http://www.minsvyaz.ru.

28. Касперский, Е. Сетевые черви, электронный ресурс. / Главная / Вирусы / Вирусная энциклопедия / Описания вредоносных программ / Сетевые черви. М., 2010. Режим доступа: http://www.viruslist.com/ru/viruses/ encyclopedia?chapter= 156769326.

29. Типы детектируемых объектов электронный ресурс. 2012. Режим доступа: http://www.securelist.com/ru/threats/detect?chapter=l 12.

30. Хорев П. Б. Методы и средства защиты информации в компьютерных системах: Учеб. пособие для студ. высш. учеб. заведений / Павел Борисович Хорев. М.: Издательский центр "Академия", 2005. - 256 с.

31. Белоусов С. А., Гуц А. К., Планков М. С. Троянские кони. Принципы работы и методы защиты: Учебное пособие Омск: Издательство "Наследие. Диалог-Сибирь", 2003. - 84 с.

32. Касперский Е. Троянские программы электронный ресурс. / Главная / Вирусы / Вирусная энциклопедия / Описания вредоносных программ / Троянские программы. М., 2012. Режим доступа: http://www.viruslist.com/ru/viruses/encyclopedia?chapter=l 56771566.

33. Kaspersky Security Bulletin 2012. Развитие вредоносных программ электронный ресурс. Москва, 2011. Режим доступа: http://www.kaspersky.com/de/downloads/pdf/kasperskysecuritybulletin2012 de.pdf.

34. Уголовный кодекс Российской Федерации. Официальный текст по состоянию на 1 февраля 1997 г. М.: Издательская группа ИНФРА М-НОРСА, 1997.

35. Geier Е., Geier J. Simple Computer Security: Disinfect Your PC. -Indianapo-lis.: Wiley Publishing, 2007. 332 p.

36. Alex Fedoruk Комплексная защита от вирусов. M.: Интернет-издание, 2011. - 100 с.

37. Корт С. С., Кузнецов А. О., Штепа А. Б., Добрица И. В., Захаров С. В. Средство антивирусного мониторинга ЛВС // Методы и технические средства обеспечения безопасности информации: Тезисы докладов. -СПб.: Издательство СПбГТУ, 2001. С. 54.

38. Галицкий А. В., Рябко С. Д., Шаньгин В. Ф. Защита информации в сети анализ технологий и синтез решений / Галицкий А. В., Рябко С. Д., Шаньгин В. Ф. -М.: ДМК Пресс, 2004. - 616 с.

39. Касперский Е. Вирусы и средства борьбы с ними. Теоретические сведения о компьютерных вирусах электронный ресурс. / Главная / Интернет образование. - М., 2008. Режим доступа: http://www.intuit.rU/department/security/viruskasper/2/.

40. Эббинхауз Г.-Д., Якобе К., Ман Ф.-К. Машины Тьюринга и рекурсивные функции. М.:Мир, 1972. - 264 с.

41. Анализ рынка антивирусной защиты в России 2010-2012 электронный ресурс.- М., 2012. Режим доступа: http://www.anti-malware.ru/russianantivirusmarket20102012.

42. Козачок А. В., Мацкевич А. Г. Модификация структурного метода распознавания вирусов // Информация и безопасность. Воронеж: Издательство "Воронежский государственный технический университет", 2010. Выпуск 1, том 13. С. 33-36 (Журнал рекомендован ВАК).

43. Ильин С., Стогов И. Анализ рынка антивирусной защиты России 2010-2011 электронный ресурс. / Главная / Аналитика. М., 2011. Режим доступа: http://www.anti-malware.ru/index.phtml?part=analysis.

44. Гульев И., Создаем вирус и антивирус. М.: ДМК, 1999. - 304 с.

45. Aycock J. Computer Viruses and Malware. Calgary: Springer, 2006. -p. 227.

46. Кирьянов К.Г. Сигнатурный анализ: Метод, пособие. Нижний Новгород: ННГУ им. Н. И. Лобачевского, 1999. - 29 с.

47. Касперски К. Компьютерные вирусы изнутри и снаружи. Спб.: Питер, 2007. - 527 с.

48. Методы сокрытия вирусного кода электронный ресурс.- М., 2007. Режим доступа: http://www.xaker.name/forvb/showthread.php?t=5363.

49. Троян в упаковке электронный ресурс.- М., 2011. Режим доступа: http://www.inattack.ru/article/troyan-v-upakovke/317.html#.UBFEmXFyJA.

50. Шевченко А. Технологии обнаружения вредоносного кода. Эволюция электронный ресурс.- М., 2009. Режим доступа: http://www.securelist.com/ru/analysis/204007574/Tekhnologiiobnaruzheniyavre donosnogokodaEvolyutsiya.

51. Доля А. Антивирусные "движки" электронный ресурс. / Главная / Статьи Software / Приложения и утилиты. М., 2009. Режим доступа: http://www.fcenter.ru/foфпnt.shtml?online/articles/software/utilities/12214.

52. Szor P. The art of computer virus research and defense. Addison Wesley Pro-fessional, 2005. 744 p.

53. Гудилин О. Проактивность как средство борьбы с вирусами, электронный ресурс. / Главная / Аналитика. М., 2006. Режим доступа: http://www.viruslist.com/ru/analysis.

54. Никишин А. Проактивная защита как она есть электронный ресурс. / Главная / Аналитика. М., 2010. Режим доступа: http://www.viruslist.com/ru/analysis.

55. Gryaznov D. Scanners of The Year 2000: Heuristics. Proceeding of the Fifth International Virus Bulletin Conference, 1999, pp. 225-234.

56. Расстояние Кульбака — Лейблера электронный ресурс.- М., 2010. Режим доступа: Ьир://т.штеПЬ.сот/\у11и/Расстояние Кульбака-Лейблера.

57. Фу К. Структурные методы в распознавании образов. М.: Издательство "Мир", 1977. - 320.

58. Kyle Johnson Introduction to Transformational Grammar электронный ресурс. 2007. Режим доступа: http://people.umass.edu/kbj/ homepage/Content/60 llectures.pdf.

59. Hoglund G., Butler J. Rootkits: Subverting the Windows Kernel. -Addison Wesley Professional, 2006. 352 p.

60. Liang Xie A Behavior-based Malware Detection System электронный ресурс. 2012. Режим доступа: http://www.cse.sc.edu/~wyxu/ 719Spring 10/papers/pBMDS.pdf.

61. ГОСТ PB 5187-2002. Информационная технология. Комплекс стандартов на автоматизированные системы. Типовые требования и показатели качества функционирования информационных систем. М., 2002. -60 с.

62. Петухов Г. Б. Основы теории эффективности целенаправленных процессов. Часть 1. Методология, методы, модели. Министерство обороны СССР, 1989.-660 с.

63. Гостехкомиссия России. Проект руководящего документа. Антивирусные средства. Показатели защищенности и требования по защите от вирусов. М.: 1998. - 9 с.

64. TRA-1 Harmonized Threat and Risk Assessment Methodology электронный ресурс. 2007. Режим доступа: www.cse-cst.gc.ca/documents/publications/tra-emr/tra-emr-l-e.pdf.

65. The Risk IT Practitioner Guide электронный ресурс. 2009. Режим доступа: http://www.isaca.org/Knowledge-Center/Research/ResearchDeliverables /Pages/The-Risk-IT-Practitioner-Guide.aspx.

66. ГОСТ Р ИСО/МЭК 13335-3-2007 Информационная технология. Методы и средства обеспечения безопасности. Часть 3. Методы менеджмента безопасности информационных технологий. М.: Госстандарт России, 2007.

67. Стратегии управления рисками, связанными с вредоносными программами электронный ресурс.- М., 2007. Режим доступа: http://technet.microsoft.com/ru-ru/library/cc875818.aspx

68. NIST800-30 «Руководство по менеджменту риска для систем информационных технологий» Американский Национальный Институт Стандартов и Технологий 2002.

69. Корпоративные сети как объект защиты электронный ресурс. -2012. Режим доступа: http://inf-bez.ru/?p=567.

70. Ludwig М. A. The Little Black Book of Computer Viruses. Arizona, 1996.- 183 p.

71. Бойцев О. Антология сокрытия вирусного кода электронный ресурс. / Главная. Минск, 2012. Режим доступа: http://www.nestor.minsk.by/kg/ index.html

72. Собейкис В. Г. Азбука хакера 3. Компьютерная вирусология / Варфоломей Собейкис. М.: Майор, 2009. - 512 с.

73. Lu Bryan. A deeper look at malware the whole story электронный ресурс. / Home / Conference / VB2007. - Vienna, 2007. Режим доступа: http://www.virusbtn.com/pdfi'conferenceslides/2007/BryanLuVB2007.pdf.

74. Касперский К. Техника отладки программ без исходных текстов. СПб.: БХВ-Петербург, 2009. - 832 с.

75. SecureList: описания детектируемых объектов электронный ресурс. М., 2012. Режим доступа: http://www.securelist.com/ru/descriptions.

76. Голова Д. Уязвимости эмуляторов кода электронный ресурс. / Главная / Статьи. М., 2011. Режим доступа: www.uinc.ru/articles/48/.

77. Ethem Alpaydm Introduction to Machine Learning. The MIT Press,2010.-p. 579.

78. Lise Getoor Introduction to Statistical Relational Learning. MIT Press, 2007. - p. 602.

79. Henk C. Tijms A First Course in Stochastic Models. Wiley, 2003. -p. 482.

80. D. Michie, D. J. Spiegelhalter, С. С. Taylor Machine Learning, Neural and Statistical Classification. Wiley, 1994. - p. 298.

81. RootKit принципы и механизмы работы электронный ресурс.-М., 2011. Режим доступа: http://www.z-oleg.com/secur/articles/rootkit.php.

82. Стелс-вирусы и их классификация электронный ресурс.- М.,2011. Режим доступа: http://www.recoverymaster.ru/virus/stels-virusy-i-ix-klassifikaciya.html.

83. Упаковка исполняемых файлов электронный ресурс.- М., 2010. Режим доступа: http://ru.wikipedia.org/wiki/Упaкoвкaиcпoлняeмыxфaйлoв.

84. Черноруцкий И. Г. Методы принятия решений. СПб.: БХВ-Петербург, 2005. - 416 с.

85. Рабинер JI. Р. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор. // ТИЭР М: Наука, 1989. - Выпуск 2. - Том 77. - С. 86-102.

86. Обфускация и защита программных продуктов электронный ресурс.- М., 2004. Режим доступа: http://citforum.ru/security/articles/obfiis/.

87. Энциклопедия антиотладочных приемов электронный ресурс.-М., 2009. Режим доступа: http://www.xakep.ru/magazine/xa/130/068/Lasp.

88. Robert J. Elliott Hidden Markov Models. Estimation and Control. -Springer, 1995.-p. 373.

89. Poznyak A. S. Self-Learning Control of Finite Markov chains. -Marcel Dekker, New York, 2000. p. 315.

90. Dario Garcia-Garcia A New Distance Measure for Model-Based Sequence Clustering. IEEE Tansactions on Pattern Analysis and Machine Learning Intelligence, vol. 31, No. 7, July 2009.

91. Manuele Bicego Similarity-Based Clustering of Sequences using Hidden Markov Models. IEEE Tansactions on Pattern Analysis and Machine Learning Intelligence, vol. 30, No. 6, June 2009.

92. Yimin Xiong Model-Based Clustering of Sequential Data Using ARMA Mixtures. IEEE Tansactions on Pattern Analysis and Machine Learning Intelligence, vol. 43, No. 9, September 2010.

93. Козачок А. В. Система распознавания вредоносных программ на основе скрытых марковских моделей // Информационные технологии моделирования и управления. Воронеж: "Научная книга", 2012. -Выпуск 3 (75), С. 217-225.

94. Бойцев О. Антология сокрытия вирусного кода электронный ресурс. / Главная. Минск, 2006. Режим доступа: http://www.nestor.minsk.by/kg/ index.html.

95. Microsoft Corporation. Microsoft Portable Executable and Com-mon Object File Format Specification. Rev. 6.0, 1999. 77 p.

96. Кельберт M. Я., Сухов IO. M. Вероятность и статистика в примерах и задачах том II: Марковские цепи как отправная точка теориислучайных процессов и их приложения. М: Издательство МЦНМО, 2009. -571 с.

97. HMM-BASED PATTERN DETECTION электронный ресурс., 2009. Режим доступа: http://classes.soe.ucsc.edu/ee264/Winter02 shahramreport.doc.

98. William Turin Unidirectional and Parallel Baum-Welch Algorithms. -IEEE Transactions on Speech and Audio Processing, Vol. 6, No. 6, November 1998.

99. Don H. Jonson, Sinan Sinanovic Symmetrizing the Kullback-Leibler distance. IEEE Trans, on Comm. Tech., 2007.

100. Жамбю M. Иерархический кластерный анализ и соответствия. -М.: Финансы и статистика, 1988, с. 342.

101. Жамбю М. Иерархический кластер-анализ и соответствия. М: Финансы и статистика, 1988. - 342 с.

102. Энслейн К., Рэлстон Э. Статистические метода для ЭВМ. М.: Наука, 1986, с. 464.

103. W. Т. Krzanowski, Y. Т. Lai A Criterion for Determining the Number of Groups in a Data Set Using Sum-of-Squares Clustering. Biometrics, Vol. 44, No. 1 (Mar. 1988), pp. 23-34.

104. Walter Zucchini Hidden Markov Models for Time SeriesAn Introduction Using R. CRC Press, 2009. - p. 280.

105. Olivier Cappe Inference in Hidden Markov Models. Springer, 2005. -p. 652.

106. Wai-Ki Ching Michael K. Ng Markov Chains: Models, Algorithms and Applications. Springer, 2006. - p. 211.

107. Ingmar Visser Confidence intervals for hidden Markov model parameters. British Journal of Mathematical and Statistical Psychology, 2000, No. 53, p. 317.a

108. Angela A. R. Sa, Adriano O. Andrade Estimation of Hidden Markov Models Parameters using Differential Evolution электронный ресурс., 2009.

109. Режим доступа: http: //www.aisb.org.uk/convention/aisb08/ proc/proceedings/ 11 %20Swarm%20Intelligence/09.pdf.

110. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. - 607с.

111. Яцкив И. Методы определения количества кластеров при классификации без обучения. Transport and Telecommunication, Vol.4, N 1, 2003.

112. Воронцов К. В. Лекции по алгоритмам кластеризации и многомерного шкалирования электронный ресурс.- М., 2007. Режим доступа: www.ccas.ru/voron/download/Clustering.pdf.

113. Бочков М. В., Тараканов О. В. Проектирование автоматизированных систем обработки информации и управления: Курс лекций. Орел: Академия ФАПСИ, 2002. - 282 с.

114. Амосов А. А., Дубинский Ю. А., Копченова Н. В. Вычислительные методы для инженеров: Учеб. пособие. М.: Высш. шк., 1994.-544 с.

115. Козачок В. И., Мацкевич А. Г. Алгоритм автоматического декодирования упакованных исполняемых файлов в исходные тексты языка Ассемблера // Территория науки, 2006. № 1(1). - С. 69-75.

116. Методы моделирования электронный ресурс.- М., 2010. Режим доступа: http://www.rae.ru/monographs/52-2030.

117. Калинина В. Н. Математическая статистика: Учеб. для студ. сред, спец. учеб. заведений / В. Н. Калинина, В. Ф. Панкин. 4-е изд., испр. - М.: Дрофа, 2002. - 336 с.

118. Антология сокрытия вирусного кода электронный ресурс.- М., 2011. Режим доступа: http://stfw.ru/page.php?id=l 1489.

119. Загрузчик РЕ-файлов электронный ресурс.- М., 2005. Режим доступа: http://www.rsdn.ru/article/baseserv/peloader.xml.

120. Advantages of Flat Memory Model электронный ресурс.- M., 2007. Режим доступа: http://www.c-jump.com/CIS77/ASM/Memory /M770230x86protectedflatadvantages.htm.

121. Коньков К. А., Карпов В. Е. Организация памяти компьютера электронный ресурс.- М., 2011. Режим доступа: http://www.intuit.rU/department/os/osintro/8/3.html.

122. Управление памятью электронный ресурс.- М., 2009. Режим доступа: http://citforum.ru/operatingsystems/sos/glava7.shtml.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00