автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Методики выявления потенциально вредоносных файловых объектов на основе интеллектуального анализа данных

кандидата технических наук
Комашинский, Дмитрий Владимирович
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.10
Диссертация по информатике, вычислительной технике и управлению на тему «Методики выявления потенциально вредоносных файловых объектов на основе интеллектуального анализа данных»

Автореферат диссертации по теме "Методики выявления потенциально вредоносных файловых объектов на основе интеллектуального анализа данных"

На правах рукописи

Комашинский Дмитрий Владимирович

МЕТОДИКИ ВЫЯВЛЕНИЯ ПОТЕНЦИАЛЬНО ВРЕДОНОСНЫХ ФАЙЛОВЫХ ОБЪЕКТОВ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Специальность: 05.13.09 -Методы и системы защиты информации, информационная безопасность

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

5 ДЕК 2013

Санкт-Петербург 2013

005542492

005542492

Работа выполнена в Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук (СПИИРАН).

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

Защита состоится

Доктор технических наук, профессор Котенко Игорь Витальевич

Доктор технических наук, профессор, заслуженный деятель науки РФ, заведующий кафедрой "И6 Оптогеоинформатики" Балтийского государственного технического университета им. Д. Ф. Устинова «ВОЕНМЕХ»

Присяжнюк Сергей Прокофьевич

Доктор технических наук, профессор, профессор кафедры прикладной математики и информационных технологий Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Санкт-Петербургский университет ГПС МЧС России» Иванов Александр Юрьевич

Открытое акционерное общество «Информационные телекоммуникационные технологии»

«2£»

£ 201 г. в /¿7. с?(9 на заседании

диссертационного совета Д.002Л99.01 при Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук.

Автореферат разослан «ЛС» г.

Ученый секретарь

диссертационного совета Д.002.199.01 --___

кандидат технических наук "\ Ф Г.Нестерук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Проблема своевременного выявления новых, ранее неизвестных, вредоносных программ (ВП) является одним из важнейших направлений исследований в области информационной безопасности. В силу очевидных причин, в решении данной задачи анализ файловых объектов (ФО) имеет определяющее значение. Наряду с традиционными, сигнатурными методами выявления вредоносных ФО, в последнее десятилетие активно используются эвристические подходы. Данная группа подходов опирается на формально недоказуемые правила (эвристики), чье практическое использование показало свою применимость для выявления образцов потенциально вредоносных файловых объектов (ПВФО), имеющих явное сходство с известными вредоносными ФО.

Разработка и использование эвристических подходов продолжает оставаться объектом активных дискуссий на специализированных конференциях и в тематических изданиях. Вызвано это, в первую очередь, сложностью и изменчивостью ВП и, как следствие, их общей методологии выявления. Одним из перспективных направлений в эвристическом выявлении ПВФО является поиск устойчивых структурных и поведенческих паттернов ФО, косвенно идентифицирующих программные средства, используемые для их автоматического создания злоумышленниками. Это сопряжено с необходимостью накопления и обработки больших массивов данных, представляющих структуру и заложенный в ФО функционал с различных сторон.

Одним из способов решения задачи выделения из больших массивов данных эвристик для выявления ПВФО является использование методов интеллектуального анализа данных (ИАД). Эта концепция впервые была обозначена Кефартом и др. в середине 90-х годов XX века, а исследования Столфо, Шульца и др. в начале 2000-х годов задали направление дальнейших поисков в этом направлении.

Несмотря на получение в последние десять лет рядом авторских коллективов ценных результатов, данная тема продолжает оставаться объектом интенсивных исследований. В последние годы наблюдается, с одной стороны, взрывной рост количества ВП, развитие методов реализации вредоносного функционала, усложнение средств доставки ВП на атакуемые объекты, а, с другой стороны, эволюция подходов к пассивному и активному противодействию программно-аппаратными средствами защиты информации.

Перечисленные аспекты эволюции ВП обуславливают нерентабельность процессов обработки доступных массивов данных экспертами и аналитиками вручную и с использованием автоматизированных

средств. Это, в свою очередь, определяет необходимость формирования новых подходов к автоматическому выявлению ПВФО с учетом требований к характеристикам точности, производительности и ресурсопотребления.

Научная задача. Разработка модельно-методического аппарата для построения систем выявления потенциально вредоносных файловых объектов, основанного на формировании с помощью интеллектуального анализа данных структурных и поведенческих признаков, свойственных программным средствам автоматического создания вредоносных программ.

Объект исследования. Вредоносные файловые объекты и современные подходы к их обнаружению и идентификации.

Предмет исследования. Модели и методики выявления потенциально вредоносных файловых объектов на основе интеллектуального анализа данных.

Основной целью диссертационного исследования является повышение защищенности компьютерных систем за счет совершенствования процессов противодействия вредоносным программам на основе разработки новых методик, моделей и алгоритмов выявления потенциально вредоносных файловых объектов. Должно быть обеспечено улучшение и дополнение существующих подходов к выявлению ПВФО за счет улучшения показателей точности принятия решения и(или) снижения общей временной сложности процедур подготовки данных и выделения из них знаний. Для достижения цели исследования поставлены и решены следующие задачи:

1. Анализ современных подходов к осуществлению атак на объекты информационной инфраструктуры посредством использования ВП. Обзор основных подходов к выявлению ВП, основанных на интерпретации поведенческих данных, оценки репутации и анализе ФО.

2. Исследование существующих методов своевременного выявления вредоносных и потенциально вредоносных ФО. Анализ подходов к формированию систем их автоматического выявления.

3. Анализ и уточнение обобщенной модели процесса создания эвристических систем выявления ПВФО на основе ИАД, исследование жизненного цикла систем данного класса, формулировка их основных ограничений и требований к ним.

4. Разработка архитектуры системы, предназначенной для исследования эффективности методик выявления ПВФО на основе методов ИАД.

5. Анализ существующих моделей представления ФО и их применимости в системах эвристического обнаружения ВП на основе ИАД.

6. Дополнение существующего набора моделей представления ФО и разработка на их основе методик выявления ПВФО на основе ИАД.

7. Оценивание разработанных методик и сравнение их с существующими подходами к созданию систем выявления ПВФО на основе ИАД.

Результаты, выносимые на защиту:

1. Методика выявления потенциально вредоносных исполняемых программных модулей на основе статических позиционно-зависимых данных.

2. Методика выявления потенциально вредоносных исполняемых программных модулей на основе динамических низкоуровневых данных.

3. Методика выявления потенциально вредоносных электронных документов на основе статических структурных данных.

4. Архитектура и программная реализация системы оценивания методик выявления ПВФО на основе методов ИАД.

Научная новизна исследования заключается в следующем:

1. Методика выявления потенциально вредоносных исполняемых программных модулей на основе статических позиционно-зависимых данных отличается от известных направленностью на анализ произвольных блоков данных, расположенных относительно некоторой стартовой позиции. Такая особенность позволяет объединить в рамках обобщенного пространства атрибутов значения и позиции отдельных элементов в заданном участке анализируемого ФО. Другой особенностью данной методики является возможность преобразования выявленных паттернов, свойственных ПВФО, в традиционные описания сигнатур.

2. Методика выявления потенциально вредоносных исполняемых программных модулей на основе динамических низкоуровневых данных основывается на выявлении средств создания, упаковки и защиты стартового кода исполняемых ФО за счет ввода процедур сбора информации о выполняемых непрерывных последовательностях инструкций (блоках трансляции). В отличие от традиционных динамических подходов к формированию поведенческого профиля приложений за счет анализа его взаимодействия с операционной системой, данная методика сфокусирована на обобщении знаний о внутренней логике стартового кода анализируемых исполняемых объектов с обобщением на уровне отдельных непрерывных последовательностей инструкций.

3. Методика выявления потенциально вредоносных электронных документов на основе статических структурных данных ориентирована на выявление структурных паттернов, свойственных программным пакетам автоматической генерации вредоносного содержимого, входящих в состав пакетов эксплуатации уязвимостей. В отличие от традиционных методов выявления вредоносных документов на базе ряда структурных и поведенческих аномалий как самого документа, так и вложенного в него кода, данная методика нацелена на быстрый анализ структурных особенностей документа без учета типовых индикаторов их потенциальной опасности.

4. Архитектура системы оценивания методик выявления ПВФО основана на разработанных методиках и допускает проведение экспериментов по оцениванию сторонних моделей представления потенциально вредоносных файловых контейнеров за счет гибкости и расширяемости заложенных в нее моделей процессов и выбранных средств поддержки вычислений.

Обоснованность и достоверность положений, представленных в диссертационной работе, обеспечены проведением предварительного анализа результатов существующих исследований в данной предметной области. Результаты анализа использовались при формировании плана исследований и перечня необходимых на практике входных данных. Полученные практические положения находятся в непротиворечивом состоянии с результатами актуальных работ исследовательского сообщества. Основные теоретические положения работы изложены в печатных трудах и докладах на научных конференциях.

Практическая значимость результатов исследования. Разработанные методики позволяют улучшить показатели точности и ресурсопотребления процессов автоматического эвристического выявления ВП за счет ввода новых подходов к поиску структурных и поведенческих паттернов, свойственных вредоносным ФО. Проведенные исследования позволили разработать архитектуру и прототип программного комплекса, поддерживающего операции обучения и верификации систем выявления ПВФО, построенных на основе методов ИАД. Осуществлена практическая проверка разработанных методик выявления и идентификации потенциально опасных файловых контейнеров. Ее результаты на практике показали возможность выявления набора эвристик, основанных на идентификации структурных и поведенческих паттернов, используемых программными средствами создания ВП, и их использования для выявления ПВФО.

Реализация результатов работы. Результаты, полученные в диссертационной работе, использованы в рамках следующих научно-исследовательских работ: «Управление информацией и событиями безопасности в инфраструктурах услуг (MASSIF)», проект Седьмой рамочной программы (FP7) Европейского Сообщества, контракт № 257475, 2010-2013 гг.; «Математические модели, методы и алгоритмы проактивной защиты от вредоносного программного обеспечения в компьютерных сетях и системах», проект по программе фундаментальных исследований Отделения нанотехнологий и информационных технологий РАН «Архитектура, системные решения, программное обеспечение, стандартизация и информационная безопасность информационно-вычислительных комплексов новых поколений», 2009-2011 гг.; «Модели и методы построения и поддержки функционирования интеллектуальных адаптивных систем защиты

информации, основывающиеся на моделировании поведения систем защиты, реализации верифицированных политик безопасности, оценке защищенности и проактивном мониторинге», грант РФФИ № 07-01-00547, 2007-2009 гг.; «Математические модели активного анализа уязвимостей, обнаружения вторжений и противодействия сетевым атакам в компьютерных сетях, основывающиеся на многоагентных технологиях», проект по программе фундаментальных исследований Отделения нанотехнологий и информационных технологий РАН, 2003-2008 гг. и др.

Апробация результатов работы. Основные положения и результаты диссертационной работы были представлены на следующих научных конференциях: Санкт-Петербургская Международная Конференция «Региональная Информатика» (Санкт-Петербург, 2008, 2010); Санкт-Петербургская Межрегиональная Конференция «Информационная безопасность регионов России» (Санкт-Петербург, 2009, 2011); Общероссийская Научно-Техническая Конференция «Методы и Технические Средства Обеспечения Безопасности Информации» (Санкт-Петербург, 2009, 2010, 2011); Международная Конференция «РусКрипто» (Моск. область, 2009, 2010, 2011); IV International Workshop «Information Fusion and Geographical Information Systems» (Санкт-Петербург, 2009); Международная Научная Конференция по Проблемам Безопасности и Противодействия Терроризму (Москва, 2009, 2010); XVIII Euromicro International Conference on Parallel, Distributed and Network-Based Processing (Пиза, Италия, 2010); VI International Conference «Mathematical Methods, Models and Architectures for Computer Network Security» (Санкт-Петербург, 2012).

Публикации. По материалам диссертационного исследования было опубликовано 25 работ, в том числе 6 статей в ведущих периодических изданиях перечня ВАК на соискание ученой степени доктора и кандидата наук («Системы высокой доступности», «Информационные технологии и вычислительные системы», «Проблемы информационной безопасности. Компьютерные системы», «Известия вузов. Приборостроение» и «Труды СПИИРАН»),

Структура и объем диссертационной работы. Диссертационная работа включает введение, три главы, заключение, словарь терминов и список литературы (162 наименования). Общий объем работы - 180 страниц машинописного текста; включает 58 рисунков и 39 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении проводится анализ темы исследования и обосновывается ее актуальность. Определена цель диссертационной работы и сформулированы основные задачи, решение которых позволяет ее достичь.

Показаны научная новизна и практическая значимость работы. Дано краткое описание разработанных моделей представления анализируемых объектов, методик обнаружения ВП и архитектуры разработанной системы оценивания методик выявления ПВФО. Представлены основные результаты их разработки в научно-исследовательских проектах.

Первая глава диссертации посвящена анализу задачи проектирования и разработки систем выявления ПВФО на основе методов ИАД.

Ретроспективный анализ основных тенденций развития ВП и средств противодействия им показывает, что на настоящий момент можно выделить два основных направления развития кибератак с использованием ВП - так называемые массовые и целевые (advanced persistent threats, APT) атаки. Несмотря на существенные отличия в их целеполагании, противодействие обоим типам атак может быть реализовано на основе общего, многомодельного подхода, предполагающего комбинирование различных типов существующих и перспективных подходов и моделей. Обосновываются значимость и целостность минимально необходимой последовательности действий, выполняемых в процессе противодействия ВП: (1) обнаружение, (2) идентификация и (3) удаление. Краткий обзор основных существующих подходов к выявлению ВП подчеркивает возрастающую значимость подгруппы эвристических подходов, ориентированных на обобщение и использование существующих знаний о ПВФО и безопасных программных приложениях.

Анализ работ, посвященных выявлению ВП и ПВФО, в частности, дает общее представление об основных подходах к извлечению фактов из ФО и времени для их технической реализации и сопровождения. Выделено шесть основных классов подходов, определяемых интерпретацией понятия ФО: (1) поток неструктурированных данных, являющийся источником наиболее простых фактов (например, о наличии определенных символьных последовательностей); (2) набор структур, раскрывающих внутренние особенности организации ФО и характер его содержимого; (3) хранилище статических данных, включающее факты о полезном содержимом и его организации; (4) хранилище динамических данных, интерпретация которых предоставляет дополнительные сведения о содержимом ФО; (5) сущность, определяющая поведение интерпретирующего его приложения; (6) сущность, определяющая поведение и конфигурацию операционной системы (ОС) и устройства в целом. Показано, что эмпирическая зависимость значения класса сложности к подхода к извлечению фактов из ФО от общего времени TSUM, требуемого для его реализации и сопровождения, может быть выражена как к ~ log TS(JM при значениях основания больше единицы. Таким образом, переход к использованию следующего по классу сложности подхода

к извлечению фактов из ФО приводит к увеличению в разы временных затрат на его реализацию и сопровождение.

Проблема выявления ПВФО на основе ИАД определяется в виде постановки задачи двуклассовой классификации (обучения на множестве примеров, относящихся к одному из двух классов). Дано множество описаний объектов X и множество классов С — [benign,malicious} (безопасный и вредоносный соответственно). Известно, что существует целевая зависимость /": Z -> С, отображающая множество X на множество С. Значения целевой зависимости известны только на объектах множества XL £ X и представлены в виде обучающей выборки {(х1,у1)(х2,у2),...,(хт,ут)} , Vi £ [1,ш]: Xi £ XL,yi £ С. Необходимо построить алгоритм а:Х -» С, приближающий целевую зависимость / как на элементах X1, так и на общем множестве объектов X.

На основе анализа существующих методик использования средств ИАД и публикаций в данной области, сформировано описание обобщенного жизненного цикла систем выявления ПВФО. В соответствии с методологией SADT представлены его основные фазы. Выделены базовые составляющие процессы фаз обучения и эксплуатации систем. Фаза обучения системы включает следующие подпроцессы: извлечение признаков, выделение значимых признаков, обучение модели и ее оценивание. Фаза эксплуатации системы обнаружения ВП на основе ИАД использует результаты процесса обучения в рамках цепочки подпроцессов извлечения значимых признаков и принятия решения. Подчеркивается тождественность подпроцесса извлечения признаков фазы обучения с процедурой извлечения значимых признаков фазы функционирования.

В соответствии со структурой моделей процессов обучения и функционирования систем обнаружения ВП на основе методов ИАД, осуществляется анализ основных работ, посвященных данной тематике. Показано, что одним из основных вопросов, стоящих перед исследователями, является определение формального представления анализируемых объектов на фазе извлечения признаков и оценивание его эффективности. Обосновывается значимость моделей представления объектов в формировании конечных показателей эффективности систем обнаружения ВП Q — (Р, к), где Р — характеристика точности, а к — класс сложности подхода к извлечению признаков, определяющий показатели времени TLearn обучения модели, времени TFunc принятия решения для единичного объекта и обобщенной характеристики ресурсопотребления С системы в целом.

Оценивание точности осуществляется на основе характеристик точности задачи классификации Precision — tp/(tp + fp) , Accuracy — (tp + tn)/(tp + tn + fp + /п) , полноты Recall = tp/(tp + fri) и F-меры Fß = (1 + ß2) ■ tp/(l + ß2) ■ tp + ß2 • fn+ fp , где tp - количество верно

идентифицированных вредоносных ФО, /р - количество ложно идентифицированных безопасных ФО (ложных срабатываний), Ы -количество верно идентифицированных безопасных ФО, /п - количество ложно идентифицированных вредоносных ФО (пропусков) и (3 - численный показатель, определяющий значимость ошибок ложных срабатываний по отношению к ошибкам пропуска.

Проводится анализ существующих подходов к извлечению признаков из потенциально опасных объектов. Формируется общий перечень основных групп моделей их представления. На практических примерах показывается, что статические и динамические модели представления объектов существенно различаются с точки зрения базиса характеристик эффективности (? . В общем случае применение статических моделей представления является предпочтительным с точки зрения временных показателей обучения систем и принятия ими решения. Вместе с тем, использование динамических моделей представления дает большую точность. Показывается, что именно эти соображения обуславливают многомодельный подход к процессу обнаружения ВП, основанный на использовании набора частных подсистем обнаружения ВП с различающимися характеристиками точности и скорости принятия решения.

На основании определенного выше базиса характеристик эффективности определяется методика оценивания представленных в работе методик выявления ПВФО. Суть методики заключается в использовании сравнительной оценки показателей точности и быстродействия предложенных подходов с разработанными и опубликованными ранее. Формулируется постановка задачи исследования, направленная на разработку методик выявления ПВФО, основанных на моделях представления анализируемых объектов, косвенно характеризующих средства создания ФО, и их оценивание в рамках общей методологии построения систем обнаружения ВП на основе НАД.

Во второй главе представлены разработанные методики выявления ПВФО. Они ориентированы на извлечение и анализ структурных и поведенческих паттернов ФО исполняемых программ и документов, так как именно данные файловые контейнеры традиционно используются современными ВП.

В обобщенном виде определение каждой методики выявления ПВФО представлено в виде набора Т = (Му1ет, А, Б, V, /), где Му1еш - модель анализируемого объекта, А - алгоритм извлечения признаков, Б -используемые методы выделения значимых признаков, Ь — методы обучения, V - методы оценивания и / - используемые средства поддержки вычислений.

Ключевыми элементами каждой методики являются модель представления анализируемого объекта и алгоритм извлечения признаков.

В методике ТВШ5 выявления потенциально вредоносных исполняемых программных модулей на основе статических позиционно-зависимых данных, модель исполняемых ФО определена в виде множества Мв;дг5, включающего множество символов алфавита значений А , множество признаков Р , интервал выделения признаков г и преобразование Т: МВШ5 = (А, Р, г. Г), г £ N.

Алфавит А = [а1,...,ак] , где к = \А\ — мощность алфавита, и Щ £ А, 1 < I < к.

Множество признаков Р = {/1(...,/к] , где к = I/7! - мощность множества признаков и /, £ Р, 1 < 1 < к.

Интервал выделения признаков г определяет множество значений смещений Я £ 2, как набор целых чисел в интервале [-г, +г].

Преобразование Т: (а, ¿) -» / , 6 а Е А, I е й , ставит в однозначное соответствие каждой паре (а, ¿), где а Е А,—г <1 < г, элемент множества признаков Т7.

В соответствии с заданной моделью, методика реализует процедуру сбора признаков об анализируемом объекте (алгоритм 1). Как показано в строке 5 алгоритма, значение каждого признака представляет собой объединение смещения и значения, находящегося по данному смещению.

Алгоритм 1. Извлечение статических позиционных признаков_

Вход: Описатель файла (handle), смещение (offset), длина блока (length) Выход: Список признаков 1: result = list()

2: entry = get_entry_point_va(handle) 3: for each position in [0, length]

4: value = read_virtual_byte(handle, offset + position)

5: feature = [offset + position, value]

6: result.append(feature)

7: return result

В методике ТВ1ЫВ выявления потенциально вредоносных исполняемых программных модулей на основе динамических низкоуровневых данных, используемая модель исполняемых ФО определена в виде множества МВ/ЛШ, включающего множество Р потоков выполнения Т, множество символов алфавита А и подмножество терминальных символов (Р,А,АТХАТ € А.

Алфавит А = [а^... ,ак] , где к — \А\ - мощность алфавита, и Щ Е А, 1 < I < к.

Поток выполнения Т — (х1,..., хп), Xj е А, 1 < у < п, - упорядоченный конечный набор символов алфавита А.

Приложение Р = {Д, Ь2,..., £т} - конечное множество потоков выполнения.

Множество терминальных символов Аг - подмножество {а[,..., аП символов алфавита А, а[ 6 А, 1 < I < V. АТ с А.

Терминальная цепочка символов С - упорядоченный конечный набор символов алфавита А длины I, С — (сх,с2,..., с;) , где только первый и последний символы принадлежат множеству терминальных символов Ат\

С с, е/

сЛагп(С) = -! с1 е Ат

( (VI, 2 <1<1- 1)(сг е А,с1 £ Ат)

Поток выполнения Т может быть представлен как последовательность терминальных цепочек символов: Т = (С1( С2, С{), (\/0(с/ш('п(С;)).

Методика реализует (алгоритм 2) формирование формального описания анализируемого объекта (программного приложения) как набора непрерывных цепочек инструкций, ограниченных инструкциями управления переходами (условного и безусловного перехода). Набор получаемых признаков (цепочек) не включает цепочки инструкций, относящихся к импортируемым библиотекам и средствам загрузки (для случая динамического анализа библиотечных файлов).

Алгоритм 2. Извлечение динамических низкоуровневых признаков (на

примере архитектуры х86)_

Вход: Описатель процесса (handle), начальный и конечный адреса (Ьа, еа) Выход: Список признаков

I : result = list(); feature = list() 2: while process_trace(handle):

3: pair = None; eip = get_eip(handle)

4: if eip in range(ba, ea):

5: instr = get_instruction(eip)

6: if instr.opcode.length = land not instr.opcode.group_ext:

7: pair = [instr.opcode,0]

8: if instr.opcode.length = land instr.opcode.group_ext:

9: pair = [instr.opcode, instr.modrm & 0x3F]

10: if instr.opcode.length != 1 :

II : pair = [OxOF, instr.opcode] 12: feature.append(pair)

13: if instr.control:

14: result.append(feature)

15

16 17

del feature[0, len(feature)] feature.append(pair)

return result

Предлагаемый подход использует предложенную модель анализируемого объекта со следующими параметрами:

1. Размер набора потоков исполнения Р равен единице: т — 1. В рамках прикладной области это допущение обосновано тем, что любое анализируемое приложение имеет один первоначальный поток, начинающий выполнение анализируемого объекта (приложения) от точки входа.

2. Состав множества алфавита символов определяется набором инструкций процессора, под управлением которого будет выполняться анализируемый объект (приложение). Для сокращения размера алфавита было принято решение ограничить размер символа двумя байтами, таким образом, к < 216 (строки 6-11 алгоритма 2). Множество терминальных символов АТ определяется множеством

инструкций процессора, реализующих выполнение условной и безусловной передачи управления (строка 13 алгоритма 2).

В методике Тоос выявления потенциально вредоносных электронных документов на основе статических структурных данных, используемая статическая модель документа определена в виде множества Моос , включающего ориентированный граф С представления документа, множества 5 типов связей, множества N типов узлов и идентификаторов узлов1: Мвос = (С,5,УУ,/).

Граф представления документа <7 = (V, Е), где V — множество вершин, а Е - множество ребер.

Множество типов связей Б = {х^ , где к = - мощность

множества связей, 5г Е 5,1 < I < к.

Множество типов узлов N = {щ,...,щ} , где |Л/| - мощность множества типов узлов, п; Е 5,1 < I < С.

Множество идентификаторов узлов I = ... ,1т] , где т = |/| — мощность множества идентификаторов узлов, е 1,1 < / < т.

Элементы множества вершин V = {г?1( ...,г>2} , представлены как наборы V] = <£, тг), где I Е 1,п Е N.

Элементы множества ребер Е = {еи ..., ех], представлены как наборы ек = V]}, 5>, где 5 е 5 а V; е V.

Методика реализует (алгоритм 3) построение набора признаков, характеризующих анализируемый ФО, в виде набора цепочек описаний внутренних структурных элементов. На основе алгоритма Дейкстры

(строка 3) получается полное дерево кратчайшего пути относительно вершины, соответствующей корневому элементу иерархии.

Алгоритм 3 Извлечение структурных признаков Вход: Описатель файла (handle) Выход: Список признаков

1: result = list(); feature = list()

2: graph, root_leave = parse(handle)

3: tree = dijkstra(graph, root_leave)

4: leaves = get_leaves(tree)

5: for current_leave in leaves:

6: path = get_path(tree, root_leave, current_leave); temp = None

7: for node in path:

8: if temp:

9: feature.append(get_edge(graph, temp, node)

10: feature.append(get_vertex(graph, node)

11: temp = node

12: result.append(feature)

13: del feature[0: len(feature)]

14: return result

Из полученного дерева извлекаются корневые вершины, используемые для выделения путей в дереве, характеризующих цепочки (признаки), что обозначено в строках 4-14 алгоритма 3.

В третьей главе представлены архитектура и программная реализация системы оценивания методик выявления ПВФО, а также основные результаты экспериментов. Для проведения практической части исследований на основе эталонных коллекций вредоносных файлов были выделены наборы исполняемых объектов формата Portable Executable 32 bit (РЕ32) и документов формата Portable Document Format (PDF). Подготовка наборов безопасных файлов осуществлялась на основе самостоятельного сбора и генерации ФО, включая использование доступных средств программной защиты и упаковки.

Обеспечение вычислительной поддержки исследований осуществлялось на основе программного пакета RapidMiner 5.2. С его помощью подготовлен набор схем экспериментов, соответствующих канонической форме организации фаз обучения и эксплуатации автоматических систем выявления ПВФО.

Основным переменным элементом каждой схемы эксперимента являлись предложенные подходы к извлечению признаков, определенные используемой моделью потенциально опасных объектов. Это обусловило

низкую изменчивость конфигурации остальных элементов схем эксперимента, определяющих подпроцессы извлечения значимых признаков, обучения и верификации решающей модели. Для извлечения значимых признаков использовалась метрика информационного усиления Information Gain с последующим ранжированием и выделением ограниченного количества наиболее значимых признаков. В качестве основных методов обучения были применены наивный Байесовский классификатор (Naive Bayes, NB), дерево решений (Decision Tree, DT), метод k ближайших соседей (k Nearest Neighbors, kNN) и метод опорных векторов (Support Vector Machine, SVM). Также применялись методы комбинирования на основе методов «случайный лес» (Random Forest, RF), голосования (Voting) и укладки (Stacking). Для оценивания точности получаемых моделей принятия решения применялся метод десятикратной перекрестной проверки (10-fold cross-validation).

В методике выявления потенциально вредоносных исполняемых программных модулей на основе статических позиционно-зависимых данных процесс извлечения признаков основан на использовании программного средства разбора файлов данного формата (парсера). Данное программное средство способно идентифицировать программную точку входа анализируемого объекта, непрерывный физический участок (секцию) объекта, включающий точку входа, и обеспечивать операцию чтения идентифицированной секции по допустимому региону относительных виртуальных адресов.

Практическая проверка методики осуществлялась с учетом двух основных аспектов.

Во-первых, необходимо было получить представление о сравнимости показателя точности данной методики с другими. Формирование обучающей выборки ФО производилось в соответствии с описаниями существующих подходов. Проверка показала, что площадь кривой ошибок в данном случае может достигать значения 0.98 при использовании классификатора RF, обученного на пространстве из 250 признаков. Данные результаты сравнимы с результатами оценивания существующих быстрых статических методик обнаружения вредоносных ФО, основанных на использовании n-грамм и простых подходах анализа кода (дизассемблирования). Показатели точности могут быть улучшены при дальнейшем расширении пространства признаков.

Во-вторых, требовалось получить ответ на вопрос о ее применимости в условиях, предполагающих наличие существенного количества безопасных защищенных (упакованных) ФО. В данном случае процесс формирования обучающей выборки безопасных ФО включал дополнительные шаги по их поиску и подготовке. Эксперименты показали предпочтительность использования метода классификации kNN со значениями к от 5 и выше при

значении количества признаков в интервале [50,200] . При дальнейшем увеличении количества признаков рост показателя точности значительно замедляется, что на практике позволяет ограничить размерность описаний объектов в интервале [300,500].

При использовании классификаторов, логика принятия решения которых может быть преобразована в таблицы правил (например, на основе применения метода DT, показавшего в аналогичном эксперименте точность 0.962), данная методика может быть использована для формирования традиционных баз сигнатур обнаружения ВП. С точки зрения характеристик времени обучения (принятия решения) и потребления ресурсов данный подход превосходит другие за счет ограничения потенциально возможного количества признаков значением 216, определяемым комбинацией значения и его смещения (таблица 1). На практике это ограничение снимает необходимость программно-аппаратной оптимизации инфраструктуры поддержки вычислений и позволяет использовать данный подход для быстрого построения и оценки систем обнаружения отдельных типов ВП.

Таблица 1. Сравнительный анализ релевантных методик выявления потенциально вредоносных исполняемых ФО (для методики Твш;;)

Характеристика TBÍNS Schultz et al., 2001 Kolter et al, 2004 Santos el al., 2009

Ложные срабатывания (%) 1.4 6.01 6 6

Положительные срабатывания (%) 50.8 97.76 98 91.25

Максимальное количество атрибутов 2« 2i6 232 232

Используемое количество атрибутов 300-500 2« 500 Не указано

В методике выявления потенциально вредоносных исполняемых программных модулей на основе динамических низкоуровневых данных процедура извлечения признаков использует средства динамического исследования и отладки модулей программных приложений. Данные средства способны произвести предварительную загрузку и инициализацию анализируемого объекта, фиксацию факта начала его выполнения

(выполнение первой инструкции, расположенной по адресу программной точки входа) и дальнейшую трассировку модуля.

Практическая работа с данной методикой подтвердила широкую вариативность низкоуровневой реализации ПВФО. Для отдельных семейств ВП ее применение дает общий показатель точности обнаружения Р-Меавиге вплоть до 0.8 (методы БТ и N8 при количестве признаков, равном 500) при практически полном отсутствии ложных срабатываний (таблица 2). Это показывает, что отдельные подмножества экземпляров ВП, относящиеся к одному семейству, имеют высокую степень схожести на низком уровне, что, в первую очередь, объясняется применением алгоритмически схожих средств защиты и обфускации вредоносного кода.

Таблица 2. Сравнительный анализ релевантных методик выявления потенциально вредоносных исполняемых ФО (для методики Твто)

Характер исти ка Tbind Siddiqui, 2008 Dai et al.. 2009 Santos et al., 2011

Ложные срабатывания (%) 0.0 1.9 7.4 4.0

Положительные срабатывания (%) 40-80 (зависит от семейства ВГТ) 98.4 97.5 67-73 (зависит от полноты обучающего набора"

Класс подхода к извлечению признаков, к 4 3 4 3

Вместе с тем, исследование подтвердило существование ряда семейств ВП, в которые заложены механизмы противодействия анализу и обнаружению подозрительных низкоуровневых паттернов за счет полиморфизма и активного противодействия инструментальным средствам динамического анализа. В отличие от схожих низкоуровневых динамических подходов к обнаружению ВП, предлагаемый подход ориентирован на использование групп признаков, представляющих непрерывные цепочки команд центрального процессора, ограниченные командами условного и безусловного перехода, расположенными в адресном пространстве анализируемого бинарного модуля. Он используется для построения систем идентификации ВП, ориентированных на поиск отдельных семейств бинарных программ, имеющих алгоритмически схожую низкоуровневую функциональность и созданных с использованием единого набора средств компиляции, компоновки и(или) программной защиты. Указанные выше показатели точности систем обнаружения ВП на основе предложенной модели представления сравнимы, а по некоторым критериям (идентификация отдельных семейств) выше показателей существующих динамических

методик выявления ВП. Предложенный подход ориентирован на динамический анализ стартового кода бинарных объектов, что ограничивает необходимое время анализа по сравнению с другими подходами.

Подпроцесс извлечения признаков в методике выявления потенциально вредоносных электронных документов на основе статических структурных данных применяет программные средства разбора файлов формата PDF. Данное средство способно производить идентификацию и выделение основных структурных частей документа в части, касающейся поиска косвенных объектов, и выполнять рекурсивный разбор внутренних структурных элементов описания косвенных объектов.

Практические работы по исследованию эффективности предложенной методики состояли из двух основных частей. Первая часть эксперимента посвящена анализу применимости известных структурных особенностей и аномалий вредоносных документов в контексте построения системы их обнаружения на основе НАД. При использовании отдельных групп структурных признаков, присущих вредоносным документам в соответствии с наблюдениями экспертного сообщества, общая точность ответов формируемых систем обнаружения вредоносных документов может достигать значения 0.94. При использовании признаков, характеризующих информационное наполнение документов, можно достичь еще большей точности, близкой к значению 0.99. Последний вывод обусловил необходимость взгляда на проблему выявления вредоносных документов под другим углом в контексте описанной статической методики обнаружения вредоносных документов. Практические эксперименты с ней показали наличие в используемом обучающем наборе ФО небольшого числа структурных паттернов, свойственных более чем 85% проанализированных вредоносных документов (таблица 3) при отсутствии ложных срабатываний.

Таблица 3. Сравнительный анализ методик выявления потенциально _вредоносных электронных документов_

Характеристика Idoc PJScan (Laskov et al., 2011) Fast and Precise Malicious PDF Filter (Xu et al., 2012) JSUnpackN (Harstcin, 2009-2013)

Ложные срабатывания (%) 0.0 16.0 9.2 0.0

Положительные срабатывания (%) 85.0 85.0 98.2 Зависит от наличия обновлений

Класс подхода к извлечению признаков, к 2 3 3 4

В отличие от существующих статических подходов на основе выявления структурных аномалий, предлагаемый подход ориентирован на обобщение знаний об особенностях внутренней организации вредоносных документов в контексте содержимого их составных элементов и связей между ними. Данный подход отличает высокая степень точности принятия решения при использовании сравнительно небольшого количества интуитивно понятных признаков одной группы. Процедура принятия решений на его основе не требует существенных временных затрат, присущих полному циклу анализа документов PDF, обусловленных необходимостью глубокого структурного разбора документов и распаковки его содержимого, отображения его структурных свойств на общую объектную модель документов PDF и ее динамическую интерпретацию. Выявленные структурные паттерны вредоносных документов позволяют производить мониторинг динамики их распространенности во времени, что дает возможность построить формальные модели процессов поддержки и обновления программных средств генерации вредоносных документов.

В заключении диссертационной работы приведен перечень ее основных научно-практических результатов.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ

Представленная работа расширяет перечень существующих моделей описания потенциально опасных ФО. Построенные на их основе методики выявления ПВФО могут быть использованы на этапах обучения и функционирования комбинированных систем раннего выявления киберугроз для улучшения показателей точности и времени обучения и эксплуатации подобных систем. Получены следующие научные результаты:

1. Разработана методика выявления потенциально вредоносных исполняемых программных модулей на основе статических позиционно-зависимых данных. Обоснована значимость использования информации в регионе точки входа исполняемых файлов для процессов принятия решения об их потенциальной опасности. С практической точки зрения предложенный подход может быть использован для построения систем быстрой идентификации верхнего слоя программных средств компиляции, компоновки, упаковки и программной защиты, используемых при создании ФО.

2. Разработана методика выявления потенциально вредоносных исполняемых программных модулей на основе динамических низкоуровневых данных. Обоснована значимость наличия отдельных непрерывных последовательностей машинных инструкций в коде анализируемого бинарного объекта для принятия решения о степени

его вредоносности. На практике данный подход может применяться как для идентификации отдельных алгоритмических конструкций, свойственных ВП, так и для выявления факта применения средств упаковки, обфускации и программной защиты.

3. Разработана методика выявления потенциально вредоносных электронных документов на основе статических структурных данных. Выявлен факт использования ограниченного количества структурных паттернов, используемых во вредоносных документах. Применение предложенной методики позволяет строить комплексные системы раннего обнаружения Интернет-угроз, эксплуатирующие уязвимости приложений, функционирующих на стороне пользователя.

4. Для вычислительной поддержки экспериментов разработан набор экспериментальных программных моделей и дополнительного программного инструментария, позволяющих провести оценивание как предложенных, так и новых подходов к обнаружению ПВФО на основе методов ИАД.

Перечисленные результаты применимы для исследования статических и динамических свойств ВП и формирования эвристических систем выявления массовых и эксклюзивных киберугроз.

СПИСОК ОСНОВНЫХ ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в ведущих рецензируемых научных журналах и изданиях из списка ВАК:

Комашинский Д.В. Обнаружение и идентификация вредоносных исполняемых программных модулей с помощью методов Data Mining / Д.В. Комашинский // Труды СПИИРАН. - СПб., 2013. - Т.26, №3. - С.115-125.

Комашинский Д.В. Подход к выявлению вредоносных документов на основе методов интеллектуального анализа данных / Д.В. Комашинский // Труды СПИИРАН. - СПб., 2013. - Т.26, №3. - С.126-135.

Комашинский Д.В. Исследование структурных особенностей вредоносных документов методами Data Mining / Д.В. Комашинский, И.В. Котенко // Информационные технологии и вычислительные системы. — М.,2012. - №2. - С.76-92.

Комашинский Д.В. Категорирование веб-сайтов для блокирования веб страниц с неприемлемым содержимым / Д.В. Комашинский, И.В. Котенко, A.A. Чечулин // Системы высокой доступности. - М.:Радиотехника,2012. -№2.-С. 102-106.

Комашинский Д.В. Метод извлечения структурных признаков для задачи обнаружения вредоносного программного обеспечения / Д.В. Комашинский, И.В. Котенко // Известия вузов. Приборостроение. - СПб., 2012. - Т.55, №11. - С.58-62.

Комашинский Д.В. Обнаружение вредоносных документов формата PDF на основе интеллектуального анализа данных / Д.В. Комашинский, И.В. Котенко // Проблемы информационной безопасности. Компьютерные системы. - СПб., 2012. -№1. - С. 19-35.

Публикации в других изданиях:

Komashinskiy D.V. Using Low-Level Dynamic Attributes for Malware Detection Based on Data Mining Methods / D.V. Komashinskiy, I.V. Kotenko // Lecture Notes in Computer Science, Springer-Verlag, Vol. 7531. - Springer Verlag, 2012.-P. 254-269.

Komashinskiy D.V. Malware Detection by Data Mining Techniques Based on Positionally Dependent Features / D.V. Komashinskiy, I.V. Kotenko // Proceedings of the 18th Euromicro International Conference on Parallel, Distributed and network-based Processing. - Los Alamitos, California. IEEE Computer Society, 2010. — P.617-623.

Komashinskiy D.V. Integrated Usage of Data Mining Methods for Malware Detection / D.V. Komashinskiy, I.V. Kotenko // Fourth International Workshop «Information Fusion and Geographical Information Systems». - Lecture Notes in Geoinformation and Cartography. - Springer. 2009. - P.343-357.

Комашинский Д.В. Концептуальные основы использования методов Data Mining для обнаружения вредоносного программного обеспечения / Д.В. Комашинский, И.В. Котенко // Защита информации. Инсайд. - СПб.,2010. -№ 2. - С.74-82.

Комашинский Д.В. Обнаружение malware на основе обработки статической позиционной информации методами Data Mining / Д.В. Комашинский, И.В. Котенко // Материалы Восьмой общероссийской научной конференции «Математика и безопасность информационных технологий». -М.гМЦНМО, 2010. - Т.2. - С.136-140.

Комашинский Д.В. Особенности задачи применения Data Mining для обнаружения разрушающих программных воздействий / Д.В. Комашинский // Сборник «Инновации в науке»: материалы XVI международной заочной научно-практической конференции. — Новосибирск:СибАК,2013. — №1. -С.74-78.

Комашинский Д.В. Подход к обнаружению вредоносного программного обеспечения на основе позиционно-зависимой информации / Д.В. Комашинский, И.В. Котенко, А.В. Шоров // Труды СПИИРАН. - СПб.: Наука,2010,- №10. - С. 144-159.

Автореферат диссертации

Комашинский Дмитрий Владимирович

МЕТОДИКИ ВЫЯВЛЕНИЯ ПОТЕНЦИАЛЬНО ВРЕДОНОСНЫХ ФАЙЛОВЫХ ОБЪЕКТОВ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Текст автореферата размещен на сайтах:

Высшей аттестационной комиссии Министерства образования и науки Российской Федерации http://vak2.ed.gov.ru/cataloftue

Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН) http://www.spiiras.nw.ru/DissSovet/Templates/PhDSchedule.htm

Подписано в печать 25.11.2013г. Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,2. Тираж 100 экз. Заказ № 3359.

Отпечатано в ООО «Издательство "JIEMA"» 199004, Россия, Санкт-Петербург, В.О., Средний пр., д. 24 тел.: 323-30-50, тел./факс: 323-67-74 e-mail: izd_lema@mail.ru http://www.lemaprint.ru

Текст работы Комашинский, Дмитрий Владимирович, диссертация по теме Управление в социальных и экономических системах

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ САНКТ-ПЕТЕРБУРГСКИЙ ИНСТИТУТ ИНФОРМАТИКИ И АВТОМАТИЗАЦИИ РОССИЙСКОЙ АКАДЕМИИ НАУК

На правах рукописи

04201450646

Комашинский Дмитрий Владимирович

МЕТОДИКИ ВЫЯВЛЕНИЯ ПОТЕНЦИАЛЬНО ВРЕДОНОСНЫХ ФАЙЛОВЫХ ОБЪЕКТОВ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНОГО

АНАЛИЗА ДАННЫХ

Специальность 05.13.19 - Методы и системы защиты информации, информационная безопасность

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель

Доктор технических наук, профессор

Котенко Игорь Витальевич

Санкт-Петербург - 2013

Содержание

Введение....................................................................................................................4

1 Системный анализ проблемы выявления потенциально вредоносных файловых объектов на основе интеллектуального анализа данных....................12

1.1 Тенденции развития вредоносных программ и методов их выявления... 12

1.2 Место и роль эвристических средств в задаче выявления потенциально вредоносных файловых объектов.......................................................................19

1.3 Модель процесса использования методов интеллектуального анализа данных для выявления потенциально вредоносных файловых объектов........23

1.4 Сравнительный анализ существующих подходов к выявлению потенциально вредоносных файловых объектов...............................................30

1.5 Требования к системам выявления потенциально вредоносных файловых объектов................................................................................................................43

1.6 Постановка задачи исследования..................................................................51

Выводы по главе 1...............................................................................................54

2 Методики выявления потенциально вредоносных файловых объектов на основе интеллектуального анализа данных...........................................................57

2.1 Обобщенная методика выявления потенциально вредоносных исполняемых программных модулей.................................................................57

2.2 Методика выявления потенциально вредоносных исполняемых программных модулей на основе анализа статических позиционно-зависимых данных..................................................................................................................67

2.3 Методика выявления потенциально вредоносных исполняемых программных модулей на основе анализа динамических низкоуровневых данных..................................................................................................................69

2.4 Методика выявления потенциально вредоносных электронных документов на основе анализа статических структурных данных........................................72

Выводы по главе 2...............................................................................................80

3 Система оценивания методик выявления потенциально вредоносных файловых объектов и ее использование для оценки эффективности..................83

3.1 Архитектура системы выявления потенциально вредоносных файловых объектов................................................................................................................83

3.2 Программная реализация системы выявления потенциально вредоносных файловых объектов..............................................................................................87

3.3 Оценка эффективности методики выявления потенциально вредоносных исполняемых программных модулей на основе анализа статических позиционно-зависимых данных..........................................................................91

3.4 Оценка эффективности методики выявления потенциально вредоносных исполняемых программных модулей на основе анализа динамических низкоуровневых данных....................................................................................100

3.5 Оценка эффективности методики выявления потенциально вредоносных электронных документов на основе анализа статических структурных данных .............................................................................................................................108

3.6 Предложения по практическому применению...........................................122

Выводы по главе 3.............................................................................................126

Заключение............................................................................................................129

Словарь терминов.................................................................................................131

Список литературы...............................................................................................140

Приложение А Примеры к экспериментам по разделу 3.3.................................161

Приложение Б Примеры к экспериментам по разделу 3.4.................................164

Приложение В Примеры к экспериментам по разделу 3.5.................................171

Приложение Г Копии документов, подтверждающих внедрение......................176

Введение

Актуальность темы диссертации. Проблема своевременного выявления новых, ранее неизвестных, вредоносных программ (ВП) является одним из важнейших направлений исследований в области информационной безопасности. В силу очевидных причин, в решении данной задачи анализ файловых объектов (ФО) имеет определяющее значение. Наряду с традиционными, сигнатурными методами выявления вредоносных ФО, в последнее десятилетие активно используются эвристические подходы. Данная группа подходов опирается на формально недоказуемые правила (эвристики), чье практическое использование показало свою применимость для выявления образцов потенциально вредоносных файловых объектов (ПВФО), имеющих явное сходство с известными вредоносными ФО.

Разработка и , использование эвристических подходов продолжает оставаться объектом активных дискуссий на специализированных конференциях и в тематических изданиях. Вызвано это, в первую очередь, сложностью и изменчивостью ВП и, как следствие, их общей методологии выявления. Одним из перспективных направлений в эвристическом выявлении ПВФО является поиск устойчивых структурных и поведенческих паттернов ФО, косвенно идентифицирующих программные средства, используемые для их автоматического создания злоумышленниками. Это сопряжено с необходимостью накопления и обработки больших массивов данных, представляющих структуру и заложенный в ФО функционал с различных сторон.

Одним из способов решения задачи выделения из больших массивов данных эвристик для выявления ПВФО является использование методов интеллектуального анализа данных (ИАД). Эта концепция впервые была обозначена Кефартом и др. [82] в середине 90-х годов XX века, а исследования Столфо, Шульца и др. [129] в начале 2000-х годов задали направление дальнейших поисков в этом направлении.

Несмотря на получение в последние десять лет рядом авторских коллективов ценных результатов, данная тема продолжает оставаться объектом интенсивных исследований. В последние годы наблюдается, с одной стороны, взрывной рост количества ВП, развитие методов реализации вредоносного функционала, усложнение средств доставки ВП на атакуемые объекты, а, с другой стороны, эволюция подходов к пассивному и активному противодействию программно-аппаратными средствами защиты информации.

Перечисленные аспекты эволюции ВП обуславливают нерентабельность процессов обработки доступных массивов данных экспертами и аналитиками вручную и с использованием автоматизированных средств. Это, в свою очередь, определяет необходимость формирования новых подходов к автоматическому выявлению ПВФО с учетом требований к характеристикам точности, производительности и ресурсопотребления.

Научная задача. Разработка модельно-методического аппарата для построения систем выявления потенциально вредоносных файловых объектов, основанного на формировании с помощью интеллектуального анализа данных структурных и поведенческих признаков, свойственных программным средствам автоматического создания вредоносных программ.

Объект исследования. Вредоносные файловые объекты и современные подходы к их обнаружению и. идентификации.

Предмет исследования. Модели и методики выявления потенциально вредоносных файловых объектов на основе интеллектуального анализа данных.

Основной целью диссертационного исследования является повышение защищенности компьютерных систем за счет совершенствования процессов противодействия вредоносным программам на основе разработки новых методик, моделей и алгоритмов выявления потенциально вредоносных файловых объектов. Это обеспечивается улучшением и дополнением существующих подходов к выявлению ПВФО за счет повышения точности принятия решения и(или) снижения общей временной сложности процедур подготовки данных и выделения из них знаний. Цель исследования была достигнута на основе постановки и решения следующего логически взаимосвязанного комплекса задач:

1. Анализ современных подходов к осуществлению атак на объекты информационной инфраструктуры посредством использования ВП. Обзор основных подходов к выявлению ВП, основанных на интерпретации поведенческих данных, оценки репутации и анализе ФО.

2. Исследование существующих методов своевременного выявления вредоносных и потенциально вредоносных ФО. Анализ подходов к формированию систем их автоматического выявления.

3. Анализ и уточнение обобщенной модели процесса создания эвристических систем выявления ПВФО на основе ИАД, исследование жизненного цикла систем данного класса, формулировка их основных ограничений и требований к ним.

4. Разработка методики оценивания эффективности систем, предназначенных для выявления ПВФО на основе методов ИАД.

5. Анализ существующих моделей представления ФО и их применимости в системах эвристического обнаружения ВП на основе ИАД.

6. Расширение существующего набора моделей представления ФО и разработка на их основе методик выявления ПВФО на основе ИАД.

7. Сравнительная оценка разработанных методик и их сравнение с существующими подходами к созданию систем выявления ПВФО на основе ИАД.

Результаты, выносимые на защиту:

1. Методика выявления потенциально вредоносных исполняемых программных модулей на основе статических позиционно-зависимых данных.

2. Методика выявления потенциально вредоносных исполняемых программных модулей на основе динамических низкоуровневых данных.

3. Методика выявления потенциально вредоносных электронных документов на основе статических структурных данных.

4. Архитектура и программная реализация системы оценивания методик выявления ПВФО на основе методов ИАД.

Научная новизна исследования заключается в следующем:

1. Методика выявления потенциально вредоносных исполняемых программных модулей на основе анализа статических позиционно-зависимых данных отличается от известных направленностью на анализ произвольных блоков данных, расположенных относительно некоторой стартовой позиции. Такая особенность позволяет объединить в рамках обобщенного пространства атрибутов значения и позиции отдельных элементов в заданном участке анализируемого ФО. Другой особенностью данной методики является возможность преобразования выявленных паттернов, свойственных ПВФО, в традиционные описания сигнатур.

2. Методика выявления потенциально вредоносных исполняемых программных модулей на основе анализа динамических низкоуровневых данных основывается на выявлении средств создания, упаковки и защиты стартового кода исполняемых ФО за счет ввода процедур сбора информации о выполняемых непрерывных последовательностях инструкций (блоках трансляции). В отличие от традиционных динамических подходов к формированию поведенческого профиля приложений за счет анализа его взаимодействия с операционной системой, данная методика сфокусирована на

обобщении знаний о внутренней логике стартового кода анализируемых исполняемых объектов с обобщением на уровне отдельных непрерывных последовательностей инструкций.

3. Методика выявления потенциально вредоносных электронных документов на основе анализа статических структурных данных ориентирована на выявление структурных паттернов, свойственных программным пакетам автоматической генерации вредоносного содержимого, входящих в состав пакетов эксплуатации уязвимостей. В отличие от традиционных методов выявления вредоносных документов на базе ряда структурных и поведенческих аномалий как самого документа, так и вложенного в него кода, данная методика нацелена на быстрый анализ структурных особенностей документа без учета типовых индикаторов их потенциальной опасности.

4. Архитектура системы поддержки проведения экспериментов по оценке подходов к выявлению ВП основана на разработанных методиках и допускает проведение экспериментов по оцениванию сторонних моделей представления потенциально вредоносных файловых контейнеров за счет гибкости и расширяемости заложенных в нее моделей процессов и выбранных средств поддержки вычислений.

Обоснованность и достоверность положений, представленных в диссертационной работе, обеспечены проведением предварительного анализа результатов существующих исследований в данной предметной области. Результаты анализа использовались при формировании плана исследований и перечня необходимых на практике входных данных. Полученные практические положения не противоречат результатам актуальных работ исследовательского сообщества. Основные теоретические положения работы изложены в печатных трудах и докладах на научных конференциях.

Практическая значимость результатов исследования. Разработанные методики позволяют улучшить показатели точности и ресурсопотребления процессов автоматического эвристического выявления ВП за счет ввода новых подходов к поиску структурных и поведенческих паттернов, свойственных вредоносным ФО. Проведенные исследования позволили разработать архитектуру и прототип программного комплекса, поддерживающего операции обучения и верификации систем выявления ПВФО, построенных на основе методов ИАД. Осуществлена практическая проверка разработанных методик выявления и идентификации потенциально опасных файловых контейнеров. Ее результаты на практике показали возможность выявления набора эвристик,

основанных на идентификации структурных и поведенческих паттернов, используемых программными средствами создания ВП, и их использования для выявления ПВФО.

Реализация результатов работы. Результаты, полученные в диссертационной работе, использованы в рамках следующих научно-исследовательских работ: «Управление информацией и событиями безопасности в инфраструктурах услуг (MASSIF)», проект Седьмой рамочной программы (FP7) Европейского Сообщества, контракт № 257475, 2010-2013 гг.; «Математические модели, методы и алгоритмы проактивной защиты от вредоносного программного обеспечения в компьютерных сетях и системах», проект по программе фундаментальных исследований Отделения нанотехнологий и информационных технологий РАН «Архитектура, системные решения, программное обеспечение, стандартизация и информационная безопасность информационно-вычислительных комплексов новых поколений», 2009-2011 гг.; «Модели и методы построения и поддержки функционирования интеллектуальных адаптивных систем защиты информации, основывающиеся на моделировании поведения систем защиты, реализации верифицированных политик безопасности, оценке защищенности и проактивном мониторинге», грант РФФИ № 07-01-00547, 2007-2009 гг.; «Математические модели активного анализа уязвимостей, обнаружения вторжений и противодействия сетевым атакам в компьютерных сетях, основывающиеся на многоагентных технологиях», проект по программе фундаментальных исследований Отделения нанотехнологий и информационных технологий РАН, 2003-2008 гг. и др.

Апробация результатов работы. Основные положения и результаты диссертационной работы были представлены на следующих научных конференциях: Санкт-Петербургская Международная Конференция «Региональная Информатика» (Санкт-Петербург, 2008, 2010) [8, 29]; Санкт-Петербургская Межрегиональная Конференция «Информационная безопасность регионов России» (Санкт-Петербург, 2009, 2011) [19, 20, 28]; Общероссийская Научно-Техническая Конференция «Методы и Технические Средства Обеспечения Безопасности Информации» (Санкт-Петербург, 2009, 2010, 2011) [14, 15, 30]; Международная Конференция «Рускрипто» (Моск. область, 2009, 2010, 2011) [13, 16, 22]; IV International Workshop «Information Fusion and Geographical Information Systems» (Санкт-Петербург, 2009) [86]; Международная Научная Конференция по Проблемам Безопасности и Противодействия Терроризму (Москва, 2009, 2010) [9, 24]; ХУНТ Euromicro

International Conference on Parallel, Distributed and Network-Based Processing (Пиза, Италия, 2010) [87]; VI International Conference «Mathematical Methods, Models and Architectures for Computer Network Security» (Санкт-Петербург, 2012) [88].

Публикации. По материалам диссертационного исследования было опубликовано 25 работ, в том числе 6 статей («Системы высокой доступности» [12], «Информационные технологии и вычислительные системы» [11], «Проблемы информационной безопасности. Компьютерные системы» [23], «Известия вузов. Приборостроение» [18] и «Труды СПИИРАН» [21, 26]) в ведущих периодических изданиях перечня ВАК на соискание ученой степени доктора и кандидата наук [34].

Структура и объем диссертационной работы. Диссертационная работа включает введение, три главы, заключение, словарь терминов и список литературы (1