автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Исследование и разработка методов и алгоритмов стеганографического анализа отдельных контейнеров и их связанных наборов

кандидата технических наук
Елисеев, Алексей Сергеевич
город
Ростов-на-Дону
год
2013
специальность ВАК РФ
05.13.19
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка методов и алгоритмов стеганографического анализа отдельных контейнеров и их связанных наборов»

Автореферат диссертации по теме "Исследование и разработка методов и алгоритмов стеганографического анализа отдельных контейнеров и их связанных наборов"

На правах рукописи 005058482

Елисеев Алексей Сергеевич

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ СТЕГАНОГРАФИЧЕСКОГО АНАЛИЗА ОТДЕЛЬНЫХ КОНТЕЙНЕРОВ И ИХ СВЯЗАННЫХ НАБОРОВ

Специальность 05.13.19 - «Методы и системы защиты информации, информационная безопасность»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

1 - т 2013

Ростов-на-Дону - 2013

005058482

Работа выполнена в Федеральном государственном автономном научном учреждении "Научно-исследовательский институт "Специализированные вычислительные устройства защиты и автоматика" (ФГАНУ НИИ "Спецвузавтомагика"), г. Ростов-на-Дону.

Научный руководитель:

Доктор физико-математических наук, доцент Гуфан Александр Юрьевич.

Официальные оппоненты:

1. Тищенко Евгений Николаевич, доктор экономических наук, доцент, Ростовский государственный экономический университет, заведующий кафедрой.

2. Федоров Владимир Михайлович, кандидат физико-математических наук, Технологический институт Южного федерального университета в г. Таганроге, доцент.

Ведущая организация:

Донской государственный технический университет, г. Ростов-на-Дону.

Защита состоится «31» мая 2013г. в 14:20 на заседании диссертационного совета Д 212.208.25 Южного федерального университета по адресу: 347928, Ростовская область, г. Таганрог, ул. Чехова, 2, ауд. И-409.

С диссертацией можно ознакомиться в Зональной научной библиотеке Южного федерального университета по адресу: 344007, г. Ростов-на-Дону, ул. Пушкинская, 148.

Автореферат разослан « » апреля 2013 г.

Ученый секретарь диссертационного совета

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования.

На сегодняшний день в сети Интернет имеется большое количество свободно распространяемых программ, позволяющих осуществлять стеганографическое сокрытие данных в различных типах контейнеров. Данные программы очень легко доступны и применять их может любой.

Такое развитие области скрытой передачи данных, а также легкая доступность стеганографического программного обеспечения привела к появлению нового канала несанкционированного распространения информации, который весьма трудно пресечь. Необходимость защиты различных информационных систем (например, локальных сетей коммерческих предприятий и государственных учреждений) от внутренних угроз, таких как утечки конфиденциальных данных, была очевидна на всех этапах развития средств информационной безопасности. Однако первоначально внешние угрозы считались более опасными. В последние годы на внутренние угрозы стали обращать больше внимания и необходимость использования соответствующих средств защиты стала упоминаться в стандартах и нормативных документах (например, раздел "12.5.4 Утечка информации" в стандарте ГОСТ ISO/IEC 17799-2005). Существуют различные решения для защиты сети предприятия или организации от утечки из нее конфиденциальной информации, не обрывающие при этом необходимые для работы предприятия коммуникации. Данный класс решений получил название DLP (Data Leakage Prevention, Предотвращение утечек данных). Системы, относящиеся к этому классу, перехватывают весь трафик, выходящий за пределы сети предприятия, и сканируют его на наличие в нем конфиденциальных данных. Кроме того, они сканируют всю информацию, записываемую пользователями сети на съемные носители при помощи их рабочих станций. Известные представители данного класса - Websense DSS, SecurIT Zgate и Zlock, Дозор Джет, InfoWatch Traffic Monitor, Symantec DLP. На сегодняшний день подобные системы способны отследить конфиденциальную информацию, передаваемую в открытом или слабо скрытом (например, заархивированном) виде. Они также способны пресечь передачу зашифрованных данных, в которых может содержаться конфиденциальная информация. Однако стеганографические программные средства дают внутренним нарушителям, передающим конфиднециаль-ные данные за пределы сети предприятия, способ преодоления этих систем. Этот способ заключается в сокрытии конфиденциальных данных в широко распространенных и не запрещенных к передаче контейнерах, таких как графические изображения или аудио-файлы.

В настоящее время для борьбы с описанным скрытым каналом утечки данных большинство DLP-систем запрещают установку известных стеганографиче-ских программных средств на рабочие станции пользователей. При этом такие программные средства обычно определяются по известным контрольным суммам или хеш-значениям, вычисляемым по их файлам. Однако, учитывая полиморфизм,

присущий современному программному обеспечению, а также легкость реализации по крайней мере примитивных методов сокрытия, вряд ли можно считать такой метод борьбы со стеганографическими каналами утечки надежным. Куда более перспективным выглядит применение методов и алгоритмов стеганографиче-ского анализа, которому должны подвергаться данные, выходящие за пределы защищаемой сети. Однако в настоящее время большинство распространенных версий систем защиты от утечек либо вообще не включают в свой состав модуль сте-ганографического анализа, либо данный модуль поставляется с ними в деактиви-рованном состоянии. Такое положение дел, судя по всему, объясняется слишком большим числом ошибок (в том числе большим числом ложных срабатываний), возникающих при активации или включении данных модулей.

Вместе с тем, сам факт того, что разработчики БЬР-систем начинают уделять внимание решению задачи пресечения стеганографического канала утечки конфиденциальных данных, говорит о все большем распространении данного канала. О нем же косвенно говорят и данные, публикуемые как самими разработчиками систем данного класса, так и службами мониторинга утечек персональных данных. Так, по данным 1пГо\Уа1сЬ в 2008 году, канал утечки не был определен примерно для 13% всех зафиксированных инцидентов утечек. Тгш^ауе сообщает о том, что в 2011 и 2012 годах более 14% случаев утечек данных вообще не были раскрыты. Поскольку задача стеганографии как раз и состоит в сокрытии самого факта передачи информации, то в таких случаях данная задача была успешно решена злоумышленниками. Все это говорит о том, что уже сейчас хорошей БЬР-системе необходимо применять методы и алгоритмы стеганографического анализа, от развития которых тем самым, непосредственно зависит эффективность данной системы и ее ценность для потребителей, а также защищенность сети организации от инсайдеров. Поэтому можно сделать вывод о крайней актуальности задачи повышения эффективности обнаружения различных типов сокрытий.

Объектом исследования являются методы сокрытия информации в контейнерах, представляющих собой оцифрованный сигнал естественного происхождения, а также методы выявления наличия сокрытой в таких контейнерах информации.

Предметом исследования являются методы оценки стойкости стеганогра-фических систем, стеганосистемы, основанные на перестановках элементов пространства сокрытия, различные характеристики связанных множеств контейнеров.

Целью работы является разработка методов и средств защиты информации от внешних и внутренних угроз хищения в процессе ее хранения, обработки и передачи, характеризующихся меньшим числом ошибок при выявлении стеганогра-фических вложений, основанных на перестановках элементов пространства сокрытия, а также вложений малого объема.

В соответствии с поставленной целью в работе производится аналитический обзор существующих методов сокрытия информации и методов выявления сокры-

той информации. По его результатам были сформулированы следующие задачи исследования, решение которых необходимо для достижения поставленной цели.

1. Разработка направленного метода стеганографического анализа сокрытий, основанных на перестановках элементов пространства сокрытия.

2. Разработка методов анализа не только одиночных контейнеров, но и последовательностей контейнеров, связанных единым происхождением, и методов противодействия угрозам нарушения информационной безопасности путем идентификации и классификации пользователей, осуществляющих сокрытие.

3. Разработка и реализация программного средства стеганографического анализа, реализующего предложенные методы, а также пригодного для противодействия угрозам хищения информации и нарушения информационной безопасности для различного вида объектов защиты.

Методы исследования основаны на использовании теории вероятности, статистики, теории статистической проверки гипотез, цифровой обработке сигналов, теории информации, теории проектирования и программирования модульных программных комплексов, математическом и программном моделировании.

На защиту выносятся следующие основные положения.

1. Метод стеганографического анализа, использующий статистики, собранные по смежным группам элементов пространства сокрытия, и основанный на сравнении частот встречаемости различных перестановок элементов пространства сокрытия позволяет решить задачу выявления сокрытий, основанных на перестановках смежных элементов контейнера, в контейнерах различных типов.

2. Алгоритм выявления наличия стеганографических вложений, осуществленных при помощи перестановок яркостей смежных точек в полутоновых изображениях, хранящихся в форматах без потерь, позволяет достичь уровня ошибок первого и второго рода ниже 15%, а также настраивать соотношение уровней ошибок при помощи модификации параметров.

3. Методика стеганографического анализа, основанная на совместном рассмотрении набора контейнеров, связанных единым происхождением, позволяет выявлять факт использования стеганографических средств при создании данного набора в том числе и при малой плотности сокрытия в каждом отдельно взятом контейнере.

4. Метод анализа наборов контейнеров, использующий оптимальный выбор базовой точки 1ЮС-кривой базового метода, позволяет при определенных условиях на распределения базового метода при любой ненулевой ошибке первого рода сделать ошибку второго рода как угодно близкой к нулю путем повышения числа контейнеров в анализируемом наборе.

Научная новизна работы заключается в следующем.

- Выявлена и впервые доказана связь между свойствами стеганографических систем сохранять статистики контейнера, собранные по группам элементов пространства сокрытия различного размера.

- Предложен новый метод выявления сокрытий, основанных на перестановках пространства сокрытия, который можно рассматривать как обобщение метода анализа пар частот встречаемости элементов контейнера.

- На основе нового обобщения анализа пар частот встречаемости впервые разработан алгоритм выявления стеганографических вложений, основанных на перестановках элементов пространства сокрытия, применимый к широкому классу форматов контейнеров, а не только к изображениям в формате JPEG.

- Предложен подход к анализу вложений малых плотностей, отличающийся тем, что анализу подвергается не каждый контейнер в отдельности, а множество контейнеров связанных общим происхождением (от одного источника).

- Предложены и проанализированы новые методы выявления наборов взаимосвязанных контейнеров, содержащих сокрытия, которые могут строиться как на основе базовых методов анализа отдельных контейнеров, выдающих лишь битовый ответ на вопрос о наличии вложения в контейнере, так и на основе базовых методов, выдающих значение некоторой статистики контейнера.

Практическая ценность исследования заключается в следующем.

- Применение разработанного метода на основе использования статистик, собранных по целым группам элементов пространства сокрытия, дает возможность повысить эффективность выявления сокрытий, основанных на перестановках элементов пространства сокрытия, в растровых графических изображениях, хранящихся в пространственной области (попиксельно), а также цифровых аудиозаписях, хранящихся отсчетами амплитуды.

- Практическую ценность представляет тот факт, что для противостояния предложенному подходу к анализу наборов контейнеров, необходимо многократно увеличить объем передаваемых данных, разбавив заполненные контейнеры пустыми, вследствие чего значительно снижается относительное количество данных, которые можно передать скрытно, не вызвав подозрений.

- Практическую ценность для разработчика стеганографических систем имеет знание того, что утверждение о стойкости метода перестановок элементов пространства сокрытия опровергнуто в том числе и для форматов контейнеров, отличных от JPEG-изображений.

Обоснованность и достоверность полученных результатов вытекает из математической формулировки и обоснования выявленных связей и свойств, подтверждается проведенным программным моделированием и результатами экспериментов с программной реализацией предложенных методов и синтезированных алгоритмов.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Девятом Всероссийском симпозиуме по прикладной и промышленной математике (Весенняя сессия, Кисловодск, 1-8 мая 2008 г.), Международной межвузовской научно-практической конференции "Инфоком-2008" (Ростов-на-Дону, 6-7 мая 2008 г.), Седьмой Международной Петрозаводской конференции "Вероятностные методы в дискретной математике" (Петрозаводск, 1-6

июня 2008 г.), Третьей Отраслевой научно-технической конференции-форуме "Технологии информационного общества" (МТУСИ, Москва, 18-20 марта 2009 г.), Девятой международной научно-практической конференция "Моделирование, теория методы и средства" (Новочеркасск, апрель 2009 г.), Седьмой Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых "Молодежь XXI века - будущее российской науки" (ЮФУ, Ростов-на-Дону, 18-21 мая 2009), Первой всероссийской молодежной конференции по проблемам информационной безопасности "Перспектива - 2009" (ТТИ ЮФУ, Таганрог, 22-26 июня 2009 г.), XXXVII международной конференции и дискуссионном научном клубе "Информационные технологии в науке, образовании, телекоммуникации и бизнесе" ("Information Technologies in Science, Education, Telecommunication and Business", IT+SE'10, Ялта, май 2010 г.), XI Международной научно-практической конференции "Информационная безопасность" (Таганрог, 2010), Международной заочной научно-практической конференции "Вопросы образования и науки: теоретический и методический аспекты" (Тамбов, 30 апреля 2012г.).

Публикации. По теме диссертации опубликовано 10 научных работ, из них 4 статьи в журналах из "Перечня ведущих рецензируемых научных журналов и изданий" ВАК и 2 статьи в других научных журналах, зарегистрировано 1 свидетельство об официальной регистрации программы для ЭВМ.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 169 страниц и включает 45 рисунков, 2 таблицы. Список литературы состоит из 87 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении рассматривается актуальность и практическая значимость темы, сформулирован объект, предмет, цель работы, решаемые в ней задачи, определена научная новизна и практическая ценность выносимых на защиту положений, изложено краткое содержание всех глав работы.

В первой главе представлен обзор существующих методов внедрения скрытой информации и методов выявления наличия скрытой информации в контейнерах, представляющих собой оцифрованный сигнал.

Первая часть главы посвящена формализации базовых понятий стеганографии и стеганографического анализа. Выделены два основных класса моделей противника, принятых при разработке стеганосистем: модели пассивного противника (стеганоаналитика) и модели активного противника.

Основное внимание уделено модели пассивного противника и стойкости стеганосистемы. Введено понятие ошибок первого и второго рода. Подробно рассмотрен один из распространенных подходов к строгому определению стойкости стеганосистемы - теоретико-информационный подход (К. Кэчин).

Содержание второй части главы составляет обзор существующих методов сокрытия и стеганоанализа. Приведена классификация скрытых каналов на каналы по времени и каналы по памяти, а каналов по памяти - на форматные и неформат-

ные. Для неформатных методов введено понятие пространства сокрытия - множества элементов контейнера, модификация которых является средством кодирования скрываемого сообщения при рассматриваемом методе сокрытия.

Методы стеганоанализа разделены на форматные, сигнатурные и статистические. Среди статистических выделены направленные методы и методы анализа без априорного знания (blind, zero-knowledge analyses). При разработке направленных методов предполагается, что все детали исследуемого алгоритма сокрытия известны, но неизвестен стеганографический ключ. При разработке же метода анализа без априорного знания метод сокрытия неизвестен, требуется выявить контейнеры, маловероятные с учетом имеющихся данных о пустых контейнерах..

Описан метод замены наименее значащих битов отсчетов и некоторые его модификации. Приведен метод гистограммной атаки ("х2") на такие сокрытия. Также описан вариант одной из наиболее эффективных атак на такие сокрытия -метод анализа пар значений ("SPA"). Приведен краткий обзор методов выявления сокрытий модуляцией наименее значащих битов ("LSB-Matching").

Представлен способ визуализации методов стеганоанализа при помощи ROC-кривых. Введены сопутствующие понятия. Представлены ROC-кривые эффективности метода анализа пар значений для различных плотностей сокрытия (построенные по выборке из около 8000 цветных изображений).

Сделан вывод о том, что современное состояние методов стеганоанализа таково, что многие методы сокрытия достаточно хорошо поддаются выявлению, даже при средних, а иногда и малых плотностях сокрытия. Данный факт вынуждает выбрать один из следующих путей для организации скрытой передачи данных:

- использовать те методы сокрытия, которые все еще плохо поддаются выявлению, например скрывать перестановками элементов пространства сокрытия;

- использовать совсем малые плотности сокрытия, выявление которых проблематично.

Также показано, что второй путь приводит к появлению скрытого канала, который состоит в передаче большого числа мало заполненных контейнеров, и что для выявления подобного канала необходимо научиться анализировать все передаваемые контейнеры не по отдельности, а как единую совокупность.

Вторая глава посвящена формализации и выявлению недостатков распространенного практического подхода к оценке стойкости стеганосистем безотносительно методов и средств, доступных аналитику, а также разработке метода направленного анализа контейнеров, метод заполнения которых основан на перестановках элементов пространства сокрытия.

Первая часть главы начинается с формализации задач стеганографии и стеганоанализа. В подавляющем большинстве случаев практического применения стеганосистем приемник контейнера должен быть способен проверить (при помощи ключа), какой контейнер принят, пустой или заполненный. Способность приемника извлечь сокрытую информацию и удостовериться в ее подлинности может быть формализована следующим образом. Если В - множество всех возможных

контейнеров, К — множество всех возможных ключей, то должен существовать двухместный предикат R: В х К -> {0,1} такой, что b е Im, F <=> R(b,k) = 1, где Im, F = {bs В \ 3Ь0 е В,т е М :b = F(m,ba,k)}, М - множество всех возможных сообщений, F: {(m,b,k) е МхВхК \G(m,b,k) = \) —> В - функция сокрытия, G\ МхВхК-^>{0,1} - предикат определения пригодности для сокрытия. Если считать множество всех заполненных контейнеров L языком над некоторым алфавитом А, то принадлежность слова (контейнера) b языку L эквивалентна: beL<z>3k<=K:R(b,k) = l (т.к. L = (Jlmtf).

keK

Или, в более практичном виде: для заранее заданного малого положительного s для языка L над алфавитом А и множества ключей К существует такой Я: Я х К-» {0,1}, что belmkF=>R(b,k) = l и P{R(b,k) = lAbelmkF}<£, где Р обозначает вероятностную меру на множестве ВхК.

Условие стойкости тогда выглядит следующим образом: при известном алгоритме сокрытия и неизвестном ключе решение задачи отыскания состоятельной последовательности статистических критериев для проверки гипотезы о пустоте стеганоконтейнера должно быть эквивалентно решению задачи, признанной сложной. Условие же необходимости ключа состоит в том, что для некоторых заранее заданных малых положительных Ss2 3, VC/: В —> {0,1} такого, что УкеКУЬеВ: P{U(b) = 01 R(b,к) = 1} <5,,P{U(b) = 11 R(b,к) = 0} <S2 имеется выполнимый алгоритм Q такой, что Vk е K,Vb е В: P{Q(U,b) = к | R(b,к ) = 1} > 1 - S3.

Далее показано, что на практике наблюдается иерархия стеганосистем по уровню стойкости. При этом распространенным подходом к оценке стеганосистем является подход, основанный на сравнении порядка сохраняемых ею статистик.

Под статистикой порядка I в данной работе понимается такая статистика, собранная по элементам пространства сокрытия контейнера, которая использует лишь значения гистограмм порядков не выше /. При этом первоначально гистограммой порядка / контейнера с пространством сокрытия Х = {х,}"ш1,х, еЛ, называется гистограмма, собранная по контейнеру для всевозможных 1-к элементов пространства сокрытия:

Н, (X) = {(ah ...ah, л ): 1 < j\,..., j, <| Л |,

'>,...j, H U -A<i<\X\-l + U,. = ah ,..., = aA } |}' При этом, если i e А', то через Н, [s] будем обозначать то значение h, которое соответствует слову i: Н, [s] = h <=> (s, h)<=H,.

В качестве меру близости двух гистограмм одинакового порядка d(H), Н? ) выберем метрику Хемминга, т.е. будем различать совпадающие и не совпадающие гистограммы. Для стеганосистемы с функцией сокрытия F введем показатели: Д, (/,</) = max d(H,,//,'), где Н, = Н, (X), Н\ = Н, (F(X, к, т)).

AsL(A).KeK,niGM

В диссертации приведен пример, демонстрирующий, что из сохранения сте-ганосистемой определенной таким образом гистограммы порядка / не следует сохранение ею гистограммы порядка / — 1. Доказано следующее утверждение.

Если Ар+1 (/,£/) = 0, то либо Нр = Н'р, либо

1) 35 с А" :| S |= 2, Vi е S | [s] - #; [s] |= 1

2)\/SeSHp[s] = H'p[s]

Предложен способ преодоления данного эффекта, основанный на изменении способа вычисления высот столбцов гистограмм: гистограммой порядка I сигнала Хтд алфавитом А назовем:

Н,(Х) = {(a. ...a. ,h. h ) : 1 < у,,..., j, <\ А |,

K-J, =1 : 1 - ' ^ х I' = ан '•••' Wd««,^. = aj, Л = i-1} 1}

При таком определении гистограммы стеганосистемы естественным образом разделяются на классы стойкости по признаку сохранения гистограмм различных порядков. Обозначим эти классы НРр (р - максимальный порядок сохраняемой гистограммы). Имеет место иерархия: НР0 э НР1 ^ НР2 ^....

Преимущество такого разбиения на классы заключается в его независимости от алгоритмов, которыми может пользоваться стеганоаналитик, что позволяет оценить стойкость стеганосистемы безотносительно стеганоаналитика. Однако это преимущество является также и главным недостатком. А именно, такая иерархия не соответствует в точности иерархии сложности прикладного стеганоанализа. В этом можно убедиться на конкретных примерах. Так, метод «Exploit PSP» [Böhme R., Westfeld A. Exploiting Preserved Statistics for Steganalysis // Fridrich J. Information Hiding. 6-rd International Workshop, LNCS 3200, Springer-Verlag, 2004, pp. 82-96] дает лучшие результаты при атаке на систему «PSP» [Franz, Е. Steganography Preserving Statistical Properties // Petitcolas F.A.P. Information Hiding. 5-th International Workshop, LNCS 2575, Springer-Verlag, 2003, pp. 278-290], принадлежащей классу HP,, чем метод « x2 » при атаке на стеганосистемы «J-Steg» и F5 [Westfeld A. High Capacity Despite Better Steganalysis (F5 - A Steganographic Algorithm) // Moscowitz I.S. Information Hiding. 4-th International Workshop, LNCS 2137, Springer-Verlag, 2001, pp. 289-30], которые можно отнести лишь к НР0. Кроме того, многие авторы многоцелевых стеганоаналитических систем (Farid, Fridrich) отмечают, что методы, предусматривающие компенсацию статистик первого порядка, гораздо более уязвимы для их систем, чем методы, искажающие гистограмму частот.

В конце первой части главы сделан вывод о том, что современный уровень развития стеганографии позволяет построить стеганосистему, стойкую по отношению к любому заранее заданному методу стеганоанализа, а иногда и к набору методов. Поэтому для эффективного анализа необходимо использовать методы, не учтенные при проектировании системы. Это могут быть методы, основанные на использовании более сложной статистики, либо методы, прилагаемые к иному

объекту. Оба эти подхода продемонстрированы в последующих разделах диссертации.

Во второй части главы представлена разработка метода направленного анализа контейнеров, метод заполнения которых основан на перестановках элементов пространства сокрытия. Глава начинается с описания конкретной стеганосистемы, представленной в работах [Елтышева Е.Ю., Фионов А.Н. Построение стегосистем для изображений с помощью перестановок // Материалы XI международной научно-практической конференции "Информационная безопасность". Ч. 3. - Таганрог: Изд-во ТТИ ЮФУ, 2010, стр. 40-44], [Мерзлякова Е.Ю. Построение стеганографи-ческих систем для растровых изображений, базирующихся на теоретико-информационных принципах: Диссертация на соискание ученной степени кандидата технических наук: Новосибирск, 2011. - 161 е.]. Данная система используется в качестве иллюстрации. Метод сокрытия состоит в следующем. Будем для простоты рассматривать лишь изображения с одной компонентой цветности (назовем ее яркостью). Будем считать, что всего имеется р уровней яркости и обозначим их множество А = Назовем это множество алфавитом, а) - буквами, а цепоч-

ки ак...аи е А* - словами длины к. Тогда изображение является словом над А: X = е А, где т =| X \ — число точек в изображении X. В основе исследуе-

мой системы лежит разбиение пространства сокрытия на группы из п близлежащих точек. Группа g, состоящая из п точек, представляет собой слово длиной п над алфавитом А: % = хк ...х1 . Анализируемая стеганосистема предполагает выбор

среди всех получившихся групп тех, в которых яркость точек отличается, но не сильнее, чем на с!. Подлежащие сокрытию данные кодируются при помощи перестановок элементов выбранных групп. Каждая группа может скрывать до 1ой2 и! битов. Данная система принадлежит классу НР1. По результатам, полученным авторами данной стеганосистемы, наилучшие с точки зрения скрытности и стегано-графической емкости результаты получаются при использовании групп, состоящих из п = 3 точек.

При наличии в группе точек с одинаковой яркостью, число различимых состояний группы снижается до у(^) = и!/(«1!-...-и1!), где и, + ... + пк = и; и. -количество ¿-х элементов в группе. Обозначим через X' цепочку пригодных для сокрытия групп: X' = , \Х'\ = ц. Разобьем X' на непересекающиеся части:

1=2

На множестве всевозможных групп длины п введем отношение эквивалентности: две группы связаны этим отношением, если одна из них может быть получена из другой при помощи перестановки. Фактор-множества 5/, г = 1,..., г по введенному отношению будем называть корзинами. Верхний индекс - число различных групп внутри множества, т.е. корзина 5/ состоит из / групп. Перенумеруем

корзины в соответствии с числом различных групп в них: , г = 1,..., гп I = 2,..., и!.

Ненормированную гистограмму порядка п рассматриваемого изображения будем строить лишь по той его части, которая входит в пригодные для сокрытия группы, учитывая разбиение на группы:

В диссертации отмечено, что поскольку при сокрытии на вход подается последовательность битов, полученная при шифровании и потому имеющая псевдослучайный характер, то на выходе перестановки будут появляться с примерно одинаковыми частотами. На этом факте основан предлагаемый метод анализа: для проверки наличия сокрытия необходимо оценить близость частот групп, принадлежащих каждой из корзин. Для этого в каждой корзине произвольно выберем базовую группу. Группу, полученную из базовой при помощи перестановки с номером j обозначим через (5,'). Теперь для каждого /, такого что Х\ Ф 0, можно рассмотреть / дискретных случайных величин ¿¡', 1 < ] <1, определенных на множестве целых чисел от 1 до г,:

= 0=я.вд'я/ »•=1,..., п.

/ *-1

В случае наличия в изображении сокрытия, распределения всех случайных величин, соответствующих одному и тому же значению I, должны быть сходны с распределением случайной величины , задаваемой как среднее арифметическое

значений гистограммы порядка п на всех группах из 5/:

р« = о=2хы/1:хяп ы, *=1,.., ^.

g<¡S'l / »-1

Для проверки схожести распределений с распределением воспользуемся каким-либо критерием согласия. В результате очередного применения критерия согласия получим уровень р'. е[0;1] достоверности гипотезы о совпадении распределений случайных величин. Для получения результирующего значения уровня достоверности гипотезы о наличии сокрытия необходимо объединить величины р\. Результирующий уровень значимости должен быть тем больше, чем больше каждое из значений р\. Далее в главе предложено наглядное графическое представление предлагаемого метода анализа при помощи так называемых узоров перестановок.

В конце главы рассмотрены некоторые обобщения разработанного метода анализа.

Третья глава посвящена вопросу о повышении точности стеганоанализа в случае, когда аналитик получает доступ к большому числу взаимосвязанных контейнеров, например, полученных из одного и того же источника (возможно с малой плотностью сокрытия данных в каждом из них).

Часто имеет место ситуация, когда для некоторой стеганосистемы существует метод анализа, позволяющий различать пустые и заполненные контейнеры формально лучше, чем случайным образом. При этом, однако, происходит столько ошибок как первого, так и второго рода, что этот метод оказывается неприменимым на практике для анализа каждого отдельного контейнера. Центральная идея данной главы состоит в том, чтобы переместить фокус внимания с единичных информационных объектов на их наборы и рассматривать совокупности информационных объектов, полученных из одного источника, например с одного и того же адреса электронной почты. При применении базового метода анализа отдельных контейнеров ко всем контейнерам исследуемой совокупности отклонение относительного количества «срабатываний» базового метода анализа отдельных контейнеров от расчетной вероятности ошибки первого рода достоверно дискредитирует источник набора контейнеров.

Пусть п — объем совокупности контейнеров, к и - выявленное методом анализа отдельных контейнеров и настоящее число стеганоконтейнеров, а и /3 — вероятности ошибок первого и второго рода соответственно для метода анализа отдельных контейнеров, х = п^/п,Рэкг1 =к!п. Тогда в среднем:

Р1Кт = (1 - Р)х + а{ 1 -х) = х(1 ~(а + /3)) + а. Поэтому в целом, при наблюдаемой плотности срабатываний Рзка, относительное количество стеганоконтейнеров: х—п_>т >(Рт„ ~а)/(\-а-Р). Показано, что вероятность получить к срабаты-

т= I

ЫВк{пт п

k — i

a'(l — a)"-

где Вк(петр,nSKg) = [max{0;к-nsleg},vcm{nemp,£}].

Вывод о наличии или отсутствии заполненных контейнеров в исследуемом множестве делается следующим образом. Рассмотрим случайное число срабатываний базового метода анализа U: В —> {0,1} (где В - множество всевозможных контейнеров) на совокупности из п контейнеров С[,..., с„: f = ^£/(с,). Рассмотрим

/-1

две гипотезы относительно совокупности контейнеров. Основная гипотеза Н0 состоит в том, что все контейнеры совокупности являются пустыми. Альтернативная гипотеза Нг — в том, что среди п контейнеров пг являются заполненными, а остальные — пустыми. Если совокупность удовлетворяет Н0, ТО 40 = 4 ~ «) ~ N(na,па( 1 — а)), если же она удовлетворят Нг, то 4, = 4 ~ Bi(n{ 1 - г), а)+ Bi(nr,\ -/?)« « N(n(l - r)a, п( 1 - r)a{\ - а))+ N{nr{ 1 - ß), nrß(\ - ß)) = = N(n(l - r)a + nr(\ - ß), n{ 1 - r)a{ 1 - a) + nrß(\ - ß)) M4r = n( 1 - r)a + nr(l - ß) = na- nra + nr — nrß = na + nr(l - a- ß)>na = M40

Окончательное решение по всей совокупности принимается на основе порогового значения для вычисленного на исследуемой совокупности значения величины . При этом значение порога выбирается в зависимости от требований к методу анализа. Например, если необходимо при заданной максимальной плотности ошибок первого рода при классификации источника А, минимизировать ошибку второго рода В, то пороговое значение должно совпадать с (1-А)-квантил ем распределения

Уравнение ЯОС-кривой анализа источника совокупности контейнеров можно записать в виде:

На рисунке 1 такие кривые изображены при а = 0.3, р = 0.5, п = 50 и различных частотах г использования средств сокрытия. Из рисунка видно, что представленный подход позволяет значительно увеличить точность классификации наборов контейнеров (а следовательно и их источников) относительно точности классификации отдельных контейнеров базовым методом. Аналогичные ЯОС-кривые, построенные для различных значений параметров, также показывают, что точность анализа источников растет с ростом точности базовых методов.

\-Р 1 1 -В

0,8 0,6 0,4 0,2 0

0 0,2 0,4 0,6 0,8 1

Рисунок 1. ЯОС-кривые классификации источника числом срабатываний базового метода с параметрами а = 0.3, Р = 0.5, л = 50

На рисунке 2 представлен график зависимости площади под ЯОС-кривой от объема исследуемой выборки для нескольких базовых методов. Из рисунка видно, что из одинаковых по точности базовых методов выгоднее использовать более специфичные (менее чувствительные, т.е. которые создают меньше ложных тревог, но чаще пропускают заполненные контейнеры), особенно в случае выборок малых объемов.

Базовый метод г = 0.1

----г = 0.2

---г = 0.4

---г = 0.6 «

--г = 0.9 А

0,6

0 50 100 150 200 250 300 350 400 450

Рисунок 2. Зависимость площади под ЯОС-кривой от п при г = 0.2

В развитие идеи анализа множества контейнеров как целого, разработан несколько иной подход, основанный на рассмотрении базового метода не как "черного ящика", а учете его собственное устройства - вычисления некоторой статистики и формирования ответа в зависимости от результата вычислений. Исходными данными для анализа при этом оказываются наборы характеристик этой статистики, вычисленной для различных контейнеров. В качестве интегральной статистики, позволяющей отличать наборы контейнеров, при создании которых их источники вообще не использовали сокрытие, от наборов, источники которых использовали его с некоторой минимальной частотой г, возьмем среднее выдаваемых базовым методом значений статистики:

п „1

где 77, - случайное значение статистики на г'-том контейнере.

Пусть 7° распределение базовой статистики на пустых контейнерах, а 771 -на заполненных. Обозначим: Мт}° = ¿10,От]" = ст2, А/771 = //,, £>77' = <т,2 и дополнительно потребуем, чтобы: е < ст02 < с», е < сг* < оо, где е > 0.

В случае Н0 имеем: 77,. ~Т]" ,\<1< п. В силу сделанных предположений, выполняются условия теоремы Леви, из которой следует, что величины 77. удовлетворяют центральной предельной теореме, т.е.:

л

Р=1

(=1

■>^(0,1).

При больших п можно приближенно полагать, что

>N( 0,1).

ст04п

Обозначим распределение случайной величины Е, в случае, когда верной является гипотеза На через . Тогда имеем:

~г'а = ^Уг * #(0,1), поэтому ^ « м(Мо Д СГ0л/и сг0/л/и ^ п

Рассуждая аналогично в случае Нг получаем:

а-г^+г^л -—L

п

Ошибку первого рода А при анализе набора контейнеров дает порог р,_А, который в данном случае можно вычислить следующим образом:

Рг-А = ф"1 (1 - А) • ^ + //„ = ег/-1 (1 - 2А) • <т0 - + и,.

ЯОС-кривая /?(А) определяется следующим образом:

У'(1-А)-су0+У^(//0-/О

R(A) = 1- В = 1- Ф

агЫп

Заметим, что выражение для порога принятия решения и аналитическое уравнение ROC-кривой зависят лишь от мат. ожидания и дисперсии распределений базовой статистики на пустых и заполненных контейнерах, т.е. нет необходимости знать всю функцию распределения целиком.

Также доказано следующее утверждение. Если е <<т1 < со, е <а\ < °о (где s > 0), /л0 ф и г > 0 (т.е. /л0 * /лг), то А Ф 0 => В—п->о0 >0. Т.е. при соблюдении необременительных условий на распределения базовых статистик разработанный метод анализа позволяет путем повышения числа контейнеров при любой ненулевой ошибке первого рода сделать ошибку второго рода как угодно малой.

В случае же известных распределений статистик базового метода можно построить ROC-кривую базового метода v(a), 0 < а < 1. Любую точку на ней можно рассматривать как базовый метод, про который известны лишь частоты ошибок. Для того, чтобы найти оптимальную точку ROC-кривой с точки зрения минимизации частот ошибок второго рода В при анализе наборов контейнеров, необходимо решить следующую оптимизационную задачу:

^ (А) =

д/( 1 - r)a{ 1 - а) + rv(«Xl - v(a))

s <а <1-£, е< v(a) <\-s.

Можно также сравнить оптимальное значение лг^'(А) целевой функции

данной задачи с тем, что получается при использовании подхода с усреднением, объединив при этом два рассмотренных выше подхода:

.(») / л ^ _ Ф~' ^ ■- ЛК

^/(1 -г)ст;+гагх

Если х'*' (А) < х,ср) (А), то целесообразно применять первый подход, используя точку базовой 1ЮС-кривой, данную решением представленной оптимизационной задачи. В противном случае целесообразно применять второй подход с усреднением базовой статистики. Соответствующая такому объединению подходов ЯОС-кривая задается соотношением Л(А) = 1 - Ф(ггап{х'^ (А), х<ср) (А)}).

Таким образом, разработан новый подход к стеганографическому анализу, отличающийся тем, что рассматриваются не отдельные контейнеры, а множество контейнеров, связанных общим происхождением. Разработаны методы анализа наборов контейнеров (а следовательно и их источников) для трех видов базовых методов анализа отдельных контейнеров, а именно для таких, для которых известны лишь частоты ошибок базового метода; для которых известны мат. ожидания и дисперсии базовых статистик; а также таких, для которых известны полностью распределения базовых статистик. Установлены условия повышения точности разработанных методов анализа.

В четвертой главе исследованы особенности практического применения разработанных во второй и третьей главах методов и подходов, представлены результаты экспериментальных исследований программных реализаций полученных на их основе алгоритмов.

В первой части главы построен практический алгоритм анализа сокрытий, основанных на перестановках элементов пространства сокрытия. На практике применение предложенного во второй главе метода затруднено тем, что количество замкнутых групп очень велико и подавляющее большинство корзин остаются пустыми или заполненными незначительно, что вызывает трудности на этапе применения критериев согласия. Чтобы преодолеть эту проблему предлагается осуществлять отсев групп корзин, частота встречаемости которых меньше некоторого порога t. А именно, при применении критерия согласия для получения значения р'] предлагается учитывать только такие пары групп, средняя частота встречаемости я'. которых превосходит /:

, _1(

= 2

#„[*,№')]+7

Была проведена серия экспериментов, нацеленных на поиск наилучшего порога I и наилучшего способа объединения значений р', полученных в результате применений критерия согласия Пирсона. Эксперименты производились над кол-

лекцией, состоящей из более, чем 8000 изображений, полученных из JPEG-фотографий большого размера (от 1280x1024 до 4000x3000) с показателем качества JPEG близким к 90%. Наилучший из опробованных методов объединения значений p'j, I = 3,6, j = 1,..., I состоит в следующем. Для каждого из этих значений

был введен дополнительный показатель Sj :

J [О, иначе

и объединение значений // для получения результирующего уровня достоверности Т основной гипотезы о наличии скрытой информации в изображении осуществлялось следующим образом:

4 ±P)S]+±W j- _ j=l_¿2І_

A±ô)+±8]

M J=i

В некоторых экспериментах оказывалось, что V/V/ 5\ =0. Результатом таких экспериментов считалось утверждение о недостаточности количества данных для статистически достоверной проверки основной гипотезы.

Точность предложенного метода была измерена при различных значениях параметра t, различных пороговых значениях для принятия решения по основной статистики Т. При этом измерялась точность метода при использовании лишь доли v контейнерного изображения (начальной его части). Увеличение точности классификации при ужесточении правила принятия решения (с соответствующим увеличением доли случаев q, принять решение по которым невозможно) демонстри-

Рисунок 3. ROC-кривые точности классификации при v = 5%

Как видно из рисунка, точность классификации при малых v является достаточной как минимум для предварительного анализа контейнера. Поэтому предложенный метод стеганографического анализа можно применять, в том числе, и в условиях дефицита вычислительных мощностей и времени на анализ контейнера. Также, его можно применять в случае сложности (или дороговизны по каким-либо ресурсам, например оперативной памяти) получения всего контейнера целиком, как это бывает, например, когда анализу подвергаются передаваемые по компьютерным сетям контейнеры в каком-либо промежуточном узле сети.

Во второй части главы приведен пример практического применения подхода к анализу не отдельных контейнеров, а их связанных наборов. Практическая реализация данной идеи продемонстрирована на базе метода анализа пар значений "SPA" и сокрытии заменой наименее значащих битов с малыми плотностями. При этом использовался подход с усреднением базовой статистики.

Для оценки эффективности разработанного метода была проведена серия опытов, в ходе которых для двух коллекций изображений было построено множество различных ROC-кривых, характеризующих метод при различных параметрах. Часть результатов проведенных экспериментов приведены на рисунке 4, на котором представлен набор ROC-кривых, соответствующих анализу выборок разного объема при сокрытии во все контейнеры выборки.

Рисунок 4. ЯОС-кривые классификации наборов контейнеров для различных объемов анализируемых выборок при плотности сокрытия 1% (коллекция-1 - слева, 2 -

справа)

Как видно из рисунков, разработанный подход позволяет значительно увеличить площадь под ЯОС-кривой классификации наборов контейнеров, полученных от одного источника (т.е. значительно увеличить точность классификации). При этом точность классификации тем выше, чем большее число контейнеров от источника доступно для анализа. Кроме того, чем меньше точность классификации

базовым методом (чем хуже базовый метод, или чем меньше плотность сокрытия), тем больше контейнеров требуется для повышения точности.

Рисунок 5 демонстрирует изменение точности классификации в зависимости от соотношения количества пустых и заполненных контейнеров в подвергающейся анализу выборке. В выборке для каждой ЯОС-кривой (за исключением кривой, соответствующей анализу отдельных контейнеров) присутствовало 100 контейнеров заполненных на 1%, а остальные контейнеры были пусты. Для каждой кривой на рисунке указано общее число контейнеров в анализируемой выборке и процент тех из них, которые были заполнены на 1%.

Рисунок 5. ЯОС-кривые классификации источников для различных долей содержания пустых контейнеров в выборках при плотности сокрытия 1%

Таким образом, результаты опытов с разбавлением потока контейнеров от источника пустыми контейнерами показывают, что для того, чтобы противостоять предложенной атаке, оппоненту необходимо многократно увеличить объем передаваемых данных, разбавив заполненные контейнеры пустыми. Вследствие этого значительно снижается относительное количество данных, которые можно передать скрытно, не вызвав подозрений.

Третья часть главы посвящена описанию разработанного программного средства стеганографического анализа контейнеров различных типов, обладающего модульной архитектурой. Для данного средства разработано более 10 модулей, реализующих различные методы форматного, сигнатурного и статистического анализа, в том числе описанные в диссертации. Приведенные в настоящей главе результаты практических опытов были получены при помощи данного комплекса.

В заключении обобщены итоги и результаты проведенных исследований. Сделан вывод о том, что поставленная научная задача была успешно решена и имеет практическую значимость.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В СЛЕДУЮЩИХ РАБОТАХ

Публикации в ведущих рецензируемых изданиях, рекомендуемых ВАК РФ

1. Балакин A.B., Гуфан А.Ю., Елисеев A.C. Использование стеганографиче-ских методов для защиты текстовой информации // T-Comm - Телекоммуникации и транспорт. Спецвыпуск апрель 2009 (Цифровая обработка сигналов). - М.: ООО "Издательский дом Медиа Паблишер", 2009, с. 42-50

2. Балакин A.B., Гуфан А.Ю., Елисеев A.C. Стеганографический анализ методов, применяющих перестановки элементов контейнера для сокрытия данных // Телекоммуникации. 2012. №7 - М., "Наука и технологии", 2012, с. 35-39

3. Балакин A.B., Елисеев A.C. Использование стеганографических методов для защиты текстовой информации // T-Comm - Телекоммуникации и транспорт. Спецвыпуск "Технологии информационного общества". - М.: ООО "Издательский дом Медиа Паблишер", часть 3, август 2009, с. 183-184

4. Елисеев A.C. Обобщение метода выявления наличия информации, сокрытой при помощи стеганографических систем, основанных на перестановках // Телекоммуникации. 2012. №10 - М., "Наука и технологии", 2012, с. 24—30

Публикации в других изданиях

5. Балакин A.B., Гуфан А.Ю., Елисеев A.C. Математическая формулировка задачи о возможности стегодетекции // Приложение к журналу "Открытое Образование", Материалы XXXVII международной конференции и дискуссионного научного клуба "Информационные технологии в науке, образовании, телекоммуникации и бизнесе" IT+SE40, Майская сессия, Украина, Крым, Ялта-Гурзуф, 20-30 мая, 2010, с. 112-114

6. Балакин A.B., Гуфан А.Ю., Елисеев A.C. Формализация оценки стойкости стегосистем // Материалы XI Международной научно-практической конференции "Информационная безопасность". Ч. 3, - Таганрог: Изд-во ТТИ ЮФУ, 2010, с. 132-137

7. Балакин A.B., Елисеев A.C., Назаров И.Г. Библиотека стеганографической защиты персонифицированных изображений и других мультимедиа данных StegoSvaL. Версия 0.9. Свидетельство о государственной регистрации программы для ЭВМ №2009613934/РОСПАТЕНТ. - М„ 18.09.2009.

8. Елисеев A.C. Метод идентификаций GIF изображений и анимаций на основе их скрытой маркировки, не приводящей к потере данных // Моделирование. Теория методы и средства: материалы IX международной научно-практической конференции, г.Новочеркасск, 13 апр. 2009 г. / Юж.-Рос. гос. техн. ун-т (НПИ). -Новочеркасск: ЮРГТУ, 2009. - 82 е., УДК 519.688, с. 52-54

9. Елисеев A.C. Метод сокрытия информации, приводящий к сжатию контейнера // Материалы I всероссийской молодежной конференции по проблемам информационной безопасности ПЕРСПЕКТИВА - 2009. - Таганрог: Изд-во ТТИ ЮФУ, 2009, с. 275-281

10. Елисеев A.C. Стеганографический анализ источников контейнеров // Вопросы образования и науки: теоретический и методический аспекты: сборник научных трудов по материалам Международной заочной научно-практической конференции 30 апреля 2012 г.: в 7 частях. Часть 4; Мин. образования и науки Рос. Федерации. Тамбов: Изд-во ТРОО "Бизнес-Наука-Общество", 2012, с. 51-52

Подписано в печать 16.04.13. Формат 60 х 84 l/ie. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,0. Уч.-изд. л. 1,0. Тираж 100 экз. Заказ № 2864.

Отпечатано в типографии ЮФУ 344090, г. Ростов-на-Дону, пр. Стачки, 200/1. Тел. (863) 247-20-51.

Текст работы Елисеев, Алексей Сергеевич, диссертация по теме Методы и системы защиты информации, информационная безопасность

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ НАУЧНОЕ УЧРЕЖДЕНИЕ "НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ "СПЕЦИАЛИЗИРОВАННЫЕ ВЫЧИСЛИТЕЛЬНЫЕ УСТРОЙСТВА ЗАЩИТЫ И АВТОМАТИКА"

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ СТЕГАНОГРАФИЧЕСКОГО АНАЛИЗА ОТДЕЛЬНЫХ КОНТЕЙНЕРОВ И ИХ

СВЯЗАННЫХ НАБОРОВ

Специальность 05.13.19 - "Методы и системы защиты информации, информационная безопасность"

Диссертация на соискание ученой степени кандидата технических наук

На правах рукописи

Елисеев Алексей Сергеевич

Научный руководитель: доктор физико-математических наук, доцент

А.Ю. Гуфан

Ростов-на-Дону - 2013

Содержание

Принятые обозначения и сокращения....................................................................4

Введение.....................................................................................................................6

1 Обзор существующих методов внедрения скрытой информации и методов выявления наличия скрытой информации............................................22

1.1 Теоретическая модель стеганографической системы...........................22

1.1.1 Основные понятия стеганографии....................................................22

1.1.2 Оценка стойкости стеганографической системы............................29

1.2 Практические методы внедрения скрытой информации и методы выявления наличия скрытой информации........................................................34

1.2.1 Метод замены наименее значащих битов и его анализ..................37

1.2.2 Гистограммная атака..........................................................................38

1.2.3 Распределение изменений по контейнеру.......................................41

1.2.4 Анализ пар значений..........................................................................41

1.2.5 Модуляция наименее значащих битов и ее выявление..................45

1.3 Оценка эффективности практических методов анализа.......................47

1.4 Анализ связных множеств контейнеров.................................................50

1.5 Выводы.......................................................................................................52

2 Проблема оценки стойкости стеганосистем и анализ сокрытий, основанных на перестановках................................................................................53

2.1 Анализ существующего подхода к практической оценке стойкости стеганосистем.......................................................................................................53

2.1.1 Формализация задач стеганографии и стеганодетекции................54

2.1.2 Классы стойкости стеганографических систем...............................56

2.1.3 Гистограммы и статистики различных порядков............................59

2.1.4 Ложные классы стойкости стеганографических систем................61

2.2 Метод направленного анализа стеганосистем, основанных на перестановках элементов пространства сокрытия...........................................67

2.2.1 Стеганосистемы, основанные на перестановках.............................68

2.2.2 Стеганографический анализ описанной стеганосистемы..............69

2.2.3 Графическое представление предлагаемого метода.......................74

2.2.4 Узор перестановок для групп из трех элементов............................76

2.2.5 Обобщение представленного метода...............................................80

2.3 Выводы.......................................................................................................82

3 Метод анализа наборов связанных объектов...............................................85

3.1 Формулировка задачи...............................................................................85

3.2 Анализ наборов контейнеров в случае простого непараметрического базового метода анализа отдельных контейнеров...........................................89

3.3 Анализ наборов контейнеров в случае известных распределений статистики, выдаваемой базовым методом.....................................................107

3.4 Выводы.....................................................................................................121

4 Экспериментальные исследования..............................................................123

4.1 Практическое применение предлагаемого метода анализа сокрытий, основанных на перестановках..........................................................................123

4.2 Практическое применение идеи анализа связанных наборов контейнеров, а не отдельных контейнеров.....................................................132

4.3 Программный комплекс стеганографического анализа......................139

4.4 Выводы.....................................................................................................152

Заключение............................................................................................................154

Список литературы...............................................................................................160

Принятые обозначения и сокращения

АЦП ГПСЧ

дкп икм

НЗБ ОС

хи-квадрат, "j2"

ASF

DLL

DLP

F5

GIF

IP

JPEG

LSB-matching

MP3 PNG

аналогово-цифровое преобразование генератор псевдослучайных чисел дискретное косинусное преобразование импульсно-кодовая модуляция наименее значащий(ие) бит(ы) операционная система

метод стеганографического анализа, впервые предложенный в работе [72] Advanced Systems Format, формат файлов, содержащих аудио- и видеоинформацию dynamically linked library, динамически загружаемая библиотека

data leakage prevention, предотвращение утечек данных

алгоритм сокрытия данных в изображениях формата JPEG, предложенный в работе [71] Graphics Interchange Format, формат хранения изображений и анимаций

протокол транспортного уровня стека протоколов ТСРЛР

Joint Photographic Experts Group, формат хранения графических изображений

least significant bit matching, модуляция НЗБ, метод сокрытия данных, впервые предложенный в работе [67] (также называется "±1-стеганографией") MPEG-1/2/2.5 Layer 3, формат аудиофайлов Portable Network Graphics, формат хранения изображений

receiver operating characteristics, кривая ошибок метод стеганографического анализа, предложенный в работе [39]

Sample Pair Analysis, анализ пар значений, метод стеганографического анализа, впервые предложенный в работе [34]

waveform, формат аудиофайлов Windows Media Audio, формат аудиофайлов Windows Media Video, формат видеофайлов

Введение

Хотя стеганография как искусство была известна еще до нашей эры, компьютерная стеганография как отрасль науки сформировалась лишь в начале последнего десятилетия 20 века.

С 1996 года существует ежегодная международная конференция "Information Hiding" ("IH", "Сокрытие информации"), которая проводится в мае или июне в разных странах и городах мира (каждый год в своем городе). Кроме того с 2002 года осенью проводится также аналогичная ежегодная международная конференция "International Workshop on Digital Watermarking" ("IWDW"). Сборники работ, представляемых на данных конференциях, печатаются издательством Springer в серии LNCS (Lecture Notes on Computer Science). Все это говорит о том, что за последние двадцать лет стеганография и стеганографический анализ выделились в самостоятельное направление.

Наиболее известной и успешной школой стеганографии является, по-видимому, школа, базирующаяся в кампусе государственного университета штата Нью-Йорк (SUNY, State University of New York), в городе Бинхемптон. В данном кампусе расположены некоторые технические факультеты университета. Носителями школы являются в основном преподаватели и студенты факультета электрического и компьютерного машиностроения (Department of Electrical and Computer Engineering), имеющие отношение к лаборатории внедрения цифровых данных (Digital Data Embedding Laboratory) данного факультета. Лидером школы является Джессика Фридрих - профессор факультета электрического и компьютерного машиностроения и школы прикладного машиностроения имени Уотсона (Watson School of Applied Science and Engineering). Интересно, что Фридрих более широко известна не как специалист в области стеганографии и стеганографического анализа, а как автор "метода Фридрих" скоростного сбора кубика Рубика. Хотя школа располагается в США, большинство

активных ее представителей - Фридрих, Мирослав Гольян, Ян Кодовски, Войтех Холуб, и др. - родом из восточноевропейских стран, в основном из Чехии, где они закончили факультет ядерной физики и машиностроения (Department of Nuclear Sciences and Physical Engineering) Пражского университета.

Другая известная школа стеганографии и стеганографического анализа располагается на факультете компьютерных наук (Department of Computer Science) Дрезденского технического университета (Dresden University of Technology) в Германии. Наиболее известные представители школы -Андреас Вестфельд, Андреас Пфитцманн, Рейнер Боме, Элке Франц.

Школы поменьше включают школу доктора Эндрю Кера, расположенную на факультете компьютерных наук (Department of Computer Science) Оксфордского университета; китайскую школу бизнесс-университета Гуандонга (Guangdong University of Business Studies), лидером которой является Юн Чжань; школу известного специалиста в области цифровых водяных знаков профессора факультета компьютерных наук Лондонского университета Ингемара Кокса; и др.

Отдельные хорошие публикации в области стеганографии и стеганоанализа, безусловно, появляются и у специалистов из других образовательных и научных центров по всему миру, в том числе и в нашей стране.

Многие исследования в области стеганографии, стеганографического анализа и цифровых водяных знаков финансируются различными коммерческими и другими организациями, в том числе военными. Например, военно-воздушные силы США открыто финансируют многие работы лаборатории внедрения цифровых данных (школа Фридрих), причем результаты этих работ (или по крайней мере их часть) публикуются в открытой печати.

Все это позволяет сделать вывод о том, что на сегодняшний день стеганография окончательно стала самостоятельной отраслью науки, а также об актуальности исследований в области компьютерной стеганографии.

В стеганографии, в отличие от криптографии, скрывается сам факт передачи сообщения. Здесь принципиальным является помещение информации в какой-либо нейтральный, не вызывающий подозрений объект, называемый контейнером (чаще всего в компьютерной "тайнописи" им является текстовый, графический, аудио- или видеофайл) и незаметное распределение в нем. Своеобразным шифром автора такого сообщения выступает определение "гнезд", в которые вносится информация, порядок ее внесения, внешняя незаметность изменений контейнера, сохранение различных статистических характеристик контейнера и сам факт, что в этом безобидном файле может быть что-то скрыто. Использование тайнописи, не подкрепленное средствами криптографической защиты, вскоре сочли ненадежным, и с появлением все новых методов шифрования стеганография начала оставаться "в тени" криптографии. До сих пор книг и публикаций, посвященных стеганографии, гораздо меньше, чем различных материалов по криптографии. [23]

Однако в современном мире, где огромную роль играет цифровое представление информации и где возможны самые разнообразные комбинации методов работы с данными на цифровых носителях, у стеганографии появилось много новых областей применения. Развитие вычислительной техники создало предпосылки для исследований и научных предложений в области компьютерной стеганографии. Одна из причин активной работы в направлении этих исследований заключается в том, что во многих странах мира существуют законодательные ограничения на использование средств криптографии. Другая причина - необходимость защиты права собственности на цифровую информацию. На данный момент компьютерная стеганография является полноценным направлением в области защиты информации.

Основные методы компьютерной стеганографии, успевшие стать классическими, основаны на существовании естественной неточности в средствах оцифровки, на незаметности изменений в младших битах отсчетов в файлах-рисунках и файлах-фотографиях, на избыточности аналоговых аудио- и видеосигналов, на специальном форматировании текстовых файлов и вообще на всевозможных особенностях компьютерных форматов данных.

Актуальность темы.

На сегодняшний день в сети Интернет имеется большое количество свободно распространяемых программ, позволяющих осуществлять стеганографическое сокрытие данных в различных типах контейнеров. Эти программы очень легко доступны и применять их может любой.

Такое развитие в области скрытой передачи данных, а также легкая доступность стеганографического программного обеспечения привела к появлению нового канала несанкционированного распространения информации, который весьма трудно пресечь. Необходимость защиты различных информационных систем (например, локальных сетей коммерческих предприятий и государственных учреждений) от внутренних угроз, таких как утечки конфиденциальных данных, была очевидна на всех этапах развития средств информационной безопасности. Однако первоначально внешние угрозы считались более опасными. В последние годы на внутренние угрозы стали обращать больше внимания и необходимость использования соответствующих средств защиты стала упоминаться в стандартах и нормативных документах (например, раздел "12.5.4 Утечка информации" в стандарте ГОСТ ISO/IEC 17799-2005). Существуют различные решения для защиты сети предприятия или организации от утечки из нее конфиденциальной информации, не обрывающие при этом необходимые для работы предприятия коммуникации. Данный класс решений получил название DLP (Data Leakage Prevention, Предотвращение утечек данных). Системы, относящиеся к этому классу, перехватывают весь трафик, выходящий за пределы сети предприятия, и

сканируют его на наличие в нем конфиденциальных данных. Кроме того, они сканируют всю информацию, записываемую пользователями сети на съемные носители при помощи их рабочих станций. Известные представители данного класса - Websense DSS, SecurlT Zgate и Zlock, Дозор Джет, Info Watch Traffic Monitor, Symantec DLP. На сегодняшний день подобные системы способны отследить конфиденциальную информацию, передаваемую в открытом или слабо скрытом (например, заархивированном) виде. Они также способны пресечь передачу зашифрованных данных, в которых может содержаться конфиденциальная информация. Однако стеганографические программные средства дают внутренним нарушителям, передающим конфиднециальные данные за пределы сети предприятия, способ преодоления этих систем. Этот способ заключается в сокрытии конфиденциальных данных в широко распространенных и не запрещенных к передаче контейнерах, таких как графические изображения или аудио-файлы.

В настоящее время для борьбы с описанным скрытым каналом утечки данных большинство DLP-систем запрещают установку известных стеганографических программных средств на рабочие станции пользователей. При этом такие программные средства обычно определяются по известным контрольным суммам или хеш-значениям, вычисляемым по их файлам. Однако, учитывая полиморфизм, присущий современному программному обеспечению, а также легкость реализации по крайней мере примитивных методов сокрытия, вряд ли можно считать такой метод борьбы со стеганографическими каналами утечки надежным. Куда более перспективным выглядит применение методов и алгоритмов стеганографического анализа, которому должны подвергаться данные, выходящие за пределы защищаемой сети. Однако в настоящее время большинство распространенных версий систем защиты от утечек либо вообще не включают в свой состав модуль стеганографического анализа, либо данный модуль поставляется с ними в деактивированном состоянии. Такое положение дел, судя по всему, объясняется слишком большим числом

ошибок (в том числе большим числом ложных срабатываний), возникающих при активации или включении данных модулей.

Вместе с тем, сам факт того, что разработчики БЬР-систем начинают уделять внимание решению задачи пресечения стеганографического канала утечки конфиденциальных данных, говорит о все большем распространении данного канала. О нем же косвенно говорят и данные, публикуемые как самими разработчиками систем данного класса, так и службами мониторинга утечек персональных данных. Так, по данным 1пй>\Уа1с11 [79] в 2008 году, канал утечки не был определен примерно для 13% всех зафиксированных инцидентов утечек. Тгш1\¥ауе сообщает [87] о том, что в 2011 и 2012 годах более 14% случаев утечек данных вообще не были раскрыты. Поскольку задача стеганографии как раз и состоит в сокрытии самого факта передачи информации, то в таких случаях данная задача была успешно решена злоумышленниками.

Все это говорит о том, что уже сейчас хорошей БЬР-системе необходимо применять методы и алгоритмы стеганографического анализа, от развития которых, тем самым, непосредственно зависит эффективность данной системы и ее ценность для потребителей, а также защищенность сети организации от инсайдеров. Поэтому можно сделать вывод о крайней актуальности задачи повышения эффективности обнаружения различных типов сокрытий.

В последние годы стеганографический анализ развивался достаточно бурно. Он достаточно давно вышел из той стадии, на которой выявлялись лишь форматные сокрытия, а также сокрытия, содержащие сигнатуры. В 1999 году Вестфельд и Пфицман (\Vestfeld, РШгтап) [72] предложили метод анализа сокрытий заменой наименее значащих битов (НЗБ) отсчетов, называемых "Ь8В-гер1асетепГ. Этот метод был назван "атакой хи-квадрат" по сленговому названию критерия согласия Пирсона, который в нем применяется. Метод считается первым статистическим методом стеганографического анализа. Он дает превосходные результаты в случае,

когда аналитику известно, в каких отсчетах контейнера происходят изменения при сокрытии. Если же анализируемая стеганосистема предполагает зависящий от ключа выбор отсчетов для сокрытия сообщ�