автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Статистические и нейросетевые алгоритмы синтеза и анализа стеганографически скрытой информации в аудио- и графических данных
Автореферат диссертации по теме "Статистические и нейросетевые алгоритмы синтеза и анализа стеганографически скрытой информации в аудио- и графических данных"
На правах рукописи
Дрюченко Михаил Анатольевич
СТАТИСТИЧЕСКИЕ И НЕЙРОСЕТЕВЫЕ АЛГОРИТМЫ СИНТЕЗА И АНАЛИЗА СТЕГАНОГРАФ ИЧЕСКИ СКРЫТОЙ ИНФОРМАЦИИ В АУДИО- И ГРАФИЧЕСКИХ ДАННЫХ
Специальность 05.13.17. - «Теоретические основы информатики»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
? 7 г-"
- ' пгц
Воронеж-2010
4843273
Работа выполнена в Воронежском государственном университете
Научный руководитель: доктор технических наук, профессор
Сирота Александр Анатольевич
Официальные оппоненты: доктор технических наук, профессор
Язов Юрий Константинович
кандидат физико-математических наук, доцент Радченко Татьяна Антониновна
Ведущая организация: Технологический институт
Южного федерального университета, г. Таганрог
Защита состоится «/5~» февраля 2011 г. в /а час. 00 мин. на заседании диссертационного совета Д 212.038.24 при Воронежском государственном университете по адресу: 394006, г. Воронеж, Университетская пл., 1, ВГУ.
С диссертацией можно ознакомиться в научной библиотеке Воронежского государственного университета.
Автореферат разослан «2^» декабря 2010 г.
Ученый секретарь диссертационного совета
С.Д. Махортов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Постоянно растущие потребности обеспечения эффективности информационных систем и помехоустойчивости телекоммуникаций для целей передачи, хранения и защиты информации стимулируют разработку новых методов и средств решения задач сохранения конфиденциальности и защите авторских прав на различные виды интеллектуальной собственности. В настоящий момент одними из наиболее востребованных технологий в этой области являются технологии, базирующиеся на использовании методов компьютерной обработки сигналов и изображений для стеганографичского скрытия информации (ССИ), позволяющие встраивать необходимые данные в любые информационные массивы и объекты цифрового контента (файлы аудио- и графических данных, файлы текстовых форматов и пр.), чтобы обеспечить эффективную защиту от подделки, копирования и несанкционированного использования. Не менее важной для различных приложений является обратная задача, или задача стего-анализа (CA) - обнаружения скрытых стеганографическим способом данных, их извлечение и уничтожение, а также анализ стойкости существующих стегоалго-ритмов, и разработка новых методов выявления ССИ.
Разработкой и усовершенствованием методов и средств компьютерной стеганографии занимаются многие отечественные и зарубежные ученые, в том числе: В.Г. Грибунин, И.В. Туринцев, И.Н. Оков, Б.Я. Рябко, О.Б. Макаревич, А.Н. Фионов, Н. Провос (N. Provos), Симмонс (G.J. Simmons), Д. Фридрих (J. Fridrich), Р. Андерсон (R. Anderson), В. Бендер (W. Bender), Питас (I. Pitas), X. Фарид (Н. Farid), и др. Хотя проблема стеганографического скрытия и анализа информации в различных приложениях рассмотрена достаточно глубоко, известные алгоритмы ССИ имеют свои определенные недостатки. Один из этих недостатков заключается в их детерминированности - используемые в них процедуры встраивания информации реализуют строго определенные последовательности операций преобразования данных, образующие конечное множество вариантов. В этом плане представляется целесообразным, исследование возможности применения нейросетевых функциональных моделей преобразования данных в интересах создания перспективных технологий стеганографического «растворения» информации в файлах различных форматов, а также для исследования возможностей существующих алгоритмов стегоанализа с целью ее выявления.
Недостатки современных методов CA зачастую связаны с их невысокой чувствительностью, ориентированностью на работу с контейнерами определенного формата, вычислительной сложностью, а также неоднозначностью процедуры формирования информативных признаков для анализа и классификации естественных файлов-контейнеров в потоковом режиме. Для решения указанных вопросов очевидна необходимость привлечения новых подходов, всестороннего их сравнения с имеющимися и установления границ применимости. Перспективной задачей также представляется теоретическое и практическое исследование возможностей нейронных сетей (НС) для обработки информации при решении задач стегоанализа как в отдельности, так и в дополнение к статистическим методам и последовательным методам принятия решений. Таким образом, тема диссертации,
посвященная разработке и исследованию статистических, нейросетевых и комбинированных алгоритмов синтеза и анализа стеганографически скрытой информации в аудио- и графических данных, представляется актуальной.
Тема диссертации входит в план научно-исследовательских работ Воронежского государственного университета по кафедре информационных систем.
Цель и задачи исследования. Целью диссертации является разработка и исследование алгоритмов стеганографического встраивания и выявления скрытых сообщений в графических и звуковых файлах с использованием статистических и нейросетевых алгоритмов обработки информации в интересах создания эффективных технологий и программных средств стеганографического скрытия данных, а также оперативной диагностики скрытно-встроенной информации.
Для достижения цели в работе рассматриваются и решаются следующие задачи.
1. Исследование и анализ известных методов стеганографического встраивания и обнаружения скрытых сообщений в рамках статистического и нейросе-тевого подходов.
2. Разработка и исследование нейросетевых функциональных моделей преобразования информации в интересах решения задач стеганографического встраивания, а также разработка методики для оценки потенциальных возможностей восстановления ранее скрытых данных.
3. Разработка комбинированных алгоритмов обнаружения факта ССИ в потоках данных, сочетающих использование нейросетевого подхода для восстановления авторегрессионной модели анализируемого контейнера со статистическим подходом обнаружения «разладки», фиксирующей изменения параметров анализируемого процесса.
4. Проведение экспериментальных исследований возможностей разработанных алгоритмов для анализа реальных контейнеров (файлов графических и звуковых форматов) на предмет наличия в них информации, встроенной с использованием различных алгоритмов стеганографического скрытия.
5. Разработка программных средств для моделирования различных алгоритмов ССИ в файлы распространенных форматов и реализации комплексного применения разнородных стегоаналитических алгоритмов.
Методы проведения исследования. При решении поставленных в диссертации задач использовались аналитические и вычислительные методы современной теории информационных процессов и систем, а именно: аппарат теории принятия статистических решений; методы теории вероятностей и математической статистики; технологии объектно-ориентированного программирования; методы и технологии статистического имитационного моделирования, а также аппарат искусственных нейронных сетей.
Основные результаты, выносимые на защиту, и их научная новизна. На защиту выносятся следующие результаты, впервые достаточно полно развитые или полученные в диссертации:
1. Метод стеганографического скрытия информации в файлы различных форматов, отличающийся использованием нейросетевой функциональной модели преобразования данных при встраивании информации и статистически опти-
мальных алгоритмов принятия решения при восстановлении ранее встроенных данных, применение которого обеспечивает повышение защищенности скрывающего и восстанавливающего преобразований и позволяет расширить область применения ССИ в плане использования контейнеров с вещественными форматами представления данных.
2. Теоретические обоснования сходимости весовых коэффициентов нейронных сетей при восстановлении авторегрессионных моделей (АР-моделей) случайных процессов и полей по экспериментальным данным в условиях прямого и косвенного обучения, что позволило обосновать возможность использования нейронных сетей для решения задач синтеза и анализа стеганографически скрытой информации в рассматриваемой постановке.
3. Комбинированные алгоритмы выявления ССИ и достижимые характеристики достоверности обработки информации, особенностью которых является совместное применение нейросетевых алгоритмов восстановления АР-моделей обрабатываемых данных и последовательных алгоритмов обнаружения «разладки», а также известных статистических критериев анализа, что позволило обеспечить повышение надежности и оперативности выявления факта стеганографического скрытия данных при обработке контейнеров графических и звуковых форматов.
4. Структура и алгоритмы функционирования программного комплекса для анализа мультимедийных файлов различных форматов на наличие ССИ, отличающиеся реализацией комбинированного подхода на основе использования взаимно дополняющих методов и алгоритмов анализа данных, что позволяет свести к минимуму вероятности ошибок первого и второго рода при обнаружении факта стеганографического скрытия информации. Практические рекомендации по комплексному применению различных алгоритмов обработки информации в стегосистемах.
Научная новизна полученных результатов работы определяется следующим.
1. Предложен и теоретически обоснован метод ССИ на основе двух типов нейросетевых функциональных моделей преобразования данных: прямого скрывающего и обратного восстанавливающего преобразований. Обоснован выбор типа и архитектуры нейронных сетей прямого распространения для встраивания и восстановления двоичных последовательностей данных. Показано, что для встраивания двоичной (битовой) последовательности данных целесообразно использовать двухслойную линейную сеть автоассоциативного типа с уменьшенным на единицу по сравнению с размерностью входного и выходного вектора числом нейронов в скрытом слое. Для восстановления ранее скрытой последовательности целесообразно применять линейную или нелинейную нейронную сеть прямого распространения, реализующую двухальтернативное решающее правило при извлечении двоичной последовательности данных. Предложена статистическая модель стеганографического встраивания битовой последовательности с помощью нейронной сети автоассоциативного типа, основанная на представлении файлов-контейнеров в виде гауссовских случайных векторов, и методика оценки потенциальной достоверности восстановления ранее скрытой информации. Получены зависимости вероятности достоверного восстановления элементов встроен-
ной информации от различных параметров статистической модели, исследована возможность извлечения скрытых данных в модели активного нарушителя.
2. Получены необходимые и достаточные условия сходимости весовых коэффициентов НС линейного типа при восстановлении регрессионных и авторегрессионных моделей случайных процессов и полей по экспериментальным данным в условиях прямого и косвенного обучения. Полученные результаты свидетельствуют о том, что весовые коэффициенты НС линейного типа при увеличении объема обучающих примеров сходятся по вероятности к соответствующим элементам матриц, описывающих статистические связи случайных векторов. Выявленные возможности НС позволяют обосновать целесообразность их использования для построения функциональных моделей преобразования данных при реализации предложенного метода ССИ, а также для восстановления моделей естественных контейнеров при отсутствии априорной информации относительно их статистических характеристик в интересах построения алгоритмов СА.
3. Предложен комбинированный алгоритм обнаружения факта ССИ, в котором реализовано сочетание нейросетевого алгоритма восстановления АР-модели анализируемого контейнера со статистическим последовательным алгоритмом обнаружения разладки, фиксирующим изменение параметров этой модели при встраивании в файл-носитель дополнительных данных. Для обнаружения разладки целесообразно использовать статистику алгоритма кумулятивных сумм в форме разложения Ле-Кама, настроенную на фиксацию изменения моментов ошибки экстраполяции нейронной сетью очередного элемента анализируемого контейнера. Исследована возможность дополнительного использования известных статистических критериев анализа данных в качестве вторичных данных при формировании обучающих примеров для НС, обучаемой в «стационарном» режиме и используемой для фиксации разладки, что обеспечивает повышение достоверности и оперативности выявления факта встраивания информации при обработке интенсивных потоков данных.
4. При разработке программных средств для моделирования и анализа современных стегосистем реализован комплексный подход, в основе которого лежит применение разнородных статистических и нейросетевых алгоритмов анализа контейнеров звуковых и графических форматов, а также широкого перечня моделей ССИ для проведения тестирования используемых алгоритмов СА. В ходе экспериментальных исследований, выполненных на естественных файлах-контейнерах, показано, что комбинированное использование статистических, нейросетевых, сигнатурных и структурных алгоритмов анализа, позволяет существенно сократить вероятность ложного обнаружения ССИ (до уровня менее 1%), повысить надежность и оперативность выявления факта стегоскрытия по сравнению с многими известными алгоритмами СА, а также сопоставить природу стеганографического скрытия с использованными алгоритмическими и программными средствами.
Достоверность результатов работы. Результаты исследований, сформулированные в диссертации, получены на основе корректного использования взаимно дополняющих друг друга теоретических и экспериментальных (имитационное моделирование) методов исследований, совпадением результатов, полученных
различными методами, между собой, а, в ряде частных случаев, с известными, наглядной физической трактовкой установленных закономерностей и соотношений.
Значимость для науки и практики. Результаты диссертационной работы имеют значение для разработки алгоритмического и программного обеспечения в интересах выявления ССИ, средств создания цифровых водяных знаков и защиты авторских прав на объекты цифровой интеллектуальной собственности, обеспечивающих эффективную защиту от подделки, копирования и несанкционированного использования данных.
Применение предложенной автором нейросетевой модели преобразования данных в компьютерной стеганографии позволяет перейти от технологий встраивания данных на основе логически предопределенных алгоритмов к технологии «растворения» данных в мультимедийных файлах-контейнерах, что имеет существенное значение как для решения основной задачи стеганографии, так и в качестве базовой модели информационного процесса, дня решения задачи СА.
Полученные в диссертации аналитические выражения и зависимости для характеристик синтезированных алгоритмов позволяют обоснованно выбрать алгоритм в соответствии с требованиями, предъявляемыми к показателям качества обработки информации, с учетом существующих ограничений и дестабилизирующих факторов, а также исходя из соображений программной реализации.
Область исследования. Содержание диссертации соответствует специальности 05.13.17 - «Теоретические основы информатики» по следующим областям исследований: разработка и анализ моделей информационных процессов и структур (п.2 паспорта специальности); разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях (п.5); разработка методов обеспечения высоконадежной обработки информации и обеспечения помехоустойчивости информационных коммуникаций для целей передачи, хранения и защиты информации (п. 11).
Реализация научных результатов. Полученные в диссертации результаты реализованы в Воронежском государственном университете при выполнении НИР «Кассиопея-ВГУ», «Фобос-ВР», ООО «Фото Технологии В» при выполнении НИОКР «Программное обеспечение для реализации новой информационной технологии защиты авторских прав на основе создания цифровых водяных знаков с использованием нейросетевых функциональных моделей преобразования данных», а также ФГУП ВНИИ «Градиент» в НИР «Фобос-Н».
Личный вклад автора. Основные результаты по теме диссертации получены лично автором и опубликованы в соавторстве с научным руководителем. В этих работах автору принадлежит доказательство теорем и проведение рассуждений, необходимых для решения поставленных задач, организация экспериментов для обоснования алгоритмов, полученных теоретическим путем, анализ и интерпретация полученных результатов. В работах [1,4], опубликованных с участием других соавторов, соискателем предложены комбинированные алгоритмы выявления ССИ, выполнены теоретические обоснования сходимости весовых коэффициентов НС при восстановлении авторегрессионных моделей случайных процессов.
Публикации. По теме диссертации опубликовано 14 работ, из них 4 работы - в изданиях, рекомендованных ВАК.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались: на XII Международной конференции «Цифровая обработка сигналов и ее применение» (Москва, 2010 г.); на IX, X Международных научно-технических конференциях «Кибернетика и высокие технологии XXI века» (Воронеж, 2008, 2009 гг.); на VIII, IX, X Международных конференциях «Информатика: проблемы, методология, технологии» (Воронеж, 2008-2010 гг.).
Структура и объем работы. Диссертация состоит из введения, четырех разделов, заключения и списка литературы из 104 наименований. Объем диссертации составляет 192 страницы, включая 180 страниц основного текста, содержащего 46 рисунков, и 12 страниц списка литературы.
СОДЕРЖАНИЕ РАБОТЫ
Во введении к диссертации обоснована актуальность темы, сформулированы цель и задачи работы, ее научная новизна, практическая значимость полученных результатов и положения, выносимые на защиту.
В первой главе определяются основные понятия области компьютерной стеганографии, приводятся формальные модели стеганографических систем, рассматриваются известные методы и алгоритмы стегоскрытия и стегоанализа. Особое внимание уделяется рассмотрению результатов исследований, посвященных вопросам ССИ и СА с использованием нейронных сетей различных типов.
Во второй главе сформулирована постановка задачи стеганографического встраивания информации на основе нейросетевых функциональных моделей преобразования данных. Указанные преобразования, описывающие встраивание вектора сообщения d&Rm в вектор-контейнер zeü", m « и , и последующее его восстановление имеют вид
z - Fx(z,d), zeZ, ||z - z| min, d = F2{z), deD, |cf - d| mm.
Показано, что для встраивания последовательности данных целесообразно использовать двухслойную линейную сеть автоассоциативного типа с уменьшенным по отношению к входу и выходу числом нейронов в скрытом слое q = n, совпадающим с размерностью вектора-контейнера (рис.1а). Для восстановления информации целесообразно применять линейную или нелинейную НС прямого распространения, реализующую двухальтернативное решающее правило при извлечении ранее встроенной последовательности данных (рис. 16). Я
т
Wx W2
а)
б)
Рис. 1
Сигнал, подаваемый на входы НС, реализующей ССИ, может быть представлен как составной вектор у = (гт,^т)т или у = у] + у2, где у,=(г1,г2,...2п, 0,...0)г, у2 =(0,...0,с/1,..Лт)г, где d = ^dx,...dm)г - вектор, содержащий элемент встраиваемых данных. При скрытии целостного сообщения, образующего скрываемую последовательность данных р-\,Р, для каждого ее элемента используется фрагмент контейнера, описываемый вектором 2<р>, р = 1, Р. На выходе соответствующим образом обученной сети получается последовательность заполненных фрагментов контейнера г(р), р = \,Р. При обучении указанных НС осуществляется минимизация средней квадратичной ошибки методом обратного распространения.
Для анализа закономерностей процесса ССИ в рамках предложенного подхода была рассмотрена статистическая модель, согласно которой каждый фрагмент контейнера рассматривается как реализация случайного вектора 2 с параметрами М[г] = О, М[22Т] = Я.. Элементы встраиваемой последовательности являются реализациями двоичной случайной величины d, не зависящей от г и принимающей свои значения с одинаковыми априорными вероятностями Р(с1 = 1) = 0,5 и Р(с! = -1) = 0,5, М[<Л] = 0, М[с12] = с7%= 1. Для встраивания такой последовательности данных целесообразно использовать НС с уменьшенным на единицу по сравнению с размерностью входного и выходного вектора числом нейронов в скрытом слое (рис. 1а). Обучение сети проводится по совокупности реализаций входного вектора у^ = , р = \,Р так, чтобы минимизировать величину 1 р
Е = -^У(Л-ЩФху(р'>)т{у(р)-1УгШ1у(р)) . (1)
р= 1
Показано, что при обучении и работе подобной сети осуществляется сжатие входных данных с соответствующим незначительным искажением вектора-контейнера и возможным встраиванием вектора с1 в структуру вектора г , являющегося составной частью вектора на выходе НС. В ходе теоретического анализа доказано следующее утверждение: результирующее преобразование, выполняемое линейной двухслойной автоассоциативной нейронной сетью (рис. 1а), обученной для минимизации (1), эквивалентно применению линейного оператора
где Яуц - вырожденная матрица, полученная на основе выборочной матрицы ковариации Лу11 по совокупности у(р),р = 1,Р (Р > т + п) при выполнении диа-гонализирующего преобразования и приравнивания к нулю т + п-д ее последних собственных чисел; - является псеводобратной матрицей для Я п.
Для оценки возможности восстановления данных в процессе ССИ, в диссертации предлагается методика анализа статистических характеристик вектора г на выходе НС, реализующей встраивание информации.
1. На вход сети (рис. 1а) подаются тестовые сигналы у+ = (0,0,...0,1)г, у~ = (0,0,...0,-1)т. При этом на выходе получаются векторы у+ =(т+,с/)+ и УГ = И^Щу' • Компоненты т+ и т" рассматриваются как математические ожидания полезного сигнала, соответствующие двум различным гипотезам при встраивании данных в контейнер г .
2. Оценивается матрица ковариации выхода сети в первых п компонентах, то есть компонентах вектора г, при подаче случайного вектора у, ,0)г . Для этого вычисляется матрица Я~ = , и выделяется матрица Я;, являющаяся блочной в матрице Я~ .
3. В итоге сигнал на выходе НС представляется в виде
2 = ЩУЩ>\ +у2),2=ат+ + (\-а)щ- = |и{2;||,
где , / = 1,и, у = 1, и-элементы матрицы !¥2, /' = 1, и +1, у = 1,«;где а = 1, если <Л = 1, а = 0, если = — 1; ц - вектор флуктуации (помехи), в качестве которого в данном случае выступает получаемый на выходе автоассоциативной НС контейнер с известной матрицей ковариации Яп = .
Таким образом, для эффективного восстановления скрытых данных необходимо решить задачу классификации наблюдаемого вектора 1 по его принадлежности к одному из классов Н1 и Н2, характеризующихся различными математическими ожиданиями т+ и т~, в присутствии шума ц с известной матрицей ковариации Я^ . Для этого используется вторая НС, архитектура которой показана на рис. 16. Показано, что в случае гауссовского распределения вектора шума 1] при ее обучении по достаточному количеству примеров она реализует оптимальное по критерию максимума правдоподобия решающее правило
1п(г) = г (т+ -ти-)—0,5(/я+ + т~)Т Я~х(т+ -т~) (2)
При этом вероятность суммарной ошибки в ходе восстановления ранее встроенной двоичной последовательности определяется соотношением
Рос=\Р\г+\Рп=Ра=1~Ча), « =0,5^(т+ -т~)ТЯ~1(т+ -и") , (3)
где Ф(а)- интеграл вероятностей. При использовании НС линейного типа была также отмечена и исследована принципиальная возможность уменьшения амплитуды встраиваемого сигнала-сообщения по сравнению с амплитудой сигнала, использованного при обучении сети, что позволяет существенно снизить искажения итогового заполненного контейнера при сохранении приемлемой достоверности восстановления скрытого сообщения.
Для оценки стойкости предлагаемого нейросетевого метода ССИ рассматривались различные виды стегоатак (способов воздействия на анализируемый файл-контейнер). Исследование возможности извлечения скрытых данных в модели активного нарушителя, при известных принципах скрытия и известном заполненном контейнере, показало высокий уровень скрытности алгоритма. Стегоатака на основе создания «ложных» НС представляется мало эффективной, ввиду неоднозначности процедуры формирования обучающих множеств, а также серьезными временными затратами возникающими при обучении сетей. Исследование возможности извлечения скрытых данных для различных значений амплитуды встраиваемого сигнала при намеренном искажении контейнера показало, что обученная НС, реализующая оператор F2, способна восстанавливать исходное сообщение при внесении в контейнер дополнительных шумовых составляющих. Так, при значении амплитуды встраиваемого сигнала равной 0.5, допустимая амплитуда шума, при которой скрытая битовая последовательность восстанавливается безошибочно, составляет порядка ЮЛ
В предложенной функциональной модели ССИ для эффективного обучения НС входной сигнал, как правило, подвергается нормировке, поэтому, чтобы не производить дополнительных преобразований значений векторов контейнера из целочисленной в вещественную форму и обратно, при которых может произойти потеря информации, в качестве контейнеров целесообразно выбирать файлы, содержащие большие массивы значений вещественных переменных. В этих целях предложено использовать форматы файлов для описания геометрии трехмерных (3D) объектов и формировать обучающие и тестовые выборки из вещественных значений пространственных координат. Пример работы предлагаемого метода ССИ с использованием контейнера формата OBJ приведен на рис. 2. На рис. 2а представлен увеличенный фрагмент исходного файла «asteroid.obj», а на рис. 26 -фрагмент файла «asteroid hid.obj», содержащего порядка 1.5Кбайт ССИ.
Рис. 2
Установлено, что в качестве контейнеров при реализации предложенного подхода целесообразно выбирать сложные трехмерные модели с множеством деталей и большим числом полигонов (например, модели растительности, рельефные поверхности и прочие). На примере встраивания сообщений в ЗБ файлы-контейнеры показано, что при использовании линейных НС алгоритм показывает пропускную способность порядка 0.3 бита информации на одну пространственную
координату с сохранением приемлемого качества заполненного контейнера. Увеличение пропускной способности можно осуществить за счет использования нелинейных НС, обученных для скрытия и извлечения данных большей размерности.
В третьей главе основное внимание уделено разработке комбинированного алгоритма обнаружения факта ССИ, идея которого состоит в сочетании нейросете-вого алгоритма восстановления АР-модели анализируемого случайного процесса (звукового сигнала) или случайного поля (изображения) на основе обучающей выборки «чистых» контейнеров (не содержащих скрытой информации), со статистическим последовательным алгоритмом обнаружения разладки, фиксирующим изменение параметров этой модели при встраивании дополнительных данных.
Первоначально приводятся теоретические обоснования и доказательство сходимости весовых коэффициентов НС линейного типа при восстановлении АР-моделей случайных процессов и полей по экспериментальным данным в условиях прямого и косвенного обучения. Полученные теоретические результаты и результаты моделирования свидетельствуют о возможности использования НС для восстановления моделей естественных контейнеров при отсутствии априорной информации относительно их статистических характеристик при построении алгоритмов СА.
Задача выявления ССИ в терминах задачи обнаружения разладки формулируется следующим образом. Требуется для анализируемой последовательности данных {z\"\t = \,k} с условной плотностью вероятности Pe{z) = P{z ! в), где в е Rr - некий вектор параметров, определить момент времени /0, в который происходит изменение данного параметра 0, связанное с возможным стега-нографическим встраиванием информации. До момента tQ: 0 =в0 при этом
плотность распределения элементов последовательности {z'"'} - w(z/0o), а после 0 = 0], 0а Ф 0i и плотность распределения элементов последовательности {*}">} -«(z/0,).
В соответствии с общим методическим аппаратом, изложенном в работах И.В. Никифорова и др., для решения поставленной задачи целесообразно использовать один из вариантов алгоритма кумулятивной суммы (АКС), основанный на применении асимптотического разложения Jle Кама и ориентированный на фиксацию изменения вектора 0 в интересующем направлении, задаваемом вектором с. При этом используется выражение для накапливаемой статистики g( АКС
г 1+ A^dlntafo ,/0')
/„ = inf{/ : g, > h}, g, = [g,4 + Ag(] , Ag, = У Y-Йг—4 ' <4>
TÎU 86?
g0 = o, 70=ta -na + i,
где «+» - символ, обозначающий операцию вида [х]+ = max[0,x]; g, - кумулятивная сумма на шаге t ; h - порог принятия решения о возникновении разладки; ta - момент подачи сообщения о разладке; па - количество шагов, выполненных от момента последнего обнуления кумулятивной суммы g, до момента
принятия решения. Порог принятия решения о разладке определяется растущим со временем I в виде
й(0 = С+1п(/) + 21п(1п(0), 1 = 1п, (5)
где константа С подбирается экспериментальным путем.
Схема работы предлагаемого нейросетевого алгоритма выявления ССИ в общем случае включат реализацию трех этапов:
- формирование АР-модели анализируемых носителей в стационарном режиме на основе реализации процедуры обучения НС с использованием репрезентативной выборки «чистых» контейнеров;
- определение вектора наблюдаемых параметров на выходе НС с точки зрения их чувствительности по отношению к изменениям АР-модели и определение соответствующей статистики АКС;
- тестирование НС и поиск ССИ на основе фиксации разладки выходной реакции ранее обученной (в отсутствии стегоскрытия) сети при прогнозировании очередного элемента контейнера по совокупности ранее полученных наблюдений, подаваемых на вход сети.
В простейшем случае НС, обеспечивающая восстановление АР-модели процесса и анализ его изменений с точки зрения обнаружения разладки, представляет собой однослойную линейную сеть с числом входов д равным размерности вектора входных воздействий, и количеством нейронов на выходном слое /, совпадающим с длиной предсказываемого сетью вектора. Матрица входных воздействий определяется как У = {ух,у2,...,уы_а}, где у{ = , I = 1,2,...,ЛГ—<5; 3 - длина вектора у1 (размер скользящего окна), - элементы
вектора Я =(?1,3'2,...,5У)Г, содержащего в общем случае последовательность первичных элементов контейнера или последовательность вторичных данных, полученных в результате применения к контейнеру известных статистических критерив анализа. Величины, получаемые на выходе НС, описываются уравнением векторной авторегрессии вида
5
где / = + Щ - матрицы, составленные из весов НС, обеспечивающие
прохождение входных воздействий на выход; А - вектор смещений нейронов сети; Г1, - вектор ошибки предсказания значений у, на выходе НС, имеющий математическое ожидание, равное нулю, и неизвестную матрицу ковариа-ции Иц . Весовые коэффициенты I = 1,3 и значение смещения А из (6) определяются в ходе обучения НС. В качестве наблюдаемых данных в АКС используется СКО предсказания НС очередного вектора у,
1=1
Предполагалось, что закон распределения и, подчиняется гауссовскому, причем на всех шагах до скачка / = 1,2,...,/0 -1 полученная статистика имеет одно и то же математическое ожидание ти и дисперсию стц (данные параметры оцениваются в ходе тестирования НС в стационарном режиме). Для практического обнаружения разладки в диссертации рассматривались два решающих правила, основанные на применении формулы разложения Ле Кама, в случае когда вектор параметров формируется на основе первого начального момента СКО выхода НС (в' = ти) или из начальных моментов первого и второго порядка
СКО выхода НС (в' = (0.5{ти + т'и), 0.5(сх„ + сг,'( ))г).
С целью повышения эффективности работы алгоритма С А в диссертации были рассмотрены несколько вариантов моделей данных, подаваемых на входы НС, которые формировались как с использованием первичных данных (элементов контейнера), так и вторичными данными, полученными после применения известных статистических стегоаналитических критериев, включая оценку частот переходов значений в потоке младших бит контейнера, оценку длин битовых серий, атаку по критерию хи-квадрат и пр. На рис. 3 представлен пример анализа звукового контейнера формата шау с частотой оцифровки 44.1 кГц и разрядностью отсчетов 8 бит, имеющим порядка 25% заполнение ССИ в области файла начиная с / а 3,2 сек. Здесь сверху (рис. За) изображена последовательность отсчетов аудио-файла, содержащего ССИ. Входные и предсказываемые сетью данные представляют собой
последовательности отсчетов
звукового сигнала. Размерность вектора входных воздействий <5 = 25 , размерность прогнозируемого вектора 1 = 2, длина обучающей выборки N в данном примере составляла 5000 отсчетов звукового контейнера. На второй временной диаграмме (рис. 36) представлена СКО восстановления последовательности отсчетов нейронной сетью, формирующей АР-модель сигнала. На рис. Зв в логарифмическом масштабе приведены графики изменения кумулятивных сумм фиксирующие моменты возникновения разладки.
Важное преимущество предложенного алгоритма выявления ССИ заключается в возможности проведения количественного СА — при правильной фикса-
Рис.З
ции момента начала и окончания разладки с высокой точностью могут быть оценены начало и конец возможного ССИ, и таким образом локализована подозрительная область в анализируемом контейнере. При проведении количественного СА необходимо учитывать показатели эффективности алгоритма обнаружения разладки (среднее время задержки и вероятность ложной тревоги). На рис.4а,б представлены полученные зависимости среднего времени задержки в выдаче сообщения о разладке и вероятности ложной тревоги Рлт от порога А при анализе \уау-образцов с частотой дискретизации 44.1 кГц, имеющих порядка 50% заполнение информацией, скрытой последовательно во все младшие разряды отсчетов звуковых файлов, начиная с одного и того же момента времени 10.
Среднее время запаздывания ^ _ Вероятность ложной тревоги
Г 250
- ;
/ / ? \.....
/ i i
N
:\ ........I.A...
í \ : \
\ \
! \
20 30 -Ю 50 60 70 6090 2030405060 70 8090
Рис.4
С увеличением порога принятия решения о возникновении разладки величина среднего времени запаздывания будет возрастать, и одновременно будет происходить снижение вероятности ложной тревоги. Так при h = 90, вероятность ошибок второго рода не превышает 5%, однако, при этом значение запаздывания г > 200 отсчетов wav-файла (что составляет примерно 0.0045 сек.). В целом необходимо отметить, что предложенный подход к построению алгоритмов CA на основе метода обнаружения «разладки» лучше всего использовать для анализа однородных непрерывных потоков данных (потоковых контейнеров) в условиях априорной неопределенности относительно их статистических характеристик и области начала ССИ.
Четвертая глава посвящена описанию разработанного на языке С++ программного комплекса, в котором реализованы известные алгоритмы стеганогра-фического скрытия и анализа файлов графических и звуковых форматов, а также алгоритмы, разработанные в рамках диссертационного исследования. Укрупненная структура программного комплекса для встраивания и выявления скрытой информации представлена на рис. 5.
Для исследования стойкости известных алгоритмов ССИ, а также алгоритмов, предложенных в третьей главе диссертации, были разработаны модули, реализующие различные варианты ССИ в контейнеры форматов bmp, gif, png, jpeg, txt, html, mp3, wav. Разработанные модули позволяют моделировать процедуры встраивания данных в выбранные области контейнера, согласно формату его представления, производить модификацию младших двоичных разрядов элементов контейнера, осуществлять выбор алгоритма записи бит сообщения и пр.
Информационный процесс стеганографического скрытия;
Модули стеганографического встраивания данных
------1..-_ -|-------I—---I------h-.....j—--g—,
JPEG
Р^
ВМР
\Л/А\/
трЗ
txt
html
Модули для работы с файлами-контейнерами различных форматов
Модуль загрузки файла-контейнера
Модуль формирования стегоключа и служебной информации о скрываемых данных
Модули архивации (ИЗБ)/ шифрования (ГОСТ 28147-89)
Модуль за грузки файла-сообщения
-..............Ж-.....-.........
Главный модуль. Интерфейсная часть
Модуль загрузки идентификации формата контейнера
---, 1---- —I
1 JPEG | в1Р | Рте ВМР | \Л/АУ
Модули для работы с файлами-контейнерами различных форматов
Т *У
Модули статистических методов анализа Модули для конструирования, обучения и тестирования НС
Блок стегоанализа Модули «структурного» и «сигнатурного» анализа
Информационный процесс выявления стеганографического скрытия;
Рис. 5
Аналитическая часть основана на комбинированном использовании разнообразных методов СА, включая известные статистические методы анализа графических и звуковых файлов, алгоритмы «авторегрессионной разладки», а также алгоритмы, базирующиеся на методах сигнатурного и структурного анализа служебных областей форматов файлов. В своей совокупности указанные алгоритмы реализуют комплексный процесс обработки информации, позволяющий эффективно решать задачи выявления ССИ. В рамках программного комплекса для моделирования и применения НС, без необходимости установки специализированных пакетов, была разработана многофункциональная библиотека классов для работы с НС архитектуры многослойный перцептрон. Интегрируемая библиотека классов позволяет обучать и использовать НС с оптимизацией под решение конкретных задач, в том числе задач стегоскрытия и стегоанализа.
Исследования показали, что комплексное применение разнородных и взаимодополняющих алгоритмов СА, позволяет повысить надежность и оперативность выявления скрытой информации, свести к минимуму ошибки второго рода при обнаружении факта ССИ, а также сопоставить природу стеганографического
скрытия с использованными программными средствами. Так, при анализе Ьшр-контейнеров, содержащих порядка 25% данных, встроенных с использованием различных программ и алгоритмов скрытия, вероятность выявления факта ССИ превышает 90% при вероятности ошибки второго рода менее 1%.
В заключении подведены итоги по диссертации в целом, сделаны выводы и сформулированы основные результаты, которые сводятся к следующему.
1. Предложен и теоретически обоснован метод ССИ на основе нейросетевых функциональных моделей преобразования данных. Обоснован выбор архитектуры и типа НС для встраивания и восстановления ранее скрытой информации. Предложена статистическая модель стеганографического встраивания битовых последовательностей в контейнеры.
2. На основе экспериментального анализа предложенного метода ССИ даны общие рекомендации и описаны подходы к выбору стеганографических контейнеров доя повышения эффективности работы предлагаемой функциональной модели ССИ.
3.Выполнены теоретические обоснования и доказательство сходимости весовых коэффициентов нейронных сетей линейного типа при восстановлении регрессионных и авторегрессионных моделей случайных процессов и полей по экспериментальным данным в условиях прямого и косвенного обучения.
4.Предложен комбинированный алгоритм обнаружения факта стеганографического скрытия, реализующий сочетание нейросетевого алгоритма восстановления авторегрессионной модели анализируемого контейнера со статистическим последовательным алгоритмом обнаружения разладки, фиксирующим изменение параметров этой модели при встраивании в контейнер дополнительных данных.
5. В среде Borland C++Builder 6.0 разработан программный комплекс, обеспечивающий комбинированное применение статистических, нейросетевых, сигнатурных и структурных алгоритмов для анализа контейнеров звуковых и графических форматов на предмет наличия в них ССИ.
Основные публикации по теме диссертации
1. Голуб В.А. Комплексный подход для выявления стеганографического скрытия в JPEG-файлах / В.А. Голуб, М.А. Дрюченко // Инфокоммуникацион-ные технологии. - 2009. -№1. - С. 44-50.
2. Дрюченко М.А. Нейросетсвой алгоритм выявления стеганографически скрытых сообщений методом обнаружения «разладки» / М.А. Дрюченко, A.A. Сирота // Радиотехника. - 2008. -№ 11. - С. 24-28.
3. Дрюченко М.А. Математическое и программное обеспечение для решения задачи стегоанализа на основе статистических и нейросетевых алгоритмов обработки информации / М.А. Дрюченко, A.A. Сирота // Информационные технологии. - 2010. - №4. - С. 14-22.
4. Дрюченко М.А. Восстановление регрессионных моделей случайных процессов и полей с использованием нейронных сетей / М.А. Дрюченко, Е.В. Воронова, A.A. Сирота // Вестник Воронежского государственного университета. Серия: «Системный анализ и информационные технологии». - 2010. №1. - С. 109-119.
5. Сирота A.A. Нейросетевые модели и алгоритмы стеганографического скрытия информации / A.A. Сирота, М.А. Дрюченко // Труды Российского науч-
но-технического общества радиотехники, электроники и связи имени A.C. Попова. -Москва, 2010. -Т.2. - С. 335-338.
6. Дрюченко М.А. Алгоритмы выявления стеганографического скрытия информации в JPEG-файлах / М.А. Дрюченко // Вестник Воронежского государственного университета. Серия: «Системный анализ и информационные технологии». - 2007. -№1. - С. 21-31.
7. Дрюченко М.А. Использование нейросетевых и статистических алгоритмов обнаружения стегоатак в интересах создания эффективной стегоаналити-ческой системы / М.А. Дрюченко, A.A. Сирота // Вестник Воронежского государственного университета. Серия: «Системный анализ и информационные технологии». - 2009. -№1. - С. 51-59.
8. Сирота A.A. Выявление стеганографически-скрытой информации с использованием нейросетевого алгоритма обнаружения «разладки» / А.А.Сирша, М.А. Дрюченко // Материалы IX международной научно-технической конференции «Кибернетика и высокие технологии XXI века» (С&Т-2008). - Воронеж, 2008. - С. 647-654.
9. Дрюченко М.А. Решение задачи стегоанализа с использованием статистических и нейросетевых алгоритмов обработки информации / М.А. Дрюченко, А.А.Сирота // Материалы X международной научно-технической конференции «Кибернетика и высокие технологии XXI века» (С&Т-2009). - Воронеж, 2009. - С. 241-251.
10. Дрюченко М.А. Нейросетевой алгоритм обнаружения «разладки» в интересах выявления стеганографически-скрытой информации / М.А. Дрюченко, A.A. Сирота // Материалы VIII международной научно-методической конференции «Информатика: проблемы, методология, технологии». - Воронеж, 2008. - С. 245-251.
11. Сирота A.A. Выявление стеганографического скрытия информации в звуковых файлах с использованием искусственных нейронных сетей и алгоритмов обнаружения «разладки» / А.А.Сирота, М.А. Дрюченко // Материалы IX международной научно-методической конференции «Информатика: проблемы, методология, технологии». - Воронеж, 2009. -Т.2. - С. 338-343.
12. Дрюченко МА. Косвенное обучение нейронных сетей для получения линейных оценок случайных полей в присутствии шума / М.А Дрюченко, Е.В. Воронова, A.A. Сирота // Материалы X международной научно-методической конференции «Информатика: проблемы, методология, технологии». - Воронеж, 2010. -Т.1. - С. 241-245.
13. Сирота A.A. Стеганографическое скрытие информации с использованием нейронных сетей автоассоциативного типа / А.А.Сирота, М.А.Дрюченко // Материалы X международной научно-методической конференции «Информатика: проблемы, методология, технологии». - Воронеж, 2010. - Т.2. - С. 210-215.
14. Дрюченко М.А. Программа для моделирования, обучения и тестирования нейронных сетей / М.А. Дрюченко // Свидетельство о государственной регистрации программы для ЭВМ № 2010613915 от 16.06.2010 г. (Федеральная служба по интеллектуальной собственности, патенгам и товарным знакам).
Работы № 1 - 4 опубликованы в изданиях, рекомендованных ВАК РФ.
Подписано в печать 23.12.10. Формат 60*84 '/|б. Усл. печ. л. 1,1 Тираж 100 экз. Заказ 1646.
Отпечатано с готового оригинал-макета в типографии Издательско-полиграфического центра Воронежского государственного университета. 394000, Воронеж, ул. Пушкинская, 3
Оглавление автор диссертации — кандидата технических наук Дрюченко, Михаил Анатольевич
Введение.
Глава 1. Модели, методы и алгоритмы стеганографического скрытия и анализа информации.
1.1. Основные принципы стеганографии. Используемая терминология.
1.1.1. Свойства стеганографических систем.
1.1.2. Классификация стеганографических систем.
1.1.3. Классификация методов стеганографического скрытия информации,.,
1.2. Алгоритмы стеганографического скрытия информации.
1.2.1. Известные алгоритмы стеганографического скрытия информации с использованием искусственных нейронных сетей.
1.3. Методы выявления стеганографически скрытой информации.
1.3.1. Основные принципы стегоанализа. Теоретические и практические аспекты стегоанализа.
1.3.2 Статистические методы выявления стеганографического скрытия информации.44?
1.3.3. Известные алгоритмы.стегоанализа с использованиемискусственных нейронных сетей.5Ь
Выводы по главе.
Глава 2. Нейросетевые функциональные модели и алгоритмы стеганографического скрытия информации.
2.1. Нейросетевая функциональная модель и статистический анализ процесса стеганографического скрытия информации.
2.2. Исследование предлагаемого метода стеганографического скрытия информации.
2.3. Рекомендации по выбору контейнера при реализации предлагаемого метода стеганографического скрытия информации.
Выводы по главе.
Глава 3. Синтез и анализ алгоритмов выявления стеганографически скрытой-информации при обработке аудио- и графических данных.
3.1. Восстановление авторегрессионных моделей естественных контейнеров данных с использованием искусственных нейронных сетей.
3.2. Постановка и решение задачи обнаружения стеганографически скрытой информации как задачи определения «разладки» при использовании нейросетевых авторегрессионных моделей случайных процессов и полей.
3.2.1. Общий подход к решению задачи стегоанализа на основе алгоритмов обнаружения разладки.
3.2.2. Нейросетевой алгоритм анализа скрытых закономерностей и выявления стеганографически-встроенной информации с использованием алгоритмов обнаружения разладки.
3.3. Практическая реализация и экспериментальные исследования нейросетевого алгоритма выявления стеганографически скрытой информации.
Выводы по главе.
Глава 4. Программный комплекс для решения задач стеганографического скрытия и анализа на основе комбинированного использования различных алгоритмов обработки информации.
4.1. Описание структуры разработанного программного комплекса.142'
4.2. Описание разработанной библиотеки классов для работы с нейронными сетями.
4.3. Результаты экспериментальных исследований и практические рекомендации по применению разработанных алгоритмов обработки информации.
Выводы по главе.
Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Дрюченко, Михаил Анатольевич
Постоянно растущие потребности обеспечения эффективности информационных систем и помехоустойчивости телекоммуникаций;для целей передачщ хранения и защиты информации стимулируют разработку новых методов и средств решения задач сохранения конфиденциальности и защите авторских прав на различные виды интеллектуальной собственности. В настоящий момент одними из наиболее востребованных технологий в этой области являются технологии, базирующаяся на использовании методов компьютерной стеганографии, позволяющие скрытно встраивать необходимые данные в любые информационные массивы и объекты цифрового контента (файлы аудио и видеоданных, файлы текстовых форматов, неподвижные изображения и пр.), чтобы обеспечить эффективную защиту от подделки, копирования^ и несанкционированного использования. Сегодня указанные технологии? широко: используются при решении задач создания; защищенной связи и передачи данных, аутентификации пользователей, создания цифровых водяных знаковш камуфлирования программного обеспечения.
В тоже время, как и другие средства, стеганография 'может быть использована, и в противоправных целях, например для скрытого хищения коммерческих и государственных секретов: Не менее важной; в этой связи; является обратная задача, или задача стегоанализа — обнаружения- скрытых стеганографическим способом: данных, их извлечение и уничтожение, а также анализ стойкости существующих стегоалгоритмов, и разработка новых методов выявления скрытой информации. Актуальность решения задач стегоанализа обуславливается необходимостью жесткого контроля потоков, информации во избежание утечек или нежелательной скрытой коммуникации. В зависимости от поставленных при разработке стегоаналитической системы задач и имеющихся ресурсов могут быть использованы методы как пассивного (анализ на наличие скрытой информации), так и активного (изменение потенциальных контейнеров с целью модификации либо уничтожения скрытой информации) стегоанализа [16].
Начиная с 1996 года, вопросам стеганографического встраивания сообщений в объекты цифрового контента посвящено множество исследований отечественных и зарубежных авторов [4,31,60,65,67,77-80]. Параллельно велась разработка и исследование практически значимых алгоритмов стегоанализа [5,9,16,71-74,94]. Проблемой разработки и усовершенствования методов стеганографии и стегоанализа занимаются многие отечественные и зарубежные ученые, в том числе: В.Г. Грибунин, И.В. Туринцев, И.Н. Оков, Б.Я. Рябко, О.Б. Макаревич, А.Н. Фионов, Н. Провос (N. Provos), Симмонс (G.J. Simmons), Д. Фридрих (J. Fridrich), Р. Андерсон (R. Anderson), В. Бендер (W. Bender), Питас (I. Pitas), X. Фарид (H. Farid), К. Салливан (К. Sullivan), и др. С каждым годом растет число публикаций, посвященных стеганографическому скрытию и стеганографическому анализу информации в различных приложениях. Наиболее популярные программы для стеганографического скрытия и стегоанализа основаны на алгоритмах, полученных в рамках этих научных исследований.
Один из недостатков большинства известных алгоритмов стеганографического скрытия информации (ССИ) заключается, в их детерминированности - используемые в данных алгоритмах процедуры встраивания реализуют строго определенные последовательности операций преобразования данных, образующие конечное множество вариантов. Например, при использовании алгоритма замены наименее значимых бит контейнера, всегда можно выделить множество элементов контейнера, потенциально содержащих биты сообщения, а при известной последовательности встраивания, становится возможным восстановить исходное сообщение. В-этом плане весьма важными, на наш взгляд, являются« исследования возможности применения» функциональных моделей преобразования данных в интересах создания перспективных технологий стеганографического «растворения» информации в файлах различных форматов, а также для исследования возможностей существующих алгоритмов стегоанализа с целью выявления, факта подобного «растворения». Для реализации функциональных моделей преобразования данных в подобной постановке, по мнению автора, весьма эффективным может оказаться применение нейросетевых алгоритмов обработки информации.
Анализ ряда публикаций [70,81,90,97] позволяет сделать вывод, что использование аппарата искусственных нейронных сетей (ИНС) для различных приложений стеганографии в настоящее время приобретает все большую популярность. Однако, несмотря на имеющиеся* исследования/ нельзя говорить о глубокой проработке технологий защищенного «нейросетевого» стеганографического скрытия данных. В представленных в открытой печати алгоритмах, нейронные сети (НС), как правило, применяются для генерации сообщений (аналог шифрования) или для предварительной селекции элементов контейнера для дальнейшего встраивания в них информации на основе общеизвестных алгоритмов. Принципиальные вопросы организации скрывающего и восстанавливающего стеганографического преобразования на основе нейросетевых технологий преобразования данных в известной литературе / освещены недостаточно.
Большинство из известных методов «пассивного» стегоанализа (СА) можно условно разделить на два класса - методы статистического анализа и методы универсального или «слепого» анализа [44,76,87,101]. Методы статистического стегоанализа^ как правило, ориентированы на обработку цифровых данных и. используют аппарат, математической статистики, применение которого позволяет выявить нарушения^ приводящие к изменению естественных статистических характеристик, свойственных анализируемому типу контейнеров! [12,16]. На практике статистические методы СА не всегда позволяют надёжно обнаруживать сообщения малой длины (менее 30% от максимальной степени заполнения контейнера), а также сообщения, скрытые вне изначально заданного представления контейнера. Методы универсального стегоанализа основаны на нахождении для анализируемого контейнера значений набора информативных признаков (метрик) разной контекстной зависимости, формировании многомерного вектора признаков и последующей его классификации [45,87]. Главным преимуществом универсальных методов стегоанализа является возможность простой адаптации, основанная на переобучении классификатора на новые форматы контейнеров и алгоритмы встраивания. Однако у методов данной группы также имеются недостатки. Перед их применением необходимо предварительное обучение на представительной выборке контейнеров, при этом процедура обучения требует серьезных временных затрат, а формирование обучающих множеств является самостоятельной трудоемкой задачей, от решения которой в конечном итоге будет зависеть качество работы стегоаналитической системы. Эффективность анализа зачастую определяется степенью соответствия параметров «чистых» контейнеров из представительной выборки и контейнеров, содержащих встроенные данные.
Анализ публикаций [66,69,83,98,100] также показал, что для решения основных задач универсального СА — идентификации и кластеризации успешно применяются искусственные нейронные сети. От традиционных (статистических) методов СА нейросетевой подход отличают принципиальная возможность нелинейной классификации и возможность построения дообучаемых процедур классификации, что особенно важно при использовании стегоаналитических методов в составе систем, работающих в реальном масштабе времени.
Недостатки современных универсальных методов стегоанализа связаны-с неоднозначностью процедуры формирования векторов информативных признаков для анализа естественных файлов-контейнеров и, как следствие, возможностью получения противоречивых результатов, а также вычислительной сложностью при обучении классификаторов, которые зачастую не обеспечивают необходимых результатов при решении задачи стегоанализа. Для решения указанных вопросов очевидна необходимость привлечения новых подходов, всестороннего сравнительного анализа и установления границ их применения.
Особую важность в настоящее время, в связи с ростом пропускной способности каналов передачи информации, приобретает задача разработки новых высокочувствительных алгоритмов СА, работающих с массивами данных в потоковом режиме, и способных в реальном времени оперативно выявлять присутствие стеганографического скрытия вне зависимости от особенностей организации скрытия и характеристик анализируемого цифрового контента. Перспективной задачей также представляется теоретическое и практическое исследование возможностей нейронных сетей для обработки информации при решении задач стегоанализа как в отдельности, так и в дополнение к статистическим методам и последовательным методам принятия решений. Анализ имеющихся публикаций, позволяет сделать вывод, что математические аспекты применения НС в задачах стеганографического скрытия и анализа данных на сегодняшний день проработаны недостаточно, и данное диссертационное исследование в определенной степени, призвано восполнить этот пробел.
Таким образом, тема диссертации, посвященная разработке и исследованию статистических, нейросетевых и комбинированных алгоритмов синтеза и анализа стеганографически скрытой информации в аудио- и графических данных, представляется актуальной.
Тема диссертации входит в план научно-исследовательских работ Воронежского государственного университета по кафедре информационных систем и непосредственно связана с научным* направлением Воронежского государственного университета «Математическое моделирование, программное и информационное обеспечение, методы вычислительной и прикладной математики и их применение к фундаментальным и прикладным исследованиям в естественных науках».
Тема диссертации соответствует специальности 05.13.17 — «Теоретические основы информатики» по следующим областям исследований: разработка и анализ моделей информационных процессов и структур (п.2 паспорта специальности); разработка и исследование моделей и4 алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях (п.5 паспорта специальности); разработка методов обеспечения высоконадежной обработки информации и обеспечения помехоустойчивости информационных коммуникаций для целей передачи, хранения и защиты информации (п.11 паспорта специальности).
Целью работы является разработка и исследование алгоритмов стеганографического встраивания и выявления скрытых сообщений в графических и звуковых файлах с использованием статистических и нейросетевых алгоритмов обработки информации в интересах создания эффективных технологий и программных средств стеганографического скрытия данных, а также оперативной диагностики скрытно-встроенной информации.
Объектом исследования выступают информационные системы и процессы хранения, обработки и передачи информации, использующие технологии стеганографического скрытия информации в аудио- и графических данных.
Предметом исследования является математическое и программное обеспечение для анализа и моделирования информационных процессов стеганографического встраивания и выявления факта стеганографического скрытия информации в объектах цифрового контента при комбинированном использовании статистических и нейросетевых алгоритмов обработки информации.
Для достижения цели в работе рассматриваются и решаются следующие задачи.
1. Исследование и анализ известных методов стеганографического встраивания и обнаружения скрытых сообщений в рамках статистического > и нейросетевого подходов.
2. Разработка и исследование нейросетевых функциональных моделей преобразования данных в интересах решения задач стеганографического встраивания, а также разработка методики для оценки потенциальных возможностей восстановления ранее скрытой информации.
3. Разработка комбинированных алгоритмов обнаружения факта стеганографического встраивания информации в потоках данных, сочетающих использование нейросетевого подхода для восстановления авторегрессионной модели анализируемого контейнера со статистическим подходом обнаружения «разладки», фиксирующей изменения параметров анализируемого процесса при наличии встраивания.
4. Проведение экспериментальных исследований возможностей разработанных алгоритмов для анализа реальных контейнеров . (файлов графических и звуковых форматов) на предмет наличия в них информации, встроенной с использованием различных алгоритмов стеганографического скрытия.
5. Разработка программных средств для моделирования различных алгоритмов стеганографического скрытия информации в файлы распространенных форматов, а также для реализации комплексного применения стегоаналитических алгоритмов, реализующих различные подходы к обработке информации.
Методы проведения исследования. При решении поставленных в диссертации задач использовались аналитические и вычислительные методы современной теории информационных процессов и систем; а именно: аппарат теории принятия статистических решений; методы теории^ вероятностей и математической статистики; технологии объектно-ориентированного программирования; методы и технологии статистического имитационного моделирования, а также аппарат искусственных нейронных сетей.
Основные результаты, выносимые на защиту, и их научная новизна. На защиту выносятся следующие результаты, впервые достаточно подробно развитые или>полученные в настоящей работе:
1. Метод стеганографического скрытия» информации в файлы» различных форматов, отличающийся* использованием нейросетевой функциональной модели преобразования данных при встраивании информации и статистически оптимальных алгоритмов принятия решения при восстановлении ранее встроенных данных, применение которого обеспечивает повышение защищенности скрывающего и восстанавливающего преобразований и позволяет расширить область применения на контейнеры с вещественными форматами представления данных.
2. Теоретические обоснования сходимости весовых коэффициентов нейронных сетей при восстановлении авторегрессионных моделей случайных процессов и полей по экспериментальным данным в условиях прямого и косвенного обучения, что позволило обосновать возможность использования нейронных сетей для решения задач синтеза и анализа стеганографически скрытой информации в рассматриваемой постановке.
3. Комбинированные алгоритмы выявления ССИ и достижимые характеристики достоверности обработки информации, особенностью которых является совместное применение нейросетевых алгоритмов восстановления авторегрессионных моделей обрабатываемых данных и последовательных алгоритмов обнаружения «разладки», а также известных статистических критериев анализа, что позволило обеспечить повышение надежности и оперативности выявления факта стеганографического скрытия данных при обработке контейнеров графических и звуковых форматов.
4. Структура и алгоритмы функционирования программного комплекса для анализа мультимедийных файлов различных форматов на наличие стеганографически скрытой информации, отличающиеся реализацией комбинированного подхода на основе использования взаимно дополняющих методов и алгоритмов анализа данных, что позволяет свести к минимуму вероятности ошибок первого и второго рода при обнаружении факта стеганографического скрытия информации. Практические рекомендации по комплексному применению различных алгоритмов обработки информации в стегосистемах.
Научная новизна полученных результатов работы определяется следующим.
1. Предложен и теоретически обоснован метод ССИ на основе двух типов нейросетевых функциональных моделей преобразования данных: прямого скрывающего и обратного восстанавливающего* преобразований. Обоснован выбор типа и архитектуры НС прямого распространения для встраивания и восстановления двоичных последовательностей данных. Показано, что для встраивания двоичной (битовой) последовательности данных целесообразно использовать двухслойную линейную сеть автоассоциативного типа с уменьшенным на единицу по сравнению с размерностью входного и выходного вектора числом нейронов в скрытом слое. Для восстановления ранее скрытой последовательности целесообразно применять линейную или нелинейную нейронную сеть прямого распространения, реализующую двухальтернативное решающее правило при извлечении двоичной последовательности данных. Предложена статистическая модель стеганографического встраивания битовой последовательности с помощью нейронной сети, автоассоциативного типа, основанная на представлении файлов-контейнеров в виде гауссовских случайных векторов, и методика оценки потенциальной достоверности восстановления ранее скрытой информации. Получены зависимости вероятности достоверного восстановления элементов встроенной информации от различных параметров статистической модели, исследована возможность извлечения скрытых данных в модели активного нарушителя, которая показала достаточно высокий уровень стойкости алгоритма.
2. Получены необходимые и достаточные доказательство сходимости весовых коэффициентов НС линейного типа при восстановлении регрессионных и авторегрессионных моделей случайных процессов и полей по экспериментальным данным в условиях прямого и косвенного обучения. Полученные теоретические результаты и результаты имитационного моделирования свидетельствуют о том, что весовые1 коэффициенты- нейронных сетей линейного* типа* при увеличении объема обучающих примеров сходятся по вероятности к соответствующим элементам матриц, описывающих статистические связи случайных векторов.
Выявленные возможности нейронных сетей позволяют обосновать целесообразность их использования для построения функциональных моделей преобразования данных при реализации предложенного метода скрытия информации, а также для восстановления моделей естественных контейнеров при отсутствии априорной информации относительно их статистических характеристик в интересах построения алгоритмов стегоанализа, ориентированных на обнаружение факта стеганографического скрытия информации. 1
3. В предложенном комбинированном алгоритме обнаружения факта стеганографического скрытия информации реализовано сочетание нейросетевого алгоритма восстановления авторегрессионной модели анализируемого случайного процесса (звукового сигнала) или случайного поля (изображения) с использованием обучающей выборки «чистых» контейнеров, не содержащих скрытой информации, со статистическим последовательным алгоритмом обнаружения разладки, фиксирующим изменение параметров? этой модели, при встраивании в процесс дополнительных данных. Для обнаружения* разладки целесообразно использовать статистику алгоритма кумулятивных сумм в форме разложения Ле-Кама, настроенную на фиксацию изменения моментов ошибки экстраполяции нейронной сетью очередного элемента анализируемого контейнера.
Исследована возможность дополнительного использования известных статистических критериев анализа данных в качестве вторичных данных при формировании обучающих примеров для нейронной* сети, обучаемой в «стационарном» режиме и используемой для фиксации разладки, что обеспечивает повышение достоверности и оперативности выявления факта встраивания информации при обработке интенсивных потоков данных.
4. При разработке программных средств для моделирования и анализа современных и перспективных стегосистем реализован, комплексный подход, в основе которого лежит применение разнородных статистических и нейросетевых алгоритмов анализа файлов-контейнеров звуковых и графических форматов, а' также широкого перечня моделей стеганографического встраивания информации для проведения тестирования1 используемых алгоритмов стегоанализа. В" ходе экспериментальных исследований, выполненных на естественных файлах-контейнерах звуковых и графических форматов, показано, что комбинированное использование статистических, нейросетевых, сигнатурных и, структурных алгоритмов анализа позволяет существенно сократить вероятность ложного обнаружения ССИ (до уровня менее 1%), повысить надежность и оперативность выявления факта информационного скрытия по сравнению с многими известными алгоритмами СА, а также сопоставить природу стеганографического скрытия с использованными алгоритмическими и программными средствами.
Достоверность результатов работы. Результаты исследований, сформулированные в диссертации, получены на основе корректного использования взаимно дополняющих друг друга теоретических и экспериментальных (имитационное моделирование) методов исследований, совпадением результатов, полученных различными методами, между собой, а, в. ряде частных случаев, с известными, наглядной физической трактовкой' установленных закономерностей и соотношений.
Анализ разработанных статистических и нейросетевых алгоритмов обработки стеганографически скрытой информации проводился как с использованием статистических моделей, так и путем экспериментирования с естественными файлами-контейнерами. Построенные в ходе экспериментального анализа зависимости для различных показателей качества нейросетевых алгоритмов встраивания данных хорошо согласуются с результатами, полученными на основе аналитических соотношений, а также с результатами статистического моделирования на ЭВМ.
В целом полученные в диссертации выводы и рекомендации формулировались на основе всестороннего обсуждения результатов исследований, допускают ясное физическое истолкование, имеют понятную содержательную трактовку и совпадают в ряде частных случаев с известными* результатами, полученными другими авторами.
Значимость для науки и практики. Теоретическая значимость результатов диссертационной работы заключается в том, что* полученные методические и экспериментальные результаты отвечают потребностям важного направления - разработке и совершенствованию методов и алгоритмов стеганографического скрытия и стегоанализа в интересах создания эффективных информационных технологий и программного обеспечения для сохранения конфиденциальности информации и защиты авторских прав на некоторые виды цифровой интеллектуальной собственности; а также для оперативной диагностики потоков данных на предмет наличия скрытно-встроенной информации.
Полученные в диссертации аналитические выражения и зависимости для характеристик синтезированных алгоритмов позволяют обоснованно выбрать необходимый алгоритм в соответствии с требованиями, предъявляемыми к показателям качества обработки информации, с учетом, существующих ограничений и дестабилизирующих факторов, а также исходя1 из соображений программной реализации.
Применение предложенной автором нейросетевой модели преобразования данных в компьютерной стеганографии позволяет перейти от технологий встраивания данных на основе логически предопределенных алгоритмов к технологии «растворения» данных в мультимедийных файлах-контейнерах, что имеет существенное значение как для решения основной задачи стеганографии, так и в качестве базовой модели информационного процесса, для решения задачи стегоанализа.
Результаты диссертационной работы имеют значение для разработки алгоритмического и программного обеспечения в интересах диагностики аудио- и* графических данных на предмет наличия в них скрытно-встроенной информации, средств создания цифровых водяных знаков и защиты-авторских прав на объекты цифровой интеллектуальной1 собственности- обеспечивающих« эффективную защиту от подделки, копирования? и несанкционированного использования' данных.
Реализация результатов работы. Полученные в диссертацишрезультаты в части разработки нейросетевых алгоритмов обработки информации и. многофункциональных программных средств для моделирования и исследования нейронных сетей реализованы в Воронежском государственном университете при-выполнении НИР «Кассиопея-ВГУ», «Фобос-ВР», ООО «Фото Технологии В» при выполнении НИОКР' «Программное обеспечение для реализации новой информационной технологии защиты авторских прав на основе создания цифровых водяных знаков с использованием нейросетевых функциональных моделей преобразования данных», а также ФГУП ВНИИ «Градиент» в НИР «Фобос-Н».
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались: на XII Международной конференции «Цифровая обработка сигналов и ее применение» (Москва) в 2010 году; на IX, X Международных научно-технических конференциях «Кибернетика и высокие технологии- XXI века» (Воронеж) в 2008, 2009 годах; на VIII, IX, X Международных конференциях «Информатика: проблемы, методология, технологии» (Воронеж) в 2008, 2009 и 2010 годах.
Публикации. По теме диссертации опубликовано 14 работ, в том числе 4 статьи в изданиях, рекомендованных ВАК. В совместных работах научному руководителю принадлежит постановка задачи и определение направления исследований. В этих работах автору принадлежит доказательство теорем и проведение рассуждений, необходимых для решения поставленных задач, организация экспериментов для обоснования алгоритмов, полученных теоретическим путем, анализ и интерпретация полученных результатов, а также разработка программных модулей для работы с искусственными нейронными сетями и модулей для реализации стеганографического скрытия и анализа данных различных форматов. В работах [20,14], опубликованных с участием других соавторов, соискателем предложены комбинированные алгоритмы выявления стеганографически. скрытой информации, основанные на комплексном-применении известных статистических критериев анализа данных, выполнены теоретические обоснования и доказательство сходимости весовых коэффициентов нейронных сетей« при восстановлении авторегрессионных моделей случайных процессов и полей по экспериментальным данным в условиях прямого и косвенного обучения.
Объем- и структура диссертационной работы. Диссертация состоит из введения, четырех разделов, заключения и списка литературы из 104 наименований. Объем диссертации составляет 192 страницы, включая 180 страниц основного текста, содержащего 46 рисунков, и 12 страниц списка литературы.
Заключение диссертация на тему "Статистические и нейросетевые алгоритмы синтеза и анализа стеганографически скрытой информации в аудио- и графических данных"
Выводы по главе
1. Разработан программный комплекс для стеганографического анализа файлов графических и звуковых форматов, а также для реализации надежного стегоскрытия в файлы текстовых, графических и звуковых форматов. Комплекс разработан в среде Borland C++Builder 6.0 и предназначен для функционирования в операционной системе Windows 2000/Windows ХР. К достоинствам программного комплекса можно отнести комбинированное использование статистических, нейросетевых, сигнатурных и структурных алгоритмов анализа естественных контейнеров, что позволяет существенно повысить надежность выявления ССИ, а также высокую скорость работы и удобный, интуитивно понятный интерфейс. Для нормальной работы программы в среде не требуется установка дополнительного программного обеспечения, включая компиляторы и библиотеки.
2.Рассмотрены вопросы программной реализации нейросетевых алгоритмов обработки информации при разработке специализированного программного обеспечения. Сделан вывод о необходимости создания интегрируемой библиотеки классов, позволяющей моделировать и обучать НС с оптимизацией под решение конкретных задач. Разработана и реализована многофункциональная библиотека классов для моделирования и исследования- нейронных сетей различной архитектуры. Реализованные классы для» работы с НС имеют самостоятельное значение и могут применяться, как в рамках процедуры CA, так и отдельно. Их можно использовать для решения задач стеганографического синтеза и анализа без необходимости установки специализированных пакетов, например, таких как Matlab. Проведено сравнительное тестирование производительности алгоритмов обучения разработанной библиотеки с реализациями1 соответствующих алгоритмов на Matlab Neural Network Toolbox, показавшее преимущество разработанных модулей в скорости обучения в 2.4 раза по сравнению с возможностями нейросетевого пакета прикладных программ среды Matlab при обучении на данных малой и средней размерности.
2. Проанализирован целый ряд специализированных программ, доступных в Internet, предназначенных для ССИ и CA данных. Выявлены их основные преимущества и недостатки. Проведен сравнительный анализ результатов работы стегоаналитической части разработанного программного комплекса с программами сторонних разработчиков, который показал ее существенно большую надежность при обнаружении скрытой информации. Проведены экспериментальные исследования по комплексному применению различных стегоаналитических алгоримтов при анализе графических и звуковых файлов.
Комплексное использование различных алгоритмов СА в разработанных программных модулях предоставляет большую свободу выбора при принятии гипотез о скрытии, в ряде случаев показывает большую эффективность по сравнению с известными алгоритмами СА и позволяет сопоставить природу стеганографического скрытия с использованными программными и алгоритмическими средствами. На примере анализа контейнеров графических и звуковых форматов показано, что при уровне заполнения контейнера более чем на 50% данными, встроенными с использованием различных алгоритмов, вероятность выявления факта ССИ превышает 90%. Практическая значимость разработанных методик стегоанализа и программного комплекса заключается в возможности выявления подозрительных графических, аудио- и видеофайлов и пресечении утечки информации. Программный комплекс также может быть полезен для оценки стеганографической стойкости и выявления уязвимостей при разработке и исследовании новых методов и алгоритмов стеганографического скрытия информации.
Заключение
В ходе выполнения диссертационной работы поставлены и решены следующие научные задачи:
- рассмотрены и проанализированы результаты ранее выполненных исследований, посвященных вопросам стеганографического синтеза и анализа данных с использованием статистических и нейросетевых алгоритмов обработки информации;
- сформулирована постановка задачи стеганографического встраивания информации на основе нейросетевых функциональных моделей преобразования данных, дано теоретическое обоснование нового метода стеганографического скрытия с использованием многослойных нейронных сетей прямого распространения и выполнены его экспериментальные исследования на основе статистической модели обрабатываемых данных, представляемых в виде случайных векторов, а также естественных файлов-контейнеров;
- исследованы вопросы построения алгоритмов выявления факта информационного скрытия на основе восстановления авторегрессионной модели анализируемого контейнера с использованием нейросетевого подхода и применения последовательных алгоритмов обнаружения разладки, обеспечивающих минимальное время обнаружения изменения статистических характеристик контейнера при заданном уровне вероятности ложной тревоги;
- рассмотрены вопросы комплексной реализации статистических и нейросетевых алгоритмов обработки информации в интересах разработки специального программного обеспечения, предназначенного для эффективного выявления стеганографического скрытия информации, а также для моделирования различных алгоритмов стеганографического встраивания данных в файлы распространенных форматов.
В ходе проведенных исследований получены следующие новые результаты и выводы.
1. Предложен и теоретически обоснован метод стеганографического скрытия информации в аудио- и графических данных на основе нейросетевых функциональных моделей преобразования данных, применение которого обеспечивает повышение защищенности скрывающего и восстанавливающего преобразований и позволяет расширить область применения ССИ на контейнеры, с вещественными форматами представления данных. Обоснован выбор архитектуры и типа нейронных сетей для встраивания и восстановления ранее скрытой информации, показаны преимущества и недостатки применений нейронных сетей линейного и нелинейного типов, используемых для встраивания и извлечения сообщений. Для встраивания информации целесообразно использовать двухслойную линейную сеть автоассоциативного типа с числом нейронов в скрытом слое на единицу меньше размерности входного вектора-контейнера. Для восстановления информации, целесообразно применять линейную или нелинейную нейронную сеть прямого распространения, реализующую двухальтернативное решающее правило при извлечении, двоичной последовательности данных.
Предложена статистическая модель стеганографического встраивания битовых последовательностей в файлы-контейнеры, представляемые в виде гауссовских случайных векторов, и методика- анализа и оценки достоверности восстановления данных с помощью нейронных сетей в процессе стеганографического скрытия и извлечения информации. При использовании нейронных сетей линейного типа отмечена и исследована принципиальная возможность уменьшения амплитуды встраиваемого сигнала-сообщения по сравнению с амплитудой сигнала, использованного для обучения сети, что позволяет существенно уменьшить искажения итогового заполненного контейнера, с сохранением приемлемой вероятности корректного восстановления скрытого сообщения.
Получены зависимости вероятности достоверного восстановления элементов встроенной информации для различных параметров статистической модели. Так, при значении амплитуды встраиваемого сигнала 0.5, допустимая амплитуда шума, при которой скрытая битовая последовательность восстанавливается безошибочно, составляет порядка 10"4. Исследована возможность извлечения скрытых данных в модели активного нарушителя, которая показала достаточно высокий уровень скрытности алгоритма.
В предложенной функциональной модели скрытия и восстановления данных для эффективного обучения нейронных сетей входной сигнал, как правило подвергается нормировке, поэтому, чтобы не производить дополнительных преобразований значений векторов контейнера из целочисленной в вещественную форму и обратно, при которых может произойти потеря информации, необходимой для восстановления сообщения, в качестве контейнеров целесообразно выбирать файлы, содержащие большие массивы значений вещественных переменных. В этих целях предложено использовать форматы файлов для описания геометрии трехмерных (ЗИ) объектов и формировать обучающие и тестовые выборки из вещественных значений пространственных координат. В этом случае скрытие информации будет происходить не в отдельные байты контейнера, а в само содержимое файла.
2. Выполнены теоретические обоснования и доказательство сходимости весовых коэффициентов нейронных сетей линейного типа при восстановлении регрессионных и авторегрессионных моделей случайных процессов и полей по экспериментальным данным в условиях прямого и косвенного обучения. Полученные теоретические результаты и результаты моделирования свидетельствуют о том, что весовые коэффициенты нейронных сетей линейного типа при увеличении объема обучающих примеров сходятся по вероятности к соответствующим элементам матриц, описывающих статистические связи случайных векторов. Это позволяет использовать их в задачах восстановления регрессионных и авторегрессионных моделей по прямым и косвенным наблюдениям случайных векторов, описывающих многомерные случайные процессы и случайные поля.
Выявленные возможности нейронных сетей позволяют обосновать целесообразность использования нейронных сетей для построения функциональных моделей преобразования данных при реализации предложенного метода скрытия информации, а также для восстановления моделей естественных контейнеров при отсутствии' априорной информации относительно их статистических характеристик при построении алгоритмов стегоанализа, реализующих обнаружение факта стеганографического скрытия информации.
3. Предложен комбинированный алгоритм обнаружения факта стеганографического скрытия, в котором реализовано сочетание нейросетевого алгоритма восстановления авторегрессионной модели анализируемого случайного процесса (звукового сигнала) или случайного поля (изображения) в «стационарном»'режиме (с использованием выборки «чистых» контейнеров, не содержащих скрытой информации) со статистическим последовательным алгоритмом обнаружения разладки, фиксирующим^ изменение параметров этой модели при встраивании в сигнал дополнительных данных. Для обнаружения разладки целесообразно использовать статистику алгоритма кумулятивных сумм в форме разложения JIe-Кама, настроенную на фиксацию- изменения* статистических характеристик ошибки, экстраполяции очередного элемента анализируемого контейнера по совокупности ранее полученных наблюдений.
Исследована возможность дополнительного использования известных, статистических критериев* в качестве вторичных данных при формировании обучающих примеров нейронной, сети, обучаемой» в «стационарном» режиме и используемой для фиксации разладки, что обеспечивает повышение достоверности-' и оперативности выявления факта встраивания информации при. обработке интенсивных потоков данных.
Экспериментальное исследование предложенного алгоритма стегоанализа показало, что на достоверность и эффективность выявления факта стеганографического скрытия информации в общем случае влияет большое число параметров, включая размерность входных и выходных данных, используемых при формировании модели контейнера, параметры и архитектура нейронной сети, используемой для обучения в «стационарном» режиме, характер анализируемого контейнера, наличие в нем областей существенной нестационарности и пр. При исследовании работы предложенного алгоритма для анализа естественных контейнеров звуковых и графических форматов на наличие информации, встроенной с использованием различных модификаций алгоритма' наименее значимых бит, установлено, что лучшие результаты в смысле вероятности вскрытия и точности определения начала области скрытия, фиксируются при последовательном встраивании в наименее значимые биты контейнера; при этом длина сообщения существенного значения не имеет. При последовательном встраивании бит без коррекции их статистических характеристик, предложенный алгоритм стегоанализа позволяет выявлять скрытые аномалии- даже в случае, когда заполнение контейнера не превышает 5%, из чего можно сделать вывод, что его лучше всего использовать для анализа однородных непрерывных потоков данных (потоковых контейнеров) в условиях априорной неопределенности относительно статистических характеристик данных-контейнера и момента начала области скрытия.
4. Для исследования, вопросов практического применениям и оценки эффективности широкого перечня1 алгоритмов, стеганографического скрытия и стеганографического анализа информации в среде- Borland C++Builder 6.0 разработан1 программный комплекс,. обеспечивающий возможность комбинированного применения различных подходов для анализа^ контейнеров звуковых и графических форматов, а также реализующий надежное встраивание* пользовательских данных в файлы текстовых, графических и звуковых форматов. Разработанные модули стеганографического скрытия информации позволяют моделировать и исследовать различные варианты встраивания данных, включая выбор определенных областей контейнера, согласно формату его представления, определение числа младших двоичных разрядов элементов контейнера, подвергающихся модификации, выбор алгоритма записи бит сообщения и пр. Для моделирования и применения нейросетевых алгоритмов обработки информации, без необходимости установки специализированных, пакетов (таких, например, как Matlab) была разработана и реализована многофункциональная библиотека классов для работы с нейронными сетями архитектуры многослойный перцептрон. Полученные алгоритмические и программные решения позволяют повысить быстродействие обучений нейронной сети указанной архитектуры в 2.4 раза по сравнению с возможностями нейросетевого пакета прикладных программ среды Ма^аЬ.
В ходе экспериментальных исследований, выполненных на естественных файлах-контейнерах звуковых и графических форматов, показано, что комбинированное использование статистических, нейросетевых, сигнатурных и структурных алгоритмов анализа, позволяет, повысить надежность и оперативность выявления факта информационного скрытия,
Как показали результаты экспериментальных исследований, выполненные на примере анализа естественных графических и звуковых контейнеров, комбинированное использование статистических, нейросетевых, сигнатурных и структурных алгоритмов анализа, позволяет существенно сократить вероятность ложного обнаружения ССИ (до уровня менее 1%), позволяет повысить надежность и оперативность выявления скрытой; информации по сравнению с многими известными алгоритмами С А, а Также сопоставить природу стеганографического скрытия с использованными алгоритмическими? и программными средствами. При уровне заполнения контейнеров графических и звуковых форматов более чем на 50% данными, встроенными с использованием различных алгоритмов, вероятность выявления факта ССИ превышает 90%, с одновременным сохранением минимальной вероятности ложных тревог.
Библиография Дрюченко, Михаил Анатольевич, диссертация по теме Теоретические основы информатики
1. Алгазинов Э.К. Анализ и компьютерное моделированиеинформационных процессов и систем / Э.К. Алгазинов, A.A. Сирота. М.:1. Диалог-МИФИ, 2009. 416 с.
2. Андерсон Т. Введение в многомерный статистический анализ / Т. Андерсон. Физматлит, 1963. - 500 с.
3. Афанасьев В.Н. Анализ временных рядов и прогнозирование / В.Н. Афанасьев, М.М. Юзбашев. Финансы и статистика, 2001. — 228 с.
4. Барсуков B.C. Оценка уровня скрытности мультимедийныхстеганографических каналов хранения и передачи информации / B.C. Барсуков,f
5. А.П. Романцов. URL: (http://www.bnti.rU/dbtexts/analmat/2/barsukov.pdf) (дата обращения: 20.11.2010).
6. Бородин Г.А. Классификация критериев выбора контейнера для LSB-метода / Г.А. Бородин, C.B. Чиркова // Радиоэлектроника, электротехника и энергетика 13-ая межд. науч.-техн. конф. студ. и асп. — М.: МЭИ. — 2007. Т.1. С. 400-401.
7. Вальд А. Последовательный анализ / А. Вальд М. Физматлит, 1960. —328 с.
8. Васильев С.Н. От классических задач регулирования к интеллектному управлению / С.Н. Васильев // Изв. РАН. Теория и системы управления. 2001 — №2.-С. 8-21.
9. Генне О.В. Защита информации / О.В. Генне // Конфидент. 2000. - №3. -С. 20-25.
10. П.Гнеденко Б.В. Приоритетные системы обслуживания / Б.В. Гнеденко, Э.А. Даниелян, Б.Н. Димитров и др. М.: Изд-во МГУ, 1973. - 447 с.
11. Головачев В.Ю. Практические оценки стойкости некоторыхстеганографических систем / В.Ю. Головачев, P.M. Ковалев, И.Н. Оков // Защитаинформации; Конфидент. 2000. - №6. - с.60-67.
12. Головенко В.А. Нейронные сети: обучение, организация и применение. Кн. 4: Учеб: Пособие для вузов / A.B. Головенко, под ред. А.И. Галушкина. -М.: ИПРЖР, 2001.-256с.
13. Ы\ Голуб В .А; Комплексный подход для? выявления стеганографического скрытия в JPEG-файлах / В.А. Голуб, М.А. Дрюченко // Инфокоммуникационные технологии. 2009. - №1. - С. 44-50: ^
14. Гультяев А.К. Визуальное моделирование в среде MATLAB / А.К. Гультяев. СПб.: Питер, 2000. - 430 с.
15. Дрюченко М.А. Математическое и- программное обеспечение для решения задачи стегоанализа на основе статистических и нейросетевых алгоритмов обработки информации- / М.А. Дрюченко, A.A. Сирота // Информационные технологии. 2010. - №4. - С. 14-22.
16. Дрюченко М.А. Нейросетевой алгоритм выявления стеганографически скрытых сообщений методом обнаружения «разладки» / М.А. Дрюченко, A.A. Сирота // Радиотехника. 2008. - №11. - С. 24-28.
17. Дрюченко М.А. Нейросетевой алгоритм обнаружения «разладки» винтересах выявления стеганографически-скрытой информации / М.А. Дрюченко,
18. A.A. Сирота // Материалы VIII международной научно-методической конференции «Информатика: проблемы, методология, технологии». Воронеж, 2008.-С. 245-251.
19. Дрюченко М.А. Нейросетевые модели и алгоритмы стеганографического скрытия информации. / A.A. Сирота, М.А. Дрюченко // Труды Российского научно-технического общества радиотехники, электроники исвязи имени A.C. Попова. Москва, 2010; -Т.2. — С. 335-338.
20. Дрюченко М.А. Стеганографическое. скрытие информации с использованием нейронных сетеш: автоассоциативного типа / А.А.Сирота, М.А. Дрюченко // Материалы X международной научно-методической; конференции-л
21. Информатика: проблемы, методология; технологии». — Воронеж,.2010. Т.2. — С.' 210-215: L30! Заде JI!A. Теория^ линейных систем; Метод пространства4 состояний- / Л.А. Заде: -М:: Наука, 1970: -704 с.
22. Коханович Г.Ф. Компьютерная?стеганография: Теория;шпрактикаг/ Г.Ф. Коханович; А.Ю: Пузыренко; К.: МК-Пресс, 2006. - 288 с.
23. Марпл С.Л: Цифровой спектральный анализ и его приложения / С.Л. Марпл. М.: Мир, 1990. - 265 с.
24. Миано Дж. Форматы и алгоритмы сжатия изображений в действии / Дж. Миано. М.: ТРИУМФ; 2005. - 330 с.
25. Никифоров И.В. Последовательное обнаружение изменения свойств временных рядов / И.В. Никифоров. М! : Наука, 1984. - 199 с.
26. Осовский G. Нейронные сети для обработки информации / С. Оссовский. М.: Мир, 1979. - 318 с.
27. Петраков A.B. Защита абонентского телетрафика?/ A.B. Петраков, В Лагутин: М£: Радио и связь, 2001.— 504 с.
28. Пригарин С.М. Методы численного моделирования случайных процессов и полей / С.М. Пригарин. ИВМиМГ СО РАН, 2005. - 259 с.
29. Программа для моделирования! нейронных сетей «Fast Artificial* Neural Network Library» : сайт.': URL: http://fann.sourceforge.net/fann.html' (дата обращения: 20.11.2010).
30. Программы для моделирования нейронных сетей «NeuroSolütions» : сайт. URL: http://www.neurosolutions.com (дата обращения: 20.11.2010).
31. Программа для моделирования нейронных сетей «Qnet v2000» : сайт. — URL: http://www.qnetv2k.com (дата обращения: 20.11.2010).
32. Программа для моделирования нейронных сетей «Stuttgart Neural Network Simulator» : сайт. URL: http://www.ra.cs.uni-tuebingen.de/downloads/SNNS/Executables (дата обращения: 20.11.2010).
33. Pao С.Р. Линейные статистические методы и,их применение / С.Р. Pao. -Наука, 1968. 547 с.
34. Растригин Л.А. Адаптация сложных систем' / Л.А. Растригин. Рига: Зинатне, 1981.-375 с.
35. Рублёв Д.П. Обнаружение скрытых сообщений в изображениях на основе вейвлет-декомпозиции- / Д.П. Рублёв, В.Mí Фёдоров; О.Б. Макаревич // Информационное противодействие угрозам терроризма. ТРТУ, Таганрог, 2005. -С. 170-175.
36. Рублев Д.П. Разработка и исследование высокочувствительных методов стегоанализа: Дис. канд. тех. наук: 05.13.19 / Юж. федер. ун-т. Таганрог, 2007. -139 с.
37. Саватеев Е.О. Построение стеганографической системы на базе протокола IPv4 / Е.О. Саватеев // Security Lab. 2006. - URL: http://www.securitylab.ru/contest/264960.php (дата обращения: 20.11.2010).
38. Савченко B.B. Прогнозирование социально-экономических процессов на основе адаптивных методов спектрального оценивания / В.В. Савченко // Автометрия. 1999. - № 3. - С. 99-108.
39. Сирота A.A. Нейросетевые модели и алгоритмы имитации текстур цветных изображений земной поверхности / A.A. Сирота, О.В*. Маслов // Нейрокомпьютеры: разработка и применение. 2005. - № 4. - С. 52-58.
40. Сирота A.A. Обнаружение микроколебаний объектов Hav основе нейросетевых алгоритмов обработки данных голографического интерферометра / A.A. Сирота, В.Г. Попов, В.А. Шульгин // Изв. Вузов. Радиоэлектроника. 2007. -Т.50. -№3-4, ч. 2.-С. 31-41.
41. Сирота A.A. Свойства сходимости весов автоассоциативной двуслойной линейной нейронной сети при построении сжимающих отображений случайных векторов1 / A.A. Сирота, В.Г. Попов // Нейрокомпьютеры: разработка и1.применение. 2009. - №5. - С. 3-11.
42. Скобцов.Ю. А. Программная реализация нейронных сетей для обученияt 186i
-
Похожие работы
- Исследование и разработка методов и алгоритмов стеганографического анализа отдельных контейнеров и их связанных наборов
- Методика построения энтропийных стеганографических систем защиты сообщений в информационных сетях
- Разработка моделей, методов и алгоритмов перспективных средств защиты информации в системах электронного документооборота на базе современных технологий скрытой связи
- Нейросетевые сжимающие преобразования данных и алгоритмы создания цифровых водяных знаков в объектах мультимедиа графических и звуковых форматов
- Математическое моделирование средств маркировки и идентификации полиграфической продукции с использованием стеганографии
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность