Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет

Гвоздев, Алексей Вячеславович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет

кандидата технических наук: Гвоздев, Алексей Вячеславович
город: Санкт-Петербург
год: 2013
специальность ВАК РФ: 05.13.19

Диссертация по информатике, вычислительной технике и управлению на тему «Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет»

Автореферат диссертации по теме "Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет"

005052172

Гвоздев Алексей Вячеславович

Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет

Специальность: 05.13.19 - «Методы и системы защиты информации, информационная безопасность»

Автореферат диссертации на соискание ученой степени кандидата технических наук

1 8 АПР тз

Санкт-Петербург - 2013

005052172

Работа выполнена в Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики.

Научный руководитель

Официальные оппоненты

доктор технических наук, доцент

Лебедев Илья Сергеевич

доцент кафедры "Безопасные информационные

технологии" НИУ ИТМО

доктор технических наук, профессор Искандеров Юрий Марсович

Генеральный директор ООО "Инновационный центр транспортных исследований"

кандидат физико-математических наук, доцент

Кривцов Александр Николаевич

Доцент кафедры информационных систем в экономике

СПбГУ

Ведущая Федеральное государственное унитарное предприятие

организация «ЦентрИнформ»

Защита состоится «20» марта 2013 года в 15 час. 50 мин. на заседании диссертационного совета Д.212.227.05 при Санкт-Петербургском национальном исследовательском университете информационных технологий механики и оптики (НИУ ИТМО) по адресу: 197101, Санкт-Петербург, Кронверкский пр., д.49.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского национального исследовательского университета информационных технологий механики и оптики.

Автореферат разослан «20» февраля 2013 года.

Ученый секретарь диссертационного совета Д.212.227.05

кандидат технических наук, доцент

Поляков В.И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

В условиях динамичных социальных преобразований, происходящих в мире и сопровождающихся стремительным проникновением глобальных вычислительных сетей в огромное количество сфер деятельности человека, возникает задача автоматизированной обработки информации с целью выявления угроз информационной безопасности (ИБ), возникающих при эксплуатации различных систем.

Сравнительная легкость доступа к различным ресурсам информационно-телекоммуникационных систем (ИТКС) обуславливает необходимость идентификации возможных направлений информационного воздействия и атак. Особую актуальность приобретают угрозы конфиденциальности, целостности и доступности информации, возникающие на фоне процессов астротерфинга, черного PR, акций информационного противоборства, результатом которых может быть значительное влияние на безопасность государства и личности.

Значительный вклад в исследование данных вопросов внесли Е.А.Дербин, А.А.Малюк, А.В.Манойло, И.Н.Панарина, A.A. Молдовян, Н.А.Молдовян, развивая теорию методов информационного воздействия и обосновывая значимость средств информационного противоборства в современных условиях ведения бизнеса, осуществления боевых действий.

Лавинообразный рост объема текстовой информации, распространяемой в сети Интернет, обуславливает необходимость совершенствования методов ее анализа. В работах H.H. Леонтьевой, И.А.Мельчука, Ю.Д. Апресяна, В.А. Тузова и других исследователей раскрываются методики, модели, методы обработки текстовых сообщений. Применение имеющегося научно-методического аппарата математической лингвистики позволяет разрабатывать технические решения для предотвращения угроз целостности и конфиденциальности информации. Однако универсальность методов и возникающие вследствие этого упрощения существенно ограничивают качественные показатели информационного поиска в средствах защиты информации (СЗИ) и системах мониторинга ИБ. Достижение заданных характеристик требует повышения сложности практической реализации методов автоматической обработки естественно языковых текстов и идентификации содержащихся в них данных.

Таким образом, в процессе развития средств ИТКС возникло противоречие между необходимостью обеспечения информационной безопасности различных субъектов информационного взаимодействия, высоким уровнем развития вычислительной техники (ВТ) и недостаточным уровнем развития научно-методического аппарата (НМА) математической лингвистики и обеспечения ИБ, что и определяет актуальность исследования.

Целью работы является повышение показателей качества информационного поиска в системах мониторинга информационной

П\\

безопасности на основе методов лингвистического анализа текста на русском языке.

Для достижения указанных целей в диссертации решаются следующие основные научные и технические задачи:

1. Анализ и выявление достоинств и недостатков НМА математической лингвистики, применяемого для идентификации потенциально опасных сообщений в открытых информационных системах.

2. Исследование свойств текстовой информации коротких сообщений, содержащих потенциально опасные сообщения, позволяющих повысить качество идентификации угроз ИБ.

3. Обоснование использования функциональных моделей естественного языка для обработки системами мониторинга состояния ИБ коротких сообщений и комментариев пользователей порталов и социальных сетей.

4. Совершенствование методов обнаружения угроз ИБ на основе научно-методического аппарата математической лингвистики с целью повышения показателей качества идентификации текстов, несущих угрозу ИБ.

5. Оценка использования предложенных моделей, методов, алгоритмов в системах мониторинга ИБ и СЗИ.

В соответствии с заявленными целями и задачами работы объектом исследования являются системы мониторинга ИБ и поддержки принятия решений (СППР) на основе алгоритмов автоматического анализа текстов, а предметом исследования — методы обработки текстовой информации и обнаружения угроз ИБ в системах мониторинга.

На защиту выносятся следующие основные результаты:

1. Метод построения информационного объекта текстовой информации для систем мониторинга ИБ.

2. Метод обработки коротких сообщений в системах мониторинга ИБ.

3. Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет на основе функциональной модели естественного языка.

Научную новизну диссертации составляют:

1. Метод построения информационного объекта текстовой информации для систем мониторинга ИБ, отличающийся от известных использованием словарной БД предикатов связей словоформ, а также применением объектно-ориентированного подхода, что позволяет повысить точность при поиске угроз ИБ.

2. Метод обработки коротких сообщений в системах мониторинга ИБ, отличающийся от известных использованием информационных объектов текстовой информации, ориентированных на характеристики текстов в комментариях порталов Интернет и социальных сетей, что позволяет повысить точность при поиске угроз ИБ.

3. Метод обеспечения аудита и мониторинга информационной безопасности, отличающийся от известных применением объектно-ориентированного подхода и использованием архитектуры поисковой системы, что позволяет осуществлять поиск факта реализации угрозы ИБ за пределами контролируемой зоны, а также повысить полноту извлечения потенциально опасных текстовых сообщений в сравнении с методами на основе применения популярных поисковых алгоритмов. Достоверность результатов работы подтверждается:

корректным использованием фундаментальных положений теории искусственного интеллекта, баз данных и математической лингвистики;

- научной обоснованностью приводимых выкладок и математических преобразований;

- использованием методик, проверенных экспериментами и внедренными в действующие образцы автоматизированных систем управления;

- непротиворечивостью полученных результатов известным решениям;

- результатами экспертной оценки специалистов в данной предметной области при внедрении результатов работы в опытные образцы систем, разрабатываемые научно-исследовательскими организациями и предприятиям и про м ы шл е н ности.

Практическую значимость результатов диссертационной работы составляют предложенные модели, методы и алгоритмы для средств информационного противодействия угрозам нарушения информационной безопасности, которые позволяют повысить точность и полноту информационного поиска.

Реализация результатов. Полученные модели и методы реализованы в рамках научно-исследовательских и опытно-конструкторских работ, выполняемых НИУ ИТМО по заказу предприятий промышленности и Министерства образования и науки, что подтверждается полученными государственными свидетельствами о регистрации программ для ЭВМ.

Апробация работы.

Основные результаты работы представлялись на следующих конференциях:

- VII Международной конференция «Современные проблемы прикладной информатики»;

- I Всеросийский конгресс молодых ученых;

- VIII Всероссийская межвузовская конференция молодых ученых; I Межвузовская научно-практическая конференция «Актуальные

проблемы организации и технологии защиты информации»;

, - 4-й научно-практической конференции «Информационная безопасность. Невский Диалог»;

- II Межвузовская научно-практическая конференция «Актуальные проблемы организации и технологии защиты информации»

Публикации.

По результатам диссертационного исследования опубликовано 13 работ, из них статей в журналах, рекомендованных ВАК РФ - 2.

Структура и объем работы. Диссертационная работа содержит введение, 4 раздела, заключение, список литературы. Объем работы составляет 106 страниц.

СОДЕРЖАНИЕ

Во введении приводятся краткие сведения о работе в целом с указанием актуальности, новизны, научной и практической значимости, степени публикации и внедрения результатов исследования, раскрывается композиционное построение диссертации.

В первой главе описываются современные слабо структурированные задачи обработки формализованного и неформализованного текста и методы и модели, используемые для решения проблемы. Приводятся сведения о перспективных технологиях применения естественно-языковых баз данных и модели для отражения текстовой информации в базах данных СЗИ. В частности, показываются достоинства и недостатки теоретико-множественных, линейных моделей, синтаксических и семантических моделей и приводятся усредненные показатели полноты и точности, которые были получены при их применении для формализации текстов предметной области в рамках НИР и ОКР, выполненных в ходе диссертационной работы.

Описываются подходы к отражению естественно-языковых (ЕЯ) конструкций в базы данных. Разнообразие текстовой информации, доступной для анализа в открытых информационных системах, требует применения разных подходов к ее структуризации. Показывается, что аналитический подход к отражению языковых структур по сравнению с остальными приведенными методами больше всего подходит для анализа ЕЯ, поскольку они не навязывают жестких правил, а используют те законы, которые складываются в языке, имеют исключения и могут со временем изменяться вместе с ним. Таким образом показано, что они наилучшим образом подходят для обработки слабоструктурированной информации. Аналитические модели отображают не весь язык, а лишь некоторые его подмножества, отвечающие требованиям конкретной задачи.

Исследуются отличительные особенности текстов, создаваемых пользователями сети Интернет. Приводятся данные статистических исследований, которые показывают, что короткие текстовые сообщения интернет-пользователей имеют следующие отличительные особенности:

- использование лексики разговорной речи, жаргона и сленга;

- отсутствие в большинстве случаев орфографической, пунктуационной, грамматической и стилистической коррекции;

- применение специфических конструкций, аббревиатур и выражений, принятых в рамках целевой аудитории веб-сайта;

- искажение словоформ, использование символов, затрудняющих автоматический анализ текста, но позволяющих человеку распознать смысловое и предметное значение сообщения;

- небольшое количество слов в сообщении (в среднем 10 слов в сообщении, предложении).

В соответствии с названными отличительными особенностями текстов сети Интернет, а также показанными недостатками современного научно-методического аппарата математической лингвистики заключается о необходимости разработки новых средств и методов, обладающих лучшими в сравнении с существующими средствами и методами показателями полноты и точности при поиске угроз ИБ.

Во второй главе приводится описание существующих аналитических моделей ЕЯ, а также универсальные подходы к построению формальных структур ЕЯ, основанные на этих моделях и адаптированных моделях, пригодных для использования в СЗИ для обнаружения угроз информационной безопасности. Обосновывается их выбор для использования в СЗИ.

Рассматривается трехуровневая модель языка, в которой выделяются следующие уровни: морфологический, синтаксический и семантический.

M^<W/,Slp,Cs>, (1)

где Wf- множество словоформ (word forms),

Slp- множество семантических шаблонов (semantic template),

Cs - множество классов (class set).

Морфологический уровень

Синтаксический уровень

Семантический предикат

P(MI~Ci.....Мп~Сп)

М - морфологическая информация С - класс присоединяемого слова

Семантический уровень

Рис. 1. Трехуровневая семантическая модель языка Результат анализа на каждом уровне оформляется в виде функциональной модели. В модели предложение представлено суперпозицией лексем-функций. Аргументами лексемы-функции являются

лексемы предложения, связанные с ней подчинительными связями. Значением лексемы-функции является сущность (объект действительности), обозначенная соответствующим элементом предложения.

На рис. 2 приведена оценка показателей качества полноты, точности, выпадения и Р'-меры при идентификации объектов текстовой информации, в зависимости от используемых уровней формализации.

Значения показателей качества информационного поиска получены при проведении статистических экспериментов по обнаружению предложений в технической документации, содержащих объекты текстовой информации. Использование специализированных словарных баз данных предметной области позволяет повысить показатель точности вычисления объектов специализированных текстов при одинаковых показателях полноты.

Излагаются подходы к построению объектов текстовой информации с целью дальнейшей обработки в СЗИ и обнаружения угроз информационной безопасности.

Уровень синтаксических связей

Уровень общей семантики

Уровень сетантики предметной области

Рис. 2. Результаты оценки показателей качества Исходя из адаптированного алгоритма построения конструкции предложения, разработанного на основе приведенной модели, словоформа, участвующая в образовании второй части связи, является признаком или

атрибутом объекта. Использование связей конструкций позволяет создать модель предметно-ориентированного объекта текстовой информации, используемого при мониторинге состояния ИБ ИТКС:

0={01,0/,А,Ааи,АчГ,0с}, (2)

где О, - идентификатор объекта (object identifier), Or- признак объекта (object feature), А - атрибут объекта (attribute), Аа, - действия над объектом (actions on the object), Aof-действия объекта (actions of the object),

Ov — связи семантической сети, приписываемые объекту, с другими объектами, описанными в БД информационной системы (object connections).

Особенностью является то, что в отличие от известных, информационный объект позволяет осуществлять анализ непечатаемых символов, а также использовать извлеченную при анализе информацию о близких по значению терминах для принятия решения при использовании алгоритмов построения объекта текстовой информации для управления информационной или технической системой.

Таким образом, во втором разделе диссертации приведен анализ моделей представления естественного языка, обладающих наличием межкомпонентных связей и эмерджентных свойств, определяющие требуемые показатели качества, что обосновывает их выбор для использования в системах мониторинга ИБ для обработки коротких сообщений открытых источников сети Интернет. Также приведена модель объекта текстовой информации, получаемая при обработке сообщения открытого источника сети Интернет, и ее преимущества.

В третьей главе приводится формальное представление семантики предметной области, метод описания семантической составляющей части речи в специализированной БД и формальный подход к использованию полученной из вычисленных ЕЯ конструкций информации с учетом обработки фразеологизмов предметной области.

Для построения информационного объекта создано более 150 основных шаблонных правил. На рис. 3 приведен шаблон такого правила.

Описанные шаблоны имеют иерархию, определяющую последовательность их применения, суть которой заключается в том, что вначале осуществляется попытка использовать более длинные последовательности, и, если возможный вариант не найден, то происходит переход к более коротким.

БегЛепсеТагде*

^логйз: лосчЦ] 'Рг1ог1ту: 1пГ = 1000

¿ц V»

<<\чога>>

■♦1п<1в.<: 1п1 = о

«■Гогшз: »т>ге1Рогд[] - Н^огс^ог<п: (рзгч0^реесЬ:ас1}есиуеЗК..

«лога>> ас!]есЫуе2

: = 1

/ I I I О I

/ I I 1 I I I I

ипкпожпШогс!

♦¿пйех: ¿г^ = 2

^огв;: «йгйГогяП

•иЦесНуеЗ

1п1 = 3

»^гмь: логбРогаП = {(.чог'^егз): аг1]е;Пуе]> . - ■

поип!

-1ойех; 1п{ = 4

у,ог<ДГ&гт[1 ■- ¿Гоггс: 1рвгго^реес|1:прип] >,..

Рис. 3. Шаблон для построения информационного объекта текстовой информации

Обработка правил приведенного шаблона осуществляется следующим образом:

1. Выделение неизвестной словоформы из последовательности текста.

2. Для распознанных словоформ, входящих в конструкцию, осуществляется простое вычисление морфологических признаков.

3. Вся вычисленная морфологическая информация сравниваются на предмет нахождения совпадающих описателей в заданных шаблонах, подобных тем, что показан на рис. 4.

4. Просматривая информацию о совпадении морфологической информации внутри шаблона, делается вывод о использовании полученного результата или дальнейшего поиска подходящего шаблона.

Схема алгоритма показана на рис.4.

Выделение неизвестной Определение морфологических

словоформы —5> характеристик опальных словоформ

Попе* самого длинного подходящего шабпона

Рис. 4. Алгоритмическая последовательность построения информационного объекта текстовой информации

Метод построения информационного объекта отличается от известных применением объектно-ориентированного подхода, что позволяет ускорить проектирование и упростить повторное использование алгоритмов на его основе. Подобное решение позволяет:

снять ряд ограничений при построении структуры текстового сообщения, связанных с отсутствием информации по словоформе в словарных БД; повысить полноту информационного поиска при анализе текста в СЗИ в сравнении с применением оригинальных алгоритмов анализа до 90% (рис. 5, 6).

Количество словоформ в предложении

.....Трехуровневая модель

ч—— Алгоритм с учетом модели информационного объекта

Рис. 5. Полнота при применении различных алгоритмов анализа текста

Описания семантико-синтаксических словарных баз данных позволяет производить синтаксический анализ ЕЯ конструкций. Последовательность шагов синтаксического анализа приведена на рис. 7. В отличие от классического синтаксического анализа, в СЗИ и системах мониторинга состояния ИБ обработка текстовой информации должна осуществляться в три этапа.

1. Предсинтаксический анализ:

- обеспечивает анализ специфических последовательностей, производит обработку словоформ, описания которых не вошли в словарную БД, в том числе посредством алгоритма на основе метода построения информационного объекта, описанного выше;

- осуществляет предварительный анализ типовых ЕЯ конструкций;

- расставляет предварительные границы конструкций внутри сообщения.

2. Синтаксический анализ:

- осуществляет обработку типовых конструкций на основе поставляемой морфологической информации;

- вычисляет семантико-грамматические типы конструкций;

- производит построение структуры.

3. Постсинтаксический анализ:

выполняет анализ всех словоформ, не образовавших связи на предыдущем этапе;

осуществляет алгоритмический анализ на возможность присоединения к центральному узлу построенного на предыдущем этапе графа сообщения.

1

Публикации бЛОЮВ Сообирнмя Н080С7К0Й ленты

Докыуенты предметной области Комментарии блогоя

* Алгоритм на основе трехуровневой модели

■ Алгоритм на основе трехуровневой модели с применением метода построения информационного объекта

Рис. 6. Сравнительный анализ алгоритмов на основе трехуровневой модели ЕЯ без применения метода построения информационного объекта и с ним на основании показателя полноты информационного поиска

Рис. 7. Упрощенный алгоритм предметно-ориентированного синтаксического анализа предложения.

Для упрощения воспроизведения результатов в разных СЗИ, а также в любых других системах, связанных с обработкой текста на естественном языке, была разработана библиотека на языке Java, диаграмма основных классов которой показана на рис. 8.

:'<f text

; $ putSai4* ncssterrayoste sentence») >cid i

' $} putSen-enceisentencci void j

; 0 35rten<es Ust<$ent№:e>;

Э languageAnaiysisClass

# ar»8tyzeitest)

rese'.ConnsneriO void

• onr.<icted Arra>tist<«ord>

gnaiysisCiassDeSvriptivn string

languageAnaiyaisModuie

Ф modiseid uuiO I

:,# anatysiiSequence Usi<iangyag3ir'al*5isiiass> j

Ф$еп1епсе

д«4'«'огсК1гй» чогз

§ де1Р0$&зп5бу?а«0*5ргзсг>{Раг*0'гё?гесИ) Агга^Мпйсэг*

ф ааМчелРаггОгЗрегс РалС№р5€&) уч

..........................................Ш

¡¡#лс-га5 ¿изДОНясв»

гиауРо5Л1ог> -п{

•#т1пРо5<йоп_______е-.1

Рис. 8. Основные классы библиотеки специализированного анализатора текстов

Созданная библиотека классов реализует адаптированный алгоритм и пригодна для повторного использования не только при программировании СЗИ, но и для использования модулей на ее основе в экспертных системах для наполнения базы знаний по результатам семантического анализа текста на естественном языке.

Алгоритм, построенный на приведенном методе, позволяет повысить точность информационного поиска при анализе текста в СЗИ по сравнению с оригинальными алгоритмами на основе трехуровневой модели до )2% (рис. 9, 10).

Комментарии блогов Публикации блогов Сообщения новостной ленты

№ Алгоритм на основе трехуровневой модели

ш Алгоритм на основе адаптированной модели

Ш Алгоритм на основе трехуровневой модели с применением метода обработки коротких сообщений

Рис. 9. Показатель точности при разборе текстов различных источников

Convert

: §etiS0N0fr«>t£te:4> Stnng

: % getJS0N0b|8d0iText(ti!«) ISONObjatt

j m *er:alceChildr€n'>r3»ti5t<-»rd>, word) JSQfeAffay

: M ssnalizeWwdiword) JSOWQbjec: /й 3e;G5r:5ixT?>.tiAnayUst<MasbK!ap<int?c5r. ArrayUst-iString [}>>>) generic Taxi

• getFiiterfcrffiSFor^lMesrangsfmsanlnga) meanings \

i getFBterFemisiStnng) meanings \

В четвертой главе приводится модель программного комплекса для мониторинга угроз и описание эксперимента на его основе. Приводится сравнительная оценка показателей точности систем,, применяемых для мониторинга угроз ИБ и описанного программного комплекса.

О 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Количество словоформ в предложении .....*.....- Трехуровневая модель

—— Алгоритм с учетом

последовательности обработки коротких сообщений

Рис. 10. Точность при применении различных алгоритмов анализа текста

Применяемый метод аудита и мониторинга ИБ на основе адаптированной модели в рамках описанного программного комплекса позволяет значительно увеличить точность и полноту информационного поиска при обнаружении угроз ИБ. Описанный метод состоит из последовательности нескольких шагов по извлечению данных, которые приведены на рис. 11. Метод позволяет осуществлять поиск угроз ИБ на открытых источниках сети Интернет за пределами контролируемой зоны организации.

Основные этапы метода аудита и мониторинга:

1. задание критерия поиска потенциально опасных сообщений (вручную администратором безопасности или в полуавтоматическом режиме посредством извлечения объектов текста из конфиденциальных документов, утечку которых необходимо установить);

2. автоматическое извлечение текстового веб-содержимого посредством специализированной системы, архитектура которой показана на рис. 11 (извлечение документов, извлечение сообщений пользователей, если они есть);

3. автоматический анализ текста посредством встроенного в специализированную систему модуля семантического анализа (извлечение информации посредством алгоритма, основанного на предложенном методе анализа коротких текстовых сообщений, а также методе построения информационного объекта, запись извлеченных данных, их автоматическое ранжирование и категоризация, поиск подходящих по заданному критерию документов, запись события нахождения подходящего документа);

4. аудит полученных событий информационной безопасности, осуществляемый вручную администратором безопасности, предоставление

администратором безопасности отчета всем заинтересованным лицам и подразделениям организации.

Иялвчеиле веЗ-сваерж

Издчвч^иио сообщений лшьзлмтелей

Имтеченш- пСьгктоя гекс»

Запись информации о событии

Аудит событий и члтгчый htöMi гвия семйнтическда шаблонам

Веб-интерфейс администратора

Поток управления извлечением данных

Система управ лент извлечением

Поток управления доступом к данным

Очередь ссылок

Цель предизвлечгния

Цепь- извлечения

- Извлечение им«н О MS

! БД событий

Полученные ссылки

Fl

Цепь постофабеткм j^.

псклвдумщвгв ОI

ПОТОКИ обработчиков

:".[;: ihiiCiirMl'Eij ""

Рис. 11. - Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет на основе функциональной модели естественного языка

Приводимый метод позволяет значительно повысить полноту при поиске потенциально опасных сообщений в сравнении с поиском вручную с применением популярного поискового алгоритма на 58% (рис. 12).

Yandex Автоматический мониторинг Bing Google

Рис. 12. Полнота извлечения потенциально опасных сообщений при использовании различных средств аудита

В заключении сформулированы полученные результаты и приведены основные направления, где они могут быть использованы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Применение приведенных модели, методов и алгоритмов позволяет увеличить точность и полноту информационного поиска при обнаружении угроз ИБ, что дает возможность использовать их для усовершенствования современных средств СЗИ и СМИБ.

1. Предложен метод построения информационного объекта текстовой информации сообщений блогов и комментариев пользователей порталов сети Интернет, который позволяет увеличить полноту информационного поиска при применении его в СЗИ и СМИБ на 90% по сравнению с оригинальными алгоритмами, основанными на трехуровневой семантико-синтаксической модели ЕЯ.

2. Применение метода обработки коротких текстовых сообщений позволяет увеличить точность информационного поиска при применении его в СЗИ и СМИБ на 12% по сравнению с оригинальными алгоритмами, основанными на трехуровневой модели ЕЯ.

3. Предложенный метод обработки коротких текстовых сообщений позволяет обрабатывать текст, содержащий словоформы, не входящие в специализированную словарную БД. Сравнительный анализ применения приведенных методов и алгоритмов на основе показателей полноты и точности информационного поиска при обнаружении угроз ИБ приведен на рис. 9 и 10.

4. Предложен метода аудита и мониторинга ИБ открытых источников сети Интернет, который позволяет осуществлять поиск угроз ИБ и фактов реализации угроз ИБ за пределами контролируемой зоны организации.

5. Предложен метода аудита и мониторинга ИБ открытых источников сети Интернет, который позволяет повысить вероятность обнаружения потенциально опасных сообщений в сравнении с поиском подобных сообщений вручную с использованием существующих поисковых алгоритмов на 58%.

СПИСОК ПУБЛИКАЦИЙ

Статьи, изданные в научных журналах, рекомендованных ВАК:

1. Гвоздев A.B., Лебедев И.С., Зикратов И.А. Вероятностная модель оценки информационного воздействия // Научно-технический вестник информационных технологий, механики и оптики. - 2012. - Вып. 2. -С. 99-103.

2. Гвоздев A.B., Лебедев И.С., Зикратов И.А., Лапшин C.B., Соловьев И.Н. Прогнозная оценка защищенности архитектур программного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. -2012. - Вып. 4. - С. 126-130.

Свидетельства о регистрации программ для ЭВМ:

3. Поиск в специализированной базе данных семантико-синтаксической информации: Свидетельство о регистрации программ для ЭВМ №2012617189. / A.B. Гвоздев, A.A. Воробьева, И.А. Зикратов, И.С. Лебедев, И.И. Комаров, E.H. Коваль - Федеральная служба по интеллектуальной собственности, патентам и товарным знакам, 2012.

4. Логическая структуризация текстов сценария: Свидетельство о регистрации программ для ЭВМ №2012612380 /A.B. Гвоздев, A.A. Воробьева, И.А. Зикратов, И.С. Лебедев, И.И. Комаров. - Федеральная служба по интеллектуальной собственности, патентам и товарным знакам,2012

5. Проблемно-ориентированный семантико-синтаксический анализатор: Свидетельство о регистрации программ для ЭВМ №2012616785 / A.B. Гвоздев, A.A. Воробьева, И.А. Зикратов, И.С. Лебедев, И.И. Комаров, Е.В. Шелевахо - Федеральная служба по интеллектуальной собственности, патентам и товарным знакам, 2012

6. Формирование превизов текстов сценариев: Свидетельство о регистрации программ для ЭВМ №2012617299 /A.B. Гвоздев, A.A. Воробьева, И.А. Зикратов, И.С. Лебедев, И.И. Комаров, Л.В. Цветков. -Федеральная служба по интеллектуальной собственности, патентам и товарным знакам, 2012

Статьи, изданные в других научных журналах и изданиях:

7. Гвоздев A.B., Прототип модульной системы анализа потенциальной опасности текстового содержимого // Труды I межвузовской научно-практической конференции "Актуальные проблемы организации и технологии защиты информации". - СПб: СПбНИУ ИТМО, 2011.

8. Гвоздев A.B., Лебедев И.С., Модель анализа информационных воздействий в открытых информационных системах // Сборник докладов VII международной конференции "Современные проблемы прикладной информатики", СПб: СПбГИЭУ, 2011.

9. Гвоздев A.B., Лебедев И.С., Адаптированная модель формализации коротких естественно-языковых сообщений для системы мониторинга информационной безопасности открытых вычислительных сетей // Сборник тезисов докладов конференции молодых ученых. Вып. 1. -СПб: СПбГУ ИТМО, 2011.

10. Гвоздев A.B. Реализация алгоритма построения формальных структур адаптированной модели естественного языка в библиотеке повторного использования для применения в системе мониторинга информационной безопасности /'/ Сборник тезисов докладов 1 конгресса молодых ученых. Вып. 1.- СПб: НИУ ИТМО, 2012. С. 190191

11. Гвоздев A.B. Модель предметно-ориентированного объекта текстовой информации безопасности // Сборник тезисов докладов I

конгресса молодых ученых. Вып. 1. - СПб: НИУ ИТМО, 2012. С. 156157

12. Гвоздев A.B. Программно-аппаратные решения анализаторов естественного языка для поиска угроз информационной безопасности электронного документооборота // Материалы 4-й научно-практической конференции «Информационная безопасность. Невский диалог — 2012» - «НП-Принт», 2012.

13. Гвоздев A.B. Метод обработки коротких сообщений открытых источников сети Интернет для системы мониторинга информационной безопасности //Труды 2 межвузовской научно-практической конференции "Актуальные проблемы организации и технологии защиты информации". - СПб: СПбНИУ ИТМО, 2012.

Тиражирование и брошюровка выполнены в учреждении «Университетские телекоммуникации» 197101, Санкт-Петербург, Саблинская ул., 14 Тел. (812) 233 4669 объем 1 п. л. Тираж 100 экз.

Текст работы Гвоздев, Алексей Вячеславович, диссертация по теме Методы и системы защиты информации, информационная безопасность

САНКТ-ПЕТЕРБУРГСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ

УНИВЕРСИТЕТ

ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ

На правах рукописи

04201355784

Гвоздев Алексей Вячеславович

Метод обеспечения аудита и мониторинга информационной безопасности

открытых источников сети Интернет

Специальность: 05.13.19 - «Методы и системы защиты информации, информационная безопасность»

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель доктор технических наук, доцент Лебедев Илья Сергеевич

Санкт-Петербург - 2013

Оглавление

ВВЕДЕНИЕ................................................................................................................4

Глава 1. МЕТОДЫ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ..................10

1.1. Обработка текстовой информации системами мониторинга ИБ............10

1.2. Модели представления текстовой информации для отражения в базах данных СЗИ..........................................................................................................12

1.3. Особенности подходов к отражению в базы данных естественно-языковых конструкций СМИБ и СЗИ......................................................................29

1.4. Характеристики текстовой информации глобальных вычислительных сетей.....................................................................................................................33

1.5 Выборка текстовых документов для проверки гипотезы о повышении показателей качества...............................................................................................34

1.6 Выводы..........................................................................................................37

Глава 2. ФОРМАЛИЗОВАННАЯ МОДЕЛЬ ЕСТЕСТВЕННОГО ЯЗЫКА ДОКУМЕНТОВ В СЗИ................................................................................................39

2.1. Особенности использования СЗИ в открытых сетях типа Интернет......39

2.2. Требования к модели естественного языка в СЗИ и СМИБ.....................48

2.3. Информационный объект текстовой информации для СМИБ.................52

2.4. Выводы..........................................................................................................57

Глава 3. ФОРМАЛИЗАЦИЯ СЕМАНТИЧЕСКИХ СОСТАВЛЯЮЩИХ КОНСТРУКЦИЙ ЕСТЕСТВЕННОГО ЯЗЫКА ДЛЯ ПРЕДСТАВЛЕНИЯ В СЗИ И СМИБ...........................................................................................................59

3.1 Формальное определение семантики предметной области в СЗИ..........59

3.2 Описание семантической составляющей частей речи предметно-ориентированной словарной базы данных СЗИ.........................................................60

3.3 Использование семантического описания конструкций естественного языка в СЗИ..........................................................................................................61

3.4. Метод построения информационного объекта текстовой информации для систем мониторинга ИБ...............................................................................64

3.5 Метод обработки коротких текстовых сообщений в системах мониторинга ИБ.....................................................................................................................70

3.6. Выводы..........................................................................................................74

Глава 4. МЕТОД АУДИТА И МОНИТОРИНГА ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ ОТКРЫТЫХ ИСТОЧНИКОВ СЕТИ ИНТЕРНЕТ.....................77

4.1. Модель программного комплекса для поиска угроз информационной безопасности на основе поисковой системы и модуля семантического анализа...........................................................................................................................77

4.2. Метод аудита и мониторинга информационной безопасности открытых источников сети Интернет..................................................................................80

4.3. Использование системы аудита и мониторинга информационной безопасности открытых источников сети Интернет..............................................83

ЗАКЛЮЧЕНИЕ.......................................................................................................85

ЛИТЕРАТУРА.........................................................................................................88

ВВЕДЕНИЕ

В условиях динамичных социальных преобразований, происходящих в мире и сопровождающихся стремительным проникновением глобальных вьь числительных сетей в огромное количество сфер деятельности человека, возникает задача автоматизированной обработки информации с целью выявления угроз информационной безопасности (ИБ), возникающих при эксплуатации различных систем.

Сравнительная легкость доступа к различным ресурсам информационно-телекоммуникационных систем (ИТКС) обуславливает необходимость идентификации возможных направлений информационного воздействия и атак. Особую актуальность приобретают угрозы конфиденциальности, целостности и доступности информации, возникающие на фоне процессов астротерфинга, черного PR, акций информационного противоборства, рек зультатом которых может быть значительное влияние на безопасность государства и личности.

Значительный вклад в исследование данных вопросов внесли Е.А.Дер-бин, А.А.Малюк, А.В.Манойло, И.Н.Панарина, A.A. Молдовян, Н.А.Молдо-вян, развивая теорию методов информационного воздействия и обосновывая значимость средств информационного противоборства в современных условиях ведения бизнеса, осуществления боевых действий.

Лавинообразный рост объема текстовой информации, распространяемой в сети Интернет, обуславливает необходимость совершенствования методов ее анализа. В работах H.H. Леонтьевой, И.А.Мельчука, Ю.Д. Апресяна, В.А. Тузова и других исследователей раскрываются методики, модели, методы обработки текстовых сообщений. Применение имеющегося научно-методического аппарата математической лингвистики позволяет разрабатывать техни-

ческие решения для предотвращения угроз целостности и конфиденциальности информации. Однако универсальность методов и возникающие вследствие этого упрощения существенно ограничивают качественные показатели информационного поиска в средствах защиты информации (СЗИ) и системах мониторинга ИБ. Достижение заданных характеристик требует повышения сложности практической реализации методов автоматической обработки естественно языковых текстов и идентификации содержащихся в них данных.

Таким образом, в процессе развития средств ИТКС возникло противоречие между необходимостью обеспечения информационной безопасности различных субъектов информационного взаимодействия, высоким уровнем развития вычислительной техники (ВТ) и недостаточным уровнем развития научно-методического аппарата (НМА) математической лингвистики и обеспечения ИБ, что и определяет актуальность исследования.

Целью работы является повышение показателей качества информационного поиска в системах мониторинга информационной безопасности на основе методов лингвистического анализа текста на русском языке.

Для достижения указанных целей в диссертации решаются следующие основные научные и технические задачи:

1. Анализ и выявление достоинств и недостатков НМА математической лингвистики, применяемого для идентификации потенциально опасных сообщений в открытых информационных системах.

2. Исследование свойств текстовой информации коротких сообщений, содержащих потенциально опасные сообщения, позволяющих повысить качество идентификации угроз ИБ.

3. Обоснование использования функциональных моделей естественного языка для обработки системами мониторинга состояния ИБ коротких сообщений и комментариев пользователей порталов и социальных сетей.

4. Совершенствование методов обнаружения угроз ИБ на основе научно-методического аппарата математической лингвистики с целью повышения показателей качества идентификации текстов, несущих угрозу ИБ.

5. Оценка использования предложенных моделей, методов, алгоритмов в системах мониторинга ИБ и СЗИ.

В соответствии с заявленными целями и задачами работы объектом исследования являются системы мониторинга ИБ и поддержки принятия решений (СППР) на основе алгоритмов автоматического анализа текстов, а предметом исследования — методы обработки текстовой информации и обнаружения угроз ИБ в системах мониторинга.

На защиту выносятся следующие основные результаты:

1. Метод построения информационного объекта текстовой информации для систем мониторинга ИБ.

2. Метод обработки коротких сообщений в системах мониторинга ИБ.

3. Метод обеспечения аудита и мониторинга информационной безопасности открытых источников сети Интернет на основе функциональной модели естественного языка.

Научную новизну диссертации составляют:

1. Метод построения информационного объекта текстовой информации для систем мониторинга ИБ, отличающийся от известных использована ем словарной БД предикатов связей словоформ, а также применением объектно-ориентированного подхода, что позволяет повысить точность при поиске угроз ИБ.

2. Метод обработки коротких сообщений в системах мониторинга ИБ, отличающийся от известных использованием информационных объектов текстовой информации, ориентированных на характеристики текстов в комментариях порталов Интернет и социальных сетей, что позволяет повысить точность при поиске угроз ИБ.

3. Метод обеспечения аудита и мониторинга информационной безопасности, отличающийся от известных применением объектно-ориентированного подхода и использованием архитектуры поисковой системы, что позволяет осуществлять поиск факта реализации угрозы ИБ за пределами контролируемой зоны, а также повысить полноту извлечения потенциально опасных текстовых сообщений в сравнении с методами на основе применения популярных поисковых алгоритмов.

Достоверность результатов работы подтверждается:

- корректным использованием фундаментальных положений теории искусственного интеллекта, баз данных и математической лингвистики;

- научной обоснованностью приводимых выкладок и математических преобразований;

- использованием методик, проверенных экспериментами и внедренными в действующие образцы автоматизированных систем управления;

- непротиворечивостью полученных результатов известным решениям;

- результатами экспертной оценки специалистов в данной предметной области при внедрении результатов работы в опытные образцы систем, разрабатываемые научно-исследовательскими организациями и предприятие ми промышленности.

Практическую значимость результатов диссертационной работы составляют предложенные модели, методы и алгоритмы для средств информационного противодействия угрозам нарушения информационной безопасности, которые позволяют повысить точность и полноту информационного поиска.

Реализация результатов. Полученные модели и методы реализованы в рамках научно-исследовательских и опытно-конструкторских работ, выполняемых НИУ ИТМО по заказу предприятий промышленности и Министерства образования и науки, что подтверждается полученными государственными свидетельствами о регистрации программ для ЭВМ.

Апробация работы.

Основные результаты работы представлялись на следующих конференциях:

1. VII Международной конференция «Современные проблемы прикладной информатики»;

2. I Всеросийский конгресс молодых ученых;

3. VIII Всероссийская межвузовская конференция молодых ученых;

4. I Межвузовская научно-практическая конференция «Актуальные проблемы организации и технологии защиты информации»;

5. 4-й научно-практической конференции «Информационная безопасность. Невский Диалог»;

6. II Межвузовская научно-практическая конференция «Актуальные проблемы организации и технологии защиты информации»

Публикации.

По результатам диссертационного исследования опубликовано 13 работ, из них статей в журналах, рекомендованных ВАК РФ - 2.

Структура и объем работы. Диссертационная работа содержит введение, 4 раздела, заключение, список литературы. Объем работы составляет 106 страниц.

Глава 1. МЕТОДЫ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ

1.1. Обработка текстовой информации системами мониторинга ИБ

1.1.1. Задачи отражения формализованных текстовых сообщений в базы данных систем контроля контента

Наряду с классическим поиском, анализом открытых документов источников глобальных вычислительных сетей в интересах силовых структур и органов управления существует ряд специфических, проблемно-ориентированных видов обработки текстовой информации в системах фильтрации, тематического разграничения доступа, анализа и идентификации текстовых сообщен ний.

Задачи, связанные с отражением в хранилища предметно ориентирован ных баз данных текстовых сообщений предметной области, встречаются в различных СЗИ, использующих технологии предотвращения утечек конфн денциальной информации из информационной системы вовне, а также технических устройств (программных или программно-аппаратных) для такого предотвращения утечек. Среди представленного в технической документации перечня пунктов, раскрывающих предназначение СЗИ и систем мониторинга информационной безопасности (СМИБ), можно выделить те из них, где применяются и могут быть применены алгоритмы автоматизированного анализа текстовой информации с целью отражения в предметно ориентированные базы данных систем поддержки принятия решения.

Кроме оперативных задач СМИБ, где автоматизированная обработка текстовых сообщений, циркулирующих в глобальных вычислительных сетях, позволяет сократить время на анализ текстовых сообщений, освободить личный состав от рутинных операций, существует ряд проблемных вопросов, свя-

10

занных с эксплуатацией СЗИ и обучения персонала. Построение предметно ориентированных информационно-справочных систем может оказать существенную помощь специалистам, обслуживающим образцы СЗИ. Однако их разработка требует огромных затрат и привлечения экспертов для наполнения баз данных и баз знаний, ориентированных на решение задач эксплуатации. Методы автоматического вычисления естественно-языковых конструкций в совокупности со статистическими технологиями моделей извлечения фактов из текста позволяет влиять на полноту и точность анализа технических документов.

Анализ обработки текстовой информации в СЗИ и СМИБ показывает значительное использование оператора во время обработки текстовых документов, что создает предпосылки влияния «человеческого фактора» на конечный результат. Вместе с тем высокая степень интеграции ПЭВМ в комплексы и системы мониторинга ИБ наряду с внедрением информационных технологий дает возможность для разработки и реализации в ИС относительно сложных, но более эффективных методов и алгоритмов анализа слабоструктурированных данных, поступающих на вход системы виде текстовых сообщений.

1.1.2. Перспективные технологии применения естественно-языковых баз данных для поиска угроз ИБ

Существует ряд направлений применения ЕЯ баз данных, связанных с созданием перспективных систем анализа текстовых сообщений.

В связи со значительным ростом влияния открытых источников сети Интернет на общественное мнение открывается ряд видов деятельности, в которых одним из основных инструментов является поисковая система или другая специализированная система автоматического анализа текстов: мене-

п

джмент репутации (reputation management) [136], астротерфинг (astroturfing). Основной целью таких видов деятельности является влияние на общественное мнение, формирующееся на основе информации, попадающей в открытый доступ и многократно тиражирующейся на открытых источника.

Эта цель достигается по-разному, но ее результаты косвенно могут быть оценены с помощью системы, извлекающей структурированные данные из текста, создаваемого пользователями открытых источников, и формирующей оценку частотных характеристик фактов упоминаний о том или ином атрибуте или признаке объекта.

Комплексы проблемных вопросов, связанных с обработкой текстовой информации поддаются дальнейшей декомпозиции. Рассматривая технический аспект можно выделить такие актуальные направления для СЗИ, как анализ опечаток, идентификацию структуры формализованного сообщения с кортежем реляционной таблицы БД, вычисление фактов из текстов предметной области, организацию данных для информационно-справочных систем, систем поддержки принятия решения.

1.2. Модели представления текстовой информации для отражения в базах данных СЗИ

Для реализации задач обработки лингвистических конструкций формализованных сообщений предметной области используются четыре модели анализа: теоретико-множественная модель, линейная модель, синтаксическая модель, семантическая модель. Оценка качественных характеристик применяемой модели осуществляется в основном с использованием показателей полноты R, точности Р, выпадения О и F-меры при идентификации объектов тек-

стовой информации, в зависимости от используемых уровней формализации

[5]:

*=§ 0.1)

н

р= N

N

г 2РЯ

(1.2)

(1.3)

(1.4)

р+я

где N - общее количество извлечений.

О - количество требуемых извлечений.

Н - количество правильных извлечений.

Выбор основного показателя осуществляется в зависимости от свойств модели и решемых задач автоматической обработки текста.

1.2.1. Теоретико-множественная модель

Применение баз данных в СЗИ информационных систем для хранения и обработки поступающей от различных источников информации, создало предпосылки использования теоретико-множественной модели представлен н