Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка

Лапшин, Сергей Владимирович

Методы и системы защиты информации, информационная безопасность

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка

кандидата технических наук: Лапшин, Сергей Владимирович
город: Санкт-Петербург
год: 2014
специальность ВАК РФ: 05.13.19

Автореферат по информатике, вычислительной технике и управлению на тему «Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка»

Автореферат диссертации по теме "Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка"

На правах рукописи ---

Лапшин Сергей Владимирович

МЕТОДЫ ПОВЫШЕНИЯ ПОКАЗАТЕЛЕЙ КАЧЕСТВА ФИЛЬТРАЦИИ БЬР-СИСТЕМ НА ОСНОВЕ ПРЕДМЕТНО-ОРИЕНТИРОВАННОЙ МОРФОЛОГИЧЕСКОЙ МОДЕЛИ ЕСТЕСТВЕННОГО ЯЗЫКА

Специальность 05.13.19 - Методы и системы защиты информации, информационная безопасность

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

005559257

Санкт-Петербург 2014

005559257

Работа выполнена в Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики

Научный руководитель: доктор технических наук, профессор

Лебедев Илья Сергеевич

Официальные оппоненты: Дегтярев Владимир Михайлович

доктор технических наук, профессор Санкт-Петербургский государственный университет телекоммуникаций им. проф, М.А. Бонч-Бруевича, профессор кафедры информатики и компьютерного дизайна

Кривцов Александр Николаевич

кандидат физико-математических наук, доцент Санкт-Петербургский государственный университет, доцент кафедры информационных систем в экономике

Ведущая организация: Государственный университет морского и

речного флота имени адмирала С.О. Макарова

Защита состоится 24 декабря 2014 г. В 15.50 на заседании диссертационного совета Д 212.227.05 при Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики по адресу: 197101, Санкт-Петербург, Кронверкский пр., д.49., ауд. 461.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики по адресу: 197101, Санкт-Петербург, Кронверкский пр., д.49 и на сайте fbpo-ifmo.ru .

Автореферат разослан « 2.2. » 2014 года.

Ученый секретарь диссертационного совета кандидат технических наук, доцент

Поляков В.И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Количество зарегистрированных утечек конфиденциальной информации увеличивается с каждым годом. Это связано как с развитием и повсеместным распространением информационных систем, применяемых для обработки данных, так и с увеличением ценности самих информационных активов компаний.

Самым действенным элементом обеспечения безопасности данных в корпоративных информационных системах остается применение технических средств защиты информации — прежде всего средств предотвращения утечек данных (Data Leak Prevention, DLP)

В настоящий момент можно выделить несколько ключевых направлений развития информационных систем (ИС), которые неизбежно повлияют на идеологию DLP-систем. Во-первых, это принципиальное отличие типов информации и требований к ее защите в зависимости от специфики организаций. Даже в компаниях, относящихся к одному и тому же сегменту (банки, госорганизации, телекоммуникации), структура информационных активов неодинакова.

Во-вторых, наблюдается переход на комуникацию через разновидности «социальных сетей» с помощью мобильных устройств. Это накладывает определенный отпечаток на передаваемые сообщения: по сравнению, к примеру, с классической перепиской по e-mail, они короче, их стиль ближе к разговорной речи, а также существенно чаще встречаются специфические выражения и аббревиатуры. Анализ таких сообщений с помощью статистических методов, которые хорошо зарекомендовавали себя в поисковых задачах, затруднителен в силу обозначенной специфики.

Естественно-языковые сообщения, обрабатываемые в корпоративных ИС, могут содержать защищаемую информацию как в исходном виде (так, как она хранится в виде документов и прочих носителей защищаемой информации), так и в измененном — преобразованном в другую формулировку, содержащему сокращения, специфические для отрасли компании термины и сленговые выражения и т.д.

Для решения задачи выявления DLP-системой угрозы утечки конфиденциальной информации необходимо использование лингвистических технологий, позволяющих выявить попытку передачи защищаемых данных как в исходном, так и в изменненном виде.

Таким образом, повышение характеристик устойчивости обработки, полноты, точности и адекватности идентифицируемых конструкций естетсвенного языка (ЕЯ) позволяет увеличить показатели качества обнаружения угрозы хищения документов, повысить показатели защищенности информации в процессе хранения и обработки и уменьшить вероятностные показатели преодоления системы защиты.

Сложность практической реализации методов автоматической обработки естественно-языковых текстов и идентификации содержащихся в них данных на уровне семантики существенно затрудняет достижения показателей

полноты, точности вычисления текстовой информации для методов и средств пассивного и активного противодействия угрозам информационной безопасности.

Возникает противоречие между возможностями, которые предоставляют современные информационные технологии, и существующим научно-методическим и математическим обеспечением ОЬР-систем, реализующих алгоритмы автоматизированной обработки текстов ЕЯ с целью выявления угроз информационной безопасности.

Следствием неразрешенности этого противоречия является необходимость разработки методов повышения показателей качества анализа естественно-языковых сообщений в ОЬР-системах.

Таким образом разработка методов повышения показателей качества обнаружения угроз утечки конфиденциальной информации за счет повышения показателей качества анализа естественно-языковых сообщений является актуальной научной задачей.

Объект исследования - системы предотвращения утечек информации (ОЬР-системы).

Предмет исследования - методы обнаружения угрозы утечки конфиденциальной информации на основе анализа текстов ЕЯ.

Целью диссертационной работы является разработка методов повышения показателей качества выявления угрозы утечки информации ЭЬР-системами. Для достижения указанной цели в диссертации решаются следующие научные и технические задачи:

1. Анализ тенденций развития корпоративных ИС с целью построения системы защиты от утечек конфиденциальных данных.

2. Анализ эффективности существующих методов анализа ЕЯ-сообщений, их применимость к современным и создаваемым СЗИ ИС.

3. Исследования проблем разработки и применения методов и средств защиты информации (ОЬР-систем) в процессе сбора, хранения, обработки, передачи и распространения от угрозы хищения (утечки) конфиденциальной информации.

4. Разработка методов повышения показателей качества защиты ОЬР-систем в выбранных направлениях.

5. Исследование характеристик СЗИ, основанных на предлагаемых методах повышения показателей качества защиты.

Научная новизна. В работе предложены методы повышения показателей качества обнаружения угрозы утечки информации за счет улучшения полноты и точности анализа текстов ЕЯ:

1. Предложен метод снижения числа ошибок первого и второго рода в морфологических анализаторах ОЬР-систем, отличающийся от известных использованием автоматически сформированного множества корректных полных шаблонов предложений для каждого анализируемого предложения.

2. Предложен метод предотвращения передачи конфиденциальных ЕЯ сообщений, содержащих отсутствующие в словаре парадигмы слов,

отличающийся от известных применением классификации по флексии основной словоформы при пополнении словаря.

3. Предложен метод идентификации защищаемых данных в передаваемых сообщениях на основе анализа связей в объектной модели естественного языка, отличающийся от известных методов использованием функции корреляции ряда связей семантических объектов.

Практическая значимость. Предложенные в работе методы позволяют повысить показатели качества обнаружения угрозы утечки информации за счет повышения точности и уменьшения вычислительной сложности анализа текстов ЕЯ, характерных для соврменных ИС. Основное внимание при этом уделено тому, что защищаемые данные могут содержаться в передаваемых сообщениях в измененной различными способами формулировке.

Метод снижения числа ошибок первого и второго рода в морфологических анализаторах ОЬР-систем позволяет сузить множество гипотез о морфологических характеристиках слов в передаваемом сообщении, тем самым увеличивая вероятность корректного распознавания естественноязыковых конструкций морфологическим анализатором ОЬР-системы.

Метод предотвращения передачи конфиденциальных ЕЯ сообщений, содержащих отсутствующие в словаре парадигмы слов, позволяет автоматически получить морфологическое описание несловарного термина в анализируемом сообщении и пополнить морфологический словарь всеми его словоформими. Благодаря этому ОЬР-система может более корректно анализировать характерные для современных ИС ЕЯ-сообщения. Также появляется возможность уйти от последовательного внесения в морфологический словарь всех возможных словоформ с их морфологическими характеристиками, что является необходимой, но нетипичной задачей для служб ИБ и ИТ.

Метод идентификации защищаемых данных в передаваемых сообщениях на основе анализа связей в объектной модели естественного языка позволяет уйти от вычислительно сложной задачи сравнения семантических графа передаваемого сообщения и графа защищаемых данных за счет оценки семантических связей, учитывающей синонимию ЕЯ, и позволяющей ОЬР-системе с линейной сложностью по времени определять наличие защищаемых данных в передаваемых сообщениях.

Реализация результатов.

Практические результаты работы были внедрены в научно-исследовательских и специализированных организациях, что подтверждено соответствующими актами о внедрении.

В результате реализации метода предотвращения передачи конфиденциальных ЕЯ сообщений, содержащих отсутствующие в словаре парадигмы слов, получено свидетельство о регистрации ПО.

Положения, выносимые на защиту.

1. Метод снижения числа ошибок первого и второго рода в морфологических анализаторах ОЬР-систем.

2. Метод предотвращения передачи конфиденциальных ЕЯ сообщений, содержащих отсутствующие в словаре парадигмы слов.

3. Метод идентификации защищаемых данных в передаваемых сообщениях на основе анализа связей в объектной модели естественного языка.

Аппробация работы. Основные результаты работы представлялись на следующих конференциях Актуальные проблемы и технологии защиты информации, НИУ ИТМО, 2011 г., ХЫ научная и учебно-методическая конференция, НИУ ИТМО, 2012 г., Актуальные проблемы и технологии защиты информации, НИУ ИТМО, 2012 г., II Всероссийский конгресс молодых ученых, НИУ ИТМО, 2013 г., Всероссийская научная конференция по проблемам информатики СПИСОК-2013, НИУ ИТМО, 2013 г., Методы и системы защиты информации. Инфорационная безопасность, НИУ ИТМО, 2014г.

Публикации. Основные результаты работы изложены в шести публикациях, в том числе, в четырех статьях, три из которых из которых опубликованы в ведущих рецензируемых журналах, входящих в перечень ВАК общим объемом 1,56 п.л. и авторским вкладом 1 п.л.

Структура и объем диссертации. Диссертационная работа содержит введение, 3 раздела, заключение, список литературы. Объем работы составляет 115 страниц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи исследования, представлены основные результаты, выносимые на защиту, а также приведены основные положения, составляющие его научную новизну и практическую значимость.

В первой главе описаны основные модели анализа естественно-языковой информации и произведена оценка применимости этих моделей в современных ОЬР-системах. Рассмотрено два основных подхода к обработке и анализу текстов ЕЯ - статистический и лингвистический (аналитический).

Показано, что из-за главного недостатка статистических методов, который состоит в невозможности учета связности текста, статистический подход мало пригоден для анализа коротких текстов. Следовательно, использование статистических методов анализа ЕЯ в ОЬР-системах при анализе характерных для современных ИС сообщений также затруднительно.

Сделан вывод, что для повышения показателей качества выявления ОЬР-системой угрозы утечки информации целесобразно развивать лингвистические (аналитические) подходы к обработке и анализу ЕЯ, которые позволяют выявлять попытку передачи защищаемых данных как в исходном, так и в изменненном виде.

Вторая глава посвящена разработке методов выявления угрозы утечки информации при анализе текстов естественного языка с использованием аналитических моделей ЕЯ.

Описывается формальная модель угрозы утечки конфиденциальной информации.

I = { ij },j=l,..., п — множество защищаемых данных, представленных в виде фактов /).

D = { dj },_/=/,..., т, — множество документов, содержащих, в частности, защищаемые данные: { /Л.....ig } е dj.

S = { sj }» У=Л..., к — множество вычислительных устройств, обеспечивающих хранение документов D.

Т = { tj ¡, j=l,..., I — множество терминалов, на которых обрабатывается информация.

U ={ iij },j=l,..., р - множество пользователей, которые обрабатывают документы D на терминалах Т.

С — { cj ),_/'=/,..., х — множество каналов передачи данных, по которым пользователи U могут передавать защищаемую информацию как в виде документов D, так и в виде отдельных фактов I.

^ = { aj )> - — множество санкционированных получателей

защищаемой информации. Очевидно, что в таком случае А Г\ U 0, А Г\ U -множество пользователей, допущенных до обработки или ознакомления с конфиденциальной информацией.

В работе рассматриваются утечки информации по «разрешенным» информационным каналам передачи данных С, которые используются для взаимодействия между узлами Т U S внутренней и внешней сети.

Сообщения на естественном языке могут содержать в себе защищаемую информацию, которая изменена различными способами:

1. Передана с грамматическими и синтаксическими ошибками.

2. Преобразована с помощью транслитерации или других способов замены символов.

3. Передана в другой кодировке.

4. Передана с использованием специфических терминов и оборотов.

5. Передана в другой формулировке.

6. Переведена на другой естественный язык.

7. Преобразована перестановкой слов.

8. Преобразована разделением слов на части.

9. Передана частями в различные моменты времени через различные каналы.

Указанные способы модификации могут сочетаться друг с другом в различных комбинациях.

Задачи определения и разрешения модификации ЕЯ сообщений первыми тремя способами являются решенными техническими задачами. Результат модификации в этом случае определяется и преобразовывается на этапе нормализации.

В работе рассматриваются методы повышения качества анализа естественноязыковых сообщений в ОЬР-системах при передаче защищаемых фактов без изменений, а также при использовании методов модификации 4 и 5.

Далее в работе описана формальная модель ОЬР-системы и поставлены задачи исследования. На основе формальной модели ОЬР-системы показано, что для достижения поставленной цели необходимо максимизировать точность Р01Р и полноту ЯВ1р функции анализа

Применительно к функции анализа Р^р термины точности Рвьр и полноты ЯВ1р имеют следующее значение:

п _ \РьПР1еак\ Р°ьр - |0„| ' (1)

К°1р- ы ' (2)

где Оь - множество обнаруженных угроз утечки информации, 0,еа(с -множество всех утечек информации.

Таким образом, точность предотвращения утечек информации ОЬР-системой определяет отношение числа верно определенных утечек к числу всех обнаруженных угроз, куда входят и ложные срабатывания системы защиты. Полнота определяет число верно определенных утечек к числу всех произошедших утечек информации.

Используя формальную модель ОЬР-системы, параметры точности и полноты можно уточнить следующим образом:

Г) _ IСЬ п С|еак|

И°1Р ~ |Сь| ' (3)

г> _ |Сь П С1еак\ ,,ч

НП1Р - \Cleakl ' (4)

где Сь — множество заблокированных каналов передачи данных, С1еак -множество каналов, по которым совершалась попытка передачи защищаемых фактов [ получателю информации а, который не входит в множество санкционированных получателей защищаемой информации, а £ А.

Аналитический (лингвистический) подход к разбору ЕЯ предполагает четыре уровня анализа текста: графематический, морфологический, синтаксический и семантический. Результатом, как правило, является представление исходного текста в виде графа, вершины которого — объекты, о которых идет речь в проанализированном тексте, и их свойства.

Формально предметно-ориентированная морфологическая модель естественного языка может быть описана следующим образом:

Пусть О = { О/ }, /=/,..., п — множество объектов, которые получены в результате семантического анализа текста ЕЯ

Пусть Р = \ р] },у'=/,..., т — множество свойств объектов О.

Пусть Ь = { 4 }, к=1,..., г — множество связей между объектами О и свойствами Р.

Тогда результатом семантического анализа является граф С:

с = {0,Р,Ц. (5)

Защищаемыми фактами в таком случае являются связи объектов с их свойствами и объектов с другими объектами.

= {О,, Я, + 0Ь]}, (6)

где 0j — объект, ¿у - множество связей этого объекта, Р'.■ — множество свойств этого объекта, и Оц — множество других объектов, связанных с объектом Оу.

Пример такого графа представелен на рисунке 1.

Рисунок 1. Результат семантического анализа текстов в рамках предметно-ориентированной морфологической модели ЕЯ

Таким образом, функция анализа ОЬР-системы может быть

определена следующим образом:

= V, (7)

где С^у - семантический граф, построенный на защищаемых документах /), - семантический граф передаваемого сообщения и V — вердикт, выносимый ОЬР-системой для передаваемого сообщения. Если вердикт V отрицательный, то происходит блокировка канала с, по которому совершена попытка передачи хотя-бы одного защищаемого факта / получателю информации а 2 А.

Для решения поставленных задач был разработан метод повышения показателей качества обнаружения угрозы утечки информации за счет повышения точности определения морфологических признаков слов предложения в ЕЯ-анализаторах [ЗЬР-систем.

На основе формальной модели ОЬР-системы показано, что для максимизации показателей точности Рог,Р и полноты функции Р0ц-

наиболее эффективно повышать качество анализа на первых (нижних) уровнях (графематический, морфологический, синтаксический). Для графематического анализа в настоящий момент уже разработаны достаточно эффективные методы. Поэтому для повышения показателей полноты и точности обнаружения ЭЬР-системой угроз информационной безопасности необходимо

повысить качество на этапе морфологического анализа, основной задачей которого является определение морфологических характеристик слов в предложении. Это является первой задачей, которую необходимо решить для достижения поставленной цели работы.

Пусть Я = {ЛД, /=1,..., т - множество гипотез о морфологических характеристиках слов анализируемого предложения.

Пусть Я — правильное морфологическое описание анализируемого предложения.

Пусть Т = {//}, /=1,..., п — множество корректных шаблонов предложений.

Тогда задача состоит в том, чтобы выбрать такое А, е Н, что А, = /?.

Предлагаемый метод основывается на использовании некоторого множества известных, заранее корректных последовательностей морфологических признаков (множество корректных шаблонов) Т для аналогичных предложений. Аналогичным в данном случае является предложение, имеющее одинаковую длину и последовательность морфологических характеристик с анализируемым. Выбор одной из гипотез определяется наличием ее во множестве известных. При этом, если в известном множестве содержится более одной гипотезы для анализируемого предложения, то выбирается наиболее часто встречающаяся.

Предлагаемый метод состоит из следующих частей:

1. Формирование множества корректных шаблонов предложений С.

2. Формирование множества гипотез о морфологических признаках слов в предложении Н.

3. Поиск во множестве корректных шаблонов каждой из гипотез Л,.

4. Выделение одной из гипотез на основе результатов поиска.

Новизна предложенного метода состоит в использованиии автоматически сформированного множества корректных полных шаблонов предложений для каждого анализируемого предложения. Сформировать достаточное множество шаблонов корректных предложений вручную не представляется возможным. Если рассматривать 14 частей речи (как одну из морф, характеристик) и только предложения длиной до 10 слов, то мощность множества Т, необходимого для анализа таких предложений, можно грубо оценить по следующей формуле:

\Т10\= 1^14* «3 -10». (8)

Корректно разметить вручную такое или сравнимое с таким число предложений за разумное время невозможно. Автоматическое решение этой подзадачи «напрямую» сталкивается с исходной решаемой проблемой — с проблемой точности автоматического определения морфологических характеристик в предложениях.

Для решения этой подзадачи была использована следующая идея. Искомое множество Т можно формировать на основе предложений, состоящих только из однозначных с точки зрения морфологических признаков слов. Это

дает возможность получить необходимое множество шаблонов автоматически, без использования предварительно размеченных текстов.

Полученная в результате применения описанного метода гипотеза о морфологических характеристиках слов анализируемого предложения является в среднем более корректной, чем случайно выбранная из исходного множества, что подтверждается экспериментом.

Таким образом, предложенный метод позволяет повысить качество определения морфологических характеристик слов в анализируемых сообщениях, тем самым уменьшая количество ошибок распознавания естественноязыковых конструкций ЕЯ-анализатором ОЬР-системы. Это решает поставленную задачу повышения показателей полноты и точности обнаружения ОЬР-системой угроз информационной безопасности.

Далее описывается метод предотвращения передачи конфиденциальных ЕЯ сообщений, содержащих отсутствующие в словаре парадигмы слов.

Показано, что морфологические словари ОЬР-системы должны помимо «общеизвестных» слов содержать специфичные для компании, где развертывается ОЬР-система, термины и сокращения, а также неологизмы и словоформы с типичными ошибками, которые допускаются людьми при написании текстов. При этом задача постоянной актуализации словарей морфологических описаний слов является довольно трудоемкой. Тем более, эта задача нетипична для служб ИБ и ИТ, которые, как правило, занимаются обслуживанием ОЬР-систем. Следовательно, необходимо получить способ простого, по возможности автоматического пополнения словарей морфологических описаний слов ОЬР-системы.

Основой предлагаемого предметно-ориентированного морфологического анализатора, содержащего идентификационные признаки словоформ предметной области, разработанного для русского языка, служит словарь АЛ. Зализняка.

Пусть IV = { IV;}, /=/,..., п - множество исходных форм слов в БД ОЬР-системы.

Пусть Р = { /7/7,7=/,..., к- множество парадигм исходных форм слов.

Каждому элементу множеств Р и IV соотвествует морфологическое описание Оу: Р] -> Оу, -» О,-.

Пусть V — словоформа.

Пусть Е = { ег}, ;■=/,..., /-множество стандартных окончаний слов.

Тогда необходимо найти такие функции/ и g, что

И'-¡-»О, (9)

Р-^О, (10)

где f - функция, соответствия элементов множества элементам множества О; g — функция, соответствия элементов множества Р элементам множества Б.

Предлагаемый метод решения основан на том, что любой словоформе сопоставим класс основ В и класс окончаний (флексий) Е, из которого состоит данная словоформа.

v v—>{Я;£} (11)

Для каждого слова W БД СЗИ можно выделить морфологический класс к его парадигм Рк, такой, что словоформа данного морфологического класса (ук) входит в множество парадигм этого класса и выражается суммой основ и окончаний слова данного морфологического класса.

VkePk=Bk+Ek (12)

Соответствие Р, —► Ол позволяет получить морфологический и идентификационный признак, содержащий информацию, используемую для обнаружения угроз информационной безопасности (морфологический шаблон).

Рассмотрим существующий морфологический словарь Z ={ г, }, каждая запись г, в котором имеет структуру

г, - ! v,; IV,- D,}, (13)

т.е. состоит из словоформы v„ исходной формы слова IV, и морфологического описания D,.

Словарь Z, на сегодняшний день, содержит более 2,5 млн словоформ. Задача состоит в том, чтобы учитывая регулярность русского языка, анализировать сообщения ЕЯ, которые содержат отутсвующие в словаре термины, а также поддерживать актуальность и полноту словарной базы данных в условиях его постоянного пополнения новыми словоформами с наименьшими трудозатратами. Решение поставленной задачи основывается на словаре, содержащем морфологические описания словоформ A.A. Зализняка, содержащем только базовые словоформы русского языка и множество соответствующих им окончаний.

Если флексия словоформ двух слов одинакова, т.е. они получены из базовой формы W одинаковым образом, путем добавления соответсвующих окончаний Е, то достаточно иметь морфологические описания D словоформ одного слова, чтобы построить аналогичные описания для словоформ другого слова. На основе этой идеи разработан предлагаемый метод анализа сообщений ЕЯ, содержащих отсутствующие в словаре парадигмы слов. Он состоит из следующих частей:

1. Разбор словаря Зализняка, генерация всех словоформ на основе исходных форм слова.

2. Разбор словаря с некоторыми морфологическими описаниями вида, который описан выше.

3. Сопоставление словоформ из словарей, полученных на первых двух шагах с целью выделения характерных морфологических описаний для каждого окончания в рамках класса слова (класс его флексий), к которому они относятся.

4. Определение класса слов из передаваемого сообщения, отсутствующих в морфологическом словаре.

5. На основе множества соответствий вида «класс слова, окончание» — «морфологическое описание», полученных на третьем шаге, словоформам из передаваемого сообщения, отсутствующим в морфологическом словаре, дается морфологическое описание.

В предложенном методе процедура пополнения словаря новыми парадигмами слов с их морфологическими описаниями сводится к определению «морфологического класса» исходной формы анализируемого слова. Последняя процедура может быть автоматизирована. Таким образом, описанный метод позволяет ОЬР-систсме более корректно анализировать передаваемые ЕЯ-сообщения, содержащие отсутствующие в морфологическом словаре парадигмы слов. Также появляется возможность уйти от последовательного внесения в морфологический словарь всех возможных словоформ с их морфологическими характеристиками. Это приведет к повышению показателей полноты и точности обнаружения угрозы утечки конфиденциальной информации. Таким образом решается поставленная задача повышения показателей качества защиты Ш.Р-систем.

Далее предложен метод идентификации защищаемых данных в передаваемых сообщениях на основе анализа связей в объектной модели естественного языка.

Результатом последнего этапа анализа текстов ЕЯ - семантического анализа - является семантический граф, описывающий связи и отношения между объектами. Прямое решение задачи поиска защищаемой информации в передаваемом сообщении сводится к задаче поиска подграфа в графе.

Сложность одного из лучших алгоритмов для решения задачи посика подграфа в графе варьируется от 0(тг2) в лучшем случае до 0(п!п) в худшем случае.

Таблица 1. Временная сложность алгоритмов поиска подграфов в графах.

Алгоритм \¥2 Алгоритм Ульмана

Лучший случай 0(п2) 0(п3)

Худший случай 0(п\п) 0(п\п2)

Высокая сложножность алгоритмов поиска подграфа в графе делает их неприменимыми при работе с большими объемами защищаемых данных, поскольку важным критерием работоспособности Г)ЬР-систомы является скорость обработки передаваемых сообщений. Кроме того, необходимо учитывать возможные способы модификации защищаемой информации, что еще больше усложняет анализ. Таким образом, необходимо получить быстрый метод идентификации защищаемых данных в передаваемых сообщениях при работе с большим количеством защищаемых данных.

Основной идеей предлагаемого метода выявления защищаемых данных является использование для сравнения связей объектов, вместо самих объектов.

Рассмотрим множество £> защищаемых данных и множество 1 защищаемых фактов.

Пусть /. = {/, }, 1=1,..., п - множество связей, полученных в результате анализа защищаемых данных В.

Пусть /,, = {//}, ¡=1,..., п - множество связей, полученных в результате анализа сообщений, передаваемых по одному из разрешенных каналов связи С.

Пусть функция РтаньСЬ,Ьс) - функция выявления похожести множества связей Ь( с одним из подмножеств множества связей Ь.

= (14)

где с — мера похожести множеств связей

Тогда если с > Сц, где с£[ - некая константа для данного то считается что множество связей Ьс похоже на одно из подмножеств множества связей Ь. Применительно к анализу угрозы утечки защищаемой информации это говорит о наличии в передаваемом сообщении одного из защищаемых фактов /.

Предлагаемый метод идентификации защищаемых данных в передаваемых сообщениях состоит из следующих этапов:

1. Формирование множества связей Ь защищаемых данных в результате анализа множества защищаемых данных й.

2. Формирование множества связей I, передаваемых сообщений в результате анализа ЕЯ-текстов, передаваемых по одному из каналов С.

3. Сопоставление числовых рядов V и 1\ множествам связей I и ¿,.

4. Вычисление функция корреляции Ртаин числовых рядов, полученных на предыдущем шаге.

Новизна предложенного метода состоит в использовании функции корреляции для рядов, оценивающих семантические связи в защищаемых данных и передаваемых сообщениях. При этом важно отметить, что возможная синонимия учитывается изначально, при формировании ряда, оценивающего множество свзяей. Это позволяет, по сравнению с прямым сравнением графов, не совершать дополнительные сравнения по числу возможных синонимов для каждого сравниваемого объекта.

Таким образом, предложенный метод позволяет уйти от вычислительно сложной задачи сравнения семантического графа передаваемого сообщения и и графа защищаемых данных и определять наличие защищаемых данных в передаваемых сообщениях с линейной сложностью по времени, что дает возможность использовать его при работе с большими объемами защищаемых данных.

Третья глава посвящена сравнительному анализу предложенных решений.

Приведена оценка показателей качества предложенных решений. Описан эксперимент, поставленный в результате реализации метода снижения числа ошибок первого и второго рода в морфологических анализаторах ВЬР-систем. В результате получены следующие результаты.

, « ♦

< *......

* *

О 200000 400000 600000

|Т| - количество шаблонов О - процент исправленных ошибок

|Т|

1000000 1200000

Рисунок 2. Зависимость процента корректно распознанных угроз утечки информации за счет применения метода снижения числа ошибок первого и второго рода в морфологических анализаторах ОЬР-систем от числа шаблонов предложений, использованных при анализе.

При этом имеющееся множество шаблонов далеко от насыщения. Па рис. 3 показана зависимость количества полученных шаблонов от числа разобранных текстов.

о 1000 2000

N - количество текстов |Т| - количество шаблонов

4000

Рисунок 3. Зависимость количества полученных шаблонов (по оси ординат) от числа разобранных текстов (по оси абсцисс)

По графику видно, что число шаблонов линейно возрастает в зависимости от числа разобранных текстов, что говорит о возможности улучшения полученных нами параметров. По приблизительной оценке, при мощности множества шаблонов ~10 , можно ожидать снижение числа ошибок анализа на 30-35%.

Проведенный экперимент показал, что разработанный метод снижает число ошибок при определении морфологических признаков слов, что позволяет сузить множество гипотез о морфологических характеристиках слов в передаваемом сообщении, тем самым увеличивая вероятность корректного

распознавания естественноязыковых конструкций морфологическим анализатором DLP-системы. Следовательно, описанный метод решает поставленную задачу повышения показателей качества фильтрации DLP-систем.

Далее описан эксперимент, поставленный в результате реализации метода предотвращения передачи конфиденциальных ЕЯ сообщений, содержащих отсутствующие в словаре парадигмы слов. Для оценки показателей качества этого метода обозначим количество правильных извлечений системы анализа DLP-фильтра h, количество требуемых извлечений d, а общее количество извлечений п. Тогда для полноты R и точности Р выявления угроз утечки в передаваемом сообщении справедливы следующие соотношения:

(15)

В ходе эксперимента измерялись полнота (У?) и точность (Р) поиска на случайной выборке из национального корпуса русского языка. Результаты измерения приведены на графике на рис. 4, 5.______________________________________

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

ЕЯ-анализатор ОЬР-системы с ЕЯ-анализатор ОЬР-системы с использование статичного использование словаря,

словаря пополняемого разработанным

методом

Рисунок 4. Результаты измерения точности Р выявления угрозы утечки инфорации

0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

ЕЯ-анализатор ОЕР-системы с ЕЯ-анализатор ОЬР-системы с использование статичного использование словаря,

словаря пополняемого разработанным

методом

Рисунок 5. Результаты измерения полноты Я выявления угрозы утечки инфорации

Эксперимент показал, что при использовании сгенерированного описанным выше методом словаря точность поиска возрола на 20%, а полнота на 29%.

Следовательно, использование описанного метода может увеличить вероятность корректного распознавания естественноязыковых конструкций морфологическим анализатором ОЬР-системы, что решает поставленную задачу повышения показателей качества фильтрации ПЬР-систсм.

Для метода идентификации защищаемых данных в передаваемых сообщениях на основе анализа связей в объектной модели естественного языка показано, что вычислительную сложность предлагаемого метода можно оценить следующим образом.

в = 0(Ы() (1б)

Таблица 2. Временная сложность алгоритмов при решении задачи идентификации

защищаемых данных в передаваемых сообщениях.

Предложенный метод Алгоритм \Т2

Лучший случай от 0(Ы2)

Худший случай от 0 (АЛЛО

Из таблицы 2 видно, что представленный метод идентификации защищаемых данных в передаваемых сообщениях с точки зрения производительности существенно эффективнее, чем сравнение графов семантических деревьев. Это позволяет выявлять защищаемые данные, которые передаются с использованием различных методов модификации, при работе п ОЬР-системах с большим числом защищаемых документов без существенной задержки передаваемых сообщений на время анализа.

В заключении приведены основные результаты диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В результате диссертационного исследования были получены следующие результаты:

1. Разработан метод снижения числа ошибок первого и второго рода в морфологических анализаторах ОЬР-систем.

2. В результате экспериментальной реализации этого метода получено снижение числа ошибок распознавания морфологических характеристик на 11%. Показано, что при определенных условиях можно достичь снижения числа ошибок на 30-35%.

3. Разработан метод предотвращения передачи конфиденциальных ЕЯ сообщений, содержащих отсутствующие в словаре парадигмы слов.

4. В результате реализации предложенного метода показано, что показатели полноты и точности выявления угроз утечки в передаваемом сообщении могут быть увеличены на 42% и 26% соответственно.

5. Разработан метод идентификации защищаемых данных в передаваемых сообщениях на основе анализа связей в объектной модели естественного языка.

6. Показано, что временная сложность разработаного метода в АЛ меньше сложности методов, основанных на аглоритмах поиска подграфов в графах. Это

позволяет выявлять защищаемые данные, которые передаются с использованием различных методов модификации, в DLP-системах с большим количеством документов.

7. Для каждого из предложенных методов показано, что применение в рамках ЕЯ-анализатора DLP-системы позволит решить поставленную задачу повышения показателей качества фильтрации DLP-систем.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

В изданиях, рекомендуемых ВАК РФ

1. Лапшин С. В., Лебедев И. С. Метод полуавтоматического формирования словаря морфологических описаний слов. // Научно-технический вестник информационных технологий, механики и оптики. - 2012. -№5 (81). —С. 106- 110.-0,25 п.л./0,125 п.л.

2. Лапшин С. В., Лебедев И. С. Метод повышения точности автоматического определения частей речи слов предложения в морфологических анализаторах DLP-систем. // Научно-технический вестник информационных технологий, механики и оптики. — 2013. — № 4 (86). — С. 124 — 128.-0,313 п.л./0,156 п.л.

3. Гвоздев А. В., Зикратов И. А., Лебедев И. С., Лапшин С. В., Соловьев И. Н. Прогнозная оценка защищенности архитектур программного обеспечения. // Научно-технический вестник информационных технологий, механики и оптики.-2012.- № 4 (80).- С. 126- 130.-0,25 п.л./0,1 п.л.

Свидетельства о государственной регистрации программ для ЭВМ

Лапшин С.В, Зикратов И.А., Лебедев И.С., Комаров И.И., Формирование словаря морфологических описаний слов, №2012660224 от 14 ноября 2012 г.

Публикации в других изданиях

4. Лапшин С. В., Лебедев И. С. Метод полуавтоматического формирования словарных баз данных для Инновационной системы 3D анимации // "Исследовано в России" - 2012. - № 15 - С. 560-565, Режим доступа: http://zhurnal.ape.relarn.ru/articles/2012/040.pdf-0,313 п.л./0,156 п.л.

5. Лапшин C.B. Формирование словаря морфологических описаний слов // Материалы 1-й межвузовской научно-практическая конференции «Актуальные проблемы организации и технологии защиты информации» -2012.-С. 57-60-0,188 п.л./0,188 п.л.

6. Лапшин C.B. Метод повышения точности частеречной классификации слов в морфологических анализаторах DLP-систем // Материалы научной конференции по проблемам информатики СПИСОК-2013 - 2013. - С. 674-678 -0,25 п.л./0,25 п.л.

Подписано в печать 15.10.2014. Формат 60x84 1/16. Усл. печ. л. 1,0. Уч.-изд. Л. 1,0. Тираж 85 экз. Заказ № 37

191186, Санкт-Петербург, наб. канала Грибоедова 18-20

Похожие работы

Информатика, вычислительная техника и управление
05.13.00