автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Методология обнаружения угроз нарушения информационной безопасности в открытых компьютерных сетях на основе функциональной модели естественного языка
Автореферат диссертации по теме "Методология обнаружения угроз нарушения информационной безопасности в открытых компьютерных сетях на основе функциональной модели естественного языка"
005008460
На правах рукописи
Лебедев Илья Сергеевич
МЕТОДОЛОГИЯ ОБНАРУЖЕНИЯ УГРОЗ НАРУШЕНИЯ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ В ОТКРЫТЫХ КОМПЬЮТЕРНЫХ СЕТЯХ НА ОСНОВЕ ФУНКЦИОНАЛЬНОЙ МОДЕЛИ ЕСТЕСТВЕННОГО ЯЗЫКА
Специальность: 05Л3.19 - «Методы и системы защиты информации, информационная безопасность»
Автореферат диссертации на соискание ученой степени доктора технических наук
1 9 ЯНВ 1Ш
Санкт-Петербург - 2011
005008460
Работа выполнена в Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики.
Научный консультант
Официальные оппоненты
доктор технических наук, профессор Зикратов Игорь Алексеевич
доктор технических наук, профессор Гатчин Юрий Арменакович
доктор технических наук, профессор Искандеров Юрий Марсович
доктор технических наук, профессор Нырков Анатолий Павлович
Ведущая организация
Санкт-Петербургски й и I (ститут информатики и автоматизации РАН
Защита состоится <20» марта 2012 года в 1Г час. ю мин. на заседании диссертационного совета Д.212.227.05 при Санкт-Петербургском национальном исследовательском университете информационных технологий механики и оптики (НИУ ИТМО) по адресу: 197101, Санкт-Петербург, Кронверкский пр., д.49.
С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского национального исследовательского университета информационных технологий механики и оптики.
Автореферат разослан декабря 2011 года.
Ученый секретарь диссертационного совета Д.212.227.05
кандидат технических наук, Доцент • . - Поляков В.И.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Реализация основных направлений противодействия угрозам Российской Федерации в различных сферах общественной жизни, обозначенных в «Доктрине информационной безопасности», связана с обработкой разнообразных источников информации. Обеспечение информационной безопасности (ИБ) объектов политической, социально-экономической, оборонной, культурной сфер деятельности в информационно-телекоммуникационных системах требует анализа огромного количества текстов с целью обнаружения потенци&чьно опасных сообщений, выявления внешних и внутренних угроз хищения и модификации информации документов, сведений ограниченного распространения, соблюдения авторских прав, распространения информации экстремистского характера. Вследствие чего, возникает необходимость, с одной стороны, информационного противодействия угрозам нарушения информационной безопасности, а с другой -построение эффективных СЗИ, обрабатывающих текстовые сообщения.
Однако сложность применения методов, направленных на повышение качества защиты информации, использующих автоматический режим идентификации структуры и вычисления значения обрабатываемых естественно-языковых сообщений, заставляет производить их обработку с применением «ручных» технологий. Вместе с тем высокая степень интеграции ПЭВМ в системы защиты информации наряду с внедрением информационных технологий дает возможность для разработки и реализации в И С относительно сложных, но более эффективных методов и алгоритмов вычисления слабоструктурированных данных.
Снижение вычислительных затрат, повышения характеристик устойчивости обработки, полноты, точности, адекватности идентифицируемых ЕЯ конструкций позволяет увеличить вероятность обнаружения угроз хищения и модификации документов, повысить показатели защищенности информации в процессе хранения и обработки, уменьшить вероятностные показатели преодоления системы защиты. Внедрение формализованной модели ЕЯ, основанной на вычислении связей между словами, позволяет применять новые технологии анализа информации с целью обнаружения и предотвращения угроз безопасности, возникающих в открытых вычислительных сетях.
Другой комплекс проблемных вопросов информационного противодействия угрозам ИБ в открытых вычислительных сетях связан с созданием систем идентификации коротких сообщений, где
применение статистических методов классификации затруднено ввиду небольшого объема текста, что может создавать угрозы пропуска потенциально опасных сообщений и являться предпосылкой возникновения уязвимостей в системах мониторинга состояния ИБ. Вычисление семантической составляющей лингвистических конструкций дает возможность повысить точность распознавания текстовой информации для средств активного и пассивного мониторинга состояния ИБ в ИТКС.
Функционирование СЗИ в системах документооборота зависит от качества моделей описания лингвистических конструкций. Сложность практической реализации методов автоматической обработки естественно языковых текстов и идентификации, содержащихся в них данных, на уровне семантики, существенно затрудняет достижения показателей полноты, точности вычисления текстовой информации для методов и средств пассивного и активного противодействия угрозам информационной безопасности.
Таким образом, существует объективное противоречие между возможностями, которые предоставляют новые информационные технологии, и существующим научно-методическим и математическим обеспечением систем н комплексов информационной безопасности, реализующих алгоритмы автоматизированной обработки текста в целях выявления угроз информационной безопасности.
Следствием неразрешепности этого противоречия является объективная необходимость теоретического обобщения и развития методов математического и лингвистического обеспечения специалмзпрованн ых И С, интегрируемых в комплексы средств защиты и информационного противодействия.
Таким образом, обоснование и разработка теоретических основ математического и программного обеспечения СЗИ, позволяющих автоматизировать процессы вычисления данных и фактов из текстов документов, основанные на проблемно ориентированной семантике естественно-языковых конструкций, для анализа текстовой информации с целыо выявления угроз нарушения конфиденциальности, целостности, доступности является актуальной научной проблемой.
Проблемам обеспечения информационной безопасности посвящены работы таких известных ученых как: H.H. Безруков, П.Д. Зегжда, A.M. Ивашко. А.И. Костогрызов, В.И. Курбатов К. Лендвер, Д. Маклин, A.A. Молдовян, H.A. Молдовяи, А.А.Малюк, Е.А.Дербин, Р. Сандху, Дж. М. Кэррол, и других. Вместе с тем, несмотря на подавляющий объем текстовых источников в корпоративных и
открытых сетях, в области разработки методов и систем защиты информации в настоящее время недостаточно представлены исследования, направленные на анализ угроз безопасности таких документов.
Решение сформулированной научной проблемы осуществляется на основе научных подходов информационной безопасности, предоставляемых теорией искусственного интеллекта и математической лингвистикой.
Первый подход направлен на совершенствование методов искусственного интеллекта. Теоретические основы в этой области применительно к информационным технологиям заложены в работах Кнута Д.Э., Нариньяии Л.С, Попова Э.В., Поспелова Д.А и других. Семантическая сложность естественного языка, многообразие и многозначность его конструкций с одной стороны, и недостаточная гибкость представления информации на программном уровне с другой - накладывают ограничения на способы представления знаний о языке. Вследствие сказанного, такие модели, в основном, содержат упрощенные описания ЕЯ конструкций, достаточные для реализации выбранной информационной технологии, но обладающими уязвимостями, не позволяющими использовать их в СЗИ.
Второй подход связан с обоснованием требований к моделям естественного языка и направлен на подготовку и представление исходных данных в виде, удобном для их использования в задачах обработки текстовой информации. Основы описания и использования структур языка заложены в работах Н.Хомского, З.Харриса. В трудах этих и других ученых сформулированы подходы к созданию грамматик. Большое количество работ посвящено аналитическим моделям. Однако любая создаваемая модель ЕЯ профессионально ориентированной предметной области, изначально содержит некоторые ограничения, так как описывается определенной совокупностью свойств. Одновременно с этим, при повышении требований к точности резко возрастает объем учитываемых языковых факторов и затрат на получение адекватной структуры лингвистического описания. О выполнении этого условия говорится во многих работах как прикладного, так и теоретического характера Мельчука И.А. Апресяна Ю.Д., Хорошевского В.Ф., Леонтьевой H.H., Тузова В.А. и других.
Аналитические модели, описываемые в работах, являются узкоспециализированными и сложны с точки зрения адаптации под конкретные виды задач обработки текстовой информации открытых
компьютерных сетей при противодействии угрозам нарушения информационной безопасности.
Содержание сформулированной проблемы определяет выбор в качестве объекта исследования системы мониторинга состояния информационной безопасности, обрабатывающие предметно ориентированные ЕЯ тексты и сообщения, а в качестве предмета исследования - методы и средства обнаружения и противодействия угрозам нарушения информационной безопасности, основанные на обработке и анализе текстов документов.
Исходя из сущности решаемой в диссертации научной проблемы, теоретическая цель исследования заключается в разработке, развитии аналитических методов, применяемых в системах мониторинга СЗИ, для обработки и вычисления информации ЕЯ текстов с целыо обнаружения и противодействия угрозам нарушения информационной безопасности, отличающихся от известных использованием функциональности семангико-грамматических связей между словами, позволяющих осуществлять более качественный анализ конструкций естественного языка.
Прагматической иелыо работы является повышение показателей защищенности ресурсов ИТКС за счет увеличения качественных характеристик идентифицируемых ЕЯ конструкций при автоматизации процессов вычисления информации текстов предметной области в комплексах пассивного и активного информационного противодействия угрозам нарушения информационной безопасности.
Для достижения указанных целей в диссертации решаются следующие основные научные и технические задачи, вытекающие из декомпозиции научной проблемы:
систематизация и анализ возможности применения в СЗИ современных подходов к вычислению естественно-языковой информации текстов документов;
определение основных характеристик текстовой информации, обрабатываемой СЗИ, позволяющих производить оценку показателей защищенности, выявление достоинств и недостатков;
повышение вероятности обнаружения угроз нарушения конфиденциальности, целостности за счет совершенствования методов представления структур естественно-языковых конструкции и правил их обработки, которые могут быть использованы различными системами мониторинга информационной безопасности с минимальными затратами па адаптацию;
построение и обоснование информационного состава прикладных баз данных и баз знаний средств обеспечения информационной безопасности, содержащих описания структур конструкций, основывающихся на связях между словами, для вычисления объектов содержания коротких сообщений;
разработка предложений по применению в системах и средствах мониторинга безопасности предлагаемых решений автоматической обработки текстовой информации.
На защиту выносятся следующие основные результаты:
Методика определения характеристик для СЗИ информационно-технических объектов, обрабатывающих текстовую информацию, основанная на модели обеспечения ИБ текстовых потоков ИТКС.
Система моделей, методов, методик для обнаружения и предотвращения утроз нарушения информационной безопасности при анализе текстов открытых источников компьютерных сетей, основанная на применении модели естественного языка.
Комплекс методов, определяющий состав морфологического уровня обработки ЕЯ сообщений СЗИ, позволяющих повысить устойчивость алгоритмов функциональных компонент анализа текстовой информации.
Концепция построения методов и моделей мониторинга потоков текстовой информации ИТКС, основанная на идентификации структур текстовой информации.
Комплекс методик и моделей активного аудита текстовых источников открытых компьютерных сетей, содержащих угрозы нарушения ИБ, основанный на построении специализированных объектов естественно-языковых конструкций.
Научную новизну диссертации составляют:
1.Методика определения характеристик для СЗИ информационно-технических объектов, обрабатывающих текстовую информацию, основанная на модели обеспечения ИБ потоков ИТКС отличается от известных, базирующихся на аналитических подходах, использованием вероятностных оценок информационного воздействия текстовых сообщений ресурсов открытых вычислительных сетей, что позволяет определить необходимые качественные показатели для систем мониторинга состояния ИБ и СЗИ ресурсов.
2. Система моделей, методов, методик для обнаружения и предотвращения угроз нарушения информационной безопасности при анализе текстов открытых источников компьютерных сетей,
основанная на применении модели естественного языка, отличается от известных, базирующихся на аналитических подходах, использованием в описаниях словоформ масштабируемых предикатов связей, аргументы которых содержат информацию о морфологических характеристиках и семантико-г рам ма г ических типах присоединяемых слов, что позволяет увеличить вероятность обнаружения конфиденциальной информации системами анализа контента за счет унификации описания, упрощения структуры ЕЯ базы данных без существенных потерь показателей полноты и точности при вычислении объектов текстовой информации.
3. Комплекс методов, определяющий состав морфологического уровня обработки ЕЯ сообщений СЗИ, позволяющих повысить устойчивость алгоритмов функциональных компонент анализа текстовой информации, отличается от известных, использующих аналитические подходы, вычислением информации на основе семантико-грамматических и морфологических характеристик, содержащихся в предикатах описаний словоформ для анализа возможностей соединения слов, что позволяет повысить точность распознавания данных с целью уменьшения вероятности преодоления защиты.
4. Концепция построения методов и моделей мониторинга потоков текстовой информации ИТКС, основанная на идентификации структур текстовой информации, отличается от известных, базирующихся на алгоритмах вычисления связей между словами, использованием системы приоритетов, реализующей последовательность перебора формализованных описаний синтаксической информации словоформ, обусловленную стилистическими особенностями текстов предметной области, что позволяет увеличить вероятность обнаружения угроз при осуществлении мониторинга сообщений открытых источников текстовой информации вычислительных сетей, избегая лавинообразного роста вычислительной сложности при построении структур без существенного снижения устойчивости обработки.
5. Комплекс методик и моделей активного аудита текстовых источников открытых компьютерных сетей, содержащих угрозы нарушения ИБ, основанный на построении специализированных объектов естественно-языковых конструкций, отличается от известных, базирующихся на статистических подходах, использованием фреймовых структур, что позволяет уменьшить количество примеров для достижения заданного показателя качества
функции обучения, увеличив вероятность обнаружения требуемой информации для систем мониторинга состояния ИБ.
Достоверность результатов работы подтверящается:
корректным использованием фундаментальных положений теории искусственного интеллекта, баз данных и математической лингвистики;
научной обоснованностью приводимых выкладок и математических преобразований;
использованием методик, проверенных экспериментами и внедренными в действующие образцы автоматизированных систем управления;
непротиворечивостью полученных результатов известным решениям;
результатами экспертной оценки специалистов в данной предметной области при внедрении результатов работы в опытные образцы систем, разрабатываемые научно-исследовательскими организациями и предприятиями промышленности.
Практическую ценность результатов диссертационной работы составляют предложенные модели, методы и алгоритмы для средств информационного противодействия угрозам нарушения информационной безопасности, которые позволяют повысить устойчивость обработки профессионально-ориентированного текста до 90%, при этом уменьшить вычислительную сложность алгоритмов создания структуры предложения исключив экспоненциальный рост анализа взаимодействия связей.
Теоретическая значимость. Совокупность моделей, технологий, методик, определяет новый методический аппарат, имеющий существенное значение для развития методов, алгоритмов и программных средств обеспечения информационной безопасности в политической, социально-экономической, оборонной и других сферах деятельности.
Реализация результатов. Диссертация является обобщением результатов исследований, проводившихся автором в течение последних 10 лет в ходе плановых НИР и ОКР, выполняемых по плану научной работы ВВС, по заказу ВНК ВВС, Управления РТВ ВВС, научно-исследовательских институтов и предприятий оборонной промышленности. Результаты исследования внедрены в изделия 37И6. 37И6-М, использованы в НИОКР, проводившихся предприятиями промышленности (акты о реализации ОАО Всероссийский НИИ
радиотехники, ОАО НИИ точной механики), в Федеральных целевых МИР.
Исследование выполнено по ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технического комплекса России на 2007-2013 годы» в рамках государственного контракта № 07.524.12.4009 на выполнение опытно-конструкторских работ.
Апробация работы. Результаты диссертационной работы докладывались и обсуждались на Международных и Всероссийских симпозиумах, военно-научных, научно-технических конференциях проводимых в научно-исследовательских организациях и высших учебных заведениях Министерства обороны и других Федеральных министерств и ведомств с 1998 но 2009 годы
Публикации. По результатам исследований, представленных в диссертации, опубликовано более 50 печатных работ (из них 10 научных работ в рецензируемых научных изданиях, рекомендованных для докторских диссертаций), в том числе 2 монографии, оформлено 6 отчетов о НИР.
Структура и объем работы. Диссертационная работа содержит введение, 5 разделов, заключение, список литературы. Объем работы составляет 243 страницы.
СОДЕРЖАНИЕ
Во введении приводятся краткие сведения о работе в целом с указанием актуальности, новизны, научной и практической значимости, степени публикации и внедрения результатов исследования, раскрывается композиционное построение диссертации.
В первой главе анализируются проблемы обеспечения информационной безопасности объектов политической, социально-экономической, оборонной, культурной сфер деятельности в открытых вычислительных сетях. Лавинообразный рост количества источников, обуславливает необходимость анализа огромного количества текстов для выявления внешних и внутренних угроз хищения и модификации документов, циркулирующих в автоматизированных системах управления. Интеграция открытых вычислительных сетей обуславливает необходимость решения задач классификации текстовой информации для разграничения доступа и противодействия распространению конфиденциальных сведений, нарушению авторских прав.
Использование сервисов, представ пяемых рядовым пользователям с объективным отсутствием возможности
осуществления должной глубины процессов идентификации и аутентификации в ИТКС и открытых сетей типа Интернет обуславливает определенные особенности, связанные с защитой информации и защитой от информации, с возможностью информационного воздействия не только на технические элементы ИТКС, но и на пользователя или коллектив пользователей производя вмешательство в механизмы управления, ресурсы, структуры.
Исходя из характера угроз ИБ ИТКС, особое внимание уделено уровням формальных моделей анализа естественно-языковых текстов, используемых в программно-аппаратных комплексах информационных и экспертных систем, осуществляющих мониторинг открытых компьютерных сетей типа Интернет. Анализируется возможность и целесообразность их применения в механизмах защиты для решения задач противодействия угрозам информационной безопасности.
Раскрываются подходы использования интеллектуальных средств анализа для зашиты информации, основанных на автоматической обработке ЕЯ, включающих в себя методы математической лингвистики и искусственного интеллекта. Выделяются показатели устойчивости, полноты, точности, выпадения, анализируется их влияние на СЗИ.
В разделе показано, что существующие математические модели естественного языка не в полной мере удовлетворяют возросшие потребности обработки текстовой информации в системах мониторинга ИБ на существующем этапе развития современных информационных технологий:
С учетом вышеизложенного, решаемая в диссертации научная проблема состоит в обосновании и разработке научно-методического аппарата мониторинга текстовой информации (Мш),предназначенного
для автоматического вычисления информации (1 ) текстов предметной области с минимальной потерей полноты, точности и адекватности (А/тш ) при обработке / в комплексах вычислительных средств СЗИ, базирующегося на использовании:
множества моделей (н = ',£/')}), свойства которых
^ и й?'имеют функциональную зависимость /(({',(Г) от свойств О'
представления информации в модели ЕЯ и требуемых свойств О' представления данных в ИС.
и методов (М) обеспечивающих отражение текстовой информации Г в элементы данных О с помощью функции Р.
Математически указанная проблема формулируется следующим образом:
Найти М„,:0<2')Ус1'{с1'& В')
такие, что з(/ = 7{М, Н, д,С}\<1,й\А/}), при ¡/ - /I А/,
ШШ
м-.т-^о
Сравнительная легкость доступа к различным ресурсам ИТКС обуславливает необходимость идентификации возможных направлений информационного воздействия и атак. Определим модель ИТКС в виде кортежа:
М=<0„0рЛ),Т0> (1)
О, - множество информационно-технических объектов(ИТО), О,, - множество информационно-психологических объектов(ИПО),
7} - входные информационные потоки текстовой информации Т„ - выходные информационные потоки текстовой информации.
Каждый ИТО характеризуется системой защиты 2о.имеюшей свои характеристики Тгс, а также характеристиками целевой аудитории /0 и характеристиками предоставляемых сервисов 50:
01 =< Тг0,10, 80> (2)
Анализ этих составляющих может являться отправной точкой для определения уязвимостей и обоснования требований к составу и построению СЗИ. Рассмотрим упрощенную структуру анализа воздействия входного информационного потока текстовой информации на ИПО (рисунок 1).
"а -*
То
Рис. 1. Информационные потоки ИТКС
Разобьем событие ознакомления с содержание на отдельные составляющие.
Р/ - вероятность того, что пользователь будет работать с ресурсом, содержащим потенциально опасное информационное сообщение.
Р2 - вероятность обнаружения (чтения) сообщения.
Рз - вероятность оказания воздействия содержания сообщения на конечного пользователя.
Тогда вероятность того, что сообщение повлияет на пользователя, будет состоять из последовательности отдельных событий:
P,y'-PiP2[>3 (3)
В общем случае для одного потока текстовой информации выражение можно записать следующим образом:
Po^tlP, W
Оценивая возможности по ознакомлению с ресурсами, следует отметить, что среднестатистический пользователь сети Интернет регулярно посещает около полутора десятков ресурсов. В нашем случае будем считать, что каждый из т ресурсов представляет параллельный входной информационный поток текстовой информации.
/ч 11
Р = П О" П (5)
j=\ i=i
Для упрощения, считая равновероятным событие возможного влияния на пользователя потенциально опасного сообщения на т разных ресурсах, получаем соотношение:
р = 1-(\-р0У" (6)
На рисунке 2 приведен график для ро=0.01 (сообщение комментария) иро~0.2 ^сообщение центральной новости).
Цель использования ресурса для осуществления информационного воздействия со стороны злоумышленника определяет следующее соотношение.
limpii—*!, т.е lim р/р2Рз~*1
Поэтому атаки и информационные воздействия на раскрученный ресурс, имеющий огромную целевую аудиторию, имеют больший резонанс и потенциально позволяют повысить возможные негативные последствия. Более широко известный ресурс, имеющий большую аудиторию и высокую частот)' посещаемости, несет больше потенциальных угроз ИБ. Данная оценка дает возможность определить частоту модерации, количество накапливаемых сообщений, параметры и качественные характеристики обнаружения угроз систем мониторинга состояния ИБ.
P(tn)
0.8
0.6
0.4
0.2
0
О 1 4 6 8 10 12 14 16 18 20
т
Рис. 2. Вероятность ознакомления с сообщением
Таким образом, становится возможным определение характеристик для СЗИ информационно-технических объектов, обрабатывающих текстовую информацию, основанное на модели обеспечения ИБ текстовых потоков ИТКС, что составляет основу первого результата.
Для повышения качества обработки документов на естественном языке в системах мониторинга текстовой информации необходимо, решить вопрос о формализации семантической составляющей естественного языка, выделить основные конструкции, выявить методы построения моделей информационных систем.
В первом разделе диссертации на основе анализа проблемных вопросов, объективно существующих при создании комплексов средств противодействия угрозам нарушения информационной безопасности в открытых компьютерных сетях, осуществлена постановка научной проблемы и определены основные направления исследований.
Вторая глава посвящена системе моделей, методов, методик для обнаружения и предотвращения угроз нарушения информационной безопасности при контент анализе текстов открытых источников компьютерных сетей.
Пусть г - текущее время в соответствующих единицах измерения;
N ~ количество требующих анализа на содержание потенциально опасного информационного воздействия сообщений в момент времени t.
Тогда имеет место соотношение N = n(t), где n(t) - функция, показывающая число требующих анализа (модерации) сообщений.
Появление информации на ресурсе сети Интернет о конкретном резонансном событии общественной, политической, экономической жизни вызывает всплеск количества высказываний и комментариев. Число комментариев п определяется моделью поведения злоумышленника, которая может описываться различными распределениями. Пусть, например, величина количества требующих анализа сообщений в единицу времени t задается соотношением:
72(0 = А'-1 (7)
где X - интенсивность поступления сообщений в единицу времени;
Тогда вероятность информационного воздействия на ИПО, в течение времени до модерации, когда сообщения остаются на ресурсе:
/>(0 = 1-0-Ро)*"1 (8)
Появление информации на ресурсе сети Интернет о конкретном резонансном событии общественной, политической, экономической жизни вызывает всплеск количества сообщений и комментариев, что злоумышленник может использовать для своих атак.
Лавинообразный рост сообщений обуславливает необходимость использования автоматического анализа при мониторинге состояния ИБ ресурсов. Современные системы, обеспечивающие информационную безопасность, в основном, осуществляют обнаружение по специальным идентификаторам (например, «секретно», «ДСП» и др.). Однако такой подход направлен на предотвращение случайных угроз, вызванных ошибками пользователей. Для снижения вероятности преодоления защиты ИТКС, увеличения показателей полноты и точности обнаружения информации в открытых вычислительных сетях необходимо учитывать состав и контент документов.
Функциональные компоненты СЗИ Z0 и систем мониторинга состояния ИБ ИТКС определяют кортеж Z0=< Tz0, Uz0 >, где: Tz0 - характеристики системы защиты информации; Uz0 - уязвимости функциональных характеристик СМПО. Применительно к обработки СЗИ текстовой информации злоумышленник может воспользоваться не только уязвимостями,
15
возникающими в результате работы СЗИ (частота модерации портала, лавинообразный рост комментариев события), но и особенностями алгоритмов (например, непредусмотренными возможностями по анализу специфических конструкций, несоблюдение грамматических и орфографических правил и т.д).
Описание структур представления текста очень сильно зависит от особенностей предметно ориентированной области использования, которые заключаются в употреблении аббревиатур, специализированных сокращений, что влияет на организацию хранения информации и заставляет учитывать стилистические характеристики текстов. Универсализация описаний естественноязыковых конструкций является одним из проблемных вопросов для автоматической обработки документов, влияющих на вероятность обнаружения угроз нарушения конфиденциальности и качественных показателей идентификации содержащихся в них информации.
Исходя из этих и других проблемных вопросов, для метода противодействия угрозам нарушения информационной безопасности при анализе текстов открытых источников компьютерных сетей была разработана адаптированная модель естественного языка (рисунок 4). Аналогично известных моделей (например модели Тузова) в ней выделяются уровень морфологии, уровень синтаксиса и уровень семантики. Однако семантический и синтаксический уровни отделены друг от друга, что позволяет создавать масштабируемые предикаты, аргументы которых содержат информацию о морфологических характеристиках и семантико-грамматических типах, вычисляемых на основе анализа присоединяемых слов предметной области. Синтаксический уровень содержит информацию о связях между словами, а семантический - определяет правила анализа, синтеза и обработки полученных конструкций.
(9)
множество словоформ Бимножество синтаксических шаблонов ^ ^в
Кч (= к
Кз-множество классов ь
Предложение текста можно рассмотреть как последовательность морфологических идентификаторов, которые необходимо выстроить в соответствии с системой внешних приоритетов (правил) и системой связей, прописанных в словарной базе данных. Таким образом, каждая словоформа, которой ставится в соответствие идентификационное множество, оказывается под воздействием двух систем управления.
РО) 0.8 0.6 0.4 0.2
О
О 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
--А = Юр = 0.02
..... Л = 100; р - 0.02
1000; р = 0.02
°0 0.1 0.2 0.3 0.4 0.5 0 6 0 7 0.3 0.9
.......... Л = Юр = 0.2
----- Л= Ю0.р =0.2
......... Л» 1000; р» 0.2
Рис. 3. Зависимость вероятности информационного воздействия при равномерно распределенной величине от вероятности содержания потенциально опасных сообщений р=0.02 и р=0.2
17
1 ..-*'
у
________— ____|---| _——
Синтаксический предикат 5Ш(А!.....А„)
А: - морфологическая информация +
Система приоритетов для сборки конструкций
-а
СГТППФ.гдеК; =17
+
СП" отдельных частей
речи
Рис.4. Адаптированная модель языка
Для снижения вероятности ошибки первого рода при обнаружении угрозы хищения идентификационное множество может добавляться классами к/.-.к,, для устранения неоднозначности семантической составляющей конструкции. Первая система - внешняя, задает порядок устранения неоднозначностей морфологических идентификаторов и формируется правилами управления. Вторая система определяется возможными связями конкретной формы слова. Информация о правилах содержится в предикатах синтаксической базы данных. При связывании слов предложения альтернативы каждого слова вступают во взаимодействие с соседними альтернативами.
Для применения модели в СЗИ для контент-анализа сообщения необходимо изначально настроить идентификационное множество £/.../(,, , в синтаксической базе данных, либо считать все словоформы однозначно трактуемыми с позиции тематики идентифицируемого текста.
Использование такого подхода обладает преимуществами, заключающимися в упрощении описаний информационных предикатов по словоформе, унификации предикатов отдельных частей речи, универсальности системы приоритетов синтаксиса, которая может применяться для других языков, например английского. Унификация предикатов позволяет без существенных затрат пополнять профессионально ориентированную словарную базу данных предметной области адаптированную под задачи мониторинга безопасности текстовой информации. Учитывая, что только при анализе текстов технической документации СМПО было выделено
Морфологический уровень
Синтаксический уровень
Семантический уровень
с)
маловажным. Сменяемый семантический уровень системы позволяет подставлять базы данных предметной области, что дает возможность производить более жесткий анализ структур в прикладных задачах.
Использование открытых вычислительных сетей в различных сферах культурной, социально-экономической, политической деятельности обуславливает необходимость анализа коротких сообщений с целью противодействия угрозам нарушения информационной безопасности. Оставляемые пользователями сообщения имеют специфические характеристики корректности структур ЕЯ конструкций, что затрудняет их автоматический анализ.
Исходя из этого, в рамках метода противодействия угрозам нарушения ИБ предлагается универсальный подход к построению структур естественного языка на уровне синтаксических связей. Обработка информации может основываться на вычислении трех видов элементов: объектов, характеристик и действий. В том или ином контексте их можно идентифицировать в областях программирования, проектирования информационных и других систем аналитики и анализа информации. Обработка текстовой информации в системах мониторинга безопасности также может быть основана на вычислении подобных элементов. Поэтому модель можно описать следующим образом:
М=-<И',Н> (10)
где - множество словоформ
Н - характеристики Н={0\й\С} О - объект Б - действие
С=/С0,О/ - характеристики На рисунке 5 показана универсальная структура представления естественного языка на примере русского, состоящая из объектов, действий, характеристик и слов, осуществляющих управление сборкой конструкции. Такая модель позволяет уменьшить вероятность пропуска необходимого сообщения. Для реализации алгоритма необходимо точно определить роль словоформы в сообщении исходя из требуемых задач мониторинга и создать систему приоритетов.
Достоинство предлагаемой модели состоит в том, что предложенные в ней подходы по вычислению структуры лексических конструкций универсальны для большинства естественных языков. В практической реализации данная модель применена в рамках задач мониторинга и создания рейтинга высказываний по событиям, обсуждаемым в сети Интернет.
Управление сборкой конструкции
• \Союз
• \ Междометие
• \ Частица
• \ Предлог
• \ Вводное слово
Объект
Существител ькое ♦ Местоимение « Числительное
Действие
Характеристики
• Прилагательное • Деепричастие
• Причастие « Наречие
• Числительное
• Наречие
Рис. 5. Универсальная структура представления естественного языка
На рисунке 6 приведена оценка показателей качества для тематического обнаружения информации текстов блогов и новостных агентств полноты Я, точности Р, выпадения О и ^-меры при идентификации объектов текстовой информации, в зависимости от используемых уровней формализации, где Н- извлеченные релевантные документы, В- общее число найденных документов, N -общее число релевантных документов в выборке.
Уровень сингакс^ески): связей
Уровень общей Уровень семантики семантики предметной
области
я=
я
(И)
Р
N
(12)
О-
ы-н
N
2РЯ Р + Я
(13)
Рис. 6. Результаты оценки показателей качества
Увеличение показателей полноты и точности в системах мониторинга определяют рост релевантности идентифицируемой информации, что снижает угрозы хищения при пересечении периметра ИС.
Таким образом, во второй главе диссертации разработана система моделей, методов, методик для обнаружения и предотвращения угроз нарушения информационной безопасности при анализе текстов открытых источников компьютерных сетей, основанная на применении модели естественного языка, что составляет основу второго результата, выносимого на защиту.
Третья глава посвящена комплексу методов, определяющих состаз морфологического уровня обработки ЕЯ сообщений СЗИ, позволяющих повысить устойчивость алгоритмов функциональных компонент анализа текстовой информации.
Аналитические и морфологические языки требуют разных накладных расходов при формировании уровней обработки в СЗИ и системах мониторинга состояния ИБ ИТКС. Одним из подходов к выбору функциональных компонент внутри уровня формализации является оптимизационная задача:
п ¡=1
• (15)
*, = {0;1}
где а■ - коэффициент полезности (эффективности) элемента СЗИ,
¿, -требования элемента СЗИ к вычислительным ресурсам
Анализ коэффициента а осуществляется на основе величины ожидаемой потери при классификации словоформ алгоритмом та
Пусть А- класс словоформ ЕЯ, влияющий на принятие решения об идентификации документа.
В- класс словоформ ЕЯ, не влияющий на принятие решения об идентификации документа.
Хда - величина потери при отнесении словоформы класса А к классу В.
Pi - вероятность появления словоформы класса А , которая будет отнесена к классу В.
Рассмотрим величину ожидаемой потери при классификации словоформ алгоритмом та:
R(ma) = ЯАК РАРЛВ (16)
АеТВеТ
Разобьем класс А на подкласс а содержащий аббревиатуры, несклоняемые слова и идентификаторы, и подкласс 5 словоформ с изменяемыми формами. Каждое слово сообщения будет относиться либо к подклассу а, либо к подклассу s.
Тогда для каждого слова внутри класса А существуют два события: отнесение к подклассу а или подклассу s. Определим вероятность РА ошибки идентификации класса А, как возникающую вследствие ошибки при идентификации аббревиатуры Ра или ошибки при идентификации изменяемой формы слова Ps . Согласно теоремы сложения вероятностей несовместных событий:
Вычислим функционал среднего риска: Я(та) = ^Ям(Ра+Ря)Рм (17)
ЛеТВеТ
Организация базы данных аббревиатур текстов предметной области обуславливает limi^ —>0. Величина ожидаемой потери примет вид
= (18)
Для аналитических языков (например, английского), учитывая незначительную сложность обработки морфологии слова, величина Р, стремится к 0, для морфологических - приближается к 1.
Такая оценка может служить для определения необходимости включения в комплексы СЗИ данного вида анализа, исходя из архитектуры построения системы, вычислительных затрат и сложности реализации.
Встречающиеся в тексте специфические конструкции (аббревиатуры, сокращения, наименования, указатели даты, времени, учетных номеров документов) понижают показатель устойчивости при вычислении структуры до 60%. Встреча подобной конструкции при анализе текста документа, может являться решающим фактором для обнаружения угрозы конфиденциальности информации. Реализация приводимого метода мониторинга использует базы данных
специализированных шаблонов, позволяющей идентифицировать специфическую конструкцию
Использование алгоритмов обработки нераспознанных словоформ текстовой информации позволяет добиваться устойчивости обработки ЕЯ в СЗИ, а с другой - предоставляет возможность борьбы с примитивным кодированием.
Используемая в методе мониторинга модель морфологического анализа может быть представлена:
МА=<Б,М.Р> (19)
где 5- множество исходных форм слов
Л/- множество парадигм
Р - множество морфологических признаков
Формализация морфологии представлена следующим образом.
Пусть 5 = /5)},1=1.....п множество исходных форм слов.
М ~ / М^ , 7=7,....Ар- множество парадигм, причем каждому элементу множества соотве тствует морфологический признак А/,—>Ру. словоформа.
с = {с,}, ;-=7,...,г - множество стандартных окончаний слов
Тогда необходимо найти такие/ и у, что
Б-^М; М—£-(20)
где
/ функция, соответствия элементов множества Б элементам множества М,
% - функция, соответствия элементов множества М элементам множества 5.
Нахождение этих функций позволяет говорить о решении прямой и обратной задач морфологии. Предлагаемый метод основан на том, что любой словоформе сопоставим класс основ Б и класс окончаний С, из которого состоит данная словоформа.
^--^ {В; С} (21)
Тогда для каждого слова можно выделить морфологический класс к его парадигм Мк, такой, что словоформа данного морфологического класса (ЗУ является подмножеством парадигм этого класса, выражается, суммой основ и окончаний слова данного морфологического класса.
е Мк=Вк+Ск, (22)
Это означает, что частная задача нахождения функции f прямой задачи морфологии решена. Совокупность решения частных задач даст решение прямой задачи в общем виде.
Соответствие Л/, ~*Рр позволяет получить морфологический признак по каждой словоформе.
Решение обратной задачи предполагает существование некоторой словоформы.
Пусть С мк (23)
Определим ее основу как разность между словоформой и ее окончанием.
{Вк} = - {сЛ к=1.....п, г= /.....г (24)
Сопоставим эту основу с множеством допустимых для нее исходных словоформ.
Вк--,к=1,...,п (25)
Используя прямую задачу, вычислим множество парадигм этих основ.
{8к}^ММк} (26)
Сравним исходную словоформу с этими парадигмами.
В случае совпадения определяется исходная форма слова для данной парадигмы.
Ек:Мк--(27)
Совокупность решения частных задач даст решение обратной задачи в общем виде.
Решение прямой и обратной задачи имеет существенное значение в задачах мониторинга безопасности текстовых документов морфологических языков. Для принятия решения о возможности предоставления доступа к документу необходимо произвести анализ его текста Г на предмет обнаружения слов идентификаторов.
Полные и точные характеристики, выданные морфологическим анализатором по каждому слову, являются фундаментом для построения формализованной конструкции предложения, служащей основой анализируемых информационных объектов в системе мониторинга ИБ. Каждая часть речи обладает своим набором морфологических признаков и играет строго определенную роль в синтаксических конструкциях. Учитывая специфику предметной области, необходимо отметить, что в системах мониторинга ИБ, обрабатывающих текстовые сообщения, разные части речи несут неравные доли информационной составляющей конструкции. Частота встречаемости частей речи и связей показана на
рисунках 7-8. Поэтому в СЗИ, вычисляющих контент сообщений, необходимо соответствующим образом, учитывать морфологические характеристики. Предлагаемую модель синтаксического анализа определим как:
SA-<W,M, Vex,, ¥вых> (28)
где W - множество форм слов,
М - множество морфологических характеристик.
Vex - множество связей, образуемых со словом другими
словами,
Увых - множество связей, образуемых словом с другими
словами.
Состав и структура синтаксической информации словоформы, используемой в СЗИ, находится в зависимости от части речи, которой она принадлежит.
На рисунке 9 приведены результаты оценки устойчивости алгоритмов анализа текстовой информации, основывающиеся на общей словарной базе данных, базе данных шаблонов и терминологической БД.
Таким образом, разработан комплекс методов, определяющий состав морфологического уровня обработки ЕЯ сообщений СЗИ, позволяющих повысить устойчивость алгоритмов функциональных компонент анализа текстовой информации, что составляет основу третьего результата, выносимого на защиту.
з а%.
Рис. 7. Частоты использования частей речи ограниченного ЕЯ в комментариях
Рис.8. Частоты использования связей частей речи ограниченного ЕЯ в комментариях
Четвертая глава раскрывает комплекс методов, автоматизирующих создание классификаторов тематических рубрик предметной области для БД фильтрации систем контекст анализа текстовых сообщений в открытых компьютерных сетях.
0,7 I.............................................-.................................................... Н................................................................... {
о,б |....... .....- -........--------------------ШШШ1 ........|
0,4 ......................................................................................................................^ ................
о.з ; ВИНИ вШЁШЁ ИНЕЯ
Общий словарь Общий словарь + БД Общий словарь * шаблонов гермино/югическмй
словарь
Рис. 9. Результаты оценки показателей устойчивости Огромное количество источников сети Интернет, обуславливает необходимость поиска и анализа и на предмет обнаружения информации экстремистской направленности, конфиденциальных сведений, соблюдения авторских прав, с целью ограничения доступа, что требует увеличения скоростных и качественных характеристик систем мониторинга состояния ИБ ИТ'КС.
26
Функциональные компоненты систем мониторинга состояния ИБ ИТКС имеют характеристики Tz0 системы защиты Z0 , которые определяют функцию R -» {Н0,Н,}, принимающую решение о принадлежности ЕЯ конструкции гипотезам НФН/. Поэтому необходим комплекс мер уменьшающих соотношения ошибок первого и второго рода по отношению к идентифицируемым текстовым конструкциям.
Анализ состава синтаксической структуры ЕЯ конструкции, позволяет влиять на вероятности ошибок первого и второго рода при мониторинге ИБ. Вычисление конструкций позволяет быстро и без использования дополнительных средств осуществлять пополнение и адаптацию создаваемых БД применительно к системам контент анализа. Автоматизация процесса построения классификатора текстовой информации предметной области мониторинга состояния ИБ ИТКС связано с использованием синтаксических структур ЕЯ конструкций. На рисунке 10 представлены связи, которые образуют другие части речи относительно предложно-падежной формы существительного. Вершины этого графа составляют глагол G, прилагательное Pril, предлог Predi, существительное S, наречие Nar. Каждая стрелка в графе определена совокупностью вопросов, которую можно задать от различных частей речи к предложно-падежной форме существительного или от нее. Первая группа - это падежные вопросы. Она практически однозначно определяется предложно-падежной формой и поддается формализации на уровне синтаксического шаблона. Вторая группа - это смысловые вопросы. Для их формализации требуется классификатор существительных, описывающих семантическую принадлежность. Для вычисления смысловых вопросов иредложно-падежных форм предметной области текстов используется информация о 17 классах, что позволяет повысить статистическую точность вычисления идентификаторов до 98%.
В ограниченном формализованном семантическом языке, применяемом для мониторинга состояния ИБ ИТКС, в системах анализа контента, каждому слову ставится в соответствие формульное описание.
Рис. 10. Связи между частями речи относительно предложно-падежной формы существительного
Общий шаблон глагольной функции ограниченного ЕЯ, применяемого в СЗИ и мониторинга ИБ, можно представить в следующем виде:
G(Z1:!Km {Kl}g, Z2:!Pod{K2} г гЗ:!Дат{КЗ} g, (29)
Z4:!Bim{K4} p Z5:!Te{K5}g, Z6:hlped{K6} J где G - идентификатор глагольной функции,
{Ki}g... {K(}g~ набор классов, соответствующий данной глагольной функции.
Описание существительных: S = {K;{fh...,fJ} (30)
где К - класс существительного,
(fl,...,fn} - характеристические признаки. Семантико-синтаксические связи существительного также можно представить в виде предиката:
S(Zl.!Po<), Z2:!Mam, Z3:!Buh, Z4:!Te, Z5:!Hped) Описания предикатов других частей речи: Т„: Chi (ZI:'.ПадежKlп)
где К1„ - класс аргумента
Т„ - вырабатываемый тип C-h - идентификатор части речи Тогда каждая словоформа W имеет в своем шаблоне определенный набор признаков а,ч на основании которых оно может присоединять к себе другие словаf,.
(33)
Признаки и, содержат морфологические характеристики и классы претендентов на образование связи. Состав классификатора может быть сформирован исходя требуемых задач мониторинга угроз нарушения ИБ.
(31)
(32)
Виды связей несут определенную семантическую нагрузку. Они определяются способом соединения собираемых конструкций. В процессе анализа образующиеся связи могут быть только семантическими и синтаксическими.
Первоначальное получение структуры и наложение на нее семантической информации БД ограниченного ЕЯ СЗИ позволяет уменьшить вычислительную сложность и избавиться от экспоненциальной зависимости роста количества анализа связей от количества словоформ конструкций (рисунок 18). Учитывая стилистические особенности текстов предметной области мониторинга состояния ИБ наибольший приоритет можно отдать анализу возможности образования связей между двумя ближайшими словоформами.
Идентификатор связи и класс объекта позволяют определить атрибут информационного объекта.
Информация [ВЛАДЕЛЕЦ:] системы Информация [ОБЪЕКТ:] о системе
Подход дает возможность учитывать лингвистическое окружение для точного определения объектов, а также определять тональность обсуждений и преподнесения информации источников при мониторинге состояния ИБ ресурсов ИТКС.
Таким образом, определены методы и модели мониторинга потоков текстовой информации ИТКС, основанные на анализе лингвистического окружения при поиске и идентификации информационных объектов текстовой информации с использованием связей.
Пятая глава посвящена методу снижения информационного шума при анализе текстовых сообщений в СЗИ в процессе сбора, обработки и распространения информации в открытых компьютерных сетях. Повышение качественных характеристик полноты, точности анализа текстовой информации ИТКС в системах мониторинга состояния ИБ связано с использованием ЕЯ структур. По морфологической и семантико-синтаксической информации каждой словоформы предложения, строится дерево (граф) предложения. Причем следует отметить, что одинаковые словоформы могут иметь несколько значений и, в этом случае, необходимо выбрать правильную альтернативу. Имея множество альтернатив, теоретически возможно осуществить полный перебор всех вариантов и выбрать в конце конструкцию, включающую в себя максимальное количество элементов, но, чтобы избежать экспоненциального роста сложности,
используется система приоритетов. Рассмотрим упрощенный алгоритм свертки предложения, не акцентируя внимание на таких частях речи и предложения, как числительные, союзы, частицы, причастия, деепричастия, подчиненные предложения. В простом распространенном предложении могут содержаться (или не содержаться) следующие части речи: глаголы, существительные, прилагательные, наречия. На рисунке 11 показана последовательность шагов свертки предложения. Ее использование позволяет избавиться от экспоненциального характера роста количества сравнений ар1ументов предикатов словоформ при обработке объектов текстовой информации (рисунок 12).
Создание объектов текстовой информации для систем контент анализа СЗИ реализуется в три этапа.
Первый этап - построение структуры предложения Г, определение семантико-грамматических типов конструкций входящих в предложение.
Второй этап - вычисление идентификатора объекта /, который определяется существительным конструкции, на основе заложенной информации в функцию Я анализа У.
Третий этап - определение атрибутов А1г и признаков Рг, основывающееся на структуре предложения У, которая позволяет вычислить подчиненные и зависимые словоформы, семантическую составляющую образованных ими соединений.
Для вычисления объекта с помощью БД ограниченного ЕЯ СЗИ выделяются три основных вида связей.
1. Порядковая связь определяющая атрибуты объекта А/г, зависит от морфологической информации предиката существительного
О!'по.Па<) . ^ у^Тп.Пад . ^ ^ ^вии.Пад . £
2. Морфологическая связь ят, устанавливающая признаки объекта Рг на основе идентификации взаимодействия существительного с другими частями речи:
3. Связь, отражающая действие объекта идентифицируется глагольной функцией:
Б+в
Таким образом, становится возможным построения методов и моделей мониторинга потоков текстовой информации ИТКС, основанных на идентификации информационных объектов текстовой информации, что составляет четвертый результат, выносимый на зашиту.
Рис. 11. - Упрощенная последовательность шагов свертки
предложения.
Одним из проблемных вопросов является создание автоматизированных систем, осуществляющих реализацию превентивных мер анализа, где необходима автоматизация определения уровней наблюдения объектов ИТКС, подвергающихся атакам. Решение состоит в том, чтобы реализовать функцию О, выдающую результат ранжирования Я с учетом вероятностных оценок приоритета выбора р и результатов обучения Q системы на предыдущих этапах.
Л - в(р.О)
Предположим, что данный НТО подвергается обработке со стороны системы мониторинга ИБ, имеющей вероятность обнаружения потенциально опасного сообщения р0 .
Рис. 12. Зависимость количества сравнений от числа слов сообщения:
1 - Семантическая модель без системы приоритетов.
2 - Семантическая модель с системой приоритетов.
3 - Синтаксическая модель.
Пусть рз - вероятность того, что злоумышленник решит оставить на ресурсе потенциально опасное сообщение.
Тогда вероятность нахождения потенциально опасного сообщения будет выглядеть следующим образом:
Рр =РгЧ.г (34)
где д вероятность не обнаружения системой мониторинга ИБ потенциально опасного сообщения.
Преобразуем выражение к виду:
Рр-ла-л) (35)
Если подвергающийся в текущий времени момент атаке ИТО имеет п ресурсов, то вероятность того, что на них содержатся т и более потенциально опасных сообщений:
„ т „ /я /1 ч п~т
Р = сп^ (1 -Рр)
Подставляя значения в выражение, получаем:
р-V >*Ш-Ро)Г0-р£-Ро)Г (37)
1П=к (п-т)Ы
Считая, что размещение потенциально опасных сообщений равновероятны и представляют собой простейший поток, рассмотрим вероятность содержания т=3 потенциально опасных сообщений в ИТО, включающего в себя п=10 ресурсов.
Для вероятности нахождения на ресурсе потенциально опасного сообщения распределение представлено на рисунке 13.
Для вероятности обнаружения на ресурсе потенциально опасного сообщения распределение представлено на рисунке 14.
Р(р j
о.з
0.2
0.1
° 0 0.2 0.4 0.6 0.8 Р3
- Р-о =0.3
----- Р-о =0.3
Р-о =0.7
Рис.13. Вероятность содержания т=3 и более потенциально опасных сообщений в ИТО, включающего в себя п=К) ресурсов в зависимости от вероятности появления потенциально опасных сообщений, при вероятности обнаружения СЗИ 0.3,0.5,0.7
Данный подход может применяться для выявления ИТО и их ресурсов, которые должны подвергаться более пристальному вниманию при активном и пассивном мониторинге состояния ИБ. Исходя из значений вероятностей появления и обнаружения потенциально опасных сообщений становится возможным сделать вывод о необходимости применения СЗИ, обладающими определенными качественными характеристиками.
Исходя из алгоритма построения конструкции предложения, словоформа, участвующая в образовании второй части связи, является признаком или атрибутом объекта. Использование связей конструкций позволяет создать модель предметно-ориентированного объекта
текстовой информации, используемого при мониторинге состояния ИБ ИТ КС;
0={1,Рг,А 1г, Во, Ои] / (38)
где 1=Н(У); - идентификатор объекта 8т—' Рг - признак объекта > Аи- - атрибут объекта лу —> О0, Д,- действия над объектом и объекта
0.3
0.2
0.1
С —--------------------—'
О 0.2 0.4 0.6 0.2
— Р-о =0.3
* - - ^
4 ч
...... ----- ......
Рис.14. Вероятность содержания т=3 потенциально опасных сообщений в ИТО, включающего в себя п=10 ресурсов в зависимости от вероятности обнаружения СЗИ потенциально опасных сообщений, при вероятности появления потенциально опасных сообщений 0.3,0.5,0.7
Такая модель представления информационного объекта текста позволяет использовать в системах мониторинга ИБ описанные выше алгоритмы для автоматического наполнения структур фреймов, а с другой стороны дает возможность применения проработанных классических методов (методы извлечения на основе признаков, методы сопоставления образцов и др) извлечений фактов из текстов. В результате анализа информации представленный объект может быть использован в моделях извлечения фактов и в моделях обучения.
Обозначим количество правильных извлечений системы к, количество требуемых извлечений й. Тогда
h. n h.
d, nt
Пусть N количество правил извлечения, /¡(к,т,у) функция качества отдельно взятого правила, зависящая от семантического класса, морфологических характеристик слов конструкции и характеристик связей, тогда функция обучения определяется согласно выражения (14).
fi =------(40)
«/ +4
Такой подход позволяет оценить функцию качества обучения модели извлечения фактов с использованием вычисления структуры объекта и без него, что показано на рисунке 15 на выборках m 50, 100, 150 примеров.
If, 2k
т ,=1 ni + d;
где h - количество правильных извлечений
и - количество извлечений найденных системой d - количество релевантных извлечений в вь!борке
F---L—4- (41)
Рис. 15. Оценка функции качества обучения Согласно графику видно, что для модели извлечения фактов в системах контент ^нализа при мониторинге состояния ИБ ИТКС, использующей методы сопоставления образцов применение автоматического наполнения структур фреймов, основанного на
алгоритмах вычисления структур позволяет добиваться лучших результатов при меньшем числе примеров обучения.
Таким образом, разработан комплекс методик и моделей активного аудита текстовых источников открытых компьютерных сетей, содержащих угрозы нарушения ИБ, основанный на построении специализированных объектов естественно-языковых конструкций, что составляет основу пятого результата, выносимого на защиту.
В заключении сформулированы полученные результаты и приведены основные направления, где они могут быть использованы.
ОСНОВНЫЕ НАУЧНЫЕ И ПРАКТИЧЕСКИЕ РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
При проведении научного исследования были получены следующие основные результаты:
1. Классификация задач противодействия угрозам нарушения информационной безопасности в открытых компьютерных сетях позволяет систематизировать совокупность характеристик текстов предметной области для моделей представления естественного языка, используемых при отражении информации в базы данных и знаний с требуемыми показателями качества.
2. Подход к выбору характеристик для СЗИ, обрабатывающих текстовую информацию, аналитических моделей представления естественного языка, обеспечивающий требуемые показатели качества (адекватности, полноты, точности) представления и отражения текстовой информации в базы данных комплексов информационного противодействия. Показано, что степень детализации свойств вычисляемой естественно-языковой информации зависит от структуры представления предметной области в базе данных ИС.
3. Методика построения уровней СЗИ, вычисляющих текстовую информацию, основанная на применении модели естественного языка, базирующейся на синтаксической роли отдельных частей речи, позволяющей вычислять конструкции с целью:
анализа требуемых характеристик и затрат на реализацию системы защиты информации;
снижения вычислительных затрат за счет получения структуры информационного объекта и последующего ее наполнения информации из базы данных предметной области.
Использование обобщенной модели дает возможность избежать экспоненциального роста количества переборов вариантов связей от количества словоформ, участвующих в конструкции.
4. Модель морфологического анализа и подход к ее оценке в СЗИ, использующая информацию описателей, позволяющая идентифицировать морфологические характеристики специальных словоформ предметной области (аббревиатур, сокращений, наименований, указателей даты, времени, учетных номеров документов), отсутствующих в словарной базе данных. При этом, использование баз данных позволяет увеличивать устойчивость алгоритмов обработки текстов документов.
5. Метод вычисления структуры предложения для систем мониторинга МБ, использующий систему приоритетов, базирующуюся па формализованном описании семантшсо-грамматической информации по словоформе, позволяющий отражать информацию в базы данных и знаний профессионально ориентированной предметной области. Применение семантико-грамматических типов позволяет вычислять вопросительные связи между словами конструкции, что может быть использовано при организации структур данных.
6. Метод создания классификатора для обработки и оценки потенциальной угрозы анализируемой текстовой информации. Использование идентификаторов вопросительных связей, свойств и атрибутов конструкций для совершенствования средств зашиты обеспечения информационной безопасности объектов социальной, политической, экономической, оборонной и других сфер деятельности позволяет обеспечить создание баз данных идентификаторов, для организации специализированной обработки текстов предметной области.
7. Приведенные методы вычисления естественно-языковых структур позволяют использовать классические модели извлечения фамов. Создаваемые структуры могут в автоматическом режиме быть отражены в фреймы для классификаторов СЗИ при решении задач извлечения и обучения. При этом возможно применение математического аппарата классических моделей извлечения фактов.
8. Метод построения структуры объектов, позволяющий вычислять и использовать лингвистическое окружение при поиске и идентификации текстовой информации в задачах мониторинга ИБ.
9. Согласование между собой по целям, входным и выходным данным моделей представления ЕЯ и методов решения задач, обуславливает наличие следующих свойств специализированных ИС СЗИ:
возможность обработки текстовой информации с учетом ее различных типов;
возможность модульной и многомодельной реализации
предметно-ориентированных ИС в зависимости от их класса;
возможность разработки структурированного программного обеспечения, реализующего предлагаемые методы в составе СМО комплексов вычислительных средств систем зашиты информации.
10. Интеграцию предлагаемых методов в средства информационного противодействия угрозам нарушения информационной безопасности в открытых компьютерных сетях, СМО целесообразно осуществлять комплексно, на основе технологий и методов создания математического обеспечения специализированных ИС.
Использование в ИС разработанных методов позволяет повысить степень точности информации в задачах поиска в среднем с 70% до 90%. Это достигается за счет использования разработанной модели представления ЕЯ н методов, основанных на идентификации и анализе связей конструкций.
Главным итогом диссертационной работы явилось создание методов, компьютерных технологий СЗИ и систем мониторинга состояния ИБ ИТКС для сбора, хранения и обработки информации, обеспечивающих обнаружение угроз информационной безопасности, реализуемых потоками текстовой информации. Результаты исследований могут быть использованы для расширения возможности и повышения эффективности систем, осуществляющих поиск, анализ различных источников информации в интересах силовых структур.
СПИСОК ПУБЛИКАЦИЙ
Статьи, изданные в научных журналах, рекомендованных
ВАК:
1. Лебедев И.С. Способ формализации связей в конструкциях текста при создании естественно-языковых интерфейсов.// Информационно-управляющие системы, 2007, №3. С. 23 - 28
2. Лебедев И.С. Построение семантически связанных информационных объектов текста. Прикладная информатика, 2007, №5(11),с. 54-61
3. Лебедев И.С., Сухопарое Е.А. Идентификация объектов для систем обработки текста. //Вестник компьютерных и информационных технологий 2008, №8. С. 48-59
4. Кан Д.А., Лебедев И.С. Способ формализации связей в тексте при обработке естественно-языковых конструкций. /.'Вестник СПбГУ. Серия 10,2008, №2. С. 56-62
5. Лебедев И.С. Вычисление семантической составляющей текстовой информации в экономических информационных системах. Прикладная информатика, 2008, № 5(17) с.81-91
6. Лебедев И.С. Метод формализации структур естественного языка. // Системы управления и информационные технологии 2009 №2.1(35) С. 182-186
7. Лебедев И.С. Формализация конструкций естественного языка.// Вопросы современной науки и практики. Университет им. В.И.Вернадского, 2009, №1(15) С. 171 -175
8. Кан Д.А., Лебедев И.С., Сухопарое Е.А. Идентификация объектов текста в информационных системах.// Программные продукты и системы, 2009, №2(86) С. 163-168
9. Лебедев И.С. Построение шаблонов кода по текстам спецификаций.// Информационно-управляющие системы 2009, №5 С 39-43
10. Лебедев И.С., Борисов Ю.Б. Анализ текстовых сообщений в системах мониторинга информационной безопасности. // Информационно-управляющие системы 2011, №2. С. 37-43
Монографии:
11.Лебедев И.С. Компьютерные структуры представления естественного языка. - СПб, ОАО «НИИ ТМ», 2008, - 110 с, ISBN 9785-902283-03-4.
12. Лебедев И.С., Зикратов И.А. Мониторинг информационных угроз в сети Интернет-Гамбург, LAMBERT Academic Publishing, 2011, - 219 с, ISBN 978-3-8454-2588-7.
Статьи, изданные в других научных журналах и изданиях:
13. Кривцов А.Н., Кондратьев А.Н., Лебедев И.С. Анализаторы текстов формальной модели русского языка для компьютеров. //Научный сборник факультета ПМ-ПУ СПбГУ. -СПб.: НИИ Химии СПбГУ, 1998. С.140-148.
14. Кривцов А.Н., Лебедев И.С. Синтаксические анализаторы текстов.// Материалы международной конференции по Современным технологиям обучения . -СПб.: СПбЭТУ, 1998. С.112-127
15.Кривцов А.Н., Лебедев И.С. Текстовые анализаторы в обучающих и контролирующих системах.// Материалы международной конференции по Современным технологиям обучения. -СПб.: СПбЭТУ 1997, С.47-49
о .п
Тиражирование и брошюровка выполнены в учреждении «Университетские телекоммуникации» 197101, Санкт-Петербург, Саблинская ул., 14 Тел. (812) 2334669 объем 2,0 у.п.л. Тираж 100 экз
Оглавление автор диссертации — доктора технических наук Лебедев, Илья Сергеевич
Глава 1.ОБЕСПЕЧЕНИЕ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ В ОТКРЫТЫХ ВЫЧИСЛИТЕЛЬНЫХ СЕТЯХ.
1.1 Введение.
1.2 Классификация угроз безопасности обработки текстовой информации в информационно-телекоммуникационных системах.
1.3. Модель угроз предметной области.
1.4. Постановка научной проблемы исследования.
1.5. Анализ информационных воздействий в ИТКС.
1.5. Направления противодействия угрозам нарушения информационной безопасности и методы их решения.
1.6. Особенности обрабатываемых текстов сети Интернет.
1.7. Выводы.
Глава 2.МЕТОДЫ ОБРАБОТКИ ТЕКСТОВЫХ ИСТОЧНИКОВ В ЗАДАЧАХ ОБЕСПЕЧЕНИЯ ИНФОРМАЦОННОЙ БЕЗОПАСНОСТИ ОТКРЫТЫХ ВЫЧИСЛИТЕЛЬНЫХ СЕТЕЙ.
2.1. Метод оценки характеристик СЗИ.
2.2. Методика обработки предметно ориентированной естественно языковой информации.
2.2.1. Концептуальные особенности обработки текстовой информации СМИБ.
2.2.2. Оценка качества обработки ЕЯ сообщений ИТКС.
2.3. Аналитические модели описания ЕЯ СМИБ.
2.3.1. Семантическая модель описания ЕЯ предметной области.
2.3.2. Адаптированная модель описания ЕЯ предметной области.
2.3.3. Универсальная структура описания ЕЯ предметной области.
2.4. Оценка применимости ЕЯ моделей СМИБ.
2.5. Выводы.
Глава 3 .ОБЕСПЕЧЕНИЕ КОНТУРА ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ ОБЪЕКТОВ ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ СИСТЕМ.
3.1. Метод оценки состава уровней обработки ЕЯ СЗИ.
3.2. Уровни обработки ЕЯ СМИБ.
3.2.1 Вычисление лексикографической информации в специализированных системах обработки текстовой документации.
3.2.2. Вычисление морфологической информации в специализированных системах обработки текстовой документации.
3.3.Специализированные средства анализа.
3.3.1. Алгоритм идентификации неизвестной словоформы.
3.3.2. Алгоритм борьбы с опечатками на основе морфологических баз данных.
3.4. Построение предметно ориентированных синтаксических баз данных СМИБ.
3.4.1. Общая модель синтаксического анализа.
3.4.2. Предметно ориентированная модель базовых элементов синтаксической модели .118 3.4.3.Особенности обработки синтаксического шаблона.
3.5. Применение морфолого-синтаксических методов анализ текстов предметной области.
3.6. Выводы.
Глава 4.КОНЦЕПЦИЯ МОНИТОРИНГА ПОТОКОВ ТЕКСТОВОЙ ИНФОРМАЦИИ.
4.1 Концепция мониторинга потоков текстовой информации.
4.2. Особенности построения словарной базы данных для обнаружения угроз безопасности текстовых ресурсов информационно-телекоммуникационных систем.
4.2.1. Обобщенная модель онтологического описания идентификаторов предметной области.
4.2.2. Элементы обобщенной модели онтологического описания идентификаторов предметной области.
4.2.3. Статистический анализ аргументов предметно ориентированной БД.
4.3.Синтаксический анализ ЕЯ сообщений СМИБ.
4.3.1. Особенности обработки основных частей речи ОЕЯ.
4.3.2. Предсинтаксический анализ устойчивых конструкций ЕЯ сообщений ИТКС.
4.3.3.Статистический анализ предсинтаксических структур ЕЯ сообщений ИТКС.
4.3.4. Фрагментация текстовых сообщений ИТКС.
4.3.5. Использование информации предметно ориентированной БД для синтеза структур.
4.3.6. Предметно ориентированный алгоритм синтеза конструкций.
4.3.7. Особенности применения предметно ориентированных структур.
4.4. Подход к построению классификатора предметной области.
4.5.Вывод ы.
Глава 5.МЕТОДЫ АКТИВНОГО И ПАССИВНОГО АУДИТА ТЕКСТОВЫХ РЕСУРСОВ.
5.1 .Особенности активного аудита ИБ.
5.2.Построение информационного объекта.
5.2.1. Алгоритмическая последовательность вычисления структуры текстового сообщения ОЕЯ.
5.2.2. Оценка вычислительной сложности алгоритмов.
5.2.3. Вычисление структуры информационного объекта.
5.2.4. Специфика применения информационного объекта.
5.3 Модель оценки ресурса для мониторинга ИБ.
5.4.Оценка использования информационных объектов СМИБ.
5.5.Выводы.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Лебедев, Илья Сергеевич
Реализация основных направлений противодействия угрозам Российской Федерации в различных сферах общественной жизни, обозначенных в «Доктрине информационной безопасности», связана с обработкой разнообразных источников информации. Обеспечение информационной безопасности (ИБ) объектов политической, социально-экономической, оборонной, культурной сфер деятельности в информационно-телекоммуникационных системах требует анализа огромного количества текстов с целью обнаружения потенциально опасных сообщений, выявления внешних и внутренних угроз хищения и модификации информации документов, сведений ограниченного распространения, соблюдения авторских прав, распространения информации экстремистского характера. Вследствие чего, возникает необходимость, с одной стороны, информационного противодействия угрозам нарушения информационной безопасности, а с другой - построение эффективных СЗИ, обрабатывающих текстовые сообщения.
Однако сложность применения методов, направленных на повышение качества защиты информации, использующих автоматический режим идентификации структуры и вычисления значения обрабатываемых естественно-языковых сообщений, заставляет производить их обработку с применением «ручных» технологий. Вместе с тем высокая степень интеграции ПЭВМ в системы защиты информации наряду с внедрением информационных технологий дает возможность для разработки и реализации в ИС относительно сложных, но более эффективных методов и алгоритмов вычисления слабоструктурированных данных.
Снижение вычислительных затрат, повышения характеристик устойчивости обработки, полноты, точности, адекватности идентифицируемых ЕЯ конструкций позволяет увеличить вероятность обнаружения угроз хищения и модификации документов, повысить показатели защищенности информации в процессе хранения и обработки, уменьшить вероятностные показатели преодоления системы защиты. Внедрение формализованной модели ЕЯ, основанной на вычислении связей между словами, позволяет применять новые технологии анализа информации с целью обнаружения и предотвращения угроз безопасности, возникающих в открытых вычислительных сетях.
Другой комплекс проблемных вопросов информационного противодействия угрозам ИБ в открытых вычислительных сетях связан с созданием систем идентификации коротких сообщений, где применение статистических методов классификации затруднено ввиду небольшого объема текста, что может создавать угрозы пропуска потенциально опасных сообщений и являться предпосылкой возникновения уязвимостей в системах мониторинга состояния ИБ. Вычисление семантической составляющей лингвистических конструкций дает возможность повысить точность распознавания текстовой информации для средств активного и пассивного мониторинга состояния ИБ в ИТКС.
Функционирование СЗИ в системах документооборота зависит от качества моделей описания лингвистических конструкций. Сложность практической реализации методов автоматической обработки естественно языковых текстов и идентификации, содержащихся в них данных, на уровне семантики, существенно затрудняет достижения показателей полноты, точности вычисления текстовой информации для методов и средств пассивного и активного противодействия угрозам информационной безопасности.
Таким образом, существует объективное противоречие между возможностями, которые предоставляют новые информационные технологии, и существующим научно-методическим и математическим обеспечением систем и комплексов информационной безопасности, реализующих алгоритмы автоматизированной обработки текста в целях выявления угроз информационной безопасности.
Следствием неразрешенности этого противоречия является объективная необходимость теоретического обобщения и развития методов математического и лингвистического обеспечения специализированных ИС, интегрируемых в комплексы средств защиты и информационного противодействия.
Таким образом, обоснование и разработка теоретических основ математического и программного обеспечения СЗИ, позволяющих автоматизировать процессы вычисления данных и фактов из текстов документов, основанные на проблемно ориентированной семантике естественно-языковых конструкций, для анализа текстовой информации с целью выявления угроз нарушения конфиденциальности, целостности, доступности является актуальной научной проблемой.
Проблемам обеспечения информационной безопасности посвящены работы таких известных ученых как: H.H. Безруков, П.Д. Зегжда, A.M. Ивашко, А.И. Костогрызов, В.И. Курбатов К. Лендвер, Д. Маклин, A.A. Молдовян, H.A. Молдовян, А.А.Малюк, Е.А.Дербин, Р. Сандху, Дж. М. Кэррол, и других. Вместе с тем, несмотря на подавляющий объем текстовых источников в корпоративных и открытых сетях, в области разработки методов и систем защиты информации в настоящее время недостаточно представлены исследования, направленные на анализ угроз безопасности таких документов.
Решение сформулированной научной проблемы осуществляется на основе научных подходов информационной безопасности, предоставляемых теорией искусственного интеллекта и математической лингвистикой.
Первый подход направлен на совершенствование методов искусственного интеллекта. Теоретические основы в этой области применительно к информационным технологиям заложены в работах Кнута Д.Э., Нариньяни А.С, Попова Э.В., Поспелова Д.А и других. Семантическая сложность естественного языка, многообразие и многозначность его конструкций с одной стороны, и недостаточная гибкость представления информации на программном уровне с другой - накладывают ограничения на способы представления знаний о языке. Вследствие сказанного, такие модели, в основном, содержат упрощенные описания ЕЯ конструкций, достаточные для реализации выбранной информационной технологии, но обладающими уязвимостями, не позволяющими использовать их в СЗИ.
Второй подход связан с обоснованием требований к моделям естественного языка и направлен на подготовку и представление исходных данных в виде, удобном для их использования в задачах обработки текстовой информации. Основы описания и использования структур языка заложены в работах Н.Хомского, З.Харриса. В трудах этих и других ученых сформулированы подходы к созданию грамматик. Большое количество работ посвящено аналитическим моделям. Однако любая создаваемая модель ЕЯ профессионально ориентированной предметной области, изначально содержит некоторые ограничения, так как описывается определенной совокупностью свойств. Одновременно с этим, при повышении требований к точности резко возрастает объем учитываемых языковых факторов и затрат на получение адекватной структуры лингвистического описания. О выполнении этого условия говорится во многих работах как прикладного, так и теоретического характера Мельчука И.А. Апресяна Ю.Д., Хорошевского В.Ф., Леонтьевой H.H., Тузова В.А. и других.
Аналитические модели, описываемые в работах, являются узкоспециализированными и сложны с точки зрения адаптации под конкретные виды задач обработки текстовой информации открытых компьютерных сетей при противодействии угрозам нарушения информационной безопасности.
Содержание сформулированной проблемы определяет выбор в качестве объекта исследования системы мониторинга состояния информационной безопасности, обрабатывающие предметно ориентированные ЕЯ тексты и сообщения, а в качестве предмета исследования - методы и средства обнаружения и противодействия угрозам нарушения информационной безопасности, основанные на обработке и анализе текстов документов.
Исходя из сущности решаемой в диссертации научной проблемы, теоретическая цель исследования заключается в разработке, развитии аналитических методов, применяемых в системах мониторинга СЗИ, для обработки и вычисления информации ЕЯ текстов с целью обнаружения и противодействия угрозам нарушения информационной безопасности, отличающихся от известных использованием функциональности семантико-грамматических связей между словами, позволяющих осуществлять более качественный анализ конструкций естественного языка.
Прагматической целью работы является повышение показателей защищенности ресурсов ИТКС за счет увеличения качественных характеристик идентифицируемых ЕЯ конструкций при автоматизации процессов вычисления информации текстов предметной области в комплексах пассивного и активного информационного противодействия угрозам нарушения информационной безопасности.
Для достижения указанных целей в диссертации решаются следующие основные научные и технические задачи, вытекающие из декомпозиции научной проблемы: систематизация и анализ возможности применения в СЗИ современных подходов к вычислению естественно-языковой информации текстов документов; определение основных характеристик текстовой информации, обрабатываемой СЗИ, позволяющих производить оценку показателей защищенности, выявление достоинств и недостатков; повышение вероятности обнаружения угроз нарушения конфиденциальности, целостности за счет совершенствования методов представления структур естественноязыковых конструкций и правил их обработки, которые могут быть использованы различными системами мониторинга информационной безопасности с минимальными затратами на адаптацию; построение и обоснование информационного состава прикладных баз данных и баз знаний средств обеспечения информационной безопасности, содержащих описания структур конструкций, основывающихся на связях между словами, для вычисления объектов содержания коротких сообщений; разработка предложений по применению в системах и средствах мониторинга безопасности предлагаемых решений автоматической обработки текстовой информации.
На защиту выносятся следующие основные результаты:
Методика определения характеристик для СЗИ информационно-технических объектов, обрабатывающих текстовую информацию, основанная на модели обеспечения ИБ текстовых потоков ИТКС.
Система моделей, методов, методик для обнаружения и предотвращения угроз нарушения информационной безопасности при анализе текстов открытых источников компьютерных сетей, основанная на применении модели естественного языка.
Комплекс методов, определяющий состав морфологического уровня обработки ЕЯ сообщений СЗИ, позволяющих повысить устойчивость алгоритмов функциональных компонент анализа текстовой информации.
Концепция построения методов и моделей мониторинга потоков текстовой информации ИТКС, основанная на идентификации структур текстовой информации.
Комплекс методик и моделей активного аудита текстовых источников открытых компьютерных сетей, содержащих угрозы нарушения ИБ, основанный на построении специализированных объектов естественно-языковых конструкций.
Научную новизну диссертации составляют:
Методика определения характеристик для СЗИ информационно-технических объектов, обрабатывающих текстовую информацию, основанная на модели обеспечения ИБ потоков ИТКС отличается от известных, базирующихся на аналитических подходах, использованием вероятностных оценок информационного воздействия текстовых сообщений ресурсов открытых вычислительных сетей, что позволяет определить необходимые качественные показатели для систем мониторинга состояния ИБ и СЗИ ресурсов.
2. Система моделей, методов, методик для обнаружения и предотвращения угроз нарушения информационной безопасности при анализе текстов открытых источников компьютерных сетей, основанная на применении модели естественного языка, отличается от известных, базирующихся на аналитических подходах, использованием в описаниях словоформ масштабируемых предикатов связей, аргументы которых содержат информацию о морфологических характеристиках и семантико-грамматических типах присоединяемых слов, что позволяет увеличить вероятность обнаружения конфиденциальной информации системами анализа контента за счет унификации описания, упрощения структуры ЕЯ базы данных без существенных потерь показателей полноты и точности при вычислении объектов текстовой информации.
3. Комплекс методов, определяющий состав морфологического уровня обработки ЕЯ сообщений СЗИ, позволяющих повысить устойчивость алгоритмов функциональных компонент анализа текстовой информации, отличается от известных, использующих аналитические подходы, вычислением информации на основе семантико-грамматических и морфологических характеристик, содержащихся в предикатах описаний словоформ для анализа возможностей соединения слов, что позволяет повысить точность распознавания данных с целью уменьшения вероятности преодоления защиты.
4. Концепция построения методов и моделей мониторинга потоков текстовой информации ИТКС, основанная на идентификации структур текстовой информации, отличается от известных, базирующихся на алгоритмах вычисления связей между словами, использованием системы приоритетов, реализующей последовательность перебора формализованных описаний синтаксической информации словоформ, обусловленную стилистическими особенностями текстов предметной области, что позволяет увеличить вероятность обнаружения угроз при осуществлении мониторинга сообщений открытых источников текстовой информации вычислительных сетей, избегая лавинообразного роста вычислительной сложности при построении структур без существенного снижения устойчивости обработки.
5. Комплекс методик и моделей активного аудита текстовых источников открытых компьютерных сетей, содержащих угрозы нарушения ИБ, основанный на построении специализированных объектов естественно-языковых конструкций, отличается от известных, базирующихся на статистических подходах, использованием фреймовых структур, что позволяет уменьшить количество примеров для достижения заданного показателя качества функции обучения, увеличив вероятность обнаружения требуемой информации для систем мониторинга состояния ИБ.
Достоверность результатов работы подтверждается: корректным использованием фундаментальных положений теории искусственного интеллекта, баз данных и математической лингвистики; научной обоснованностью приводимых выкладок и математических преобразований; использованием методик, проверенных экспериментами и внедренными в действующие образцы автоматизированных систем управления; непротиворечивостью полученных результатов известным решениям; результатами экспертной оценки специалистов в данной предметной области при внедрении результатов работы в опытные образцы систем, разрабатываемые научно-исследовательскими организациями и предприятиями промышленности.
Практическую ценность результатов диссертационной работы составляют предложенные модели, методы и алгоритмы для средств информационного противодействия угрозам нарушения информационной безопасности, которые позволяют повысить устойчивость обработки профессионально-ориентированного текста до 90%, при этом уменьшить вычислительную сложность алгоритмов создания структуры предложения исключив экспоненциальный рост анализа взаимодействия связей.
Теоретическая значимость. Совокупность моделей, технологий, методик, определяет новый методический аппарат, имеющий существенное значение для развития методов, алгоритмов и программных средств обеспечения информационной безопасности в политической, социально-экономической, оборонной и других сферах деятельности.
Реализация результатов. Диссертация является обобщением результатов исследований, проводившихся автором в течение последних 10 лет в ходе плановых НИР и ОКР, выполняемых по плану научной работы ВВС, по заказу ВНК ВВС, Управления РТВ ВВС, научно-исследовательских институтов и предприятий оборонной промышленности. Результаты исследования внедрены в изделия 37И6, 37И6-М, использованы в НИОКР, проводившихся предприятиями промышленности (акты о реализации ОАО Всероссийский НИИ радиотехники, ОАО НИИ точной механики), в Федеральных целевых НИР.
Исследование выполнено по ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технического комплекса России на 2007-2013 годы» в рамках государственного контракта № 07.524.12.4009 на выполнение опытно-конструкторских работ.
Апробация работы. Результаты диссертационной работы докладывались и обсуждались на Международных и Всероссийских симпозиумах, военно-научных, научно-технических конференциях проводимых в научно-исследовательских организациях и высших учебных заведениях Министерства обороны и других Федеральных министерств и ведомств с 1998 по 2009 годы
Публикации. По результатам исследований, представленных в диссертации, опубликовано более 50 печатных работ (из них 10 научных работ в рецензируемых научных изданиях, рекомендованных для докторских диссертаций), в том числе 2 монографии, оформлено 6 отчетов о НИР.
Структура и объем работы. Диссертационная работа содержит введение, 5 разделов, заключение, список литературы. Объем работы составляет 243 страницы.
Заключение диссертация на тему "Методология обнаружения угроз нарушения информационной безопасности в открытых компьютерных сетях на основе функциональной модели естественного языка"
5.5.Выводы
В главе описан подход к построению структуры ЕЯ сообщения предметной области. Проведен анализ вычислительной сложности алгоритма создания структуры предложения, дана оценка использования структур ЕЯ.
Предлагаемая система последовательности перебора конструкций позволяет, во-первых, более компактно представлять описание правил связей слов конструкций в БД СЗИ и мониторинга состояния ИТКС и, во-вторых, обойти в алгоритмах построения графа предложения перебор всех возможных связей.
Особенностью описанного алгоритма является постсинтаксический анализ, позволяющий достраивать структуру предложения естественного языка предметной области на основе системы синтаксических приоритетов, что дает возможность применять внешние шаблонные правила связывания, в случае отсутствия информации о связях.
Разработанные модели и методы вычисления естественно-языковых структур позволяют использовать классические модели извлечения фактов. Создаваемые структуры могут в автоматическом режиме быть отражены в фреймы для моделей извлечения и обучения. При этом возможно применение математического аппарата классических моделей извлечения фактов.
Таким образом, совокупность приведенных в главе решений позволяет осуществлять:
- повышение вероятности обнаружения информационных объектов, подвергающихся информационным угрозам;
- осуществление контроля за открытыми ресурсами ИТКС;
- исследование информации ресурсов сети с целью информационного противодействия различным видам утечек информации, корпоративному шпионажу и бизнес-разведке;
- распознавание компонентов текстовых сообщений ИТО, содержащих элементы возможных угроз ИБ.
ЗАКЛЮЧЕНИЕ
В диссертации рассмотрены основные методы и модели обработки естественно-языковых сообщений, циркулирующих в открытых вычислительных сетях. Приведены особенности текстовой информации, подвергающейся анализу в процессах мониторинга информационно-технических объектов ИТКС. Основной акцент сделан на семантическую обработку конструкций с помощью аналитических моделей ЕЯ, которые, в отличие от статистических, позволяют более качественно использовать особенности морфологических языков.
В виду ограничений, накладываемых на словарные базы данных в системах контент анализа, в качестве основы были взяты модели естественного языка, где предусмотрено строгое разграничение морфологического, синтаксического, семантического уровней преставления конструкций. Предлагаемые методы анализа опираются на вычисляемые структуры текстовой информации, которые служат основой для дальнейшего наложения семантической информации предметной области. Использование таких структур в аналитических и статистических методах позволяют добиваться увеличения показателей полноты и точности в системах мониторинга состояния ИБ, обрабатывающих текстовые сообщения источников сети Интернет.
При проведении научного исследования были получены следующие основные результаты:
1. Классификация задач противодействия угрозам нарушения информационной безопасности в открытых компьютерных сетях позволяет систематизировать совокупность характеристик текстов предметной области для моделей представления естественного языка, используемых при отражении информации в базы данных и знаний с требуемыми показателями качества.
2. Подход к выбору характеристик для СЗИ, обрабатывающих текстовую информацию, аналитических моделей представления естественного языка, обеспечивающий требуемые показатели качества (адекватности, полноты, точности) представления и отражения текстовой информации в базы данных комплексов информационного противодействия. Показано, что степень детализации свойств вычисляемой естественно-языковой информации зависит от структуры представления предметной области в базе данных ИС.
3. Методика построения уровней СЗИ, вычисляющих текстовую информацию, основанная на применении модели естественного языка, базирующейся на синтаксической роли отдельных частей речи, позволяющей вычислять конструкции с целью: анализа требуемых характеристик и затрат на реализацию системы защиты информации;
- снижения вычислительных затрат за счет получения структуры информационного объекта и последующего ее наполнения информации из базы данных предметной области.
Использование обобщенной модели дает возможность избежать экспоненциального роста количества переборов вариантов связей от количества словоформ, участвующих в конструкции.
4. Модель морфологического анализа и подход к ее оценке в СЗИ, использующая информацию описателей, позволяющая идентифицировать морфологические характеристики специальных словоформ предметной области (аббревиатур, сокращений, наименований, указателей даты, времени, учетных номеров документов), отсутствующих в словарной базе данных. При этом, использование баз данных позволяет увеличивать устойчивость алгоритмов обработки текстов документов.
5. Метод вычисления структуры предложения для систем мониторинга ИБ, использующий систему приоритетов, базирующуюся на формализованном описании семантико-грамматической информации по словоформе, позволяющий отражать информацию в базы данных и знаний профессионально ориентированной предметной области. Применение семантико-грамматических типов позволяет вычислять вопросительные связи между словами конструкции, что может быть использовано при организации структур данных.
6. Метод создания классификатора для обработки и оценки потенциальной угрозы анализируемой текстовой информации. Использование идентификаторов вопросительных связей, свойств и атрибутов конструкций для совершенствования средств защиты обеспечения информационной безопасности объектов социальной, политической, экономической, оборонной и других сфер деятельности позволяет обеспечить создание баз данных идентификаторов, для организации специализированной обработки текстов предметной области.
7. Приведенные методы вычисления естественно-языковых структур позволяют использовать классические модели извлечения фактов. Создаваемые структуры могут в автоматическом режиме быть отражены в фреймы для классификаторов СЗИ при решении задач извлечения и обучения. При этом возможно применение математического аппарата классических моделей извлечения фактов.
8. Метод построения структуры объектов, позволяющий вычислять и использовать лингвистическое окружение при поиске и идентификации текстовой информации в задачах мониторинга ИБ.
9. Согласование между собой по целям, входным и выходным данным моделей представления ЕЯ и методов решения задач, обуславливает наличие следующих свойств специализированных ИС СЗИ:
- возможность обработки текстовой информации с учетом ее различных типов;
- возможность модульной и многомодельной реализации предметно-ориентированных ИС в зависимости от их класса;
- возможность разработки структурированного программного обеспечения, реализующего предлагаемые методы в составе СМО комплексов вычислительных средств систем защиты информации.
10. Интеграцию предлагаемых методов в средства информационного противодействия угрозам нарушения информационной безопасности в открытых компьютерных сетях, СМО целесообразно осуществлять комплексно, на основе технологий и методов создания математического обеспечения специализированных ИС.
Внедрение функциональной модели естественного языка, основанной на вычислении связей между словами, в системы мониторинга состояния информационной безопасности позволяет применять новые технологии анализа информации с целью обнаружения и предотвращения угроз безопасности, возникающих в открытых вычислительных сетях.
Библиография Лебедев, Илья Сергеевич, диссертация по теме Методы и системы защиты информации, информационная безопасность
1. Андреев A.M., Березкин Д.В., Симаков К.В. Архитектура системы машинного понимания текстов // Информатика и системы управления в XX1.веке: Сборник трудов - М.: Изд-во МГТУ им. Н.Э. Баумана, 2003. -№1.-С.419-423.
2. Абалмазов Э.И. Методы и инженерно-технические средства противодействия информационным угрозам. М.: Изд-во "Компания "Гротек", 1997 г. - 246 с.
3. Андрианов В.И. и др. "Шпионские штучки" и устройства для защиты объектов и информации: Справочное пособие. Лань, СПб., 1996 г. -272 с.
4. Анин Б.Ю. Защита компьютерной информации. СПб.: БХВ - Санкт-Петербург, 2000. - 384 с.
5. Анисимова И.Н. , Братчиков И.Л. Эффективный метод построения логических выводов в стационарных базах знаний // Ученые записки ЛГОУ. Сер. "Математика и информатика". 1998. Т. 1.
6. Апресян Ю. Д., Богуславский И. М., Иомдин JI. JI. и др. Лингвистическое обеспечение системы ЭТАП-2. — М.: Наука, 1989. — 296 с.
7. Апресян Ю.Д. «Лексическая семантика» (избранные труды), т. 1 М., 1995.
8. Апресян Ю.Д. Исследования по семантике и лексикографии. Т. I: Парадигматика.-М.: Языки славянских культур, 2009. 165 с.
9. Апресян Ю.Д. Об интегральном словаре русского языка // Семиотика и информатика.
10. Апресян Ю.Д., Иомдин Л.Л., Перцов Н.В. Объекты и средства модели поверхностного синтаксиса русского языка // International review of Slavic linguistics. 1978. Vol. 3. N. 3
11. Арутюнова Н.Д. Типы языковых значений: Оценка, событие, факт М.: "Наука", 1988.
12. Ахо А., Сети Р, Ульман Д. Компиляторы. Принципы, технологии, инструменты. М., С. Пб, Киев, Вильяме, 2001.
13. Баричев С.Г., Гончаров В.В., Серов P.E. Основы современной криптографии: учеб. курс. М.: Горячая линия-телеком, 2002 . - 175 с.
14. Бармен С. Разработка правил информационной безопасности. М.: Издат. дом «Вильяме», 2002. - 207 с.
15. Белнап Н., Стил Т. Логика вопросов и ответов. М.: Прогресс, 1981. - 290 с.
16. Белов Е.Б., Лось В.П., Мещеряков Р.В., Шелупанов A.A. Основы информационной безопасности: учебное пособие для вузов. М.: Горячая линия-телеком, 2006 г. - 544 с.
17. Белоногов Г.Г., Калинин Ю.П., Хорошилов A.A. Компьютерная лингвистика и перспективные информационные технологии. М,. Русский мир, 2004. 246 с.
18. Бергельсон М.Б. Речевые стратегии и формирование пропозициональной структуры в диалоге // Нариньяни A.C. (ред.) 1998.
19. Блюм B.C., Заболотский В.П. Особенности обеспечения информационной безопасности в биологических системах. Труды конференции «Информационная безопасность регионов России», СПб., 2005. С 71-77.
20. Блюм В. С., Заболотский В. П. Конструирование моделей биологических мембран для 3-мерного симулятора иммунной системы // Первая Международная Конференция «Математическая биология и биоинформатика» — Пущино, 2006.
21. Бобков А.И., Макаренко В.Н. Адаптивная стратегия автоматизированного обучения на основе графоаналитической модели // Кибернетика 1988, №5. С. 109-112
22. Боброва A.B. Грамматика русского языка М.: Цитадель, 1999. - 290 с.
23. Болотова J1.C. и др. Системы искусственного интеллекта М., Наука, 1998. -197 с.
24. Боярский К.К., Каневский Е.А. Семантические шаблоны, сценарии и описания лексем для онтологических классов // Интернет и современное общество: Труды XII Всероссийской объединенной конференции СПб: Факультет филологии и искусств СПБГУ, 2009. С. 109-112.
25. Боярский К.К., Каневский Е.А. ВЕГА компьютерная система классификации и анализа текстов // Вестник СпбГУ ИТМО. СПб. 2009, №5 (63). С. 98-105.
26. Боярский К.К., Каневский Е.А., Лезин Г.В. Концептуальные модели в базах знаний // Научно-технический вестник СПбГИТМО (ТУ). Выпуск 6. Информационные, вычислительные и управляющие системы. СПб.: СПбГИТМО(ТУ), 2002. С.57-62.
27. Братчиков И. Л. Синтаксис языков программирования. М.: Наука, 1975. -32 с.
28. Братчиков И.Л. Применение метода абстракций для поиска логического вывода в системах искусственного интеллекта // Тр. СПИИРАН. 2002. Т. 1.
29. Вильям Столлингс Криптографическая защита сетей. М.: Издательсткий дом "Вильяме", 2001.
30. Виноградов В.В. (ред.) Вопросы синтаксиса современного русского языка. М.: Учпедгиз, 1950.
31. Вудс В.А. Сетевые грамматики для анализа естественных языков. М.: Мир, 1976.-231 с.
32. Гаврилова Т.А., Хорошевский В.Ф. Базы данных интеллектуальных систем. -СПб: Питер, 2001. 384 с.
33. Гавриш В. Практическое пособие по защите коммерческой тайны. -Симферополь: "Таврида", 1994.
34. Галатенко В. А. Стандарты информационной безопасности. — М.: Интернет-университет информационных технологий, 2006. — 264 с.
35. Герасименко В.А., Малюк A.A. Основы защиты информации. -М.:МОПО РФ, МИФИ, 1997, -537 с.
36. Гиляревский P.C., Мульченко З.М., Терехин А.Т., Черный А.И. Опыт изучения Science citation index. Прикладная документалистика / АН СССР. Науч. совет по кибернетике. М.: Наука, 1968. С.32-53.
37. Гладкий А. В., Мельчук И. А. Элементы математической лингвистики. -М.: Наука. 1969. -192с.
38. ГОСТ Р 50922-2006. Защита информации. Основные термины и определения.
39. Гультяев А.К., Комаров И.И., Лебедев И.С. и др Методы прогнозной оценки показателей надежности АСУ.Отчет о НИР шифр «Интранет-5» / рук. работы Туравинин A.B. -СПб, ФВУ ПВО, 2006 -82 с.
40. Гультяев А.К., Комаров И.И., Лебедев И.С. и др Обработка данных в сложных распределенных сичстнемах Отчет о НИР шифр «Интранет-6» -/ рук. работы Туравинин A.B. СПб, СПВВУРЭ(ВИ), 2007 -93 с.
41. Гурко A.B., Степанов Ю.Л., Мазаков Е.Б. Представление и обработка знаний в системах искусственного интелекта. -СПб.: СПВУРЭ ПВО, 1998. -116 с.
42. Демин В.П. и др. Радиоэлектронная разведка и радиомаскировка. -М.: Изд-во МАИ, 1997,- 156 с.
43. Демин В.П., Куприянов А.И., Сахаров A.B. Радиоэлектронная разведка и радиомаскировка. -М.: Изд-во МАИ, 1997, -156 с.
44. Дербин Е.А.Крылов Г.О. Кубанков А.Н. Информационная безопасность государства в информационном обществе. Учебное пособие для вузов Министерства обороны. -М.: ВАГШ, 2003. 310 с.
45. Дернова Е.С., Молдовян Д.Н., Молдовян H.A. Криптографические протоколы. -СПб., Изд. СПбГЭТУ, 2010.- 100 с.
46. Доктрина информационной безопасности Российской Федерации, утвержденная Президентом Российской Федерации 9 сентября 2000 г. № Пр-1895
47. Домарев В. В. Безопасность информационных технологий. Системный подход — К.: ООО ТИД Диа Софт, 2004. — 992 с.
48. Домашев A.B., Грунтович М.М., Попов В.О. Программирование алгоритмов защиты информации. М.: Издательство "Нолидж",2002.
49. Дудецкий В.Н. Система понимания текста на естественном языке. М.: Изд. Московской государственной геологоразведочной академии им. С. Орджоникидзе,2003г.
50. Ермаков А.Е., Плешко В.В. Семантическая интерпретация в системах компьютерного анализа текста. //Информационные технологии, 2009, N 6. С. 2-7.
51. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. -М.: ФАЗИС, 2006 . -176 с.
52. Закон Российской Федерации «Об информации, информатизации и защите информации» от 25.01.95 г
53. Закон Российской Федерации от 5 марта 1992 г. № 2446-1 «О безопасности»
54. Зализняк A.A. «Грамматический словарь русского языка»: -М.: Просвещение. 1986.-176 с.
55. Запечников С. В., Милославская Н. Г., Толстой А. И., Ушаков Д. В. Информационная безопасность открытых систем. Том 1. Угрозы, уязвимости, атаки и подходы к защите. -М.: Горячая Линия — Телеком, 2006. — 536 с.
56. Запечников С. В., Милославская Н. Г., Толстой А. И., Ушаков Д. В. Информационная безопасность открытых систем. Том 2. Средства защиты в сетях. -М.: Горячая Линия — Телеком, 2008. — 560 с
57. Защита информации в системах мобильной связи: учеб. пособие для вузов / под ред. A.B. Заряева и C.B. Скрыля. М.: Горячая линия-телеком, 2005 - 171 с.
58. Защита программного обеспечения / Под ред. Д. Гроувера. М., 1992. - 289 с.
59. Зегжда Д.П., Ивашко A.M. Основы безопасности информационных систем: учеб. пособие. М.: Горячая линия-телеком, 2000 г. - 451 с.
60. Зегжда П.Д. Способы защиты информации,- М.: Яхтсмен, 1996. 234 с.
61. Зима В.М., Молдовян A.A., Молдовян H.A. Безопасность глобальных сетевых технологий. -СПб.: БХИ-Петербург, 2000. 320 с.
62. Ивченко Б.П, Мартыщенко Л.А., Монастырский М.Л. Теоретические основы информационно-статистического анализа сложных систем. -СПб.: Лань, 1997. -320 с
63. Интеллектуальные информационные системы. -М.: Воениздат, 1981. -430 с.
64. Информационная безопасность (2-я книга социально-политического проекта «Актуальные проблемы безопасности социума»), -М.: «Оружие и технологии», 2009. -127 с.
65. Иомдин Л.Л., Перцов Н.В. Фрагмент модели русского поверхностного синтаксиса. I. Предикативные синтагмы // Научно-техническая информация. Сер. 2. 1975а. №7
66. Искандеров Ю. М. Технология создания базы знаний для автоматизированной системы управления корпоративной сетью. -СПб.: Политехника, 2005. -230 с
67. Искандеров Ю.М., Горячев И.Е. Обеспечение экспертизы качества проектов комплексной системы пожарной безопасности транспортных комплексов.// Национальный журнал-каталог «Транспортная безопасность и технологии», № 3, 2008 ., с.160-161.
68. Искусственный интеллект: В 3 кн. Кн. 2: Модели и методы: Справочник/ под редакцией Д.А. Поспелова. -М.: Радио и связь, 1990. -304 с.
69. Кан Д.А., Лебедев И.С. Способ формализации связей в тексте при обработке естественно-языковых конструкций. //Вестник СПбГУ. Серия 10, 2008, №2. С. 56-62
70. Кан Д.А., Лебедев И.С., Сухопаров Е.А. Идентификация объектов текста в информационных системах.// Программные продукты и системы, 2009, №2(86) С. 163168
71. Каневский Е.А. Новый инструмент для проведения социолингвистических исследований // «Прикладна лшгвктика та лшгвютичш технологи: MegaLing-2008». -Киев: «Дов1ра», 2009. С. 78-88.
72. Каторин Ю.Ф. и др. Большая энциклопедия промышленного шпионажа. -СПб.: ООО "Изд-во "Полигон", 2000. 896 с.
73. Кибрик А.Е. Иерархии, роли, нули, маркированность и "аномальная" упаковка грамматической семантики // Вопросы языкознания. 1997. № 4. С. 153-168
74. Кнут Д.Э. Искусство программирования. Том. 3. Сортировка и поиск, 2-е изд.:Пер. с англ. М.: Издательский дом «Вильяме», 2001. -832 с.
75. Кобзарева Т.Ю. Некоторые аспекты анализа сочинения при сегментации русского предложения (неоднозначности при появлении «матрешек») // Труды конференции КИИ-2002. М.: Физматлит, 2002. Т. 1. С. 192-198.
76. Кобзарева Т.Ю., Лахути Д.Г., Ножов И.М. Модель сегментации русского предложения. // Труды конференции «Диалог'2001». Аксаково, 2001. Т.2. С. 185194.
77. Козлов В.Е. Теория и практика борьбы с компьютерной преступностью. М.: Горячая линия-телеком, 2002 г. - 336 с.
78. Колмогоров А. Н. Основные понятия теории вероятностей. — М.: Наука, 1974, — 120 с.
79. Комаров И. И. Методы автоматического поиска релевантной информации в тексте на естественном языке: диссертация на соискание ученой степени кандидата физико-математических наук : 05.13.01. СПб, 2003. - 109 с.
80. Комов С.А., Ракитин В.В., Родионов С.Н., Рябцунов П.М. и др.Термины и определения в области информационной безопасности. М.: Издательство АС-Траст, 2009. - 304 с.
81. Коробейников А. Г, Ю.А.Гатчин. Математические основы криптологии.Учебное пособие. -СПб: СПб ГУ ИТМО, 2004. 106 с
82. Кривцов А.Н., Кондратьев А.Н., Лебедев И.С. Анализаторы текстов формальной модели русского языка для компьютеров. //Научный сборник факультета ПМ-ПУ СПбГУ. СПб.: НИИ Химии СПбГУ, 1998. С.140-148.
83. Кривцов А.Н., Лебедев И.С. Синтаксические анализаторы текстов.// Материалы международной конференции по Современным технологиям обучения . -СПб.: СПбЭТУ, 1998. С. 103-104
84. Кривцов А.Н., Лебедев И.С. Текстовые анализаторы в обучающих и контролирующих системах.// Материалы международной конференции по Современным технологиям обучения. -СПб.: СПбЭТУ 1997, С.97-98
85. Кузнецов С.А. Флективная морфология русского глагола (словоизменение и формообразование). -СПб: Изд-во ИЛИ РАН, Изд-во «Норинт», 2000. -220 с.
86. Лагутин B.C., Петраков A.B. Утечка и защита информации в телефонных каналах. М.: Энергоатомиздат, 1996 г. - 304 с.
87. Лахути Д.Г. и др. Автоматизированные документальные ИПС: система "Скобки". — М.: Информэлектро, 1985. 42 с.
88. Лахути Д. Г., Рубашкин В. Ш. A Linguistic Processor with Advanced Semantic Component // Новости искусственного интеллекта. 1993. Специальный выпуск. С. 99103.
89. Лебедев И.С. Принципы организации обучающих и контролирующих программ для работы в вычислительных сетях // Тезисы докладов. Материалы XXVII научной конференции факультета ПМ-ПУ СПбГУ. Сборник тезисов к докладам. -СПб.: НИИ Химии СПбГУ, 1997.С.211-212
90. Лебедев И.С. Вычисление семантической составляющей текстовой информации в экономических информационных системах. Прикладная информатика, 2008, №5(17) С.81-91
91. Лебедев И.С. Компьютерные структуры представления естественного языка. -СПб.: ОАО «НИИ ТМ», 2008.-1 Юс
92. Лебедев И.С. Контролирующая система на основе объектно-ориентированного подхода. //Тезисы доклада. Материалы XXVI научной конференции факультета ПМ-ПУ СПбГУ. Сборник тезисов к докладам. -СПб.: НИИ Химии СПбГУ, 1996.С.270-271
93. Лебедев И.С. Метод формализации структур естественного языка. // Системы управления и информационные технологии, 2009, №1.1(35) С. 182-186
94. Лебедев И.С. Оценка качества формализации естественного языка в системах лингвистического обеспечения. Научный сборник ФВУ ПВО. -СПб.: ФВУ ПВО, 2001. С.64-69
95. Лебедев И.С. Построение семантически связанных информационных объектов текста. Прикладная информатика, 2007, №5(11). С. 54-61
96. Лебедев И.С. Построение шаблонов кода по текстам спецификаций.// Информационно-управляющие системы 2009, №5. С. 39-43
97. Лебедев И.С. Принципы обработки естественно-языковых запросов в системах лингвистического обеспечения./ Электронный журнал «ИССЛЕДОВАНО В РОССИИ» http://zhurnal.ape.relarn.rU/articles/2004/l57.pdf
98. Лебедев И.С. Способ формализации связей в конструкциях текста при создании естественно-языковых интерфейсов.// Информационно-управляющие системы, 2007, №3. С. 23 28
99. Лебедев И.С. Формализация конструкций естественного языка.// Вопросы современной науки и практики. Университет им. В.И.Вернадского, 2009, №1(15) С. 171 175
100. Лебедев И.С., Борисов Ю.Б. Анализ текстовых сообщений в системах мониторинга информационной безопасности. // Информационно-управляющие системы 2011, №2. С. 37-43
101. Лебедев И.С., Зикратов И.А. Мониторинг информационных угроз в сети Интернет-Гамбург, LAMBERT Academic Publishing, 2011, 219 с.
102. Лебедев И.С., Сухопаров Е.А. Идентификация объектов для систем обработки текста. //Вестник компьютерных и информационных технологий 2008, №8. С. 48-59
103. Лезин Г.В. Онтологическая интерпретация лексики в семантическом словаре // Интернет и современное общество: Труды XII Всероссийской объединенной конференции,- СПб.: Факультет филологии и искусств СПБГУ, 2009. С. 118-124.
104. Лезин Г.В. Онтологическая семантика текста: форматирование лексики в семантическом словаре // Труды XI Всероссийской научной конференции RCDL'2009 Петрозаводск: КарНЦ РАН, 2009 С. 141-150.
105. Леонтьева Н. Н. Роль связей в семантической разметке корпуса текстов // Труды Международной конференции «Корпусная лингвистика 2004». - СПб.: Изд-во СП6ГУ,2004. С 195-206
106. Леонтьева H.H. К теориии автоматического анализа теста. Часть 1. Моделирование системы «мягкого понимания» текста: информационно-лингвистическая модель. М.: Изд. МГУ, 2000 -48 с.
107. Леонтьева H.H. К теориии автоматического анализа теста. Часть 2. Семантические словари: состав, структура методика создания -М.: Изд. МГУ, 2001 -40 с.
108. Леонтьева H.H. Категоризация единиц в русском общесемантическом словаре (РОСС) // Труды Международного семинара «Диалог'98» по компьютерной лингвистике и ее приложениям. Т.2. С.519-532.
109. Леонтьева H.H. О механизме интерпретации слабых связей в тексте // Лингвистические проблемы функционального моделирования речевой деятельности: Вып. 5. Л.: ЛГУ, 1982. - С. 101-124.
110. Леонтьева H.H., Вишнякова С.М. Опыт автоматического индексирования со смысловым сжатием // Научно-техническая информация. Сер. 2. 1977. - № 7. - с. 2430.
111. Лепехин А. Н. Расследование преступлений против информационной безопасности. Теоретико-правовые и прикладные аспекты. М.: Тесей, 2008. — 176 с.
112. Лингвистический энциклопедический словарь / под ред. Ярцева В.Н., М.: Сов.энциклопедия, 1990.-685 е., ил
113. Лопатин В. Н. Информационная безопасность России: Человек, общество, государство Серия: Безопасность человека и общества. М.: 2000. — 428 с.
114. Малюк А.А, Пазизин С., Погожин Н. Введение в защиту информации в автоматизированных схемах. -М.: Горячая Линия -Телеком, 2001,- 148 с.
115. Малюк A.A. Информационная безопасность: концептуальные и методологические основы защиты информации. Учеб. Пособие для вузов. -М.: Горячая линия Телеком, 2004. - 280 с.
116. Мамаев М. Технологии защиты информации в Интернете: спец. справочник. -СПб.: ПИТЕР, 2002 г. 844 с.
117. Манойло А. В. Государственная информационная политика в особых условиях: Монография. — М.: МИФИ, 2003. -250 с.
118. Манойло А. В. Объекты и субъекты информационного противоборства. 2003. -330 с.
119. Мельчук И.А. Опыт теории лингвистических моделей "Смысл-текст" М., Школа "Языки русской культуры" 1999. - 394 с
120. Мельчук И.А. Русский язык в модели "Смысл-текст" М.-Вена, 1995. -338 с
121. Мельчук И.А., Перцов Н.В. Модель английского поверхностного синтаксиса. Перечень синтагм // Институт русского языка АН СССР. Проблемная группа по экспериментальной и прикладной лингвистике. Предварительные публикации. Вып. 64-66. М„ 1975.
122. Мельчук И.А., Перцов Н.В. Поверхностно-синтаксические отношения в английском языке // Институт русского языка АН СССР. Проблемная группа по экспериментальной и прикладной лингвистике. Предварительные публикации. Вып. 43. М„ 1973.
123. Михов М. М. Работы в США над созданием средств искусственного интеллекта в военных целях. //Зарубежное военное обозрение 1988, №5,С.13-18
124. Моделирование языковой деятельности в интеллектуальных системах / под ред. А.Е. Кибрика, A.C. Нариньяни. М.: Наука, 1987. - 280 с.
125. Мэйволд Э. Безопасность сетей. Шаг за шагом. М.: СП ЭКОМ, 2005 г. - 527 с.
126. Нариньяни A.C. Недоопределенность в системе представления и обработки знаний. //Техническая кибернетика, М.,1986, N.5.,C.3-28
127. Нариньяни A.C. Неточность как НЕ-фактор, попытка доформального анализа// Препринт РосНИИ ИИ №2, Москва-Новосибирск 1994, С.34
128. Нариньяни A.C. НЕ-факторы и инженерия знаний: от наивной формализации к естественной прагматике // Труды 4-й Нац. Конф. "Искусственный интеллект 94" , Рыбинск, 1994, Т.1,С. 9-18.
129. Никогосов С.Л. Лингвистическая семантика и логика // Семантический компонент в системах автоматического понимания текстов. — М.: ВЦП, 1982. — С. 73—78.
130. Никулин О.Ю., Петрушин А.Н. Системы телевизионного наблюдения. -М.: Оберг-РБ, 1996.
131. Ногин В.Д. Упрощенный вариант метода анализа иерархий на основе нелинейной свертки критериев// Журнал вычислительной математики и математической физики, 2004, т. 44, № 7, С. 1259-1268.
132. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы). Дисс. на соискание ученой степени канд. техн. наук, 2003.
133. Норткат С. и др. Анализ типовых нарушений безопасности в сетях. М.: Издат. дом «Вильяме», 2001 г. - 460 с.
134. Орлов В.А., Петров В.И. Приборы наблюдения ночью и при ограниченной видимости. М.: Военное издательство, 1989.
135. Осипов Г.С. Приобретение знаний интеллектуальными системами .- М.: Наука, Физматлит. 1997. 210 с.
136. Осипов Г.С., Завьялова О.С., Климовский A.A., Кузнецов И.А.,Смирнов И.В., Тихомиров И.А. Проблема обеспечения точности и полноты поиска: пути решения в интеллектуальной метапоисковой системе «Сириус» //
137. Отчет о выполнении НИОКР по теме "Разработка пилотной версии системы синтаксического анализа русского языка", 2008 г., инвентарный номер ВНТИЦ 02200803750, руководитель работ: к.ф.-м.н. Окатьев В. В. Сайт ВНТИЦ: http://www.vntic.org.ru.
138. Палагин A.B. Организация и функции «языковой» картины мира в смысловой интерпретации ЕЯ -сообщений // Information Theories and Application. 2000. - Vol. 7, № 4. - С.155-163.
139. Пархоменко В.Ф. и др. Программное и технологическое обеспечение АДИПС: автоматическое индексирование документов / В.Ф. Пархоменко, П.Л. Виленский, Е.Б. Федоров, Т.Д. Богданова. М.: Информэлектро, 1985. - 44 с.
140. Пархоменко В.Ф. Система автоматического индексирования документов СКОБКИ ОС ЕС. Сер. "Методические материалы и документация по пакетам прикладных программ". Вып. 23. - М.: МЦНТИ, 1983. - 78 с.
141. Петраков A.B. Основы практической защиты информации. -М.: Радио и связь, 1999, -368с.
142. Петраков A.B. Утечка и защита информации в телефонных каналах.-М.: Энергоатомиздат. 1996. -320 с.
143. Петраков A.B., Дорошенко П.С., Савлуков Н.В. Охрана и защита современного предприятия. -М: Энергоатомиздат, 1999, -568 с.
144. Петраков A.B., Лагутин B.C. Защита абонентского телетрафика: учеб. пособие. М.: Радио и связь, 2004 г. - 499 с.
145. Петренко С. А., Курбатов В. А. Политики информационной безопасности.— М.: Компания АйТи, 2006. — 400 с.
146. Петренко С. А. Управление информационными рисками. М.: Компания АйТи; ДМК Пресс, 2004. — 384 с.
147. Поздняков E.H. Защита объектов. М.: Концерн "Банковский Деловой Центр", 1997 г.-224 с.
148. Попов Э.В. Динамические интеллектуальные системы в управлении и моделировании. -М.: МИФИ, 1996.
149. Поспелов Д. А. Моделирование рассуждений. Опыт анализа мыслительных актов.—М.: Радио и связь, 1989.—184 с
150. Поспелов Д.А. Логико-лингвистические модели в системах управления, М.: Наука, 1986, - 288 с.
151. Почепцов Г. Г. Теория коммуникации. — М.: Рефл-бук, 2003.-651 с
152. Прокофьев И.В., Шрамков И.Г., Щербаков А.Ю. Введение в теоретические основы компьютерной безопасности: Учебное пособие. —М.: МИЭМ, 1998.- 184 с.
153. РД. АС. Защита от НСД к информации. Классификация АС и требования по защите информации. М.: Гостехкомиссия России, 1992.
154. Родичев Ю. Информационная безопасность: Нормативно-правовые аспекты. СПб.: Питер, 2008. — 272 с.
155. Романец Ю.В., Тимофеев П.А., Шаньгин В.Ф. Защита информации в компьютерных системах и сетях / Под ред. В.Ф. Шаньгина. 2-е изд., перераб. и доп. - М.: Радио и связь, 2001 с
156. Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989. - 190 с
157. Русский язык / Под ред. Л.Ю. Максимова М.: Просвещение, 1989. - 287 с.
158. Рябко Б.Я., Фионов А.Н. Криптографические методы защиты информации: учебное пособие для вузов. М.: Горячая линия-телеком, 2005. - 229 с.
159. Самарский А., Михайлов А. Математическое моделирование: Идеи. Методы. Примеры. М.: Физматлит, 2001. - 320 с.
160. Свиридов А.П. Основы статистической теории обучения и контроля знаний. -М.: Высш. школа, 1981. -282 с.
161. Семененко М. Введение в математическое моделирование. М.: СОЛОН-Р, 2002,- 112 с.
162. Скиба В.Ю., Курбатов В.А. Руководство по защите от внутренних угроз информационной безопасности. СПб.: Питер, 2008. - 320 с.
163. Советский энциклопедический словарь/ под ред. Прохорова A.M. С56 4-е изд.- М.: Сов.энциклопедия, 1988 г. - 1600 с.
164. Сокирко A.B. Графематический анализ. АОТ :: Технологии :: Графематический анализ: http://www.aot.ru/docs/graphan.html (17 октября 2005г.)
165. Сокирко A.B. Первичный семантический анализ // АОТ :: Технологии :: Первичный семантический анализ: http://www.aot.ru/docs/seman.html (17 октября 2005г.)
166. Сокирко A.B. Синтаксический анализ // АОТ:: Технологии :: Синтаксический анализ: http://www.aot.ru/docs/synan.html (17 октября 2005г.)
167. Сокирко A.B., Ножов И.М. Описание МаПоста // АОТ :: Технологии :: Описание МаПоста: http://www.aot.ru/docs/mapost.html (17 октября 2005 г.)
168. Соколов A.B., Шаньгин В.Ф. Защита информации в распределенных корпоративных сетях и системах. М.: ДМК Пресс, 2002.
169. Соколовский В.В. Обзор задач и методов смысловой обработки электронных данных, роль метаданных для практических задач смысловой обработки. ГПНТБ России: http://ellib.gpntb.rU/doc/l 1/dl l12.htm (23 сентября 2004 г.)
170. Соловьев С.Ю., Соловьева Г.М. Вопросы организации баз знаний в системе ФИАКР // Экспертные системы: состояние и перспективы / Под ред. Д.А. Поспелова -М.: Наука, 1989.
171. Степанов Ю.Л., Гурко A.B. Системы управления базами данных информационно-расчетных систем. Основы проектирования баз данных. -СПб.: СПВУРЭ ПВО, 1997. -96 с.
172. Стюгин М. Оценка безопасности системы информационного управления Российской Федерации. 2006. -310 с.
173. Толпегин П.В. Информационные технологии анализа русских естественноязыковых текстов. Часть I. //Информационные технологии, № 8. 2006. С. 41-50
174. Толпегин П.В. Информационные технологии анализа русских естественноязыковых текстов. Часть II. // Информационные технологии, № 9. 2006. С. 2-7
175. Толпегин П.В. Новые методы и алгоритмы автоматического разрешения референции местоимений третьего лица русскоязычных текстов. М.: КомКнига, 2006. - 88 с.
176. Толпегин П.В. Технологические приемы построения текстовых информационно-поисковых систем. -М.: Изд. МАТИ, 2004.-73 с.
177. Торокин A.A. Основы инженерно-технической защиты информации. -М: "Ось-89", 1998,334 с.
178. Тузов В.А. «Языки представления знаний» С.-Петербург: СПбГУ, 1990. - 126 с.
179. Тузов В.А. Компьютерная семантика русского языка. СПб.: СПбГУ, 2004. -400 с.
180. Тузов В.А. Математическая модель языка. -Л.: ЛГУ, 1984. с -176
181. Тузов В.А. Морфологический анализатор русского языка. //Вестник СПбГУ. Сер.1., 1996 г., вып. 3 (№15)
182. Тузов В.А. Семантический анализ текстов на русском языке. // Вестник СПбГУ. Сер.1., 1998, вып. 1.(№21)
183. Тузов В.А. Синтаксическая структура русского языка. // Вестник СПбГУ. Сер.1., 1997., вып.1 (№17)
184. Тузов В.А. Языки представления знаний. СПб: СПбГУ, 1990. - 126 с.
185. Указ Президента Российской Федерации от 12 мая 2004 г. № 611 «О мерах по обеспечению информационной безопасности Российской Федерации в сфере международного информационного обмена»
186. Уотермен Д. Руководство по экспертным системам: Пер. с англ. М.: Мир, 1989.- 106 с.
187. Федеральный закон от 27 июля 2006 г. № 149-ФЗ «Об информации, информационных технологиях и о защите и информации»
188. Хомский Н. Аспекты теории синтаксиса М., 1972.
189. Хомский Н. Три модели для описания языка. В кн. Кибернетический сборник, вып. 2, М. Мир, 1961
190. Хорев A.A. Защита информации от утечки по техническим каналам.Часть 1. Технические каналы утечки информации. Учебное пособие.-М.: Гостехкомиссия России, 1998,-320 с.
191. Хорев П.Б. Методы и средства защиты информации в компьютерных системах М.: Академия, 200. - 255 с.
192. Хорошевский В.Ф. Обработка естественно-языковых текстов: от моделей понимания языка к технологиям извлечения знаний // Новости искусственного интеллекта. 2002. №6. С. 19-26.
193. Цаленко М.Ш. Семантические и математические модели баз данных. М.: ВИНИТИ, 1985. - 207 с.
194. Цейтин Г . С . О соотношении естественного языка и формальной модели. В сб. Вопросы кибернетики. М., 1982, с . 20-34.
195. Цейтин Г . С . Программирование на ассоциативных сетях. // Сборник трудов: ЭВМ в проектировании и производстве. Вып. 2. JI., 1985, с. 16-48.
196. Чекинов С.Г. Возможные решения интервальных математических моделей в задачах управления//Информационные технологии. 2002, №9
197. Чекинов С.Г. Применение интервальных математических моделей в адаптивных системах управления//Информационные технологии. 2002, №11
198. Чень Ч., Ли.Р. Математическая логика и автоматическое доказательство теорем: Пер. с англ. М.: Наука, 1983 -148 с.
199. Чижухин Г.Н. Основы защиты информации в вычислительных системах и сетях ЭВМ: Учеб. пособие. Пенза: Изд-во Пенз. гос. ун-та, 2001. - 164 с.
200. Шалыто А. А. Алгоритмизация /и программирование задач логического управления. СПб, СПбГУ ИТМОД998. -120 с.
201. Шаньгин В. Ф. Защита компьютерной информации. Эффективные методы и средства. -М.: ДМК Пресс, 2008. — 544 с.
202. Шенк Р., Бирнбаум Л., Мей Дж. К интеграции семантики и прагматики. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика. М.: Прогресс,
203. Шехтман В.Б. Семантика модальных утверждений // Семиотика и информатика. Вып. 17. М.: ВИНИТИ, 1981. - С. 148-169.
204. Щербаков А. Ю. Современная компьютерная безопасность. Теоретические основы. Практические аспекты. — М.: Книжный мир, 2009. — 352 с.
205. Щербаков А.Ю. Введение в теорию и практику компьютерной безопасности. -М.: Издатель C.B. Молгачева, 2001. 352 с.
206. Ярочкин В.И. Информационная безопасность. Учебной пособие для студентов непрофильных вузов. М.: Междунар. отношения, 2000 г.- 400 с.1989.
-
Похожие работы
- Разработка методов и средств анализа информационной безопасности и обнаружения воздействий в распределенных вычислительных системах
- Модели и методика анализа защищенности компьютерных сетей на основе построения деревьев атак
- Модель и метод трассировки поля угроз безопасности при проектировании систем защиты телекоммуникаций
- Функциональное моделирование вредоносных воздействий на критически важные сегменты информационной сферы
- Методы оценок защищенности распределенных информационных сетей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность