автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Разработка системы защиты WEB-приложений от автоматизированного копирования информации

кандидата технических наук
Александров, Иван Сергеевич
город
Москва
год
2004
специальность ВАК РФ
05.13.13
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка системы защиты WEB-приложений от автоматизированного копирования информации»

Автореферат диссертации по теме "Разработка системы защиты WEB-приложений от автоматизированного копирования информации"

На правах рукописи

АЛЕКСАНДРОВ Иван Сергеевич

РАЗРАБОТКА СИСТЕМЫ.ЗАЩИТЫ WEB-ПРИЛОЖЕНИИ ОТ АВТОМАТИЗИРОВАННОГО КОПИРОВАНИЯ ИНФОРМАЦИИ

Специальность - 05.13.13 Телекоммуникационные системы и компьютерные сети

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

МОСКВА 2004 г.

Работа выполнена в Московском государственном университете путей

сообщения (МИИТ).

Научные руководители: кандидат технических наук, профессор

СОЛОВЬЕВ Владимир Павлович

доктор технических наук, профессор ЕФИМОВ Алексей Николаевич

Официальные оппоненты: доктор технических наук, профессор

Ляпунцова Елена Вячеславовна, кандидат технических наук, доцент Крепкое Игорь Михайлович

Ведущая организация: Российский научный центр

«Курчатовский институт»

Защита состоится "_"_2004 г. в_часов на заседании

диссертационного совета Д-218.005.10 при Московском государственном университете путей сообщения (МИИТ) по адресу: 127994, ГСП, г. Москва, ул. Образцова, 15, ауд./ЗЗЗ?.

С диссертацией можно ознакомиться в библиотеке Московского государственного университета путей сообщения (МИИТ).

Автореферат разослан "_"_

_2004 года.

Ученый секретарь диссертационного совета к.т.н., профессор Соловьев В.П.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность.

Наиболее характерной чертой настоящего времени является стремительное технологическое развитие глобальной компьютерной сети. Этот рост сопровождается появлением проблем, для решения которых требуется научный подход. Такого рода проблемой является непредусмотренное. использование отдельными пользователями функциональных возможностей информационных ресурсов в сети Интернет.

В частности, в сети стали появляться информационно-справочные ресурсы, которые на определенных условиях предоставляют своим пользователям доступ к значительным массивам информации, имеющей определенную стоимость. Достаточно высокая пропускная способность современных каналов связи позволяет заинтересованным пользователям, с помощью самостоятельно-написанных программ, совершать полное копирование информационного наполнения (контента) web-сайтов. Например, владельцы конкурирующих электронных магазинов могут быть заинтересованы в бесплатном получении описания товаров друг у друга. Как видно из примера, в подобных случаях защитить информацию, просто убрав ее из свободного доступа, нельзя.

Исследование поведения обычных пользователей web-приложений и пользователей, использующих автоматизированные средства копирования (АСК), позволит разработать методы выявления копирующих программ среди пользователей.

Целью диссертационной работы является разработка системы, которая в автоматическом режиме позволит распознавать по некоторому обоснованному набору признаков попытки полного или частичного копирования контента web-сайта и своевременно их блокировать. При этом система не должна препятствовать работе обычных пользователей.

Задачи работы:

1. Анализ существующих методов обнаружения аномального поведения пользователей сети Интернет.

2. Исследование природы и характера отклонений в поведении пользователей, использующих автоматизированные средства копирования (АСК) информации с web-сайтов.

РОС. НАЦИОНАЛЬНА» [ ЬИБЛИОТИКА 1

3. Разработка методов моделирования поведения пользователей и АСК.

4. Разработка системы обнаружения и предотвращения попыток пользователей выполнить полное или частичное копирование информационного наполнения web-сервера.

Научная новизна работы. Решение поставленных в диссертационной работе задач определяет научную новизну исследования, которую, прежде всего, составляют:

• Исследование и определение свойств пользователей и их поведения, совокупный анализ которых позволяет обнаруживать применение автоматизированных средств копирования.

• Перечень показателей, позволяющих учитывать все изменения свойств сервера и алгоритмы их расчета.

• Метод классификации пользователей на основе рассчитанных показателей.

Практическая ценность данной работы обусловлена предложениями и выводами, обеспечивающими эффективную защиту информационно-справочных web-серверов от копирования информации с использованием АСК. Данная защита позволяет избежать непредвиденных финансовых потерь, которые может понести владелец web-сервера вследствие полного или частичного копирования данных.

Достоверность результатов работы подтверждена модельным экспериментом исследуемых процессов.

Основные практические результаты, выносимые на защиту.

1. Математическая модель информационно-справочного web-сервера и результаты исследования динамических свойств пользователей на примере данной модели.

2. Разработанные алгоритмы вычисления показателей динамических свойств пользователей информационно-справочного web-сервера.

3. Основанное на модельном эксперименте обоснование возможности применять выбранные показатели динамических свойств пользователей информационно-справочного web-сервера для обнаружения пользователей, чье поведение существенно

отличается от поведения большинства других пользователей и может являться признаком попытки целенаправленного копирования данных.

4. Технические спецификации, описывающие основные требования к реализации программного средства обнаружения и предотвращения автоматизированного копирования информации с web-сервера.

Реализация результатов работы. Результаты работы были применены БФ ВНИИАС МПС России для. обеспечения защиты web-приложения «Автоматизированной системы оперативного управления перевозками» (АСОУП) от непредусмотренных действий со стороны пользователей системы и позволяют в автоматическом режиме ограничивать доступ к оперативным и справочным данным для пользователей, применяющих автоматизированные средства копирования информации.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на периодических заседаниях кафедры "Электронные вычислительные машины" МГУПС, 2000-2004 гг., а также на следующих научных конференциях:

• Неделя науки - 2001. МИИТ, 2001г.

• Десятая международная научно-техническая конференция «Радиоэлектроника, электротехника и энергетика». МЭИ, 2004 г.

• 59-ая научная сессия, посвященная Дню Радио. Российское научно-техническое общество радиотехники, электроники и связи им. А.С. Попова, 2004 г.

Публикации. По теме диссертации опубликовано 4 печатные работы.

Структура и объем работы. Диссертация состоит из введения, четырех глав и заключения. Диссертация содержит 127 страниц, 49 рисунков и 19 таблиц. Список литературы насчитывает 75 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность исследуемой в диссертации проблемы, формулируются основные цели и задачи исследования.

Первая глава имеет обзорный характер. Даны определения основных терминов и понятий, используемых далее в работе. Исследуются существующие средства обеспечения информационной безопасности в Интернете, в том числе различные виды систем обнаружения атак (Intrusion Detection Systems), межсетевые экраны, антивирусы.

Приводится анализ известных уязвимостей web-сайтов, таких как "Cross Site Scripting" - использование ошибок в программном коде web-приложений, "Denial of Service" - отказ в обслуживании, "SQL injection" -передача команд базе данных с использованием ошибок web-приложения.

Наряду сэтим, автор позиционирует новую проблему - уязвимость большинства web-сайтов перед программными средствами, имитирующими человека, и ее частный случай - автоматизированное копирование информации с контентных сайтов.

Автор приводит сравнительный обзор существующих технологий, которые находят свое применение для защиты электронных ресурсов в Интернете от различных видов атак:

• Экспертные системы, основанные на поиске заранее определенных шаблонов (сигнатур);

• Нейросети, способные вырабатывать правила обработки информации в условиях динамически изменяющейся окружающей среды и периодически изменять эти правила в процессе своей работы;

• Системы с нечеткой логикой (fuzzy logic), позволяющие описывать нечеткие понятия и делать нечеткие выводы;

• Статистический анализ, основанный на анализе собранных данных о поведении пользователя за определенный период времени.

В заключение главы, опираясь на результаты проведенного исследования проблемы, автор раскрывает цели и задачи диссертационной работы.

Вторая глава посвящена разработке метода, позволяющего на ранней стадии обнаруживать попытки применения автоматизированных средств копирования. С этой целью была построена математическая модель web-сайта. Предложенная модель не зависит от прикладных особенностей реализации, что позволяет моделировать процессы, свойственные практически любым web-серверам, поддерживающим стандартный

протокол HTTP. Единственным и необходимым условием является использование динамически-формирующихся страниц для отображения данных.

Методом математического моделирования были исследованы особенности поведения- пользователей. В результате проведенного исследования было установлено, что любое нештатное поведение, так или иначе, сопровождается изменениями в приведенных ниже пользовательских характеристиках:

Количество переходов между страницами в течение сессии; Продолжительность интервалов между переходами; Изменения частоты переходов; Длительность сессии; Циклы в маршруте пользователя;

Количество непредусмотренных штатными средствами навигации переходов в маршруте пользователя;

Количество основных страниц в маршруте пользователя;

Изменения в пользовательском профиле (системных настройках);

Значения характеристик пользовательского профиля.

Анализ свойств, описанных выше, позволяет нам идентифицировать АСК. Следующим шагом к решению задачи является разработка алгоритмов, позволяющих выполнять расчет показателей для рассмотренных свойств.

Модельный эксперимент, который описан в главе 3, позволил определить набор показателей, способный решать поставленную задачу с максимальной точностью.

Табл. 1

Статические показатели

Табл. 2

Динамические показатели

К3 Показатель непредусмотренных переходов

к< Показатель доминирования основных страниц

к5 Показатель среднего интервала между переходами

к< Показатель отклонения длительности сессии от нормы

К7 Показатель отклонения цикличности маршрута пользователя от нормы

К„ Показатель изменения скорости переходов

Показатели разбиты на две группы: статические и динамические. Статические показатели характеризуют непосредственно пользователя, его текущие настройки, фиксируют обнаруженные изменения в этих настройках с момента предыдущего входа в систему. Расчет статистических показателей производится один раз за сессию в самом ее начале. Динамические показатели характеризуют поведение пользователя в системе, а также показывают степень отклонения поведения отдельно взятого пользователя от среднестатистических показателей и пересчитываются после каждого перехода, совершенного пользователем.

Статические показатели не являются основными и могут быть полезны для обнаружения следующих ситуаций:

• Пользователь для запуска АСК использует разные компьютеры;

• Пользователь использует автоматизированное средство копирования, которое не способно формировать стандартные ответы, свойственные обычным браузерам.

Для расчета показателя стабильности профиля пользователя требуется обеспечить хранение значений, характеризующие профиль каждого пользователя, зарегистрированные в предыдущий вход пользователя в систему.

Для расчета показателя отклонения от среднестатистического профиля необходимо вести справочники возможных значений для каждого параметра. Такой справочник, должен содержать статистическую информацию о количестве пользователей, у которых было обнаружено

такое значение в профиле. Это позволит выделять пользователей, имеющих необычные значения в параметрах системы.

Использование статических показателей возможно при условии поддержки web-приложением аутентификации пользователей. В диссертации автор приводит алгоритмы расчетов данных показателей.

Далее в этом разделе предлагаются разработанные алгоритмы расчетов основных показателей - динамических.

Показатель непредусмотренных переходов

Одной из важнейших характеристик пользователя является последовательность его переходов от одной страницы к другой. Следует отметить, что отнюдь не все переходы предусмотрены штатной системой навигации. Переход пользователя с одной страницы на другую является фактически сменой состояния системы относительно пользователя, которая происходит по его требованию.

Для исследования за основу была принята классическая схема контентного сайта. Данные сгруппированы в классы и категории. Приведенная на Рис. 1 схема поэтапной детализации данных является типовой для большинства контентных сайтов:

• Система имеет 8 состояний;

• Не все состояния сообщающиеся (если какое-либо состояние 8Х достижимо из Бу, то эти состояния являются сообщающимися);

• Состояние S8 (выход из системы) является поглощающим. Состояние S8 достижимо из любого другого состояния.

Каждая страница имеет свою категорию. Основными страницами мы будем называть те страницы, которые обеспечивают доступ непосредственно к защищаемой информации. Страницы классификации обеспечивают возможность детализации запроса путем выбора нужной группы.

Например: Книги ^2, классификатор 1-го уровня) - > Учебники ^3, классификатор 2-го уровня) -> Вентцель Е.С. Теория вероятностей ^4, основная страница) -> Содержание ^6, основная страница). Остальные страницы - вспомогательные.

Табл. 3

Перечень состояний системы

Обозначение Страница Категория

81 Старт Вспомогательная

82 Просмотр таблиц Классификатор первого уровня ■

вз Просмотр таблицы Классификатор второго уровня-

Просмотр записи Основная

Б5 Просмотр дополнительных полей записи Основная

86 Сравнения записей Вспомогательная

в7 Просмотр таблицы ассоциативных записей Вспомогательная

88 Выход -

В процессе поиска и сбора информации, пользователь контентного 'Л'еЬ-сайта совершает переходы, которые обусловлены внутренними связями сайта - гиперссылками. Структура типичного контентного сайта такова, что пользователю приходится перемещаться от верхнего уровня к нижнему. Тем самым он с каждым шагом уточняет свой запрос. Верхние уровни являются по своей сути классификаторами, а нижний уровень предоставляет пользователю искомую информацию. Помимо этого, контентный сайт может содержать дополнительные ветви. В нашем примере - это функция сравнения двух записей.

В отличие от добросовестного пользователя, пользователь, использующий АСК, в меньшей мере связан предусмотренной на web-сайте навигацией и, следовательно, может выполнять переходы, которые мы формально считаем непредусмотренными.

Рис. 1 Граф состояний системы

Установленный факт непредусмотренного перехода инкрементирует счетчик непредусмотренных переходов в реальном времени. Показатель непредусмотренных переходов определяется как разность единицы и отношения числа непредусмотренных переходов (пнепр) к общему числу совершенных этим пользователем переходов (пнепр.+ппр.):

непр.

"пр. ^непр.

(1)

Показатель доминирования основных страниц

В приведенной модели 'Л'еЬ-сайта две динамические страницы предоставляют доступ к классификаторам информации (82, 83) и еще две непосредственно к информации (84, 85). Остальные страницы выполняют сервисные функции.

Страница 82 содержит верхний уровень классификации и практически не изменяется, что позволяет ее исключить из числа страниц, требующих особого надзора.

Страница 83 может содержать К классов с различным количеством записей (М) в каждом классе. Это значит, что в том случае, когда пользователь последовательно просматривает все доступные записи, то ему предстоит

обратиться К раз к странице 83 и ^ Nраз к страницам 84 и 85. Для

расчета данного показателя целесообразно ослабить влияние (Б) страницы 83:

(2)

принять 1)гл — ^55 = 1,

(3)

Исходя из количества переходов к страницам 83, 84, 85 рассчитывается суммарное влияние основных страниц и страницы классификации 2-го уровня:

К _ п33Р53+п54Р8^+п$5Р$5 4 п

(4)

где - номер текущего перехода, - количество переходов на данную страницу. Показатель К4 определяет степень доминирования основных страниц в маршруте пользователя над всеми прочими.

Показатель среднего интервала между переходами

Показатель среднего интервала между переходами измеряется в секундах и вычисляется как отношение продолжительности сессии на данный момент (сумма всех интервалов) к номеру текущего перехода (п):

то

(5)

Показатель отклонения длительности сессии от нормы Показатель отклонения длительности сессии от нормы вычисляется как отношение продолжительности сессии пользователя к норме продолжительности сессии для данного количества переходов:

(6)

" Т

норма ,п

где - среднестатистическая (нормальная) длительность сессии для п

переходов, Т„ - текущее время сессии определенного пользователя.

Показатель отклонения цикличности маршрута пользователя от нормы Как уже говорилось раннее, циклическими переходами мы называем последовательно обращение пользователя к одной и той же. странице. Например, если из 10 переходов два были совершены подряд в пределах одной страницы, то мы говорим о двух циклических переходах. Если циклов было несколько, то учитывается сумма всех переходов, которые попадали под понятие циклических.

Данный показатель показывает количество циклических переходов по отношению к общему числу переходов.

где - количество переходов в циклах, - всего переходов, -

норма цикличности. Норма цикличности вычисляется как отношение цикличных переходов к сумме всех переходов:

N...

(8)

норма др- •

где Мцнкл - все циклические переходы всех пользователей, а N - все переходы всех пользователей на данный момент времени.

Показатель изменения скорости переходов

Маршрут обычного пользователя отличается достаточно нестабильной скоростью переходов - пользователь то ускоряется, то задерживается на

какой-либо странице. Для автоматического копирования контента характерна стабильная скорость почти без ускорений.

Данный показатель отражает ускорение (задержку) пользователя на текущем переходе относительно средней скорости переходов на протяжении всей сессии.

Показатель может быть рассчитан, начиная со второго перехода, т.е. если , то , иначе

где Тп - продолжительность задержки перед последним выполненным переходом, - продолжительность сессии, п - номер перехода.

Все рассчитанные показатели непрерывно используются при классификации пользователей. В данной работе применен метод, основанный на нейронных сетях. Методу было отдано предпочтение в силу следующих объективных причин:

• Обеспечивается приемлемая для данной задачи производительность;

• Нейронная сеть обладает способностью быстро адаптироваться к новым условиям;

• Применение стандартной нейросети позволяет избежать необходимости программной реализации набора правил, которые могут периодически меняться.

Во второй главе подробно рассматривается реализация нейронной сети (персептрона), выбранной для решения поставленной задачи.

Третья глава посвящена постановке и проведению модельного эксперимента, целью которого является определение набора показателей свойств исследуемой математической модели, с помощью которого задача классификации пользователей решалась бы с максимально возможной точностью. Нейронная сеть, принимая на входе значения искомого набора показателей, должна позволить (в приоритетном порядке):

• Обнаружить использование АСК;

• Обеспечить минимальное количество ложных срабатываний;

• Обнаружить АСК как можно раньше.

Достижение абсолютных результатов в решении данной задачи невозможно, так как для корректной классификации необходимо проследить за поведением пользователя на протяжении некоторого

времени. Необходимо подчеркнуть, что приоритет задачи обеспечения минимального количества ложных срабатываний ставится выше, чем задача раннего обнаружения АСК. То есть допускается увеличение времени наблюдения за пользователем, если это необходимо для более точной классификации.

Полученные в процессе модельного эксперимента данные (значения свойств модели) должны соответствовать данным, полученным на практике.

Для автоматизации постановки необходимого количества модельных экспериментов была разработана система, которая, имитируя web-сервер, регистрирует вход виртуальных пользователей и "отслеживает" переходы этих пользователей из одного состояния системы в другое.

В данном модельном эксперименте исследуются динамические свойства модели, поэтому целесообразно использовать только динамические показатели КЗ-К8.

Моделирование пользователей производится в пределах заданного интервала времени. Разработанное приложение использует принцип multithread (множество параллельных процессов), что позволяет одновременно моделировать поведение сразу нескольких пользователей -каждый из которых 'живет' в своем собственном выделенном процессе. Эта особенность максимально приближает систему моделирования к работе реального web-сервера.

Разработанное и описанное выше решение позволило получить все необходимые данные для передачи их в подсистему принятия решения. В данной работе задачу классификации пользователей на основе рассчитанных показателей и норм выполняет нейросеть.

Моделирование подсистемы принятия решений было выполнено с помощью программы The NeuroShell® Classifier (Demo).

Проведение модельного эксперимента состоит включает в себя следующие этапы:

• Моделирование процесса обслуживания контентным web-сервером обычных пользователей, с последующим анализом результатов;

• Подтверждение корректности эксперимента путем анализа и сравнения полученных в процессе моделирования данных с реальными;

• Моделирование процесса обслуживания контентным web-сервером

сочетания пользователей и имитирующих пользователя программ;

• Обучение нейронной сети с использованием полученных результатов;

• Классификация пользователей нейронной сетью, анализ полученных результатов.

Этапы модельного эксперимента выстраиваются в соответствие с приведенной ниже диаграммой:

В процессе эксперимента, в тех случаях, когда результаты классификации были неудовлетворительными, производилась корректировка набора показателей и (или) алгоритмов их расчета, а затем модельный эксперимент ставился снова. Процесс повторялся до тех пор, пока не был получен требуемый результат.

Необходимость в допуске некоторого количества ошибок обусловлена нечеткой классификацией системой моделирования исходных данных, которые в последствие, применяются для обучения нейросети. Например, первые переходы АСК могут быть вполне приемлемыми и для обычного пользователя, но система, вне зависимости от этого, каждый переход помечает как переход АСК.

В результате серии модельных экспериментов, в ходе которых набор динамических показателей подвергался существенным изменениям, были достигнуты следующие результаты:

• Точность классификации пользователей (FALSE): 99.48%;

• Точность классификации АСК (TRUE): 93.12%.

Таким образом, 0.52% пользователей были классифицированы как АСК и 6.88% АСК не были обнаружены. Для понимания результатов необходимо иметь в виду, что в процессе моделирования часть пользователей могли отличаться нестандартным поведением и напротив, поведение некоторых моделируемых АСК могло быть очень близко к поведению пользователей, что также привносит неточность в общую оценку эффективности.

Для анализа относительной информативности входных параметров были применены генетические алгоритмы, реализованные в программе The NeuroShell Classifier. Результаты представлены на Рис. 3.

Для проверки относительной информативности показателей была поставлена серия из 3-х дополнительных опытов. На этот раз, на вход нейросети подавались по два показателя: КЗ и К4; К5 и Кб; К7 и К8.

Результаты приведены на Рис. 4. Из рисунка следует, что пара показателей КЗ и К4 позволяет добиться высокой точности, хотя и недостаточной для поставленной задачи. К тому же результат неприемлем, так как баланс ошибок получен обратный требуемому: ошибки классификации "TRUE" преобладают над ошибками классификации "FALSE". Показатели К5 и Кб оказались наименее результативными и неспособными правильно классифицировать АСК. Показатели К7 и К8 отдельно от других также показали не достаточный уровень информативности с таким же, как и у первой пары, смещенным балансом ошибок. Следовательно, только совокупность из всех показателей дает наилучший результат.

Рис. 4. Влияние входных векторов па точность классификации

Четвертая глава включает в себя разработанные на основе предложенных методов спецификации для реализации системы защиты контента от автоматизированного копирования данных. Предлагается реализация системы в виде совокупности четырех взаимодействующих друг с другом подсистем. При этом каждая подсистема выполняет свою функцию:

• Подсистема мониторинга статических и динамических характеристик пользователя (Р1) обеспечивает сбор необходимых данных о каждом пользователе и о его поведении;

• Подсистема регистрации пользовательских характеристик и расчета показателей (Р2) обеспечивает анализ, расчет и последующее хранение данных;

• Подсистема классификации пользователей (РЗ) обеспечивает принятие решений;

• Подсистема предотвращения автоматизированного копирования (Р4) осуществляет дополнительные проверки пользователей и, в случае необходимости, блокирование АСК.

Рис. 5 Взаимодействие подсистем

Подсистема мониторинга статических и динамических характеристик пользователя

Данная подсистема реализуется в виде нескольких независимых компонентов-агентов, которые обеспечивают сбор,- упаковку и отправку данных в другие подсистемы.

В набор функций подсистемы входят следующие операции:

• Разовый сбор параметров профиля пользователя и последующую их передачу в подсистему хранения (Р2) и в подсистему принятия решений (РЗ).

• Циклический сбор данных в момент каждого перехода пользователя (или в момент обновления им страницы) и передачу данных в подсистему принятия решений (РЗ).

Подсистема регистрации пользовательских характеристик и расчета показателей

В функции подсистемы регистрации пользовательских характеристик и расчета показателей входят следующие операции:

• Прием данных из других подсистем;

• Анализ данных;

• Расчет показателей на основе полученных данных;

• Накопление и регулярный перерасчет статистических данных. Подсистема классификации пользователей

В основе функционирования подсистемы классификации пользователей (РЗ) лежит обученная нейронная сеть, которая, приняв входные данные, возвращает свою бинарную оценку.

Динамические характеристики поведения пользователей используются только на протяжении сессии. Даже в самые напряженные часы работы web-сервера одновременно открытых сессий бывает сравнительно не много. Все это позволяет хранить динамические данные только в оперативной памяти и не использовать базу данных.

В течение каждой сессии необходимо отслеживать параметры, которые используются для расчетов показателей:

• Номер текущего перехода;

• Время предыдущего перехода;

• Длительность сессии;

• Количество циклических переходов в маршруте пользователя;

• Количество непредусмотренных штатными средствами навигации переходов в маршруте пользователя;

• Количество основных страниц в маршруте пользователя.

На протяжении сессии необходимо сохранять рассчитанные в начале сессии статические показатели. Также в системе должны быть доступны, единые для всех нормы, которые также применяются для расчета показателей К2, Кб и К7.

В качестве результата подсистема классификации пользователей передает в подсистему предотвращения автоматизированного копирования (Р4) идентификатор пользователя и результат классификации - данный пользователь является человеком или АСК.

Подсистема предотвращения автоматизированного копирования

Подсистема предотвращения автоматизированного копирования обеспечивает исполнение принятых системой решений:

• Оповещает администраторов о подозрительной активности на сайте;

• Частично или полностью блокирует аномальную активность.

Помимо этого, именно посредством подсистемы реагирования реализуется процесс обучения подсистемы классификации пользователей (РЗ).

Пример практической реализации

Спецификации, приведенные в данной главе, были применены в БФ ВНИИАС МГТС России для обеспечения защиты web-приложения «Автоматизированной системы оперативного управления перевозками» (АСОУП) от непредусмотренных действий со стороны пользователей системы и позволяют в автоматическом режиме ограничивать доступ к оперативным и справочным данным для пользователей, применяющих автоматизированные средства копирования информации.

Приложение работает под управлением web-сервера WebSphere 4.0.1 на платформе OS/390.

Функциональное назначение web-приложения автоматизированной системы оперативного управления перевозками заключается в предоставлении оперативной информации уполномоченным

пользователям в объемах, необходимых для реализации определенных бизнес процессов.

Автоматизированная система оперативного управления перевозками предоставляет своим пользователям неограниченный доступ к следующей информации:

• Данные о подходе поездов к станциям и о составах поездов;

• Данные данных о парке вагонов на дороге, отделениях и станциях;

• Данные данных о парке контейнеров на дороге, отделениях и станциях.

Авторизованные пользователи имеют возможность без каких-либо ограничений получить доступ к любой записи. Право свободного доступа к данному сервису предоставляет только после соответствующей оплаты. В том случае, если пользователь скопирует необходимые ему данные в полном объеме, ему более не потребуется выплачивать регулярную абонентскую плату и данный сервис лишится клиента. Не исключается также возможность взаимодействия клиентов и передачи скопированных данных между собой. Этим обуславливается необходимость в защите web-приложения от автоматизированного копирования.

Web-приложение автоматизированной системы оперативного управления перевозками реализовано в соответствии с двухуровневой архитектурой:

• База данных;

• Web - интер фейс.

Бизнес-логика представлена на уровне базы данных в виде хранимых, процедур.

Для защиты данного приложения от автоматизированного копирования были применены предложенные в данной главе спецификации. Информация о поведении пользователей собиралась из протоколов работы web-сервера в режиме реального времени, на основе которой вычислялись 6 динамических параметров. Для классификации пользователей была предложена программная реализация многослойного персептрона.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В процессе исследований, выполненных в диссертационной работе, получены следующие результаты:

1. Разработана и исследована система защиты web-приложений, посредством которых осуществляется доступ к данным, от автоматизированного копирования информации;

2. Разработаны спецификации для программной реализации системы.

3. Разработана математическая модель web-сервера. Проведен анализ внешних факторов, под воздействием которых функционирует модель web-сервера.

4. Проведен сравнительный анализ поведения обычного пользователя и АСК. Определен перечень свойств модели, анализ которых позволяет различать пользователей и имитирующие пользователей программы.

5. Определен набор из 8 показателей свойств модели, позволяющих учитывать изменения необходимых свойств модели и обнаруживать различия между пользователями и имитирующими программами. Разработаны алгоритмы вычисления показателей.

6. Предложен метод классификации пользователей с возможностью самообучения на основе нейронной сети.

7. Проведен модельный эксперимент, состоящий из серии последовательных опытов:

• Моделирование поведения пользователей и АСК.

• Детальный анализ полученных результатов, сопоставление с реальными данными.

• Обучение нейронной сети и исследование относительной информативности входного вектора.

»10594

• Моделирование поведения пользователей и классификация их действий с помощью нейронной сети. • С помощью модельного эксперимента была доказана способность разработанной методики эффективно обнаруживать попытки автоматизированного копирования на начальном этапе.

Основные положения диссертации изложены в следующих работах:

1. Александров И.С. Технология обнаружения злоупотреблений со стороны пользователей информационно-справочных web-серверов // X международная научно-технической конференции студентов и аспирантов. Труды. Т. 1. Секц. 21: Технологии и инструментальные средства разработки корпоративных информационных систем. 2004. С. 375-376.

2. Александров И.С. Технология обнаружения и предотвращения злоупотреблений при копировании данных в сети // 59 научная сессия, посвященная Дню Радио. Труды. Т. 1. Секц. 4: Защита информации в системах связи. 2004.

3. Александров И.С. Поколение СиГп^е // РС^/ЕЕК/КБ - 2003. - №8. -С. 30.

4. Александров И.С. Сетевые терминаторы - профессиональный взгляд на хакерские атаки // НАЯБ'п^ОРТ - 2003. - №8. - С. 98 - 105.

РАЗРАБОТКА СИСТЕМЫ ЗАЩИТЫ WEB-ПРИЛОЖЕНИЙ ОТ АВТОМАТИЗИРОВАННОГО КОПИРОВАНИЯ ИНФОРМАЦИИ

Специальность - 05.13.13 Телекоммуникационные системы и компьютерные сети

АЛЕКСАНДРОВ Иван Сергеевич

Подписано к печати -Формат бумаги 60x90 1/16 Заказ № ЪЪО.

Объем печ. л. 1,5

Тираж 80.

Типография МИИТ, 127994 ГСП-4, г. Москва, ул. Образцова 15

Оглавление автор диссертации — кандидата технических наук Александров, Иван Сергеевич

ВВЕДЕНИЕ.

Глава 1. АНАЛИЗ СОСТОЯНИЯ ПРОБЛЕМЫ И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ.

1.1 Уязвимости web-сайтов.

1.2 Технологии разработки систем защиты сетей и сетевых приложений.

1.3 Обзор систем защиты сетей и сетевых приложений.

1.4 Задачи диссертационного исследования.

1.5 Выводы.

Глава 2. РАЗРАБОТКА МОДЕЛИ И АЛГОРИТМОВ ОБНАРУЖЕНИЯ АВТОМАТИЗИРОВАННЫХ СРЕДСТВ КОПИРОВАНИЯ.

2.1 Анализ свойств объекта защиты.

2.2 Анализ внешних факторов.

2.3 Разработка алгоритмов вычисления показателей.

2.4 Алгоритмы принятия решений.

2.5 Выводы.

Глава 3. ПОСТАНОВКА И ПРОВЕДЕНИЕ МОДЕЛЬНОГО ЭКСПЕРИМЕНТА.

3.1 Проектирование и разработка системы моделирования.

3.2 Проведение модельного эксперимента.

3.3 Выводы.

Глава 4. РАЗРАБОТКА СПЕЦИФИКАЦИЙ СИСТЕМЫ ЗАЩИТЫ КОНТЕНТА.

4.1 Подсистема мониторинга характеристик пользователя.

4.2 Подсистема регистрации пользовательских характеристик и расчета показателей.

4.3 Подсистема классификации пользователей.

4.4 Подсистема предотвращения автоматизированного копирования.

4.5 Пример практической реализации.

4.6 Выводы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Александров, Иван Сергеевич

Наиболее характерной чертой настоящего времени является стремительное технологическое развитие глобальной компьютерной сети. Этот рост сопровождается появлением проблем, для решения которых требуется научный подход. Такого рода проблемой является непредусмотренное использование отдельными пользователями функциональных возможностей информационных ресурсов в сети Интернет.

В частности, в сети стали появляться информационно-справочные ресурсы, которые на определенных условиях предоставляют своим пользователям доступ к значительным массивам информации, имеющей определенную стоимость. Достаточно высокая пропускная способность современных каналов связи позволяет заинтересованным пользователям, с помощью самостоятельно-написанных программ, совершать полное копирование информационного наполнения (контента) web-сайтов. Например, владельцы конкурирующих электронных магазинов могут быть заинтересованы в бесплатном получении описания товаров друг у друга. Как видно из примера, в подобных случаях защитить информацию, просто убрав ее из свободного доступа, нельзя.

Исследование поведения обычных пользователей web-приложений и пользователей, использующих автоматизированные средства копирования (АСК), позволит разработать методы выявления копирующих программ среди пользователей.

Целью диссертационной работы является разработка системы, которая в автоматическом режиме позволит распознавать по каким-либо признакам попытки полного или частичного копирования контента web-сайта и своевременно их блокировать. При этом система не должна препятствовать работе обычных пользователей.

Заключение диссертация на тему "Разработка системы защиты WEB-приложений от автоматизированного копирования информации"

4.6 Выводы

На основе разработанных подходов предложены спецификации к разработке системы защиты контента. Структура системы включается в себя четыре взаимодействующих друг с другом компонента, каждый из которых выполняет свою функцию:

• Мониторинг статических и динамических характеристик пользователя;

• Подсистема регистрации пользовательских характеристик и расчета показателей;

• Подсистема классификации пользователей;

• Подсистема проверки и блокирования пользователей.

Предложенные спецификации могут быть применены при реализации системы защиты на любом web-cepeepe. Обязательное требование, предъявляемое к web-серверу - соответствие стандартам HTTP 1.1. В частности, спецификации были применены в БФ ВНИИАС МПС России для обеспечения защиты web-приложения «Автоматизированной системы оперативного управления перевозками» (АСОУП) от непредусмотренных действий со стороны пользователей.

ЗАКЛЮЧЕНИЕ

В процессе исследований, выполненных в диссертационной работе, получены следующие результаты:

1. Разработана и исследована система защиты web-приложений, посредством которых осуществляется доступ к данным, от автоматизированного копирования информации.

2. Разработаны спецификации для программной реализации системы, которые, в частности, были применены в БФ ВНИИАС МПС России для обеспечения защиты web-приложения «Автоматизированной системы оперативного управления перевозками» (АСОУП).

3. Разработана математическая модель web-сервера. Проведен анализ внешних факторов, под воздействием которых функционирует модель web-сервера.

4. Проведен сравнительный анализ поведения обычного пользователя и АСК. Определен перечень свойств модели, анализ которых позволяет различать пользователей и имитирующие пользователей программы.

5. Определен набор из 8 показателей свойств модели, позволяющих учитывать изменения необходимых свойств модели и обнаруживать различия между пользователями и имитирующими программами. Разработаны алгоритмы вычисления показателей.

6. Предложен метод классификации пользователей с возможностью самообучения на основе нейронной сети.

7. Проведен модельный эксперимент, состоящий из серии последовательных опытов:

• Моделирование поведения пользователей и АСК.

• Детальный анализ полученных результатов, сопоставление с реальными данными.

Обучение нейронной сети и исследование относительной информативности входного вектора.

Моделирование поведения пользователей и классификация их действий с помощью нейронной сети.

С помощью модельного эксперимента была доказана способность разработанной методики эффективно обнаруживать попытки автоматизированного копирования на начальном этапе.

Библиография Александров, Иван Сергеевич, диссертация по теме Телекоммуникационные системы и компьютерные сети

1. Александров И.С. Технология обнаружения и предотвращения злоупотреблений при копировании данных в сети // LIX научная сессия, посвященная Дню Радио. Труды. Т. 1. Секц. 4: Защита информации в системах связи. 2004.

2. Александров И.С. Поколение Cut'n'paste // PC WEEK/RE 2003. - №8. - С. 30.

3. Александров И.С. Сетевые терминаторы профессиональный взгляд на хакерские атаки // HARD'n'SOFT - 2003. - №8. - С. 98 - 105.

4. Бадд Т. Объектно-ориентированное программирование в действии: Пер. с англ. СПб.: "Питер", 1997. - 464 с.

5. Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя: Пер. с англ. М: "ДМК", 2000, 429 с.

6. Вендров A.M. CASE-технологии. Современные методы и средства проектирования информационных систем. М.: "Финансы и статистика", 1998.- 176 с.

7. Вентцель Е.С. Теория вероятностей. 7-е изд. М.: Высш. шк., 2001. - 575 с.

8. Галатенко А.В. О применении теории вероятностей для решения задач информационной безопасности. М.: НИИСИ РАН, 1999.

9. Гамма Э., Хелм Р., Джонсон Р., Влиссидис Дж. Приемы объектно-ориентированного программирования. Паттерны проектирования: Пер. сангл. СПб.: "Питер", 2001. - 368 с.

10. Гладун В.П. Гипотетическое моделирование: методология и применение // Кибернетика и системный анализ. 1997. - N1. - С. 10-20.

11. Горбань А.Н. Обучение нейронных сетей. М.: СП ПараГраф, 1990. - 159 с.

12. Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. -Новосибирск: Наука, 1996.

13. Дальви Д., Грэй Дж. XML для разработчиков-профессионалов .NET: Пер. с англ. М.: "Лори", 2003. - 642 с.

14. Дорофеюк А.А. Алгоритмы автоматической классификации (обзор) //АиТ. 1971. №12. С.78-113.

15. Дьюсон P. SQL Server 2000 XML: Пер. с англ. М.: "Бином. Лаборатория знаний", 2003.-812 с.

16. Дюран Б., Оделл П., Кластерный анализ: Пер. с франц. М.: Статистика, 1977.- 128 с.

17. Еремеев А.П. Экспертные модели и методы принятия решений. М.: МЭИ, 1995.

18. Зыков А.А. Основы теории графов. М.: Наука, 1987. - 384 с.

19. Кауфманн Дж., Матсик Б. SQL. Программирование: Пер. с англ. М.: "Бином. Лаборатория знаний", 2002.

20. Комашинский В.И., Смирнов Д.А. Нейронные сети и их применение в системах управления и связи. М.: "Горячая Линия - Телеком", 2002. - 94 с.

21. Кофман А. Введение в теорию нечетких множеств. М.: Радио и связь, 1982.-432 с.

22. Леоненков А.В. Самоучитель UML. СПб.: "БХВ-Петербург", 2001. - 298 с.

23. Ли Ц, Джадж Д., Зельнер А. Оценивание параметров марковских моделей по агрегированным рядам: Пер. с англ. А.Д. Касавина, В.А. Потоцкого, А.С. Манделя; Под ред. Н.С. Райбмана М.:"Статистика", 1997. - 221 с.

24. Лукацкий А.В. Атаками весь мир полнится // Компьютер-Пресс 2001. -№10.

25. Лукацкий А.В. Обнаружение атак. СПб.: БХВ-Петербург, 2001. - 611 с.

26. Макдональд М. ASP.NET: Пер. с англ. СПб.: "БХВ-Петербург", 2003. -528 с.

27. Малышев Н.Г., Берштейн Л.С., Боженюк А.В. Нечеткие модели для экспертных систем в САПР. М.: Энергоатомиздат, 1991. - 136 с.

28. Мелихов А.Н., Бернштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. М.: Наука, 1990. - 272 с.

29. Минский М., Пейперт С. Персептроны. М.: Мир, 1971. - 252 с.

30. Михалевич B.C., Волкович В.Л. Вычислительные методы исследования и проектирования сложных систем. М.: Наука, 1982. - 286 с.

31. Мюллер Р. Д. Database Design for Smarties. Using UML for Data Modeling: Пер. с англ. M.: "Лори", 2002.

32. Нейлор К. Как построить свою экспертную систему. М.: Энергоатомиздат, 1991. - 287 с.

33. Обработка нечеткой информации в системах принятия решений. / А.Н. Борисов и др. М.: Радио и связь, 1989. - 304 с.

34. Петрович М.Л., Давидович М.И. Статистическое оценивание и проверка гипотез на ЭВМ М.: Финансы и статистика, 1989. - 191 с.

35. Прикладная комбинаторная математика. Сборник статей / Под ред. Э. Беккенбаха. М.: Мир, 1968. - 360 с.

36. Романовский И.В. Дискретный анализ. Изд. второе, исправленное. СПб.: "Невский Диалект", 2000. - 240 с.

37. Рунион Р. Справочник по непараметрической статистике: Пер. с англ. М.: Финансы и статистика, 1982. - 195 с.

38. Сафонов В.О. Экспертные системы интеллектуальные помощники специалистов. - СПб.: Знание, 1992. - 32 с.

39. Справочник по прикладной статистике, в 2-х томах, т. 1. / Пер. с англ.; Ред. Э. Ллойд, У. Ледерман М.: Фин. и статистика, 1989. - 510 с.

40. Справочник по прикладной статистике, в 2-х томах, т.2. / Пер. с англ.; Ред. Э. Ллойд, У. Ледерман М.: Фин. и статистика, 1990. - 526 с.

41. Статистическая обработка результатов экспериментов. / А.А. Костылев, П.В. Миляев, Ю.Д. Дорский и др. Л.: Энергоатомиздат, 1991. - 304 с.

42. Сэнджив Р., Сэнтил Н., Серби М. Microsoft ADO.NET. Разработка профессиональных проектов: Пер. с англ. СПб.: BHV, 2003. - 768 с.

43. Темплман Дж, Виттер Д. .NET Framework. Библиотека классов: Пер. с англ. М.: "КУДИЦ-ОБРАЗ", 2003. - 672 с.

44. Троелсен Э. С# и платформа .NET: Пер. с англ. СПб.: "Питер-Пресс",2002. 795 с.

45. Уоткинз Д., Хаммонд М. Программирование на платформе .NET: Пер. с англ. М.: Вильяме, 2003. - 368 с.

46. Устенко А.С. Основы математического моделирования и алгоритмизации процессов функционирования сложных систем, 2003. http ://ustenko. fromru. com.

47. Форсайт P. Экспертные системы. Принципы работы и примеры.- М.: Радио и связь, 1987. 223 с.

48. Хейес-Рот Ф., Уотермен Д., Ленат Д. Построение экспертных систем: Пер. с англ. под ред. В.Л. Стефанюка М.: Мир, 1987. - 441 с.

49. Ховард М., Лебланк Д. Защищенный код: Пер. с англ. M.:Microsoft Press,2003.-671 с.

50. Anderson J.P., Computer Security Threat Monitoring and Surveillance, Co., Fort Washington, 1980.

51. Bace R., Mell P. Special Publication on Intrusion Detection Systems, Tech. Report SP 800-31, National Institute of Standards and Technology, Gaithersburg, Md., 2001.

52. Cannady J. Нейросетевые технологии в диагностике аномальной сетевой активности: Nova Southeastern University, 1999. http://vlasov.iu4.bmstu.ru/primer/ssl/ssl 1 .htm.

53. CERT/CC Statistics 1988-2003, 2003. http://www.cert.org/stats/certstats.html.

54. CSI, 2003. http://www.gocsi.com/homepage.shtml.

55. Curry D., Debar H. Intrusion Detection Message Exchange Format: Extensible Markup Language (c99) Document Type Definition, 2001.

56. Cyber crime bleeds U.S. corporations, survey shows; financial losses from attacks climb for third year in a row // CSI Press release, 2003. http://www.gocsi.com/press/20020407.html.

57. Debar H., Dacier M., Wespi A. A Workbench for Intrusion Detection Systems. IBM Research Report RZ 2998. IBM Research Division, 1998.

58. Denning D.E., An Intrusion Detection Model, IEEE Trans. Software Eng., vol. 13, no. 2, 1987.

59. Ghosh A.K., Wanken J., Charron F. Detecting Anomalous and Unknown Intrusions Against Programs, Proc. Annual Computer Security Application Conference (ACSAC'98), IEEE CS Press, Los Alamitos, Calif., 1998.

60. Farshchi J., Statistical-Based Intrusion Detection: Security Focus, April 2003.

61. Ugun K., Kemmerer R.A., Porras P.A. State Transition Analysis: A Rule-Based Intrusion Detection System, IEEE Trans. Software Eng. vol. 21, no. 3, 1995.

62. Ко С., Ruschitzka M., Levitt K. Execution Monitoring of Security-Critical Programs in Distributed Systems: A Specification-Based Approach, Proc. 1997

63. EE Symp. Security and Privacy, IEEE CS Press, Los Alamitos, Calif., 1997.

64. Lindqvist U., Porras P.A. Detecting Computer and Network Misuse with the Production-Based Expert System Toolset, IEEE Symp. Security and Privacy, IEEE CS Press, Los Alamitos, Calif., 1999.

65. Michael Sobirey's Intrusion Detection Systems page, 2003. http://www-rnks. informatik.tu-cottbus .de/~sobirey/ids .html.

66. Paxson V. A System for Detecting Network Intruders in Real-Time, Proc. Seventh Usenix Security Symp., Usenix Assoc., Berkeley, Calif., 1998.

67. Ping Death, 2003. http://www.sophist.demon.co.uk/ping.

68. Roesch M. Snort-Lightweight Intrusion Detection for Networks, Proc. Usenix Lisa '99 Conf., Usenix Assoc., Berkeley, Calif., 1999.

69. SCD business continuity page, 2003. http://scd.das.state.or.us/bcp/bcp.htm.

70. SCD e-commerce page, 2003. http://scd.das.state.or.us/AR/BITS.htm.

71. SCD fraud page, 2003. http://scd.das.state.or.us/thefraudpage.htm.

72. SCD internal controls and risk assessment page, 2003. http://scd.das.state.or.us/riskassesment.htm.

73. Spylog: сервис Интернет-статистики, 2003. http://www.spylog.ru.

74. Wagner D. Static analysis and computer security: New techniques for software assurance. PhD thesis, University of California at Berkeley, 2000.