автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Модель и метод градуированной фильтрации "спама"

кандидата технических наук
Семенова, Мария Александровна
город
Санкт-Петербург
год
2009
специальность ВАК РФ
05.13.19
Диссертация по информатике, вычислительной технике и управлению на тему «Модель и метод градуированной фильтрации "спама"»

Автореферат диссертации по теме "Модель и метод градуированной фильтрации "спама""

На правах рукописи

Семенова Мария Александровна

МОДЕЛЬ И МЕТОД ГРАДУИРОВАННОЙ ФИЛЬТРАЦИИ «СИАМА»

Специальность 05.13.19. Методы и системы защиты информации, информационная безопасность

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2009

- 3 ДЕН 2009

003486661

Работа выполнена на кафедре «Безопасные информационные технологии» Государственного образовательного учреждения высшего профессионального образования «Санкт-Петербургского государственного университета информационных технологий, механики и оптики» (ГОУВПО «СПб ГУ ИТМО»).

Научный руководитель: Доктор технических наук, профессор

Осовецкий Леонид Георгиевич

Официальные оппоненты: Доктор технических наук, профессор

Фетисов Владимир Андреевич

Кандидат технических наук, профессор Звонов Валерий Степанович

Ведущая организация: ЗАО «Эврика» г. Санкт-Петербург

Защита состоится " 15 " декабря 2009 г. в 4Д/часов 0& минут на заседании диссертационного совета Д 212.227.05 при Санкт-Петербургском Государственном университете информационных технологий, механики и оптики, по адресу: 101197, Санкт-Петербург, Кронверский пр., д. 49.

С диссертацией можно ознакомиться в библиотеке СПб ГУ ИТМО.

Автореферат разослан ноября 2009г.

Учёный секретарь / /

диссертационного совета Д212.227.05 л У

кандидат технических наук, доцент ^ '-у В .И. Поляке

Общая характеристика работы

АКТУАЛЬНОСТЬ ТЕМЫ

Распространение писем, в число которых входит и большой объем нежелательной корреспонденции («спама»), приняло в сети «Интернет» угрожающие размеры и стало серьезно мешать работе этой сети. В среднем прием «спама» достигает до 100 писем в день. В настоящее время создание модели фильтрации, которая бы позволила снизить ошибочные срабатывания фильтра, представляет собой самую трудную часть фильтрации. Итак, центральная технология для фильтрации сообщения - правильная оценка количества слов, по которым будут производиться дальнейшие расчеты «спамерности» поступившего сообщения. В зависимости от того, какие данные, будут содержаться по данным словам в частотных словарях, будет зависеть и результат фильтрации.

Таким образом, работа, посвященная разработке модели и метода градуированной фильтрации «спама», АКТУАЛЬНА и представляет научный и практический интерес.

Значимость и актуальность предопределили выбор направления исследования, цели и задачи работы.

ЦЕЛИ И ЗАДАЧИ ДИССЕРТАЦИИ

Целью диссертационной работы является разработка модели и метода градуированной фильтрации «спама» для улучшения качества и увеличения достоверности фильтрации нежелательной корреспонденции.

Поставленная цель исследования определяет необходимость решения нижеследующих основных задач.

1. Проведение анализа предметной области для установления существующих и разрабатываемых подходов к вопросу «антиспамовой» защиты.

2. Определение критериев качественного функционирования системы фильтрации нежелательной корреспонденции.

3. Создание модели и метода фильтрации нежелательной корреспонденции, которые удовлетворят выбранным критериям. .....

4. Создание инструментально-технологического комплекса, предоставляющего возможность использования предложенного метода фильтрации «спама».

5. Проведение исследования экспериментального использования предложенных модели и метода градуированной фильтрации «спама».

В соответствии с целями и задачами диссертационного исследования определены его предмет и объект.

ПРЕДМЕТ ИССЛЕДОВАНИЯ -

Предметом исследования диссертационной работы является комплекс вопросов, связанных с разработкой модели и метода фильтрации нежелательной корреспонденции, а также оценка использования данных модели и метода.

ОБЪЕКТ ИССЛЕДОВАНИЯ

В качестве объекта исследования выступают современные технологии фильтрации «спама».

МЕТОДОЛОГИЧЕСКАЯ ОСНОВА ИССЛЕДОВАНИЯ Методологической основой исследования являются труды отечественных ученых и специалистов по проблемам национальной, экономической и информационной безопасности, руководящие документы Гостехкомиссии России, законодательные акты Российской Федерации, энциклопедическая и справочная литература, материалы периодической печати, а также опыт организации работы по обеспечению «антиспамовой» защиты.

ОСНОВНЫЕ НАУЧНЫЕ ПОЛОЖЕНИЯ. ВЫНОСИМЫЕ НА ЗАЩИТУ

1. Модель градуированной фильтрации нежелательной корреспонденции («спама»);

2. Метод градуированной фильтрации «спама» отличающийся от существующих методов новым способом нахождения количества слов для оценки письма и улучшенным способом вычисления коэффициентов «спамерности»;

3. Критерии качественного функционирования системы фильтрации нежелательной корреспонденции;

4. Результаты сравнительного анализа использования модели и метода градуированной фильтрации «спама».

НАУЧНАЯ НОВИЗНА И ТЕОРЕТИЧЕСКАЯ ЗНАЧИМОСТЬ Научная новизна и теоретическая значимость работы определяются авторской разработкой модели и метода градуированной фильтрации нежелательной корреспонденции и заключаются в следующем:

1. Определение критериев качественного функционирования автоматизированной системы фильтрации «спама».

2. Разработка новой модели градуированной фильтрации нежелательной корреспонденции («спама»), позволяющей уменьшить количество ложных тревог и пропуска «спама».

3. Разработка нового метода градуированной фильтрации нежелательной корреспонденции («спама»), который, в отличие от известных подходов, позволяет повысить качество оценки данных за счет учета следующих параметров (количества писем, в которых встречались слова определенной категории; частоты использования слов, в письмах

определенной категории; использования слов, впервые встретившихся в проверяемом письме и не существовавших до этого в базе). 4. Разработка нового способа нахождения эвристического коэффициента (основанного на количестве слов для анализа письма) и оценки нахождения «спама» с учетом нового расчета коэффициентов «спамерности».

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ

Практическая ценность работы состоит в том, что разработанные модель и метод градуированной фильтрации «спама» позволяют оценить уровень защиты от «спама», что было подтверждено проведенными исследованиями и практическими применениями полученных результатов в рамках работ на 3 различных серверах. Практическую ценность также определяет возможность использования разработанного инструментально-технологического комплекса, реализующего представленный метод градуированной фильтрации «спама» и одобренного пользователями почтовых систем.

Материалы диссертации могут быть использованы при разработке методических материалов для учебного процесса в вузах соответствующего профиля.

АПРОБАЦИЯ РАБОТЫ

Основные положения диссертации докладывались на научно-практических конференциях Санкт-Петербургского государственного университета информационных технологий, механики и оптики.

ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ

Результаты работы использованы в учебном процессе кафедры БИТ СПбГУ ИТМО по специальности 090103 по дисциплинам «Введение в специальность» и «Теория информационной безопасности и методология защиты информации» и кафедры «Прикладной информатики» AHO ВПО «Международного банковского института» по специальности 351400 по дисциплине «Прикладная информатика в экономике».

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

По материалам диссертации опубликованы шесть печатных работ, в том числе, три входящие в список рекомендованных ВАК для кандидатских диссертаций.

СТРУКТУРА И ОБЪЕМ ДИССЕРТАЦИИ

Диссертация состоит из введения, четырех глав, заключения, списка литературы, списка публикаций, приложений. Материал изложен на 132 страницах машинописного текста, содержит 36 рисунков и 10 таблиц, список литературы состоит из 59 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы и научная новизна, сформулированы цели и задачи диссертации, аргументируется практическая

ценность полученных научных результатов и представлены основные положения, выносимые на защиту.

В первой главе рассмотрены системный подход к обеспечению фильтрации нежелательной корреспонденции, наиболее распространенные виды «спама», способы распространения и причины возникновения почтового «спама», а также причиняемый от этого ущерб. Кроме того, описаны существующие алгоритмы фильтрации «спама» используемые в «антиспамовой» защите, их недостатки.

Самый большой поток «спама» распространяется через электронную почту (e-mail). В настоящее время доля вирусов и «спама» в общем трафике электронной почты составляет по разным оценкам 70-95%.

Причиняемый вред, заключается в том что «спам» может выступать переносчиком троянских программ и компьютерных вирусов, так как злоумышленник делает рассылку этих программ с целью получения доступа к компьютерным системам, выведения их из строя или получения конфиденциальных данных.

Далее описаны методы борьбы с нежелательной электронной корреспонденцией.

В последнее время все больше пользователей в борьбе с нежелательной корреспонденцией используют «антиспамовые» фильтры.

Во многих почтовых программах в последнее время кроме стандартных папок появилась такая папка, как «спам», в которую должна отсортировываться вся нежелательная корреспонденция. Эта сортировка возможна как вручную, так и при помощи самодельной системы фильтров.

ПО автоматизированной фильтрации используют два основных подхода:

■ анализируется содержание письма и делается вывод, «спам» это или нет;

■ применяются различные методы для опознавания отправителя как «спаммера», не заглядывая в текст письма.

Проблемой при автоматизированной фильтрации является то, что она может по ошибке отмечать полезные сообщения как «спам». Поэтому многие почтовые сервисы не стирают те сообщения, которые фильтр счёл «спамом», а помещают их в отдельную папку.

Кроме того, в данной главе рассмотрены методы автоматизированной фильтрации нежелательной корреспонденции.

Существует множество алгоритмов фильтрации на основе анализа содержания письма. Некоторые реализуются в программных средствах, которые на сервере или после «скачивания» писем на компьютер пользователя анализируют заголовки сообщений, их содержание.

В основе метода статистической фильтрации лежит механизм разбиения входящих писем на слова («токены»). Берется архив старых вручную

отсортированных сообщений и передается программе обучения. Она составляет частотные словари для каждой папки сообщений.

Когда словари заполнены, вычисление вероятности принадлежности конкретного нового письма к тому или иному типу производится по схеме представленной на рисунке 1.

Рис.1. Схема процесса фильтрации спама на основе Байесовского классификатора

Вычисление вероятности принадлежности конкретного нового письма к тому или иному типу производится по соотношению Байеса для каждого слова этого нового письма. Суммированием и нормализацией вероятностей слов получают вероятность для всего письма. Как правило, вероятность принадлежности к одному из типов намного выше, чем к другим. Вот в эту папку сообщение и отправляется.

В других существующих алгоритмах для расчета «спамерности» применяется приведенная выше методика с использованием следующих правил:

— для анализа сообщений используются не все слова, а 15, 25 или 27 слов, для которых коэффициент «спамерности» слов наиболее сильно отклоняется от нейтрального значения 0,5;

— если ранее слово встречалось менее чем в пяти письмах, оно игнорируется;

— впервые встретившимся словам в некоторых алгоритмах присваиваются коэффициенты 0.5 или 0.4.

Преимущества методов автоматической фильтрации (использующих фильтры) по сравнению с другими методами фильтрации «спама» заключаются в следующем:

— просмотр полного нежелательного сообщения, а не только ключевых слов или известных подписей;

— непрерывное изучение нового «спама» и новых приемлемых сообщений;

— набор данных уникален для каждой организации;

— многоязычность.

При всех явных достоинствах фильтров, описанных в данной главе, существуют и некоторые недостатки, такие как: необходимость переобучения, ложные срабатывания и другие (вызванные ограниченным количеством слов). Различают два вида ложных срабатываний: это неверное зачисление письма в «спам» и неверное причисление письма к «не-спаму».

Во второй главе описаны разработанные модель и метод градуированной фильтрации «спама», в которых для расчета общей оценки письма, используется новый способ нахождения количества слов для оценки письма и новый способ вычисления коэффициентов «спамерности», позволяющие улучшить качество фильтрации. Данный метод позволяет накопить достаточно информации для эффективной фильтрации электронной почты и тем самым устранить в какой-то степени вышеописанные недостатки фильтрации.

Сформулированы исходные положения метода градуированной фильтрации «спама».

Данный метод нацелен на решение следующих двух проблем.

1. Повышение качества оценки данных (градуирования), т.е. проблемы, связанной с градуированием соотношения «спама» и «не-спама».

2. Анализ «токенов», впервые встретившихся в проверяемом письме и не существовавших до этого в базе.

В основе метода градуированной фильтрации лежит механизм разбиения входящих писем на слова, на основе которых составляются частотные словари. Ниже представлена схема составления частотных словарей по методу градуированной фильтрации «спама» (см. рис. 2)

Рис. 2 Схема заполнения частотных словарей по методу градуированной фильтрации «спама»

В процессе заполнения частотных словарей по методу градуированной фильтрации «спама» вычисляются следующие значения: частота использования слов в письмах «спама» («не-спама»); относительная частота появления данного слова в словаре «спама» («не-спама»); коэффициент «спамерности» слова; количество писем «спама» («не-спама»), в которых встретилось данное слово.

Когда словари заполнены, фильтрация на основе метода градуированной фильтрации «спама» производится по схеме представленной на рисунке 3.

гаге ом

Письмо р»пйи»>*«теж ил сяе*л<Ут«ж«к№.С>

* котлр*» гстрвтапосъ >-«• ото» о — жсшмчвство писем «в»-спел «х-,я хсторых »<гтр«типось слово

¿■яти»«*»* •седом»'« я

¡¿^ — лоаффигр<»кт «еп*м«рности>> ¿-го слов*

м;зфф*п®«ит «не-еячмерлостш» мч> слзд»

Рлсч*т среднего количества сяд®, половил я * указанных ООЛМОВ«Т«Ла»«*3»тр»ЧД, ДЛЯ Г>ОТОр*1Х Рй ИЯК&ЬВГ* СИЛЬНО сгоэмжявтся сгтнвйгарммгого зи*чмос»0.5

Оычмслгю«« сукемаркьакоаффицмежго» «гт»л*р«10ет*1» и л«*.*гр**>спи> Апа елав, гъгпгсленких м« предыдущем шаг*

Бьла1спвго1» обгц«й отпоен (Р) лисьм* с подстзяо»*ой

коэффициенте» «епжссрмотс» и ¿'»«-ел«мернести» ---

3:

Жл

Пасмо тми «спамвж»

Рис.3. Схема процесса фильтрации писем на основе метода градуированной

фильтрации «спама»

Каждое новое письмо, поступающее через фильтр, разбивается на слова. Далее эти слова анализируются с помощью частотных словарей с целью определения исторических данных (данных, находящихся в частотных словарях). Если же такого слова не было ни в одном из словарей, то автоматически устанавливается коэффициент, равный 0,5, а по мере накопления статистики это значение будет выходить на свой естественный уровень. После этого необходимо произвести выборку слов, по которым будут производиться дальнейшие расчеты. Согласно методу градуированной фильтрации «спама» это кол-во слов вычисляется как среднее количество слов, для которых коэффициент «спамерности» слова попадает в указанный пользователем интервал, т.е. наиболее сильно отличается от нейтрального значения 0,5. После этого рассчитывается суммарный коэффициент «спамерности» (коэффициент, определяющий вероятность того, что письмо является «спамом») и коэффициент «не-спамерности» для слов определенных на предыдущем шаге. Затем вычисляется общая оценка письма, по соотношению Байеса, но с подстановкой новых вероятностей нахождения «спама» в письме. После этого выполняется оценка письма, по шкале, заданной пользователем.

В данной главе определены критерии качественного функционирования системы фильтрации «спама»:

где: Ро - общее количество писем; Pc - реальное кол-во писем «спама»; Рсо ~ найденное кол-во писем «спама»; Рц - реальное кол-во писем «не-спама»; Реи ~ кол-во нормальных писем зачисленных в «спам» (ложные тревоги);

— К1 представляет собой Кси- количество ложных тревог (письма ошибочно классифицированные как «спам»)

— К2 представляет собой Ксо - количество пропущенных писем «спама»

— К3- качество фильтрации (зависимость результата фильтрации от фактора ложного выявления и пропуска «спама»);

Суть метода фильтрации состоит в применении математических соотношений, приведенных ниже, к входящим письмам. Эти соотношения позволяют вычислить вероятность успешного совершения некоторого события на основании статистики совершения этого события в прошлом.

Применительно к «спаму», принцип работы классификатора построенного на основе метода градуированной фильтрации можно описать следующими соотношениями:

и

Пусть письмо содержит к «токенов» с коэффициентами «спамерности» отдельных слов Ps\—Psk и коэффициентами «не-спамерности» отдельных слов р^—Рш •

Тогда общая оценка письма может быть вычислена по следующим соотношениям: р _ S v К цч

S+G '

где: Р - вероятность того, что сообщение является «спамом», S - суммарный коэффициент «спамерности» сообщения, G - суммарный коэффициент «не-спамерности» сообщения, К - заданный пользователем порог [0,1].

Для вычисления вероятностей psi и pisi используется так

называемый процесс «обучения», во время которого анализируются заранее классифицированные письма.

Подсчет «спамерности» и «не-спамерности» в общем случае осуществляется по следующим соотношениям:

5 =Psi *Ps2 *Аз *-*Л<м> *Л*(2); G = рм *pds2 *pds3 *...*рМЫ) *pdsk{3)

Для корректного соотношения «спама» и «не-спама» и в дальнейшем оценки категории письма (градуирования) будем вычислять «спамерность» по соотношению вычисления вероятностей, которое при нулевой частоте использования дает нейтральный результат, а при пересчете всех величин после определения категории письма, выйдет на свой естественный уровень.

Коэффициенты «спамерности» и «не-спамерности» слов из рассматриваемого письма будут рассчитываться следующим образом:

Psi - --: Г KV ' Pdsi - „ ( s Р)

где: nsi - количество ранее обработанных сообщений «спама» со словом /, ndsi - количество ранее обработанных сообщений «не-спама» со словом /, pdsi - коэффициент «не-спамерности» для i - го слова, psi -

коэффициент «спамерности» для / - го слова.

В методе градуированной фильтрации «спама» также предусмотрен расчет относительной частоты появления данного слова в словарях, т.е. степень возможности появления данного слова в конкретном словаре. Для анализа полученных данных пользователем, предусмотрена визуализация данных, отражаемая в относительной частоте появления данного слова в словарях.

Данная величина рассчитывается по следующему соотношению:

УЛ

8+ +5

У <Ьк

¡кк

3* +<5

<Ьк

где: у л - относительная частота появления к -го слова в словаре

«спама»; - относительная частота появления к -го слова в словаре

«не-спама»; Знк - частота к -го слова в письмах «спама»; - частота

к -го слова в письмах «не-спама».

Помимо математических соотношений для расчета общей оценки письма, описаны правила, используемые при фильтрации сообщений, заключающиеся в следующем:

> для анализа сообщений используются среднее количество слов, наиболее сильно отличающихся от значения 0,5;

> новое слово, не встречавшееся ранее, получает стартовую «спамерность» 0,5 за счет использования вышеприведенного соотношения (4);

> используются «токены» с малой частотой нахождения в сообщениях, т.к. их «спамерность» вычисляется по соотношению (4).

Процесс вычисления количества слов участвующих в дальнейших расчетах коэффициентов «спамерности»/ «не-спамерности» и определения категории письма представлен на рисунке 4.

Рис.4. Процесс вычисления количества слов участвующих в дальнейших расчетах по методу градуированной фильтрации «спама»

Далее приведены обоснования использования модели и' метода градуированной фильтрации «спама».

Данный метод фильтрации позволяет автоматически настроить фильтры согласно особенностям индивидуальной переписки, а при обработке учитывает признаки как «плохих», так и «хороших» фильтров.

Статистика архива позволяет автоматически анализировать почтовый поток и периодически корректировать работу уже созданного фильтра. Этот факт позволяет назвать данную систему самообучающейся. Благодаря этому свойству системы практически исключены ошибочные срабатывания фильтра и, следовательно, потери важной информации.

Кроме того, в данной главе был проведен анализ оценок нахождения «спама» с помощью различных алгоритмов с учетом эвристического коэффициента. В результате данного анализа было подтверждено, что ограниченное количество слов для оценки не может дать точного результата. Вместе с тем, произведен анализ оценок нахождения «спама» посредством различных алгоритмов с учетом использования различных способов расчета коэффициентов «спамерности». В результате анализа полученных результатов на этапе выбора эвристического коэффициента, в зависимости от способов расчета коэффициентов «спамерности», можно говорить о том, что при использовании алгоритмов, в которых игнорируются впервые встретившиеся слова, невозможно получить наиболее точную оценку письма. Это объясняется тем, что при расчете количества слов для оценки письма будет использоваться гораздо меньшее количество слов.

В третьей главе описан имитационный технологический комплекс поддержки метода градуированной фильтрации «спама».

Описана структура, реализующая разработанные алгоритмы.

Особенностью технологии автоматизированной фильтрации «спама» является возможность индивидуальной автоматической настройки фильтра, что является важным преимуществом, поскольку разные люди или же компании используют в электронной переписке разную лексику.

Основными этапами работы с инструментально-технологическим комплексом «контр-спам» являются нижеследующие.

1. «Обучение» автоматизированной системы фильтрации «спама».

2. Работа с автоматизированной системой фильтрации «спама».

Автоматизированная система фильтрации «спама» определяет частоту

вхождения слов и фраз в каждом почтовом сообщении и ведёт базу данных частотных словарей, на основе которых определяет вероятность принадлежности сообщения к «спаму». После обработки каждого электронного сообщения обновляются частотные словари. За счет этого выполняется динамическая подстройка автоматизированной системы фильтрации к постоянно меняющемуся потоку сообщений.

Процесс заполнения частотных словарей по методу градуированной фильтрации «спама» состоит из следующих этапов:

1. выделение писем относящихся к «спаму»(«не-спаму»);

2. разделение указанных писем на слова;

3. подсчет количества одинаковых слов, встретившихся в письмах категории «спама»(«не-спама»);

4. расчет относительной частоты появления данного слова в словаре «спам»(«не-спама»);

5. расчет коэффициента «спамерности» слова;

6. подсчет количества писем, в которых встретилось слово определенной категории.

Процесс фильтрации по методу градуированной фильтрации «спама» состоит из следующих этапов:

1. сообщение разделяется на отдельные слова;

2. сравнение слов, находящихся в фильтруемом письме, с частотными словарями для определения его исторических данных;

3. определение количества слов, по которым будет произведена оценка письма;

4. расчет суммарного коэффициента «спамерности» и «не-спамерности» для слов, выбранных в пункте 3;

5. оценка письма;

6. определение, к какой категории отнести письмо на основании шкалы заданной пользователем («порог для оценки письма») и значения оценки письма, полученной в пункте 5.

В данном разделе приведены функциональные возможности работы инструментально-технологического комплекса «контр-спам».

Далее представлен механизм управления автоматизированной системой фильтрации «спама».

Основу механизма управления составляет заполнение частотных словарей по методу градуированной фильтрации «спама», которое в свою очередь состоит из ряда процессов, позволяющих выполнить данную функцию. После того, как будут заполнены частотные словари, и перед тем, как переходить непосредственно к фильтрации сообщений, необходимо задать порог коэффициента «спамерности» слова, для определения количества слов для оценки письма, а также «порог для оценки письма», т.е. значения по шкале от [0; 1], в пределах которых будет оцениваться категория письма. После этого можно переходить ко второму основному процессу, т.е. к фильтрации входящего потока сообщений по методу градуированной фильтрации «спама».

Кроме того, приведено описание интерфейсов: механизма управления «обучением» частотных словарей (рис. 5а), механизма управления

фильтрацией входящего потока сообщений (рис 56). А также описан механизм управления корректировкой частотных словарей._

о^-, • Г«,,«»««; час^г^слооори С-Сри» 1кг**»»»« ■¡к*<,т>*'.яхяу*

П..,» - К.. и».»:**«

ц: с.т.оаш«»«й а/ а

1 Зягруыггп 1 ! Сгх*рлм.<то ! [ ОПз-«пн»«> ] | Г1ч>«т<*ч- • 0*«-.! 1» | :

не■СПАМ Путь к СПММГ4» ЫОТ5РАМО>с'м<ед>-5.1>« йс4Ж.Я?Ь1 удесг-ьо слс*«м СЗ ' ■ " - '

( а»**»«* 5 | с.*,»,««. 1 } О-Суч«,.«.- 1 ( Оч^-,«,* 5 Есдао пис«*< О

а^эго югтгх а * ___________ . ......

а) «обучение» б) фильтрация

Рис.5. Интерфейсы механизма управления «обучением» и механизма фильтрацией входящего потока сообщений

В четвертой главе проведено экспериментальное исследование модели и метода градуированной фильтрации «спама».

Целью экспериментального исследования являлась проверка эффективности использования модели и метода градуированной фильтрации «спама».

Задачи экспериментального исследования сводились к следующему:

1) проверка опытно-экспериментальным путем эффективности использования предложенной во второй главе модели и метода градуированной фильтрации «спама»;

2) разработка рекомендаций по работе с автоматизированной системой фильтрации «спама».

В ходе исследования эффективности использования предложенных модели и метода градуированной фильтрации «спама» возникла необходимость отслеживания динамики изменения значений величин в частотных словарях, степени корректной фильтрации входящих сообщений в зависимости от различных устанавливаемых значений порога коэффициента «спамерности» слова и порога оценки письма при работе с автоматизированной системой фильтрации «спама».

Произведено исследование динамики изменения значений величин в частотных словарях инструментально-технологического комплекса «контр-

спам» на одинаковом количестве писем, а также произведен анализ результатов исследования.

Результаты исследования представлены на

рис. 6. По горизонтали откладывается количество слов в рассматриваемом письме, а по вертикали Р, т.е. вероятность того, что слово является «спамом»/ «не-спамом».

1 Я" —часто встречающиеся слова в словаре"сиама" часто встречающиеся слова в словаре "не-спама" ♦ редко встречающиеся слова 8 словаре "спама" —-К—'редко встречающиеся слова в словаре "не-спама"

номера писем

Рис.6. Заполнение частотных словарей для равного количества писем для словаря «спама» и «не-спама»

Опытно-экспериментальные исследования подтвердили, что с увеличением числа писем определенной категории изменяется соотношение относительной частоты для всех слов, находящихся в рассматриваемом письме и частотных словарях, а также значение вероятности принадлежности слов к определенным категориям.

Однако бывают случаи, когда значения вероятности снижается, а потом вновь увеличивается (случай "редко встречающиеся слова в словаре «спама»" на представленном рисунке), а это происходит из-за того, что после обработки каждого письма все его значения пересчитываются и при рассмотрении последующего письма рассматриваемое слово может встретиться чаще или реже, чем в предыдущем письме. Но в конечном итоге слова, относящиеся к «спаму»/ «не-спаму» будут преобладать в письмах данной категории.

Далее проведено исследование степени корректной фильтрации входящего потока в инструментально-технологическом комплексе «контр-спам» в зависимости от значения порога коэффициента «спамерности» слова на базе трех различных серверов, а также проведен анализ результатов экспериментального исследования.

Результаты исследования фильтрации входящего потока сообщений представлены на рис. 7. Всего входящих писем 419, 209 из которых являлись «спамом», 210 «не-спамом». Пороги коэффициента «спамерности» были установлены: начальный - 0.4; конечный - 0.6, а пороги для оценки письма равными: начальный - 0.4; конечный - 0.6

не

определено ложные тревоги 2%

" не-спама" 1°Уо пропуск

не - "спама"

определено 3°/Ь

"спама" . ласг^ч

о% Ш найдено

Ж ВзЩ ■ • ; Д "спама"

нацдено Щ Л 7°/Ь

"не-спама" «и У

47%

Рис. 7. Процентное соотношение найденного «спама» и «не-спама» автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от порога коэффициента «спамерности»

По результатам анализа результатов на этапе фильтрации входящего потока сообщений можно говорить о том, что система во всех трех случаях не смогла распознать лишь 1% писем, а количество ложных срабатываний и пропуска «спама» оказалось равным 5%.

Также проведено исследование степени корректной фильтрации входящего потока сообщений в инструментально-технологическом комплексе «контр-спам» в зависимости от значения порога для оценки письма.

Результаты исследования фильтрации входящего потока сообщений представлены на рис. 8. Всего входящих писем 419, 209 из которых являлись «спамом», 210 «не-спамом». Пороги коэффициента «спамерности» были установлены: начальный - 0.4; конечный - 0.6, а пороги для оценки письма равными: начальный - 0.35; конечный - 0.65.

не пропуск

определено "спама"

"не-спама" 3% 1 %

найдено "не-спама" 46%

ЛОЖНЫХ

тревог 3%

найдено "слама"

46%

не

опре^еттено "спама" 1 %

Рис. 8. Процентное соотношение найденного «спама» и «не-спама» автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от порога для

оценки письма

По результатам анализа полученных результатов на этапе фильтрации входящего потока сообщений можно говорить о том, что система во всех трех случаях не смогла распознать лишь 1 % писем, а количество ложных срабатываний и пропуска «спама» оказалось равным 6 %.

Изменение порога коэффициента «спамерности» слов, а также порога для оценки письма приводит, в основном, к увеличению количества писем, у которых невозможно определить категорию.

Результаты исследования фильтрации входящего потока сообщений с измененным порогом коэффициента «спамерности» представлены на рис. 9. Всего входящих писем 117, 53 из которых являлись «спамом», 64 «не-спамом». Пороги коэффициента «спамерности» были изменены на: начальный - 0.2; конечный - 0.8.

ложные тревоги пропуск"спама

3% 2%

не определено

"не-спама" —

не определено — ^^ найдено

"спама" ------_____»1 --"спама"

10% (||11И111~^ |р1|| 33%

найдено '^чДВДДри

"не-спама" - —

■43%

Рис. 9. Процентное соотношение найденного «спама» и «не-спама» автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от измененного порога коэффициента «спамерности»

Результаты исследования фильтрации входящего потока сообщений с измененным порогом оценки письма представлены на рис. 10. Всего входящих писем 117, 53 из которых являлись «спамом», 64 «не-спамом». Пороги оценки письма были изменены на: начальный - 0.2; конечный - 0.8.

M© определено ложные _ "не-спама" " тревоги 3% 6% пропуск - "спама"

не найдено

определено " "спама"

"спама" -—--------

9%

найдено ^^^Н

"не-спама"

Рис. 10. Процентное соотношение найденного «спама» и «не-спама» автоматизированной системой фильтрации «спама», использующей модель и метод градуированной фильтрации «спама» в зависимости от измененного порога для оценки письма

По результатам анализа полученных результатов на этапе фильтрации входящего потока сообщений в зависимости от изменения порогов коэффициента «спамерности» увеличилось количество писем с неопределенной категорией с 1% до 17% для «хороших» писем и с 0% до 23% для писем «спама», а в случае изменения порога оценки письма можно говорить о том, что увеличилось количество писем с неопределенной категорией с 1% до 11% для «хороших» писем и с 1% до 19% .

Оптимальными считаются следующие значения: начальный порог варьируется 0.3 - 0.4; конечный порог варьируется 0.6-0.7.

По результатам проведенного эксперимента на этапе фильтрации входящего потока сообщений можно говорить о том, что в ходе эксперимента были получены результаты, подтверждающие целесообразность использования модели и метода градуированной фильтрации «спама».

Опытно-экспериментальные исследования также подтвердили, что с изменением порогов «спамерности» слов, а также порогов оценки письма результаты существенно изменяются. Кроме того, в ходе исследования были определены диапазоны значений порогов коэффициентов «спамерности» слов и порогов оценки письма, в результате использования которых автоматизированная система фильтрации «спама» достигает наилучших результатов.

В ЗАКЛЮЧЕНИИ ПРИВЕДЕНЫ ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ:

1. Проведен анализ предметной области и установлены существующие и разрабатываемые подходы к вопросу «антиспамовой» защиты.

2. Определены критерии качественного функционирования системы фильтрации нежелательной корреспонденции.

3. Разработана модель градуированной фильтрации нежелательной корреспонденции («спама»), позволяющая снизить долю пропущенного «спама» и ложных тревог.

4. Предложен метод фильтрации нежелательной корреспонденции, позволяющий улучшить качество фильтрации за счет нового способа нахождения эвристического коэффициента и нового способа расчета коэффициентов «спамерности».

5. Разработан инструментально-технологический комплекс, предоставляющий возможность использования предложенного метода фильтрации «спама».

6. Проведено исследование экспериментального использования предложенной модели и метода градуированной фильтрации «спама». В ПРИЛОЖЕНИЯХ ПРИВЕДЕНЫ ИСХОДНЫЕ ТЕКСТЫ

КОМПЛЕКСА И АКТЫ О ВНЕДРЕНИИ.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

В.А. Семёнов, М.А. Семёнова, М.В. Лекомцева статья «Организация борьбы с преступлениями в сфере банковского кредитования» // Научно-технический Вестник СПбГУ ИТМО. Выпуск 40. Научная школа «Информационная безопасность, проектирование, технология элементов и узлов компьютерных систем». Труды молодых ученых. СПбГУ ИТМО 2007. стр. 252-257.

Семёнова М.А., Семёнов В.А. статья «Комплексные решения в области соблюдения мер обеспечения информационной безопасности в банковской сфере» // Научно-технический Вестник СПбГУ ИТМО. Выпуск 51. Научные школы в СПБГУ ИТМО, 2008г. стр. 160-167.

Семёнова М.А., Семёнов В.А. статья «Метод градуированной фильтрации нежелательной корреспонденции («спама»)», // Научно-технический Вестник СПбГУ ИТМО. Выпуск № 05(63), 2009г. стр. 122-126.

М.А. Семёнова, В.А. Семёнов статья «Метод автоматической фильтрации при борьбе со «спамом», // Известие вузов. «Приборостроение». 2009. Т. 52, № 9. С. 32-34.

М.А. Семёнова, В.А. Семёнов «Метод градуированной фильтрации в борьбе со «спамом» // XIV международная научно-практическая конференция «Теория и технология программирования и защиты информации» 20 мая 2009г., Санкт-Петербург - Сборник научных трудов, сс. 35-36.

Семёнова М.А., Семёнов В.А. статья «Современные методы и средства сетевой защиты. Межсетевые экраны», // Сборник трудов VI Всероссийской Межвузовской конференции молодых ученых, выпуск 6 «Информационные технологии», безопасность и противодействие терроризму, защита информации, СПб: СПбГУ ИТМО, 2009. С 62-67.

Тиражирование и брошюровка выполнены в учреждении «Университетские телекоммуникации» 197101, Санкт-Петербург. Саблинская ул., 14 Тел. (812) 233 4669 объем 1 п.л. Тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Семенова, Мария Александровна

Введение.

Глава 1. Актуальность и постановка задачи.

1.1. Системный подход к обеспечению фильтрации «спама».

1.1.1. Наиболее распространенные виды «спама».

1.1.2. Способы распространения «спама».

1.1.3. Причины возникновения почтового «спама».

1.1.4. Причиняемый вред.

1.2. Методы борьбы с нежелательной электронной корреспонденцией.

1.2.1. «Антиспамовые» фильтры в борьбе со «спамом».

1.2.2. Автоматизированная фильтрация в борьбе с нежелательной корреспонденцией.

1.3. Методы автоматизированной фильтрации.

1.3.1. Алгоритмы фильтрации на основе содержания письма.

1.3.2. Соотношение полной вероятности и соотношение Байеса.

1.3.3. Байесовская классификация.

Выводы по первой главе.

Глава 2. Модель и метод градации сообщений для фильтрации «спама»

2.1. Формулировка исходных положений метода градуированной фильтрации «спама».

2.2. Модель градуированной фильтрации «спама».

2.2.1. Постановка задачи классификации писем.

2.2.2. Принцип работы классификатора.

2.2.3. Правила используемые при фильтрации сообщений.

2.2.4. Автоматизированная обработка письма.

2.3. Обоснование использования модели и метода градуированной фильтрации «спама».

2.3.1. Анализ оценок нахождения «спама» различными алгоритмами с учетом эвристического коэффициента.

2.3.2. Анализ оценок нахождения «спама» различными алгоритмами с учетом использования различных способов расчета коэффициентов «спамерности».

Выводы по второй главе.

Глава 3. Имитационный технологический комплекс поддержки модели и метода градуированной фильтрации «спама».

3.1. Инструментально-технологический комплекс «контр-спам».

3.1.1. Структура и алгоритмы.

3.1.2. Функциональные возможности работы инструментально-технологического комплекса «контр-спам», созданного на базе метода градуированной фильтрации «спама».

3.2. Механизм управления автоматизированной системой фильтрации «спама».

3.2.1. Механизм управления «обучением» частотных словарей.

3.2.2. Механизм управления фильтрацией входящего потока сообщений.

3.2.3. Механизм управления корректировкой частотных словарей.

Выводы по третьей главе.

Глава 4. Результаты экспериментального использования модели и метода градуированной фильтрации «спама».

4.1. Исследование динамики изменения значений величин в частотных словарях инструментально-технологического комплекса «контр-спам».

4.1.1. Исследование изменения значений величин в частотных словарях с одинаковым количеством писем выбранных для заполнения словарей.

4.1.2. Исследование изменения значений величин в частотных словарях с преобладанием количества писем выбранных для заполнения частотного словаря «спам».

4.1.3. Исследование изменения значений величин в частотных словарях с преобладанием количества писем выбранных для заполнения частотного словаря «не-спам».

4.1.4. Анализ результатов исследования динамики изменения значений величин в частотных словарях.

4.2. Исследование степени корректной фильтрации входящего потока в инструментально-технологическом комплексе «контр-спам».

4.2.1. Исследование степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога коэффициента «спамерности» слова.

4.2.2. Анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога коэффициента «спамерности» слова.

4.2.3. Исследование степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога для оценки письма

4.2.4. Анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога для оценки письма.

4.2.5. Анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам».

Выводы по четвертой главе.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Семенова, Мария Александровна

Распространение в Интернете писем, нежелательных для пользователя (т.е. «спама»), приняло угрожающий характер и начало серьезно мешать работе этой сети. В среднем прием «спама» достигает до 100 писем в день. Ситуация усугубляется тем, что помимо «спама» как такового, т.е. содержащего обычную рекламу, на e-mail еще приходят и вложения с вредоносным кодом (вирусы, «Трояны» и т.д.). Основной способ заработать на «спаме» — это продавать программы, рассылающие «спам», или писать руководство по «спаму».

Одним из первых проявлений «спама» было письмо, озаглавленное «Make money fast» от Давида Родса, которое пользователь отправлял своим знакомым, с предложением разослать его дальше, что позволило Д. Родсу стать миллионером, получая каждый раз за это 100,00$ [3].

Чуть позже «спаммеры» переключились и на e-mail (электронную почту). Составив списки из миллионов адресов, «спаммеры» рассылают всевозможную рекламу. В последнее время, впрочем, основным продуктом рекламы являются программы для рассылки «спама». Купив такую программу, желающие могут разослать по 90 миллионам адресов предложение купить у них какой-нибудь товар. В большинстве случаев, этим товаром оказывается опять программа для «спама».

Сегодня «спаммеров» в нашей стране привлекают к ответственности только за нарушение статей:

• ст. 18 «Закона о рекламе» [3, 4];

• п. 1 ст. 15 «О персональных данных» [5], но наказание по этим статьям незначительные, суммы штрафов по сравнению с доходом от рассылок невелики.

В настоящее время создание модели фильтрации «спама», которая позволила бы снизить ошибочные срабатывания фильтра, представляет собой самую трудную часть фильтрации. Проектировать модель фильтрации спама», которая позволила бы достичь минимизации ошибок, непросто, хотя в этом случае можно положиться на большой объем академических исследований.

Итак, центральная технология для фильтрации сообщения - правильная оценка количества слов, по которым необходимо производить дальнейшие расчеты «спамерности» поступившего сообщения. В зависимости от того, какие данные, содержатся по данным словам в частотных словарях, будет зависеть и результат фильтрации, т.е. к какой категории следует отнести письмо.

В настоящее время не существует ни одного современного фильтра, удовлетворяющего представленным критериям более чем на 80%.

Поэтому, в данной работе предлагается прогрессивные модель и метод градуированной фильтрации «спама», что является актуальной проблематикой и представляет научный и практический интерес.

Значимость и актуальность предопределили направление исследования, цели и задачи работы.

Цель и задачи исследования

Цель исследования состоит в разработке модели и метода градуированной фильтрации «спама» для улучшения качества и увеличения достоверности фильтрации нежелательной корреспонденции.

Данные исследования могут использоваться в развитие Руководящего документа Гостехкомиссии России «Средства вычислительной техники. Межсетевые экраны. Защита от несанкционированного доступа. Показатели защищенности от несанкционированного доступа к информации» 1997г.

Поставленная цель исследования определяет необходимость решений следующих основных задач: проведение анализа предметной области для установления существующих и разрабатываемых подходов к вопросу «антиспамовой» защиты; определение критериев качественного функционирования системы фильтрации нежелательной корреспонденции; создание модели и метода фильтрации нежелательной корреспонденции, которые удовлетворят выбранным критериям; создание инструментально-технологического комплекса, предоставляющего возможность использования предложенного метода фильтрации «спама»; проведение исследования экспериментального использования предложенных модели и метода градуированной фильтрации «спама».

В соответствии с целями и задачами диссертационного исследования определены его предмет и объект.

Предметом исследования диссертационной работы является комплекс вопросов, связанных с разработкой модели и метода фильтрации нежелательной корреспонденции, а также оценка использования данных модели и метода. В качестве объекта исследования выступают современные технологии фильтрации «спама».

При решении поставленных задач использовалось математическое соотношение полной вероятности.

Методологическая основа исследования

Методологической основой исследования являются труды отечественных ученых и специалистов по проблемам национальной, экономической и информационной безопасности, руководящие документы Гостехкомиссии России, законодательные акты Российской Федерации, энциклопедическая и справочная литература, материалы периодической печати, а также опыт организации работы по обеспечению «антиспамовой» защиты.

Научная новизна и теоретическая значимость

Научная новизна и теоретическая значимость работы определяются авторской разработкой модели и метода градуированной фильтрации нежелательной корреспонденции и заключаются в следующем:

1. Определение критериев качественного функционирования автоматизированной системы фильтрации «спама»;

2. Разработка новой модели градуированной фильтрации нежелательной корреспонденции («спама»);

3. Разработка нового метода градуированной фильтрации нежелательной корреспонденции («спама»), уменьшающего количество ложных тревог и пропуска «спама» и повышающего качество оценки данных, в отличие от известных подходов, за счет учета следующих параметров:

- количества писем, в которых встречались слова определенной категории;

- частоты использования слов в письмах определенной категории;

- использования слов, впервые встретившихся в проверяемом письме и не существовавших до этого в базе.

4. Разработка нового способа нахождения эвристического коэффициента (основанного на количестве слов для анализа письма) и оценки нахождения «спама» с учетом нового расчета коэффициентов «спамерности».

Теоретическая значимость предлагаемого в работе подхода заключается в возможности оценки нахождения «спама» с учетом эвристического коэффициента (количество слов для оценки письма) и оценки нахождения «спама» с учетом расчета коэффициентов «спамерности».

Практическая ценность работы состоит в том, что разработанные модель и метод градуированной фильтрации «спама» позволяет оценить уровень защиты от «спама», что было подтверждено проведенными исследованиями и практическими применениями полученных результатов в рамках работ на трех различных серверах. Практическая ценность также определяет возможность использования разработанного инструментально-технологического комплекса, реализующего представленный метод градуированной фильтрации «спама» и одобренного организациями и пользователями почтовых систем.

Материалы диссертации могут быть использованы при разработке методических материалов для учебного процесса в вузах соответствующего профиля. Основные из них могут быть применены в лекционных курсах «Защита информации и Интернет», «Антиспамовая защита».

По материалам диссертации опубликованы работы, представленные в списке публикаций.

Научные положения диссертации, выносимые на защиту:

1. Модель градуированной фильтрации нежелательной корреспонденции («спама»);

2. Метод градуированной фильтрации «спама» отличающийся от существующих методов новым способом нахождения количества слов для оценки письма и улученным способом вычисления коэффициента «спамерности»;

3. Критерии качественного функционирования системы фильтрации нежелательной корреспонденции;

4. Результаты сравнительного анализа использования модели и метода градуированной фильтрации «спама».

Диссертация состоит из введения, четырех глав, заключения и списка литературы, списка публикаций, приложений. Материал изложен на 132 страницах машинописного текста, содержит 36 рисунков и 10 таблиц, список литературы состоит из 59 наименований.

Заключение диссертация на тему "Модель и метод градуированной фильтрации "спама""

Выводы по четвертой главе

В этой главе проведено экспериментальное исследование автоматизированной системы фильтрации «спама», позволяющей производить автоматизированную фильтрацию входящего потока сообщений, с использованием модели и метода градуированной фильтрации «спама». Кроме того, приведены рекомендации по настройке данной системы.

В процессе экспериментального исследования было выполнено:

• исследование изменения значений величин в частотных словарях с одинаковым количеством писем выбранных для заполнения словарей;

• исследование изменения значений величин в частотных словарях с разным количеством писем выбранных для заполнения словарей;

• произведен анализ результатов исследования динамики изменения значений величин в частотных словарях;

• исследование степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога коэффициента «спамерности» слова;

• произведен анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога коэффициента «спамерности» слова;

• исследование степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога для оценки письма;

• произведен анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам» в зависимости от значения порога для оценки письма;

• произведен обобщенный анализ результатов исследования степени корректной фильтрации входящего потока сообщений в комплексе «контр-спам».

В ходе исследования также были приведены рекомендаций по работе с автоматизированной системой фильтрации «спама», заключающиеся в указании, задаваемых пользователем, диапазонов порогов коэффициентов «спамерности» слов и порогов оценки письма, позволяющие получить наилучшие результаты фильтрации «спама».

Заключение

В диссертационной работе осуществлено исследование проблемы «антиспамовой» защиты, выступающей неотъемлемой частью системы информационной безопасности, предложена модель градуированной фильтрации «спама», разработан метод градуированной фильтрации «спама», создан инструментально-технологический комплекс «контр-спам», реализующий метод градуированной фильтрации «спама», проведено исследование экспериментального использования разработанных и предложенных модели и метода градуированной фильтрации «спама».

В процессе исследования проведен анализ предметной области, установлены существующие и разрабатываемые подходы к вопросу «антиспамовой» защиты. В процессе анализа выявлены главные недостатки существующих алгоритмов, представляющие собой: неверное зачисление письма в «спам»; пропуск «спама»; ограниченное количество слов для оценки письма; игнорирование слов ранее мало встречавшихся.

В результате исследования предметной области были описаны методы борьбы с нежелательной корреспонденцией, а также методы автоматизированной фильтрации «спама».

После анализа существующих систем фильтрования «спама» получены основные критерии качества работы «антиспам»-сервисов: ложные тревоги - доля нормальных (не являющихся «спамом») сообщений, ошибочно классифицированных как «спам» (ложные срабатывания; пропуск «спама» - доля пропущенного «спама» в общем потоке «спама»; качество фильтрации (зависимость результата фильтрации от фактора ложного выявления и пропуска «спама»).

Решение задачи повышения качества фильтрации нежелательной корреспонденции «спама» достигается путем создания метода градуированной фильтрации «спама», который за счет градуирования соотношения «спама» и «не-спама», использования слов впервые встретившихся в письме и не существовавших до этого в частотных словарях, а также нахождения выборки слов («токенов»), на основе анализа которых делается вывод о «спамерности» конкретного сообщения, позволяет получить меньшую долю (по сравнению с существующими фильтрами) ложных срабатываний и пропуска «спама», а также исключить остальные недостатки существующих систем фильтрации.

Главным принципом создания такой автоматизированной системы фильтрации «спама» является обеспечение заданного уровня фильтрации «спама».

Реализация системы фильтрации от «спама» включает в себя: разработку модели градуированной фильтрации «спама» от нежелательной корреспонденции; создание метода градуированной фильтрации «спама» для фильтрации входящего потока сообщений, по средствам реализации данной модели градуированной фильтрации «спама»; создание инструментально-технологического комплекса, реализующего представленный метод градуированной фильтрации «спама» и представляющего собой автоматизированную систему фильтрации «спама»; разработку научно-практических рекомендаций по работе с автоматизированной системой фильтрации «спама».

Реализация разработанных в диссертационной работе модели и метода ведет к повышению таких качеств, как надежность и безопасность, а также к уменьшению риска получения «спама», что в свою очередь, поможет снизить риск возникновения уязвимостей.

Основные требования к данной автоматизированной системе фильтрации «спама»: она должна быть самообучающейся, т.е. должна обладать возможностью индивидуальной автоматизированной настройки фильтра; ее структура, формы и средства должны позволять отслеживать результаты, чтобы можно было своевременно повлиять на ход (процесс) фильтрации входящего потока сообщений, обеспечивая при этом состояние необходимой защищенности.

Автором были достигнуты главные цели диссертационного исследования: создание модели градуированной фильтрации «спама» позволяющей уменьшить количество ложных тревог и пропуска «спама»; создание метода фильтрации «спама», который позволил бы улучшить качество фильтрации и избежать остальных недостатков существующих методов фильтрации; создание автоматизированной системы фильтрации «спама» для проверки предложенного метода градуированной фильтрации «спама»; контроль эффективности использования модели и метода градуированной фильтрации «спама».

В результате диссертационного исследования разработаны рекомендации по работе с инструментально-технологическим комплексом «контр-спам» для получения наилучших результатов. Так опытно-экспериментальные исследования подтвердили, что с изменением порогов «спамерности» слов, а также порогов оценки письма результаты существенно изменяются. В ходе исследования были определены диапазоны значений порогов коэффициентов «спамерности» слов и порогов оценки письма, в результате использования которых автоматизированная система фильтрации «спама» достигает наилучших результатов.

Результаты диссертационного исследования доказали возможность использования разработанного инструментально-технологического комплекса, реализующего разработанный метод градуированной фильтрации «спама», пользователями почтовых систем.

Таким образом, результаты диссертационного исследования позволяют сделать вывод, что предложенные модель и метод градуированной фильтрации «спама» приводят к уменьшению доли пропуска «спама» и ложных срабатываний фильтра, а также позволяют исключить остальные недостатки существующих методов и тем самым подтверждают целесообразность использования модели и метода градуированной фильтрации «спама» для фильтрации входящего потока сообщений.

Библиография Семенова, Мария Александровна, диссертация по теме Методы и системы защиты информации, информационная безопасность

1. Левин В.И. История информационных технологий. М.:Интернет-Университет Информационных Технологий: БИНОМ. Лаборатория знаний, 2007.

2. И. Успенский. Интернет как инструмент маркетинга. «БВХ -Санкт-Петербург», 1999.

3. О. Татарников. Сколько лет спаму? // Компьютер пресс. — 2008. № 10. -С. 47-51.

4. А. Прохоров. Опять про спам, который так мешает нам. // Компьютер пресс. -2006. № 12.-С. 182-187.

5. Д. Гудкова. Спам в Рунете. // Компьютер пресс. 2008. - № 5. - С. 186191.

6. ГОСТ Р 51624-00. 'Защита информации. Автоматизированные системы в защищенном исполнении. Общие требования.

7. А. Прохоров. Спам проблема века. // Компьютер пресс. — 2004. - №10. — С. 66-69.

8. Капелюх С.А. Электронная почта. СПб.: БВХ-Петербург, 2006.

9. ГОСТ Р 50922-96. Защита информации. Основные термины и определения. Введен в действие 1997—07—01. ИПК Издательство стандартов, 107076, Москва.

10. Российская Федерация. Федеральный закон № 24-ФЗ от 20 февраля 1995 г.: Об информации, информатизации и защите информации. М., 1995.

11. И. Ашманов. Борьба со спамом в 2005 году. // Компьютер пресс. — 2005. -№7.-С. 176-181.

12. В.В. Царев, А.А. Кантарович. Электронная коммерция. СПб: Питер, 2002.

13. Рекомендации по обеспечению безопасности персональных данных при их обработке в информационных системах персональных данных (выписка).

14. Федеральная служба по техническому и экспортному контролю, 2008 год // Электронный ресурс. — Режим доступа:http://www.fstec.ru/razd/ispo.htm, свободный.

15. Д. Донцов. Как защитить компьютер от ошибок, вирусов, хакеров. — СПб.: Питер, 2006.

16. Родион Насакин. «Интернет + спам = ?». // Компьютер пресс. — 2005. — 06. -С. 186-189.

17. Спамом по вебу. Черный сетевой маркетинг — защита и нападение. // Хакер 06/114/08. С. 046-049.

18. Антология спама. Технологии на службе спамеров. Хакер 12/84/05. С. 084-088.

19. М. Левин. Безопасность в сетях Internet и Intranet. Москва, Компьютерная литература, 2001.

20. М. Левин. Антиспам без секретов. Практические рекомендации по борьбе с нелегальной рассылкой по электронной почте- М.: Новый изд. дом, 2005.

21. С. Н. Лукин. Компьютер в офисе. Практические советы. М.: ООО «И.Д. Вильяме», 2008.

22. В.В. Гуров. Спам-фильтры для предприятий. // Сети и системы связи. — 2007. № 6. - С. 80-89.

23. Основные мероприятия по организации и техническому обеспечению безопасности персональных данных, обрабатываемых в информационных системах персональных данных. Федеральная служба по техническому и экспортному контролю, 2008 год

24. Электронный ресурс. — Режим доступа:http://www.fstec.ru/razd/ispo.htm, свободный;

25. В. Леонтьев. Компьютер Интернет. М.: ОЛМА Медиа Групп, 2006.

26. А. Прохоров. Как обмануть спамеров, обманывающих нас. // Компьютер пресс. -2003. 03. - С. 94-99.

27. А. Любимов, Д. Дмитриев. Спам с нуля. // Хакер 01/85/06. С. 078-080.

28. Защита от несанкционированного доступа к информации. Термины и определения: Руководящий документ // Сборник руководящих документов по защите информации от несанкционированного доступа. М.: Гостехкомиссия России, 1998.

29. ГОСТ Р 50739-95. Средства вычислительной техники. Защита от несанкционированного доступа к информации. Общие технические требования. Принят и введен в действие Постановлением Госстандарта России от 09.02.95 № 49.

30. Федеральный закон Российской Федерации «О безопасности» № 2446-1 (с изменениями от 25.12.1992 г.) от 05 марта 1992 г. М., 1992.

31. О. Слепов. Борьба со спамом. // Jet Info. 2004. - № 9. - С. 11-12.

32. Товарищ по.спаму Электронный ресурс. — Режим доступа : http://ko-onHne.com.ua/node/12768, свободный.

33. С. Супрунов. Настраиваем DSPAM — ваш личный спам-фильтр.

34. Системный администратор. — 2005. № 8. — С. 24-34.

35. Практика: спам-фильтр Электронный ресурс. — Режим доступа: http://lisper.ru/pcl/practical-a-spam-filter, свободный.

36. Gary Robinson, A statistical approach to the spam problem, 2003, http://www.linuxioumal.com/article.php7sicN6467.

37. A. H. Бородин. Элементарный курс теории вероятностей и математической статистики. — СПб.: Издательство «Лань», 2004.

38. А. Прохоров. Е-таП-рассылка — не всегда спам. // Компьютер пресс. — 2004.-10.-С. 70-73.

39. Безопасность информационных технологий. Руководство по формированию семейств профилей защиты. Руководящий документ // Сборник руководящих документов по защите информации от несанкционированного доступа. -М.: Гостехкомиссия России, 2003 год.

40. А. С. Солодухин. Классификация текстов на основе приближенных оценок вероятностей классов. // Вестник ВГУ, Серия: Системный анализатор и информационные технологии, 2008. №1.

41. А.Н. Тихонов, М.В. Уфимцев. Статистическая обработка результатов экспериментов. М.: Изд-во Моск. ун-та, 1988.

42. В.Б. Уткин, К.В. Балдин. Информационные технологии управления. М.: Издательский центр «Академия», 2008.

43. Эндрю Троелсен. Язык программирования С# 2005 (Си Шарп) и платформа .NET 2.0. 3-е издание, «Диалектика-Вильяме», 2003.

44. Кристиан Нейгел, Билл Ивьен, Джей Глинн, и др. Язык программирования С# 2005 для профессионалов, «Диалектика-Вильяме», 2006.

45. Галисеев Г.В. Программирование на языке С#. «Диалектика», 2006 г.

46. Защита от несанкционированного доступа к информации. Часть 1. Программное обеспечение средств защиты информации. Классификация по уровню контроля отсутствия недекларированных возможностей: Руководящий документ. М.: Гостехкомиссия России, 2000.

47. Информационная безопасность и защита информации. Сборник терминов и определений. Руководящий документ М.: Гостехкомиссия России, 2001.

48. ГОСТ 34.003-90. Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения.

49. ГОСТР 51275-99. Защита информации. Объект информатизации. Факторы, воздействующие на информацию. Общие положения. Принят и введен в действие Постановлением Госстандарта России от 12 мая 1999 г. № 160. Издательство ГОССТАНДАРТ РОССИИ Москва, 1999 г.

50. ГОСТ 51583-00. Защита информации. Порядок создания автоматизированных систем в защищенном исполнении. Общие положения. Принят и введен в действие Постановлением Госстандарта России от 6 апреля 2000 г. № 95-ст.

51. ГОСТ Р 50922-96. Защита информации. Основные термины и определения. Принят и введен в действие Постановлением Госстандарта России от 10 июля 1996 г. № 450.

52. А.А. Садердинов, В.А. Трайнёв, А.А. Федулов. Информационная безопасность предприятия. — М.: Издательско-торговая корпорация «Дашков и К», 2004 г.

53. В.В. Липаев. Проектирование программных средств. — М., Высшая школа, 1990.1. Список публикаций

54. Семёнова М.А., Семёнов В.А. статья «Комплексные решения в области соблюдения мер обеспечения информационной безопасности в банковской сфере» // Научно-технический Вестник СПбГУ ИТМО. Выпуск 51. Научные школы в СПБГУ ИТМО, 2008г. стр. 160-167.

55. Семёнова М.А., Семёнов В.А. статья «Метод градуированной фильтрации нежелательной корреспонденции («спама»)», // Научно-технический Вестник СПбГУ ИТМО. Выпуск № 05(63), 2009г. стр. 122-126.

56. М.А. Семёнова, В.А. Семёнов статья «Метод автоматической фильтрации при борьбе со «спамом», // Известие вузов. «Приборостроение». 2009. Т. 52, № 9. С. 32-34.