автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей

кандидата технических наук
Мироненко, Антон Николаевич
город
Омск
год
2012
специальность ВАК РФ
05.13.19
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей»

Автореферат диссертации по теме "Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей"

АЛГОРИТМ КОНТЕНТНОЙ ФИЛЬТРАЦИИ СИАМА НА БАЗЕ СОВМЕЩЕНИЯ МЕТОДА ОПОРНЫХ ВЕКТОРОВ И НЕЙРОННЫХ СЕТЕЙ

Специальность:

05.13.19 - Методы и системы защиты информации, информационная

безопасность

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 5 ЯН5Ш

Санкт-Петербург 2012

Работа выполнена в Омском государственном университете им. Ф.М. Достоевского

Научный руководитель: доктор физико-математических наук, доцент

Белим Сергей Викторович

Официальные доктор технических наук, профессор

оппоненты: Коробейников Анатолий Григорьевич

кандидат технических наук, доцент Бессмертный Игорь Александрович

Ведущая организация: Челябинский государственный университет

Защита состоится 14.02.2012 на заседании диссертационного совета Д 212.227.05 в 15-00 по адресу: 197101, Санкт-Петербург, пр. Кронверкский, д.49„ НИУ ИТМО, ауд. 403.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики.

Автореферат разослан 13 января 2012 г.

Ученый секретарь диссертационного совета Д 212.227.05

Поляков В.И.

Актуальность работы.

Одним из направлений исследований в области защиты информации является разработка методов и алгоритмов фильтрации потока электронной почты. В последнее время электронная почта стала одним из наиболее распространенных средств связи, управления и бизнеса. Она является достаточно совершенной в техническом отношении и недорогой альтернативой привычным средствам связи.

Вместе с развитием электронной почты увеличивается и количество угроз ее нормальному функционированию. Наиболее серьезной и важной проблемой стал так называемый спам, то есть нежелательные массовые рассылки сообщений, в основном рекламного характера. По сообщениям экспертов «Лаборатории Касперского», в 2010 году доля спама превысила 83% общего количества пересылаемых писем.

На сегодняшний день разработан ряд технологий построения фильтров -сервисов для отсеивания нежелательной корреспонденции. Все технологии можно разделить на настраиваемые вручную и интеллектуальные. Настраиваемые вручную фильтры основываются на списках доступа и настраиваются непосредственно пользователем, который выбирает либо нежелательные адреса, при политике пропуска по «черному списку», либо разрешенные адреса, при политике пропуска по «белому списку». Однако ручные способы фильтрации нежелательных сообщений малоэффективны и требуют постоянного обновления списков доступа, создавая дополнительную нагрузку на пользователя.

Фильтры, построенные с использованием технологий искусственного интеллекта, требуют обучения только на начальном этапе, дообучаясь в дальнейшем самостоятельно, существенно снижая нагрузку на пользователя. Самым распространенным на сегодняшний день является фильтр, основанный на наивном байесовском подходе, в котором предполагается, что различные термы сообщения независимы друг от друга. Максимальный результат, достигнутый байесовскими фильтрами на сегодняшний день составляет порядка 95% отфильтрованного спама. Для повышения эффективности байесовского фильтра необходимо учитывать семантические связи между термами, что требует привлечения методов семантического анализа и существенно повышает нагрузку на систему и увеличивает время работы самого фильтра, при незначительном повышении эффективности фильтрации.

Другим подходом, получающим в последнее время все большее распространение, является использование нейросетей. Преимущество нейросетевого подхода перед наивным байесовским состоит в том, что не делается никаких предварительных предположений о характере нежелательных

з

сообщений, а семантические связи учитываются автоматически. Наибольшее количество разработок связано с построением фильтра на основе многослойного персептрона. Однако такой подход встречается с рядом трудностей, связанных с выбором пороговых значений, которые задаются произвольно в некотором интервале. Эффективность фильтра существенно зависит от выбора порогового значения. При этом пороговое значение требует постоянной подстройки под изменяющийся характер нежелательных сообщений. Также малоисследованным остается вопрос использования других нейросетей, хорошо зарекомендовавших себя в задачах распознавания образов, частным случаем которых является фильтрация спама.

Таким образом, развитие нейросетевого подхода применительно к фильтрации нежелательных сообщений является актуальной задачей.

Целью диссертационной работы является повышение эффективности фильтрации нежелательных сообщений в потоке электронной почты с использованием интеллектуальных систем.

Для достижения поставленной цели были решены следующие задачи:

1. Разработка смешанного алгоритма фильтрации на основе совмещения метода опорных векторов и нейросетевого подхода.

2. Реализация и апробация смешанного спам-фильтра на основе двухслойного персептрона.

3. Реализация и апробация смешанного спам-фильтра на основе персептрона Розенблатта.

4. Реализация и апробация смешанного спам-фильтра на основе самоорганизующихся карт Кохонена.

Методы исследования. В диссертационной работе использованы методы построения нейронных сетей, алгоритмы кластеризации и методы системного анализа.

Научная новизна результатов исследования.

1. Впервые совместно использованы метод опорных векторов и нейросети для построения спам-фильтра.

2. Впервые для фильтрации писем использованы совместно алгоритм таксономии и двухслойный персептрон.

3. Впервые для фильтрации писем использованы совместно алгоритм таксономии и персептрон Розенблатта.

4. Впервые для фильтрации писем использованы совместно алгоритм таксономии и самоорганизующиеся карты Кохонена.

Достоверность результатов работы. Научные результаты диссертационной работы получены с использованием методов хорошо зарекомендовавших себя для построения спам-фильтров. Проведено сравнение

результатов работы предлагаемого алгоритма с существующими программными решениями проблемы массовых рассылок.

Практическая значимость работы заключается в возможности разработки прикладных систем индивидуальной защиты от нежелательной корреспонденции для персональных компьютеров.

Основные положения, выносимые на защиту.

1. Алгоритм фильтрации спам-сообщений на основе совместного использования алгоритма и нейросетевого подхода.

2. Система фильтрации спам-сообщений на основе алгоритма таксономии РСЖЕЬ и двухслойного персептрона.

3. Система фильтрации спам-сообщений на основе алгоритма таксономии РСЖЕЬ и персептрона Розенблатта.

4. Система фильтрации спам-сообщений на основе алгоритма таксономии РОКЕЬ и самоорганизующихся карт Кохонена.

Апробация работы. Основные положения диссертационной работы представлялись и обсуждались на следующих конференциях: «Актуальные проблемы безопасности информационных технологий». (Красноярск, 2009, 2010), «Информационные технологии и автоматизация управления» (Омск, 2009,2010), а так же внедрена в деятельность трех организаций.

Публикации. Результаты диссертационной работы были представлены в 9 публикациях: в 6 научных статьях, в том числе 3 статьи в журналах из списка периодических изданий, рекомендованных ВАК.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, библиографического списка и изложена на 96 страницах машинописного текста. Библиографический список литературы состоит из 100 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы исследований в области повышения защищённости от нежелательных массовых рассылок (спама). Формулируется цель и задачи решаемые в работе, обсуждается научная новизна, а так же практическая ценность выносимых на защиту результатов.

Первая глава носит обзорный характер и посвящена описанию основных методов фильтрации анонимной массовой не запрошенной рассылки. Выделены основные характеристики спама и проведена его классификация. Описаны критерии оценки ущерба, причиняемого спамом. Приведены примеры реализации различных подходов фильтрации спама.

Вторая глава посвящена разработке алгоритма фильтрации спама, основанного на комбинации' метода опорных векторов и нейросетевого подхода.

Основной целью является сокращение времени работы фильтра с помощью уменьшения объема обрабатываемых данных.

Формирование частотного словаря производилось опытным путем на основе экспериментального почтового ящика. Процесс заполнения частотного словаря состоит из трех этапов:

1. Берем обучающее множество (под множеством понимается письмо предварительно вручную определенное как спам или не спам), считываем его термы (по слову). За термы (слова) считаем последовательности символов разделенные точками, пробелами и т.п. Так как за слово берется любая последовательность символов это позволяет сделать алгоритм фильтрации свободным от привязки к какому-либо одному языку, что характерно для некоторых контентных методов фильтрации, а так же позволяет реагировать на уловки спамеров, например, когда преднамеренно в слово вставляется лишний символ или буквы из другого языка;

2. Заносим считанные термы в Ва1а1аЫе (словарь);

3. Если терм был считан из письма категории спам, то +1 к индексу спам, данного элемента, если элемент был считан из письма категории не спам, то соответственно +1 к индексу не спам.

Алгоритм формирования данных для последующей фильтрации:

1. На основе обучающего набора сообщений формируется словарь слов (термов), в котором каждому терму соответствует два числа — частота встречаемости в спам-сообщениях и частота встречаемости в легальных сообщениях.

2. Формируется двумерное множество точек. Каждому терму соответствует одна точка с двумя координатами. По оси абсцисс отложена частота встречаемости в легальных сообщениях, по оси ординат - в спам-сообщениях.

3. Для полученного множества точек решается задача таксономии -разбиения пространства на области, включающие подмножества точек, наиболее близко расположенные друг к другу.

4. Для каждого таксона определяются координаты центра масс.

5. Таксоны упорядочиваются по величине 0=У/Х, где X и У -координаты центра масс таксона.

6. Вводится равномерная шкала, приписывающая каждому таксону уровень спамности в интервале от 0 до 1 (значения 0 и 1 не используются).

Алгоритм определения спамности сообщения:

1. Для каждого входящего почтового сообщения производится разбор на термы.

2. Определяется принадлежность каждого терма к одному из таксонов.

3. Формируется вектор, характеризующий данное сообщение. Координатами вектора служат количества термов с данным значением спамности.

4. Полученный вектор подается на вход нейросети. В качестве весовых коэффициентов входных синапсов выбирается количество термов с данным коэффициентом спамности в частотном словаре.

5. Выходной сигнал нейросети, лежащий в интервале от 0 до 1, интерпретируется как одно из трех решений: сообщение является спамом (111), сообщение не является спамом (112), невозможно определить является ли сообщение спамом или нет (КЗ). Значения Я2 и ИЗ выбираются экспериментально.

В работе был использован следующий обучающий набор, полученный из эксплуатации экспериментального почтового ящика: 162 спам-письма, 160 легальных писем. Число спам писем было подобрано практически равное числу легальных сообщений для равномерного распределения точек на плоскости. В результате был сформирован словарь, содержащий 13294 различных слов. Создание словаря по данному количеству сообщений занимает около двух минут. Данное количество слов в словаре не является окончательным. Система может работать в режиме обучения, при котором каждое полученное письмо добавляется к обучаемому набору. Как следствие растет точность фильтрации.

Для разделения слов на таксоны был использован алгоритм РСЖЕЬ. Выбор данного алгоритма таксономии обусловлен тем, что он дает быстрые и простые решения. Данный алгоритм на представленном обучающем наборе выявил 5 таксонов. При этом 90% слов оказались в одном таксоне, это слова встречающиеся по одному разу. Полученным пяти таксонам были присвоены коэффициенты спамности 0.1,0.3, 0.5, 0.7, 0.9.

Был проведен эксперимент для определения количества таксонов, при котором сохраняются высокая скорость работы фильтра, низкий уровень ложных срабатываний и достаточно высокий процент отфильтровываемого спама.

Результаты работы фильтра, с использованием разного количества таксонов представлены на рисунках 1,2 и 3.

Как видно из графиков, количество ложных срабатываний уменьшается с увеличением количества таксонов, но в определенный период уменьшение становится незначительным при том, что скорость работы фильтра начинает замедляться. Таким образом, можно ограничить количество таксонов пятью, то значение, при котором сохраняется приемлемый уровень ложных срабатываний, не нанося ущерб скорости работы.

Коякчество т»«соков

Рис.2. График зависимости количества ложных срабатываний от количества таксонов (персептрон Розенблатты).

Рис. 1. График зависимости количества ложных срабатываний от количества таксонов (двухслойный персептрон).

?

Рис.3. График зависимости количества ложных срабатываний от количества таксонов (Карты

Кохонена).

Третья глава посвящена реализации и апробации разработанного спам фильтра с использованием двухслойного персептрона.

Рис.4. Двухслойный персептрон

Будем формировать нейронную сеть (Рис. 4) по следующему алгоритму:

1. Количество нейронов в первом слое нейронной сети совпадает с количеством выявленных таксонов в результате выполнения алгоритма формирования данных для последующей фильтрации. В случае нашего обучающего набора в первом слое будет содержаться 5 нейронов.

2. Весовые коэффициенты входных сигналов \У определяются как количество слов с данным коэффициентом спамности в частотном словаре. Весовые коэффициенты Ъ определяются методом обратного распространения ошибки.

3. Принимается одно из трех решений: сообщение является спамом (1^1), сообщение не является спамом (112), невозможно определить принадлежность (ЯЗ).

Основная идея этого метода состоит в распространении сигналов ошибки от выходов сети к её входам, в направлении, обратном прямому распространению сигналов в обычном режиме.

Для полученного в первой главе обучающего набора в первом слое будет содержаться 5 нейронов. В качестве функции активации всех нейронов была выбрана логистическая сигмоидальная функция:

Для граничных значений выхода внешнего нейрона были выбраны числа 0.3 и 0.6.

Четвертая глава посвящена реализации и апробации разработанного спам фильтра на основе персептрона Розенблатта и самоорганизующихся карт Кохонена. Персептрон Розенблатта состоит из трех типов элементов (Рис.5), назначение которых соответствует нейронам рефлекторной нейронной сети, й-элементы формируют сетчатку сенсорных клеток, которые принимают двоичные внешние сигналы. Далее сигналы поступают на вход ассоциативного слоя, на котором расположен один нейрон (А-элемент). Ассоциативный элемент, представляет собой формальный нейрон, который производит нелинейную обработку поступившей информации и имеет изменяемые веса связей. Я-элементы с фиксированными весами формируют сигналы реакции персептрона на входной импульс.

Э - элементы я . элементы

Рис.5. Элементарный персептрон Розенблатта

Обучение сети состоит в изменении весовых коэффициентов каждого нейрона. Пусть имеются пары векторов (ха, уа), а = 1,...,р, называемые обучающей выборкой.

Будем считать нейронную сеть обученной на данной обучающей выборке, если при подаче на входы сети каждого вектора х" на выходах каждый

ю

раз получается соответствующий вектор у". Алгоритм обучения состоит из четырех шагов:

Шаг 0. Начальные значения весов всех нейронов IV(1=0) выбираем случайным образом;

Шаг 1. Сети предъявляется входной образ ха, в результате формируется выходной образ уафх";

Шаг 2. Вычисляется вектор ошибки <?=(ха-уа), которую производит сеть на выходе. Далее считается, что изменение вектора весовых коэффициентов в области малых ошибок пропорционально ошибке на выходе, и соответственно равно нулю, если ошибка равна нулю.

Шаг 3. Модифицируется вектор весов:

■ (за)т. Здесь 0<г/<1-темп обучения.

Шаг 4. Шаги 1-3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки - эпоха. Обучение завершается по истечению нескольких эпох, а) когда итерации сойдутся, т.е. вектор весов перестает изменяться, или б) когда полная просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения.

Сеть Кохонена (рис. 6) - это однослойная сеть, каждый нейрон которой соединен со всеми компонентами «-мерного входного вектора. Входной вектор - это описание одного из объектов, подлежащих кластеризации. Количество нейронов соответствует количеству кластеров, которое должна выделить сеть. В качестве нейронов сети Кохонена применяются линейные взвешенные сумматоры. Каждыйу'-ый нейрон описывается вектором весов м>=(м>,р\м2р..:Ч>т]), где ш - число элементов входных векторов. Входной вектор имеет вид

у 1 ф

х2#,

«3»

уз

Х4ф<

х5#

Рис.6. Структура сети Кохонена.

Работа сети начинается с инициализации карты, то есть первоначального задания векторов веса для узлов. Существуют три способа инициирования начальных весов.

• Инициализация случайными значениями, когда всем весам даются малые случайные величины;

• Инициализация примерами, когда в качестве начальных значений задаются значения случайно выбранных примеров из обучающей выборки;

• Линейная инициализация. В этом случае веса инициируются значениями векторов, линейно упорядоченных вдоль линейного подпространства, проходящего между двумя главными собственными векторами исходного набора данных.

Сеть работает следующим образом:

Пусть t — номер итерации (инициализации соответствует значение t=0).

1. Выбрать произвольное наблюдение (вектора из множества входных данных) x(t) из множества входных данных.

2. Найти для него лучшую единицу соответствия (best matching unit, BMU, или Winner) - узел на карте, вектор веса которого меньше всего отличается от наблюдения (в метрике, задаваемой аналитиком, чаще всего, евклидовой). Найти расстояния от х(г) до векторов веса всех узлов карты и определить ближайший по весу узел Mc{t). Условие на Mc(í): Il x(t)-mc(f)||<]| x(t)-m;(i)||, для любого m;(f), где m¡(t)— вектор веса узла M,(¡). Если находится несколько узлов, удовлетворяющих условию, BMU выбирается случайным образом среди них.

3. Определить количество соседей BMU и изменить векторы веса BMU и его соседей с целью их приближения к наблюдению. Определить с помощью функции h (функции соседства) соседей Мс и изменить их векторы веса. Функция определяет «меру соседства» узлов M¡ и Мс и изменение векторов веса. Она должна постепенно уточнять их значения.

Часто в качестве функции соседства используется гауссовская функция. Изменение вектора веса вычисляется по формуле:

от, (г) = m(r-l)+hcl (t)■ (40 -m[t-1)).

Таким образом, вектора веса всех узлов, являющихся соседями BMU, приближаются к рассматриваемому наблюдению.

4. Определение ошибки карты, как среднее арифметическое расстояний

между наблюдениями и векторами веса соответствующих им BMU: — ¿||х>-пъ||,

N ¡-i

где N- количество элементов набора входных данных.

Эффективность работы фильтров: на основе двухслойного персептрона, персептрона Розенблатта и самоорганизующихся карт Кохонена тестировалась

в двух режимах. Первый - на специально созданной базе сообщений. В течение 4 месяцев собиралась база снам/не спам сообщений. За это время было получено всего 3196 сообщений из них спам 2456. Сообщения приходили на 3 реально существующих почтовых ящика электронной почты, принадлежащих разным людям. Активность использования почтовых ящиков различна, первые два используются активно, один для деловой и личной переписки, другой исключительно для получения деловых сообщений, третий почтовый ящик используется менее активно. Отметим, первые 2 ящика были созданы менее 4 лет назад, третий более 7 лет.

Данный набор был принят для оценки эффективности работы алгоритма фильтрации, так как он удовлетворяет следующим критериям:

1. Письма принадлежат к наиболее популярным тематикам спама, таким как:

a) Образование;

b) Медикаменты, товары/услуги для здоровья;

c) Недвижимость;

d) Отдых и путешествия;

e) Реклама спамерских услуг.

2. В наборе присутствуют спам сообщения не только рекламного характера, но и фишинговые сообщения.

3. Так как почтовые ящики принадлежат различным пользователям, каждый из которых обладает своей манерой общения (ведения переписки), то это создает дополнительную нагрузку на алгоритм. Так как нет персонификации сообщений, повышается вероятность ложного срабатывания.

Его результаты представлены в Таблице 1. Кроме того в таблице представлены результаты сравнения с существующим решением проблемы спама от «Лаборатория Касперского» Kaspersky Anti-Spam.

Второй - на реальном почтовом ящике, который был создан более четырех лет назад и активно не используется. В период с 23 сентября по 17 октября 2011 года (25 дней) поступало от 2 до 13 сообщений в день, в среднем 7 сообщений в день. Из них легальных сообщений от 0 до 6, в среднем 1, спам-сообщений от 2 до 10, в среднем 5. Результаты представлены в Таблице 2.

Как видно из таблиц все три нейросети дают близкие значения, из чего можно сделать вывод о малой чувствительности предложенного алгоритма фильтрации к выбору типа нейронной сети. Следовательно, в практике можно выбирать нейросеть наиболее простую в реализации и обладающую наибольшей скоростью работы.

Фильтр Всего сообщений Легитимных сообщений Спам-сообщений Отфильтровано спама Количество ложных срабатываний

Kaspersky Anti-Spam 3196 740 2456 3149 (98,52%) 2 (0,27%)

На основе двухслойного персептрона 3196 740 2456 1973 (80,33%) 13(1,75%)

На основе персептрона Розенблатга 3196 740 2456 1985 (80,82%) 12 (1,62%)

На основе карт Кохонена 3196 740 2456 1922 (78,25%) 16(2,16%)

Таблица!. Эф активность шльтрации на реальном почтовом ящике.

Фильтр Всего сообщений Легитимных сообщений Спам-сообщений Отфильтровано спама Количество ложных срабатываний

На основе двухслойного персептрона 164 34 130 109 (83,85%) 0 (0%)

На основе персептрона Розенблатга 164 34 130 112(86,27%) 0 (0%)

На основе карт Кохонена 164 34 130 107 (82,36%) 0 (0%)

Для исследования возрастания эффективности работы системы с течением времени вследствие дообучения были проведены эксперименты с реальным почтовым ящиком. На рисунке 7 представлено распределение входящих почтовых сообщений за три недели. Ось X - день эксперимента, ось У - количество сообщений.

На рисунках 8, 9 и 10 представлены результаты работы системы фильтрации с использованием различных нейронных сетей. Ось X - день эксперимента, ось У - количество отфильтрованных спам-сообщений в процентах.

Рис.7. График распределения входящих сообщений.

Рис.8. График эффективности работы фильтра на основе двухслойного персептрона.

Рис.9. График эффективности работы фильтра на основе персептрона Розенблатта.

Рис. 10. График эффективности работы фильтра на основе карты Кохонена.

Как видно из графиков, количество отфильтрованного спама значительно колеблется в первые 12 дней эксперимента, это позволяет сказать, что происходит процесс дообучения. Таким образом, если учитывать в определении эффективности работы фильтра только период с 4 октября по 17 октября, получим следующие результаты:

• Фильтра на основе двухслойного персептрона - 89,07% отфильтрованного спама;

• Фильтра на основе персептрона Розенблатты - 91,79% отфильтрованного спама;

• Фильтра на основе карт Кохонена - 88,50% отфильтрованного спама.

По результатам проведенного тестирования предлагаемого алгоритма фильтрации входящего потока сообщений можно говорить о том, что в ходе эксперимента были получены результаты, подтверждающие целесообразность его использования. Кроме того, как было написано ранее, мы видим, что на небольших текстах (электронное сообщение, как правило, небольшого размера), весьма эффективным будет использование простейших типов нейронных сетей (однослойный персептрон Резенблатта, двухслойный персептрон), то есть, нет необходимости строить многослойную сеть (например, на основе карт Кохонена).

В заключении представлены основные результаты работы и сформулированы выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ:

1. Разработан смешанный спам-фильтр на основе совмещения метода опорных векторов и нейросетевого подхода. В методе опорных векторов применен алгоритм таксономии РОИЕЬ. Такой подход позволяет одновременно существенно уменьшить как размерность пространства опорных векторов, так и количество входных синапсов нейронной сети. В результате заметно уменьшается время работы фильтра. Основным преимуществом предлагаемого

алгоритма фильтрации, является его скорость работы, в среднем на обработку одного входящего сообщения затрачивается 1,58 секунды, при сохранении приемлемого уровня ложным срабатываний и качества фильтрации.

2. Реализован смешанный спам-фильтр на основе двухслойного персептрона. Апробация на специально созданной коллекции показала эффективность 80,33%. Испытания на реальном почтовом ящике показали среднюю эффективность 89,07%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

3. Реализован смешанный спам-фильтр на основе персептрона Розенблатта. Апробация на специально созданной коллекции показали эффективность 80,82%. Испытания на реальном почтовом ящике показала среднюю эффективность 91,79%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

4. Реализован смешанный спам-фильтр на основе самоорганизующихся карт Кохонена. Апробация на специально созданной коллекции показала эффективность 78,25%. Испытания на реальном почтовом ящике показали среднюю эффективность 88,50%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

Основное содержание диссертации опубликовано в следующих работах:

В научных журналах, рекомендованных ВАК:

1. Мироненко А.Н. Автоматическая фильтрация спама на базе сети формальных нейронов // Вестник омского университета. Омск, 2011, №2. С. 178-182.

2. Мироненко А.Н., Белим C.B. Многоуровневая система фильтрации спама//Информационные системы и технологии, 2011, №3. С. 125-128.

3. Мироненко А.Н., Белим C.B. Модель фильтрации спам-сообщений в потоке электронной почты // Вестник компьютерных и информационных технологий, 2011, Xsll. С. 34-36.

В других изданиях:

4. Мироненко А. Н. Метод распознавания спам-сообщений на основе заголовка письма // Математические структуры и моделирование, 2010, № 21. С. 133-140.

5. Мироненко А. Н., Белим C.B. Методы распознавания спам-сообщений на основе заголовка письма // Материалы III Международной научно-практической конференции «Актуальные проблемы безопасности информационных технологий». Красноярск, 2009. С. 75-79.

6. Мироненко А. Н. Выявление спам-сообщений в потоке электронной почты // Материалы IV Международной научно-практической конференции

17

«Актуальные проблемы безопасности информационных технологий». Красноярск, 2010. С. 83-86.

7. Мироненко А.Н., Белим C.B. Выявление спам-сообщений в потоке электронной почты // Материалы межвузовской научно-практической конференции «Информационные технологии и автоматизация управления». Омск, 2009. С. 130.

8. Мироненко А.Н. Принцип распознавания спам-сообщений на основе заголовка письма // Материалы II межвузовской научно-практической конференции «Информационные технологии и автоматизация управления». Омск, 2010. С. 110-112.

9. Мироненко А.Н. Модель фильтрации спама на основе многослойной нейронной сети // Материалы III межвузовской научно-практической конференции «Информационные технологии и автоматизация управления». Омск, 2011. С.56-57.

Подписано в печать 10.01.2012. Формат 60x84/16. Бумага писчая. Оперативный способ печати. Усл. печ. л. 1,0. Тираж 100 экз. Заказ № 003.

Отпечатано в «Полиграфическом центре КАН» тел.: (3812) 24-70-79, 8-904-585-98-84.

E-mail: pc_kan@mail.ru 644050, г. Омск, ул. Красный Путь, 30 Лицензия ПЛД № 58-47 от 21.04.97

Оглавление автор диссертации — кандидата технических наук Мироненко, Антон Николаевич

Введение.

Глава 1. Алгоритмы фильтрации почтовых сообщений.

1.1 Электронная почта и нежелательные рассылки.

1.2 Характеристики спама.

1.3 Классификация спам-сообщений.

1.4 Спам без вложений.

1.5 Спам со вложением.

1.6 Анализ уязвимости различных учетных записей электронной почты.

1.7 Массовые методы рассылки.

1.8 Ущерб, наносимый спамом.

1.9 Контрмеры.

1.10 Вывод.,.

Глава 2. Смешанный алгоритм фильтрации основанный на методе опорных векторов и нейронной сети.

2.1 Метод опорных векторов.

2.3 Обработка обучающего множества.

2.4 Алгоритм таксономии БОИБЬ.

2.5 Результаты обработки обучающего набора.

2.6 Вывод.

Глава 3. Спам-фильтр на основе двухслойного персептрона.

3.1 Формальные нейроны и персептрон на их основе.

3.2 Формирование двухслойного персептрона.

3.3 Результаты тестирования.

3.4 Вывод.

Глава 4. Спам-фильтр на основе персептрона Розенблатта и саморганизующихся карт Кохонена.

4.1 Персептрон Розенблата.

4.2 Самоорганизующиеся карты Кохонена.

4.3 Результаты тестирования.

4.4 Сравнительное тестирование.

4.5 Вывод.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Мироненко, Антон Николаевич

Актуальность работы. Одним из направлений исследований в области защиты информации является разработка методов и алгоритмов фильтрации потока электронной почты. В последнее время электронная почта стала одним из наиболее распространенных средств связи, управления и бизнеса. Она является достаточно совершенной в техническом отношении и недорогой альтернативой привычным средствам связи.

Вместе с развитием электронной почты увеличивается и количество угроз ее нормальному функционированию. Наиболее серьезной и важной проблемой стал так называемый спам, то есть нежелательные массовые рассылки сообщений, в основном рекламного характера. По сообщениям экспертов «Лаборатории Касперского», в 2010 году доля спама превысила 83% общего количества пересылаемых писем [29].

На сегодняшний день разработан ряд технологий построения фильтров - сервисов для отсеивания нежелательной корреспонденции. Все технологии можно разделить на настраиваемые вручную и интеллектуальные. Настраиваемые вручную фильтры основываются на списках доступа и настраиваются непосредственно пользователем, который выбирает либо нежелательные адреса, при политике пропуска по «черному списку» [45], либо разрешенные адреса, при политике пропуска по «белому списку»[46]. Однако ручные способы фильтрации нежелательных сообщений малоэффективны и требуют постоянного обновления списков доступа, создавая дополнительную нагрузку на пользователя.

Фильтры, построенные с использованием технологий искусственного интеллекта [42,51], требуют обучения только на начальном этапе, дообучаясь в дальнейшем самостоятельно, существенно снижая нагрузку на пользователя. Самым распространенным на сегодняшний день является фильтр на основе наивных байесовских классификаторов (Naive Bayes Classifiers) [75], в которых предполагается, что различные термы сообщения 4 независимы друг от друга. Максимальный результат, достигнутый байесовскими фильтрами, на сегодняшний день составляет порядка 95% отфильтрованного спама [82]. Для повышения эффективности байесовского фильтра необходимо учитывать семантические связи между термами, что требует привлечения методов семантического анализа, существенно повышает нагрузку на систему и увеличивает время работы самого фильтра при незначительном повышении эффективности фильтрации.

Другим подходом, получающим в последнее время все большее распространение, является использование нейросетей [62]. Преимущество нейросетевого подхода перед байесовским состоит в том, что не делается никаких предварительных предположений о характере нежелательных сообщений, а семантические связи учитываются автоматически. Наибольшее количество разработок связано с построением фильтра на основе многослойного персептрона. Однако такой подход встречается с рядом трудностей, связанных с выбором пороговых значений, которые задаются произвольно в некотором интервале. Эффективность фильтра существенно зависит от их выбора. При этом данная величина требует постоянной подстройки под изменяющийся характер нежелательных сообщений.

Также малоисследованным остается вопрос использования других нейросетей, хорошо зарекомендовавших себя в задачах распознавания образов, частным случаем которых является фильтрация спама.

Таким образом, развитие нейросетевого подхода, применительно к фильтрации нежелательных сообщений, является актуальной задачей.

Предметом исследования диссертационной работы является эффективность фильтрации спама в потоке почтовых сообщений при использовании нейросетевых технологий.

Объектом исследования являются фильтры нежелательных сообщений, использующие нейросетевые технологии.

Целью диссертационной работы повышение эффективности фильтрации нежелательных сообщений в потоке электронной почты с использованием интеллектуальных систем.

Для достижения поставленной цели были решены следующие задачи:

1. Разработка смешанного алгоритма на основе совмещения метода опорных векторов и нейросетевого подхода.

2. Реализация и апробация смешанного спам-фильтра на основе двухслойного персептрона.

3. Реализация и апробация смешанного спам-фильтра на основе персептрона Розенблатта.

4. Реализация и апробация смешанного спам-фильтра на основе самоорганизующихся карт Кохонена.

Методы исследования. В диссертационной работе использованы методы построения нейронных сетей, алгоритмы кластеризации и методы системного анализа.

Научная новизна.

1. Впервые совместно использованы метод опорных векторов и нейросети для построения спам-фильтра.

2. Впервые для фильтрации писем использованы совместно алгоритм таксономии и двухслойный персептрон.

3. Впервые для фильтрации писем использованы совместно алгоритм таксономии и персептрон Розенблатта.

4. Впервые для фильтрации писем использованы совместно алгоритм таксономии и самоорганизующиеся карты Кохонена.

Практическая значимость работы заключается в возможности разработки прикладных систем индивидуальной зашиты от нежелательной корреспонденции для персональных компьютеров.

Основные положения, выносимые на защиту.

1. Алгоритм фильтрации спам-сообщеиий на основе совместного использования алгоритма таксономии и нейросетевого подхода.

2. Система фильтрации спам-сообщений на основе алгоритма таксономии БОЯБЬ и двухслойного персептрона.

3. Система фильтрации спам-сообщений на основе алгоритма таксономии БОЯБЬ и персептрона Розенблатта.

4. Система фильтрации спам-сообщений на основе алгоритма таксономии БОКЕЬ и самоорганизующихся карт Кохонена.

Апробация работы. Основные положения диссертационной работы представлялись и обсуждались на следующих конференциях: «Актуальные проблемы безопасности информационных технологий». (Красноярск, 2009, 2010), «Информационные технологии и автоматизация управления» (Омск, 2009, 2010), а также были внедрены в деятельность трех организаций.

Публикации. Результаты диссертационной работы были представлены в 9 публикациях: в 6 научных статьях, в том числе 3 статьи - в журналах из списка периодических изданий, рекомендованных ВАК.

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 96 страниц основного текста, 38 рисунков и 11 таблиц. Список литературы включает 100 наименований.

Заключение диссертация на тему "Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей"

4.5 Вывод

Исходя из результатов этой главы, можно сделать следующие выводы:

1. В разработанной системе фильтрации на основе совмещения метода опорных векторов и нейро сетевого подхода возможно использование персептрона Розенблатта и нейронной сети на основе карт Кохонена.

2. Система фильтрации спам-сообщений на основе персептрона Розенблатта приводит к ошибкам первого рода в пределах 0%.

3. Система фильтрации спам-сообщений на основе персептрона Розенблатта приводит к ошибкам второго рода в пределах 1.48%.

4. Система фильтрации спам-сообщений на основе карт Кохонена приводит к ошибкам первого рода в пределах 0%.

5. Система фильтрации спам-сообщений на основе карт Кохонена приводит к ошибкам второго рода в пределах 1.11%.

6. Полученная система на основе персептрона Розенблатта и карт Кохонена обладает высокой скоростью обучения и достигает результатов сравнимых с широко распространенными коммерческими системами через 5 дней.

Заключение

В заключении приведем основные результаты диссертационной работы:

1. Разработан смешанный спам-фильтр на основе совмещения метода опорных векторов и нейросетевого подхода. В методе опорных векторов применен алгоритм таксономии РСЖЕЬ. Такой подход позволяет одновременно существенно уменьшить как размерность пространства опорных векторов, так и количество входных синапсов нейронной сети. В результате заметно уменьшается время работы фильтра. Основным преимуществом предлагаемого алгоритма фильтрации является его скорость работы, в среднем на обработку одного входящего сообщения затрачивается 1,58 секунды, при сохранении приемлемого уровня ложных срабатываний и качества фильтрации.

2. Реализован смешанный спам-фильтр на основе двухслойного персептрона. -Апробация на специально созданной коллекции показала эффективность 80,33%. Испытания на реальном почтовом ящике показали среднюю эффективность 89,07%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

3. Реализован смешанный спам-фильтр на основе персептрона Розенблатта. Апробация на специально созданной коллекции показала эффективность 80,82%. Испытания на реальном почтовом ящике показали среднюю эффективность 91,79%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

4. Реализован смешанный спам-фильтр на основе самоорганизующихся карт Кохонена. Апробация на специально созданной коллекции показала эффективность 78,25%. Испытания на реальном почтовом ящике показали среднюю эффективность 88,50%. Следует также отметить рост эффективности фильтра с течением времени вследствие дообучения.

Основные публикации по теме диссертации

Журналы из списка, рекомендованного ВАК:

1. Мироненко А.Н. Автоматическая фильтрация спама на базе сети формальных нейронов // Вестник омского университета. Омск, 2011, №2. С. 178-182

2. Мироненко А.Н., Белим C.B. Многоуровневая система фильтрации спама // Информационные системы и технологии, 2011, №3. С. 125-128

3. Мироненко А.Н., Белим C.B. Модель фильтрации спам-сообщений в потоке электронной почты // Вестник компьютерных и информационных технологий, 2011, №11. С.34-36.

В других изданиях:

4. Мироненко А. Н. Метод распознавания спам-сообщений на основе заголовка письма // Математические структуры и моделирование, 2010, №21. СЛ 33-140.

5. Мироненко А. Н., Белим C.B. Методы распознавания спам-сообщений на основе заголовка письма // Материалы III Международной научно-практической конференции «Актуальные проблемы безопасности информационных технологий». Красноярск, 2009. С. 75-79.

6. Мироненко А. Н. Выявление спам-сообщений в потоке электронной почты // Материалы IV Международной научно-практической конференции «Актуальные проблемы безопасности информационных технологий». Красноярск, 2010. С. 83-86.

7. Мироненко А.Н., Белим C.B. Выявление спам-сообщений в потоке электронной почты // Материалы межвузовской научнопрактической конференции «Информационные технологии и автоматизация управления». Омск, 2009. С. 130.

8. Мироненко А.Н. Принцип распознавания спам-сообщений на основе заголовка письма // Материалы II межвузовской научно-практической конференции «Информационные технологии и автоматизация управления». Омск, 2010. С. 110-112.

9. Мироненко А.Н. Модель фильтрации спама на основе многослойной нейронной сети // Материалы III межвузовской научно-практической конференции «Информационные технологии и автоматизация управления». Омск, 2011. С. 56-57.

Библиография Мироненко, Антон Николаевич, диссертация по теме Методы и системы защиты информации, информационная безопасность

1. Акулич И.Л. Глава 3. Задачи нелинейного программирования // Математическое программирование в примерах и задачах— М.: Высшая школа, 1986. —С. 319.

2. Алгоритм обратного распространения ошибки.

3. URL: http://www.aiportal.ru/articles/neural-networks/backpropagation.html

4. Бугров Я. С., Никольский С. М. Высшая математика. Дифференциальные уравнения. Кратные интегралы. Ряды. Функции комплексного переменного — М.: Наука, 1985. — С. 464.

5. Ветров ДП., Кропотов Д.А. Алгоритмы выбора моделей и построения коллективных решений в задачах классификации, основанные на принципе устойчивости 2006. 112 с.

6. Гришков М. OpenBSD // Системный администратор. 2008. - № 8.-С. 60-63.

7. Головко В.А. Нейронные сети: обучение, организация и применение. М., ИПРЖР, 2001.

8. Горбунова Е. О., Доррер М. Г., Жуков Л. А. и др. Методы нейроинформатики / Под. ред. А. Н. Горбаня; отв. за выпуск М. Г. Доррер. КГТУ, Красноярск, 1998. 205 с.

9. Горбань А.Н., Обучение нейронных сетей, М.: СП ПараГраф,1991.

10. Горбань А.Н., В.Л.Дунин-Барковский, А.Н.Кирдин и др. Нейроинформатика, Отв. Ред. Новиков Е.А., РАН, Сиб. Отд., Институт выч. Моделирования Новосибирск: Наука, 1998.

11. Гордиенко П.В. Стратегии контрастирования // Нейроинформатика и ее приложения. Тезисы докладов 5 Всероссийского семинара, 3-5 октября 1997 г. / Под ред. А.Н.Горбаня. — Красноярск: изд. КГТУ, 1997. — С. 69.

12. Доля А. Тенденции развития спама и средства борьбы с ним // Компьютер Пресс. -2006. № 10. - С. 4-7.

13. Ежов А., Шумский С., Нейрокомпьютинг и его применение в экономике и бизнесе, 1998.

14. Елкин Е. А., Елкина В. Н., Загоруйко Н. Г. О возможности применения методов распознавания в палеонтологии // Геология и геофизика. —1967. — №9. С. 75-78.

15. Елкина В. Н., Загоруйко Н. Г., Куклин А. П., Комаровский Э. Д. Типы ртутоносных и оловоносных территорий Чукотки // Колыма. Магадан, 1972. —№4.-С. 37-40.

16. Елкина В. Н., Загоруйко Н. Г., Новоселов Ю. А. Математические проблемы агроинформатики. Новосибирск: изд. Ин-та математики СО РАН, 1987.

17. Загоруйко Н. Г. Прикладные методы анализа данных и знаний // Издательство института математики, Новосибирск, 1999. С. 270.

18. Загоруйко Н. Г., Елкина В. Н., Емельянов С. В., Лбов Г. С. Пакет прикладных программ ОТЭКС. —М.: Финансы и статистика, 1986.

19. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск: ИМ СО РАН, 1999.

20. Загоруйко Н. Г., Ёлкина В. Н., Лбов Г. С. Алгоритмы обнаружения эмпирических закономерностей. Новосибирск: Наука, 1985.

21. Загоруйко Н. Г., Заславская Т. И. Применение методов распознавания образов в социологии. Новосибирск: Наука, 1968.

22. Заенцев И. В. Нейронные сети: основные модели / Учебное пособие к курсу «Нейронные сети» для студентов 5 курса магистратуры к. электроники физического факультета Воронежского Государственного университета.

23. Зорич В. А. Математический анализ. Часть 1 — изд. 2-е, испр. и доп. —М.: ФАЗИС, 1997.

24. Круглов В.В., Борисов В.В. Искусственные нейронные сети. -М.: Горячая линия Телеком, 2002. -С. 382.

25. Короткий С. Нейронные сети: алгоритм обратного распространения. URL: http://www.orc.ru/~stasson/n2.zip

26. Короткий С. Нейронные сети: основные положения.

27. URL: http://www.orc.ru/~stasson/nl .zip

28. Короткий С. Нейронные сети: обучение без учителя.

29. URL: http://www.orc.ru/~stasson/n3.zip

30. Кохонен, Т. Самоорганизующиеся карты. М.: БИНОМ. Лаборатория знаний, 2008. -С. 655.

31. URL: http://www.spamtest.ru.

32. Методы распознавания спама.

33. URL: http://exortus.ru/borbaspam2.php

34. Минский М., Пайперт С. Персептроны. М.: Мир, 1971.

35. Мкртчян С.О. Нейроны и нейронные сети (Введение в теорию формальных нейронов и нейронных сетей). М: Энергия, 1971. -С. 232.34. Нейронные сети Кохонена.

36. URL: http ://www. aiportal. ru/articles/neural -networks/networkkohonen.html

37. Никрасов A.T. Антиспамовые фильтры // Компьютер Пресс. -2005,-№2.-С. 9-15.

38. Оконешников A.B. Комбинированный алгоритм обучения искусственных нейронных сетей прямого распространения.

39. URL: http://lib.khsu.ru/cgiin/libredir?i=53 6&p=/khsusiteparts/khsu/publishing

40. Vestnik/Vestnik99/kombalgorobucheniskneyr.zip

41. Оконешников A.B. Использование алгоритма обратного функционирования для обучения искусственных нейронных сетей. Вестник Хар. ун-та. Сер.1, Мат.,Инф., 1998. С.81-84.

42. Орлов А.И. Прикладная статистика. -М.: Издательский дом Экзамен, 2004.

43. Осовский, С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. -С. 244.

44. Ососков Г.А., Филимонов A.B. Динамическая оптимизация структуры персептронов. Сообщение ОИЯИ PI 1-2002-274, Дубна, 2002.

45. Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям. СПб.: Питер, 2009. - С. 624.

46. Рассел С., Норвиг П. Искусственный интеллект: современный подход. М.: Вильяме, 2007. С. 1408.

47. Редько В.Г. Искусственные нейронные сети. Формальный нейрон. Основные нейросетевые парадигмы.1. URL:http://www.keldysh.ru/pages/BioCyber/Lectures/Lecturel 1 /Lecture 11. html

48. Розенблатт Ф. Принципы нейродинамики: перцептроны и теория механизмов мозга. — М.: Мир, 1965.

49. Слепов О. Борьба со спамом // Jetinfo 2004. - № 8. - С. 3-5.

50. Способы борьбы со спамом. -URL:http://www.microsoft.com/Rus/Government/Newsletters/Issue23/03.mspx

51. Супрунов С. AHTHBipyc + Антиспам Dr. Web для почтовых серверов UNIX // Системный администратор. 2007. - № 6. - С. 54-55.

52. Суровцев И.С., Клюкин В.И., Пивоварова Р.П. Нейронные сети.-Воронеж: ВГУ, 1994. С. 225.

53. Терехов С.А. Нейросетевые информационные модели сложных инженерных систем.

54. URL:http://www.91 .ru/Education/Books/Neural%20Net/Bmst/Bookl /gl4/g 14.htm

55. Терехов С.А. Лекции по теории и приложениям искусственных нейронных сетей // Лаборатотория Искусственных Нейронных Сетей НТО-2, ВНИИТФ, Снежинск

56. Уфимцев М.В. Методы анализа данных: Учебное пособие. — М.: Издательский дом МАКС ПРЕСС, 2007

57. Уоссермен, Ф. Нейрокомпьютерная техника: Теория и практика = Neural Computing. Theory and Practice — M.: Мир, 1992. — С. 240. — ISBN 5-03-002115-9. URL: http://evrika.tsi.lv/index.php?name=texts&file=show&f=410

58. Хайкин С. Нейронные сети: полный курс, 2-е издание. Исправленное: Пер. с англ. М.: Издательский дом «Вильсямс», 2006. — С. 1104.

59. Хайкин, С. Нейронные сети: полный курс / С. Хайкин. М.: Вильяме, 2005. — С. 1104.

60. Шибзухов З.М. Некоторые вопросы теоретической нейроинформатики. В кн.: XIII Всероссийская научно-техническая конференция «Нейроинформатика-2011». Лекции по нейроинформатике. М., НИЯУ МИФИ, 2010. С.44-72.

61. Шляхтина С. Обзор защиты от вирусов и других вредоносных программ // Компьютер Пресс. 2006. - № 10. - С. 13-15.

62. Яхьяева Г.Э. Основы теории нейронных сетей. Интернет-университет информационных технологий, изд-во «Открытые системы».

63. Almeida, М. В., Braga, А. P., Braga, J. P.: SVM-KM: speeding SVMs learning with a priori cluster selection and k-means. In: Proceedings of the 6th Brazilian Symposium on Neural Networks, 2000. 162-167

64. Anirudh Ramachandran, Nick Feamster : Understanding the network level behaviour of spammers,SIGCOMM 06, September ,2006. 11-16

65. Back. A. Hashcash, May 1997.

66. URL: http://www.cypherspace.org/hashcash.

67. Bartlett P., Shawe-Taylor J. Generalization performance of support vector machines and other pattern classifiers // Advances in Kernel Methods MIT Press, Cambridge, USA,1998.

68. Bishop C.M., et al. Real-Time control of a Tokamak plasma using neural networks. Neural Computation, v.7, 1995, pp.206-217.

69. Burghouts G.J., Geusebroek J.M. Performance evaluation of local colour invariants // Computer Vision and Image Understanding. 2009. - V. 113, -P. 48-62.

70. Burges C.J.C. A tutorial on support vector machines for pattern recognition. // Data Mining and Knowledge Discovery, 1998. — p. 955-974.

71. Cadieu C, Kouh M, Pasupathy A, Conner CE, Riesenhuber M, and Poggio T. A Model of V4 Shape Selectivity and Invariance. J Neurophysiol 98: 1733-1750, 2007.

72. Carl Eklund: Spam -from nuisance to Internet Infestation, Peer to Peer and SPAM in the Internet Raimo Kantola's technical report, 126-134, 2004.

73. Caudill, M. The Kohonen Model. Neural Network Primer. AI Expert, 1990,25-31.

74. Charalambous C.,"Conjugate gradient algorithm for efficient training of artificial neural networks," IEEE Proceedings, vol. 139, no. 3, pp. 301-310, 1992.

75. Dhinaharan Nagamalai, Beatrice Cynthia Dhinakaran, Jae-Kwang Lee: Multi layer Approach to defend DDoS attacks caused by Spam, IEEE MUE 07, pp 97-102, April 2007.

76. Edgar E.Peters. Fractal Market Analysis: Applying Chaos Theory to Investment and Economics. Wiley Finance, 1994.

77. Estebon, M. D.; Tech, V. Perceptrons: An Associative Learning Network. URL: http://ei.cs.vt.edu/~history/Perceptrons.Estebon.html

78. Fine S., Scheinberg K. INCAS: An incremental active set method for SVM: Tech.rep.: 2002. URL: http://citeseer.ist.psu.edu/fine02incas.html.

79. Friedman N., Geiger D., Goldszmidt M., Bayesian Network Classifiers // Machine Learning. 1997. 29. P. 131-165.

80. Frye. R.C. Adaptive neural network algorithms for computing proximity effect corrections. J.Vac.Sci.Technol. B, V.9, n.6, Nov/Dec 1991, pp.3054-3058.

81. Graham P. Better Bayesian Filtering // Proceedings of the 2003 Spam Conference, Cambridge, 2003. URL: http://paulgraham.com/better.html.

82. Jae Yeon Jung, Emil sit: An empirical study of spam traffic and the use of DNS Black lists, ACM SIGCOMM Internet measurement conferences, pp 370-75, 2004.

83. Juho V. Data Mining Techniques Baseg on the Self Organized Map.

84. Kohonen T. Self-Organizing Maps (Third Extended Edition), New York, 2001, 501 pages.

85. Kohonen T. "Self-Organizing Maps", Springer, 1995.

86. Kohonen T. "Self-Organizing Maps"(2-nd edition), Springer, 1997.

87. Kosko. B. Neural Networks and Fuzzy Systems. A Dynamical Systems Approach to Machine Intelligence. Prentice Hall, Englewood Cliffs, 1992.

88. Metsis V. Spam Filtering with Naive Bayes // Third Conference on Email and Anti-Spam. USA, 2006.

89. Mikolajczyk K., Schmid C. A performance evaluation of local descriptors //IEEE Transactions on Pattern Analysis and Machine Intelligence. -2005.-V. 27,-No. 10.-P.1615 1630.

90. Mohamad H.Hassoun. Fundamentals of Artificial Neural Networks. MIT Press, Cambridge, Massachusetts, 1995.

91. Nigerian fraud mail Gallery. URL: http://www.potifos.com/fraud/

92. Raul Rojas Neural Networks A Systematic Introduction. — Springer-Verlag, Berlin, New-York: 1996. — C. 502.

93. Rish I. An empirical study of the naive Bayes classifier // IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. 2001.

94. Serge Gauthronet and Etienne Drouard. Unsolicited commercial communications and data protection, 2001.

95. Shane Hird. Technical solutions for controlling spam. In proceedings of AUUG2002, September 2002.

96. Shen W. M. Distributed manufacturing scheduling using intelligent agents. IEEE Intelligent Systems, 17(1), 2002. 88-94.

97. Smola A., Schoelkopf B. A tutorial on support vector regression, 1998. URL: http://citeseer.ist.psu.edu/smola98tutorial.html.

98. Sutton, R. S. and Barto A. G. Reinforcement Learning: An Introduction. The MIT Press, Cambridge, MA, 1998.

99. Specht, D. Probabilistic Neural Networks. Neural Networks, 1990, 109-118.

100. Specht, D. A General Regression Neural Network. IEEE Trans, on Neural Networks, Nov. 1991, 568-576.

101. Specht, D. The General Regression Neural Network Rediscovered. Neural Networks, 1993, V.6, pp.1033-1034.

102. Swingler K., Applying Neural Networks, A Practical Guide, Academic Press, 1996.

103. Tuytelaars T., Mikolajczyk K. Local Invariant Feature Detectors: A Survey // Foundations and Trends® in Computer Graphics and Vision. 2008. -V. 3. - No 3, -"P. 177-280.

104. Vapnik V., Chapelle O. Bounds on error expectation for support vector machines // Neural Computation. 2000. Vol. 12, no. 9. Pp. 2013-2036. URL: http://citeseer.ist.psu.edu/vapnik99bounds.html.

105. Wolpert D.H. Stacked Generalization. Neural Networks, 1992, v.5, pp.241-259.

106. Yang Y. An Evaluation of Statistical Approaches to Text Categorization. // Journal of Information Retrieval, 1999 —V.l —p. 67—88.961.*N