автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей

кандидата технических наук
Мезенцева, Екатерина Михайловна
город
Самара
год
2013
специальность ВАК РФ
05.12.13
Диссертация по радиотехнике и связи на тему «Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей»

Автореферат диссертации по теме "Исследование и разработка статистических алгоритмов фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей"

005534<эоэ

На правах рукописи

У'

Мезенцева Екатерина Михайловна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА СТАТИСТИЧЕСКИХ АЛГОРИТМОВ ФИЛЬТРАЦИИ СООБЩЕНИЙ В ИНТЕРАКТИВНЫХ РЕСУРСАХ ИНФОКОММУНИКАЦИОННЫХ СЕТЕЙ

Специальность 05.12.13 - Системы, сети и устройства телекоммуникаций

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

1 о окт ш

Самара 2013

005534639

Работа выполнена в Федеральном государственном образовательном бюджетном учреждении высшего профессионального образования «Поволжский государственный университет телекоммуникаций и информатики» (ФГОБУ ВПО ПГУТИ).

Научный руководитель: доктор технических наук, профессор

Тарасов Вениамин Николаевич

Официальные оппоненты: Кораблин Михаил Александрович

доктор технических наук, профессор ФГОБУ ВПО ПГУТИ, заведующий кафедрой «Информационные системы и технологии»

Орлов Сергей Павлович

доктор технических наук, профессор ФГБОУ ВПО «Самарский государственный технический университет», заведующий кафедрой «Вычислительная техника»

Ведущая организация: ФГБОУ ВПО «Самарский государственный

университет», г. Самара.

Защита диссертации состоится 25 октября в 14.00 часов на заседании диссертационного совета Д219.003.02 при Поволжском государственном университете телекоммуникаций и информатики по адресу: 443010, г. Самара, ул. Л. Толстого, д. 23.

С диссертацией можно ознакомиться в библиотеке ФГОБУ ВПО ПГУТИ. Автореферат разослан 23 сентября 2013 г.

Ученый секретарь

диссертационного совета

доктор технических наук, профессор

Мишин Д.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Задача фильтрации спама в глобальных информационных сетях в настоящее время является весьма актуальной. Это связано с бурным развитием социального общения с помощью сетей телекоммуникаций. Спам-сообщения резко уменьшают полезную компоненту трафика в сетях, приводят к перегрузкам хостинговых компьютеров, снижают доступность и целостность информации. Слабое развитие законодательной базы по пресечению спама вызывает необходимость разработки научных методов анализа спама, инструментальных средств выявления и фильтрации нежелательных сообщений. Особое внимание следует уделять спаму в интерактивных частях сайтов в сети Интернет.

В настоящее время, нет универсальных решений, предназначенных для фильтрации спама в интерактивных разделах сайтов в сети Интернет. Используется небольшое количество инструментов, препятствующих автоматическому размещению сообщений на сайтах. Например, плагины для систем управления контентом, являются узкоспециализированными решениями. Широко распространенный и полностью автоматизированный публичный тест Тьюринга для идентификации компьютеров (САРТСНА) представляет собой ручной метод защиты сайтов от спама.

Другие методы фильтрации спама, которые можно использовать на интерактивных сайтах, известны по опыту фильтрации в электронной почте. Это — построение черных и серых списков, контент-анализ текста, контроль дубликатов, анализ заголовков пользовательских сообщений. Однако наиболее эффективными являются многокомпонентные антиспам-системы, сочетающие в себе несколько методов детектирования спама.

С 2000-х годов ведутся активные исследования в области разработки программных систем обнаружения почтового спама. Вопросу противодействия спаму посвящены работы Пола Греема (Paul Graham), Дж. Здзиарски (Jonathan Zdziarski), Дж. Грэм-Камминга (John Graham-Cumming), У. Йеразуниса (William S. Yerazunis), Г. Робинсона (Gary Robinson), И. С. Ашманова и др. Все разработанные алгоритмы и системы используют базовые принципы фильтрации электронной почты на основе классификации текстовой информации, содержащейся в письме.

В связи с этим, развитие многокомпонентных антиспамовых систем для фильтрации сообщений в интерактивных ресурсах инфокоммуникационных сетей является актуальной задачей и представляет научный и практический интерес в области защиты информации в сетях телекоммуникаций в части обеспечения доступности и целостности данных.

Содержание диссертации соответствует пункту 10 паспорта специальности 05.12.13 — «Исследование и разработка новых методов защиты информации и обеспечение информационной безопасности в сетях, системах и устройствах телекоммуникаций».

Цель и задачи работы. Целью диссертационной работы является повышение качества фильтрации спама в сообщениях интерактивных разделов

сайтов на основе совмещения работы классификаторов Байеса и Фишера. Предложенная программная реализация должна обладать высокой точностью детектирования спама при низком количестве ложных срабатываний и пропуске спама, а также высокой производительностью на уровне сервера.

Для достижения поставленной цели решены следующие научные задачи:

1. Разработка концепции построения непрерывно обучающейся системы фильтрации спам-сообщений в сетях телекоммуникаций.

2. Разработка многоуровневой архитектуры системы фильтрации сообщений, которая включает в себя:

- этап нормализации поступившего сообщения с его предварительной подготовкой для обеспечения фильтрации с применением морфологических приемов;

- модификацию статистических алгоритмов классификации сообщений применительно к интерактивным разделам сайтов на основе совмещения методов Байеса и Фишера.

3. Повышение качества работы классификаторов на основе анализа подмножества пересечения множеств сообщений, распознаваемых обоими используемыми статистическими методами.

4. Интеграция разработанной системы фильтрации сообщений с системой управления сайтом.

5. Проведение тестирования по оценке производительности и экспериментальное использование разработанной системы фильтрации сообщений на форумах крупных ВУЗов.

В соответствии с целями и задачами диссертационной работы определены её объект и предмет.

Объектом исследования является процесс фильтрации спама в сообщениях и контенте интерактивных ресурсов инфокоммуникационных сетей.

Предметом исследования являются алгоритмы фильтрации сообщений на сайтах на основе статистических методов Байеса и Фишера с оценкой рисков при принятии решений.

Методы исследования. Клиент-серверные технологии, технологии web и объектно-ориентированного программирования, методы учета морфологии слов, методы вычислительной математики, теории вероятностей и математической статистики.

Научная новизна результатов диссертации заключается в том, что впервые предложены:

1) Статистический алгоритм фильтрации спама в сообщениях интерактивных ресурсов глобальных сетей, основанный на сочетании методов Байеса и Фишера и позволяющий оценить их качество в отдельности.

2) Методы предварительной подготовки поступивших сообщений, включающих модули предобработки текста, разбиения на отдельные слова с учетом морфологии слов и словосочетания для повышения качества фильтрации сообщений.

3) Алгоритм анализа пересечения подмножеств сообщений, распознаваемых методами Байеса и Фишера с определением абсолютной меры

их близости — числа общих документов для оценки качества обученности совмещенного фильтра.

Достоверность результатов работы. Обоснованность и достоверность результатов работы обеспечивается корректностью применения используемого аналитического аппарата. Для сравнения результатов работы алгоритмов Байеса и Фишера на основе анализа пересечения их подмножеств использованы базы данных сообщений форумов реальных сайтов ВУЗов. Достоверность результатов подтверждается экспериментальными исследованиями и тестированием разработанной системы фильтрации спама на форумах.

Практическая значимость результатов диссертации состоит в том, что предложенные алгоритмы реализованы в виде программной системы, которая применяется для фильтрации спама в интерактивных разделах Интернета, что позволяет защитить информацию в части обеспечения доступности и целостности данных. Разработанный программный комплекс многоуровневой системы фильтрации сообщений для форумов пригоден для отслеживания спам-сообщений в любой базе данных, поэтому может применяться не только для отсеивания спама на интерактивных сайтах, но и в сообщениях пользователей услуг операторов связи.

Основные результаты, полученные автором и выносимые на защиту:

1. Статистический алгоритм фильтрации спама в сообщениях на интерактивных \уеЬ-сайтах, основанный на сочетании методов Байеса и Фишера, совокупная работа которых повышает качество фильтрации.

2. Методы подготовки поступивших сообщений для дальнейшего их анализа, включая предобработку текста и разбиение текста на отдельные слова и словосочетания, с приведением слов к нормальной форме при помощи специализированных словарей.

3. Алгоритм анализа пересечения подмножеств сообщений, распознаваемых методами Байеса и Фишера на основе абсолютной меры близости данных подмножеств для оценки качества совмещенного фильтра.

4. Результаты экспериментальных исследований по оценке быстродействия алгоритмов фильтрации сообщений методами Байеса и Фишера, каждого в отдельности и совмещенного алгоритма, а также производительности совмещенного фильтра.

Личный вклад автора. Основные научные результаты теоретических и прикладных исследований, выводы, изложенные в диссертации, получены автором самостоятельно. В работах, опубликованных в соавторстве, соискателю принадлежит часть, связанная с постановкой задач, разработкой алгоритмов, программной реализацией системы фильтрации сообщений и проведением экспериментальных исследований.

Внедрение результатов диссертационной работы. Результаты диссертационной работы внедрены в Самарском государственном аэрокосмическом университете имени академика С. П. Королева (национальный исследовательский университет), в Оренбургском государственном университете, у оператора связи ОАО «Телекоммуникационные сети», в филиале ОАО «Газпромбанк» в г. Самаре и в

Поволжском государственном университете телекоммуникаций и информатики, что подтверждено соответствующими актами внедрения.

Апробация работы. Основные научные и практические результаты диссертационной работы докладывались и обсуждались на следующих конференциях:

- XI Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций» (г. Уфа, 2010);

- X Международной научно-технической конференции «Проблемы информатики в образовании, управлении, экономике и технике» (г. Пенза, 2010);

- II Всероссийской научно-практической конференции «Новые технологии в промышленности, науке и образовании» (г. Оренбург, 2010);

- Международной научной конференции «Технико-экономические проблемы инжиниринга в России, Узбекистане, Украине» (г. Самара, 2011);

- X Международной научно-технической конференции «Физика и технические приложения волновых процессов» (г. Самара, 2011);

- XII Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (г. Казань, 2011);

- Международном Форуме «Россия как трансформирующееся общество: экономика, культура, управление» (г. Оренбург, 2011);

- XVIII, XIX, XX Российской научной конференции профессорско-преподавательского состава, научных сотрудников и аспирантов (ФГОБУ ВПО ПГУТИ, г. Самара, 2011-2013 гг.).

Публикации. Основные теоретические и практические результаты диссертации опубликованы в 14 работах и в 2 свидетельствах о регистрации программы для ЭВМ. Публикации включают 3 работы в изданиях из перечня ВАК РФ; 1 статью из прочего издания; 3 статьи, опубликованные в трудах международных научных конференций; 1 статью, опубликованную в трудах российской научной конференции и 6 тезисов докладов.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений. Работа содержит 145 страниц машинописного текста, 45 рисунков, 15 таблиц. В списке литературы 80 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, сформулированы цель и задачи работы и научная новизна, аргументирована практическая ценность полученных результатов.

В первой главе рассмотрены факторы, которые необходимо учитывать при проектировании фильтров, защищающих пользователей от нежелательных сообщений. В ходе рассмотрения данного вопроса описана организация защиты информации в сетях телекоммуникаций и сайтов организаций. Рассмотрены негативные влияния размещения спам-сообщений в интерактивных разделах сайтов, законодательные и технические меры защиты от спама, методы, модели и существующие системы защиты сайта от спама. Если почтовый спам признали опасностью все и с попытками рассылки почтового спама

собственными клиентами борются и провайдеры интернет-услуг, и хостинговые компании, то со спамом в интерактивных частях web-сайтов борются администраторы и разработчики, удаляя спам вручную, либо используя примитивные малоэффективные методы борьбы.

Приведены основные способы распространения спама и его виды на сайтах. Условно выделяют следующие виды спама - это рекламный, антирекламный, сообщения с целью выманивания денег, сообщения, содержащие компьютерные вирусы. Далее в первой главе описывается причиняемый вред. Спам перегружает серверы и машины пользователей, представляет серьезную угрозу для информационной безопасности web-приложений. служит источником распространения компьютерных вирусов и является инструментом мошенничества в инфокоммуникационных сетях (сети Интернет, сотовой связи и т.п.). Отражены законодательные и технические меры защиты сайтов от спама.

Законодательство Российской Федерации содержит ряд норм, прямо или косвенно направленных на противодействие распространению спама.

В современной научной литературе нет подробных исследований воздействия спама на показатели производительности сетей. Интуитивно понятно, что поток спама не сильно увеличивает нагрузку на каналы связи, но увеличивает нагрузку на такие узлы сети, как web-серверы, тем самым, зачастую, затрудняя доступ к web-сайтам.

К современным средствам защиты от спама относится фильтрация спама. Можно выделить две основные группы методов, используемых при решении задачи фильтрации спама:

- традиционные методы — это методы, для которых модель классификации определяется экспертом;

- методы на основе обучения - это методы, для которых модель классификации строится с помощью методов интеллектуального анализа данных (Data Mining).

В результате проведенного исследования сделан вывод о том, что в настоящее время не существует универсальных систем фильтрации спам-сообщений на сайтах. Поэтому необходима разработка новой архитектуры системы классификации сообщений, методов и алгоритмов фильтрации, позволяющих более эффективно обеспечивать фильтрацию спама.

Во второй главе предлагается новая - многомодульная система построения спам-фильтра на сайтах. Ее достоинство состоит в том, что она позволяет гибко изменять алгоритмы работы, за счет реализации в виде отдельных модулей.

Описывается новый подход к фильтрации спама, включающий в себя глубокую проработку этапа предварительной подготовки поступившего сообщения для последующего анализа, совместное использование методов Байеса и Фишера, позволяющих в значительной степени уменьшить количество ложных «тревог» и пропуск спама. Общая схема процесса фильтрации спама показана на рис.1.

Этап предобработки сообщения включает в себя:

1) модуль предобработки текста, где происходит удаление всех Ыт1-тегов, а также при анализе не учитываются слова, имеющие коэффициент спамности 0.5;

2) модули выделения признаков сообщения, представленные в свою

1) Модуль разбиения на отдельные слова. Текст разбивается на отдельные слова с учетом морфологии, т.е. слова в разных словоформах определяются как идентичные. Например, существительные приводятся к именительному падежу, единственному числу (в нормальную форму). Таким образом, если в тексте встречаются слова в разных формах, они распознаются фильтром не как отдельные слова, а как одно слово.

2) Модуль разбиения на словосочетания. В фильтре реализован алгоритм разбиения на словосочетания, который выбирает редко-встречающиеся комбинации словосочетаний в тексте. Для этого каждое слово группируется с последним словом текста, образуя словосочетания. Для каждого сообщения мы получаем п-1 дополнительных признаков с наибольшей вероятностью присущих только данному тексту, где п — количество слов в тексте.

На следующем этапе составляются частотные словари, т.е. для каждого слова и словосочетания (признака) вычисляются следующие параметры: частота использования признака в сообщениях спама (не спама); частота появления данного признака в сообщении категории спам (не спам); общая частота встречаемости сообщения.

Основная идея классификации сообщений заключается в выделении всех признаков, вычислении оценок вероятностей для отдельных признаков и дальнейшем объединении всех вычисленных вероятностей.

Перед вычислением объединенных вероятностей документа (сообщения), необходимо вычислить оценку вероятности того, что отдельное слово документа принадлежит к одной из категорий.

Пусть Ра - количество сообщений с признаком /в группе спама; Рь-количество сообщений с признаком / в группе не спама. Тогда статистическая вероятность появления признака / в спам-сообщении вычисляется как

Рш = Ра, ^а, + Г,)() , (1)

а вероятность появления признака < в не спам-сообщении -

Ры=Гы'{Ры + Гы). (2)

очередь двумя модулями:

Поток сообщений из , БД форума

Предобработка тскстя

X

|*к)Би»к* текста на слива с учетом морфологии слов

Рягбинка ггкпа ыя

С.40В1К'0*1С1*ЫИИ

£ 1 а.1

1° 3 о

Онределеиие суммарных коэффициентов «снамиосги» и гп репам и о.-ти.> аршпаьов

Оирсдс-кныс ибьммигнйЫ! ИС|»ОЯТНОСТСН сообщения

X

Определение иерощиосгси

ио »1С юлам Фишера N Баисса Принятие решения

Определение пересечений решений ВПР. Оценка ка-чсс1«а работы фильтров

Соъраисимс результатов а БД фильтра

Рис. 1. Схема процесса фильтрации спама

Заметим, что приведенные выше формулы дают точный результат только для тех признаков, которые фильтр уже встречал в обеих категориях. Это делает спам-фильтр слишком чувствительным на ранних этапах обучения в отношении к редко встречающимся словам. Для решения этой проблемы, необходимо определить средневзвешенные оценки вероятностей с использованием априорной вероятности Р и веса и>, приданного ей, а также

вероятностей (1) и (2). При этом рекомендуемые значения Р^ =0,5 и и> = 1.

Тогда средневзвешенные вероятности определяются формулами:

- = — Ы'Р^ + РыЧЪ + Ы

1С + + ' Ч> + +

Рассмотренный подход позволяет избежать деления на нуль в формулах принятия решения на начальной стадии обучения, а также учитывать редко встречающиеся слова. Для получения объединенных вероятностей всего документа (сообщения), будем исходить из словаря, полученного на этапе обучения спам фильтра. Введем следующие события: А - документ относится к спаму; В - документ - не спам-сообщение. В предположении того, что оценки вероятностей независимы, возможно их перемножение:

Р(.Л)=Р.1*Р.2Х-*Рт (3)

для вероятности совместного появления признаков в спаме;

^(5) = РихРих-хР». (4)

для вероятности совместного появления признаков в не спаме, где п -количество признаков в документе.

После нахождения объединенных вероятностей для вычисления вероятности того, что сообщение принадлежит одной из трех категорий (спам/не спам/ не определенные) было разработано два модуля осуществляющих классификацию сообщения по методам Байеса и Фишера.

Для любого сообщения вводятся 2 гипотезы: НА - сообщение относится к спаму, Нв - сообщение относится к не спаму.

Введем обозначения: 1\, - общее количество спам-сообщений; - общее количество не спам-сообщений (легитимных); />„ =/^/(/^+ - априорная вероятность спама; рь-Рь1(Ра+Рь) - априорная вероятность не спама; Оа=р.К\-ра) - априорные шансы, что сообщение окажется спамом; Оь = рк /(1 - рк) - априорные шансы, что сообщение окажется не спамом.

Тогда на основе теоремы Байеса получаем апостериорные вероятности:

Р№)=7хл^ттщ -для спам-сообщения;

14 В\ х о

Р(Н„)=-——---для легитимного сообщения.

1 Р(А)хОа + Р(В)хоь

Здесь вероятности Р(Л) и Р(В) вычисляются по формулам (3) и (4).

Далее приводится принцип принятия решения на основе метода Фишера как альтернативы методу Байеса. Согласно методу Фишера, все рассматриваемые вероятности перемножаются аналогично методу Байеса, но

затем от произведения берется натуральный логарифм и результат умножается на -2. Для этого введем переменную hiqv (хи-квадрат), которая будет определена выражениями: hiqv = -2*\n(P(A)) или hiqv = -2*\n(P(B)), где вероятности Р(А) и Р(В) определяются по формулам (3) и (4).

Согласно методу Фишера, если случайные оценки вероятностей ра, или ры в выражениях (3) и (4) независимы, то величина -2*1п(Р(Л)) подчиняется распределению с 2п степенями свободы (п — количество признаков в документе):

F(x) = \t-^—dt, (5)

о 2 Г(и)

где Г (я) - гамма-функция.

С учетом вышесказанного и представления гамма-функции от четного аргумента, перепишем интеграл (5) в виде:

(6)

Расчет значения факториала в отдельности и подынтегральной функции (6) в целом на языке сценариев php может вызвать ошибку переполнения, из-за диапазона представления чисел в действительной форме. В связи с этим, в программе вычисление реализовано по рекуррентной формуле. Вычисление вероятности по выражению (6) реализовано с помощью квадратурной формулы Гаусса:

)f(t)dt^~iAJ(i,),

а /=1

где I, = (b+a)/2+(b-a)xt /2, а х, - узлы квадратурной формулы Гаусса; Л, -гауссовы коэффициенты, (/ = 1,2,...J5). В нашем случае а = 0, Ъ = hiqv.

Число, возвращаемое функцией F (hiqv), будет малым в случае, если в тексте много признаков спама. Для верной классификации сообщения, нам необходим обратный результат. Тогда, вычитая из единицы значение функции F(hiqv) для большого количества не спам признаков, получим вероятность того, что сообщение является не спамом.

Однако метод Фишера не является симметричным. Значит, необходимо скомбинировать вероятности спама и не спама путем объединения вероятностей в одно число, которое даст нам значение спам/не спам от 0 до 1. Для этого воспользуемся индикатором Фишера: / = [1 + Р{К'Л)- Р(Н'в)]/2, где: Р(Н'Л) = 1 - F(-2ln(/'(/f)) - вероятность принадлежности документа к спаму; /'(Яд) = 1- F(-21n(/'(/i)) - вероятность принадлежности документа не к спаму.

На начальной стадии обучения в методах классификации Байеса и Фишера необходимо задавать значения нижнего и верхнего порогов для окончательного принятия решений. Пусть Т и L — величины, определяющие соответственно верхний и нижний пороги принятия решений; H — одна из определенных ранее групп (спам/не спам сообщения/ не определенные); Р(Н) - вероятности попадания сообщения в одну из определенных ранее групп; I — индикатор

Фишера. Будем считать, что документ (сообщение) принадлежит группе Я, если аТ;документ не принадлежит группе Я, если Р(Н),1 <, £; если

же ТЪР(Н),И1, то нельзя принять никакого решения.

Для оценки качества совмещенного фильтра в работе предложен подход на основе анализа подмножества пересечения множеств, распознанных обоими методами по категориям (спам\не спам, ложные срабатывания и пропуск спама).

Пусть 8={я,} (/=1+М) - множество документов (сообщений), включающее как легитимные, так и спам-сообщения; 8дс в и в^-с в - множества документов, распознаваемые

соответственно классификаторами Байеса и Фишера. Тогда подмножество - пересечение ЭвПБр по всем вышеуказанным категориям может быть использовано для оценки качества работы совмещенного фильтра. Полнота такого пересечения 8ВП8,, также будет давать оценки для подмножеств в^в/г и Б/Лвд. В качестве меры близости двух множеств вд и Б/.-предложено использовать абсолютную меру Л^гНвя) - число общих документов в этих множествах. Таким образом, в работе в качестве оптимального критерия для оценки качества обучения спам-фильтра принимается максимальное значение меры по категориям I (спам\не спам, ложные срабатывания, пропуск спама):

С

Дообучение совмс-щепного фильтра до К сообщений

i i Оирсасж'ние меры

.v,(s;nsï)

í-W3H'ropaii(ciiüM' не cuay, JIOAH. сраоатив, пр<ш у с

J Непрерывное I обучение

11. Фильтр В '2. Фильтр F |3. Совмещенный (фильтр

Рис. 2. Оценка качества работы фильтров

(7)

После достижения наилучших показателей меры близости множеств SB и S;. по всем категориям, администратор может сделать выбор, каким фильтром в дальнейшем ему пользоваться (см. рис.2).

В третьей главе представлена общая модель взаимодействия с пользователем и разработана концепция интеграции системы фильтрации с системой сайта. Для этого проведено описание взаимодействия компонентов трехуровневой архитектуры клиент-серверного приложения, предназначенного для фильтрации спама: Apache — web-cepeep; MySQL — СУБД; php -

интерпретируемый язык программирования; роль клиента выполняет \veb-сервер клиента без ограничения требований к платформе.

Пользователи, подключенные к сервису фильтрации спама, отправляют на сайт текстовые сообщения. Поступившие сообщения сохраняются на сайте,а

запросы с текстом сообщений отправляются фильтру. Как видно из схемы на рис. 3, алгоритм процесса фильтрации скрыт от клиента и выполняется на специализированном сервере. Система фильтрации производит необходимые \

преобразования. вычисления и принимает решение - являются ли сообщения спамом.

В зависимости от внутренней политики, программное обеспечение сайта либо скрывает сообщения пользователя, либо помечает их как спам, а также может принимать решение об их удалении. Каждое новое сообщение сохраняется на сервере фильтра с присвоенным ему уникальным идентификатором.

В случае, когда произошло ложное срабатывание фильтра, администратор информационного ресурса корректирует результат его работы. Результат корректировки отправляется на сервер спам-фильтра. Сервис фильтрации спама производит обучение фильтра.

Далее в 3 главе представлен модуль для подключения спам фильтра к форуму. Реализация данного модуля позволила протестировать работу разрабатываемого фильтра на разных ресурсах, таких, например, как forum.psuti.ru, forum.ssau.ni, forum.osu.ru. На форуме с подключенным спам-фильтром, в разделе администрирования в каждом сообщении отображается следующее.

Если сообщение еще не помечено:

- сообщение не помечено, пометить как спам/нужное;

- внешний ГО;

- результат работы фильтра - спам/не спам в процентах.

Изначально на непомеченном сообщении последние два пункта не несут никакой информативности, т.к. не обучили фильтр на этих сообщениях.

После обучения фильтра, либо когда фильтр сам оценил пришедшее на сайт сообщение, текст внутри сообщения изменится следующим образом:

- сообщение помечено как нужное, пометить как спам;

- внешний ГО - присвоен определенный номер в базе данных фильтра;

- результат работы фильтра - соотношение спам/не спам, в процентах. Если фильтр обучался экспертом, то значения будут равны 0%. Если же фильтр

—»отправка--►корректировка

решение *--ответ

Рис. 3. Общая схема работы системы фильтрации спама на сайтах

самостоятельно оценил новое сообщение, то результат оценки будет в диапазоне от 0% до 100%.

Для взаимодействия с фильтром на форуме разработано: получение решения фильтра при добавлении нового сообщения; корректировка результата при ложном срабатывании; ручное обучение на старых сообщениях, добавленных до установки связи с фильтром; скрытие спам-сообщений от всех пользователей, кроме администраторов форума; графический интерфейс.

В результате получен полностью функционирующий модуль для подключения спам фильтра к форуму.

В четвертой главе описано экспериментальное исследование корректности фильтрации сообщений разработанными алгоритмами. В ходе исследования проведено сравнение выбранных алгоритмов фильтрации, оценена производительность алгоритмов классификации и всей экспериментальной системы фильтрации сообщений.

Исследование эффективности использования разработанных алгоритмов фильтрации проводилось на сообщениях форума Самарского государственного аэрокосмического университета имени академика С.П. Королева (forum.ssau.ru). Для этого к фильтру был подключен дамп базы данных, который является файлом с её содержимым, позволяющим воссоздать базу данных «с нуля». Дамп на момент исследования состоял из 58659 сообщений.

На начальном этапе фильтр был обучен на 200 сообщениях. Был выбран набор 200 других сообщений (1-й набор сообщений табл. 1) и его тестирование при различных порогах принятия решения показало, что самыми оптимальными являются: верхняя граница 7'=0,95, нижняя граница ¿=0,4. Таким образом, были установлены жесткие рамки по спаму и обычные для не спама. Это сделано во избежание ложных срабатываний.

Далее фильтр был дообучен на 400 сообщений спама и 500 не спама, т.е. итоговое обучение на 1100 сообщениях. Для 2-го набора сообщений (табл. 1) был выбран поток из 1223 сообщений. Тестирование всего объема набора сообщений (58659) проведено также на уровне обученности фильтра на 1100 сообщениях, что, как видно из табл. 1, не удовлетворяет условию оптимальности качества обучения. Следовательно, совмещенный фильтр требует дообучения.

В табл. 1 приведена часть результатов тестирования совмещенного фильтра.

Таблица 1 — Результаты фильтрации реальных потоков сообщений

Метод Всего сообщений спам/ легитимные сообщения Распознано спама Пересечение по спаму Количество ложных срабатываний Пропуск спама

Байеса 200 135/65 135 134 (99,3%) 2 -

Фишера 134 - -

Байеса 1223 561/662 474 431 (76,8%) 19 55

Фишера 486 10 25

Байеса 58659 2799/55860 1304 1302 (46,5%) 138 225

Фишера 1726 97 193

Аналогичные результаты пересечения получены по категориям легитимные, пропуск спама и ложные срабатывания. Как видно из табл.1, метод Фишера дает более точные результаты, чем метод Байеса по всем категориям. Полная диаграмма результатов фильтрации 2-го потока сообщений приведена на рис. 4. |

Найдено Ложных Определено Пропуск спама

нужных срабатываний спама

Рис. 4. Полная диаграмма результатов фильтрации 2-го потока сообщений

В ходе эксперимента были получены результаты, подтверждающие целесообразность использования выбранных алгоритмов фильтрации. Предложенный подход на основе анализа подмножества пересечения множеств, распознанных обоими методами по категориям (спам\не спам, ложные срабатывания и пропуск спама) позволяет повысить качество фильтрации спама. Если сравнивать классификаторы Байеса и Фишера, то метод Фишера все же дает более точные результаты и сводит к минимуму возникновение ложных срабатываний и пропуск спама. При анализе ложных срабатываний и пропуска спама необходимо делать окончательный вывод, используя подмножества пересечения множеств по отдельным категориям результатов работы алгоритмов фильтрации.

Далее в 4 главе была проведена оценка предложенных решений классификации сообщений. По результатам тестирования можно сделать вывод, что скорость математических вычислений в целом очень незначительно влияет на работу системы, и, с этой точки зрения мы можем выбрать любой из предложенных алгоритмов классификации. Производительность же системы фильтрации в целом составила 17 сообщений/с. при совместной работе алгоритмов, что удовлетворяет требованиям большинства потенциальных пользователей системы. Данный показатель может быть увеличен путем использования более производительных серверных систем и оптимизации вспомогательных алгоритмов, что не затронет клиентскую сторону.

В заключении приводятся основные научные результаты, полученные в ходе выполненных исследований, а также представлены выводы по работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ:

1. Разработан статистический алгоритм фильтрации спама в интерактивных разделах сайтов сети Интернет, основанный на сочетании методов Байеса и Фишера, совокупная работа которых обеспечивает новое качество фильтрации сообщений.

2. Предложены и практически реализованы методы подготовки сообщений для дальнейшего их анализа, включая предобработку текста; разбиение текста на отдельные слова с учетом морфологии слов с приведением их к нормальной форме с использованием специализированных словарей; разбиение на словосочетания, что, в свою очередь, также повышает качество фильтрации.

3. Предложен алгоритм анализа пересечения подмножеств сообщений по категориям (спам\не спам, ложные срабатывания и пропуск спама), распознаваемых методами Байеса и Фишера на основе абсолютной меры близости данных подмножеств для оценки качества совмещенного фильтра.

4. Проведены экспериментальные исследования совмещенного фильтра по оценке качества и производительности разработанного классификатора. Установлено, что качество работы фильтра зависит от степени его обученности и поэтому сам фильтр необходимо непрерывно дообучать. Быстродействие алгоритма Байеса на сообщении длиной 1 кБ составило 0,0001 с, Фишера — 0,0007 с, совмещенного алгоритма - 0,0009 с. Производительность совмещенного фильтра в среднем составила 17 сообщений в секунду, что удовлетворяет требованиям большинства потенциальных пользователей системы.

5. На основе предложенного комплекса алгоритмов разработана и апробирована серверная программная система фильтрации сообщений на сайтах, позволяющая оценить эффективность и быстродействие предложенных методов.

ОПУБЛИКОВАННЫЕ РАБОТЫ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в изданиях, рекомендованных ВАК РФ

1. Мезенцева, Е.М. Защита компьютерных сетей. Веб программирование многомодульного спам фильтра / Е.М. Мезенцева, В.Н. Тарасов // Программная инженерия. - 2012,- № 4.- С. 27-32.

2. Мезенцева, Е.М. Организация защиты компьютерных сетей. Метод многомодульной фильтрации спама на \\сЬ-сайтах / Е.М. Мезенцева, В.Н. Тарасов // Информационные технологии. -2012.- № 6,- С. 18 -22.

3. Мезенцева, Е.М. Многоуровневая архитектура клиент-серверного приложения фильтрации спама на сайтах / Е.М. Мезенцева, В.Н. Тарасов // Интеллект. Инновации. Инвестиции,- 2012,- №4,- С. 179-184.

Свидетельства о регистрации программ для ЭВМ

4. Мезенцева, Е.М. Программная система распознавания и фильтрации спама на сайтах. Свидетельство о государственной регистрации программы для ЭВМ № 2011619160, Роспатент, М., 25.11.2011.

5. Мезенцева, Е.М. Многомодульный спам фильтр для защиты компьютерных сетей. Свидетельство о государственной регистрации программы для ЭВМ № 2012612754, Роспатент, М„ 19.03.2012.

Публикации в других изданиях

6. Мезенцева, Е.М. Разработка специализированной модели, методов и алгоритмов, предназначенных для фильтрации спама / Е.М. Мезенцева // Интеллект. Инновации. Инвестиции. Спец. выпуск, по материалам международного форума «Россия как трансформирующееся общество: экономика, культура, управление». -2011.-№ 1.1.-С. 73-77.

7. Мезенцева, Е.М. Сегментированный анализ-метод выявления скрытых сущностей объекта/ Е.М. Мезенцева //Проблемы техники и технологии телекоммуникаций: тр. XI Междунар. научно-техн. конф. - Уфа, 2010. - С. 145-147.

8. Мезенцева, Е.М. Информативность свойств как мера классификации объектов/ Е.М. Мезенцева // Проблемы информатики в образовании, управлении, экономике и технике : тр. X Междунар. научно-техн. конф. - Пенза, 2010.- С. 31-33.

9. Мезенцева, Е.М. Спам. Статистические и вероятностные методы фильтрации / Е.М. Мезенцева // Новые технологии в промышленности, науке и образовании : матер. П-ой Всероссийской научно-практ. конф. - Оренбург, 2010. - С. 286-290.

10. Мезенцева, Е.М. Фильтрация спама на сайтах в комментариях, формах обратной связи и других интерактивных разделах / Е.М. Мезенцева // Технико-экономические проблемы инжиниринга в России, Узбекистане, Украине : Матер. Междун. научн. конф.- Самара: ИУНЛ ПГУТИ, 2011. - С. 34-37.

11. Мезенцева, Е.М. Борьба со спамом / Е.М. Мезенцева // Материалы XVIII Российской научн. конф. ППС, НС и аспирантов - Самара : ПГУТИ, 2011. - С. 226.

12. Мезенцева, Е.М. Методы и средства фильтрации спама на интернет — сайтах / Е.М. Мезенцева, В.Н. Тарасов // Физика и технические приложения волновых процессов : Материалы X Межд. научно-техн. конф. - Самара, 2011. - С. 364 - 366.

13. Мезенцева, Е.М. Определение вероятности соотнесения сообщения к спаму / Е.М. Мезенцева, В.Н. Тарасов // Проблемы техники и технологий телекоммуникаций : Материалы ХП Межд. научно-техн. конф. - Казань, 2011. - С. 96-97.

14. Мезенцева, Е.М. Определение спама. Теорема Байеса с применением априорного знания / Е.М. Мезенцева, В.Н. Тарасов // Материалы XIX Российской научн.конф. ППС, НС и аспирантов. - Самара: ПГУТИ, 2012. - С. 197.

15. Мезенцева, Е.М. Расчет вероятностей совместного появления слов в спам сообщение / Е.М. Мезенцева // Материалы XIX Российской научн.конф. ППС, НС и аспирантов. - Самара: ПГУТИ, 2012. - С. 198.

16. Мезенцева, Е.М. Трехуровневая архитектура клиент-серверного приложения для фильтрации спама / Е.М. Мезенцева, В.Н. Тарасов // Материалы XX Российской научн. конф. ППС, НС и аспирантов. - Самара : ПГУТИ, 2013. - С. 221-222.

Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования "Поволжский государственный университет телекоммуникаций и информатики" 443010, г. Самара, ул. Льва Толстого 23

Подписано» печать 16.09.13 г. Формат60 х 84/16 Бумага офсетная №1. Гарнитура Тайме. Заказ 1549. Печать оперативная. Усл. печ. л. 0,91. Тираж 100 экз.

Отпечатано в издательстве учебной и научной литературы Поволжского государственного университета телекоммуникаций и информатики 443090, г. Самара, Московское шоссе 77, т. (846) 228-00-44

Текст работы Мезенцева, Екатерина Михайловна, диссертация по теме Системы, сети и устройства телекоммуникаций

Федеральное государственное образовательное бюджетное учреждение высшего

профессионального образования «Поволжский государственный университет телекоммуникаций и информатики»

На правах рукописи

ИССЛЕДОВАНИЕ И РАЗРАБОТКА СТАТИСТИЧЕСКИХ АЛГОРИТМОВ ФИЛЬТРАЦИИ СООБЩЕНИЙ В ИНТЕРАКТИВНЫХ РЕСУРСАХ ИНФОКОММУНИКАЦИОННЫХ СЕТЕЙ

Специальность 05.12.13 - Системы, сети и устройства телекоммуникаций

ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук

Научный руководитель д.т.н., проф. В.Н. Тарасов

Самара 2013

ВВЕДЕНИЕ........................................................................................................................................................4

ГЛАВА 1. ОРГАНИЗАЦИЯ ЗАЩИТЫ СЕТЕЙ

ТЕЛЕКОММУНИКАЦИЙ..............................................................................................................15

1.1 Место сайтов в сетях телекоммуникаций................................................................15

1.2 Причины размещения и специфика спам сообщений на сайтах............16

1.3 Способы распространения и цели размещения спама на сайтах..........17

1.4 Негативное влияние размещения спам сообщений на сайтах..................20

1.5 Способы защиты сайтов от спама....................................................................................21

1.5.1 Законодательные меры регламентирующие защиту от спама... 21

1.5.2 Технические меры защиты от спама..................................................................28

1.6 Анализ методов, моделей и существующих систем защиты сайта...

от спама....................................................................................................................................................................33

1.7 Выводы и результаты....................................................................................................................35

ГЛАВА 2. РАЗРАБОТКА КОНЦЕПЦИИ ФИЛЬТРАЦИИ СПАМ

СООБЩЕНИЙ В КОМПЬЮТЕРНЫХ СЕТЯХ..........................................................37

2.1 Задача классификации сообщений................................................................................37

2.1.1 Способы представления сообщений для задачи классификации..........................................................................................................................................39

2.1.2 Анализ алгоритмов классификации сообщений..................................41

2.2 Процесс фильтрации..................................................................................................................52

2.2.1 Подготовка сообщения для обеспечения наилучшей

фильтрации............................................................................................................................................................53

2.3 Процесс принятия решения................................................................................................59

2.3.1 Вычисление объединенных вероятностей признаков....................61

2.3.2 Модуль принятия решения на основе теоремы Байеса................65

2.3.3 Модуль принятия решения на основе метода Фишера..................66

2.4 Критерии оптимальности при классификации сообщений на

основе статистических методов..........................................................................................................71

2.5 Критерии оценки качества работы обученного спам-фильтра................75

2.6 Выводы и результаты..................................................................................................................82

ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СПАМ-ФИЛЬТРА

ДЛЯ ВЕБ САЙТОВ....................................................................................................................................83

3.1 Трехуровневая архитектура клиент-серверного приложения для

фильтрации спама..........................................................................................................................................83

3.2 Схема фильтрации спама на сайтах участниках системы............................85

3.3 Концепция интеграции системы фильтрации с системой сайта............86

3.3.1 Описание связи фильтра с форумом..............................................................88

3.3.2 Структура базы данных форума........................................................................89

3.3.3 Изменения в исходном коде форума. Функция добавления нового сообщения....................................................................................................................................92

3.3.4 Изменения в исходном коде форума. Редактирование базы данных..................................................................................................................................................................93

3.3.5 Изменения в исходном коде форума. Модификация отображения сообщений.............................................................. 95

3.3.6 Интерфейс администратора форума............................... 97

3.4 Процесс обучения............................................................ 99

3.4.1 Алгоритм дообучения фильтра....................................... 101

3.4.2 Тестирование этапа обучения и работы фильтра на сообщение форума..................................................................... 104

3.5 Выводы и результаты......................................................... 107

ГЛАВА 4. ИССЛЕДОВАНИЕ КАЧЕСТВА КЛАССИФИКАЦИИ СООБЩЕНИЙ И АПРОБАЦИЯ СИСТЕМЫ ФИЛЬТРАЦИИ СПАМА......................................................................................................... 109

4.1 Критерии при оценке работы алгоритмов фильтрации спама....... 109

4.2 Тестирование модуля распределения хи квадрат....................... 110

4.3 Алгоритм обучения фильтра на тестовой выборке сообщений...... 111

4.4 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на тестовой

выборке сообщений......................................................................................................113

4.5 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на дампе базы данных форума СГАУ..........................................................................................116

4.6 Экспериментальное исследование степени корректности фильтрации сообщений, методами Байеса и Фишера, на форуме

ПГУТИ..........................................................................................................................................122

4.7 Экспериментальное исследование степени корректности фильтрации сообщений, совмещенным фильтром............................. 124

4.7 Оценка производительности................................................ 126

4.8 Выводы и результаты......................................................... 128

ЗАКЛЮЧЕНИЕ........................................................... 129

ЛИТЕРАТУРА............................................................ 131

ПРИЛОЖЕНИЕ 1 Свидетельства о государственной

регистрации программы для ЭВМ.................................. 139

ПРИЛОЖЕНИЕ 2 Акты внедрения................................. 141

ВВЕДЕНИЕ

В современном обществе использование сети Интернет в качестве средства коммуникаций - широко распространенная практика. Уже не только электронная почта, но и блоги, социальные сети, форумы, Instant messaging (IM - службы мгновенных сообщений - ICQ, Skype и др.), являются привычными средствами общения.

По прогнозам Gartner, исследовательской и консалтинговой компании, специализирующейся в информационных технологиях, к 2014 году социальные сети станут основным средством электронного обмена в 20% организаций. В тоже время, росту популярности социальных сервисов будут способствовать повышение их безопасности, создание «белых» сообществ и толерантное отношение к использованию персональных учетных записей во время работы. В ходе дальнейшего развития принципиальные различия между электронной почтой и социальными сетями постепенно нивелируются, и почтовая служба перестанет играть главенствующую роль в осуществлении деловых операций [68].

Можно ожидать, что больше половины бизнес структур будут поддерживать связь друг с другом через подобие микроблогов, с улучшенной системой контроля и защиты информации.

Изначально данные виды коммуникаций оставались незамеченными спамерами, однако, с ростом их популярности ситуация коренным образом изменилась. На сегодняшний день по различным подсчетам уже примерно 10% IM сообщений и 17% комментариев в блогах, форумах и социальных сетях представляет собой спам [42]. Публичные форумы, сайты Википедии, социальные сети и блоги, уже давно стали мишенями для размещения не относящихся к теме форума сообщений или рекламы различной продукции. Заинтересованность спамеров в новых средствах коммуникации объясняется не только их растущей популярностью и увеличивающейся базой пользователей, но и тем, что средства борьбы со спамом в программах мгновенного общения и блогах находятся в настоящее время в начальной стадии развития. Практически не существует

универсальных решений, предназначенных для фильтрации спама на сайтах в комментариях, формах обратной связи и других интерактивных разделах. При создании данных приложений, необходимо заранее продумать возможные технологии и средства защиты от спама.

Существует лишь небольшое количество узкоспециализированных инструментов, препятствующих автоматическому размещению сообщений. В основном, такие инструменты рассчитаны на конкретную систему управления контентом, например, такую как WordPress. Эти модули обладают серьезными недостатками. Во первых, они распространяются по принципу «как есть» без статистической базы, что не дает возможности сравнивать новые сообщения с уже проверенными аналогами. Во вторых, являются онлайн-сервисами в России, но ориентированы главным образом на англоязычные словари. Пока не разработано универсальных решений, позволяющих производить полноценную фильтрацию на русскоязычных сайтах.

Другой инструмент, препятствующий автоматическому размещению сообщений, - это тест Тьюринга. Наиболее популярной его реализацией является САРТСНА (Completely Automated Public Turing Test to Tell Computers and Humans Apart - «полностью автоматизированный публичный тест Тьюринга для различия компьютеров и людей») [42]. Сегодня известно достаточно много способов обхода различного рода captcha-фильтров, к тому же такой метод защиты раздражает пользователей интерактивных ресурсов.

Инструменты защиты от спама, приведенные выше, показывают низкую эффективность при ручном распространении спама. Разновидностью ручного спама является фишинг, основная цель данного вида сообщений - получение доступа к конфиденциальным данным пользователей - логинам и паролям. Сюда относятся кражи номеров кредитных карт, паролей, банковских счетов и другой конфиденциальной информации. Проблема предотвращения распространения фишинговых сообщений носит серьезный характер.

Существуют и другие методы фильтрации спама, которые можно использовать на сайтах, хорошо известные по опыту фильтрации в почте. Это

построение черных и серых списков, контент-анализ текста, контроль дубликатов, анализ заголовков пользовательских сообщений [42]. Однако наиболее эффективными являются многокомпонентные, обучающиеся антиспам-фильтры, которые применяют несколько методов распознавания спама [6, 25, 36]

Рассылка спама признана преступлением во многих странах, но, несмотря на это, его объемы постоянно растут, а технологии рассылки продолжают совершенствоваться.

В дальнейшем, безусловно, рост активности спамеров, будет продолжаться, т. к. объем трафика постоянно увеличивается. В общем потоке, при остуствии должных средств защиты, будет возрастать эффективность ручного спама. Это произойдет за счет двух факторов: с одной стороны, за счет растущей популярности фишинга, с другой, - за счет начала использования этой технологии в рекламном спаме.

Разработано множество способов борьбы со спамом, но все они делятся на две категории:

- предотвращение распространения спама;

- предотвращение получения спама, или фильтрация;

Первая категория - это различные административные и технические методы, направленные на предотвращение рассылки спама. Сюда относятся такие методы как:

- законодательно ограничение рассылки спама;

- блокирование 1Р-адресов, пользователи которых рассылают спам.

Использование этих решений пока не дает значительных результатов.

Наибольшую активность по законодательному ограничению распространения спама проявляет США, тем не менее, это не мешает тому, что Соединенные Штаты считаются одной из лидирующих стран в мире по количеству высылаемого спама [16].

Вторая категория средств борьбы с рассылками несанкционированных сообщений - это методы, направленные на предотвращение получения спама

пользователями, так называемые методы фильтрации спама. Можно выделить две основные группы методов:

- традиционные методы - это те методы, для которых классификатор (различные правила, шаблоны, списки IP-адресов) строится экспертом;

- обучаемые методы - это те методы, для которых классификатор строится с помощью методов интеллектуального анализа данных.

С 2000-х годов ведутся активные исследования в области разработки программных систем обнаружения почтового спама. Вопросу противодействия спаму посвящены работы Пола Грэма [11], Джонатана Здзиарски [36], Джона Грэм-Камминга [74], Уильяма Йеразуниса [45], Гари Робинсона [27], Игоря Станиславовича Ашманова [38]. Все разработанные алгоритмы и системы посвящены базовым принципам фильтрации почты на основе классификации текстовой информации, содержащейся в письме.

Пол Грэм в 2002 году, написал статью, которая привела к революции в методах фильтрации спама - "A Plan for Spam" [11]. Грэм попробовал отделять спам от не спама, используя статистику о том, какие слова появляются в обоих типах сообщений. Система фильтрации спама отслеживает частоту появления отдельных слов в спаме/не спаме, и затем использует частоты вхождения этих слов, для вычисления вероятности того, к какой категории относится сообщение. Он назвал этот метод Байесовской фильтрацией (Bayesian filtering) по названию статистического подхода, применяемого им для вычисления частот слов [25].

Джонатан Здзиарски разработал свободное программное обеспечение DSPAM, представляющее собой статистический спам-фильтр. Это масштабируемый спам фильтр на основе содержания, предназначенный для больших многопользовательских систем. DSPAM распространяется под лицензией GNU General Public License. Джонатан Здзиарски является автором книги [36]. Основой для работы DSPAM служит библиотека libdspam, которая содержит основные процедуры фильтрации и хранения, а так же интерфейсы командной строки и HTTP. Система, вне независимости от агента пересылки сообщений (англ. mail transfer agent, МТА), может хранить данные классификации

спама в форматах разных баз данных, и использует фильтрацию на основе теоремы Байеса для обучения [7].

Джон Грэм-Камминг автор персонального антиспам модуля POPfile и Polymail - антиспамовой библиотеки, которой пользуются многие компании в спам-фильтрах. Грэм-Камминг предлагает пользователям внести свой вклад в борьбу со спамом - на специально созданном им сайте заняться сортировкой писем, разделяя их на «spam» («мусорные» письма) или «ham» («хорошие» письма). В состав TREC (Text Retrieval Conference) 2005 Public Spam Corpus входят около 100000 сообщений. Идея проекта состоит в том, что каждое письмо будет проверяться десятикратно, прежде чем попадет в разряд спама или «ham».

Труднее всего людям будет классифицировать послания фишеров - такие письма имитируют сообщения из легитимных источников, и отличить их от «хороших» писем пользователям не всегда удается. Грэм-Камминг выражает надежду, что результаты данного проекта будут использованы не только для создания обновленного свода спама, но и дадут более четкие знания о фишинговых письмах [74].

Уильям Йеразунис, научный сотрудник лаборатории Mitsubishi Electronics

__о

и автор спам-фильтра CRM114 Discriminator. Для борьбы со спамом Йеразунис предлагает использовать систему CRM114 Discriminator, разбивающую электронные письма на короткие фрагменты (до пяти слов), которые затем сравниваются с заложенными в базу данных образцами спама. Важной особенностью разработки Йеразуниса является то, что она позволяет отфильтровывать письма с нестандартным для спамеров текстом. По словам разработчика, эффективность системы составляет 99,9%, и ее использование может оказаться эффективнее аналогичной работы, выполняемой человеком [45].

Робинсон написал множество статей посвященных вопросам борьбы со спамом, наиболее интересными из которых являются "A Statistical Approach to the Spam Problem" опубликованная в Linux Journal и доступная по адресу [18], "Why Chi? Motivations for the Use of Fisher's Inverse Chi-Square Procedure in Spam Classification", доступная по адресу [20] и "Handling Redundancy in Email Token

Probabilities, доступна по адресу [19]). Он является участником проекта SpamBayes [27] архив которого содержит большое количество алгоритмов и подходов к тестированию спам-фильтров.

Игорь Станиславович Ашманов - российский специалист в области искусственного интеллекта, разработки программного обеспечения, управления проектами. Кандидат технических наук. Генеральный директор компании «Ашманов и партнёры». Наиболее известный продукт компании - антиспам-фильтр «Спамтест», используемый такими компаниями, как Mail.Ru, «РосБизнесКонсалтинг», «РТКомм.РУ», «Петерлинк», «Мастерхост», «РТС», «CBOSS» и сотовыми операторами. Позднее технология «Спамтеста» стала основой фильтра «Антиспам Касперского» [38].

«Спамтест» - это уникальная методика распознавания и фильтрации нежелательных массовых почтовых рассылок на основе анализа содержания писем. Ее основным элементом является фильтр Спамтест, который использует для анализа корреспонденции более 15 методов распознавания спама. В их числе лингвистические, графические и сигнатурные методы. Круглосуточная лингвистическая лаборатория, анализирующая спам в реальном режиме времени, выпускает обновления баз каждые 20 минут, что является практически уникальным показателем для антиспамового решения. Фильтр имеет очень высокую производительность (до 2'000'000 сообщений в сутки на среднем сервере Intel Pentium 2,4 МГц 1 ГБ RAM), что позволяет использовать его на самых больших публичных сервисах[47].

В настоящее время продолжа