автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Многоагентная автоматизированная система адаптивной фильтрации потоков текстовой информации
Автореферат диссертации по теме "Многоагентная автоматизированная система адаптивной фильтрации потоков текстовой информации"
На правах рукописи
Цыганов Илья Германович
УДК: 681.5
МНОГОАГЕНТНАЯАВТОМАТИЗИРОВАННАЯСИСТЕМА АДАПТИВНОЙ ФИЛЬТРАЦИИПОТОКОВТЕКСТОВОЙ
ИНФОРМАЦИИ
Специальность 05.13.01 -Системный анализ, управление и обработка информации
Автореферат
диссертации на соискание ученой степени кандидата технических наук
Москва - 2006
Работа выполнена в Московском Государственном Техническом Университете
им. Н.Э. Баумана
Научный руководитель: заслуженный деятель науки РФ,
доктор технических наук, профессор В.А. Шахнов
Официальные оппоненты: доктор технических наук, профессор В.М. Черненький
кандидат технических наук, Н.Б. Лиханов
Ведущее предприятие: ОАО "Концерн "РТИ-Системы"
Защита диссертации состоится «"У» ¿¿^?/»г/,2005 г. на заседании диссертационного совета Д 212.141.02 в Московском Государственном Техническом Университете им. Н.Э. Баумана.
Ваши отзывы в двух экземплярах, заверенные гербовой печатью, просьба высылать по адресу: 107005,2-ая Бауманская ул., д. 5.
Автореферат разослан 2005 г.
Ученый секретарь
диссертационного совета К.Т.Н., доцент
Иванов
ОБЩАЯХАРАКТЕРИСТИКА РАБОТЫ
Актуальность. Важнейшей задачей, стоящей в современных гетерогенных системах обработки информации, таких как система электронной почты (ЭП) глобальной сети Интернет, является сокращение объемов незапрашиваемой информации (т.н. "спама" - от англ. spam), обработка которой приводит к значительным потерям. В системах ЭП для решения этой задачи применяются системы специализированного класса - автоматизированные системы фильтрации незапрашиваемой рассылки (АСФ HP), - обеспечивающие отделение потоков важной информации от потоков незапрашиваемых сообщений.
АСФ HP выявляют незапрашиваемую рассылку (HP) на основании автоматического анализа совокупности признаков, содержащихся в сообщении. Однако, распространители HP, с цепью обхода фильтров, постоянно изменяют внешние признаки сообщений.
Поэтому в современных условиях АСФ HP должна, во-первых, обладать способностью быстро реагировать на факт изменения поведения распространителей HP, во-вторых, обеспечивать быструю и качественную самонастройку в соответствии с новым набором признаков HP.
В настоящее время разработано большое число АСФ HP различного типа, однако, ни одна из них не обеспечивает в полной мере учета всей совокупности перечисленных требований, что приводит к низким показателям качества их работы. Современные системы при уровне ложного блокирования 2-3% пользовательских сообщений обеспечивают пропуск до 30% сообщений HP. Снижение показателей качества в различных системах обусловлено различными факторами.
Так в современных многопользовательских системах (Brightmail, Kaspersky Antispam, SpamAssassin и др.) снижение качества фильтрации обусловлено малой скоростью реакции системы на ошибки фильтрации. Это связано с тем, что пользователи этих систем, выявляющие ошибки фильтрации, фактически исключены из контура настройки системы, поскольку не считаются надежными источниками информации (пользователь может ошибаться, иметь субъективное мнение и пр.). А в существующих индивидуальных АСФ HP (SpamBully, ifile и др.), качество фильтрации достаточно мало, поскольку фильтры обучаются на ограниченном числе сообщений, поступающих только конкретному пользователю.
Все это показывает, что качество фильтрации существующих АСФ HP может быть увеличено за счет применения комплексных многопользовательских систем фильтрации, обеспечивающих полномасштабное участие пользователей в процессе выявления ошибок фильтрации и соответствующей настройке фильтров. Это делает задачу разработки научных основ (математического аппарата и функциональной структуры) построения многоагентных автоматизированных систем адаптивной фильтрации (АСАФ) актуальной.
Цель работы. Исследование моделей, методов и алгоритмов адаптивной фильтрации потоков информации в группах пользователей и разработка многопользовательской многоагентной обучаемой пользователями автоматизированной системы адаптивной фильтрации, обеспечивающей автоматическое выявление и блокирование незапрашиваемой рассылки в потоках сообщений систем электронной почты глобальной информационной сети Интернет.
Решаемые задачи:
1) исследование и анализ функциональных возможностей и математического аппарата современных АСФ HP и разработка требований к архитектуре и математическому аппарату многопользовательских адаптивных АСФ HP;
2) исследование и разработка многоагентной архитектуры АСАФ HP, позволяющей пользователям участвовать в процессах выявления ошибок, фильтрации и настройки фильтров АСФ HP;
3) исследование и разработка математических моделей, методов и алгоритмов, обеспечивающих адаптивную фильтрацию потоков информации в группах пользователей: методов формирования обучающей и тестовой выборки, методов построения пространства признаков, методов классификации текстовых сообщений по выявленным признакам, методов коллективной фильтрации.
4) исследование и выбор методов программной и аппаратной реализации средств фильтрации HP и разработка реализации АСАФ HP в виде аппаратно-программного комплекса, обеспечивающего фильтрацию HP на основе разработанных принципов;
5) экспериментальное исследование эффективности предложенных моделей, методов и алгоритмов, определение оптимальных параметров, обеспечивающих наивысшие показатели качества фильтрации HP, разработка рекомендаций по настройке системы.
Методы исследования. При решении поставленных задач использована теория информационных систем, теория экспертных систем и обработки знаний, нейроматематика, теория нейронных сетей, теория оптимизации, математический аппарат теории автоматического управления, теория вероятностей и математическая статистика, теория Марковских случайных полей. Научная новизна работы состоит в следующем:
1) Проведено исследование, классификация и систематизация существующих многопользовательских аСф HP с точки зрения функциональной структуры, особенностей реализации основных функций и применяющегося в них математического аппарата.
2) Исследована и разработана архитектура многоагентной автоматизированной системы адаптивной фильтрации HP, обеспечивающая эффективное взаимодействие пользователей системы при выявлении ошибок фильтрации и настройке фильтров.
3) Исследованы и разработаны математические модели и методы формирования пространства признаков в задаче анализа содержания сообщений электронной почты, что позволило повысить точность анализа за счет учета значимых словосочетаний.
4) Исследован и разработан метод синтеза нейронной сети с переменной структурой, входным сигналом которой являются разряженные векторы большой размерности (до десяти тысяч).
Достоверность полученных научных результатов, выводов и рекомендаций диссертационной работы подтверждена:
1) результатами экспериментальных исследований;
2) результатами внедрения разработанной многопользовательской АСАФ HP в корпоративной системе электронной почты Международного Института Экономики и Права (4000 пользователей);
3) результатами внедрения разработанных в работе моделей, методов и алгоритмов, а также программного комплекса экспериментального
исследования алгоритмов фильтрации текстовой информации в учебный процесс МГТУ им. Н.Э. Баумана.
Полученные в работе результаты наглядно демонстрируют эффективность использования разработанных моделей, методов и алгоритмов для решения задач автоматической фильтрации незапрашиваемой рассылки. Положения, выносимые на защиту:
1) архитектура, функциональный состав и интерфейсы АСАФ HP;
2) метод формирования пространства признаков в задаче фильтрации текстовых сообщений, обеспечивающий учет, как значимых слов, так и значимых словосочетаний;
3) методы и алгоритмы обучения многослойной нейронной сети с переменной структурой, входным сигналом которой являются разряженные векторы большой размерности;
4) аппаратно-программная реализация многоагентной АСАФ HP;
5) результаты экспериментальных исследований разработанных методов и алгоритмов решения задачи фильтрации незапрашиваемой рассылки. Практическая ценность работы. Разработанные в диссертации методы
формирования пространства признаков, методы учета указаний группы пользователей о выявленных ошибках фильтрации и алгоритмы настройки нейронных сетей, а также аппаратно-программный комплекс, реализующий многоагентную АСАФ HP, построенный на основе разработанных принципов позволяют:
1) повысить эффективность фильтрации потоков незапрашиваемой информации;
2) автоматизировать и упростить контур настройки современных АСФ HP;
3) сократить время, требуемое на адаптацию АСФ HP к выявленным ошибкам;
4) автоматизировать и сократить ручной труд при наладке системы;
5) предоставить пользователям гибкий механизм управления процессом фильтрации сообщений HP.
Разработанные алгоритмы и программы могут быть использованы для дальнейшего развития и совершенствования систем интеллектуальной фильтрации и управления потоками текстовой информации.
Реализация результатов. Разработанная в работе аппаратно-программная реализация АСАФ HP внедрена в корпоративную систему электронной почты Международного Института Экономики и Права и обеспечивает фильтрацию потоков сообщений, поступающих нескольким тысячам пользователей этой системы.
Полученные в работе математические модели, методы и алгоритмы, а также разработанный комплекс экспериментальных исследований алгоритмов адаптивной фильтрации потоков текстовой информации, внедрен в учебный процесс МГТУ им. Н.Э. Баумана.
Апробация работы. Результаты работы были представлены на Международной молодежной научно-технической конференции "Наукоемкие технологии и интеллектуальные системы", (Москва, 2003, 2004), Международной молодежной научной конференции "Информатика и системы управления в XXI веке", (Москва, 2003 г.), студенческой научной конференции "Студенческая научная весна-2002", (Москва, 2002).
Публикации. По материалам и основному содержанию работы имеется 15 публикаций в научно-технических журналах и трудах конференций.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы. Общий объем диссертации 208 страниц, 84 рисунка, список использованных источников из 237 наименований.
СОДЕРЖАНИЕИ РЕЗУЛЬ ТА ТЫ ДИССЕРТАЦИИ
Во введении обоснована актуальность решения задач борьбы с HP, сформулирована цель и задачи исследования, обоснована научная новизна и изложена структура диссертации, показано место АСФ HP рассматриваемого класса в современных глобальных системах обработки информации.
В первой главе рассматриваются вопросы, связанные с исследованием современного состояния проблемы незапрашиваемой рассылки, классификацией и систематизацией технических средств борьбы с HP, и разработке на их основе требований к аСф HP.
Указываются предпосылки HP, виды HP, типы распространителей HP, способы распространения HP.
Разработана обобщенная архитектура АСФ HP, в составе которой выделены агенты двух типов: агенты пользователей (АП) и агенты фильтрации (АФ) (рис. 1). Выделены основные функции АСФ HP: фильтрация, выявление ошибок и настройка.
Это позволило осуществить классификацию и систематизацию АСФ HP по архитектуре, способам реализации основных функций, и применяющемуся математическому аппарату.
Сформулированы ключевые недостатки существующих АСФ HP, основными из которых являются следующие:
1) недостаточный уровень автоматизации контура настройки АСФ;
2) слабое участие пользователей в настройке АСФ HP.
Результаты исследования показали необходимость разработки АСФ HP нового класса, в которых фильтрация, выявление ошибок и настройка фильтров осуществляется группой пользователей системы.
В работе разрабатываются требования к системам нового класса -автоматизированным системам адаптивной фильтрации незапрашиваемой рассылки (АСАФ HP).
Во второй главе производится разработка функциональной модели, математических методов и алгоритмов АСАФ HP.
Определяются принципы построения системы из групп взаимодействующих агентов, описываются потоки информации в группах агентов и между отдельными агентами, функциональный состав отдельных агентов.
Обмен информацией о результатах обработки сообщений в каждом из агентов осуществляется с помощью специализированной структуры - статус сообщения:
где 5Г - двухсимвольный мнемонический код (5Г е {НЕ,НТ,НС,8С,5!Т,8Е}), 5К -целое число в интервале €[-100,100]. Числовое значение определяет степень уверенности агента: большие положительные значения характерны для большей уверенности в том, что сообщение является ЛПС (легитимным пользовательским сообщением), меньшие отрицательные значения характерны для большей уверенности в том, что сообщения является СНР (сообщением незапрашиваемой рассылки). Мнемонический код разбивает числовой диапазон [-100,100] на ряд поддиапазонов и интерпретируется следующим образом: НЕ - точно ЛПС; НТ -ЛПС с уверенностью, большей заданной; НС - ЛПС с уверенностью, меньшей заданной, аналогично для СНР. Величины уверенности определяются с помощью порогов в каждом из агентов самостоятельно.
В главе подробному исследованию и разработке подвергаются математические модели, методы и алгоритмы, использующиеся в агентах АСАФ HP для решения задачи адаптивной фильтрации потоков текстовых данных.
Фильтрация обеспечивается с помощью последовательного применения трех фильтров: формального, контекстного и коллективного (рис. 2.).
Групповой
Рис. 2. Фильтрация в агентах АСФ HP
Формальный фильтр представляет собой алгоритм фильтрации на основе черных и белых списков, а также методов сигнатурного анализа сообщений.
Контекстный фильтр обеспечивает фильтрацию по признакам, извлекаемым из текстовой части сообщений (отдельные слова и словосочетания).
Работа коллективного фильтра основывается на обработке результатов фильтрации сообщений в других агентах АСАФ HP на основе применения методов корреляции.
Обучение контекстного и коллективного фильтра требует использования обучающей (настройка фильтра) и тестовой (оценка качества настройки) выборок. Формирование выборок осуществляется автоматически по алгоритму, представленному на рис. 3.
Анализ текста сообщений в контекстном фильтре осуществляется с использованием признаков двух типов: отдельных слов и словосочетаний.
Рис. 3. Формирование обучающей и тестовой выборок
Вначале осуществляется выбор подмножества слов, которые будут использоваться для представления текстов сообщений. На основании выбранных слов осуществляется выбор комплексных признаков, состоящих из группы слов.
Выбор значимых слов осуществляется из слов сообщений обучающей выборки, отбираемых согласно одного из трех исследуемых в работе критериев:
1) по частоте;
2) максимальная информативность (Information Gain -!G);
3) критерий х2 ■
Критерий по частоте выбирает заданное число слов, имеющих максимальную частоту в массиве сообщений.
Критерий IG оценивает значимость каждого слова в соответствии с информативностью данного признака:
G(w) = ре lg р, + p(£ = e\w)\zp{£ = e\w)+p{w) £ р(е = е | w) Ig р(е = е | w),
ееЕ ее Я s,eF.
где Е={-1,1} - пространство решений (-1 - соответствует классу СНР, 1 - классу ЛПС); - вероятность класса СНР, р, - вероятность ЛПС, p(w) - вероятность сообщения со словом w, p(w) - вероятность сообщения без слова w, p(s = е | w) -вероятность того, что класс сообщения соответствует е при условии, что в сообщении имеется слово w, p(s = фе) - аналогично при отсутствии слова w.
В критерии х1 используется следующая формула:
2/ л 2, л г, ч ЩАР-СВ)1
r (w) = max y г (tf,s) =--—--,
>/'л \ » / (A + CXB+DXA + Byc+D)
где А - количество сообщений, в которых w и е появились совместно; В -количество сообщений, при которых слово w встречается с другим классом; С -количество сообщений, относящихся к классу е, но в которых не встречается w, D - количество сообщений, не относящихся к классу е, в которых нет слова w; \М\ -общее число сообщений в обучающей выборке.
Из числа отобранных слов осуществляется построение словаря.
< Формирование комплексных признаков осуществляется с помощью моделирования лингвистической структуры классов. Класс моделируется с помощью функции:
Р{Х = х) = р(т j е = const) = P(Xl = x,,Xj = х2,...,Л", = х„), где х(т) = (х, (от), хг («),...,*„ (от» - вектор сообщения (х/ = 0, если Аое слово словаря присутствует в сообщении от их, = 1 если наоборот), п - число слов, отобранных на этапе выбора значимых слов.
Моделирование осуществляется в виде закона распределения Гиббса:
б
1 L-UM i .„.
ЫХ = х)=---е- =—!— eim,
где f(x)={fi(x), ¡=1,...,F} - множество бинарных функций-признаков, Я, -соответствующие им коэффициенты (параметры), Z(X)=2_ie ■
х
нормировочная постоянная.
Функции-признаки являются либо простыми, либо составными. Простые функции-признаки представляют отдельные слова, а их общее число равно числу слов в словаре. Простые функции-признаки обращаются в 1 только в том случае, если вектор-аргумент имеет в компоненте, соответствующей представляемому слову, единицу, а во всех остальных случаях обращается в 0. Составные признаки представляют несколько слов и обращаются в единицу на соответствующем наборе компонент, тогда как на всех прочих имеют значение 0.
Задача формирования пространства признаков решается с помощью выбора такого множества признаков {/}, чтобы результирующее распределение р(Х=х) было максимально близко к эмпирической функции распределения р\Х = х) при заданном конечном числе признаков. Близость двух распределений в работе оценивается с помощью классических функционалов теории информации:
1. 1(р': р) = £>'(*) min ,
* pW и двойственного ему функционала:
2. 1{р:«) = = x)log^;x) = ХУ* = х) log р(Х =*)->min
при условии ^f,{x)p(X = = х) = 0,. i=1. ~,F, ЗДв в, е R,i = \,...,F -
J X
постоянные, и(х) - равномерный закон распределения.
Решение задачи производится с помощью последовательного, многоитерационного алгоритма, на каяодой итерации которого производится поиск очередного оптимального признака из числа кандидатов (структурный синтез) и добавление его в модель за счет оптимального выбора параметра Л, (параметрический синтез). Алгоритм продолжается до тех пор, пока не будет добавлено заданное количество признаков.
Очередной признак выбирается из числа кандидатов. Изначально множество кандидатов содержит только простые признаки. После выбора и добавления в модель признак исключается из числа кандидатов, а множество кандидатов расширяется за счет комбинирования выбранного признака с признаками в текущем множестве кандидатов.
С целью выбора признака из числа кандидатов производится оценка его значимости в соответствии с текущей моделью. Для этого используется следующий функционал:
I(J*) = MI{p-.p(f*,p)),
р
где /* - оцениваемый кандидат, ß - соответствующий ему коэффициент,
1 Zu+ir p{f*,ß)-—-е • , Z'{J*,ß) = 2_je• . Выбирается признак, имеющий
наименьшее значение указанного функционала, что в аналитической форме может быть представлено следующим образом:
/*«„,=argnMn
log'-^gÇ/W Т> g(/*} 1
где F0 - множество кандидатов, P'(f*) - вероятность того, что признак /* равен 1 относительно текущей модели р(х), £'(/*) - среднее значение признака /* на эмпирической выборке.
Представленные алгоритмы позволяют сформировать пространство признаков, включающее в качестве признаков как отдельные слова, так и словосочетания. Пусть общая размерность пространства признаков N. Таким
образом каждое сообщение можно представить в виде вектора: х = (х1,х1.....*„),
компоненты которого соответствуют либо отдельным словам, либо словосочетаниям.
На основе сформированного пространства признаков осуществляется синтез многослойной нейронной сети. При этом осуществляется построение оптимальной гиперповерхности, разделяющей пространство векторов обучающей выборки X на ряд непересекающихся областей, каждая из которых относится к одному из двух классов (т.е. X Y, где Y - пространство решений нейросети).
Построение кусочно-линейной гиперповерхности, разделяющей два класса векторов, осуществляется с помощью последовательного алгоритма, который заключается в постепенном увеличении числа гиперповерхностей, до тех пор, пока не будет достигнуто условие останова.
Опишем применяющийся алгоритм. Вначале пространство признаков делится с помощью одного нейрона. Синтез нейрона осуществляется с помощью минимизации одного из рассмотренных ниже функционалов вторичной оптимизации. Затем на основании того же критерия полученные при делении области делятся еще раз и т.д. На рис. 4. представлена общая структурная схема алгоритма: / - блок определения параметров нейрона; II - блок разделения входной обучающей последовательности; III (пунктир) - алгоритм синтеза многослойной нейронной сети на первом шаге, аналогично которому строятся блоки III-, VI - блок управления.
Выбор параметров отдельных нейронов первого слоя на каждом шаге алгоритма осуществляется в соответствии с минимизацией одного из четырех рассматриваемых в работе критериев вторичной оптимизации:
1. а(п +1) = а(п)+K'sign\x„(n)
2. а(п + 1) = а(п) + 2К'ха(п)х(п)' ;
3. а(п +1) = а(п) + K'sign[xà (n)}«g7>(x, (л)) ;
4. а(п+1) = а{п)+2K\0(n)sign{x,(n)),
где а(п) - вектор коэффициентов нейрона на текущей итерации,
Y Г
ха (л) = £■(/!)- х, (л) - величина аналоговой ошибки, *„(«) ^ е(п)-sign 1-0
- величина дискретной ошибки (предполагается хо(п)=1 для всех п), е(п) -эталонные данные о классе сообщения, К* - матрица, определяющая скорость
.1-0 J
«
_, J N
настройки алгоритма, а применение усреднения х(п) ' =— ]Г*(0 позволяет
т, -»-».
снизить уровень шумов в контуре настройки, т„ - константа.
Рассматриваются методы синтеза последующих слоев. Вначале
осуществляется проверка возможности реализации последующих слоев в виде одного нейрона. Если это реализуемо, то на этом процесс синтеза
прекращается. Если нет, то производят формирование последующих слоев в виде порогово-дизъюнктнвной сети.
Рассмотрим расчет Рис-4- Структурная схема алгоритма значения статуса сообщения в последовательного
коллективном фильтре, формирования кусочно-линейной разделяющей Рассматривается Q гиперповерхности
дополнительных агентов, в которых значение статуса для сообщения т равно
S,[m\,j=\.....Q. Это позволяет каждому сообщению поставить в соответствие
следующий набор величин:
1,5Дт] е {НЕ, НТ} О, по - другому
Аналогичная величина рассчитывается для данного агента - >?[/»]. В результате для каждого сообщения обучающей выборки т(п) рассматривается величина коэффициента корреляции:
,Гfle.9=J
\М\
\М\
Величина
г0) показывает насколько можно в данном агенте доверять результатам идентификации класса сообщения в ¿-ом агенте.
Величина статуса для любого сообщения т на основании результатов идентификации класса сообщения в других агентах рассчитывается следующим образом:
50'М = 3 + ^-—р-:-.
Оценка качества фильтрации в работе осуществляется с помощью тестовой выборки на основании оценок точности и ошибки классификации. Указанные параметры определены следующим образом:
точность: Л =
ошибка: Е = -
^¿^[лпнямлг]!'
fi-lLeglM^ + lSpHM1}]' где JV - число сообщений тестовой выборки, которые относятся к классу e1t но отнесенные фильтрами к классу e¡, е„е2еЕ = {-У}, Spm[M] — множество сообщений класса СНР в множестве М, Leg[M] — множество ЯПС, М' - множество сообщений тестовой выборки, ft - коэффициент, позволяющий учесть увеличенную стоимость ошибок при выявлении ЛПС относительно ошибок при выявлении СНР.
Также определены величины точности и ошибки при выявлении сообщений каждого класса. Эти величины используются для оценки работы алгоритмов по отдельным классам сообщений в экспериментальной части работы.
Третья глава посвящена созданию аппаратно-программного комплекса АСАФ HP, решающего задачу адаптивной фильтрации HP.
Среди основных наиболее крупных программных компонентов АСАФ HP выделены следующие (см. рис. 5):
1) компонент ядра агента АСАФ HP (ядро);
2) компонент взаимодействия (KB);
3) компонент доступа к данным (КДД);
4) компонент ввода и отображения данных (КВОД).
KB реализуется на базе стандартного программного обеспечения (ПО) системы Postfix, КДД - на основе Apache Web Server, КВОД - на базе Outlook Express.
В качестве серверной ОС выбрана ОС RedHat, в качестве клиентской ОС -MS Windows ХР.
ДРУГИЕ СИСТЕМЫ И АГЕНТЫ
СЕРВЕР
КЛИЕНТ
БД
ЯДРО АГЕНТА АСФНР
В качестве
языка
программирования и средств
разработки приложений АСАФ HP выбраны
соответственно язык С++ и «Develop (для
серверной части), и _ _ „ „___
Microsoft Visual Рис. 5. Программные компоненты АСФ HP
Studio .NET 2003 (для клиентской).
В работе рассматриваются программные модули собственной разработки. Центральным модулем агентов АСАФ HP является boa.bin, который отвечает за выполнение функций запуска, перезапуска, останова агентов АСАФ HP на данном сервере, а также функций их мониторинга. Управление этим модулем осуществляется в режиме командной строки, опции которой следующие:
boa.bin [agent_namel, agent_name2, ...] [—start]
t—restart] [—list] [—activelist] [—passivelistj [—eventlog К [N-]M] [—config file.conf]
В работе также описываются все библиотеки, используемые в процессе работы модуля, основные интерфейсы взаимодействия, конфигурационные файлы, а также файлы в виде интерпретируемого кода на языке РНР.
На основе разработанного программного обеспечения формулируется оценка потребной производительности системы и разрабатываются требования к аппаратному обеспечению АСАФ HP. Рассматриваются варианты реализации АСАФ HP в системах различного уровня: системы с малой пропускной способностью, системы со средней пропускной способностью, системы обработки в реальном времени и магистральные системы. Также рассматриваются системы мобильной связи.
Четвертая глава посвящена экспериментальному исследованию АСАФ HP.
Рассматриваются цели и задачи экспериментального исследования, среди которых основной является определение оптимальных параметров рассматриваемых в работе алгоритмов, а дополнительной - исследование эффективности рассматриваемых методов.
В работе приводится методика экспериментальных исследований. Согласно используемой методике все эксперименты повторяются 10 раз на различных комбинациях обучающей и тестовой выборов, результаты которых усредняются. Обучение алгоритмов осуществляется на обучающей выборке, а оценка результатов - на непересекающейся с ней тестовой.
Экспериментальные исследования проводятся с использованием большого числа наиболее типичных сообщений каждого класса, отобранных организацией SpamAssassin в результате собственных экспериментальных исследований. На основе массива SpamAssassin сформировано три обучающих выборки разной сложности: SA-E (обычная), SA-H (сложная) и SA-A (объединение первых двух).
Вначале исследованию подверглись методы формирования пространства признаков, включающие: исследование методов формирования множества слов, использующихся для обучения; исследование методов сокращения размерности пространства признаков; исследование методов выбора комплексных признаков.
Результаты исследования методов сокращения размерности пространства признаков для класса Л ПС массива SA-E представлены на рис. 6. Полученные результаты показали, что для всех массивов и всех классов сообщений наиболее эффективным методом выбора значимых признаков является критерий %г ПРИ числе признаков около 2000.
Исследование методов выбора комплексных признаков осуществляется на основании отобранных в предыдущем разделе признаков. Исследование алгоритма, описанного в главе 2, приводит к экспоненциальному росту мощности множества кандидатов с ростом числа итераций. В работе рассматривается метод ограничения числа рассматриваемых признаков, среди которых рассматриваются те комплексные признаки, у которых отдельные составляющие слова имеют между собой высокий коэффициент корреляции. Это позволяет отбросить большую часть признаков, которые не представляют собой устойчивых лексических образований.
Из соображений производительности среди признаков с высоким коэффициентом корреляции должны выбираться наиболее частые, т.е. такие, которые встречаются в максимальном числе сообщений.
На рис. 7 представлена гистограмма, показывающая среднее число сообщений в массиве SA-E, содержащих признаки с соответствующим коэффициентом корреляции, (для SA-H - аналогично).
Рис. 7. Среднее число сообщений в массиве БД-Е, содержащих признаки с заданным коэффициентом корреляции Описанным требованиям к комбинированным признакам соответствуют признаки со значениями коэффициента корреляции, близкими к 0,4-0,5.
В следующем эксперименте оценивалось пространства признаков, содержащее фиксированное число признаков, выбор которых осуществлялся из
различных окрестностей точки г=0,5. Результаты данного эксперимента показали, что достаточно использовать признаки из окрестности [0,45; 0.55] коэффициента корреляции.
Исследования числа признаков, отбираемых из заданной окрестности точки г=0.5, показали, что достаточно отобрать порядка 4000 признаков, а результирующая размерность пространства признаков составила порядка 6000 признаков.
Увеличение максимального числа входящих в комплексные признаки слов более 3-х не дало увеличения качества классификации, а на практике достаточно ограничиться числом слов равным 2.
Исследование методов обучения нейронной сети включает следующие шаги: исследование настройки одного нейрона с использованием различных функционалов вторичной оптимизации; исследование числа итераций; исследование выбора шага; исследование выбора числа нейронов первого слоя.
Исследования критериев вторичной оптимизации показали, что рассматриваемые в работе критерии можно упорядочить по эффективности их применения в данной задаче следующим образом: "2а", "1а", "1д", "2д\
При исследовании числа итераций в работе рассматриваются три "стоимостных" варианта: 1) стоимость ошибки при распознавания ЛПС равна стоимости ошибки при распознавании СНР (// = 1); 2) стоимость ошибки в распознавании ЛПС в три раза выше стоимости ошибки при распознавании СНР (// = 3); 3) стоимость ошибки в распознавании ЛПС в десять раза выше стоимости ошибки при распознавании СНР
Результаты значений по обобщенной точности приведены на рис. 8 для массива SA-E (аналогично для массива SA-H).
Зависимость показывает, что пик распознавания достигается при числе итераций порядка 1 06.
Точность, %
итераций
Рис. 8. Зависимость точности фильтрации HP в массиве SA-E в зависимости от числа итераций при различных стоимостных вариантах.
На рис. 9 представлены зависимости, отображающие качество распознавания в зависимости от величины шага обучения нейросети для массива SA-E. Анализ этих кривых позволяет рекомендовать в качестве шага обучения выбрать величину 1(Г*
Проведено исследование выбора числа нейронов первого слоя. Результаты этого эксперимента приведены на рис. 10 (для массива SA-E). Полученные зависимости имеют общий характер. Полученные данные позволяют
Рис. 9. Точность распознавания сообщений в массиве SA-E при различной величине шага обучения, к
Точность, %
Рис. 10. Зависимость точности распознавания сообщений каждого класса от числа нейронов первого слоя в массиве SA-E, Ы
рекомендовать в качестве числа нейронов первого слоя для выборки 5А-Е 4-5 нейронов, тогда как для выборки БА-Н - 3 нейрона (рисунок не приводится).
Исследование порогов позволяет определить величины порогов Тэ и Тн. Порот позволяют отделить диапазон выходных значений нейронной сети, в которых нейронная сеть может иметь ошибку распознавания (диапазон "II'). от диапазонов уверенного распознавания НР (диапазон "Б", порог Т5) и ЛПС (диапазон "Н", порог Тн). Диапазон Э соответствуют мнемоническим кодам БЕ и БТ, диапазон Н - НЕ и НТ, а диапазон и - кодам НС и БС.
В экспериментах данного раздела осуществляется выбор порогов Те и Тн, обеспечивающих минимум числа сообщений, попадающих в поддиапазон "1Г. Результаты этих экспериментов представлены в табл. 1
Таблица 1.
№п/п Массив Т5 Рэ-^ Рэ->и Тн Рн->н
1 ЭА-Е -18 87,0% 13,0% 12 89,2%
2 ЭА-Н -22 83,7% 16,3% 29 78,4%
Из табл. 1 следует, что при 100% распознавании ЛПС для массива ЗА-Е будет пропущено порядка 13% сообщений класса СНР, а для массива вА-Н порядка 16,3%.
В экспериментальных исследованиях коллективной фильтрацию имитировалась совместная работа двух агентов, получающих одновременно два непересекающихся подмножества сообщений. Оценка результатов производилось по тестовой выборке. Результаты, усредненные по обоим агентам приведены в табл. 2.
Таблица 2.
№ Массив Рэ-в Рн->н Р^и
1 До применения совместной фильтрации 86,0% 88,9% 14,0%
2 После применения совместной фильтрации 91,2% 94,1% 8,8%
Таким образом, результаты экспериментов демонстрируют, что применение методов совместной фильтрации позволило повысить качество фильтрации на 5,2%, сократив число пропущенных сообщений HP до 8,8%.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Проведена классификация и систематизация существующих автоматизированных систем фильтрации незапрашиваемой рассылки (АСФ HP) по архитектуре (функциональному строению), способам реализации их основных функций, а также использующемуся в них математическому аппарату.
2. Исследованы и разработаны математические методы и алгоритмы, позволяющие производить автоматическое формирование обучающей выборки с учетом указаний пользователей о выявленных ошибках фильтрации.
3. Исследованы и разработаны математические методы формирования пространства признаков в задаче анализа содержания сообщений, что позволило повысить точность анализа за счет учета значимых словосочетаний.
4. Исследованы и разработаны методы синтеза нейросетей с переменной структурой, показана эффективность применения нейросетей этого класса в задаче фильтрации HP, определены их оптимальные параметры.
5. Разработан аппаратно-программный комплекс фильтрации HP на основе предложенных в работе принципов.
6. Проведены экспериментальные исследования математических методов и алгоритмов, использующихся в АСАФ HP на реальном материале сообщений электронной почты Интернет, определены оптимальные параметры алгоритмов, предложенных в работе, а также методики их автоматического выбора. Результаты проведенных экспериментов показали, что при 0% ложной фильтрации пользовательских сообщений разработанная система обеспечивает пропуск порядка 8,8% сообщений HP, что превосходит аналогичные показатели существующих систем данного класса.
ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИИ ИЗЛОЖЕНЫ В СЛЕДУЮЩИХ РАБОТАХ:
1. Цыганов И.Г., Власов А.И. Архитектура корпоративной многоагентной автоматизированной системы фильтрации информационных потоков // Информационные технологии. - 2005. - №1. - С. 34-41.
2. Цыганов И.Г., Власов А. И. Адаптивная фильтрация информационных потоков в корпоративных системах на основе механизма голосования пользователей // Информационные технологии. - 2004. - №9. - С. 12-19.
3. Цыганов И.Г., Смирнова Е.Г. Исследование и анализ предпосылок распространения незапрашиваемой рассылки в глобальных гетерогенных сетях передачи информации // Научно-технический сборник. ВТУ при Спецстрое России. - 2004. - Вып. 8. - С. 114-133.
4. Цыганов И.Г., Руденко М.И. Метрики текстов в автоматизированных системах обработки информации // Наукоемкие технологии и интеллектуальные системы: Сборник научных трудов VI Международной молодежной научно-технической конференции. - М., 2004. - С. 86-93.
5. Цыганов И.Г Решение задачи автоматизированной контекстной классификации с помощью стохастического моделирования лингвистической структуры категорий // Наукоемкие технологии и интеллектуальные системы: Сборник научных трудов VI Международной молодежной научно-технической конференции. - М., 2004. - С. 178-185.
6. Цыганов И.Г. Оценка применимости нейросетевых парадигм при решении задачи сквозного семантического анализа текстовых сообщений // Наукоемкие технологии и интеллектуальные системы: Сборник научных трудов V Международной молодежной научно-технической конференции. — М., 2003. — С. 66-77.
7. Цыганов И.Г. Применение нейросетевых методов для фильтрации SPAM сообщений // Информатика и системы управления в XXI веке: Сборник научных трудов Международной молодежной научной конференции. - М., 2002. - С. 26-33.
8. Цыганов И.Г. Нейросетевые методы автоматизированного анализа информационных потоков в масштабе реального времени // Студенческая научная весна - 2002: Сборник докладов студенческой научной конференции с международным участием. - М., 2002. - С. 19-24.
Подписано к печати 24.05.2005. Заказ №165. Объем 1,0 п.л. Тираж 100 экз. Типография МГТУ им. Н.Э. Баумана, 107005, г. Москва, 2-ая Бауманская ул., д. 5.
1б
О 9 ¡1Ю/1 2005 I Ч?
У L
* Ч»
V.J>
1646
Оглавление автор диссертации — кандидата технических наук Цыганов, Илья Германович
Содержание
Обозначения
Введение
ГЛАВА 1. КЛАССИФИКАЦИЯ И АНАЛИЗ СУЩЕСТВУЮЩИХ АВТОМАТИЗИРОВАННЫХ СИСТЕМ ФИЛЬТРАЦИИ НЕЗАПРАШИВАЕМОЙ РАССЫЛКИ. ТРЕБОВАНИЯ К ИХ СОСТАВУ И ФУНКЦИОНАЛЬНЫМ ВОЗМОЖНОСТЯМ
1.1. Исследование и анализ явления незапрашиваемой рассылки, постановка задачи фильтрации незапрашиваемой рассылки
1.1.1. Понятие незапрашиваемой рассылки
1.1.2. Причины появления и широкого распространения явлений незапрашиваемой рассылки
1.1.3. Характеристика ущерба от незапрашиваемой рассылки
1.1.4. Анализ процесса распространения незапрашиваемой рассылки
1.1.5. Особенности задачи фильтрации незапрашиваемой рассылки, постановка задачи фильтрации
1.2. Классификация и анализ возможностей существующих АСФ НР
1.2.1. Классификация АСФ НР по архитектуре системы
1.2.2. Классификация АСФ НР по способам реализации функций фильтрации
1.2.3. Классификация АСФ НР по способу реализации функций выявления ошибок фильтрации
1.2.4. Классификация АСФ НР по способу реализации функций настройки фильтров
1.2.5. Классификация методов адаптивной фильтрации незапрашиваемой рассылки по контекстным признакам
1.3. Требования к составу и функциональным возможностям автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки 67 Выводы по главе
ГЛАВА 2. ФУНКЦИОНАЛЬНОЕ ПОСТРОЕНИЕ И МАТЕМАТИЧЕСКИЙ АППАРАТ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ АДАПТИВНОЙ
ФИЛЬТРАЦИИ НЕЗАПРАШИВАЕМОЙ РАССЫЛКИ
2.1. Общие принципы построения многоагентных автоматизированных систем адаптивной фильтрации незапрашиваемой рассылки
2.1.1. Многоагентная архитектура АСАФ НР
2.1.2. Принципы обмена информацией между агентами АСАФ НР
2.1.3. Принципы взаимодействия между равноправными агентами
2.1.4. Принципы взаимодействия в группах агентов
2.1.5. Общие принципы построения агентов АСАФ НР
2.2. Математическая модель подсистемы фильтрации
2.3. Формирование обучающих и тестовых выборок
2.4. Контекстная фильтрация
2.4.1. Математическая модель пространства признаков
2.4.2. Математическая модель категоризации текстовых сообщений
2.5. Коллективная фильтрация
2.6. Математические модели оценки качества системы фильтрации 117 Выводы по главе
ГЛАВА 3. АППАРАТНО-ПРОГРАММНЫЙ КОМПЛЕКС АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ АДАПТИВНОЙ ФИЛЬТРАЦИИ
НЕЗАПРАШИВАЕМОЙ РАССЫЛКИ
3.1. Особенности функционирования, требования к проектированию и реализации многоагентной автоматизированной системы адаптивной фильтрации незапрашиваемой рассылки
3.1.1. Общесистемные требования к реализации АСАФ НР
3.1.2. Требования к реализации отдельных агентов
3.1.3. Требование к процессам взаимодействия между агентами
3.2. Проектирование программных компонентов АСАФ НР
3.3. Аппаратно-программное обеспечение
3.3.1. Системное программное обеспечение
3.3.2. Прикладное программное обеспечение
3.3.3. Оценка производительности и требования к аппаратному обеспечению АСАФ НР
3.3.4. Аппаратное обеспечение АСАФ HP
3.4. Проектирование размещения программных компонентов АСАФ HP
3.5. Методическое обеспечение 161 Выводы по главе
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ АДАПТИВНОЙ ФИЛЬТРАЦИИ
НЕЗАПРАШИВАЕМОЙ РАССЫЛКИ
4.1. Цели и задачи экспериментальных исследований
4.2. Методика экспериментальных исследований
4.3. План экспериментальных исследований
4.4. Состав экспериментального стенда
4.5. Выбор массива сообщений
4.6. Исследование методов формирования пространства признаков
4.6.1. Исследование способов формирования предварительного пространства признаков
4.6.2. Исследование методов сокращения размерности пространства признаков
4.6.3. Исследование методов выбора комплексных признаков
4.7. Исследование методов обучения нейронной сети
4.7.1. Исследование настройки одного нейрона с использованием различных функционалов вторичной оптимизации
4.7.2. Исследование числа итераций
4.7.3. Исследование выбора шага
4.7.4. Исследование выбора числа нейронов первого слоя
4.8. Исследование порогов
4.9. Исследование методов совместной фильтрации
4.10. Оценка результатов экспериментального исследования 205 Выводы по главе
ВЫВОДЫ
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Цыганов, Илья Германович
Современные глобальные системы обработки информации объединили большое число независимых подсистем, предоставив им множество возможностей для свободного получения и распространения информации. Однако, эксплуатация таких систем выявила целый ряд проблем в области взаимодействия их компонентов - отдельных подсистем. Ключевые из них связаны с возможностями навязывания отдельным подсистемам получения незапрашиваемой их пользователями информации (фактически, информационного шума). Обработка такой информации в подсистемах приводит к потерям, обусловленным увеличением стоимости их обслуживания и снижением качества их работы. Все это заставляет разрабатывать различные подходы борьбы с незапрашиваемой информацией.
В настоящее время проблемы незапрашиваемой информации наиболее остро проявляются в системах обработки текстовой информации, таких как электронная почта (ЭП) глобальной сети Интернет, где широкое распространение получила незапрашиваемая рассылка (так называемый "спам"), использующаяся как дешевое средство нелегальной рекламы. По данным различных международных организаций (CAUCE - Coalition Against Unsolicited Commercial Email, IETF - Internet Engineering Task Force и др.) уже сейчас среднестатистический пользователь систем электронной почты может получать несколько десятков и даже сотен незапрашиваемых сообщений в день[1,2], а процентное отношение сообщений незапрашиваемой рассылки (HP) к общему числу сообщений, передаваемых в Интернет, достигает 95%, и эта цифра постоянно растет [3]. Все это уже сейчас приводит ко множеству серьезных затруднений при использовании электронной почты [1,3-9], а в будущем многие прогнозы развития текущей ситуации показывают, что эффективность систем электронной почты будет постоянно снижаться, что может привести к массовым отказам от ее использования [10]. Таким образом, если в самое ближайшее время не будут разработаны средства, способные эффективно противодействовать HP, то это поставит под угрозу саму возможность применения систем электронной почты и нанесет заметный ущерб общему ходу поступательного развития современных высокотехнологичных, эффективных средств общения между людьми.
Сейчас проблемы незапрашиваемой рассылки в глобальной сети Интернет стали активно подниматься на самых различных уровнях [11]. В законодательстве некоторых стран (например, в США и Европейском Союзе) в последние годы появились нормы, устанавливающие юридическую ответственность за распространение НР [12-14]. Состоялось несколько громких процессов по делам, связанным с ущербом, нанесенным распространителями НР. Однако, несмотря на это, юридические нормы до сих пор так и не позволили решить проблемы НР [15]. Это связано с целым рядом причин [16]. Во-первых, понятие незапрашиваемой рассылки с юридической точки зрения является достаточно противоречивым и сложным, что затрудняет разработку и широкое внедрение подобных норм. Во-вторых, применение юридических способов борьбы с НР требует принятия единых правовых норм для всех сегментов сети Интернет, введение которых затруднено из-за различий в законодательствах стран, использующих Интернет. В-третьих, в современных телекоммуникационных системах существует множество возможностей сокрытия идентичности отправителя при осуществлении рассылки, что затрудняет идентификацию злоумышленников. Все это заставляет вместо юридических средств борьбы разрабатывать технические средства фильтрации, предоставляющие возможности для автоматического выявления и блокирования сообщений НР. Их использование в современных условиях является единственным надежным способом защиты от НР.
Выявление сообщений незапрашиваемой рассылки (СНР) с помощью технических средств фильтрации основывается на применении некоторого формального аппарата, позволяющего отнести данное сообщение к одному из двух классов: 1) к классу СНР, либо 2) к классу легитимных пользовательских сообщений (ЛПС). После того, как класс идентифицирован, сообщению назначается соответствующий вид обработки: для СНР - блокирования и уничтожение, для ЛПС - передача пользователю. Подобный же принцип уже давно используется в системах защиты от распространения компьютерных вирусов, формальный аппарат в которых обеспечивает выявление и уничтожение программ, выполняющих опасные действия.
В средствах фильтрации НР определение класса сообщения осуществляется на основании анализа различных признаков (рис. В.1.), таких, например, как адресная информация об отправителе сообщения [17-22], характерные признаки оформления сообщений [21], отдельные ключевые слова текстовой части сообщения [23-25], текст сообщения целиком [26], комплексные признаки, извлекаемые из текста сообщения [27] и т.д.
Технические средства фильтрации НР обеспечивают обработку потоков сообщений различного масштаба: от небольших потоков, поступающих отдельным пользователям, до крупных потоков, поступающих широкой группе пользователей. сообщений, поступающих из сети
Извлечение признаков HP
Анализ признаков HP
----- ►У7/7С
I IOTOK М»пшвиио w Дuanui ь. |
Принятие решения U
СНР
Рис. В. 1. Функциональная схема технических средств фильтрации HP
Наиболее сложным и перспективным направлением разработки средств фильтрации является построение многопользовательских автоматизированных систем фильтрации незапрашиваемой рассылки (АСФ HP), обеспечивающих комплексную защиту соответствующей группы пользователей. АСФ HP чаще всего функционируют в составе автоматизированных информационных систем (АИС) организаций (рис. В.2.), но могут также применяться и в более крупных системах телеком-операторов, магистральных системах обработки информации, а также в системах спутниковой и мобильной связи.
Эффективность работы АСФ HP определяется в основном характером использующихся для выявления HP признаков, а также применяющимися способами составления и модификации признаков.
В большинстве современных АСФ HP составление и модификация признаков HP осуществляется в ручном режиме, для чего привлекаются эксперты. Однако, в настоящее время, когда общие объемы передаваемых сообщений и число распространяемых видов HP значительно возросло, настройка фильтрации в ручном режиме начинает отнимать все больше времени и становится все менее эффективным средством. Поэтому сейчас особенно остро возникла потребность в разработке и применении более простых, надежных и гибких подходов, обеспечивающих минимизацию времени при настройке фильтров за счет использования автоматических методов.
Исследование и разработка автоматических гибких адаптивных систем фильтрации HP в настоящее время активно ведется во всем мире. В эту работу вовлечены различные организации: университетские лаборатории (лаборатория CSAIL, MIT, США, подразделение Computer Science Division, Калифорнийского университета, США, Computer Laboratory, Великобритания и др.); научно-исследовательские центры (центр NCSR "Demokritos", Греция, исследовательский центр IBM, США [28,29] и др.); коммерческие фирмы (Microsoft, Symantec,
Лаборатория Касперского, и др.). Огромное внимание к рассматриваемой проблеме уделяется международными организациями. Так, в рамках организации IETF (Internet Engineering Task Force) в 2003 г. создана и постоянно действует исследовательская группа ASRG (Anti-Spam Research Group) [30,31], занимающаяся исследованием и разработкой средств противодействия HP. В последние годы стало появляться множество статей по проблемам незапрашиваемой рассылки, было организовано множество международных конференций, саммитов и симпозиумов, посвященных этой теме (NIST Spam Technology Workshop, США, 2004 г., ASRG Meeting, США, 2003, Cambridge Spam Conference, США, 2003-2005 гг., Conference on Email and Anti-Spam (CEAS), Маунтэйн Вью, США, 2004,2005 гг., Spam Forum, Париж, Франция, 2003 г., AntiSpam-Symposium, Карлсрух, Германия, 2003 г., Spam Summit, Великобритания, 2003 г., Национальная конференция "Проблема спама и ее решения", Москва,
Средства разработки
Обработка текстов и таблиц
Визуализация/ воспроизведение
Прогнозирование
Моделирование
Бизнес-приложения
Ядро АИС
Система административного управления
Система безопасности
Экспертная система
Система управления документами
Система управления базами данных
Система автоматизированного проектирования Автоматизированная L " система ~ фильтрации I
Обработка пользовательских сообщений
Приложения
Графическая обработка
Накопление/ хранение данных
Развлек аггельн ые приложения
Проектирование
ERPyCRM гг
Мониторинг
Автоматическая обработка заявок
Рис. В.2. Место АСФ HP в структуре АИС организации Россия 2003, 2004 гг., АР Net Abuse Workshop, Малайзия, Тайвань, 2002-2004 гг. и др.). Было издано несколько книг, целиком посвященных проблемам HP (Stopping Spam [32], Removing the Spam [33], Canning Spam [34], Anti-Spam Tool Kit [35] и др.). Особенно значительный вклад в разработку средств фильтрации вносят программистские коллективы глобальной сети Интернет на добровольных началах (например, Apache SpamAssassin [36,37]).
Большинство разработанных на данный момент средств автоматической настройки фильтров основываются на использовании баз данных выявленных сообщений НР. Выявляемые различными способами сообщения НР регистрируются в таких БД, а при повторном поступлении сообщений, имеющихся в БД, осуществляется их автоматическое блокирование. Использование средств нечеткого сравнения сообщений позволило значительно сократить объем обрабатываемых однотипных сообщений НР. Однако, в ответ на внедрение таких средств автоматизации, распространители НР стали использовать автоматические средства модификации содержания сообщений, что сделало использование таких подходов неэффективным. Поэтому сейчас возникла потребность в разработке более совершенных автоматизированных средств фильтрации, которые должны обеспечивать идентификацию не только полных двойников выявленных ранее сообщений, но способных на основании имеющейся выборки сообщений НР (БД сообщений НР) предсказывать новые виды НР и осуществлять их блокирование по совокупности экстрагируемых признаков. Для настройки фильтров в таких средствах используются алгоритмы автоматического анализа выборки (обучающая выборка).
Для повышения уровня адаптации фильтров АСФ НР к требованиям пользователей, настройка фильтров АСФ НР делегируется ее пользователям. Однако, при одновременной настройке фильтров, осуществляемой различными пользователями, возникают коллизии, связанные с различиями в индивидуальных требованиях каждого из пользователей. Коллизии связаны с тем, что в общем случае различные пользователи могут относить одно и то же сообщение не к одному, а к различным классам. В подавляющем большинстве АСФ НР, коллизии данного типа разрешаются путем ограничения возможностей настройки фильтров, предоставляемых отдельным пользователям. Пользователям при этом разрешается воздействовать только на свои персональные фильтры, и не разрешается воздействовать на другие части системы. Однако, подобный способ решения проблемы коллизий сейчас становится все менее эффективным, поскольку информация о выявленных одним из пользователей СНР не может использоваться другими для идентификации выявленных видов НР. Для преодоления этого недостатка существующих систем требуется построение АСФ
НР совершенного нового типа, в которых фильтрация осуществляется на основе анализа результатов голосования отдельных пользователей по множеству поступивших в АСФ НР сообщений. Контур настройки в этом случае оказывается замкнутым на пользователей АСФ НР. Это позволяет обеспечить более полный учет информации, имеющейся в системе по отдельным сообщениям, обеспечить эффективное взаимодействие пользователей при решении задачи фильтрации и автоматизировать многие задачи, решаемые в современных системах в ручном режиме.
АСФ с коллективным управлением относятся к классу интеллектуальных многоагентных (многокомпонентных) систем, в которых, можно выделить, во-первых, агентов пользователей (АП), выполняющих функции фильтрации и настройки от имени отдельных пользователей, во-вторых, агентов фильтрации (АФ), выполняющих функции фильтрации и настройки в группах пользователей, обеспечивающих синхронизацию их работы. Фильтрация и настройка в системах данного класса осуществляется при взаимодействии отдельных агентов системы. Каждый агент осуществляет оценку класса сообщения на основании той информации, которой он располагает, с учетом результатов обработки данного сообщения в других агентах системы. Разработки в области построения систем данного класса сейчас только начинаются. На данный момент создано несколько действующих систем, имеющих подобный принцип работы, однако, все они являются экспериментальными и решают только некоторые частные вопросы. Поэтому сейчас возникает потребность в разработке целостной и законченной программно-аппаратной системы фильтрации, обеспечивающей функции коллективного управления процессами фильтрации потоков сообщений в группах пользователей.
Цель работы. Исследование моделей, методов и алгоритмов адаптивной фильтрации потоков информации в группах пользователей и разработка многопользовательской многоагентной обучаемой пользователями автоматизированной системы адаптивной фильтрации, обеспечивающей автоматическое выявление и блокирование незапрашиваемой рассылки в потоках сообщений систем электронной почты глобальной информационной сети Интернет.
Достижение поставленной цели потребовало решения комплекса задач, в частности:
1) исследование и анализ функциональных возможностей и математического аппарата современных АСФ НР и разработка требований к архитектуре и математическому аппарату многопользовательских адаптивных АСФ НР;
2) исследование и разработка многоагентной архитектуры АСАФ НР, позволяющей пользователям участвовать в процессах фильтрации и адаптации фильтров АСФ НР;
3) исследование и разработка математических моделей, методов и алгоритмов, обеспечивающих адаптивную фильтрацию потоков информации в группах пользователей: методов формирования обучающей и тестовой выборки, методов построения пространства признаков, методов классификации текстовых сообщений по выявленным признакам, методов коллективной фильтрации.
4) исследование и выбор методов программной и аппаратной реализации средств фильтрации НР и разработка реализации АСАФ НР в виде аппаратно-программного комплекса, обеспечивающего фильтрацию НР на основе разработанных принципов;
5) экспериментальное исследование эффективности предложенных моделей, методов и алгоритмов, определение оптимальных параметров, обеспечивающих наивысшие показатели качества фильтрации НР, разработка рекомендаций по настройке системы.
Методы исследования. При решении поставленных задач использована теория информационных систем, теория экспертных систем и обработки знаний, нейроматематика, теория нейронных сетей, теория оптимизации, математический аппарат теории автоматического управления, теория вероятностей и математическая статистика, теория Марковских случайных полей.
Научная новизна работы состоит в следующем:
1) Проведено исследование, классификация и систематизация существующих многопользовательских АСФ НР с точки зрения функциональной структуры, особенностей реализации основных функций и применяющегося в них математического аппарата.
2) Исследована и разработана архитектура многоагентной автоматизированной системы адаптивной фильтрации НР, обеспечивающая эффективное взаимодействие пользователей системы при настройке ее фильтров.
3) Исследованы и разработаны математические модели и методы формирования пространства признаков в задаче анализа содержания сообщений электронной почты, что позволило повысить точность анализа за счет учета значимых словосочетаний.
4) Исследован и разработан метод синтеза нейронной сети с переменной структурой, входным сигналом которой являются разряженные векторы большой размерности (до десяти тысяч).
5) Проведены экспериментальные исследования предлагаемых в работе методов и алгоритмов, позволившие определить оптимальные параметры, обеспечивающие их максимальную эффективность.
Достоверность полученных научных результатов, выводов и рекомендаций диссертационной работы подтверждена:
1) результатами экспериментальных исследований;
2) результатами внедрения разработанной многопользовательской АСАФ НР в корпоративной системе электронной почты Международного Института Экономики и Права (4000 пользователей);
3) результатами внедрения разработанных в работе моделей, методов и алгоритмов, а также программного комплекса экспериментального исследования алгоритмов фильтрации текстовой информации в учебный процесс МГТУ им. Н.Э. Баумана.
Полученные в работе результаты наглядно демонстрируют эффективность использования разработанных моделей, методов и алгоритмов для решения задач автоматической адаптивной фильтрации незапрашиваемой рассылки в группах пользователей.
Положения, выносимые на защиту:
1) архитектура, функциональный состав и интерфейсы АСАФ НР;
2) метод формирования пространства признаков в задаче фильтрации текстовых сообщений, обеспечивающий учет, как значимых слов, так и значимых словосочетаний;
3) методы и алгоритмы обучения многослойной нейронной сети с переменной структурой, входным сигналом которой являются разряженные векторы большой размерности;
4) аппаратно-программная реализация многоагентной АСАФ НР;
5) результаты экспериментальных исследований разработанных методов и алгоритмов для решения задачи фильтрации незапрашиваемой рассылки.
Практическая ценность работы. Разработанные в диссертации методы формирования пространства признаков, методы учета указаний группы пользователей о выявленных ошибках фильтрации и алгоритмы настройки нейронных сетей, а также аппаратно-программный комплекс, реализующий многоагентную АСАФ НР, построенный на основе разработанных принципов позволяют:
1) повысить эффективность фильтрации потоков незапрашиваемой информации;
2) автоматизировать и упростить контур настройки современных АСФ НР;
3) сократить время, требуемое на адаптацию АСФ НР к выявленным ошибкам;
4) автоматизировать и сократить ручной труд при наладке системы;
5) предоставить пользователям гибкий механизм управления процессом фильтрации сообщений НР.
Разработанные алгоритмы и программы могут быть использованы для дальнейшего развития и совершенствования систем интеллектуальной фильтрации и управления потоками текстовой информации.
Реализация результатов. Разработанная в работе аппаратно-программная реализация АСАФ НР внедрена в корпоративную систему электронной почты Международного Института Экономики и Права и обеспечивает фильтрацию потоков сообщений, поступающих нескольким тысячам пользователей этой системы.
Полученные в работе математические модели, методы и алгоритмы, а также разработанный комплекс экспериментальных исследований алгоритмов адаптивной фильтрации потоков текстовой информации, внедрен в учебный процесс МГТУ им. Н.Э. Баумана
Копии актов о внедрении прилагаются.
Апробация работы. Результаты работы были представлены на Международной молодежной научно-технической конференции "Наукоемкие технологии и интеллектуальные системы", (Москва, 2003, 2004), Международной молодежной научной конференции "Информатика и системы управления в XXI веке", (Москва, 2003 г.), студенческой научной конференции "Студенческая научная весна-2002", (Москва, 2002).
Публикации. По материалам и основному содержанию работы имеется 15 публикаций в научно-технических журналах и трудах конференций.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы. Общий объем диссертации 208 страниц, 84 рисунка, список использованных источников из 237 наименований.
Заключение диссертация на тему "Многоагентная автоматизированная система адаптивной фильтрации потоков текстовой информации"
ВЫВОДЫ
Перечислим основные выводы по данной работе.
1. Проведено исследование проблем, связанных с распространением незапрашиваемой рассылки (НР). Исследована и разработана обобщенная архитектура современных многопользовательских автоматизированных систем фильтрации незапрашиваемой рассылки (АСФ НР), в которой выделены ключевые функциональные блоки. Проведена классификация и систематизация существующих видов АСФ НР по архитектуре и способам реализации отдельных функций. Произведен анализ основных математических моделей, методов и алгоритмов, использующихся в задаче адаптивной фильтрации потоков текстовой информации (статистические методы, методы информационного поиска, методы на основе правил решений, методы на основе сравнения с образцами, нейронные сети, и некоторые другие методы). Исследование показало, что большинство существующих методов при их практической реализации делают жесткие предположения о свойствах обучающей выборки (например, один кластер на класс), что накладывает ограничения на максимальное качество распознавания в задаче фильтрации НР, достижимое с применением этих подходов. Однако, нейронные сети, лишены этого недостатка, чем объясняется их выбор в качестве основного метода, использующегося в данной работе.
2. В работе произведено исследование и разработка комплекса математических моделей, методов и алгоритмов, обеспечивающих фильтрацию потоков сообщений НР в многопользовательских средах. Исследованы методы контекстной фильтрации и коллективной фильтрации. Для настройки адаптивных фильтров системы разработаны алгоритмы формирования обучающих и тестовых выборок по указаниям, поступающих от пользователей АСАФ НР. Среди методов контекстной фильтрации исследованы и разработаны методы автоматического формирования пространства признаков, а также методы синтеза нейросетевого классификатора.
3. Методы формирования пространства признаков включают методы выбора значимых слов и словосочетаний. Для выбора значимых слов в работе предложено использовать ряд статистических и информационных критериев. Для формирования значимых словосочетаний используется метод стохастического моделирования лингвистической структуры категорий, который позволяет выделить наиболее информативные комплексные признаки и повысить точность фильтрации НР.
4. Исследованы и разработаны методы синтеза нейросетей с переменной структурой, показана эффективность применения нейросетей этого класса в задаче фильтрации НР, определены их оптимальные параметры.
5. На основании предложенных функциональных моделей, математических методов и алгоритмов в работе произведена разработка аппаратно-программного комплекса АСАФ НР. Произведена декомпозиция агентов АСАФ НР на ряд программных компонентов, часть из которых является стандартными, другие разрабатываются в данной работе. Разработаны требования к аппаратной платформе АСАФ НР и предложены варианты ее реализации в системах различного уровня: от небольших систем с малой пропускной способностью до высокопроизводительных магистральных систем обработки информации.
6. Проведены экспериментальные исследования математических методов и алгоритмов, использующихся в АСАФ НР на реальном материале сообщений электронной почты Интернет: при 0% ложной фильтрации пользовательских сообщений обеспечивается пропуск порядка 8,8% сообщений НР. Определены оптимальные параметры, использование которых обеспечивает максимальную эффективность разработанных в работе математических моделей, методов и алгоритмов. Определены методики автоматического выбора оптимальных параметров алгоритмов, использующихся в работе.
209
Библиография Цыганов, Илья Германович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Atkins S. Size and Cost of the Problem // Proc. of the 56th Internet Engineering Task
2. Force Meeting. San Francisco, 2003. - P. 23-34.
3. Francois R.C. Economics of Spam // Proc. of the FTC Spam Forum. Washington, 2003. - P. 45-78.
4. Никишин А. Криминальный бизнес и его цена для общества // Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 101122.
5. Microsoft. Вред, наносимый спамом // Информационный бюллетень. Microsoft. -2003. Вып. 23. - С. 59-71.
6. Cranor L.F., LaMacchia В. A. Spam! // Communications of the ACM. 1998. - V. 41,8. P. 174-189.
7. Gartner Consulting. ISPs and Spam: The Impact of Spam on Customer Retention an Acquisition : Report. San Jose: Gartner Consulting, 1999. - 15 p.
8. Bruening P.J. Why Am I Getting All This Spam? II Proc. of the NIST SPAM Technology Workshop. Gaithersburg, 2004. - P. 55-61.
9. USA. House Office of Program Research and Senate Committee Services. Commercial Electronic Messages Select Task Force Report. Washington, 1998. -32 p.
10. Barnett N. Le Spam: Definition, analyse, measures // Proc. of the Spam Forum. -Paris, 2003. P. 45-65.
11. USA. Department of Commerce. National Telecommunications and Information Administration. Falling through the net: Defining the digital divide: Technical report. -Washington, 1999. -73 p.
12. Blumenthal D.M. Federal Trade Commission Anti-Spam Efforts H Proc. of the NIST SPAM Technology Workshop. Gaithersburg, 2004. - P. 44-54.
13. Бекещенко Э. Законы о спаме в США и Европе // Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 122-125.
14. Lugaresi N. European Union vs. Spam: A Legal Response // Proc. of the First Conference on Email and Anti-Spam (CEAS). Mountain View, 2004. - P. 468^80.
15. Yolin J.-M. Aspects juridiques // Proc. of the Spam Forum. Paris, 2003. - P.324-344.
16. Лужков Ю. О темной стороне Интернета // Известия. 16.05.04.
17. Crocker D., Spam: Ready, Fire, Aim // Proc. 4th AP Net Abuse Workshop (APCAUCE Conference). Kuala Lumpur, 2004. - P.328-349.
18. Goodman J. IP Address in Email Clients // Proc. First Conference on Email and Anti-Spam (CEAS). Mountain View, 2004. - P.254-264.
19. Athola S. An overview of Spam Handling Techniques: Whitepaper / Computer Science Department, Florida State Univ. Florida, 2003. - P.111-132.
20. Hird S. Technical Solutions for Controlling Spam / Distributed Systems Technology Centre, Australia // Proc. Australian UNIX and Open Systems User Group (AUUG). -Melbourne, 2002. P.576-594.
21. Libbey M. Yahoo! SpamGuard // Proc. of the NIST SPAM Technology Workshop. -Gaithersburg, 2004. P. 211 -234.
22. Huseman B. Technological Solutions to Spam. Structural Changes to Email // Proc. of the FTC Spam Forum. Washington, 2003. - P. 658-680.
23. Salem E. The technological solutions to spam / Brightmail // Proc. APIG Spam Summit. London, 2003. - P.211-231.
24. Zdziarski J. Bayesian Noise Reduction // Proc. of the Spam Conference. -Cambridge, 2005. P. 23-33.
25. Michelakis E. Filtron: A Learning-Based Anti-Spam Filter // Proc. First Conference on Email and Anti-Spam (CEAS). Mountain View, 2004. - P.75-86.
26. Meyer T.A. SpamBayes: Effective open-source, Bayesian based, email classification system // Proc. First Conference on Email and Anti-Spam (CEAS). -Mountain View, 2004. P.771- 795.
27. Rigoutsos I., Huynh T. Chung-Kwei: a Pattern-discovery-based System for the Automatic Identification of Unsolicited E-mail Messages // Proc. First Conference on Email and Anti-Spam (CEAS). Mountain View, 2004. - P. 15-27.
28. Chiarella J., O'Brien J. An Analysis of Spam Filters: A Major Qualifying Project Report / Worcester Polytechnic Institute. Worcester, 2003. - 53 p.
29. Segal R. IBM Research Antispam Task Force // Proc. of the NIST SPAM Technology Workshop. Gaithersburg, 2004. - P. 345-374.
30. Powers C. Do Not E-mail Registries: Standards, Operational Issues, and Business Models / IBM Software Group // Proc. of the NIST SPAM Technology Workshop. -Gaithersburg, 2004. P. 217-225.
31. Shafranovich Y. Introduction to the Anti-Spam Research Group (ASRG) / SolidMatrix Technologies, Inc // Proc of the NIST SPAM Technology Workshop. -Gaithersburg, 2004. P.44-59.
32. Judge P. Q. Anti-Spam Research Group (ASRG) // Proc. of the 56th Internet Engineering Task Force Meeting. San Francisco, 2003. - P. 113-128.
33. Schwartz A. Stopping Spam. Sebastopol (USA): O'Reilly, 1998.-201 p.
34. Mulligan G. Removing the Spam: Email Processing and Filtering. San Francisco: Addison-Wesley, 1999. - 190 p.
35. Poteet J. Canning Spam: You've Got Mail (That You Don't Want). Indianapolis: Sams, 2004. - 256 p.
36. Wolfe P. Anti-Spam Tool Kit. New York: McGraw-Hill, 2004. - 374 p.
37. Schwartz A. SpamAssassin. Sebastopol (USA): O'Reilly, 2004. - 523 p.
38. McDonald A. SpamAssassin: A Practical Guide to Integration and Configuration. -Birmingham: Packt Publishing, 2004. 324 p.
39. Brightmail. The Brightmail Server Technical White Paper. Cupertino: Symantec, 2005.-65 p.
40. Цыганов И. Г., Смирнова Е.Г. Исследование и анализ предпосылок распространения незапрашиваемой рассылки в глобальных гетерогенных сетях передачи информации // Научно-технический сборник. ВТУ при Спецстрое России. 2004. - Вып. 8. - С. 114-133.
41. Denning, P. Electronic Junk // Communications of the ACM. 1982. - V. 3, № 25. -P.163-165.
42. Савельев M.C. Внутренний СПАМ // PCWeek. 2003. - №32. - C.17-21.
43. McWilliams B. S. Spam Kings: The Real Story behind the High-Rolling Hucksters Pushing Porn, Pills, and %* )# Enlargements. Sebastopol (USA): O'Reilly, 2004. -312 p.
44. Spammer-X. Inside the SPAM Cartel. Sebastopol (USA): Syngress, 2004.-450 p.
45. IETF RFC 706-75. On the Junk Mail Problem. Reston (USA), 1975. -3 p.
46. Цыганов И.Г., Смирнова Е.Г. Проблемы построения распределенных систем управления информационными потоками // ВТУ при Спецстрое России. Научно-технический сборник. 2004. - Вып. 9. - С. 55-61.
47. Набережный А., Нартова А. Практический опыт борьбы со спамом и спаммерами // Мир ПК. 2003. - №9. - С. 22-28.
48. IETF RFC 2616-99. Hypertext Transfer Protocol HTTP/1.1. - Reston (USA), 1999. -176 p.
49. IETF RFC 977-86. Network News Transfer Protocol. Reston (USA), 1986.-27 p.
50. Набережный А., Нартова А. Практический опыт борьбы со спамом и спаммерами // Мир ПК. 2003. - №10. - С. 12-19.
51. Тутубалин A. RBL: вред или польза? // Проблема спама и ее решения: Материалы первой национальной конференции. М., 2003. - С. 39-44.
52. Тутубалин А. Распределенные методы обнаружения // Проблема спама и ее решения: Материалы первой национальной конференции. М., 2003. - С. 6678.
53. IETF RFC 2821-2001. Simple Mail Transfer Protocol. Reston (USA), 2001. - 79 p.
54. IETF RFC 2822-2001. Internet Message Format. Reston (USA), 2001. - 51 p.
55. IETF RFC 1939-96. Post Office Protocol Version 3. - Reston (USA), 1996. - 23 p.
56. IETF RFC 2060-96. Internet Message Access Protocol Version 4rev1. - Reston (USA), 1996.-82 p.
57. IETF RFC 2045-96. Multipurpose Internet Mail Extensions (MIME). Part One: Format of Internet Message Bodies. Reston (USA), 1996. -63 p.
58. IETF RFC 2046-96 Multipurpose Internet Mail Extensions (MIME). Part Two: Media Types. Reston (USA), 1996.-43 p.
59. IETF RFC 2047-96. Multipurpose Internet Mail Extensions (MIME). Part Three: Representation of Non-ASCII Text in Internet Message Headers. Reston (USA), 1996.-32 p.
60. IETF RFC 2048-96. Multipurpose Internet Mail Extensions (MIME). Part Four: MIME Registration Procedures. Reston (USA), 1996.-21 p.
61. IETF RFC 2049-96. Multipurpose Internet Mail Extensions (MIME). Part Five: Conformance Criteria and Examples. Reston (USA), 1996. - 51 p.
62. IETF RFC 2184-97. MIME Parameter Value and Encoded Word Extensions: Character Sets, Languages, and Continuations. Reston (USA), 1997. - 22 p.
63. Блам P. Система электронной почты на основе Linux. М.: Вильяме, 2001. -464 с.
64. Гома X. UML. Проектирование систем реального времени, параллельных и распределенных приложений. М.: ДМК Пресс, 2002 - 704 с.
65. The editors of Windows IT Pro. Symantec Antivirus for Clearswift MIMEsweeper // Windows IT Pro. 2003. - №03. - P. 56-74.
66. Савельев С. Что в трафике моем ? // Технологии и средства связи. 2002. -№3. - С. 32-35.
67. Лукацкий А. В. Интернет-дисциплинарий, или средства контроля содержимого // Сетевой. 2002. - №2. - С. 15-32.
68. Лукацкий А.В. Контролируй Internet! // Системы безопасности, связи и телекоммуникаций. 2001. - №11. - С. 55-76.
69. Никишин А. Антиспам Касперского для корпораций, ISP и индивидуальных пользователей // Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 41-49.
70. Б. Курье. Долой информационный мусор! // Сети. -1998. №09. - С. 17-19.
71. Payne Т., Edwards P. Interface agents that learn: An investigation of learning issues in a mail agent interface // Applied Artificial Intelligence. 1997. - V.11, №2. - P. 11-32.
72. Rosen M. E-mail Classification in the Haystack Framework: Report. -Cambridge(USA): MIT Press, 2003.-45 p.
73. Boyce J. Microsoft Office Outlook 2003 Inside Out. Washington: Microsoft Press, 2003.-452 p.
74. Mosher S. Microsoft Outlook Programming, Jumpstart for Administrators, Developers, and Power Users. Washington: Digital Press, 2002.-734 p.
75. Cohen P., Cheyer A, Wang M. An Open Agent Architecture // Proc. Software Agents Spring Symposium. Menlo Park, 1994. - P. 230-236.
76. Segal R., Kephart M. Mailcat: An intelligent assistant for organizing e-mail // Proc. of the Third International Conference on Autonomous Agents. Seattle, 1999. - P. 276-282.
77. Benz В. Lotus Notes and Domino 6 Programming Bible. Indianapolis: Wiley, 2003. - 764 p.
78. Huynh D., Karger D., Quan D. Haystack: A platform for creating, organizing and visualizing information using RDF // Semantic Web Workshop. Hawaii (USA), 2002.-P.111-128.
79. Winiwarter W. PEA a Personal Email Assistant with Evolutionary Adaptation // International Journal of Information Technology. -1999. - V.5, №1. - P. 98-123.
80. Pantel P., Lin D. SpamCop: A spam classification and organization program // Proc. of AAAI-98 Workshop on Learning for Text Categorization. Madison (USA), 1998. -P. 95-98.
81. Сегалович И. Принципы и технические методы работы с незапрашиваемой корреспонденцией // Проблема спама и ее решения: Материалы первой национальной конференции. М., 2003. - С. 35-49.
82. Сегалович И. Бесчеловечная Спамооборона: автоматические методы детектирования спама II Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 69-88.
83. Pruitt S. Hotmail Aims to Can Spam // PC World. -2002. №9. - P.21-39.
84. Stiles С. Spam Technologies // Proc. of the NIST SPAM Technology Workshop. -Gaithersburg, 2004. P. 301-317.
85. Resnik P. GroupLens: An Open Architecture for Collaborative Filtering of Netnews // Proc. of ACM Conference on Computer Supported Cooperative Work. Chicago, 1994.-P. 312-324.
86. Good N. Schafer В., Kostan J.A. Combining Collaborative Filtering with Personal Agents for Better Recommendations // Proc. of the sixteenth national conference on Artificial intelligence. Orlando, 1999. - P. 439-446
87. Lashkari Y., Metral M., Maes P. Collaborative interface agents // Proc. of AAAI Conference. Washington, 2004. - P. 643-659.
88. Engst A. Eudora 4.2 for Windows and Macintosh: Visual QuickStart Guide. -Berkeley: Peachpit Press, 1999. 732 p.
89. Harbaugh L. G. Spam-Proof Your In-Box // PC World Magazine 2004. - №6. -P.59-72.
90. Tynan D. Natural-Born Spam Killers // PC World Magazine. 2003. - №5. - P.87-99.
91. Тутубалин A. SpamAssassin: опыт эксплуатации // Проблема спама и ее решения: Труды второй национальной конференции. М., 2004. - С. 88-92.
92. The editors of Wired. Play Test // Wired Magazine. 2003. -№11.- P.45-47.
93. Blosser J. Scalable Centralized Bayesian Spam Mitigation with Bogofilter// Proc. of the 18th Large Installation System Administration Conference. Atlanta, 2004. - P. 21—40.
94. Graham P. Better Bayesian Filtering // Proc. of the Spam Conference. Cambridge (USA), 2003. - P. 423-456.
95. Kiritchenko S., Matwin S. Email Classification with Co-Training / University of Ottawa. Ottawa, 2001. - 30 p.
96. Manning C., Schutze H. Foundations of Statistical Natural Language Processing. — Cambridge: MIT Press, 1999. 760 p.
97. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 2004. - 358 с.
98. Гладкий А.В., Мельчук И.А. Элементы математической лингвистики. М.: Наука, 1974.-612 с.
99. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М., 1983. - 287 с.
100. Городецкий Б.Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. 1983. - Вып. 12. - С. 15-20.
101. Карпова Г.Д., Пирогова Ю.К., Кобзарева, Т.Ю., Микаэлян, Е.В. Компьютерный синтаксический анализ: описание моделей и направлений разработок // Итоги науки и техники. Серия Вычислительные науки. 1991. - Т.6. - С. 19-25.
102. Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. -М.:УРСС, 2002. 332 с.
103. Мельчук И. А. Опыт теории лингвистических моделей "Смысл <=> Текст". -М.:Яз.рус.культуры, 1999. -345 с.
104. Статистика речи и автоматический анализ текста / Отв. ред. Р. Г. Пиотровский. Л.:Наука, 1980.-223 с.
105. Уилкс Й. Анализ предложений английского языка // Новое в зарубежной лингвистике. 1983. - Вып. 12. -С. 24-36.
106. Чарняк, Ю. Умозаключения и знания // Новое в зарубежной лингвистике. -1983.-Вып. 12.-С. 5-77.
107. Шенк Р., Лебовиц М., Бирнбаум Л. Интегральная понимающая система // Новое в зарубежной лингвистике. 1983. - Вып. 12. - С. 99-111.
108. Knight К. Mining Online Text // Communications of ACM. 1999. -V. 42, №11. -P. 58-61.
109. Han J. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann, 2000. - 925 p.
110. Hand D. J. Principles of Data Mining (Adaptive Computation and Machine Learning). Cambridge(USA): MIT Press, 2001. - 615 p.
111. HastieT.The Elements of Statistical Learning. New York:Springer,2001. - 1219 p.
112. Berry M. W. Survey of Text Mining : Clustering, Classification, and Retrieval. -New York: Springer, 2003. 490 p.
113. Самойленко Д. Data Mining: учебный курс. СПб.: Питер, 2001. - 725 с.
114. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. - V.34, №1. - P. 801-847.
115. Mitchell T.M. Machine Learning. New York: McGraw Hill, 1996. - 973 p.
116. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989. - 189 с.
117. Pazienza М. Т. Information Extraction: Lecture Notes in Computer Science. -Heidelberg: Springer, 1997.-490 p.
118. Merkl D. Text classification with selforganizing maps: Some lessons learned // Neurocomputing. 1998. - V.21, №2. - P. 270-277.
119. Курбаков К.И. Кодирование и поиск информации в автоматическом словаре. М.: Радио и связь, 1968.-248 с.
120. Frakes W. В. Information Retrieval: Data Structures and Algorithms. New Jersey: Prentice Hall PTR, 1992.-745 p.
121. Baeza-Yates R. Modern Information Retrieval. San Francisco: Addison-Wesley, 1999.-785 p.
122. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М.: Сов. радио, 1973.-560 с.
123. Salton G., McGill M.J. Inroduction to Modern Information Retrieval. New York: McGraw-Hill, 1983.-714 p.
124. Соколов A.B. Информационно-поисковые системы / Под ред. А.Б. Рябова-М.: Радио и связь, 1981. 310 с.
125. Белоногов, Г.Г., Новосёлов, А.П. Автоматизация процессов накопления, поиска и обобщения информации. М., 1979 . - 412 с.
126. Скороходько, Э.Ф. Лингвистические проблемы обработки текстов в автоматизированных ИПС // Вопросы информационной теории и практики. — 1974. -№25. -С. 96-102.
127. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование,- 2002. №4. - С. 78-89.
128. Кураленок И.Е. Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. - №4. - С. 34-36.
129. Duda R., Hart P. Bayes Decision Therory. Indianapolis: Wiley, 1973. - 823 p.
130. Rennie J. Ifile: An application of machine learning to e-mail filtering // Proc. of the KDD Text Mining Workshop. Boston, 2000. - P. 412-432.
131. Salib M. MeatSlicer: Spam Classification with Naive Bayes and Smart Heuristics: Technical Report. Cambridge, 2002. - 39 p.
132. Sahami M., Dumais S., Heckerman D. A Bayesian approach to filtering junk e-mail // Proc. AAAI-98 Workshop on Learning for Text Categoriztion. Madison, 1998. -P. 152-156.
133. Provost J. Naive-bayes vs. rule-learning in classification email: Technical report. -Austin, 1999.-93 p.
134. Lang K. NewsWeeder: Learning to Filter Netnews // Proc. of the 12th Int. Conf. on Machine Learning. Stanford, 1995. - P. 634-639.
135. Yerazunis W. S. The Spam-Filtering Accuracy Plateau at 99.9% Accuracy and How to Get Past It // Proc. of the Spam Conference. Cambridge, 2004. - P. 823832.
136. Androutsopoulos I. An evaluation of Naïve Bayesian anti-spam filtering // Proc. of Workshop on Machine Learning in the New Information Age. Barcelona, 2000. -P.338-342.
137. Schneider K. A comparison of event models for Naïve Bayes anti-spam e-mail filtering // Proc. of the 10th Conf. of the European Chapter of the Association for Computational Linguistics. Budapest, 2003. - P.730-737.
138. Joachims T. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization // Proc. of the 14th Int. Conf. on Machine Learning. Nashville, 1997. -P.1278-1282.
139. G. Boone. Concept features in re:agent, an intelligent email agent // Proc. of the Second International Conference on Autonomous Agents. Minneapolis, 1998. — P. 812-819.
140. Sakkis G., Androutsopoulos I. A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists // Information Retrieval. 2003. - V. 6, № 1. - P. 49-73.
141. Apte C. Automated Learning of Decision Rules For Text Categorization // ACM Transactions on Information Systems. 1994. - V.12, №3. - P.233-251.
142. Cohen W. Learning rules that classify e-mail // Proc. of the AAAI Spring Symposium on Machine Learning in Information Access. Palo Alto, 1996. - P. 18 -25.
143. Crawford E., Kay J., McCreath E. Automatic Induction of Rules for e-mail Classification // Proc. of the Sixth Australiasian Document Computing Symposium. -Coffs Harbour, 2001. P. 106-118.
144. Crawford E., McCreath E., Kay J. IEMS The Intellient Email Sorter // Proc. 19th Int. Conf. on Machine Learning. - Sydney, 2002. - P. 623-629.
145. Spertus E. Smokey: Automatic Recognition of Hostile Messages // Proc. of the Conference on Innovative Applications of Artificial Intelligence. Menlo Park, 1997. -P. 1058-1065.
146. Clark J., Koprinska I., Poon J. Linger A Smart Personal Assistant for E-mail classification // Proc. of 13th Int. Conf. on Artificial Neural Networks. - Istanbul, 2003. - P. 274-277.
147. Katirai H. Filtering junk e-mail: A performance comparison between genetic programming and naive bayes. Birmingham, 1999. - 27 p.
148. Drucker H., Wu D., Vapnik V.N. Support vector machines for spam categorization // IEEE Trans, on Neural Networks. 1999. -V. 10, №5. - P. 1048-1054.
149. Brutlag C., Meek J. Challenges of the email domain for text classification // Proc. of the Seventeenth International Conference on Machine Learning. Stanford, 2000. -P. 916-925.
150. Kolcz A., Alspector J. SVM-Based Filtering of E-Mail Spam with Content-specific Misclassification Costs // Proc. of the IEEE Int. Conf. on Data Mining. San Jose, 2001.-P. 218-225.
151. Carreras X., Marquez L. Boosting Trees for Anti-Spam Email Filtering // Proc. 4th Int. Conference on Recent Advances in National Language Processing. Tzigov Chark, 2001.-P. 617-627.
152. Sakkis G. Stacking classifiers for anti-spam filtering of e-mail // Proc. of the 6th Conf. on Empirical Methods in Natural Language Processing. Carnegie Mellon, 2001.-P.912-929.
153. Hidalgo J.G. Evaluating cost-sensitive unsolicited bulk email classification // Proc. of the 17th ACM Symposium on Applied Computing. Madrid, 2002. - P.117-135.
154. Hidalgo J.G. Combining text and heuristics for cost-sensitive spam filtering // Proc of the 4th Computational National Learning Workshop. Lisbon, 2000. - P. 854-862.
155. Цыганов И.Г., Власов А.И. Архитектура корпоративной многоагентной автоматизированной системы фильтрации информационных потоков // Информационные технологии. 2005. - №1. - С. 34-41.
156. Цыганов И.Г., Власов А.И. Адаптивная фильтрация информационных потоков в корпоративных системах на основе механизма голосования пользователей // Информационные технологии. 2004. - №9. - С.12-19.
157. IETF RFC 2234-97. Augmented BNF for Syntax Specifications: ABNF. Reston (USA), 1997.-41 p.
158. Дирк С. Корпоративные системы на основе CORBA. М.: Вильяме, 2000. -368 с.
159. Эммерих В. Конструирование распределенных объектов. М.: Мир, 2002. -510 с.
160. Причард Д. Com и Corba. Просто и доступно. М.гЛори, 2001. -372 с.
161. Орфали P. Java и CORBA в приложениях клиент-сервер.- М.:Лори,2000. 734 с.
162. Henning М. Advanced CORBA(R) Programming with С++. San Francisco: Addison-Wesley, 1999. -1120 p.
163. Лейнекер P. COM+: Энциклопедия программиста. СПб.: Диа-СофтЮП, 2002. - 656 с.
164. Grimes R. Professional DCOM Programming. Indianapolis: Wrox, 1997. - 565 p.
165. Maloney J. Distributed COM Application Development Using Visual С++ 6.0. -New Jersey: Prentice Hall PTR, 1999.-500 p.
166. Monson-Haefel R. Enterprise JavaBeans. Sebastopol (USA):0'Reilly, 2004. - 800 p.
167. Johnson R. Expert One-on-One J2EE Design and Development (Programmer to Programmer). Indianapolis: Wrox, 2002. - 768 p.
168. Deerweste S. Indexing by latent semantic analysis // Journal of the Society for Information Science. 1990. - V.41, №6. - P.391-407.
169. Lochbaum K.E. Comparing and combining the effectiveness of latent semantic indexing and the ordinary vector space model for information retrieval // Information Processing and Management. -1989. V.25, № 6. - P.665 - 676.
170. Gallant S. HNC's MatchPlus system // ACM SIGIR Forum. 1992. - V.26, №2. -P.34-38.
171. Kaski S. WEBSOM self-organizing maps of document collection // Neurocomputing. -1998. - V.21, №2. - P. 107-117.
172. Kaski S. Dimensionality reduction by random mapping: fast similarity computation for clustering // Proc. of IEEE Int. Joint Conf. on Neural Networks. Anchorage, 1998.-P. 2413-2418.
173. Корж В. В. Методы кодирования текстовой информации для построения нейросетевых классификаторов документов. Дис. канд. техн. наук. М., 2000. -167 с.
174. Yang Y. A Comparative Study on Feature Selection in Text Categorization //Proc. of the 14th International Conference on Machine Learning Nashville, 1997. - P. 412-420.
175. Lewis D. D. An evaluation of phrasal and clustered representations on a text categorization task II Proc. 15th ACM International Conference on Research and Development in Information Retrieval. Copenhagen, 1992. - P.37-50.
176. Tzeras K. Automatic Indexing based on Bayesian inference networks И Proc. 16th ACM International Conference on Research and Development in Information Retrieval. Pittsburgh, 1993. - P.22-34.
177. Cohen W. Learning Trees and Rules with Set-valued Features // Proc. Of the Thirteenth National Conf. on Artifical Intelligence (AAAI). Portland, 1996. - P. 134198.
178. John G.H. Irrelevant Features and the Subset Selection Problem // Proc. of the 11th Int. Conf. on Machine Learning. San Mateo, 1994. - P. 124-129.
179. Ng H. Feature selection, perceptron learning, and a usability case study for text categorization // Proc. 20th ACM International Conference on Research and Development in experimental inquiry. Philadelphia, 1997. - P. 67-73.
180. Цыганов И.Г., Руденко М.И. Метрики текстов в автоматизированных системах обработки информации // Наукоемкие технологии и интеллектуальные системы: Сборник научных трудов VI Международной молодежной научно-технической конференции. М., 2004. - С. 86-93.
181. Geman S. Stochastic Relaxation, Gibbs Distributions, and Bayesian Restoration of Images // IEEE Trans, on pattern analysis and machine intelligence. 1984. - V.6, №6.-P. 721-741.
182. Berger A.L. A maximum entropy Approach to Natural Language Processing // Computational Linguistics. -1996. V.22, №1. - P. 101-135.
183. Pietra S.D., Pietra V.D., Lafferty J. Inducing features of random fields. Yorktown Heights: IBM Thomas J. Watson Research Center, 1995. -23 p.
184. Nigam K. Using Maximum Entropy for Text Classification // Proc. of the 16th Int. Joint Conf. on Artifical Inelligence. Stockholm, 1999. - P. 1202-1214.
185. Розанов Ю.А. Марковские случайные поля. М.: Наука, 1981. -256 с.
186. Кульбак С. Теория информации и статистика. М.: Наука, 1967. - 408 с.
187. Hanson К. Maximum Entropy and Bayesian Methods. New York: Kluwer Academic Publishers, 1996. - 621 p.
188. Галушкин А.И. Синтез многослойных систем распознавания образов. М.: Энергия, 1974-324 с.
189. Галушкин А.И. Теория нейронных сетей. М.: ИПРЖР, 2000. -416 с.
190. Цыганов И.Г. Применение нейросетевых методов для фильтрации SPAM сообщений // Информатика и системы управления в XXI веке: Сборник научных трудов Международной молодежной научной конференции. Мм 2002. - С.26-33.
191. Цыганов И.Г. Нейросетевые методы автоматизированного анализа информационных потоков в масштабе реального времени У/ Студенческая научная весна 2002: Сборник докладов студенческой научной конференции с международным участием. - М., 2002. - С. 19-24.
192. Дертоузос М. Пороговая логика. М.: Мир, 1967. - 344 с.
193. McCluskey E.J., Jr., Minimization of Boolean Functions II Bell System Technical Journal. -1956. -V.35, №1417. P. 122-129.
194. Quine W.V., A Way to Simplify Truth Functions // American Mathematical Monthly. 1955. - V.62, №9. - P.627-631.
195. Цыганов И. Г., Смирнова Е.Г. Анализ методов разработки программного обеспечения систем управления информационными потоками // Научно-технический сборник. ВТУ при Спецстрое России. 2004. - Вып. 9. - С. 47-54.
196. Стивене У. UNIX: разработка сетевых приложений. СПб.: Питер, 2003. - 1088 с.
197. Стивене У. UNIX: взаимодействие процессов. СПб.: Питер, 2003. - 576 с.
198. Mauro J. Solaris Internals: Core Kernel Architecture. New Jersey: Prentice Hall PTR, 2000.-704 p.
199. Sharma K. Professional Red Hat Enterprise Linux 3. Indianapolis: Wrox, 2004. -744 p.
200. Siever E. Linux in a Nutshell. Sebastopol (USA): O'Reilly, 2003. - 959 p.
201. Welsh M. Running Linux. Sebastopol (USA): O'Reilly, 2002. - 692 p.
202. Bovet P. Understanding the Linux Kernel. Sebastopol(USA): O'Reilly,2002. - 816 p.
203. Вишневский A.B. Книга Windows Server 2003: Для профессионалов. СПб.: Питер, 2005. - 767 с.
204. Anderson С. Mastering Windows Server 2003. London: Sybex, 2003. - 1616 p.
205. ISO/IEC 9945-1:2003. Information technology. Portable Operating System Interface (POSIX). Part 1: Base Definitions. Geneva, 2003. -452 p.
206. ISO/IEC 9945-2:2003. Information technology. Portable Operating System Interface (POSIX). Part 2: System Interfaces. Geneva, 2003. - 1696 p.
207. Нортон П. Мюллер Дж. Windows 98 в подлиннике. Энциклопедия системных ресурсов. СПб.: BHV, 2003. - 592 с.
208. Bott Е. Microsoft Windows ХР Inside Out. Washington: Microsoft Press, 2003. -1296 p.
209. Савилл Дж. Windows XP/2000: Вопросы и ответы: Универсальный справочник для всех от домашнего пользователя до системного администратора корпоративной сети. - СПб.: Вильяме, 2004. - 1120 с.
210. Costales В. Sendmail. Sebastopol (USA): O'Reilly, 2002. -1232 p.
211. Hunt С. Sendmail Cookbook. Sebastopol (USA): O'Reilly, 2003. -456 p.
212. Hildebrandt R. The Book of Postfix: State-of-the-Art Message Transport. San Francisco: No Starch, 2005. - 496 p.
213. Dent K.D. Postfix : The Definitive Guide. Sebastopol (USA): O'Reilly, 2003. -264p.
214. Hazel P. Exim: The Mail Transfer Agent. Sebastopol (USA): O'Reilly, 2001. -624p.
215. Levine J.R. Qmail. Sebastopol (USA): O'Reilly, 2004.-248 p.
216. Sill D. The qmail Handbook. Berkeley: Apress, 2001. - 492 p.
217. Blum R. Running qmail. Indianapolis: Sams, 2000. - 500 p.
218. Вахалия Ю. UNIX изнутри. СПб.: Питер, 2003. - 844 с.
219. Boswell D. Creating Applications with Mozilla. Sebastopol (USA): O'Reilly, 2002. - 480 p.
220. Laurie B. Apache: The Definitive Guide.- Sebastopol (USA):0'Reilly, 2002. 536 p.
221. Bowen R. Apache Administrator's Handbook. Indianapolis: Sams, 2002. - 448 p.
222. Coar K. Apache Cookbook. Sebastopol (USA): O'Reilly, 2003. - 254 p.
223. ISO 14882:2003. Programming languages. С++. Geneva, 2003. - 757 p.
224. Gilmore W. J. Beginning PHP 5 and MySQL: From Novice to Professional. -Berkeley: Apress, 2004. 800 p.
225. Ullman L. PHP and MySQL for Dynamic Web Sites: Visual QuickPro Guide. -Berkeley: Peachpit Press, 2003. 400 p.
226. Templeman J. Microsoft Visual С++ .NET Step by Step-Version 2003 (Step By Step (Microsoft)). Washington: Microsoft Press, 2003.-608 p.
227. Young M. Inside Microsoft Visual Studio .NET 2003. Washington: Microsoft Press, 2003. - 576 p.
228. Sanders R. E. ODBC 3.5 Developer's Guide. New York: McGraw-Hill, 1998. - 974 p.
229. Geiger К. Inside ODBC (Microsoft programming series). Washington: Microsoft Press, 1995.-482 p.
-
Похожие работы
- Исследование путей и возможностей создания автоматизированной системы идентификации объектов
- Метод формирования распределенных онтологий в многоагентных системах поддержки принятия решений органов власти субъектов России
- Проектирование систем управления сложными информационными процессами с применением многоагентной технологии
- Исследование и разработка многоагентных информационных систем с элементами адаптации и самоорганизации
- Гибридные системы интеллектуального имитационного моделирования на основе бионических подходов и многоагентных моделей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность