автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Статистическая модель информационного трафика

кандидата физико-математических наук
Иванов, Валерий Викторович
город
Дубна
год
2009
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Статистическая модель информационного трафика»

Автореферат диссертации по теме "Статистическая модель информационного трафика"

ОБЪЕДИНЕННЫЙ ИНСТИТУТ ЯДЕРНЫХ ИССЛЕДОВАНИЙ

11-2009-46

На правах рукописи УДК 51 -7:[004.6:004.732]

□□3467544

ИВАНОВ Валерий Викторович

СТАТИСТИЧЕСКАЯ МОДЕЛЬ ИНФОРМАЦИОННОГО

ТРАФИКА

Специальность: 05.13.18 — математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

г

Дубна 2009

003467544

Работа выполнена с Лаборатории информационных технологий Объединенного института ядерных исследований.

Научный руководитель: Официальные оппоненты:

кандидат физико-математических наук Зрелое Петр Валентинович доктор физико-математических паук, профессор Крянев Александр Витальевич, МИФИ, г. Москва доктор технических наук Гостев Иван Михайлович, МИЭМ, г. Москва

Российский университет дружбы народов, г. Москва

Защита состоится » 2009 г. в ^ часов на заседании

диссертационного совета Д 720.001.04 при Лаборатории информационных технологий ОИЯИ, Ц1980, г. Дубна Московской обл., ул. Жолио-Кюри 6.

С диссертацией можно ознакомиться в библиотеке Объединенного института ядерных исследований.

Ведущая организация:

Автореферат разослан

2009 г.

Ученый секретарь диссертационного совета,

А

кандидат физико-математических наук /С^^4^ Иванченко З.М.

)бщая характеристика работы

В настоящей работе развиты новые математические модели п методы для «¡следования характерных особенностей информационных потоков (трафн-а) в компьютерных сетях.

Актуальность работы. В условиях глобального информационного об-цества быстрый, надежный и безопасный обмен данными между локальными I глобальными компьютерными сетями представляет собой проблему высо-¡айшего приоритета. Исследования сетевого трафика показали, что он пред-тавляет собой сложный динамический процесс, характеризующийся, в част-гости, распределениями с тяжелыми хвостами, длинно-масштабными корре-яцнями, мультифрактальностыо и т.д. [1]-|5]. Трудности, с которыми столк-1улись исследователи, привели их к выводу о том, что сетевой трафик нельзя декватно описать в рамках существующих моделей [6, 7], а традиционные ттематнческие методы малопригодны для анализа временных рядов, отве-1ающих информационным потокам [8, 9]. В то же время, функционирование омпьютерных сетей ключевым образом зависит от их технической и иро-раммной поддержки, в том числе с учетом моделей, построенных на основе ыявленных закономерностей н отражающих основные особенности сетевого рафика.

В этой связи, важной задачей для скоростных телекоммуникационных си-тем и компьютерных сетей является разработка моделей трафика, которые )ы реалистично отражали основные его особенности, а также математиче-ких методов, адекватных анализируемым случайным процессам. Такие ме-оды н модели могут помочь в разработке методов и средств, нацеленных на ювышение качества обслуживания компьютерных сетей, обеспечение эффек-ивного контроля и управления информационными потоками, защиту сетей т несанкционированных вторжений и т.д.

Цель диссертационной работы. Разработка новых моделей и мето-ов для изучения характерных особенностей информационного трафика и ix применение в решении конкретных задач.

Научная новизна:

1. Получена оценка размерности вложения динамического процесса информационного трафика.

2. На основе нейронной сети построена модель информационного трафика, с помощью которой удалось воспроизвести статистическое распределение его потока, а также подтвердить оценку размерности вложения соответствующего процесса.

3. Получено статистическое распределение информационного потока, с

высокой точностью отвечающее логпормальному закону распределения.

4. На основе подхода "Гусеница", критерия знаков, ,\/2- 11 (^-критериев разработана процедура разбиения всего набора главных компонент на ведущие (ответственные за формирование логнормального распределения) и остаточные, носящие характер высокочастотного шума.

5. Развиты новые методы определения моментов смены состояния анализируемого динамического процесса.

Практическая ценность:

• Развитые в работе математические методы позволили исследовать характерные особенности сетевого трафика и получить новые результаты о соответствующем динамическом процессе.

• На основе искусственной нейронной сети (ИНС) разработана модель трафика, позволившая оценить размерность вложения соответствующего процесса и воспроизвести статистическое распределение потока информации.

• Построена статистическая модель информационного трафика, которая может служить основой для разработки новых методов и средств для более эффективного контроля и управления информационными потоками и защиты компьютерных сетей от несанкционированного доступа.

• Разработаны новые методы детектирования точек смены состояния анализируемого процесса, позволяющие вести эффективный контроль сетевого трафика.

Результаты и положения, выносимые на защиту:

1. С помощью методов нелинейного анализа получены оценки интервала корреляции и размерности вложения для динамического процесса, ответственного за формирование сетевого трафика.

2. Непараметрнческая модель сетевого трафика, построенная на основе искусственной нейронной сети (ИНС) прямого распространения, которая воспроизвела статистические особенности информационного трафика, а также подтвердила оценку размерности вложения трафика, полученную с помощью метода главных компонент.

3. Статистический закон распределения информационных потоков для агрегированных измерений трафика, аппроксимируемый с высокой точностью функцией логнормального распределения.

4. Метод разбиения всего набора главных компонент разложения временного ряда измерении трафика на основные (ответственные за формирование логнормалыюго распределения) и остаточные, которые носят характер высокочастотного шума, наложенного на основной процесс.

5. Новый алгоритм пороговой веивлет-фнльтрацин исходных измерений трафика для исключения высокочастотной (шумовой) составляющей трафика, что позволило описать основную составляющую трафика минимальным (2-3) набором основных компонент.

6. Новые методы детектирования моментов смены состояния анализируемого временного ряда, в основу которых положена дискриминация по принципу "свой-чужой".

Апробация работы. Основные положения п результаты работы докладывались и обсуждались на научных семинарах ЛИТ, кафедры прикладной математики Московского инженерно-физического института, Российского университета дружбы народов и на различных международных конференциях, в том числе ([А7] [А 14]):

• VIII Int. Workshop on "Advanced Computing and Analysis Techniques in Physics Research" - ACAT'2002, 24-28 June, 2002, Moscow, RUSSIA.

• 5-й Международный конгресс по математическому моделированию, г. Дубна, Россия, 30 сентября - 6 октября, 2002.

• I-st Int. Conf. on "Mathematics and Informatics for Industry", Mil, 14-16 April 2003, Thessaloniki, Greece.

• VII world multiconference on "Systemics, Cybernetics and Informatics", SCI 2003, Focus Symposium on "Quantum Physics and Communication", Dubna, Russia, 30 July - 2 August, 2003.

• Летняя школа DAAD "Трафик и эконофизпка", г. Дубна, Россия, 28 июля - 17 августа, 2003.

• XIX International Symposium on Nuclear Electronics к Computing, NEC'2003, September 15-20, 2003, Varna, Bulgaria.

• Международная конференция "Распределённые вычисления и Грид-технологии в науке и образовании", г. Дубна, Россия, 29 июня - 2 июля, 2004.

Публикации. В основу диссертации положены 20 работ, которые опуб-шкованы как в реферируемых журналах:

• Физика элементарных частиц н атомного ядра (ЭЧАЯ) [Al],

• Письма в ЭЧАЯ [А2],

• Physica D [A3],

• Nuclear Instruments & Methods in Physics Research [A4],

• Physica A [A5],

• Discrete Dynamics in Nature к Society [A6]

и материалах международных конференций ([A7] [A14]), так и в виде пре принтов и сообщений ОИЯИ ([А15] [А20]).

Личный вклад автора. Вклад автора является определяющим.

Структура и объем диссертации. Диссертация содержит введение обзор литературы, 6 глав, заключение, список литературы (163 ссылки) i имеет объем 150 страниц.

Содержание работы

Во Введении обоснована актуальность диссертационной работы, сфор мулирована цель и аргументирована научная новизна исследований, показан, практическая значимость полученных результатов, представлены выносимы на защиту научные положения.

В первой главе рассмотрена специализированная система сбора, анали за и управления трафиком (ССАУ "Трафик") [11]. С ее помощью проводи лись детальные измерения сетевого трафика на входном шлюзе локально сети университета "Дубна" [10]. Блок-схема ССАУ "Трафик" представлена н< рис. 1.

Эта система позволяет в реальном времени контролировать параметрь трафика, записывать регистрируемую информацию в базу данных и обеспе чивает наглядную визуализацию результатов анализа трафика.

Измерения сетевого трафика выполняются с помощью сетевого адаптера i режиме открытого драйвера в целях создания условий для приема и анализ, передаваемых по сети пакетов.

Драйвер открытого режима записывает принятые пакеты в буфер пред варительного захвата и выставляет флаг приема пакета, после чего актив» зируется модуль приема пакета и производится анализ поля типа пакета дл> выделения из общего потока лишь пакетов стека TCP/IP. После идентифи кации возможно отделение заголовка пакета и уничтожение блока данных а также запись заголовка в базу данных SQL - сервера. Наряду с данным!

Рис. 1. Блок-схема системы сбора данных

о переданном объеме информации в запись включается также время приема пакета, измеренное с точностью до микросекунды.

Следует отметить, что в локальной сети университета "Дубна" используются два протокола: протокол NetBEUI применяется для внутренних обменов в локальной сети, а протокол TCP/IP используется для внешних обменов.

Наш анализ показал, что вклад NetBEUI-трафика в выполненные нами измерения составил в среднем 1-6 пакетов в секунду в течение рабочего дня. Это ничтожно мало по сравнению с объемом TCP/IP трафика. В связи с этим, мы можем пренебречь влиянием трафика NetBEUI на TCP/IP трафик.

Данные информационного трафика, анализ которых приводится в главах 2-5, отвечают примерно 20 часам измерений. Часть этих измерений, агрегированных с разными размерами окна агрегации, представлена на рис. 2. В главе 6 использовались два других набора измерений, зарегистрированных на входном шлюзе компьютерной сети университета "Дубна" (детали см. в главе 6).

Во второй главе представлены результаты применения методов нелинейного анализа к временным рядам, соответствующим измерениям сетевого трафика. С их помощью получены оценки временной задержки и размерности вложения. На основе искусственной нейронной сети (ИНС) построена динамическая модель трафика, которая позволила:

• получить оценку размерности вложения,

х 10 ' § 2000 1500 1000 500 0

200 400 600 800 1000 1200 1400 1600 ,

2 '

х 10

.......

0 200 400 600 800 1000 1200 1400 1600 ,

2 *

х 10

0 200 400 600 800 1000 1200 1400 1600 ,

2 '

х 10

Рис. 2. Измерения информационного трафика, агрегированные с разными окнами агрегации: 0.1 сек, 1сек, Юсек

• воспроизвести форму распределения потока информации.

При нелинейном анализе временных рядов сигнал {х¿} представляется в виде одномерной проекции динамической системы, действующей в пространстве векторов $ большей размерности:

Уi = (^1! ■■•) ^¿+(т-1)г);

здесь т - размерность вложения, а г - временная задержка.

В качестве оценки т взята величина первого пересечения автокорреляционной функции с нулем. Зависимость этой величины от размера окна агрегации представлена на рис. 3.

Для уровней агрегации от 0.1 сек до 10 сек величина т находится в области: г ~ Юсек. Измерения, отстоящие друг от друга на величину временного интервала г, могут рассматриваться как линейно независимые.

Последовательность некоррелированных измерений может быть рассмотрена как т-мерный вектор, отвечающий искомой динамической системе. Оценка размерности была выполнена с помощью алгоритма Грассбергера-

Рис. 3. Зависимость г от размера окна агрегации

Прокаччиа. Корреляционный интеграл, отвечающий этому алгоритму, вычислялся по формуле

v «фу

где \т-У}\ = тах{|хг - х3\, ...|xi+(m_i)r - xJ+(m_1)r|}. Величина Q!(r) определяет вероятность того, что расстояние между случайно выбранной парой векторов будет не больше г. Если, начиная с некоторого то, зависимость между логарифмами С2(г) и г становится линейной

log С2(г) и /3 log г+ -у,

минимальная величина размерности вложения dе может быть оценена с помощью соотношения

(3 < с1е < т.

Для реконструкции динамической системы, соответствующей измерениям сетевого трафика, использовалась нейронная сеть прямого распространения. Основное преимущество нейронной сети заключается в том, что она не требует априорной информации, что особенно важно в нашем случае, не только из-за того, что динамическая система трафика сложна, но также из-за отсутствия информации о вкладе отдельных компонент в динамику системы.

Входной слой сети содержал число нейронов, равное величине размерности вложения, два скрытых слоя с переменным числом нейронов и один

Рис. 4. Корреляционные интегралы С™ (г) измерений сетевого трафика, агрегированных с окном 1сек для т = 10сек и тп =12, 14, 16, 18

выходной нейрон. Выходной нейрон ИНС выдавал предсказываемую величину-

Для обучения сети использовались данные, агрегированные с окном 1 сек. Эти данные были предварительно отнормированы к интервалу [-1,1]. Для образования входного вектора были взяты следующие параметры: т = 10 сек и (1е = 15-т- 20. На рис. 5 приведены распределения потока (нормированного на интервал [—1,1]) для реальных измерений трафика (рис. 5а) и ряда, сгенеририванного с помощью ИНС (рис. 56).

На рис. 6а представлен временной ряд измерений, агрегированных с ок ном 1 сек, а также результаты моделирования трафика с помощью ИНС. Н< рис. 66 представлено распределение абсолютных величин весов между вы ходным нейроном и нейронами второго скрытого слоя. Представленная за висимость показывает, что размерность динамической системы близка к 12, поскольку вклад остальных весов близок нулю. Распределение имеет тот ж вид, что и распределение, полученное с помощью другого метода метод главных компонент (см. рис. 11).

В третьей главе исследуется влияние агрегации на формирование ста тистического распределения потока информации.

На рис. 7а представлено распределение размеров пакетов оригинальны измерений трафика, в то время как на рис. 76 приведено распределение се тевого трафика, агрегированного с окном 100 мсек.

Видно, что для малых значений величины окна агрегации распределе ние информационного потока не носит выраженного характера. Однако, при приближении размера окна агрегации к 1 сек (см. рис. 8а), распределен!! приобретает устойчивую форму, которая не меняет характера при дальней

Величина потока, отн. аЛ-

Явлделмд поток*, отн. «д.

Рис. 5. Распределение потока (нормированного к интервалу [—1,1]) для: а) исходных данных и б) данных, сгенерированных обученной ИНС

Рис. б. а) Предсказание временного ряда сетевого трафика (нормированного к интервалу [—1,1]) с помощью обученной ИНС, б) распределение абсолютных величии весов между выходным нейроном и нейронами второго скрытого слоя

шем увеличении окна агрегации: см., например, рис. 86, соответствующий агрегации с окном 10 сек. Аппроксимирующие кривые, представленные на рисунках 8, отвечают функции логнормального распределения

А 1

\/2тг<

— ехр

7га х

(1)

где х - переменная, а- и /г- параметры логнормального распределения, А-нормировочный множитель.

ю

10

ЕпЫ«я 1600000

Ы«оп

иол.« оуп»__аос

200 400 600

(итч потока, б»йт

Рис. 7. а) Распределение размеров пакетов для исходных данных, б) распределение потока информации для данных, агрегированных с окном 100 мсек

Рис. 8. Распределение потока информации (аппроксимирующая кривая - функция (1)): а) для данных, агрегированных с окном 1 сек, б) для данных, агрегированных с окном 10 сек

Следует заметить, что распределения, приведенные на рисунках 8, включают в себя весь набор данных, что соответствует приблизительно 20 часам непрерывных измерений. В то же время, поведение трафика, также как и соответствующее ему статистическое распределение, меняется в зависимости от того, когда делались эти измерения в течение рабочего дня или в ночное время (смотри также главу 6). В частности, если рассматривать только дневную часть измерений трафика, то соответствующее распределение нп-

формацпопного потока с высокой точностью согласуется с гипотезой (1) см. рис. 9.

Рис. 9. Распределение сетевого трафика, агрегированного с окном 1 сек, для фрагмента дневных измерений: аппроксимация функцией (1)

С цслыо выявления особенностей сетевого трафика, влияющих на формирование логнормального закона, была построена модель, в которой методом Монте-Карло генерировались две случайные величины: размер регистрируемого пакета Ps и временной интервал Т;п(, разделяющий последовательно приходящие пакеты. Для моделирования величины Ps использовалось эмпирическое распределение для исходных измерений трафика (рис. 7а), а для величины Ti,lt использовались как соответствующее эмпирическое распределение, так и его приближение экспоненциальным распределением (что соответствует нуассоновской модели). При моделировании случайные величины Ps и Тш полагались независимыми, что было предварительно установлено на основании анализа имеющихся данных.

Сгенерированный с помощью этой модели ряд подвергался процедуре агрегации на различных уровнях, а полученные статистические распределения аппроксимировались логпормальным распределением. Результаты аппроксимации (рис. 10а и б) в целом подтверждают предположение о независимости временных интервалов между соседними пакетами от величины этих пакетов. При этом пуассоновская модель была отброшена, поскольку она не воспроизводит распределение реальных данных.

Четвертая глава посвящена сингулярно-спектральному анализу (ССА) измерений сетевого трафика с помощью подхода "Гусеница" [13, 14].

Анализируется временной ряд, отвечающий произвольной функции /(£), )пределенной на равномерной сетке:

*i = /[fi] = /[(i-l)At], г = 1,2,..., К, (2)

где At временной интервал (в нашем случае Д£ = 1).

Рис. 10. Распределение потока информации для модельных данных: а) агрегированных с окном 1 сек, б) агрегированных с окном 10 сек

Стандартная схема "Гусеницы"-ССА состоит из четырех этапов:

1. преобразование одномерного ряда к многомерному виду,

2. сингулярное разложение выборочной ковариационной матрицы,

3. анализ этого разложения с помощью метода главных компонент и отбор ведущих компонент,

4. реконструкция одномерного ряда на основе отобранных компонент.

Преобразование ряда (2) к многомерному виду подразумевает его представление в матричной форме:

/ XI Х2 Хз ■ ■ Хь \

х = (®ч)Е£=1 = х2 Хз хз Х4 Х4 Хъ • ■ ХЬ+1 ■ ХЬ+2

\ Хк Хк+1 Хк+2 ■ ■ хК /

где Ь < К называется длиной "гусеницы", ак — К — Ь + 1.

Затем находятся собственные значения А;, г = 1,2, ...,Ь и собственные вектора Ц, г = 1,2ковариационной матрицы С = \ХХТ. Матрица собственных векторов V используется для перехода к главным компонентам

Г = ^Х = (УьУ2,...,П), (3)

где (г = 1,2,..., Ь) столбцы матрицы, состоящие из к элементов.

Ь I

Равенство 71 = а, — 1 позволяет оцепить вклад а, г-оп компоненты ¿=1 ' ¿=1 в анализируемый ряд.

На рис. 11 показан вклад а{ главных компонент в разложение исходного ряда трафика (в порядке убывания) при длине "гусеницы" С= 12 и 20. На основе этой информации можно оценить число ведущих компонент, определяющих характерное поведение трафика.

а.% а%

25 20 15 10 5

Рис. 11. Вклад о (в процентах) главных компонент в разложение исходного ряда трафика при длине "гусеницы" а) Сь = 12 и б) С£ = 20

Учитывая результаты, полученные в предыдущей главе, следует ожидать, что распределение информационного потока, восстановленного на основании ведущих компонент, должно описываться логиормальным законом. На рис. 12 представлены результаты аппроксимации распределений информационного потока, соответствующие различному числу N = 1,2,..., С/, ведущих компонент при длине "гусеницы" Сь — 20, функцией (1). Здесь х2 это значение критерия х2: а ^ число степеней свободы.

Прямые, параллельные оси абсцие, показывают уровни значимости вероятность 10% соответствует верхней прямой х2/^ = 1-247, а вероятность 89.5% нижней прямой х1/и = 0.732 при проверке нулевой гипотезы с числом степеней свободы и = 47. Из этой зависимости видно, что уже при N = 3 достигается достаточно высокий уровень соответствия статистического распределения гипотезе (1). В области больших N наблюдается рост который можно объяснить влиянием остаточных компонент, носящих характер случайного шума.

Для оценки числа компонент, которые можно отбросить без влияния на основную составляющую трафика, весь набор главных компонент был разбит

Рис. 12. Зависимость х2/и от числа главных компонент

на две части:

1. ведущие компоненты, формирующие основную составляющую трафика, характеризующуюся логнормальным распределением,

2. остаточные компоненты, отвечающие части трафика с характеристиками случайного шума.

Для отбора остаточных компонент использовался "момент" нарушения симметрии распределения величин временного ряда, восстановленного на основании указанных компонент. Для проверки гипотезы о симметрии распределения был взят критерий знаков:

п

М = (3)

¡=1

где Х\,..., Хп - измерения трафика, п - объем выборки, а © - функция Хе-висайда:

п, , / 1, х>0 ад = \0, х < 0.

Для правильной гипотезы и больших п распределение величин ц имеет вид:

тп — пр + 0.5 \

Р{ц < тп | п,р} и Ф

у/пр(1-р) у

где Ф - функция распределения нормального распределения (в нашем случае р = 0.5 и п = 2048).

На рис. 13 представлена зависимость значении величины /х от числа остаточных компонент (для Сь = 12 и 20). Видно, что число остаточных компо-

Рис. 13. Зависимость величин /г критерия знаков от числа остаточных компонент для а) Сь = 12 и б) Сь = 20

нент, отвечающих 5% уровню значимости, сооставляет 6 для С/, = 12 и 11 для Сь = 20.

Для дополнительной проверки этих результатов использовался критерий симметрии на основе статистики [15]. Данный критерий проверяет симметрию относительно х = 0 функции распределения Р(х) измерений Х\,..., Хп, т.е. нулевую гипотезу Я0: Р(х) = 1 — Р(х). Соответствующая статистика имеет вид:

и1=п

| [ВД + Рп(~х) - I]2 (4)

где Рп(х) - эмпирическая функция распределения. Для расчетов статистики (4) удобнее пользоваться формулой:

1=1

где < ... < Х(п) вариационный ряд, построенный на основе измерений.

На рисунке 14 представлена зависимость от числа остаточных компонент для Сь = 12 и 20.

Число остаточных компонент, отвечающих 5% - уровню значимости критерия, составляет 6 для Сь — 12 и 11 для Сь = 20, что полностью совпадает

10

10

10

Рис. 14. Зависимость величины от числа остаточных компонент для а) СI = 12 и б) СЛ = 20

с результатом, полученным с помощью критерия знаков (рис. 13). Это также согласуется с результатом, полученным с помощью критерия х2 (рис. 12).

Таким образом, статистический анализ измерении трафика, основанный на совместном использовании х2_ 11 ш2-критериев, позволил разбить набор главных компонент на две группы. Первая группа включает ведущие компоненты, ответственные за формирование основной составляющей трафика. Вторая группа, состоящая из остаточных компонент, может быть интерпретирована как шум. Детальный анализ пограничной области между этими двумя группами может дать дополнительную информацию о структуре трафика и упростить понимание его динамики.

В пятой главе сетевой трафнк исследуется методами спектрального и вейвлет-апализа.

Для оценки числа вейвлет-коэффицнентов, ответственных за формирование высокочастотной (шумовой) составляющей трафика, использовался критерий симметрии на основе о;2. На рис. 15а представлена зависимость о;2 от числа отброшенных наименьших всйвлет-коэффициентов М. Она имеет минимум при М = 768. Распределение восстановленного информационного потока при М = 768, представленное на рис. 156, аппроксимируется логнор-малыюй функцией (1) с хорошим уровнем значимости. Из рис. 15а видно, что максимальное число коэффициентов, которые можно отбросить, не превышая 5% - го уровня значимости, равно М — 1408. Это составляет ~ 70% от общего числа коэффициентов (тг = 2048).

Для дополнительной проверки данного результата анализировалось пове-

Рис. 15. а) Зависимость величины ы^ от числа отброшенных вепвлет-коэффпцпептов, б) распределение потока информации, отвечающее отобранным коэффициентам после отбрасывания М = 768 наименьших коэффициентов

дение автокорреляционной функции [16] к

Е(й+г - y){yi - у) к

= ^-> у=кТ,У<> (5)

Y.{yi-y? 1=1

i=i

как для шумовой, так и регулярной составляющих сетевого трафика. Логично предположить, что элементы временного ряда, соответствующего шумовой составляющей, должны быть некоррелированными.

На рис. 16а представлены автокорреляционные функции для шумовой составляющей, отвечающие разному числу отброшенных коэффициентов М. Видно, что при М < 1408 отбрасываемая составляющая может рассматриваться как шум. На рис. 166 приведены автокорреляционные функции регулярной составляющей для разного числа отбрасываемых коэффициентов. Видно, что исключение не более, чем 1408 наименьших коэффициентов, практически не влияет на форму автокорреляционной функции.

К отфильтрованным данным была снова применена процедура обработки на основе подхода "Гусеница", описанная в главе 4. На рис. 17 представлен вклад а,- (в процентах) главных компонент для данных трафика после исключения 1408 наименьших коэффициентов. Видно, что вклад остаточных компонент значительно уменьшился по сравнению с результатами для исходных измерении, в тоже время вклад ведущих компонент заметно вырос (ср. рис. 11).

Рис. 16. Автокорреляционные функции С{т) для а) шумовой и б) регулярной составляющих, соответствующих различному числу отброшенных коэффициентов

2 4 6 & 12

а.% 25 -

2.5 5 7.5 10 12.5 15 17.5 20

Рис. 17. Вклад о (в процентах) главных компонент в разложение отфильтрованного ряда трафика при длине ''гусеницы'' а) Сь = 12 и б) Сь = 20

На рис. 18 представлены результаты аппроксимации распределения информационного потока для отфильтрованных данных (для разных Лг = 1,2, ...,Сх при Сь — 20) функцией (1). Видно, что уже три ведущие компоненты формируют распределение, которое наилучшим образом согласуется с гипотезой (1).

Для оценки числа остаточных компонент, которые можно исключить из измерений трафика без заметного влияния на основную составляющую, вновь использовался критерий симметрии на основе и>1. На рис. 19 приведена за-

18

Л', числашшии\ тмнингнт

Рис. 18. Зависимость величины х2/^ от числа N главных компонент

висимость ш2 от числа остаточных компонент для отфильтрованных данных при длине "гусеницы" С/, = 20. Величина превышает граничное значение,

Рис. 19. Зависимость величины от числа остаточных компонент для отфильтрованных данных при длине "гусеницы" Сь = 20

1.5 5 7.5 ю 115 15 17.5 10 Час к» ¡ктвянгншх качвпягнт

соответствующее 5% уровню значимости, при числе остаточных компонент более 17 (для исходных данных больше 10). Этот результат показывает, что после вейвлет-фильтрации только 3 компоненты формируют основную составляющую трафика, а 17 остаточных компонент могут быть исключены как шумовые (из общего числа С/, = 20). Это находится в согласии с результатом, полученным на основе критерия х2 (рис. 18). Также показано, что ряд, восстановленный на основе этих трех компонент, сохраняет основные спектральные характеристики исходного ряда измерений информационного

трафика. Это позволяет предположить, что преобразования, произведенные над исходным рядом, не нарушают основных свойств трафика.

В шестой главе развиты новые методы для определения моментов смены состояния анализируемого временного ряда. В их основу положена гипотеза о том, что в установившемся режиме при определенном уровне агрегации распределение информационного потока отвечает логнормалыюму закону, а изменение состояния системы, связанное, например, с увеличением активности пользователей, приводит либо к подобному режиму, но с другими параметрами логнормального распределения, либо к переходному режиму, распределение информационного потока в котором не отвечает логнормалыюму закону (например, при перегрузках, или в случае сетевых атак).

На рис. 20а представлены временные ряды для разных уровней агрегации 0.1, 1 и 10 сек для данных, полученных на входном шлюзе сети университета "Дубна" (32 часа измерений).

I. »/им Ве.тшяв шаттл, бяшт

Рис. 20. а) Временные ряды агрегированного (при 0.1, 1 и 10 сек) потока информации (включая дневное и ночпое время), б) распределения агрегированного информационного потока при 0.1, 1 и 10 сек

Данные демонстрируют достаточно нестабильный характер, что, в свою очередь, подразумевает определенные изменения свойств внутренней динамики системы. Интервалы, соответствующие различным режимам функционирования системы, могут рассматриваться на временной оси как состояния "до" и "после" соответствующих моментов смены режима. В предыдущих главах было показано, что для достаточно коротких временных интервалов в условиях отсутствия перегрузок, сетевых атак и т.д. (т.е. критических режимов), распределение информационных потоков соответствует логнормалыюму распределению.

Очевидно, что для продолжительных интервалов параметры распределения не могут оставаться неизменными (самый простои пример - это падение сетевой активности в ночное время). Естественно предположить, что в этом случае временной ряд измерений можно разбить на определенное количество интервалов, каждый из которых соответствует своему режиму функционирования.

Статистические распределения для соответствующих временных рядов представлены на рпс. 206. В отличие от ранее рассмотренных примеров, увеличение уровня агрегации не приводит к формированию распределения, отвечающего единственному логнормалыюму распределению. Вместо этого наблюдается распределение, представляющее собой сумму разных распределений. Составляющие его распределения, в соответствии с нашей гипотезой, должны отвечать различным режимам функционирования сети. Для того, чтобы исследовать эти режимы, необходимо решить задачу их разделения.

В работе развит новый подход для определения моментов смены состояния системы на основе принципов иммунокомпыотинга [18]-[20]. Его можно рассматривать как расширение алгоритма "отбора от противного". Предлагаемый алгоритм можно сформулировать следующим образом:

• определяется набор выборок заданного объема п, формируемых из последовательных величин временного ряда;

• строится вектор признаковых параметров, характеризующих анализируемый процесс;

• определяется множество "свой" в виде набора векторов, отвечающих основному режиму процесса;

• задается правило соответствия, определяющее отличие "своего" вектора от "чужого".

Анализ данных показал, что использование двумерных векторов позволяет свести задачу к поиску и классификации кластеров на плоскости.

Для анализа использовались два типа векторов и, соответственно, два метода разделения кластеров, применяемых последовательно. В первом методе (методе временных задержек) использовалось двумерное распределение на фазовой плоскости для "задержанных" координат (хг, хг+т) с последующей классификацией различных аттракторов, как "нормальных" (своих) или "аномальных" (чужих).

Во втором методе использовались две величины - среднее и дисперсия скользящей выборки объема п = 10, определяющих вектор (т}). Также, как е и первом методе, использовалось разделение кластеров на плоскости (/х, а) на "свои" и "чужие".

Оба метода имеют в своей основе утверждение, что изменения в динамике должны вести к специфичным изменениям в статистическом распределении

величин временного ряда. Оба метода имеют в качестве "целевой функции" принадлежность последовательно разделяемых классов (состояний временного ряда) к классу логнормальных распределений.

и

П1Ш 1111

■-рЦрЦНг ■ ■г ¡Р^

Рис. 21. а) Временной ряд агрегированного па уровне 1 сек трафика (вверху). Моменты структурных изменений (средняя диаграмма). "Отфильтрованный" трафик - дневное состояние (внизу), б) статистическое распределение для дневного трафика и его аппроксимация лопюрмальной функцией

На рис. 21а вверху приведен временной ряд трафика (32 часа измерений), агрегированный на уровне 1 сек. "Отфильтрованный" трафик - основное (дневное) состояние общей длительностью 18.5 часов (58% от общего времени измерений) показан на нижнем рис. 21а. Моменты структурных изменений представлены на диаграмме на среднем рис. 21а. В средней части этой диаграммы отчетливо выделяется интервал, где количество структурных изменений не так велико. Этот интервал соответствует ночному времени. На рис. 216 представлено распределение сетевого трафика, находящегося в основном (дневном) состоянии. На этом же рисунке представлен результат аппроксимации полученного эмпирического распределения функцией (1).

На рис. 22а представлены временные ряды, отвечающие ночному режиму, для разных уровней агрегации (0.1, 1 и 10 сек). На рис. 226 представлено распределение сетевого трафика, агрегированного на уровне 10 сек, с наложенной фитирующей кривой логнормального распределения.

На рис. 23а приведен пример хакерской атаки на один из компьютеров локальной сети университета "Дубна". Для локализации атаки использовался метод на основе классификации векторов (/¿,сг), соответствующих "скользящей" выборке объема п = 20 при уровне агрегации 1 сек. На диаграмме рассеяния (рис. 236) хорошо видно, что кластер, характеризующий основное

Я)

остояние системы, расположен в области средних значений ¡1, в то время :ак кластер, отвечающий состоянию системы в период атаки, расположен 1а диаграмме слева в области малых ц и легко отделяется от других класте-юв (состояний). Векторы (/1, сг), попадающие в эту область, характеризуются :ак "чужие". На нижнем рис. 23а представлен исследуемый ряд после псклю-юння из него фрагмента атаки. Следует отметить, что в рассматриваемом

|Д 1 ; » t i en I iUi i! ¡|ii||| * * 1

i i =i uiliji

! ! ! i

¡L^S»

ис. 22. а) Агрегированный при 0.1, 1 и 10 сек (сверху вниз) трафик (ночное время), б) аспределепие агрегированного на уровне 10 сек "ночного" трафика и его аппроксимация огнормальной функцией

не. 23. а) Сверху-вниз: измерения трафика, агрегированные с окном 1 сек; временной ряд графика после исключения из пего участка с хакерской атакой, б) диаграмма рассеяния щух величин - среднего значения и дисперсии скользящей выборки объема п = 20

примере простая дискриминация по величине потока также позволяет разделить "нормальную" и "аномальную" моды в динамике трафика, однако в более сложном случае этого может оказаться недостаточно.

В Заключении сформулированы основные результаты диссертации, дается краткое описание работ, положенных в ее основу.

Список публикаций

[А1] Антониу Я., Иванов В.В., Иванов Валерии В., Зрелов П.В.: Статистическая модель информационного трафика, "Физика элементарных частиц и атомного ядра" (ЭЧАЯ). 2004. Т.35. Вып.4. С.984-1019 (на англ. яз.).

[А2] Антониу Я., Иванов В.В., Иванов Валерий В., Зрелов П.В.: Анализ главных компонент измерений информационного трафика: подход "Caterpillar"-SSA, "Письма в ЭЧАЯ", 2004, Т.1, №4 (121). С.87-95 (на англ. яз.).

[A3] I. Antoniou, V.V. Ivanov, Valery V. Ivanov, and P.V. Zrelov: On the LogNormal Distribution of Network Traffic, Physica D 167 (2002) 72-85.

[A4] I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: On a Statistical Model of Network Traffic, "Nuclear Instruments & Methods in Physics Research", A 502 (2003) 768-771.

[A5] I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Wavelet Filtering of Network Traffic Measurements, Physica A 324 (2003) 733-753.

[A6] I. Antoniou, Victor V. Ivanov, Valery V. Ivanov, Yu.L. Kalinovsky and P.V. Zrelov: On a Kinetic Model of the Internet Traffic, "Discrete Dynamics in Nature & Society", 2004:1 (2004) 19-34.

[A7] P. Zrelov, I. Antoniou, V. Ivanov, Valery Ivanov: Principal Component Analysis of Network Traffic: the "Caterpillar"-SSA Approach, VIII Int. Workshop on "Advanced Computing and Analysis Techniques in Physics Research" - ACAT'2002, 24-28 June, 2002, Moscow, RUSSIA, Book of abstracts, p. 176.

[A8] I. Antoniou, V. Ivanov, Valery Ivanov and P. Zrelov: On a Statistical Model of Network Traffic, VIII Int. Workshop on "Advanced Computing and Analysis Techniques in Physics Research" - ACAT'2002, 24-28 June, 2002, Moscow, RUSSIA, Book of abstracts, p. 177.

[A9] I. Antoniou, V.V. Ivanov, Valéry V. Ivanov and P.V. Zrelov: Wavelet Filtering of Network Traffic Measurements, V Int. Congress 011 Mathematical Modeling, September 30-0ctober 6, 2002, Book of abstracts, Vol. I, p. 137, Dubna, Moscow region, Russia, 2002.

[A10] I. Antoniou, V.V. Ivanov, Valéry V. Ivanov and P.V. Zrelov: Statistical Model of Network Traffic, V Int. Congress 011 Mathematical Modeling, September 30-0ctober 6, 2002, Book of abstracts, Vol. I, p. 138, Dubna, Moscow region, Russia, 2002.

[All] I. Antoniou, V.V. Ivanov, Valéry V. Ivanov and P.V. Zrelov: Statistical Model of Network Traffic, XIX International Symposium on Nuclear Electronics k Computing, NEC'2003, September 15-20, 2003, Varna, Bulgaria, Book of abstracts, Dubna, 2003, p. 14.

[A12] V.V. Ivanov, Valéry V. Ivanov, Yu.A. Kryukov and P.V. Zrelov: Detection of abrupt changes in network traffic dynamics, In: Int. Conf. "Distributed computing and Grid-technologies in science and education", Dubna, June 29 - July 2, 2004, Book of abstracts, p. 86.

[A13] V.V. Ivanov, Valéry V. Ivanov, Yu.L. Kalinovsky and P.V. Zrelov: Statistical and kinetic models of Internet traffic flows, In: Int. Conf. "Distributed computing and Grid-technologies in science and education", Dubna, June 29 - July 2, 2004, Book of abstracts, p. 87.

[A14] I. Antoniou, V.V. Ivanov, Valéry V. Ivanov and P.V. Zrelov: Principal Component Analysis of Network Traffic, In: Proc. of I-st Int. Conf. on "Mathematics and Informatics for Industry", Mil 2003, 14-16 April 2003, Thessaloniki, Greece, pp. 170-181.

[A15] I. Antoniou, V.V. Ivanov, Valéry V. Ivanov and P.V. Zrelov: Statistical Model of Network Traffic, JINR Communication, El 1-2002-222, JINR, Dubna, RUSSIA, 2002, 38 pp.

[A16] I. Antoniou, V.V. Ivanov, Valéry V. Ivanov and P.V. Zrelov: Wavelet Filtering of Network Traffic Measurements, JINR Communication, Ell-

2002-223, JINR, Dubna, RUSSIA, 2002, 22 pp.

[A17] I. Antoniou, V.V. Ivanov, Valéry V. Ivanov and P.V. Zrelov: Principal Component Analysis of Network Traffic Measurements, Preprint JINR, Ell-

2003-148, JINR, Dubna, RUSSIA, 2003, 15 pp.

[A18] Victor V. Ivanov, Valéry V. Ivanov, Yu.L. Kalinovsky, P.V. Zrelov, I. Antoniou: Statistical and Kinetic Models of Network Traffic, In: "Annual

report 2003. Laboratory of Information Technologies". Ed. by Gh. Adam, V.V. Ivanov and T.A. Strizh, JINR, Dubna, 2004, pp. 28-31.

[A19] Я. Антониоу, П.В. Зрелов, B.B. Иванов, Валерий В. Иванов, Ю.Л. Ка-линовский: Статистическая и кинетическая модели сетевого трафика, Новости ОИЯИ, 3/2004, стр. 32-35.

[А20] V.V. Ivanov, Valéry V. Ivanov, Yu.A. Kryukov and P.V. Zrelov: Detection of Abrupt Changes in Network Traffic Dynamics, In: "Annual report 20042005 years. Laboratory of Information Technologies". Ed. by Gh. Adam, V.V. Ivanov and T.A. Strizh, JINR, 2005-179, Dubna, 2005, pp. 66-72.

Литература

[1] W Lclancl, M.Taqqu, W. Willingcr, and D.Wilsou: On the Self-Similar

Nature of Ethernet Traffic (Extended Version), IEEE/ACM Transactions on Networking, 2(1), pp. 1-15, February 1994.

[2] M.T. Lucas, D.E. IVregc, B.J. Deinpsey, and A.C. Weaver: Statistical Characterization of Wide-Area Self Similar Network Traffic, University of Virginia Technical Report CS97-04, October 9, 199G.

[3] M.E. Crovella and A. Bestavros: Self-Similarity in World Web Tmffic: Evidence and Possible Causes, IEEE/ACM Transactions on Networking, Vol.5, No. 6, pp. 835-846, December 1997.

[4] Vishal Misra and Wei-Bo Gong: A Hierarchical Model for Teletraffic, Department of Electrical and Computer Engineering, University of Massachusetts, Amherst MA 01003, 1998.

[5] Jon M. Peha: Protocols Can Make Traffic Appear Self-Similar, In: Proc. of the 1997 IEEA/АCM/SCS Communication Networks and Distributed Systems Modeling and Simulation Conference.

[6] A. Erramilli, P. Pruthi and W. Willinger: Resent Developments in Fractal Traffic Modelling, In: Proc. Inter. Teletraffic Seminar, St. Petersburg, 26 June

2 July, 1995.

[7] D.L. Jagerman, B. Melamed, and W. Willinger: Stochastic Modeling of Traffic Processes, Technical Report, 1996.

[8] S.M. Kay: Modern Spectral Estimation: Theory and Applications. Prentice Hall, New Jersey, 1988.

[9] M.B. Priestley: Non-linear and N on-stationary Time Series Analysis. Academic Press, 1988.

[10] Международный Университет природы, общества и человека "Дубна": http://www.uni-dubna.ru.

[11] П.М. Васильев, В.В. Иванов, В.В. Кореньков, Ю.А. Крюков, С.И. Куп-, цов: Система сбора, анализа и управления сетевым трафиком фрагмента сети ОИЯИ на примере подсети Университета "Дубна", Сообщение ОИЯИ, ДП-2001-266, Дубна, 2001.

[12] Колмогоров А.Н.: О логарифмически нормальном законе распределения размеров частиц при дроблении, Доклады АН СССР. 1941. Т.31. С.99-101.

[13] Данилов Д.Л., Жиглявский A.A., редакторы: Главные компоненты временных рядов: метод "Гусетща". Изд-во СПбГУ, 1997.

[14] N. Golyaiidina, V. Nekrntkin, and A. Zhigljavsky: Analysis of time series structure: SSA and related techniques, Chapman & Hall/CRC, 2001.

[15] Г.В. Мартынов: Критерии омега-квадрат, Москва, "Наука", 1978.

[16] Henry D.I. Abarbanel: Analysis of Observed Chaotic Data, 1996 SpringerVerlag New York, Inc.

[17] E.L. Crow, K. Shimizu (eds.): Lognormal Distributions. Theory and Applications, Marcel Dekker, Inc., New York, 1988.

[18] D. Dasgupta: "An Overview of Artificial Immune Systems and Their Applications, In: Artificial Immune Systems and Their Applications, Springer-Verlag Berlin Heidelberg 1999, 3-21, 1999.

[19] D. Dasgupta and Nii Attoh-Okine: Immunity-Based Systems: A Survey, In: Proc. of the IEEE Int. Conf. on Systems, Man, and Cybernetics, Orlando, October 12-15, 1997.

[20] S. Forrest, A.S. Perelson, L. Allen, and R. Cherukuri: Self-Nonself Discrimination in a Computer. In: Proc. of IEEE Symposium on Research in Security and Privacy, pp. 202-212, Oakland, CA, 16-18 May 1994.

Получено 31 марта 2009 г.

Отпечатано методом прямого репродуцирования с оригинала, предоставленного автором.

Подписано в печать 01.04.2009. Формат 60 х 90/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,93. Уч.-изд. л. 2,22. Тираж 100 экз. Заказ № 56551.

Издательский отдел Объединенного института ядерных исследований 141980, г. Дубна, Московская обл., ул. Жолио-Кюри, 6. E-mail: publish@jinr.ru www.jinr.ru/publ ish/

Оглавление автор диссертации — кандидата физико-математических наук Иванов, Валерий Викторович

Введение

Обзор литературы.

Глава 1. Система сбора данных

Глава 2. Нелинейный анализ измерений информационного трафика

2.1. Оценка параметров динамической системы.

2.2. Реконструкция динамической системы

2.3. Нелинейная модель сетевого трафика на основе ИНС.

2.4. Выводы ко второй главе

Глава 3. Логнормальное распределение сетевого трафика

3.1. Агрегирование измерений сетевого трафика

3.2. Причины логнормальности сетевого трафика

3.3. Самоподобие и степенной закон измерений трафика

3.4. Выводы к третьей главе

Глава 4. Сингулярно-спектральный анализ измерений трафика

4.1. Основные этапы метода "Гусеница"-ССА

4.2. Анализ измерений трафика с помощью метода главных компонент: анализ ведущих компонент

4.3. Анализ измерений трафика с помощью метода главных компонент: анализ остаточных компонент.

4.4. Выводы к четвертой главе

Глава 5. Вейвлет—фильтрация сетевого трафика

5.1. Спектральный анализ трафика

5.2. Вейвлет-фильтрация информационного трафика

5.3. Анализ статистических характеристик отфильтрованного ряда

5.4. Выбор функциональных компонент.

5.5. Выводы к пятой главе.

Глава 6. Детектирование изменений динамики сетевого трафика

6.1. Алгоритмы отбора на основе искусственных иммунных систем

6.2. Используемые наборы данных.

6.3. Детектирование точек смены состояния.

6.4. Различие в динамике дневного и ночного режимов

6.5. Классификация ночного режима.

6.6. Хакерская атака.

6.7. Выводы к шестой главе.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Иванов, Валерий Викторович

Актуальность работы. В условиях глобального информационного общества быстрый, надежный и безопасный обмен данными между локальными и глобальными компьютерными сетями представляет собой проблему высочайшего приоритета. Исследования сетевого трафика показали, что он представляет собой слЬжный динамический процесс, характеризующийся, в частности, распределениями с тяжелыми хвостами, длинно-масштабными корреляциями, мультифрактальностью и т.д. [26]-[43]. Трудности, с которыми столкнулись исследователи, привели их к выводу о том, что сетевой трафик нельзя адекватно описать в рамках существующих моделей [44, 45], а традиционные математические методы малопригодны для анализа временных рядов, отвечающих информационным потокам [46, 47]. В то же время, функционирование компьютерных сетей ключевым образом зависит от их технической и программной поддержки, в том числе с учетом моделей, построенных на основе выявленных закономерностей и отражающих основные особенности сетевого трафика.

В этой связи, важной задачей для скоростных телекоммуникационных систем и компьютерных сетей является разработка моделей трафика, которые бы реалистично отражали основные его особенности, а также математических методов, адекватных анализируемым случайным процессам. Такие методы и модели могут помочь в разработке методов и средств, нацеленных на повышение качества обслуживания компьютерных сетей, обеспечение эффективного контроля и управления информационными потоками, защиту сетей от несанкционированных вторжений и т.д.

Цель диссертационной работы. Разработка новых моделей и методов для изучения характерных особенностей информационного трафика и их применение в решении конкретных задач.

Научная новизна:

1. Получена оценка размерности вложения динамического процесса информационного трафика.

2. На основе нейронной сети построена модель информационного трафика, с помощью которой удалось воспроизвести статистическое распределение его потока, а также подтвердить оценку размерности вложения соответствующего процесса.

3. Получено статистическое распределение информационного потока, с высокой точностью отвечающее логнормальному закону распределения.

4. На основе подхода "Гусеница", критерия знаков, х2- и ы2-критериев разработана процедура разбиения всего набора главных компонент на ведущие (ответственные за формирование логнормального распределения) и остаточные, носящие характер высокочастотного шума.

5. Развиты новые методы определения моментов смены состояния анализируемого динамического процесса.

Практическая ценность:

• Развитые в работе математические методы позволили исследовать характерные особенности сетевого трафика и получить новые результаты о соответствующем динамическом процессе.

• На основе искусственной нейронной сети (ИНС) разработана модель трафика, позволившая оценить размерность вложения соответствующего процесса и воспроизвести статистическое распределение потока информации.

• Построена статистическая модель информационного трафика, которая может служить основой для разработки новых методов и средств для более эффективного контроля и управления информационными потоками и защиты компьютерных сетей от несанкционированного доступа.

• Разработаны новые методы детектирования точек смены состояния анализируемого процесса, позволяющие вести эффективный контроль сетевого трафика.

Результаты и положения, выносимые на защиту:

1. С помощью методов нелинейного анализа получены оценки интервала корреляции и размерности вложения для динамического процесса, ответственного за формирование сетевого трафика.

2. Непараметрическая модель сетевого трафика, построенная на основе искусственной нейронной сети (ИНС) прямого распространения, которая воспроизвела статистические особенности информационного трафика, а также подтвердила оценку размерности вложения трафика, полученную с помощью метода главных компонент.

3. Статистический закон распределения информационных потоков для агрегированных измерений трафика, аппроксимируемый с высокой точностью функцией логнормального распределения.

4. Метод разбиения всего набора главных компонент разложения временного ряда измерений трафика на основные (ответственные за формирование логнормального распределения) и остаточные, которые носят характер высокочастотного шума, наложенного на основной процесс.

5. Новый алгоритм пороговой вейвлет-фильтрации исходных измерений трафика для исключения высокочастотной (шумовой) составляющей трафика, что позволило описать основную составляющую трафика минимальным (2-3) набором основных компонент.

6. Новые методы детектирования моментов смены состояния анализируемого временного ряда, в основу которых положена дискриминация по принципу "свой-чужой".

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на научных семинарах ЛИТ, кафедры прикладной математики Московского инженерно-физического института, Российского университета дружбы народов и на различных международных конференциях, в том числе ([А7]-[А14]):

• VIII Int. Workshop on "Advanced Computing and Analysis Techniques in Physics Research" - ACAT'2002, 24-28 June, 2002, Moscow, RUSSIA.

• 5-й Международный конгресс по математическому моделированию, г. Дубна, Россия, 30 сентября - 6 октября, 2002.

• I-st Int. Conf. on "Mathematics and Informatics for Industry", Mil, 14-16 April 2003, Thessaloniki, Greece.

• VII world multiconference on "Systemics, Cybernetics and Informatics", SCI 2003, Focus Symposium on "Quantum Physics and Communication", Dubna, Russia, 30 July - 2 August, 2003.

• Летняя школа DAAD "Трафик и эконофизика", г. Дубна, Россия, 28 июля - 17 августа, 2003.

• XIX International Symposium on Nuclear Electronics & Computing, NEC'2003, September 15-20, 2003, Varna, Bulgaria.

• Международная конференция "Распределённые вычисления и Грид-техноло] в науке и образовании", г. Дубна, Россия, 29 июня - 2 июля, 2004.

Публикации. В основу диссертации положены 20 работ, которые опубликованы как в реферируемых журналах:

• Физика элементарных частиц и атомного ядра (ЭЧАЯ) [А1],

• Письма в ЭЧАЯ [А2],

• Physica D [A3],

• Nuclear Instruments Sz Methods in Physics Research [A4],

• Physica A [A5],

• Discrete Dynamics in Nature & Society [A6] и материалах международных конференций ([А7]-[А14]), так и в виде препринтов и сообщений ОИЯИ ([А15]-[А20]).

Личный вклад автора. Вклад автора является определяющим.

Структура и объем диссертации. Диссертация содержит введение, обзор литературы, 6 глав, заключение, список литературы (163 ссылки) и имеет объем 145 страниц.

Заключение диссертация на тему "Статистическая модель информационного трафика"

Основные результаты диссертации

В диссертационной работе развиты новые методы анализа и моделирования информационного трафика, в том числе:

1. Методы нелинейного анализа временных рядов применены для изучения информационного трафика и показано, что они могут успешно применяться для более глубокого понимания его основных особенностей [156, 159]. В то же время показано, что в связи со сложным характером рассматриваемого процесса, традиционные методы нелинейного анализа не дают надежных оценок анализируемого временного ряда. Так алгоритмы для оценки вложенной размерности (в том числе, алгоритм Грассбергера-Прокачи) не позволяют получить надежную ее оценку из-за большой величины. В то же время, после фильтрации от высокочастотной составляющей, которую можно рассматривать как шум, было получено реалистичное значение вложенной размерности. Этот результат был подтвержден с помощью метода главных компонент.

2. Используя полученные с помощью методов нелинейного анализа оценки временной задержки и размерности вложения, на основе ИНН прямоточного типа построена динамическая модель сетевого трафика. Было показано, что ИНН, обученная на реальных данных сетевого трафика, воспроизводит статистические особенности трафика, а также подтверждает результат оценки размерности динамического процесса, полученный с помощью метода главных компонент [156, 159].

3. Изучены статистические особенности потоков информации на входном шлюзе локальной сети среднего размера (250-300 компьютеров) [116, 145, 147, 152, 154, 156, 159, 160]. Показано, что при агрегировании измерений трафика формируется (начиная с некоторого порогового значения окна агрегирования: в нашем случае это 1 сек) статистическое распределение величины потока, которое не меняет своей формы при дальнейшем росте окна агрегирования (вплоть до 10 сек в нашем случае). Указанное распределение с высокой точностью аппроксимируется функцией плотности логнормального распределения.

4. С помощью подхода "Гусеница"-ССА, являющегося расширением метода главных компонент, проведен анализ основных особенностей различных компонент, формирующих сетевой трафик [118, 144, 153, 157, 158]. Показано, что уже несколько первых компонент формируют основную часть информационного трафика, ответственную за логнормальный закон статистического распределения информационных потоков. Остаточные же компоненты носят характер высокочастотного шума, наложенного на основной процесс.

5. Основываясь на особенностях остаточных компонент, развит подход, позволяющий оценить число остаточных компонентов, которые не вносят существенного вклада в формирование основной составляющей трафика и могут быть исключены из полного набора компонент [156-159]. Этот подход включает совместное использование х2~ и ^-критериев и позволяет оценить число остаточных компонент, которые можно интерпретировать как высокочастотный шум и отбросить из дальнейшего рассмотрения.

6. Для дополнительного исключения высокочастотной (шумовой) составляющей на предварительном этапе анализа к измерениям трафика была применена вейвлет-фильтрация [146, 155, 159]. Последующее разложение отфильтрованного трафика с помощью подхода "Гусеница"-ССА, а затем метода выделения остаточных компонент позволили показать, что основная составляющая сетевого трафика может быть описана минимальным (2-3) набором главных компонент. При этом временной ряд, восстановленный на основе этих главных компонент, сохраняет основные спектральные характеристики исходного трафика. Это позволяет предположить, что преобразования, произведенные над исходным рядом, не нарушили динамических характеристик трафика.

7. Разработаны методы для детектирования точек моментов смены состояния анализируемого временного ряда [151, 163]. В основу этих методов положены принципы иммуннокомпьютинга, т.е. дискриминация по принципу "свой-чужой". Эффективность методов продемонстрирована на реальных измерениях трафика, в том числе, включая эпизод с ха-керской атакой локальной сети.

Благодарности

В заключение выражаю глубокую благодарность своему научному руководителю Петру Валентиновичу Зрелову за постановку задач и постоянную помощь и поддержку. -"-г "" за инте

Выражаю особую признательность профессору Е.П. Жидкову рес к работе и полезные замечания. Считаю своим приятным долгом поблагодарить соавторов и коллег по работе Я. Антониу и Ю.А. Калиновского.

Я искренне благодарен своим родителям В.В. Ивановой и В.В. Иванову за неоценимую помощь и поддержку.

Отдельно хочу поблагодарить дирекцию Лаборатории информационных технологий Объединенного института ядерных исследований за предоставленные хорошие условия для работы.

Заключение

Библиография Иванов, Валерий Викторович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Б.С. Лившиц, А.П. Пшеничников, А.Д. Харкевич: Теория телетрафика, Москва, Связь, 1979.

2. О.И. Шелухин, A.M. Тенякшев, А.В. Осин: Фрактальные процессы в телекоммуникациях, Москва, Издательство "Радиотехника", 2003.

3. А. Я. Городецкий, B.C. Заборовский: Информатика. Фрактальные процессы в компьютерных сетях. Учеб- ное пособие. СПб.: Издательство СПбГТУ. 2000.

4. B.C. Заборовский: Методы и средства исследования процессов в высокоскоростных компьютерных сетях.Дисс. д-ра техн. наук. СПб.: ЦНИИ РТК, 1999.

5. B.C. Заборовский: Протяженные стохастические и динамические процессы в компьютерных сетях: модели, методы анализа для систем защиты информации. Проблемы информационной безопасности. Компьютерные системы. 1999, №3.

6. Б.С. Цыбаков: Модель телетрафика на основе самоподобного случайного процесса. Радиотехника, номер 5, стр. 24-31, 1999.

7. N. Likhanov, В. Tsybakov, N.D. Georganas: Analysis of an ATM Buffer with Self-Similar ("Fractal") Input traffic. In Proc. IEEE INFOCOM, Boston, M.A., 1995.

8. А.Ю. Криштофович: Самоподобие трафика сети ОКС №7. МКИССиТ, Санкт- Петербург, 2002.

9. В.И. Нейман: Самоподобные процессы и их применение в теории телетрафика / Труды MAC. 1999, №1(9).

10. В.В. Крылов, С.С. Самохвалова: Теория телетрафика и ее приложения. Основы теории систем массового обслуживания для задач телекоммуникаций, Санкт-Петербург, Издательство "BHV-Санкт-Петербург", 2005.

11. И.В. Шмелев: Модель трафика мультисервисной сети на основе смеси самоподобных процессов./ Международный форум информатизации МФИ-2004. М.:МТУСИ. 2004. стр.12.

12. А.В Осин: Влияние самоподобности речевого трафика на качество обслуживания в телекоммуникационных сетях. Автореферат диссертации на соискание ученой степени к.т.н., Московский государственный университет сервиса, Москва, 2005.

13. A. A. Makarov and G.I. Simonova: Problems of robust estimation in statistical models of daily traffic flow in the main channels of computer networks, Journal of Mathematical Science, Vol.126, No.l, 2005, pp. 1024-1028.

14. Ю.Ю. Громов, H.A. Земской, О.Г. Иванова, А.В. Лагутин, В.М. Тютюн-ник: Фрактальный анализ и процессы в компьютерных сетях, Тамбов, Издательство ТГТУ, 2007.

15. Н. Heffes, D.M. Lucantoni: A Markov modulated characterization of packetized voice and data traffic and related statistical multiplexer performance. IEEE Journal on Selected Areas in Communications. 4:856868, 1986.

16. R. Jain, SA. Routhier: Packet Trains: Measurements and a New Model for Computer Network Traffic. IEEE Journal on Selected Areas in Communications, 4:986-995, 1986.

17. I. Nikolaidis, I. Akyildiz: Source characterization and statistical multiplexing in ATM networks. Tech. Rep. GIT-CC 92-24, Georgia Institute of Technology, 1992.

18. J. Beran: Statistics for Long-Memory Processes. Chapmen & Hall, New York, 1994.

19. B.B. Mondelbrot, M.S. Taqqu: Robust R/S analysis of long-run serial correlation. In Proc. of the 42nd Session of the International Statistical1.stitute, Manila, 1979. Bulletin of the International Stat. Inst. Vol.48, Book 2, pp. 69-104.

20. G. Samorodnitsky, M.S. Taqqu: Stable Non-Gaussian Processes: Stochastic Models with Infinite Variance. Chapmen & Hall, New York, London, 1994.

21. W Leland, M.Taqqu, W. Willinger, and D.Wilson: On the Self-Similar Nature of Ethernet Traffic (Extended Version), IEEE/ACM Transactions on Networking, 2(1), pp. 1-15, February 1994.

22. M.E. Crovella and A. Bestavros: Self-Similarity in World Web Traffic: Evidence and Possible Causes, IEEE/ACM Transactions on Networking, Vol 5, No. 6, pp. 835-846, December 1997.

23. W. Willinger,M.S. Taqqu,R. Sherman,D.V. Wilson: Self-similarity through high-variability: statistical analysis of Ethernet LAN traffic at the source level IEEE/ACM Transactions on Networking, Vol.5, 1997, pp.71-86.

24. K. Park, G. Kim, and M. Crovella: On the relationship between file sizes, transport protocols, and self-similar network traffic, in Proceedongs of IEEE International Conference on Network Protocols, 1996, pp. 171-180.

25. K. Park, W. Willinger (Editors): Self-Similar Network Traffic and Performance Evaluation, John Wiley &; Sons, 2000.

26. N.G. Duffield, N. O'Connell: Large deviation and overflow probabilities for the general single-server queue, with applications. Mathematical Proceedings of the Cambridge Philosophical Society, 118:363-375, 1995.

27. A. Erramili, D.D. Gosby, W. Willinger: Engineering for realistic traffic: A fractal analysis of burstiness. In Proc. of the Bangalore Regional ITC Seminar, Bangalore, India, 1993.

28. V.Frost and B.Melamed: Traffic modeling for telecommunications networks, IEEE Communications Magazine, 32:70-80, 1994.

29. D.L. Jagerman, B. Melamed, W. Willinger: Stochastic modeling of traffic processes, in Frontiers in Queueing: Models, Methods and Problems, 1996, 271-370, CRC Press.

30. T.D. Dang, B. Sonkoly, S. Molnar: Fractal Analysis and Modelling of VoIP Traffic, NETWORKS2004, Vienna, Austria, 2004.

31. W. Feng, P. Tinnakornsrisuphap: The Failure of TCP in High-Performance Computational Grids, SC2000: High-Performance Network and Computing Conference, Dallas, TX , November 2000.

32. Fei Xue, Jiakun Liu, Yantai Shu, Lianfang Zhang, Oliver W.W. Yang: Traffic Modeling Based on FARIMA Models, Proceedings of the 1999 IEEE Canadian Conference on Electrical and Computer Engineering, 1999, vol.1, pp. 162-167.

33. B.K. Ryu, A. Elwalid: The importance of long-range dependence of VBR video traffic in ATM traffic engineering: Myths and realities,in Proc. ACM SIGCOMM '96, 1996, pp. 3-14.

34. B. Ryu, S.B. Lowen: Point Process Models for Self-Similar Network Traffic, With Applications, Stochastic Models, No. 14, 1998.

35. S. Floyd, V. Paxson: Difficulties in simulating the Internet, IEEE/ACM Transactions on Networking, 2001, Vol.9, pp. 392-403.

36. B.A. Barrett: Traffic Models for Hybrid Satellite-Terrestrial Networks, CSHCN M.S. 2000-1 (ISR M.S. 2000-4).

37. Vishal Misra and Wei-Bo Gong: A Hierarchical Model for Teletraffic, Department of Electrical and Computer Engineering, University of Massachusetts, Amherst MA 01003, 1998.

38. Jon M. Peha: Protocals Can Make Traffic Appear Self-Similar, In: Proc. of the 1997 IEEA/ACM/SCS Communication Networks and Distributed Systems Modeling and Simulation Conference.

39. A. Erramilli, P. Pruthi and W. Willinger: Resent Developments in Fractal Traffic Modelling, In: Proc. Inter. Teletraffic Seminar, St. Petersburg, 26 June 2 July, 1995.

40. D.L. Jagerman, B. Melamed, and W. Willinger: Stochastic Modeling of Traffic Processes, Technical Report, 1996.

41. S.M. Kay: Modern Spectral Estimation: Theory and Applications. Prentice Hall, New Jersey, 1988.

42. M.B. Priestley: Non-linear and Non-stationary Time Series Analysis. Academic Press, 1988.

43. A.A. Tsonis: Chaos: From Theory to Applications. Plenum Press, New York, 1992.

44. D. Kugiumtzis, B. Lillekjendlie, and N. Christophersen: Chaotic time series part I: Estimation of some invariant properties in state space. Modeling, Identification and Control, 15(4):205 224, 1994.

45. A.M. Eraser and H. Swinney: Independent coordinates for strange attractors from mutual information. Physical Review A, 33:1134-1140,1986.

46. M.B. Kennel, R. Brown, and H.D.I. Abarbanel: Determining embeddingdimension for phase-space reconstruction using a geometrical construction. Physical Review A, 45:3403 3411, 1992.

47. P. Grassberger and I. Procaccia: Measuring the strangeness of strange attractors. Physica D, 9:189-208,1983.

48. A. Wolf, J. Swift, H. Swinney, and J. Vastano: Determining Lyapunov exponents from a time series. Physica D, 16:285-317, 1985.

49. J.D. Farmer and J.J. Sidorowich: Predicting chaotic time series. Physical Review Letters, 59:845 848, 1987.

50. M. Casdagli: Chaos and deterministic versus stochastic nonlinear modeling. Journal of the Royal Statistical Society Series B-Methodological, 54:303 -328, 1992.

51. D. Kugiumtzis, O.C. Lingjaerde, and N. Christophersen: Regularized local linear prediction of chaotic time series, submitted to Physica D, 1997.

52. B.A. Huberman and R.M. Lukose: Social dilemmas and internet congestion. Science, 277:535 -537, 1997.

53. Tsunyi Tuan and Kihong Park: Multiple Time Scale Congestion Control for Self-Similar Network Traffic, Network Systems Lab, Department of Computer Sciences, Purdue University, West Lafayette, IN 47907, USA; Preprint submitted to Elsevier Preprint.

54. Henry D.I. Abarbanel: Analysis of Observed Chaotic Data, 1996 Springer-Verlag New York, Inc.

55. D. Kugiumtzis and M.A. Boudourides: Chaotic Analysis of Internet Ping Data: Just a Random Number Generator?, Contributed paper on the SOEIS meeting at Bielefeld, March 27-28, 1998.

56. N.H. Packard, J.P. Crutchfield, J.D. Farmer and R.S. Shaw: Geometry from a time series, Phys. Rev. Lett. 45 (1980), 712.

57. F. Takens: Detecting strange attractors in turbulence in "Dynamical Systems and Turbulence", edited by D. Rand and L.S. Young, Lecture Notes in Mathematics 898 (Springer-Verlag, Berlin, 1981), 366.

58. D.S. Broomhead and G.P. King: Extracting qualitative dynamics from experimental data, Physica 20D (1986), 217.

59. A.M. Albano, J. Muench, C. Schwartz, A.I. Mees, and P.E. Rapp: Singular value decomposition and the Grassberger Procaccia algorithm, Phys. Rev. A38 (1988), 3017.

60. P. Grassberger and I. Procaccia: Characterization of strange attractors, Phys. Rev. Lett. 50 (1983), 346.

61. P. Grassberger and I. Procaccia: Measuring the strangeness of strange attractors, Physica 9D (1983), 189

62. C.D. Cutler: A theory of correlation dimension for stationary time series, Phil. Trans. Roy. Soc. Lond. A348 (1994), 343.

63. C.K. Chui: An Introduction to Wavelets. Academic Press: New York, 1-18(1992).

64. I. Daubechies: Wavelets, Philadelphia: S.I.A.M., 1992.

65. W.H. Press, S.A. Teukolsky, W.T. Vetterling and B.P. Flannery: Numerical Recipies in C: The Art of Scientific Computing, Il-d Edition, Cambridge University Press 1988, 1992.

66. R.W. Preizendorfer: Principal Component Analysis in Meteorology and Oceanography. New York: Elsevier, 1988.

67. I.T. Jolliffe: Principal Component Analysis, New York, Springer-Verlag, 1986.

68. J.E. Jackson: A User's Guide to Principal Component Analysis. John Wiley & Sons: New York 26-62(1992).

69. K. Karhunen: Uber lineare methoden in der Wahrscheinlichkeitsrechnung, Annales Academiae Scientiarum Fennicae, Series Al: Mathematica-Physica 37, 3-79 (Transl.: RAND corp., Santa Monica, CA, Rep. T-131, 1960).

70. M. Loeve: Probability Theory, 3rd ed. New York: Van Nostrand, 1963.

71. S. Haykin: Neural Networks: A Comprehensive Foundation, Prentice-Hall, Inc., 1999.

72. P.D. Wasserman: Neural Computing: Theory and Practice, Van Nostrand Reinhold, 1989.

73. Due Truong Pham and Liu Xing: Neural Networks for Identification, Prediction and Control, Springer-Verlag London Limited, 1995.

74. C. Peterson and Th. Rongvaldsson: JETNET-3.0 A Versatile Artificial Neural Network Package, LU Tp 93-29, 1993.

75. E. Oja: Data Compression, Feature Extraction, and Autoassociation in Feedforward Neural Networks, In "Artificial Neural Networks" (T. Kohonen, K. Makisara, O. Simula and J. Kangas, eds.), Vol. 1, pp. 737-746, Amsterdam, North-Holland, 1991.

76. E. Oja: Nonlinear PC A: Algorithms and Applications, World Congress on Neural Networks, Vol. 2, p. 396, Portland, OR, 1993.

77. P. Baldi and K. Hornik: Neural Networks and Principal Component Analysis: Learning from Examples Without Local Minimum, Neural Networks, vol. 1, pp. 53-58, 1989.

78. A. Lapedes and R. Farber: Nonlinear Signal Processing using Neural Networks: Prediction and System Modeling, Los Alamos Report LA-UR 872662, 1987.

79. P. Akritas, I. Antoniou and V.V. Ivanov: Identification and Prediction of Discrete Chaotic Maps Applying a Chebyshev Neural Network, Chaos, Solitons and Fractals 11 (2000) 337-344.

80. A.N. Kolmogorov: Uber das logarithmisch normale Verteilungsgesetz der Dimensionen der Teilchen bei Zersttickelung, Dokl. Akad. Nauk SSSR, 31, pp. 99-101, 1941.

81. W. Willinger, M.S. Taqqu, W.E. Leland and D.V. Wilson: Self-Similarity in High-Speed Packet Traffic: Analysis and Modeling of Ethernet Traffic Mesurements, Statistical Science, 1995, Vol. 10, No. 1, pp. 67-85.

82. A. Erramilli, P. Pruthi and W. Willinger: Resent Developments in Fractal Traffic Modelling, In: Proc. Inter. Teletraffic Seminar, St.Petersburg, 26 June 2 July, 1995.

83. W.T. Eadie, D. Dryard, F.E. James, M. Roos and B. Sadoulet: Statistical Methods in Experimental Physics, North-Holland Pub.Сотр., Amsterdam-London, 1971.

84. Program Library, CERN Computer Centre, General information, 1989.

85. F. James and M. Roos: MINUIT Function Minimization and Error Analysis, CERN Program Library D506, 1988.

86. R. Brun, O. Couet, C. Vandoni and P. Zanarini: PAW Physics Analysis Workstation, CERN Program Library Q121, 1989.

87. A. Feldmann and W. Whitt: Fitting Mixtures of Exponentials to Long-Tail Distributions to Analyze Network Performance Models, AT&T Laboratory -Research, presented at IEEE INFOCOM'97, Kobe, Japan, April 1997.

88. A. Feldmann, A.C. Gilbert, P. Huang, and W. Willinger: Dynamics of IP traffic: A study of the role of variability and the impact of control, in Proceedings of SIGCOMM, 1999, pp. 301-313.

89. J. Gao and I. Rubin: Multiplicative multifractal modeling of long-rangedependent traffic, in Proceedings of ICC'99, 2001, vol.14, pp.783-801.

90. Vern Paxson and Sally Floyd: Wide-Area Traffic: The Failure of Poisson Modeling, IEEE/ACM Transactions on Networking, 3(3), pp. 226-244, 1995.

91. M.T. Lucas, D.E. Wrege, B.J. Dempsey, and A.C. Weaver: Statistical Characterization of Wide-Area Self-Similar Network Traffic, University of Virginia Technical Report CS97-04, October 9, 1996.

92. M.T. Lucas, B.J. Dempsey, D.E. Wrege and A.C. Weaver: (M,P,S') An Efficient Background Traffic Model for Wide-Area Network Simulation, Department of Computer Science, University of Virginia, Technical Report, 1997.

93. J.I. Sanchez, F. Barcelo and J. Jordan: Inter-arrival Time Distribution for Channel Arrivals in Cellular Telephony, in: Proc. 5-th Int. Workshop on Mobile Multimedia Communication, MoMuc'98, October 12-14 1998, Berlin.

94. N.K. Razumovsky: On a Distribution Character of Metals Contents in Ore Fields, Dokl. Akad.Nauk SSSR, 28, pp. 815-817, 1940 (in Russian).

95. Cinna Lomnitz: Fundamentals of Earthquake Prediction, John Wiley Sz Sons, Inc. 1994.

96. V.I. Keilis-Borok: Symptoms of Instability in a System of Earthquake-Prone Faults, Physica D, 77, pp. 193-199, 1994.

97. J. Aitchison and J.A.C. Brown: The Lognormal Distribution, Cambridge, Univ. Press, Cambridge, 176 pp., 1957.

98. A.N. Kolmogorov: The Local Structure of the Turbulence in Incompressible Viscous Fluid for Very Large Reynolds Numbers, Dokl. Akad. Nauk SSSR, 30, p. 301, 1941.

99. M.S. Taqqu, V. Teverovsky and W. Willinger: Is Network Traffic Self-Similar or Multifractal?, Fractals, 1997. vol.5, pp. 63-73.

100. G. Taubes: Fractals Reemerge in the New Math of the Internet, Science, Vol. 281, pp. 1947-1948, 1998.

101. R. Riedi and J.L. V'ehel: Multifractal properties of tcp traffic: A numerical study, Tech. Rep. 3129, INRIA, Feb. 1997.

102. R.H. Riedi, M.S. Crouse, V.J. Riberio and R.G. Baraniuk: A Multifractal Wavelet Model with Application to Network Traffic, IEEE Trans, on Information Theory, Vol. 45, No. 3, 1999.

103. A.K. Louis, P. Мааб and A. Rieder: : Wavelets. Theory and A pplications, John Wiley & Sons, 1997.

104. M. Vergassola and U. Frisch: Wavelet Transforms of Self-Similar Processes, Physica D 54 (1991) 58-64.

105. S. Mallat: A Wavelet Tour of Signal Processing, Academic Prees, 1999.

106. D.L. Danilov and A.A. Zhigljavsky, Eds.: Principal Components of Time Series: Caterpillar Method, St. Petersburg University Press, 1997 (in Russian).

107. N. Golyandina, V. Nekrutkin, and A. Zhigljavsky: Analysis of time series structure: SSA and related techniques, Chapman & Hall/CRC, 2001.

108. D.S. Broomhead and G.P. King: Time-series Analysis, Proc. Roy. Soc. London, 423, 103-110 (1989).

109. R. Vautard, P. Yiou and M. Ghil: Singular Spectrum Analysis: A Toolkit for Short, Noisy Chaotic Signals, Physica D, 58, 95-126 (1992).115. "CATERPILLAR"Version 1.00. Copyright 1997 Caterpillar Group. Program for time series analysis.

110. I. Antoniou, V.V. Ivanov, Valery V. Ivanov, and P.V. Zrelov: On the Log-Normal Distribution of Network Traffic, Physica D 167 (2002) 72-85.

111. G.V. Martinov: Omega-squared criteria, Moscow, "Nauka", 1978 (in Russian).

112. N.R. Lomb: Astrophysics and Space Science, vol. 39, 1976, pp. 447-462.

113. J.D. Scargle: Astrophysical Journal, vol. 263, 1982, pp. 835-853.

114. J.H. Home and S.L. Baliunas: Astrophysical Journal, vol. 302, 1986, pp. 757763.

115. S.G. Mallat: IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 11, pp. 674-693, 1989.

116. D. Donoho, I. Jonhstone, G. Kerkyacharian and D. Picard: Density Estimation by Wavelet Thresholding, Technical report, Department of Statistics, Stanford University, 1993.

117. G.P. Nason and B.W. Silverman: The discrete wavelet transform in S, Journal of Computational and Graphical Statistics, vol. 3, pp. 163-191, 1994.

118. E.L. Crow, K. Shimizu (eds.): Lognormal Distributions. Theory and Applications, Marcel Dekker, Inc., New York, 1988.

119. D. Dasgupta: 'An Overview of Artificial Immune Systems and Their Applications, In: Artificial Immune Systems and Their Applications, Springer-Verlag Berlin Heidelberg 1999, 3-21, 1999.

120. D. Dasgupta and Nii Attoh-Okine: Immunity-Based Systems: A Survey, In: Proc. of the IEEE Int. Conf. on Systems, Man, and Cybernetics, Orlando, October 12-15, 1997.

121. I. Antoniou, V.V. Ivanov, R.V. Polozov, E. Yarevsky and P.V. Zrelov: Methods and Algorithms for Identification of Rare Events, JINR Communications, Ell-2003-189, Dubna, Russia, 2003, 18 pp.

122. N.K. Jerne: "The Immune SystemScientific American, 229(1): 52-60, 1973.

123. R.A. Goldsby, T.J. Kindt and B.A. Osborne: Kuby Immunology, 4th ed., W.H. Freeman and Company, (2000).

124. J.K. Inman, The antibody combining region: Speculations on the hypothesis of general multispecificity, Theoretical Immunology, 1978.

125. S. Tonegawa, Somatic generation of antibody diversity, Nature, 302: 575581, 1983.

126. D.G. Osmond, The turn-over of B-cell populations, Immunology Today, 14(1): 34-37, 1993.

127. S. Forrest, A.S. Perelson, L. Allen, and R. Cherukuri: Self-Nonself Discrimination in a Computer. In: Proc. of IEEE Symposium on Research in Security and Pravicy, pp. 202-212, Oakland, CA, 16-18 May 1994.

128. P. D'haeseleer: "An immunological approach to change detection: theoretical resultsIn Proc. of IEEE Symposium on Research in Security and Privacy, Oakland, CA, May 1996.

129. P. D'haeseleer, S. Forrest and P. Helman: "An immunological approach to change detection: algorithms, analysis and implicationsIn Proc. of IEEE Symposium on Research in Security and Privacy, Oakland, CA, May 1996.

130. S. Forrest, S. Hofmeyr, A. Somayaji, and T. Longstaff: A sense of self for UNIX processes. In: Proc. of the 1996 IEEE Symposium on Computer Security and Pravicy, IEEE Press, 1996.

131. S. Hofmeyr, and S. Forrest: Immunizing Computer Networks: Getting All the Machines in Your Network to Fight the Hacker Disease. In: Proc. of the 1999 IEEE Symposium on Computer Security and Pravicy, IEEE Press, 1999.

132. D. Dasgupta and S. Forrest: "Tool Breakage Detection in Milling Operations using a Negative-Selection Algorithm", Technical Report CS95-5, Department of Computer Science, University of New Mexico, 1995.

133. The State University "Dubna": http://www.uni-dubna.ru.

134. V.V. Ivanov et al: System for Acquisition, Analysis and Control of Network

135. Traffic for the JINR Local Network Segment: the "Dubna" University Example, JINR Communications, Dubna, 2001 (to be submitted).

136. P. Akritas, P.G. Akishin, I. Antoniou, A.Yu. Bonushkina, I. Drossinos, V.V. Ivanov, Yu.L. Kalinovsky, V.V. Korenkov and P.V. Zrelov: Nonlinear Analysis of Network Traffic, "Chaos, Solitons к Fractals", Vol. 14(4) (2002) pp.595-606.

137. I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Statistical Model of Network Traffic, V Int. Congress on Mathematical Modeling,

138. September 30-0ctober 6, 2002, Book of abstracts, Vol. I, p. 138, Dubna, Moscow region, Russia, 2002.

139. I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Statistical Model of Network Traffic, DAAD Summerschool on Traffic and Econophysics, Dubna, Russia, July 28 August 17, 2003.

140. I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Statistical Model of Network Traffic, XIX International Symposium on Nuclear Electronics & Computing, NEC'2003, September 15-20, 2003, Varna, Bulgaria, Book of abstracts, Dubna, 2003, p. 14.

141. I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Principal Component Analysis of Network Traffic, In: Proc. of I-st Int. Conf. on "Mathematics and Informatics for Industry", Mil 2003, 14-16 April 2003, Thessaloniki, Greece, pp. 170-181.

142. I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Wavelet Filtering of Network Traffic Measurements, JINR Communication, Ell-2002-223, JINR, Dubna, RUSSIA, 2002, 21pp.; Physica A 324 (2003) 733-753.

143. I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Statistical Model of Network Traffic, JINR Communication, Ell-2002-222, JINR, Dubna, RUSSIA, 2002, 38 pp.

144. I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Principal Component Analysis of Network Traffic Measurements, Preprint JINR, Ell-2003-148, JINR, Dubna, RUSSIA, 2003, 19 pp.

145. I. Antoniou, V.V. Ivanov, Valery V. Ivanov and P.V. Zrelov: Statistical Model of Network Traffic, "Particles & Nuclei", 2004, Vol. 35, issue 4, pp. 9841019.

146. I. Antoniou, Victor V. Ivanov, Valery V. Ivanov, Yu.L. Kalinovsky and P.V. Zrelov: On a Kinetic Model of the Internet Traffic, "Discrete Dynamics in Nature & Society", 2004:1 (2004) 19-34.

147. Я. Антониоу, П.В. Зрелов, В.В. Иванов, Валерий В. Иванов, Ю.Л. Ка-линовский: Статистическая и кинетическая модели сетевого трафика, Новости ОИЯИ, 3/2004, стр. 32-35.