автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Алгоритмы статистической обработки информации в системах передачи данных

кандидата технических наук
Бугай, Алена Ивановна
город
Москва
год
2003
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритмы статистической обработки информации в системах передачи данных»

Автореферат диссертации по теме "Алгоритмы статистической обработки информации в системах передачи данных"

На правах рукописи

Бугай Алена Ивановна

АЛГОРИТМЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ИНФОРМАЦИИ В СИСТЕМАХ ПЕРЕДАЧИ ДАННЫХ

Специальность 05.13.01 «Системный анализ, управление и обработка

информации»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва 2003

Работа выполнена на кафедре «Прикладная математика и компьютерное моделирование» Российского государственного университета нефти и газа

им. И.М. Губкина

Научный руководитель:

доктор технических наук, профессор Ретинская И.В.

Официальные оппоненты:

доктор технических наук, профессор Пярнпуу А.А. кандидат технических наук Антошина И.В.

Ведущая организация:

Защита состоится «23» декабря 2003 г. в ауд. 202 в 15°° на заседании диссертационного совета Д212.200.09 при Российском государственном университете нефти и газа им. И.М. Губкина, по адресу: 119991, г. Москва, Ленинский проспект, 65.

С диссертацией можно ознакомится в библиотеке Российского государственного университета нефти и газа им. И.М. Губкина

Автореферат разослан '¿.1 ¿сОегЗ/ОЛ 2003 г.

Государственный научно-исследовательский институт информационных технологий и телекоммуникаций (ГНИИ ИТТ «Информика»)

Ученый секретарь диссертационного совета Д212.200.09, д.т.н., проф.

-з-

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. В современных условиях появляются все новые виды систем передачи данных. Одним из видов сложных систем передачи данных являются научно - образовательные сети (ГШЫ1Ме(, ЯВ№1, Р11ЕЕпе1, ЯЕЬАЮ^МР и др.), которые получили свое развитие в России в течение последних десяти лет. Особенностями этих сетей являются: постоянное увеличение числа пользователей; передача большого количества учебной и научной информации, значительная часть которой является мультимедийной; необходимость обеспечения современных видов учебной деятельности в режиме реального времени; попытки несанкционированного доступа. Все это предъявляет повышенные требования к пропускной способности каналов, приводит к перегрузке сети и, как следствие, к потере связи между клиентами и серверами. Перегрузку можно предотвратить с помощью системы поддержки принятия решений сетевого администратора, одним из основных элементов которой является блок сбора и обработки информации по отдельным характеристикам сети. Поэтому построение алгоритмов обработки информации для этого блока является весьма актуальной задачей. При ее решении возникает ряд трудностей, в частности, определение набора функциональных характеристик сети, построение адекватных моделей, анализ больших объемов информации и отсутствие специализированных алгоритмов для ее обработки.

В данной работе предлагаются алгоритмы, основанные на обработке статистической информации о функционировании сети и определении нормального режима работы сети. Выявление и предсказание отклонений от этого режима необходимы для администратора сети как сигнал о возникновении нештатной ситуации и необходимости изменения конфигурации сети. Рассматриваются вопросы, связанные с конкретной системой передачи данных, а именно, с обработкой информации о функционировании научно-образовательных сетей.

Работа выполнена при поддержке грантов РФФИ № 02-07-90026, 03-07-

06004.

- 4 -Цель работы

Целью исследования является разработка алгоритмов статистической обработки информации по ряду характеристик функционирования систем передачи данных на примере научно-образовательных сетей.

Поставленная цель достигается решением следующих основных задач:

1. Определением набора функциональных характеристик глобальных сетей, созданием процедур сбора и обработки информации по этим характеристикам.

2. Идентификацией и моделированием информационных потоков.

3. Разработкой алгоритмов на основе модифицированных вычислительных методов и моделей с целью прогнозирования работы сети.

4. Исследованием реальных информационных потоков в системах передачи данных.

Решение поставленных задач потребовало привлечения методов исследования, базирующихся на методах системного анализа, анализе временных рядов: регрессионном анализе, спектральном анализе, адаптивных методах краткосрочного прогнозирования, вычислительной математике, математической статистике.

Научная новизна. Получены следующие научные результаты:

1. Разработаны алгоритмы предварительной обработки информации о показателях функционирования системы передачи данных и представления ее в виде временного ряда и случайной последовательности.

2. Предложена математическая модель поступления информации в системах передачи данных и исследованы ее составляющие.

3. Разработаны критерии идентификации аномальных наблюдений при поступлении и передаче информации в системах передачи данных.

4. Созданы алгоритмы и программы статистической обработки информации о функционировании систем передачи данных, используемые для прогнозирования работы сети.

-55. В результате исследования реальных информационных потоков в системе передачи данных определены конкретные составляющие (доминантные периодические составляющие, параметры регрессионных моделей и случайной составляющей) для модели поступления информации за единицу времени.

Достоверность научных результатов и выводов, сформулированных в диссертации, определяется корректным применением информационных технологий и методов математической статистики, статистического анализа временных рядов. При этом теоретические расчеты согласовывались с экспертами в области сетевого администрирования и информационных технологий.

Практическая значимость и реализация результатов работы.

Практическая ценность полученных результатов определяется тем, что на ее материалах разработаны комплексы лабораторных работ для учебного процесса РГУ нефти и газа имени И.М. Губкина, Московского государственного университета леса, а также результатами опытной эксплуатации при администрировании научно-образовательной сети Я1ЖЫе1.

На защиту выносятся:

1) алгоритмы предварительной обработки информации о загрузке канала системы передачи данных, преобразующие данные в случайную последовательность и временной ряд;

2) математическая модель поступления информации о загрузке канала системы передачи данных за единицу времени;

3) алгоритмы оценки компонентов модели, использующие разработанные способы удаления периодической составляющей, методику повышения значимости регрессионной модели и идентификации аномальных наблюдений.

Апробация работы. Основные результаты диссертации были представлены и обсуждены на следующих конференциях: XXVIII Международной конференции 1Т+8Е'2001 (20-29 мая 2001г., Украина, Крым,

Ялта-Гурзуф); Международной научно - методической конференции Телематика' 2001 (18- 21 июня 2001 г., Санкт-Петербург); 8-ой Межвузовской научно-методической конференции «Информационные технологии и фундаментализация высшего образования», (Москва: РГУ нефти и газа им. И.М. Губкина, 21 февраля 2002 г.); Международной конференции «Информационно- телекоммуникационные технологии в образовании - 2002» (23 -24 мая 2003 г., Москва); Всероссийской научно - методической конференции «Телематика' 2002» (3- 6 июня 2002 года, Санкт-Петербург); 5-ой научно-технической конференции «Актуальные проблемы состояния и развития нефтегазового комплекса России» (РГУ нефти и газа им. И.М. Губкина, 23 - 24 января 2003 г., Москва); Всероссийской научно-практической конференции (25-28 февраля 2003 года, Петрозаводск); X Всероссийской научно - методической конференции «Телематика' 2003» (14- 17 апреля 2003 г., Санкт-Петербург); Международной конференции «Информационно-телекоммуникационные технологии в образовании - 2003» (20-21 мая 2003г., Москва); XI Международной студенческой школе- семинаре «Новые информационные технологии» (май 2003 г.).

Публикации. По теме диссертации опубликованы 14 печатных работ.

Объем ваботы. Диссертация включает ПО страниц, 32 рисунка, Л таблиц и состоит из введения, 4 глав, заключения, списка литературы, £ приложений. В приложении к диссертации представлены документы о внедрении результатов работы. Библиография содержит 124 наименования.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обосновывается актуальность диссертационного исследования, представлена цель работы и ее основные задачи. Дано краткое описание объекта исследования и сформулированы основные положения диссертации, выносимые на защиту.

р первой главе рассматриваются основные требования, предъявляемые к компьютерным сетям как одному из видов систем передачи данных и средства анализа и управления ими.

Перечисляются основные показатели функционирования сетей, такие как производительность, надежность и безопасность, совместимость, управляемость, расширяемость и масштабируемость. Обсуждается такое понятие как «качество обслуживания» (С^оБ) компьютерной сети, которая трактуется более узко - в него включается только две самые важные характеристики сети - производительность и надежность. С^оБ определяет, какая сетевая полоса пропускания должна быть назначена трафику каждого конкретного приложения и как следует управлять ею.

Далее описаны средства анализа и управления сетями, их основные особенности. Кроме того, проведен анализ методов моделирования для оптимизации загрузки сети (такие как имитационное моделирование, модели теории массового обслуживания и др.). Анализируются специализированные методы имитационного моделирования, особенностью которых является генерация модели сети на основе исходных данных о ее топологии и используемых протоколах, интенсивностях потоков запросов между компьютерами сети, протяженности линий связи, типах используемого оборудования и приложений. Отмечены трудности, возникающие при получении такого рода информации и использовании соответствующих программных пакетов.

Далее в диссертационной работе проанализированы методы выявления сбоев в работе сети, используемые в настоящее время.

Во второй главе рассматриваются характеристики, отобранные для анализа работы сети, технология и особенности сбора данных о функционировании сети.

Отмечено, что для проведения статистического анализа необходимо вначале определить основные характеристики функционирования сети, собрать статистику по данным характеристикам, выявить особенности процессов, происходящих при работе каналов, и разработать либо модифицировать вычислительные алгоритмы с целью прогнозирования работы сети.

На примере исследования сетевого трафика научно-образовательной сети RUNNet было предложено рассмотреть следующие характеристики: загрузка канала на входе и выходе (байт); число пакетов на входе и выходе; число ошибок в их регистрации; загрузка процессора (% от 100); объем свободной памяти процессора и системы ввода-вывода для маршрутизатора (байт). В зависимости от использования технологии передачи данных и от поставленных задач этот перечень характеристик может трансформироваться.

Далее в диссертационной работе подробно рассмотрена система сбора информации с помощью простого протокола управления сетью SNMP (Simple Network Management Protocol) и базы данных управляющей информации М1В (Management Information Base), показаны преимущества и особенности этой системы сбора информации. Проведен сравнительный анализ технологий передачи данных (ATM, Fast Ethernet) и методов анализа данных о функционировании каналов систем передачи данных, таких как декодирование протоколов, экспертный анализ. Показано, что наиболее адекватным методом обработки такой информации является статистический анализ.

Далее описаны алгоритмы преобразования исходной информации. Данные о функционирования некоторых каналов научно-образовательной сети RUNNet регистрировались с помощью четырехбайтовых счетчиков с интервалом 5 мин., накапливающих информацию в течение некоторого случайного отрезка времени. При переполнении счетчиков происходит их «обнуление» (или сброс), что приводит к пилообразное™ в представлении данных (рис. 1) и не позволяет

напрямую использовать известные методы статистической обработки информации. В работе предлагаются алгоритмы обработки данных, позволяющие устранить это ограничение.

Первый алгоритм предполагает анализ непосредственно первоначальной информации накопительного типа. Здесь случайной величиной является момент «обнуления» счетчика начиная от предыдущего обнуления.

где / -номер наблюдаемой характеристики;

показание счетчика в момент времени; /;- дискретный момент времени, который считается так формуле /;=_/'-Д где }=1 т// - количество наблюдений, Л - интервал времени между наблюдениями (в данном случае равен 5 мин.);

Л '0]) - булева переменная, сумма значений которой дает число сбросов и счетчика за наблюдаемый временной период.

В данном алгоритме необходимо зафиксировать моменты обнуления счетчика и /* - интервал времени между «обнулениями», для вычисления 1ср, к, -среднего времени между «обнулениями».

где пк -число сбросов за к- период.

Распределение среднего времени между сбросами счетчика на временной оси показывает динамику изменения интервалов времени между сбросами. И это позволяет проследить вариации интенсивности загрузки канала в зависимости от времени суток.

Более подробный анализ потоков пилообразных сигналов затруднен тем, что точные моменты сброса счетчиков неизвестны.

Поэтому был предложен алгоритм, основанный на использовании метода разностей первого порядка с учетом порогового значения счетчика в случае

1, если Щ) < ) и Щ)<Р(/у+,; О, в противном случае

¡ср. к. = (£'к)/пк

(2)

отрицательного значения разности, который преобразует пилообразный сигнал в случайную последовательность с равными интервалами времени Л. (рис, 2).

Р (/у) - показания счетчика в /, момент времени, х(>у - накопленная счетчиком информации за интервал Л. С помощью данного алгоритма были проанализированы все перечисленные выше характеристики сетевого трафика и выявлены основные особенности временного ряда, а именно: нестационарность, неоднородность, периодичность, сложная форма периодического сигнала. Кроме того, обнаружено, что формы сигналов ближе к трапециевидным с явно выраженным «плато» в области максимальных загрузок; количество выбросов (явно выпадающих точек) больше при максимальных загрузках. Также оказалось, что разброс данных для максимальных загрузок больше, чем в периоды снижения загрузок, наблюдается существенная разница в загрузках канала в выходные и рабочие дни. Из-за перечисленных особенностей поступающей информации нельзя использовать классические методы анализа временных рядов и требуется их модификация.

В результате анализа из множества характеристик канала связи был выделен наиболее существенный параметр - загрузка каналов. Анализ загрузки каналов дает полную информацию об их стабильности и надежности, что позволяет эффективно управлять каналами, находить узкие места и делать прогнозы о дальнейшем расширении канала или сети. Статистический анализ остальных характеристик сетевого трафика принципиально не отличается от анализа загрузки каналов сети, но имеет свои особенности, определяемые сутью измеряемой величины, Поэтому под анализом сетевого трафика было предложено понимать объем ииформации, проходящий по каналу системы передачи данных, т.е. загрузку канала за определенную единицу времени.

если Р(1,)-Р({н)>0 Р,^ + ) - РОн ), если Р(1,) - Р(1Н ) < О

(3)

Рис, 1 Загрузка канала с интерфейсом ATM 1/0 за 1-е сутки

Рис. 2 Динамика загрузки канала на входе интерфейса ATM (количество информации, пришедшей за 5 мин.)

ц*

Рис. 3 Изменение средних значений загрузок канала

т

W

Рис.4 Монотонное линейное изменение загрузки канала (тренд

Рис. 5 Изменение средних значений параметров («скачок» средних)

Рис. 6 Динамика загрузки канала с ан о м ал ьн ы м н н абл ю д ен и я м и

- 12В третьей главе анализируется структура временных рядов, модель, описывающая поступление информации за единицу времени; алгоритмы анализа составляющих модели; метод прогнозирования загрузки канала на короткий период.

Проведен сравнительный анализ различных статистических пакетов (таких как STATISTIKA, SPSS, ЭВРИСТА) для обработки временных рядов. Показана проблематичность использования описанных методо-ориентированных пакетов для решения поставленных в диссертационной работе задач.

В результате изучения загрузки сетевого трафика сформулированы направления статистического анализа:

1. Получение основных вероятностных и статистических характеристик для объемов информации, поступающей за определенные промежутки времени (средних значений и диапазонов изменчивости загрузок канала за относительно непродолжительные отрезки времени, установление вариабельности средних загрузок за длительные периоды времени и т.д.).

2. Построение математических моделей, описывающих поток объема информации в зависимости от момента времени t для прогнозирования работы каналов сети и определение моментов или сроков опасного приближения загрузок каналов к предельным значениям, определенным пропускной способностью. В этом случае необходимо будет принимать решение о модернизации сети или об изменении ее конфигурации.

Была предложена математическая модель для описания поступления и передачи информации по каналам сети в режиме нормальной работы (так называемый нормальный профиль работы сети), которая включает три составляющие:

У(0 =/(0+8(0+£(0 (4)

где/(0 - тренд, медленно меняющаяся во времени функция, описывающая изменения среднесуточных (средненедельных) загрузок за интервалы времени большие, чем суточная периодичность;

g(t) - периодическая составляющая, которая может быть описана конечным рядом Фурье, построенным по экспериментальным данным величин загрузок;

е(1) - случайная последовательность, относительно которой делается предположение о равенстве нулю ее математического ожидания M[e(tJJ=Q и с дисперсией

Описаны методы исследования составляющих модели, Результаты анализа составляющих модели представлены в главе 4.

Обнаружено, что для изучаемого объекта типичны следующие виды изменения в характере поведения системы:

1) более или менее регулярное изменение средних значений загрузок канала (рис. 3);

2) монотонное линейное изменение загрузки канала до некоторого порогового значения - тренд (рис. 4);

3) резкое изменение средних значений параметров загрузки канала (скачок средних значений) (рис. 5);

4) аномальные значения, т.е. события, связанные с поступлением за короткий промежуток времени чрезмерно большого или малого количества информации (рис. 6).

Аномалии в поведении трафика определяются характером сбоя сети и могут представлять собой, например, необоснованный рост или падение интенсивности трафика, изменения в характере трафика, чрезмерное повышения интенсивности использования отдельных частей сети и т.п. Критерии, позволяющие идентифицировать аномальные значения в поведении исследуемого объекта, описаны в главе 4.

В диссертационной работе сформулированы следующие рекомендации. При прогнозировании среднесуточных загрузок канала необходимо контролировать первые три типа изменения в поведении системы. Если обнаружено, что наблюдаются более или менее регулярное изменение средних значений загрузок канала, то следует применять метод скользящего среднего и метод экспоненциального среднего. При обнаружении монотонного линейного

иэменения загрузки канала предложено применять процедуру, основанную на регрессионном анализе (после удаления периодических составляющих) и модификацию этого метода с использованием окон и скользящего среднего. Для обнаружения скачков средних значений в загрузках канала разработана процедура экспоненциального сглаживания с привлечением анализа значимого превышения получающихся значений над средними значениями предыдущего отрезка ряда.

Р четвертой главе представлены результаты анализа модели (4) на реальных данных с использованием разработанных программ «Роутер» и АЯ№Г.

Ряд трудностей, связанных с обработкой больших массивов данных (длина ряда составляет сотни тысяч данных), был преодолен при разработке двух программ: «Роутер» - для статистического анализа данных на основе долговременной статистики и «АБШТ» - для спектрального анализа. Программы включают в себя алгоритмы, предложенные в диссертационной работе, и учитывают особенности процесса. Эти программы составляют собой блок сбора и обработки информации системы поддержки принятия решения для сетевого администратора. Программа «Роутер» содержит разработанные алгоритмы исключения влияния тренда и периодической составляющей. В программе реализован многооконный интерфейс, позволяющий анализировать данные большой размерности, при визуализации данных реализована возможность масштабируемости временного отрезка.

Программа АР1ЫТ позволяет проводить спектральный анализ и прогноз с использованием основных гармоник периодической составляющей. В нее также вошли методы идентификации и удаления аномальных наблюдений. С помощью данных программ был проведен анализ составляющих модели (4).

При анализе компонентой модели (4) в первую очередь существенное внимание было уделено выявлению доминирующих периодических компонент. Для этого в работе был использован спектральный анализ, основанный на разложении данных в ряд Фурье. Как показали соответствующие расчеты, для

всех исследуемых характеристик в значениях временных: рядов доминирующими частотами являлись суточные и недельные колебания (с=м, табл. 1). Полученные результаты хорошо согласуются со здравым смыслом, отражающим практику человеческой активности, В связи с этим три дальнейшем анализе компонентов модели следует учитывать наличие суточной составляющей, а при выборе средств обработки данных - наличие и звеличи иу других колебаний.

Было обнаружено, что подлежащий изучению тренд с течением времени гладко возрастает или убывает, но не повторяется регулярным образом. В данном случае исследуемый тренд является функцией времени, Аппаратом исследования данной функции является классический регрессионный анализ при условии исключения периодической составляющей. Чтобы выделить регулярный тренд на фоне сильной периодичности применялось агрегирование данных с периодом, равным основной гармонике и последующим применением метода скользящего среднего.

Для анализируемых характеристик были получены регрессионнь-ле уравнения, вида:

где/(¡¡) - среднесуточная загрузка канала,

I, - время.

Для получения корректных результатов использовались сжсользяи*.ие окнса, Ширина окна равна минимум одной неделе, а максимум четырем неделям - джжя анализа Фурье. При моделировании тренда - ширина окна равна мшшувумдвум неделям, а максимум четыре недели.

Корректный анализ случайной составляющей возможен гари исключение.и периодической составляющей и тренда,

Метод конечных разностей 1-го и 2-го порядка позволяет исжлючить влияние тренда, если он описывается полиномом не выше 2-го порядка.

• разность первого порядка:

¿и(0=и(!+1)-и(0 (<5)

-16-

где и(0 - среднечасовые загрузки канала, • разность второго порядка:

А2и(1)= А(А и(!))=(Р-1)2 и(()=и0+2)-2-и(1+1)+ и(1') (7)

Влияние суточной составляющей удалось исключить применением метода конечных разностных операторов для среднечасовых загрузок канала с шагом, равным 24.

Л24и(1)= и(1+24)-и(0~Я(0 (8)

Влияние второго периода, равного 7 суткам, исключается с помощью разностного оператора следующего вида:

А,68(А24и(0)= А1МЯ(0=Я(1+]68)-Я(0=Л •(') (9)

Для ряда Я(0 применяется метод конечных разностей с шагом, равным 168 наблюдений. В результате получен ряд Л '(I).

Применение модифицированного метода конечных разностей позволило получить хороший материал для анализа событий, связанных с поступлением за короткий промежуток времени чрезмерного большого или малого количества информации - т.е. аномальных наблюдений.

В результате проведенного анализа выявлено, что случайная составляющая состоит из суммы двух компонент: шумовой случайной последовательности ф) за одинаковый интервал времени / и т}(т) дискретной случайной величиной в случайный момент времени г, т.е. аномальных наблюдении.

{Л., при т = г,

' ' . (Ю)

О, в противном случае где Л/ - амплитуда аномального значения, т, -случайный момент времени аномального значения. Далее представлены критерии идентификации аномальных наблюдений на основе метода агрегирования данных, конечных разностных операторов и критерия резко выделяющихся наблюдений.

Было обнаружено, что среднесуточные загрузки каналов не одинаково распределены как при рабочих и выходных днях, так и по дням недели. Эту неравномерность рекомендовано учитывать в дальнейшем анализе при

обнаружении аномальных загрузок каналов. Поэтому было предложено осуществлять поиск выбросов для каждого дня недели по отдельности, учитывая изменения среднего значения и дисперсии для наблюдаемого дня. Чтобы выполнить данное требование, предложено находить максимальные оценки математического ожидания и дисперсии для каждого /-го дня недели.

При использовании метода агрегирования данных выбросами предложено называть загрузку канала, которая превышает на два стандартных отклонения максимальные среднечасовые загрузки канала за сутки:

X1 > х'ти + 2 а' ,, 1Ч

тах 1 (11)

где х' - загрузка канала при / -тых сутках;

х'ти - максимальная среднечасовая загрузка канала за / - сутки;

а 1« _ стандартное отклонение при максимальной среднечасовой загрузке канала за / - тые сутки.

Использование модифицированного метода конечных разностных операторов позволяет применить для отсечения выбросов известные статистические критерии и методы, использующие нормальное распределение. Выбросами названы значения \и.'(0\ за /-тые сутки, которые больше в 1,7+3 раза максимального среднеквадратического отклонения среднечасовых загрузок загрузки канала за / - ые сутки.

Использование критерия резко выделяющихся наблюдений позволяет контролировать выбросы в режиме реального времени. Для данного критерия выбирается п - размер наблюдаемого окна, затем в каждом окне строится

вариационный ряд {т]ь т}2.....т}„} и находится безразмерная величина которая

вычисляется по следующей формуле:

^ = ~ , (12) V . - Ч .

Выбросом будет считаться наблюдение, у которого При уровне

значимости 0,05 £кр =0,7. Размер окна был взят равным 15 мии, в нашем случае интервал 15 минут соответствует трем наблюдениям.

Описанные критерии идентификации аномальных наблюдений включены в программы «Роутер» и AFINT. Для удаления аномальных наблюдений применена линейная аппроксимация двух случайных величин. Рекомендовано применение повторного проведения процедур уточнения компонентов модели (4) после исключения аномальных наблюдений.

В диссертационной работе представлены результаты применения метода экспоненциального сглаживания для прогнозирования среднесуточных загрузок канала на короткий период при установленных оптимальных значениях параметров сглаживания и первого значения прогноза. Выявлена хорошая адаптация метода экспоненциального сглаживания к изменениям в поведении временного ряда при прогнозировании среднесуточных загрузок канала на короткий период.

По разработанным алгоритмам и программам проведен анализ работы каналов научно-образовательной сети RUNNet (таких как spb-gw.RUNNet.ru, m9_ix.RUNNet.ru, международного канала ru-gw.RUNNet.ru); выявлены их особенности. В табл. 1 представлены основные результаты исследования для загрузки канала ATM интерфейса spb-gw.RUNNet.ru. В диссертационной работе представлен более подробный анализ модели (4) и динамика изменения загрузок анализируемых каналов, результаты прогнозирования среднесуточных загрузок канала на короткий период. Даны рекомендации, которые следует учитывать при дальнейшем проведении анализа работы каналов данной сети с различными интерфейсами.

Таблица 1 Фрагмент результатов исследования для загрузка канала ATM

интерфейса spb-gw.RUNNet.ru

Наблюдаемая характеристика загрузка канала ATM интерфейса spb-Kw.RUNNet.ru

Единицы измерения байт

Пропускная способность канала 155 Мб/с

Интервал времени Л 5 минут

Наблюдаемый период: начальная дата 1.04.2002

конечная дата 28.04.2002

Статистические характеристики:

Оценка математического ожидания 2.054Е+09

Оценка стандартного отклонения 7,865Е+08

Анализ компонентов модели УО) ~ /(7)+к(0+е(0

1) Основные характеристики периодической составляющей - ц(0

№ Период, Т час Период, Т сут Плотность р\ % Интегральный показатель %

1. 24,0 1,0 60,568

2. 168,0 7,0 5,661 66,2

3. 12,0 0,500 4,668 70,9

4. 84,0 3,5 2,918 73,8

5. 21,0 0,875 1,823 75,6

6. 33,6 1,4 1,704 77,3

7. 28,0 1,167 1,694 79,0

8. 18,6 0,778 1,216 80,3

2) Анализ тренда: /(t ) - + fit ■ t

Множественный R Стандартная ошибка Уравнение регрессии

0,1215 3.12Е+08 2,12Е+09-4.26Е+06*/

3) Анализ случайной составляющей - е(0

закон распределения: нормальный

аномальные значения:

№ дата время амплитуда выброса

1. 01.04.02 17:15 3.322Е+09

2. 01.04.02 17:20 3.544Е+09

3. 03.04.02 14:10 3.785Е+09

4. 05.04.02 8:05 3.805Е+09

5. 10.04.02 13:35 3.534Е+09

-20В заключении изложены основные результаты и выводы по диссертационной работе.

В приложении представлены акты об использовании результатов диссертационной работы, графики некоторых характеристик функционировании сети; инструкции по использованию программ «Роутер» и AFINT; методическое пособие по проведению спектрального анализа с использованием возможностей Microsoft Excel на примере данных о добыче нефти; словарь используемых в диссертационной работе терминов и структура базы данных управляющей информации МЮ.

Основные результаты работы

1. Разработаны алгоритмы преобразования исходной информации о загрузке каналов системы передачи данных и представления ее в виде временного ряда и случайной последовательности, позволяющие провести статистический анализ характеристик работы сети.

2. Предложена математическая модель для описания нормального режима работы сети и исследованы ее составляющие: выявлены основные гармоники периодической составляющей; разработана методика повышения значимости регрессионной модели при выделении тренда; разработана модифицированная методика исключения влияния основных гармоник и тренда с помощью метода конечных разностных операторов.

3. Предложены критерии для выявления аномальных наблюдений при поступлении и передаче информации по каналам систем передачи (основанные на методе агрегирования данных, модифицированном методе конечных разностных операторов и критерии резко выделяющихся наблюдений) с целью их последующего исключения из модели нормального режима работы сети.

4. Установлена эффективность применения метода экспоненциального сглаживания для прогнозирования среднесуточных загрузок канала на короткий срок при использовании предложенных в диссертационной работе параметров (сглаживания и первого значения прогноза).

5. Исследованы особенности трафика научно-образовательной сети ШЖЫе1 и даны рекомендации по проведению анализа работы каналов сети с различными интерфейсами (учет количества гармоник в разложении периодической составляющей, учет «зашумленности», учет приближения к пороговому значению по пропускной способности).

Основные положения диссертации опубликованы в следующих

работах:

1. Бугай А.И. К вопросу об анализе информационных потоков в глобальных сетях. /Информационные технологии в науке, образовании, телекоммуникации, бизнесе: Труды XXVIII Международной конференции 1Т+8Е'2001, 20-29 мая 2001г., Украина, Крым, Ялта-Гурзуф, с. 121-123

2. Бугай А.И., Скуратов А.К. Исследование информационных потоков в сети ЛиЫЫе!. /Труды Международной научно - методической конференции Телематика' 2001, 18- 21 июня 2001 г., Санкт-Петербург, Изд-во СПбГТУ, с. 29-30

3. Бугай А.И. Некоторые аспекты исследования статистической информации о загрузке каналов сети. /Информационно телекоммуникационные технологии в образовании - 2002: Материалы международной конференции «ИТТО - 2002», 23 -24 мая 2002 г., М: Изд-во СГУ, 2002, с. 220 -222

4. Бугай А.И., Калинина Э.В., Ретинская И.В. Мониторинг телекоммуникационных сетей на основе статистического подхода. /Материалы 8-ой межвузовской научно-методической конференции «Информационные технологии и фундаментализация высшего образования», 21 февраля 2002 г., М.: РГУ нефти и газа им. И.М. Губкина, 2002, с. 86-88

-225. Бугай А.И., Калинина Э.В., Ретинская И.В., Скуратов А.К. Моделирование некоторых характеристик научно-образовательных сетей методами математической статистики. /Труды Всероссийской научно - методической конференции Телематика' 2002, 3- 6 июня 2002 года, Санкт-Петербург, изд-во СПбГТУ, с. 213- 214

6. Бугай А.И., Калинина Э.В., Ретинская И.В., Скуратов А.К. Статистический анализ информационных потоков в глобальных сетях. /Информационные технологии, №1, 2002. Изд-во «Машиностроение», «Информационные технологии, 2002, с. 11-15

7. Бугай А.И., Барашкин PJL Моделирование загрузки каналов на примере научно - образовательных сетей. /Актуальные проблемы состояния и развития нефтегазового комплекса России: Тезисы докладов 5-ой научно-технической конференции РГУ нефти и газа им. И.М. Губкина, 23-24 января 2003, с. 267

8. Бугай А.И., Калинина Э.В., Ретинская И.В., Скуратов А.К. Некоторые особенности моделирования сетевого трафика. /Теоретические основы информатики и ее приложений: Сб. ТЗЗ научных трудов/ Под ред. проф. А.А Сытникова. Саратов; Изд-во Сарат. Ун-та 2003, вып 5, с. 30-41

9. Бугай А.И., Калинина Э.В., Домрачев В.Г., Скуратов А.К. Методика статистического анализа аномальных наблюдений для сетевого трафика. /Труды X Всероссийской научно - методической конференции Телематика' 2003 в 2-х томах, 14-17 апреля 2003 г., Санкт-Петербург, изд-во СПбГТУ, том 2, с. 248-249

10. Бугай А.И., Барашкин P.J1. Программное средство для анализа сетевого трафика. /Новые информационные технологии: Тезисы докладов XI Международной студенческой школы-семинара в 2-х томах, май 2003 г., М. Изд-во: МГИЭМ, 2003, том 2, с. 486-487

11. Бугай А. И., Калинина Э. В., Ретинская И. В., Скуратов А. К. Анализ трафика научно-образовательных сетей. /Автоматизация, телемеханизация и связь в нефтяной промышленности, научно-технический журнал, М.: Изд-во ОАО «ВНИИОЭНГ», №2, 2003, с. 4-7

12. Бугай А.И., Скуратов А.К. Моделирование загрузки сетевых каналов передачи информации. /Информационно-коммуникационные технологии в управлении вузом: Материалы Всерос. Науч.-практ. Конф. (25-28 февраля 2003 года)/ ПетрГУ. -Петрозаводск, 2003, с. 129 -130

13. Бугай А, И. Модифицированный метод анализа выбросов загрузки каналов научно - образовательных сетей. /Информационно телекоммуникационные технологии в образовании - 2003: Материалы международной конференции «ИТО - 2003», 20-21 мая 2003 г., М: Изд-во СГУ, 2003

14. Бугай А.И, Гугель Ю.В., Калинина Э. В., Ретинская И.В. Скуратов А. К. Применение агрегирующих и разностных операторов для анализа потоков информации в сетях. /Вестник Рязанской государственной радиотехнической академии, №15, 2003

Подписано в печать Формат 60x90/16

Объем Тираж 10 &

Заказ ЗУЦ

119991, Москва, Ленинский просп. ,65 Отдел оперативной полиграфии РГУ нефти и газа им. И.М. Губкина

■1î

öofcy7

Оглавление автор диссертации — кандидата технических наук Бугай, Алена Ивановна

Введение.

Глава 1 Анализ современных технологий передачи данных и показатели функционирования систем передачи данных.

1.1 Научно-образовательные сети как один из видов систем передачи данных.

1.2 Задачи управления, мониторинга, анализа систем передачи данных и основные показатели их функционирования.

1.3 Анализ методов моделирования для оптимизации производительности сети.

1.4 Виды отклонений от нормального режима работы сети атаки на сеть).

Выводы. ф

Глава 2 Технология сбора и методы первичной обработки данных.

2.1 Система сбора информации о работе сети: протокол SNMP.

2.2 Анализ базовых технологии передачи данных: ATM и Fast Ethernet.

2.3 Первоначальный анализ данных о функционировании сети. Алгоритмы преобразования исходной информации.

2.4 Основные особенности исследуемых характеристик о функционировании сети и выбор наиболее информативной.

Выводы.

Глава 3 Методы обработки информации о загрузке сети для выявления нормального режима работы.

3.1 Представления информации в виде временных рядов и * особенности статистических пакетов для их анализа.

3.2 Математическая модель загрузки канала сети.

3.3 Выявление сезонной составляющей разложением в ряд Фурье.

3.4 Методика выделения тренда.

3.5 Анализ случайной компоненты.

3.6 Прогнозирование загрузки сети.

Выводы.

Глава 4 Обработка экспериментальной информации по разработанным алгоритмам.

4.1 Результаты исследования загрузок канала научно-образовательной сети RUNNet.

4.1.1 Результаты спектрального анализа трафика сети по трем интерфейсам: ATM, FastEthernet 1/0 и FastEthernet 4/0.

4.1.2 Результаты анализа тренда для интерфейсов: ATM, FastEthernet 1/0 и FastEthernet 4/0.

4.1.3 Подтверждение полученных результатов за новый период времени (анализ некоторых узлов научно-образовательной сети RUNNet).

4.1.4 Критерии выявления аномальных наблюдений с использованием методов агрегирования данных, конечных разностных операторов.

4.1.5 Результат прогнозирования сетевого трафика по методу экспоненциального сглаживания.

4.2 Программная реализация разработанных алгоритмов.

Выводы.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Бугай, Алена Ивановна

Актуальность исследования. В современных условиях появляются все новые виды систем передачи данных. Одним из видов сложных систем передачи данных являются научно - образовательные сети (RUNNet, RBNet, FREEnet, RELARN-IP и др.), которые получили свое развитие в России в течение последних десяти лет. Особенностями этих сетей являются: постоянное увеличение числа пользователей; передача большого количества учебной и научной информации, значительная часть которой является мультимедийной; необходимость обеспечения современных видов учебной деятельности в режиме реального времени; попытки несанкционированного доступа. Все это предъявляет повышенные требования к пропускной способности каналов, приводит к перегрузке сети и, как следствие, к потере связи между клиентами и серверами. Перегрузку можно предотвратить с помощью системы

10 поддержки принятия решений сетевого администратора, одним из основных блоков которой является блок сбора и обработки информации по отдельным характеристикам сети. Построение алгоритмов обработки информации для этого блока является весьма актуальной задачей. Однако при построении этих алгоритмов возникает ряд трудностей, в частности, определение набора функциональных характеристик сети, построении адекватных моделей, в анализе больших объемов информации и отсутствии специализированных алгоритмов для ее обработки.

Похожими задачами занимаются научные группы ряда зарубежных и российских НИИ и университетов (Санкт-Петербургский государственный институт точной механики и оптики, МИФИ, Московский институт электроники и математики, Волгоградский д государственный технический университет), однако в открытой печати не достаточно опубликованы алгоритмы и модели обработки такой информации.

В данной работе предлагается подход, основанный на обработке статистической информации о функционировании сети и определении нормального режима работы сети. Выявление и предсказание отклонений от этого режима необходимы для администратора сети как сигнал о возникновении нештатной ситуации и необходимости изменения конфигурации сети. Рассматриваются вопросы, связанные с конкретной системой передачи данных, а именно, с обработкой информации о функционировании научно-образовательных сетей.

Целью данной работы является разработка алгоритмов обработки информации о функционировании научно-образовательных сетей с использованием статистического анализа временных рядов.

Поставленная цель достигается решением следующих основных задач:

1. Определением набора функциональных характеристик глобальных сетей, созданием процедур сбора и обработки информации по этим характеристикам.

2. Идентификацией и моделированием информационных потоков.

3. Разработкой алгоритмов на основе модифицированных вычислительных методов и моделей с целью прогнозирования работы сети.

4. Исследованием реальных информационных потоков в системах передачи данных.

Решение поставленных задач потребовало привлечения методов исследования, базирующихся на методах системного анализа, анализе временных рядов: регрессионном анализе, спектральном анализе, адаптивных методах краткосрочного прогнозирования, вычислительной математике, математической статистике.

Получены следующие научные результаты:

1. Разработаны алгоритмы предварительной обработки информации о показателях функционирования системы передачи данных и представления ее в виде временного ряда и случайной последовательности.

2. Предложена математическая модель поступления информации в системах передачи данных и исследованы ее составляющие.

3. Разработаны критерии идентификации аномальных наблюдений при поступлении и передаче информации в системах передачи данных.

4. Созданы алгоритмы и программы статистической обработки информации о функционировании систем передачи данных, используемые для прогнозирования работы сети.

5. В результате исследования реальных информационных потоков в системе передачи данных определены конкретные составляющие (доминантные периодические составляющие, параметры регрессионных моделей и случайной составляющей) для модели поступления информации за единицу времени.

Достоверность научных результатов и выводов, сформулированных в диссертации, определяется корректным применением информационных технологий и методов математической статистики, статистического анализа временных рядов. При этом теоретические расчеты согласовывались с экспертами в области сетевого администрирования и информационных технологий.

Практическая ценность полученных результатов определяется тем, что на ее материалах разработаны комплексы лабораторных работ для учебного процесса РГУ нефти и газа имени И.М. Губкина, Московского государственного университета леса, а также результатами опытной эксплуатации при администрировании научно-образовательной сети RUNNet.

Структура диссертации такова.

В первой главе рассматриваются основные требования, предъявляемые к сетям, средства анализа и управления сетями; проведен анализ методов моделирования для оптимизации загрузки сети (имитационного моделирования, моделей теории массового обслуживания), используемых в настоящее время, включая специализированные методы имитационного моделирования; представлены методы выявления сбоев в работе сети.

Во второй главе рассматриваются характеристики для анализа работы сети, технология и особенности сбора данных о функционировании сети; проведен анализ сетевых технологии передачи данных, в частности ATM и FastEthernet; представлена процедура сбора информации с помощью протокола управления SNMP; разработаны алгоритмы преобразования данных, циркулирующих в глобальных сетях, во временной ряд и случайную последовательность; проанализированы характеристики сетевого трафика, выявлены их особенности: нестационарность, неоднородность, периодичность, сложная форма периодического сигнала.

В третьей главе анализируются структуры временных рядов, модель, описывающая поступление информации за единицу времени, методы анализа составляющих модели; метод прогнозирования загрузки канала на короткий период; проведен сравнительный анализ программно-статистических комплексов (таких как STATISTIKA, SPSS, ЭВРИСТА) для анализа временных рядов. Предложена математическая модель поступления информации за единицу времени; найден адекватный математический аппарат для анализа преобразованных по предложенным алгоритмам (глава 2) данных; определены типы изменения в характере поведения системы.

В четвертой главе представлены результаты анализа модели нормального режима работы сети; по предложенным алгоритмам и модифицированным методам созданы программы (для статистического анализа данных на основе долговременной статистики - программа «Роутер», для анализа периодической составляющей - программа «AFINT»). Установлены доминирующие частоты для всех исследуемых характеристик в значениях временных рядов; начальный момент времени для разложения временного ряда, представляющего собой загрузку канала, в ряд Фурье. Разработана модифицированная методика повышения значимости регрессионной модели за счет удаления периодической составляющей и последующего применения метода скользящего среднего. Разработан модифицированный метод конечных разностных операторов для исключения влияния тренда и основных гармоник периодической составляющей. Выявлена хорошая адаптация метода экспоненциального сглаживания к изменениям характера в поведении временного ряда, при прогнозировании среднесуточных загрузок канала на короткий период. Определенны оптимальные значения параметров для метода экспоненциального сглаживания. Предложены критерии идентификации аномальных наблюдений, использующие метод агрегирования данных, конечных разностных операторов и критерия для выделения аномальных наблюдений (резко выделяющихся наблюдений).

В заключении изложены основные результаты и выводы по диссертационной работе.

В приложении представлены акты об использовании результатов диссертационной работ; графики некоторых характеристик функционировании сети; инструкции по использованию программ «Роутер» и AFINT; методическое пособие по проведению спектрального анализа с использованием возможностей Microsoft Excel на примере данных о добыче нефти; словарь используемых терминов в диссертационной работе и структура базы данных управляющей информации MIB.

Апробация работы. Основные результаты диссертации были представлены и обсуждены на следующих конференциях:

• XXVIII Международной конференции IT+SE'2001 (20-29 мая 2001г., Украина, Крым, Ялта-Гурзуф);

• Международной научно-методической конференции Телематика' 2001 (18- 21 июня 2001 г., Санкт-Петербург);

• 8-ой Межвузовской научно-методической конференции «Информационные технологии и фундаментализация высшего образования» (Москва, РГУ нефти и газа им. И.М. Губкина, 21 февраля 2002 г.);

• Международной конференции «Информационно—телекоммуникационные технологии в образовании - 2002» (23 -24 мая 2003 г., Москва);

• Всероссийской научно-методической конференции «Телематика' 2002» (3- 6 июня 2002 года, Санкт-Петербург);

• 5-ой научно-технической конференции «Актуальные проблемы состояния и развития нефтегазового комплекса России» (Москва, РГУ нефти и газа им. И.М. Губкина, 23 - 24 января 2003 г.);

• Всероссийской научно-практической конференции (25-28 февраля 2003 года, Петрозаводск);

• X Всероссийской научно-методической конференции «Телематика' 2003» (14- 17 апреля 2003 г., Санкт-Петербург);

• Международной конференции «Информационно-телекоммуникационные технологии в образовании - 2003» (20-21 мая 2003г., Москва);

• XI Международной студенческой школе- семинаре «Новые информационные технологии» (май 2003 г.).

Таким образом, на защиту выносятся:

1) алгоритмы предварительной обработки информации о загрузке канала системы передачи данных, преобразующие данные в случайную последовательность и временной ряд;

2) математическая модель поступления информации о загрузке канала системы передачи данных за единицу времени;

3) алгоритмы оценки компонентов модели, использующие разработанные способы удаления периодической составляющей, методику повышения значимости регрессионной модели и идентификации аномальных наблюдений.

Работа выполнена при поддержке грантов РФФИ № 02-07-90026, 03-07-06004

Заключение диссертация на тему "Алгоритмы статистической обработки информации в системах передачи данных"

ВЫВОДЫ

1) Представлены результаты анализа компонентов модели, которая описывает поступление и передачу информации по каналам связи. Выявлено, что для всех исследуемых характеристик в значениях временных рядов доминирующими частотами являются суточная и недельная гармоники, при этом начальный момент времени для разложения временного ряда, представляющего собой загрузку канала, в ряд Фурье, необходимо брать равным 6 ч. 00 мин.

2) Разработана модифицированная методика повышения значимости регрессионной модели за счет удаления периодической составляющей и последующего применения метода скользящего среднего.

3) Разработан модифицированный метод конечных разностных операторов для исключения влияния тренда и основных гармоник периодической составляющей.

4) Применения метода экспоненциального сглаживания позволяет достаточно эффективно прогнозировать среднесуточные загрузки канала связи при установлении оптимальных значений So и а.

5) Предложены методики идентификации аномальных наблюдений на основе агрегирования данных, конечных разностных операторов и критерий, идентифицирующий резко выделяющиеся наблюдения.

6) Рекомендовано применение повторного проведение процедур уточнения компонентов модели после исключения аномальных наблюдений.

7) По предложенным процедурам и модифицированным методам созданы программы:

• для статистического анализа данных на основе долговременной статистики - программа «Роутер»;

• для анализа периодической составляющей - программа «AFINT».

ЗАКЛЮЧЕНИЕ

В диссертационной работе проанализирована возможность применения статистического анализа временных рядов к анализу сетевого трафика. Для этого системным администратором сети RUNNet был осуществлен сбор данных с помощью протокола Simple Network Management Protocol - простой протокол управления сетью. Информация регистрировалась с интервалом 5 мин. с помощью четырехбайтового счетчика.

В силу природы измеряемых характеристик и технологии сбора информации регистрируемые значения параметров образуют случайные временные ряды с интервалом дискретизации 5 мин., поэтому адекватными математическим аппаратом для их анализа является статистический анализ временных рядов. Изучение работы каналов сети с помощью адекватных математических моделей и методов позволит указать тенденции в изменении характеристик сетевого трафика и перейти к прогнозированию поведения сети или ее отдельных каналов.

Из перечисленных выше характеристик канала связи был выделен наиболее информативный параметр - загрузка канала. Анализ загрузок каналов дает полную информацию об их стабильности и надежности, позволяет эффективно управлять каналом, находить узкие места и делать прогнозы о необходимости дальнейшего расширения канала или сети.

В результате были предложены методики преобразования данных, циркулирующих в глобальных сетях, учитывающие особенности средств регистрации поступающей информации и предложена модель для описания поступления и передачи информации по каналам сети. В режиме нормальной работы каналов сети данная модель включает три компоненты:

• тренд, медленно меняющаяся во времени функция, описывающая изменения среднесуточных (средненедельных) загрузок за интервалы времени большие, чем суточная периодичность;

• периодическая составляющая, которая может быть описана конечным рядом Фурье, построенным по экспериментальным данным величин загрузок;

• случайная последовательность, относительно которой делается предположение о равенстве нулю ее математического ожидания M[e(t)]=0, с дисперсией

Для моделирования тренда применялся регрессионный анализ и метод сглаживания. При изучении периодической составляющей были применены методы анализа периодограмм и спектрального анализа случайных процессов. Свойства и характеристики случайной последовательности изучались с помощью классических методов математической статистики и методов анализа случайных последовательностей. Также разработан алгоритм применения разностных операторов и очистки трафика от основных периодических составляющих.

Однако на фоне нормального режима работы сети были обнаружены события, связанные с поступлением за короткий промежуток времени чрезмерно большого или малого количества информации. Данные наблюдения были названы аномальными значениями или выбросами. Аномалии в поведении трафика определяются характером сбоя сети и могут представлять собой, например, необоснованный рост или падение интенсивности трафика, изменения в характере трафика, чрезмерное повышения интенсивности использования отдельных частей сети и т.п. Для идентификации аномальных наблюдений был предложены критерии, основанные на методе агрегирования, конечных разностных операторов и критерия резко выделяющегося наблюдения. Однако корректное применение упомянутых алгоритмов для моделирования перечисленных составляющих модели требует исключения из массива данных аномальных значений, которое проводилось с помощью аппроксимации двух случайных величин. Выявления аномальных наблюдений также позволило исключить их влияние при построении прогнозирующих моделей позволяющие описать загрузки канала во времени.

При прогнозировании среднесуточных загрузок канала был применен метод экспоненциальное сглаживание и выявлена высокая эффективность данного метода по отношению к изучаемому объекту.

Однако при построении прогнозирующих моделей необходимо контролировать изменения в поведении системы. Обнаружено, что для изучаемого объекта типичны следующие виды изменения в характере поведения системы: более или менее регулярное изменение средних значений загрузок канала; монотонное линейное изменение загрузки канала до некоторого порогового значения - тренд; резкое изменение средних значений параметров загрузки канала (скачок средних значений).

При прогнозировании среднесуточных загрузок канала необходимо контролировать данные типа изменения в поведении системы. Если обнаружено, что наблюдаются более или менее регулярное изменение средних значений загрузок канала, то следует применять метод скользящего среднего и метод экспоненциального среднего. При обнаружении монотонного линейного изменения загрузки канала предложено применять процедуру, основанную на регрессионном анализе (после удаления периодических составляющих) и модификацию этого метода с использованием окон и скользящего среднего. Для обнаружения скачков средних значений в загрузках канала разработана процедура экспоненциального сглаживания с привлечением анализа значимого превышения получающихся значений над средними значениями предыдущего отрезка ряда.

Однако возник ряд трудностей, связанных с обработкой большого массива данных, поскольку все характеристики сетевого трафика собирались в один файл. Для решения этих трудностей были созданы программы: «Роутер» - для статистического анализа данных на основе долговременной статистики, и «AFINT» - для спектрального анализа. Программы включают в себя описанные выше методы, алгоритмы и учитывают особенности процесса.

В процессе проведенных в диссертационной работе исследований получены следующие научные результаты:

1. Разработаны алгоритмы преобразования исходной информации о загрузке каналов системы передачи данных и представления ее в виде временного ряда и случайной последовательности, позволяющие провести статистический анализ характеристик работы сети.

2. Предложена математическая модель для описания нормального режима работы сети и исследованы ее составляющие: выявлены основные гармоники периодической составляющей; разработана методика повышения значимости регрессионной модели при выделении тренда; разработана модифицированная методика исключения влияния основных гармоник и тренда с помощью метода конечных разностных операторов.

3. Предложены критерии для выявления аномальных наблюдений при поступлении и передаче информации по каналам систем передачи (основанные на методе агрегирования данных, модифицированном методе конечных разностных операторов и критерии резко выделяющихся наблюдений) с целью их последующего исключения из модели нормального режима работы сети.

4. Установлена эффективность применения метода экспоненциального сглаживания для прогнозирования среднесуточных загрузок канала на короткий срок при использовании предложенных в диссертационной работе параметров (сглаживания и первого значения прогноза).

5. Исследованы особенности трафика научно-образовательной сети RUNNet и даны рекомендации по проведению анализа работы каналов сети с различными интерфейсами (учет количества гармоник в разложении периодической составляющей, учет «зашумленности», учет приближения к пороговому значению по пропускной способности).

Библиография Бугай, Алена Ивановна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Аверьянова С.Ф. Информационные технологии в открытом образовании. Теоретические основы информатики и ее приложений: Сб. ТЗЗ научных трудов /Под ред. проф. А.А Сытникова. Саратов: Изд-во Сарат. Ун-та 2003, вып. 5, с. 3-5

2. Айвазян С.А. Интеллектуализированные инструментальные системы в статистике и их роль в построении проблемно-ориентированных систем поддержки принятия решений //Обозрение проблем прикладной математики, том 4, №2, М.: Наука, 1997

3. Айвазян С.А. Программное обеспечение персональных ЭВМ по статистическому анализу данных //Компьютер и экономика: экономические проблемы компьютеризации общества. М.: Наука, 1991, с. 91-107.

4. Айвазян С.А., Бухштабер В.М. Прикладная статистика; Классификация и снижение размерности. М.: Финансы и статистика, 1989, 607 с.

5. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных; Справ. Издание. М.: Финансы и статистика, 1983, 471 с.

6. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. М.: Финансы и статистика, 1985, 488 с.

7. Айвазян С.А., Степанов B.C. Инструменты статистического анализа данных. //Мир ПК №8, 1997

8. Андерсон Т. Введение в многомерный статистический анализ. М.: Физматгиз, 1963, 500 с.

9. Андерсон Т. Статистический анализ временных рядов. М.: Мир, 1976, 755 с.

10. Арлазаров В.JI., Емельянов Н.Е. Управление информационными потоками, 2002, 368 с.

11. Афанасьев В.Н., Юзбашев М.М. Анализ временных рядов и прогнозирование. М.: Финансы и статистика, 2001, 227 с.

12. Барашкин Р.Л., Бугай А.И. Программное средство для анализа сетевого трафика. /Новые информационные технологии: Тезисы докладов XI Международной студенческой школы-семинара в 2-х томах, май 2003 г., Изд-во: М. МГИЭМ, 2003, том 2, с. 486-487

13. Безрукова Е. Г., Руденчик Е. А. Прогнозирование статистических временных рядов. М-во общ. и проф. образования РФ. Яросл. гос. техн. ун-т Ярославль, 1997, 94 с.

14. Бендат Дж., Пирсол А. Измерение и анализ случайных процессов. Пер. с англ. Г.В. Матушевског и В.Е. Привальского. М.: «Мир», 1974

15. Блэк У., Internet: протоколы безопасности. Питер, 2001, 288 с.

16. Бокс Дж., Дженкинс Г. Анализ временных рядов, прогноз и ♦ управление. М.: Мир, 1974, 406 с.

17. Болышев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: «Наука», Главная ред-ия физ.-мат. Литературы, 1983, 416 с.

18. Боровиков В. Популярное введение в программу Statistica. М: КомпьютерПресс, 1998, 267 с.

19. Бройдо В.Л. Вычислительные системы, сети и телекоммуникации. Спб.: Питер, 2002, 688 с.

20. Бугай А.И, Гугель Ю.В., Калинина Э.В., Ретинская И.В., Скуратов А.К. Применение агрегирующих и разностных операторов для анализа потоков информации в сетях. /Вестник Рязанской государственной радиотехнической академии. №15, 2003

21. Бугай А.И., Калинина Э.В., Ретинская И.В., Скуратов А.К. Статистический анализ информационных потоков в глобальных сетях. /Информационные технологии, №1, 2002. Изд-во «Машиностроение», «Информационные технологии, 2002, с. 11-15

22. Бююль A. SPSS: искусство обработки информации /Diasoft, 2001, 608 с.

23. Васильев П.М., Иванов В.В., Кореньков В.В. и др. Система сбора, анализа и управления сетевым трафиком фрагмента сети ОИЯИ на примере подсети университета «Дубна» -Дубна, 2001, 11 с.

24. Вегешна Ш. Качество обслуживания в сетях IP. Изд-во Вильяме, 2003, 368 с.

25. Венцель Е.С., Овчаров JI.A. Теория случайных процессов и ее инженерные приложения. М.: Наука, 1991, 384 с.

26. Вероятность и математическая статистика: Энциклопедия /Под ред. Прохорова Ю.В., М.: Большая Российская энциклопедия, 1999, 910 с.

27. Столингс В. Структурная организация и архитектура компьютерных систем. Изд.5, Вильяме 2002, 896 с.

28. Вопросы динамико-статистических прогнозов и спектрального анализа временных рядов; Тр. Вып.56. /Под ред. Алехина Ю.М. JL: Изд-во Ленингр. гидрометеорол. ин-та, 1975, 156 с.

29. Гливенко Е.В., Степин Ю.П., Трахтенгерц З.А. Компьютерные системы поддержки принятия решений в нефтегазовом производстве. М.: РГУ нефти и газа им. И.М. Губкина, 1999, 74 с.

30. Глубев В.В., Никитин В.М., Никитина Д.А. Статистика. Определение общей тенденции развития рядов динамики. М.: РГОТУПС, 2002, 105 с.

31. Городецкий А.Я., Заборовский B.C. Фрактальные процессы в компьютерных сетях. Изд-во СПбГТУ, 2000, 101 с.

32. Григорьев Л.И., Подгорнов В.М., Фастовец Н.О. Основы математической статистики в задачах нефтегазовой отрасли. М.: ГАНГ им. И.М. Губкина, 1995, 44 с.

33. Гугель Ю.В. Internet современная среда вещания. /Труды Международной научно - методической конференции Телематика' 2001, 18-21 июня 2001 года, Санкт-Петербург, изд-во СПбГТУ, с. 44

34. Гусейнзаде М.А., Калинина Э.В., Добкина М.Б. Методы математической статистики в нефтяной и газовой промышленности. М. Недра, 1979,340 с.

35. Дервиженко В.Е., Дружинин У.Л. Обнаружение аномалий на основе статистического анализа сетевого. Новые информационные технологии: Тезисы докладов XI Международной студенческой школы-семинара в 2-х томах, май 2003 г., Изд-во: М. МГИЭМ, 2003, с. 533-535

36. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения. М.: Мир, 1972, вып 2., 287 с.

37. Домарев В. Безопасность информационных технологий. Методология создания систем защиты. / Diasoft, 2001, 688 с.

38. Дрейпер Н., Симт Г. Прикладной регрессионный анализ. М.: Финансы и статистика, 1986, 366 с.

39. Дубров A.M. Мхитарян B.C. Многомерные статистические методы. М.: Финансы и статистика, 1998, 352 с.

40. Дуброва Т.А. Статистические методы прогнозирования. /ЮНИТИ, 2003, 206 с.

41. Ефремова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. М.: ИНФА -М, 2000, 416 с.

42. Жолков С.Ю., Сухарев М.Г. Статистическое моделирование в задачах и приложениях. М.: МИНГ им. И.М. Губкина, 191, 101 с.

43. Жуков И.О. Актуальность процесса диагностики корпоративных сетей. Новые информационные технологии: Тезисы докладов XI Международной студенческой школы-семинара в 2-х томах, май 2003 г., Изд-во: М. МГИЭМ, 2003, с. 470

44. Журбенко И.Г. Спектральный анализ временных рядов. М.: Изд-во МГУ, 1982, 168 с.

45. Калинина Э.В. , Лапина А.Г. и др. Оптимизация качества. Сложные продукты и процессы. М.: Химия, 1989, 256 с.

46. Калугина Т.А. Социальные аспекты формирования информационного общества. /Теоретические основы информатики и ее приложений: Сб. ТЗЗ научных трудов /Под ред. проф. А.А Сытникова. Саратов: Изд-во Сарат. Ун-та 2003, вып 5, с. 75-80

47. Кендалл М. Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976, 736 с.

48. Кильдишев Г.С., Френкель А.А. Анализ временных рядов и прогнозирование. М.: Статистика, 1973, 103 с.

49. Князевский B.C., Житников И.В. Анализ временных рядов и прогнозирование. М-во общ. и проф. образования РФ. Рост. гос. экон. акад. Ростов н/Д : Рост. гос. экон. акад., 1998, 161 с.

50. Козлов В.А. Открытые информационные системы, Финансы и статистика, 1999, 224 с.

51. Кокс Д., Льюис П. Статистический анализ последовательности событий. М.: Мир, 1969, 312 с.

52. Комашинский В.И. Нейронные сети и их применение в системах управления и связи. /Горяч.Линия-Телеком, 2002, 94 с.

53. Компьютерные сети. Модернизация и поиск неисправностей. /Пер. с англ. Закер К., БХВ-Петербург, 2001, 1008 с.

54. Коноплев В.В. Назиров P.P. Модель представления данных сетевого трафика, М., 2002, 22 с.

55. Коноплев В.В. Организация центра учета, классификации и мониторинга сетевого трафика: Автореферат диссертации на соискание ученой степени канд. техн. наук: 05.13.11. М., 2002, 18 с.

56. Кузнецов С.Е., Халиев В.А. Обзор специализированных статистических пакетов по анализу временных рядов: Науч. Отчет. М.: СтатДиалог, 1993

57. Кульгин М. Технология корпоративных сетей: Энциклопедия. СПб.: Изд-во «Питер», 2000, 512 с.

58. Лукацкий А. Обнаружение атак. СПб.: «БХВ-Петербург», 2001, 624 с.

59. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования. М.: «Статистика», 1979, 254 с.

60. Майнагашев С.М., Попков В.К. Задача о максимальном потоке в нестационарных сетях связи. /В сб. Моделирование в информатике и вычислительной технике. Сб. трудов ВЦ СО РАН, 1988, с. 64-69.

61. Макарова Н.В. Статистика в Excel. М.: Финансы и статистика, 2002, 398 с.

62. Максимов К.Н. Методы анализа сетевой активности пользователей информационных систем. /Информационные технологии, №1, 2002. Изд-во «Машиностроение», «Информационные технологии, 2002, с. 16-22

63. Мартин М. Введение в сетевые технологии. Изд-во Лори, 2002, 659 с.

64. Мельников Д.А. Информационные процессы в компьютерных сетях М.: Кудиц-Образ, 1999, 256 с.

65. Милославская Н.Г., Толстой А.И. Интрасети: обнаружение вторжений. /Юнити, 2001, 587 с.

66. Назаров ATM: Технические решения создания сетей, Горячая линия-Телеком, 2000, 376 с.

67. Норкатт С. Обнаружение вторжений в сеть. Лори, 2000, 416 с.

68. Овчаров Л.А., Битюков B.C., Волков В.М. Математические модели информационных процессов и управления. М.: Недра, 2001, 247 с.

69. Олифер В.Г., Олифер Н.А. Компьютерные сети. Принципы, технологии, протоколы. СПб.: Питер, 2000, 672 с.

70. Олифер В.Г., Олифер Н.А. Новые технологии и оборудование IP-сетей, ВНУ-СПб, 2000, 512 с.

71. Олифер В.Г., Олифер Н.А. Основы сетей передачи данных. ИНТУИТ.ру , 2003, 248 с.

72. Основы теории статистических выводов: Пер. с англ. Питмен Э., 1986, 104 с.

73. Остерлох X. TCP/ IP Семейство протоколов в сетях компьютеров. /Diasoft, 2002, 576 с.

74. Остерлох X. Маршрутизация в IP-сетях. Принципы, протоколы, настройка. /Diasoft, 2002, 512 с.

75. Папшева JI.B. Информационные технологии и формирование технологической культуры педагога. /Теоретические основы информатики и ее приложений: Сб. ТЗЗ научных трудов /Под ред. проф. А.А Сытникова. Саратов: Изд-во Сарат. Ун-та 2003, вып 5, с. 116-120

76. Преобразование Фурье в комплексной области: Пер. с англ. Винер Н. Пэли Р., 1964, 268 с.

77. Пятибратов А.П., Гудыно Л.П. Вычислительные системы, сети и телекоммуникации. М.: Финансы и статистика, 2001, 512 с.

78. Распределения, комплексные переменные и преобразования Фурье. /Пер. с англ. Бремерман Г.Б., М.: Мир, 1968, 276 с.

79. Романец Ю.В., Тимофеев Т.А., Шаньгин В.Ф. Защита информации в компьютерных системах и сетях. Радио и связь, 1999, 328 с.

80. Сажин Ю. В., Катынь А. В., Басова В. А., Сарайкин Ю. В. Статистические методы прогнозирования на основе временных рядов. Саранск: Изд-во Морд, ун-та , 2000, 113 с.

81. Скуратов А. К, Ретинская И. В., Калинина Э. В., Бугай А. И. Анализ трафика научно-образовательных сетей. /Автоматизация, телемеханизация и связь в нефтяной промышленности, научно-технический журнал, №2, 2003, Изд-во М.: ОАО «ВНИИОЭНГ», 2003, с. 4-7

82. Скуратов А.К., Бугай А.И. Исследование информационных потоков в сети RUNNet. /Труды Международной научно методической конференции Телематика' 2001, 18- 21 июня 2001 г., Санкт-Петербург, изд-во СПбГТУ, с. 29-30

83. Скуратов А.К., Бугай А.И. Моделирование загрузки сетевых каналов передачи информации. /Информационно-коммуникационные технологии в управлении вузом: Материалы Всерос. Науч.-практ. Конф. (25-28 февраля 2003 года)/ ПетрГУ. -Петрозаводск, 2003, с. 129-130

84. Соколов В., Шаньгин В. Защита информации в распределенных корпоративных сетях и системах. ДМК, 2002, 656 с.

85. Спортак М., Паппас Ф. Компьютерные сети и сетевые технологии. /ДиаСофт, 2002, 736 с.

86. Справочник по прикладной статистике. Том 2. /Под редакцией Э.Ллойда, У. Ледермана, М.: Финансы и статистика, 1990, 525 с.

87. Статистические и математические системы //Тысячи программных продуктов: Каталог: Вып. 2. М., 1995, с. 88-92.

88. Столлингс В., Компьютерные системы передачи данных. Изд. 6, Вильяме 2002, 928 с.

89. Сэмми Лейз. Качество обслуживания. //Computerworld, №32, 2000

90. Тимонина Е.Е. Контроль каналов как основа защиты информационных технологии. /Труды международной конференции «Информационные технологии в науке, образовании, телекоммуникации, бизнесе», Украина, Крым, 20-30 мая 2002 г., с. 149-151.

91. Толковый словарь сетевых терминов и аббревиатур. Официальное издание Cisco Systems, Вильяме, 2000, 368 с.

92. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. /Под редакцией В.Э. Фигуров М: ИНФРА, М.: Финансы и статистика, 1995,384 с.

93. Уилсон Эд. Мониторинг и анализ сетей. Методы выявления неисправностей, Лори, 2002, 350 с.

94. Фейт С. TCP/IP Архитектура, протоколы, реализация, Лори, 2000, 424 с.

95. Хелд Г. Технологии передачи данных. Изд. 7, Питер, 2003, 720 с.

96. Хеннан Э. Анализ временных рядов. М.: Наука, 1964, 215 с.

97. Чекотовский Э.В. Графический анализ статистических данных в Microsoft Excel 2000, Изд-во: Вильяме 2002, 464 с.

98. Шурин A.M. Регрессия: выбор вида зависимости, эффективность и устойчивость решений. /Автоматика и телемеханика. №6, 1996, с. 90-102

99. Alexander S., Arbaugh W.A., Keromytis A.D., Smith J. M. Safety and security of programmable network infrastructures IEEE Communications Magazine. Volume 36, Issue 10. - Oct. 1998, p. 84-92

100. Bykova M., Ostermann S., Tjaden B. Detecting network intrusions via a statistical analysis of network packet characteristics. //Southeastern Symposium on System Theory, 2001. Proceedings of the 33rd, 2001, p. 309-314

101. Kendall, M. G. (1984). Time Series. New York: Oxford University Press.

102. Kendall, M., & Ord, J. K. (1990). Time series (3rd ed.). London: Griffin.

103. Makridakis, S. G., Wheelwright, S. C., & McGee, V. E. (1983). Forecasting: Methods and applications (2nd ed.). New York: Wiley.

104. Montgomery, D. C., Johnson, L. A., & Gardiner, J. S. (1990). Forecasting and time series analysis (2nd ed.). New York: McGraw-Hill.

105. Pankratz, A. (1983). Forecasting with univariate Box-Jenkins models: Concepts and cases. New York: Wiley.

106. Retinskaya I., Retinsky V. Introduction to the data analyses in Excel /Russion state university of oil and gas named after I.M. Gybkin, M. 2001,30 р.

107. Shumway, R. H. (1988). Applied statistical time series analysis. Englewood Cliffs, NJ: Prentice Hall.

108. Vandaele, W. (1983). Applied time series and Box-Jenkins models. New York: Academic Press.

109. Velleman, P. F., & Hoaglin, D. C. (1981). Applications, basics, and computing of exploratory data analysis. Belmont, CA: Duxbury Press.

110. Walker, J. S. (1991). Fast Fourier transforms. Boca Raton, FL: CRC Press.

111. Wei, W. W. (1989). Time series analysis: Univariate and multivariate methods. New York: Addison-Wesley.