автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Применение масштаба времени для описания, анализа свойств и управления информационными потоками сервера данных

кандидата технических наук
Титов, Иван Николаевич
город
Москва
год
2013
специальность ВАК РФ
05.12.13
цена
450 рублей
Диссертация по радиотехнике и связи на тему «Применение масштаба времени для описания, анализа свойств и управления информационными потоками сервера данных»

Автореферат диссертации по теме "Применение масштаба времени для описания, анализа свойств и управления информационными потоками сервера данных"

На правах рукописи

Титов Иван Николаевич

ПРИМЕНЕНИЕ МАСШТАБА ВРЕМЕНИ ДЛЯ ОПИСАНИЯ, АНАЛИЗА СВОЙСТВ И УПРАВЛЕНИЯ ИНФОРМАЦИОННЫМИ ПОТОКАМИ СЕРВЕРА ДАННЫХ

Специальность 05.12.13 -Системы, сети и устройства телекоммуникаций

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва, 2013

21 МАР 2013

005050945

005050945

Работа выполнена на базовой кафедре Информационных сетей и систем при ИРЭ РАН Федерального государственного образовательного бюджетного учреждения высшего профессионального образования Московский технический университет связи и информатики (ФГОБУ ВПО МТУ СИ)

Научный руководитель доктор физико-математических наук

Цитович Иван Иванович

Официальные оппоненты: Степанов Сергей Николаевич

доктор технических наук, профессор, ОАО «Интеллект Телеком», директор информационно-аналитического департамента

Гайдамака Юлия Васильевна кандидат физико-математических наук, доцент, ФГБОУ ВПО Российский университет дружбы народов

Ведущая организация: ФГУП Центральный научно-

исследовательский институт связи

Защита диссертации состоится «18» апреля 2013 г. в 15 часов на заседании диссертационного совета Д.219.001.03 при Московском техническом университете связи и информатики по адресу: 111024, г. Москва, ул. Авиамоторная, 8а, ауд. А-448.

С диссертацией можно ознакомиться в библиотеке МТУ СИ.

Автореферат разослан « 0€г> Л^л^п^ек. 2013 г.

Учёный секретарь диссертационного совета Д. 219.00 к.т.н., доц.

Ерохин С.Д.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В настоящее время управление перегрузками в Интернет является активной областью для исследований. Постоянно выдвигаются новые идеи для дальнейшего увеличения чувствительности и эффективности методов управления перегрузками, вводятся новые сигналы о перегрузке и т.д. Кроме того, развитие Интернет предъявляет новые требования, например, управление трафиком большого объёма, генерируемого приложениями коллективного доступа к файлам, и трафиком Web-серверов, содержащих мультимедийные файлы, которые существенно отличаются по своему размеру.

Существует две ключевые проблемы в исследовании управления перегрузками. Во-первых, требуется детальное статистическое и математическое описание Интернет трафика. Понимание его структуры и особенностей должно обеспечивать прочный фундамент для анализа новых идей по управлению трафиком и усовершенствования существующих. Во-вторых, высокая сложность системы приводит к необходимости дополнительных теоретических исследований, включающих в себя разработку математической модели сетевого трафика, имитационное моделирование и экспериментальные исследования в лабораторных условиях. Такие исследования способны в значительной степени воспроизвести сложность многоуровневой, высоко динамичной природы инфраструктуры Интернет. Но для того чтобы экспериментальные исследования и моделирование были показательными, они должны воспроизводить известные характеристики реального трафика в сети.

Анализ трафика в высокоскоростных сетях показывает, что такой трафик обладает свойствами, характерньми для самоподобного трафика. За последние 20 лет этой тематике посвящено большое число работ. Отметим работы О .И. Шелухина, М. Crovella, A. Feldmann, S. Floyd, W. Leland, V. Paxson, W. Willinger, и др. Однако математический анализ моделей, основанных на самоподобных процессах, является очень сложным для анализа и создания на их основе инженерных методик управления трафиком.

С другой стороны, традиционные модели телетрафика являются хорошо изученными. Разработке математических моделей трафика, а также методов управления трафиком посвящены многочисленные работы отечественных и зарубежных исследователей: Г.П. Башарина, Ю.В. Гайдамаки, В.А. Ефимушкина, А.П. Пшеничникова, К.Е. Самуйлова, С.Н. Степанова, А.Д. Харкевича, V. Iversen, L. Kleinrock и др. Но необходимо отметить, что классические модели теории телетрафика не всегда могут обеспечить достаточно точное описание реального трафика в современных сетях передачи данных, включая долговременные зависимости.

В традиционных моделях телетрафика масштаб времени, соответствующий системе обслуживания, определяется на основании средней длительности обслуживания запросов пользователей и предполагается, что данная величина не сильно отличается для различных требований. Однако в настоящее время

существенную долю ресурсов в Интернет составляют файловые серверы, содержащие данные различного типа и объёма, причём размер файлов и, соответственно, длительность их передачи отличаются значительно для файлов различного типа. Трафик, порождаемый такими серверами, можно разделить на группы в зависимости от объёма запрашиваемых данных.

Таким образом, является актуальной задача разработки математической модели, которая бы могла адекватно отображать основные свойства трафика, генерируемого современными серверами данных, но при этом была бы основана на классических и хорошо изученных моделях телетрафика. Для этого необходимо провести анализ свойств трафика реальных серверов в Интернет, чтобы выявить его основные особенности. Также необходима разработка методов управления таким трафиком для предотвращения перегрузок в сети.

Объектом исследования является сервер данных, на вход которого поступают запросы пользователей на передачу файлов различного размера.

Предметом исследования являются характеристики информационных потоков, генерируемых сервером данных, исследование которых позволяет разработать наиболее эффективные методы управления трафиком сервера.

Цель работы и задачи исследования. Целью диссертации является исследование влияния масштаба времени на свойства информационных потоков сервера данных. Для достижения поставленной цели в диссертации проведены следующие исследования:

• анализ свойств реального сетевого трафика, порождаемого различными ЛУеЬ-серверами, на вход которых поступают запросы пользователей на передачу файлов существенно различного размера;

• разработка математической модели трафика сервера данных, в которой каждому из потоков соответствует свой временной масштаб;

• проведение имитационного моделирования трафика сервера данных и исследование факторов, влияющих на вероятность потерь при его обслуживании;

• разработка методов управления скоростью передачи данных, поступающих от сервера, и оценка их эффективности при различных значениях параметров системы обслуживания потоков запросов.

Методы исследования. Для решения поставленных задач используются методы теории сетей связи, теории вероятностей и математической статистики, теории массового обслуживания и методы математического моделирования.

Достоверность результатов. Достоверность результатов обеспечивается адекватностью используемых математических методов, верификацией математической модели, а также сравнением аналитических результатов с результатами математического моделирования. Научная новизна результатов.

1. На основании исследования трафика двух мультимедийных ресурсов впервые предложен метод разделения трафика сервера на несколько потоков,

соответствующих различным типам запросов, основанный на анализе скорости изменения функции распределения объёма запрашиваемых данных.

2. Разработана математическая модель, позволяющая анализировать долговременные зависимости сетевого трафика, используя компоненты, которым соответствует различный временной масштаб. В отличие от самоподобного трафика этот подход даёт возможность использовать классические модели телетрафика для исследования процессов, которые обычно описываются процессами с долговременными зависимостями.

3. Впервые предложены методы управления трафиком, основанные на индивидуальных особенностях потоков данных, генерируемых сервером. Показано, что эффективность этих методов зависит не только от свойств сетевого трафика, но и от характеристик сетевых узлов и каналов, через которые проходит этот трафик.

Личный вклад: все основные научные положения и выводы, составляющие содержание диссертации, разработаны соискателем самостоятельно. Теоретические и практические исследования, а также вытекающие из них выводы и рекомендации проведены и получены автором лично.

Практическая ценность и реализация результатов работы: выполненные в диссертационной работе исследования, а также предложенные инженерные методики могут быть использованы для управления скоростью передачи данных в современных сетях пакетной передачи данных. Это управление может осуществляться на отдельном сервере, на границе сети центра обработки данных, в котором располагаются различные серверы данных, и на границе сети оператора, предоставляющего пользователям доступ в Интернет, путём применения глубокого анализа абонентского трафика (DPI - Deep Packet Inspection).

Разработанная модель трафика сервера может использоваться при проектировании сетей для оценки потерь при обслуживании трафика сервера.

Основные результаты диссертационной работы использованы в ФГБУН Институте проблем передачи информации им. А.А. Харкевича РАН при исследованиях беспроводных сетей связи, в ООО «Информационные бизнес системы» при расчете информационной нагрузки, создаваемой Web-сервером, и определении характеристик систем, необходимых для обслуживания трафика сервера, а также применяются в учебном процессе МТУ СИ на базовой кафедре Информационных сетей и систем при ИРЭ РАН.

Апробация результатов работы. Основные результаты диссертационной работы докладывались и обсуждались на международной конференции The 22-nd Belarusian winter workshop in queueing theory «Modern probabilistic methods for analysis, design and optimization of information and telecommunication networks» (Минск, 2013), на Всероссийских конференциях «Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем» (Москва, РУДН, 2011, 2012), на 11-м Всероссийском симпозиуме по прикладной и промышленной математике (Сочи, 2010), на 62-й, 64-й и 66-й научных сессиях РНТОРЭС им. А.С. Попова (Москва, 2007, 2009,

2011), на 30-й, 31-й, 32-й, 33-й, 34-й и 35-й конференциях молодых ученых и специалистов ИППИ РАН «Информационные технологии и системы» (Москва, 2007 - 2012), на 5-й Московской межвузовской научно-практической конференции «Студенческая наука» (Москва, 2010), на научных семинарах кафедры Информационных сетей и систем ФГОБУ ВПО МТУ СИ и научном межвузовском семинаре «Современные телекоммуникации и математическая теория телетрафика» ФГБОУ ВПО Российского университета дружбы народов (Москва, 2012).

Публикации. По теме диссертации опубликовано 16 печатных работ, в том числе 4 работы в ведущих рецензируемых научных журналах и изданиях, внесенных в перечень журналов и изданий, утвержденных ВАК.

Основные положения, выносимые на защиту. На защиту выносятся следующие положения:

1. Сетевой трафик, порождаемый мультимедийными ресурсами, имеет ярко выраженный пульсирующий характер и должен описываться процессами с долговременными зависимостями.

2. Трафик сервера данных может быть разделён на несколько потоков в соответствии с размером запрашиваемых для передачи файлов. Основные характеристики этих потоков, такие как интенсивность поступления требований и объём запрошенных данных, отличаются существенно.

3. Для описания трафика сервера данных может использоваться математическая модель, в которой, общий трафик рассматривается как линейная комбинация однородного трафика, но с различной шкалой времени для каждой компоненты. С помощью данной модели можно сгенерировать трафик с параметром Хёрста изменяющимся в широких пределах.

4. Для систем с явными потерями или систем, в которых среднее время заполнения буфера маршрутизатора, через который проходит трафик сервера, существенно меньше времени обслуживания требований (т.е. времени, которое необходимо серверу для передачи запрошенного файла), все потоки вносят вклад в вероятность потерь пропорциональный создаваемой средней нагрузке.

5. Вклад, вносимый каждым из потоков в вероятность потерь, различается в зависимости от соотношения между масштабом времени, соответствующим системе обслуживания и определяющимся временем заполнения буфера, и масштабами времени, соответствующими различным потокам.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 102 наименований и приложения. Основная часть содержит 172 страницы, включая 64 рисунка, 8 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, сформулированы цель и задачи работы, определены практическая ценность и области применения результатов, представлены сведения об апробации работы и приведены основные положения, выносимые на защиту.

В первой главе диссертационной работы приведена постановка задачи исследований. Проведён анализ различных моделей сетевого трафика.

На основании результатов работ, в которых исследуются характеристики трафика в современных сетях, показано, что такой трафик обладает характерными для самоподобных процессов свойствами. Представлен обзор работ, посвященных анализу свойств трафика Web-серверов, в которых показано, что одной из основных причин самоподобных свойств Web-трафика является то, что распределение размера передаваемых файлов обладает «тяжёлым хвостом».

Типовая схема организации взаимодействия Web-сервера и клиентов представлена на рис. 1. В рассмотренных работах измерения обычно проводились на граничном маршрутизаторе ISP (Internet Service Provider), на ргоху-сервере или на клиентском оборудовании в определённой сети, т.е. анализировался весь трафик, поступающий из Интернет в направлении определённой группы пользователей. Такие исследования позволяют выявить общие свойства трафика, но не особенности, характерные для трафика, порождаемого определённым типом серверов. Если же проводились измерения непосредственно на Web-cepBepax (или на граничном маршрутизаторе сети, к которой они подключены, DCBR -Data Center Border Router), то специфика этих ресурсов обычно была такова.

Рис.1. Схема организации взаимодействия Web-cepeepa и клиентов

Представлен обзор архитектуры программного обеспечения современных Web-серверов. Показано, как реализовано установление TCP-сессии и передача пользователю конкретного файла. Рассмотрены особенности организации обработки запросов пользователей на серверах различного типа. Описана модель сервера, формирующего потоки пакетов данных на основании запросов пользователей.

Для минимизации потерь пакетов, на маршрутизаторах, через которые проходит сетевой трафик, используются буферы. В первой главе представлен обзор работ, посвящённых анализу необходимого размера буфера на современных маршрутизаторах. На примере маршрутизатора Cisco Catalyst 12000-й се-

7

рии был рассмотрен процесс обработки пакетов для понимания, на каких буферах и при каких условиях могут возникать потери. Описаны существующие технологические сложности в создании буферов очень большого размера на магистральных маршрутизаторах.

Для предотвращения перегрузок на сетевых элементах и каналах необходимо применять управление трафиком данных. Рассмотрены примеры реализации методов управления скоростью передачи для различных типов Web-серверов. Программное обеспечение, использующееся на этих серверах, позволяет реализовать, как ограничение суммарной скорости передачи данных от сервера или одинаковое ограничение скорости передачи данных для всех соединений, так и более гибкие методы управления, основанные на размере передаваемого файла, его типе, префиксе URI (Uniform Resource Identifier) и т.д. Однако необходимо понимание, в каких случаях и к каким типам трафика управление должно быть применено, чтобы оно было наиболее эффективным.

Таким образом, анализ литературы показал, что в настоящее время отсутствуют адекватные модели для описания трафика сервера, предоставляющего пользователям доступ к файлам существенно различного размера, кроме этого не проводились детальные исследования свойств такого трафика и не были предложены методы управления, которые бы учитывали структуру трафика сервера данных. Поэтому в первой главе сформулированы задачи разработки математической модели трафика сервера, анализа свойств отдельных потоков данных, генерируемых реальными серверами, а так же разработка и анализ эффективности методов управления скоростью передачи данных, при которых различное управление применяются к конкретным компонентам трафика.

Основные результаты главы опубликованы в работе [4].

Во второй главе диссертационной работы представлен анализ трафика от 2-х различных Web-серверов. Для 1-го сервера (музыкального ресурса) характерно предоставление пользователям доступа к файлам различного типа. Большинство запросов поступает на передачу файлов небольшого размера (HTML страницы с изображениями) при поиске и просмотре дополнительной информации. Требований пользователей на передачу конкретного шрЗ-файла значительно меньше, однако передача таких файлов требует намного больше времени. Максимальная длительность обслуживания характерна для требований на передачу архивных файлов, содержащих музыкальные альбомы. Таким образом, можно сказать, что на вход сервера поступает несколько типов потоков требований, отличающихся интенсивностью и объемом запрошенных данных.

Трафик от 1-го сервера фиксировался на границе сети крупного оператора связи, предоставляющего пользователям доступ в Интернет. Проводился анализ заголовков сетевого и транспортного уровня. Критерием отбора был пул IP адресов, принадлежащих данному музыкальному ресурсу (primary и non-primary серверы), а также TCP порт источника 80 (HTTP). Трафик анализировался непрерывно в течение 76 дней (с сентября по ноябрь 2010). За период наблюдений было зафиксировано 161000 TCP-сессий, было передано 45 Гбайт данных.

Также представлен анализ свойств трафика другого \Veb-cepBepa - мультимедийного портала, который предоставляет пользователям доступ к файлам различного типа (музыкальные или видео файлы, архивные файлы). Трафик фиксировался на границе сети центра обработки данных (БСВК на рис. 1), в котором располагаются серверы мультимедийного портала, т.е. был получен весь трафик, порождаемый этим \Veb-pecypcoM. Измерения проводились с 10:00 до 13:30 23 октября 2010, было зафиксировано 383000 ТСР-сессий, передано более 41 Гбайта данных. Для того чтобы исследовать распределение объёма переданных данных для обоих серверов была произведена оценка количества информации, поступающей от сервера к клиенту в рамках отдельной ТСР-сессии.

Представлен анализ гистограммы объёма переданных данных, а также эмпирической функции распределения - ^„(х) (рис. 2) для 1-го сервера. Показано, что для трафика сервера характерны периоды с медленным убыванием 1 - ^„(х) (т.е. было передано сравнительно небольшое количество объектов соответствующего размера), чередующиеся с периодами с высокой скоростью убывания 1 - ВД (т.е. для данных значений наблюдался локальный максимум на гистограмме). Таким образом, основываясь на скорости изменения эмпирической функции распределения и характере изменения гистограммы, можно отделить различные потоки друг от друга (три вертикальные линии на рис. 2, соответствуют значениям объёма переданных данных: 3,4-104, 1,7-106 и 1,9-107 байт).

0.1

0.01

100 МО3 МО4 МО5 МО6 МО7 МО8 1109 х,Ву1е

Рис.2. Зависимость 1 - /^(х) от объёма переданных данных в рамках отдельной ТСР-сессии

В табл. 1 представлены основные характеристики потоков данных, генерируемых сервером по запросу пользователей: количество сессий — "к • X зафиксированное за время наблюдения т, средний объем переданных данных в рамках отдельной ТСР-сессии - X, а также суммарный объем переданной информации для каждого потока - X ■ X ■ X.

Таблица 1.

Характеристики потоков музыкального ресурса

№ 1 2 3 4

131314 26152 3224 307

X, Кбайт 5,6 189,2 6426 69549

Х-1-х, Гбайт 0,701 4,72 19,76 20,36

Также как и для 1-го сервера, анализ функции распределения объема передаваемых данных от мультимедийного портала показал, что основываясь на скорости изменения эмпирической функции распределения объёма переданных данных, трафик, генерируемый сервером, может быть разделён на 4 потока.

Для обоих ресурсов характерно, что интенсивность поступления запросов пользователей, а также среднее количество переданной информации в рамках отдельной ТСР-сессии, для различных потоков отличается существенно (часто более чем на порядок). Следовательно, каждому из потоков соответствует свой масштаб времени, отличающийся существенно для различных потоков.

Представлены результаты исследований структуры потока требований, поступающих на мультимедийный портал. Показано, что распределение промежутков времени между двумя последовательными событиями поступления запроса пользователя на передачу файла убывает экспоненциально, причём среднее значение промежутка времени между последовательным открытием ТСР-сессий — 39,4 мс и дисперсия - 40,6 мс практически совпадают. Такое равенство характерно при показательном законе распределения случайной величины. Для анализа свойств входящего потока при различных масштабах времени рассмотрена вероятность поступления т требований за временной промежуток длительностью /, где г изменялось от 1 мс до 1 с. Для всех этих характеристик распределение изменяется по экспоненциальному закону. Представлена выборочная оценка автокорреляционной функции, как для суммарного потока требований, так и для каждого потока в отдельности, при различных масштабах времени. Показано, что входящий поток не обладает долговременными зависимостями. Таким образом, процесс поступления требований пользователей с высокой степенью точности может описываться пуассоновским потоком.

Для мультимедийного портала представлена временная зависимость изменения скорости передачи данных (т.е. загрузки выходного канала \УеЬ-сервера), а также зависимость изменения дисперсии выборочного среднего от времени агрегирования. Было показано, что трафик сервера имеет ярко выраженный пульсирующий характер и обладает параметром Хёрста = 0,88, что говорит о высокой степени самоподобности трафика сервера.

Так же было показано, что автокорреляционная функция для суммарного трафика \Veb-cepBepa, не обращается в ноль в широких масштабах временной оси. Причём, вклад в общую автокорреляционную функцию от различных потоков зависит от масштаба времени, который соответствует конкретному пото-

ку. Чем меньше длительность обслуживания требований для определённого потока, тем быстрее его автокорреляционная функция обращается в ноль.

Основные результаты главы опубликованы в работах [2, 3].

В третьей главе диссертационной работы на основании результатов исследования свойств реального трафика, приведённых в главе 2, представлена математическая модель источника нагрузки, порождающего потоки, которым соответствуют различные масштабы времени.

Пакеты данных

запросы пользователей

Т

Рис.3. Модель сервера данных, предоставляющего доступ к файлам различного типа

Рассмотрена математическая модель трафика, основанная на классических пуассоновских потоках, но каждому из потоков соответствовал свой временной масштаб. Данное предположение основано на исследовании, где показано, что трафик, порождаемый сервером данных, можно разделить на группы в зависимости от объёма запрашиваемых данных (рис. 3). Следовательно, общий трафик может рассматриваться, как линейная комбинация однородного трафика, но с различной шкалой времени для каждой компоненты. Такой подход даёт нам возможность анализировать долговременные зависимости, используя компоненты, которым соответствует большой временной масштаб. В отличие от самоподобного трафика этот подход даёт возможность использовать классические модели телетрафика для исследования процессов, которые обычно описываются процессами с долговременными зависимостями.

Предполагалось, что источник нагрузки порождает п пуассоновских потоков с интенсивностями X, , Л = ~ суммарная интенсивность поступающих требований, р= X,- / Л - вероятность поступления требования из /-го потока. Требование /-го потока обслуживается в течение а, единиц времени. Тогда

среднее время обслуживание требований в системе А единиц вре-

мени. В качестве характеристики случайности источника нагрузки рассматри-

валось среднеквадратическое отклонение длительности обслуживания а = -1Ъ, О = А ' я/ — Рассмотрена ситуация, когда а/ А» 1, что с инженерной точки зрения означает, что источник нагрузки не обладает конечной дисперсией и такой источник являлся объектом наших исследований.

Для данной модели, трафик, порождённый сервером данных, был разделён на п стационарных независимых потоков пакетов данных (рис. 3), генерируемых сервером по запросам пользователей. За временной промежуток / каждый поток порождает объём данных со средним значением Л., - я. • / • Ст (где Ст -скорость передачи данных сервером при передаче запрошенного файла) и случайной составляющей где г/1' - соответствует разности объёма данных, порождённого 1-м потоком за промежуток времени Г, и среднего значения объёма данных этого потока, поступающих за время г. Процессы 7/'' для всех потоков имеют одинаковую структуру, задаваемую процессомX, (X, - стационарный случайный процесс, для которого среднее значение 0 и среднеквадратическое отклонение Хх равно 1) , и отличаются только масштабом времени я, и среднеквадратическим отклонением а,.

В этом случае отклонение от среднего значения суммарного объёма данных, порождаемого п потоками, может быть найдено как

У;=агХ%+а2-Х%2 + ...+«„(1)

где Х^ копии процесса X,, причём все копии рассматриваются как независимые процессы, а а, характеризуют долю соответствующей компоненты в общей нагрузке системы.

Также можно предположить, что запрос из /'-го потока обслуживается в течение случайного времени о, (независимого от времени обслуживания других требований) со средним значением а,, среднеквадратическим отношением а, и значением о,-/а,-, имеющем одинаковый порядок для всех г.

Необходимо учесть, что в современных сетях для компенсации колебаний трафика и, соответственно, уменьшения потерь на маршрутизаторе, обслуживающем трафик сервера, используется буфер, куда попадают пакеты, когда создаваемая нагрузка превышает ёмкость выходного канала. Поэтому максимальное отклонение создаваемой нагрузки нас интересует за период времени [0,7], где Т— время, сопоставимое со временем заполнения буфера маршрутизатора.

Рассмотрено отношение отклонения от среднего значения объёма данных, поступивших от сервера за время Т, к величине промежутка времени Т:

У = 1 • )у,Л = )= • }(а, ■ Х% (2)

1 о 1 о

Поскольку потоки независимы и Е¥ = 0, то дисперсия суммарного процесса вычислена как сумма дисперсий:

где /(•) - индикаторная функция события.

Из (3) следует, что при Т»а, дисперсия объёма данных, генерируемого 7-м потоком, убывает пропорционально росту Т, однако при 7* «я, дисперсия уменьшается со значительно меньшей скоростью. Это связано с тем, что при Т « объём поступивших данных от сервера оценивается значительно чаще, чем меняется состояние системы (т.е. поступают новые запросы или оканчива-! ется обслуживание требований поступивших ранее).

На рис. 4 изображена зависимость дисперсии Г>|у] от Т, а также зависимости дисперсий от Т для каждого из потоков в отдельности - Д(7), при п = 3, а, =1, а2 =10, аъ =100 и а, =а2 =а3 =л/10/3 . Из (3) и рис. 4 видно, что при малых значениях Г дисперсия для всех потоков одинакова и равна а^, но линейный спад дисперсии для различных потоков начинается при значениях Т отличающихся в 10 раз {аъ1а2=а2/ах= 10). Поэтому, например, при Т>ап суммарная дисперсия будет определять только л-м потоком, а при ах <Т<ап вклад,

Рис.4. График изменения дисперсии от времени агрегирования

При проведении численных исследований для простоты предполагалось, что длительность обслуживания требования г'-го потока а1 =к'~1, где к — некоторое достаточно большое число. Введение параметра к позволяет нам регулировать соотношение между длительностями обслуживания требований, принадлежащих различным потокам. Фактически параметр к задаёт класс требований, определяемый принципиально различным объёмом запрошенных данных.

Для того чтобы каждый из потоков создавал одинаковую нагрузку (поскольку при этом эффекты, вызванные сосуществованием нескольких потоков, проявляются более явно) интенсивность /-го потока должна определяться, как

Л,- = ■ А"-'-1'. При численных исследованиях использовалась представленная выше модель при л = 3, к = 10 и X, =100/3. Поскольку все требования, поступающие в систему, обслуживаются с одинаковой скорость Ст, то длительность обслуживания определяется только объёмом запрошенного файла.

Представлено сравнение данной системы, на вход которой поступает три пуассоновских потока различной природы, с системой, на вход которой поступает один пуассоновский поток с интенсивностью Л, и постоянной длительностью обслуживания А (классическая МАЭЛю модель в обозначениях Кендалла), то есть системой, для которой не учитывается структура источника нагрузки, а используются только усреднённые характеристики. Показано, что функция распределения вероятностей объёма занятого ресурса выходного канала сервера данных выглядит качественно одинаково для обеих систем. Также рассмотрена зависимость убывания дисперсии от времени агрегирования. При Т<А дисперсия примерно одинакова для обеих систем, поэтому, например, для систем с явными потерями (без буфера) вероятность потерь будет одинаковой. Однако убывание дисперсии с высокой скоростью для системы с одним потоком на входе начинается при значительно меньших значениях Т. Например, при Т=к~ дисперсия для двух систем обслуживания отличается в 10 раз. Следовательно, для систем, в которых среднее время заполнения буфера превышает А, необходимо учитывать структуру источника нагрузки, иначе предположения о вероятности переполнения буфера окажутся слишком оптимистичными.

Для системы, на вход которой поступает три потока требований на передачу файлов существенно различного размера, проведена оценка параметра Хёр-ста методом анализа Д/5 статистики и методом изменения дисперсии. Показано, что изменяя параметр к, определяющий во сколько раз отличается объём запрошенных данных для различных потоков, можно сгенерировать самоподобный трафик с оценками параметра Хёрста, отличающимися в широких пределах. Свойства долговременной зависимости возникают в том случае, когда время обслуживания требования существенно превосходит единицу времени, которая задает промежуток, на котором рассматриваются колебания трафика, при этом влияние этих требований на значение параметра Хёрста тем больше, чем больше время обслуживания требования в условных единицах времени.

Основные результаты главы опубликованы в работах [1, 7, 8, 9, 12, 13, 15].

В четвёртой главе приведены результаты численного исследования эффективности некоторых методов управления скоростью передачи данных сервера. Кроме 1-й системы обслуживания, соответствующей модели рассмотренной в третьей главе, также представлены 4 системы с управлением. Во 2-й системе скорость передачи данных от сервера к пользователю уменьшалась до значения СтШ для всех требований. В 3-й системе управление применялось только к требованиям на передачу файлов наименьшего размера (1-й поток), а в 4-й системе, напротив, управление применялось только к требованиям на передачу файлов наибольшего размера (3-й поток). В 5-й системе одинаковое

управление применялось к требованиям 2-го и 3-го потоков. Для 3-й, 4-й и 5-й систем время обслуживания требований для потоков, к которым применялось управление, выбиралось таким образом, чтобы среднее время обслуживания было одинаковым для всех четырёх систем и, соответственно, равным A d.

Предполагалось, что пропускная способность канала между сервером и маршрутизатором многократно превосходит среднюю нагрузку, следовательно, ограничивающим фактором являлась пропускная способность выходного канала маршрутизатора (на рис. 1 это канал между DCBR и маршрутизатором ISP). Поэтому маршрутизатор имел буфер на выходном интерфейсе, куда попадали пакеты, если весь объём ресурсов выходного канала был занят.

Представлен анализ вероятности потерь при различных значениях ёмкости выходного канала маршрутизатора и размера буфера. Проведено исследование эффективности методов управления при различных значениях параметра d.

Рассмотрены зависимости вероятности потерь от размера буфера для 1-й системы обслуживания, а также доли от общих потерь, вносимые каждым из потоков, при ёмкости выходного канала 115-С„, (средняя нагрузка в системе равна 100-Ст), представленные на рис. 5 (слева).

0.01

1 '10 J

PI Pll

Pl2

Pl3 110

1 -10

1 -10 3

PI м

Р2

РЗ Р4

1 -10

1-10

Р5

Шг-в~®

1 -10

1 10 100 0.1 1 10 10 в в

Рис.5. Зависимость вероятности потерь от размера буфера для 1-й системы (слева) и для 5-ти систем (справа)

Из данных зависимостей видно, что вклад в вероятность потерь от конкретного потока отличается при различных значениях размера буфера. Эта зависимость имеет схожий характер с графиком изменения дисперсии выборочного среднего (рис. 4). Дополнительно к 1-й системе, рассмотрены зависимости вероятности потерь от размера буфера для 4-х систем с управлением при ¿=1,5 и ёмкости выходного канала 120-С„ представленные на рис. 5 (справа).

Из данных зависимостей видно, что с ростом размера буфера растёт эффективность применения управления только к требованиям 3-го потока (4-я система), относительно применения одинакового управления ко всем требованиям (2-я система). Уменьшение скорости передачи только для требований 1-го потока (3-я система) является неэффективным при больших значениях размера

буфера. Наименьшая вероятность потерь при средних значениях размера буфера достигается при применении управления, как к требованиям 2-го, так и 3-го потоков (5-я система). Таким образом, эффективность различных методов управления зависит от параметров системы — ёмкости канала и размера буфера. Потоки, к которым целесообразно применять управление, выбираются на основе соотношения масштаба времени, соответствующего конкретному потоку, и масштаба времени системы обслуживания, определяющегося временем заполнения буфера.

Также в четвёртой главе были представлены результаты моделирования трафика реальных \УеЬ-серверов, когда функции распределения объёма переданных данных соответствовали эмпирическим функциям распределения, полученным в главе 2. Таким образом, вместо системы с детерминированным размером файла для каждого потока, рассматривалась система с непрерывной функцией распределения. Другие параметры системы оставались без изменений: скорость передачи одного запрошенного файла постоянна Ст = 1 Мбит/с, средняя скорость передачи данных от \Veb-cepBepa была равна 100 Мбит/с.

Для всех систем обслуживания, рассмотренных выше, представлены результаты исследований вероятности переполнения буфера при различных значениях ёмкости канала маршрутизатора, размера буфера и параметра управления <1. Показано, что выводы о структуре трафика и эффективности методов управления им, сделанные для системы с детерминированным размером файла для каждого потока, также применимы и при управлении трафиком реальных \Veb-cepBepoB со случайной длиной файла но с ограниченной дисперсией этой величины, если в качестве единицы масштаба брать среднюю длину файла.

Дополнительно были рассмотрены системы, в которых размер файла был постоянен для каждого из потоков и равен величине среднего размера файла для трафика музыкального ресурса и мультимедийного портала. Показано, что для систем с детерминированным размером файла вероятность потерь немного меньше, чем для систем с непрерывной функцией распределения. Однако соотношение между долями потерь, вносимыми каждым из потоков, остаются примерно одинаковым для обеих систем. Кроме того, выводы, об эффективности методов управления трафиком, могут также распространяться и на реальные системы с непрерывной функцией распределения.

Основные результаты главы опубликованы в работах [5, 6, 10, 11, 14, 16].

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Проведён анализ свойств реального сетевого трафика, порождаемого различными \УеЬ-серверами, на вход которых поступают запросы пользователей на передачу файлов существенно различного размера. Показано, что для такого трафика характерна долговременная зависимость (оценка параметра Хёрста для трафика мультимедийного ресурса = 0,88).

2. Разработан метод разделения трафика сервера на несколько потоков, различающихся интенсивностью поступления запросов пользователей и объёмом переданной информации в рамках отдельной ТСР-сессии.

3. Разработана математическая модель трафика сервера данных, основанная на пуассоновских потоках запросов, где каждому из потоков соответствует свой временной масштаб. Такой подход даёт возможность анализировать долговременные зависимости трафика, используя компоненты, которым соответствует больший временной масштаб.

4. Исследована зависимость выборочной дисперсии нагрузки от времени агрегирования Т. Показано, что для конкретного потока при увеличении Г дисперсия начинает уменьшаться с высокой скоростью только для значений Т превышающих длительность обслуживания запросов пользователей. А поскольку длительность обслуживания требований различных потоков отличается существенно, то вклад, вносимый каждым потоком в суммарную дисперсию, зависит от того масштаба времени, в котором рассматриваются колебания трафика.

5. Показано, что с помощью предложенной модели можно сгенерировать трафик с характерными для самоподобного трафика свойствами.

6. Проведено исследование системы обслуживания с явными потерями и системы, в которой среднее время заполнения буфера маршрутизатора существенно меньше среднего времени передачи запрашиваемых файлов. Показано, что в этом случае можно не учитывать реальную структуру трафика, а ограничиться рассмотрением упрощённой модели с одним пуассоновским потоком на входе с суммарной интенсивностью и с соответствующей средней длительностью обслуживания запросов.

7. Рассмотрены методы управления скоростью передачи данных, поступающих от сервера к пользователям. Показано, что наиболее целесообразно применение управления к тем потокам, для которых среднее время передачи запрошенного файла сопоставимо со временем заполнения буфера маршрутизатора, обслуживающего трафик сервера данных.

8. Проведено моделирование системы с использованием данных наблюдений реального Web-трафика. Показано, что выводы об эффективности методов управления трафиком сервера, полученные на основании исследования системы в рамках предложенной модели, могут быть распространены на реально существующие системы.

ПУБЛИКАЦИИ ПО МАТЕРИАЛАМ ДИССЕРТАЦИИ

В ведущих периодических изданиях, входящих в перечень ВАК

1. Титов И.Н. О свойствах трафика сервера, предоставляющего данные различного объёма // Обозрение прикладной и промышленной математики. 2010. Т. 17, №.5. С. 770-771.

2. Титов И.Н. Исследование характеристик потоков данных, генерируемых Web-сервером // T-Comm - телекоммуникации и транспорт. 2010. №5. С. 30-34.

17

3. Титов И.Н. Исследование модели трафика сервера данных по результатам измерений трафика мультимедийного ресурса // T-Comm - телекоммуникации и транспорт. 2011. №5. С. 46-49.

4. Titov I., Tsitovich I., Poryazov S. Use of time-scale for analysis of data source traffic. BWWQT 2013. Berlin: Springer-Verlag. Communications in Computer and Information Science. 2013. Vol. 356. - P. 187-197.

В других изданиях

5. Цитович И.И., Титов И.Н. О методе управления трафиком данных пользователя NGN сетей // РНТОРЭС им. А.С. Попова. Научная сессия, посвященная Дню радио. B.LXII. М.: Инсвязьиздат. 2007. С. 235-236.

6. Цитович И.И., Титов И.Н. Сравнительный анализ эффективности некоторых методов управления скоростью сервера данных // 30-я конференция молодых учёных и специалистов ИППИ РАН: Информационные технологии и системы ИТиС'07. М.: ИППИ РАН. 2007. С. 189-192. -

7. Цитович И.И., Титов И.Н. Исследование свойств мультиплексирования потоков в мультисервисных сетях //31-я конференция молодых учёных и специалистов ИППИ РАН: Информационные технологии и системы ИТиС'08. М.: ИППИ РАН. 2008. С. 9-13.

8. Цитович И.И., Титов И.Н. Об особенностях трафика данных сервера, предоставляющего данные различного объёма // РНТОРЭС им. А.С. Попова. Научная сессия, посвященная Дню радио. B.LXIV. М.: Инсвязьиздат. 2009. С. 345-347.

9. Цитович И.И., Титов И.Н. Об эффекте самоподобия трафика сервера, предоставляющего данные различного объёма // 32-я конференция молодых учёных и специалистов ИППИ РАН: Информационные технологии и системы ИТиС'09. М.: ИППИ РАН. 2009. С.104-107.

10. Цитович И.И., Титов И.Н. Исследование вероятности переполнения буфера при обслуживании трафика сервера, предоставляющего данные различного объёма //33-я конференция молодых учёных и специалистов ИППИ РАН: Информационные технологии и системы ИТиС'Ю. М.: ИППИ РАН. 2010. С. 247-251.

11. Цитович И.И., Титов И.Н. Об эффективности методов управления трафиком сервера данных // Всероссийская конференция с международным участием «Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем». М.: РУДН. 2011. С. 55-58.

12. Цитович И.И., Титов И.Н. О свойствах оценки параметра Хёрста трафика данных сервера при различном объёме запрашиваемых данных // РНТОРЭС им. А.С. Попова. Научная сессия, посвященная Дню радио. B.LXVI. М.: Инсвязьиздат. 2011. С. 262-265.

13. Цитович И.И., Титов И.Н. О временном масштабе в математической модели источника нагрузки с бесконечной дисперсией времени обслуживания // Информационные процессы. Т. 11, № 3, 2011. С. 369-377.

18

14. Цитович И.И., Титов И.Н. Анализ эффективности управления трафиком Web сервера по данным реального трафика музыкального ресурса // 34-я конференция молодых учёных и специалистов ИППИ РАН: Информационные технологии и системы ИТиС'11. М.: ИППИ РАН. 2011. С. 70-74.

15. Цитович И.И., Титов И.Н. О свойствах дисперсии трафика сервера данных и вероятности потерь при его обслуживании // Всероссийская конференция с международным участием «Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем». М.: РУДН. 2012. С. 61-63.

16. Цитович И.И., Титов И.Н. Анализ вероятности потерь при обслуживании трафика мультимедийного ресурса. // 35-я конференция молодых учёных и специалистов ИППИ РАН: Информационные технологии и системы ИТиС'12. М.: ИППИ РАН. 2012. С. 484-489.

Подписано в печать 03.03.2013г.

Усл.пл. - 1.0 Заказ №12602 Тираж: 100 экз.

Копицентр «ЧЕРТЕЖ.ру» ИНН 7701723201 107023, Москва, ул.Б.Семеновская 11, стр.12 (495) 542-7389 www.chertez.ru

Текст работы Титов, Иван Николаевич, диссертация по теме Системы, сети и устройства телекоммуникаций

ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО СВЯЗИ МОСКОВСКИЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ СВЯЗИ И ИНФОРМАТИКИ

На правах рукописи

04201355445

Титов Иван Николаевич

Применение масштаба времени для описания, анализа свойств и управления информационными потоками

сервера данных

Специальность 05.12.13 - Системы, сети и устройства телекоммуникаций

Диссертация

на соискание ученой степени кандидата технических наук

Научный руководитель д.ф.-м.н., профессор каф. ИСиС Цитович И.И.

Москва, 2013.

Содержание

Список сокращений................................................................................................4

Список обозначений...............................................................................................6

Введение...................................................................................................................8

Глава 1. Анализ функционирования Web сервера.............................................21

1.1. Введение....................................................................................................21

1.2. Математические модели, используемые для описания сетевого трафика................................................................................................................25

1.3. Об исследовании свойств трафика Web серверов.................................31

1.4. О размере буфера маршрутизатора........................................................46

1.5. Анализ архитектуры Web сервера..........................................................50

1.6. Анализ методов управления сетевым трафиком,..................................59

1.7. Выводы......................................................................................................66

Глава 2. Исследование свойств трафика Web серверов....................................68

2.1. Введение....................................................................................................68

2.2. Исследование характеристик потоков данных, генерируемых музыкальным ресурсом.....................................................................................69

2.3. Исследование свойств трафика, генерируемого мультимедийным порталом..............................................................................................................77

2.4. Исследование корреляционных зависимостей потоков данных, генерируемых мультимедийным порталом.....................................................86

2.5. Выводы......................................................................................................95

Глава 3. Математическая модель источника нагрузки, порождающего потоки, которым соответствуют различные масштабы времени...................................96

3.1. Введение....................................................................................................96

3.2. Математическая модель источника нагрузки с «бесконечной» дисперсией времени обслуживания.................................................................98

3.3. Математическая модель, используемая при численных исследованиях..................................................................................................104

3.4. Оценка параметра Хёрста трафика сервера данных при различных

значениях параметра к.....................................................................................110

г

3.5. Выводы....................................................................................................117

Глава 4. Результаты исследования эффективности некоторых методов управления скоростью передачи данных сервера...........................................119

4.1. Введение..................................................................................................119

4.2. Исследование свойств трафика сервера данных при различных значениях параметра к.....................................................................................122

4.3. Анализ вероятности переполнения буфера при различных параметрах системы обслуживания....................................................................................125

4.4. Исследование зависимости вероятности переполнения буфера от параметров управления...................................................................................129

4.5. Анализ зависимости вероятности потерь от размера буфера............142

4.6. Результаты моделирования трафика музыкального ресурса.............149

4.7. Моделирование трафика мультимедийного портала..........................155

4.8. Выводы....................................................................................................160

Заключение..........................................................................................................163

Литература...........................................................................................................165

Приложение.........................................................................................................173

ПЛ. Результаты исследования функция распределения объёма переданных данных.........................................................................................173

П.2. Результаты анализа свойств входного потока.....................................173

П.З. Результаты исследования характеристик трафика, генерируемого мультимедийным порталом............................................................................178

П.4. Результаты оценки параметра Хёрста..................................................180

П.5. Зависимости вероятности потерь от параметров системы обслуживания...................................................................................................181

П.6. Результаты исследования вероятности потерь при обслуживании трафика реальных Web серверов....................................................................188

Список сокращений

ASIC Application-Specific Integrated Circuit - интегральная схема для специфического применения

ATM Asynchronous Transfer Mode - асинхронный способ передачи данных

BMAP Batch Markovian Arrival Process - групповой марковский входной поток

CPU Central Processing Unit - центральное процессорное устройство

DCBR Data-Center Border Router - граничный маршрутизатор центра обработки данных

DPI Deep Packet Inspection — глубокий анализ пакетных данных

DRAM Dynamic Random Access Memory - динамическая память с произвольным доступом

FIFO First In, First Out - «первым пришел - первым обслужен»

GSM Global System for Mobile Communications - глобальная система радиосвязи с подвижными объектами

HTML HyperText Markup Language - язык разметки гипертекста

HTTP HyperText Transfer Protocol - протокол передачи гипертекста

HTTP S HyperText Transfer Protocol Secure - протокол защищенной передачи гипертекста

IP Internet Protocol - протокол сети Интернет

ISP Internet Service Provider - поставщик Интернет-услуг

LTE Long Term Evolution - долговременное развитие

MAP Markovian Arrival Process - марковский входной поток

P2P Peer-to-peer - «равный к равному»

PLIM Physical Layer Interface Module - интерфейсный модуль физического уровня

QoS Quality of Service - качество услуг (связи)

RTT Round-Trip Time - время на передачу и подтверждение приема

SRAM Static Random Access Memory - статическая оперативная память с произвольным доступом

SSL Secure Socket Layer - уровень защищенных сокетов

TCP Transmission Control Protocol - протокол управления передачей

TCP-LP Transmission Control Protocol Low Priority - протокол управления передачей с низким приоритетом

UDP User Datagram Protocol - протокол пользовательских дейтаграмм

UMTS Universal Mobile Telecommunications System - универсальная мобильная телекоммуникационная система

URL Uniform Resource Locator - единый указатель ресурсов

WWW World Wide Web - «всемирная паутина»

АКФ Автокорреляционная Функция

ФГШ Фрактальный Гауссовский Шум

ЦОД Центр Обработки Данных

ЭФР Эмпирическая Функция Распределения

Список обозначений

х - среднее значение объёма переданных данных в рамках отдельной TCP сессии;

х - медианное значение (квантиль 0,5) объёма переданных данных в рамках отдельной TCP сессии;

х^ - максимальное значение объёма переданных данных в рамках отдельной TCP сессии;

Xt - интенсивность поступления требований /-го потока на передачу файлов с сервера данных;

Л - суммарная интенсивность поступления запросов пользователей на передачу файлов;

а - длительность обслуживания запроса пользователя, т.е. время, которое необходимо серверу для передачи запрошенного файла;

д,- - средняя длительность обслуживания требований /-го потока; Pi - вероятность поступления на сервер данных запроса из /-го потока; А - средняя длительность обслуживания требований в системе; ст - среднеквадратическое отклонение времени обслуживания требований в системе;

у/'^ - случайная составляющая объёма данных поступивших за время t от сервера при обслуживании запросов /-го потока;

Д - дисперсия трафика сервера, создаваемого /-м потоком запросов пользователей;

а, - среднеквадратическое отклонение для трафика сервера, создаваемого /-м потоком требований;

к - параметр, определяющий отношение между длительностями обслуживания требований двух различных потоков;

и - ёмкость выходного канала сервера данных;

Ст - скорость передачи одного файла, запрошенного пользователем;

С - ёмкость выходного канала маршрутизатора, через который проходит трафик генерируемый сервером данных;

В - размер буфера на выходном канале маршрутизатора, обслуживающего трафик сервера;

Н - параметр Хёрста;

с1 - параметр, определяющий во сколько раз уменьшается скорость передачи данных для требований из определённого потока (при применении управления только к этому потоку);

- параметр, определяющий во сколько раз уменьшается скорость передачи данных для требований из /-го потока (при применении управления к нескольким потокам);

с1ср - параметр, определяющий во сколько раз увеличивается средняя

длительность обслуживания требований А при введении управления;

Ск1 - нагрузка на выходном канале сервера данных, создаваемая г-м потоком требований (где к — это номер системы обслуживания);

Вк - объём данных, находящихся в буфере маршрутизатора, через который проходит трафик генерируемый сервером;

Вк1 - условное значение объёма ресурсов буфера, задействованного г-м потоком;

Рк{ - условная вероятность переполнения буфера, соответствующая доле потерь, обусловленной обслуживанием трафика /'-го потока;

Введение

Актуальность работы. Сети с коммутацией пакетов являются существенно более эффективными, чем сети с коммутацией каналов, поскольку в них не резервируется фиксированная полоса пропускания для каждого соединения. Вместо этого пакеты данных отправляются независимо, используя любую доступную ёмкость. Поэтому эффективность использования каналов в сетях с коммутацией пакетов значительно выше. Но возникает задача предотвращения перегрузок на промежуточных маршрутизаторах, когда они получают на входных каналах больше пакетов, чем могут отправить через выходные каналы. С кратковременными перегрузками можно справиться, используя буферы для временного хранения пакетов, но длительная перегрузка может привести к потере пакетов, когда буфер переполняется.

Сегодня управление перегрузками в Интернет остаётся активной областью для исследований. Постоянно выдвигаются новые идеи для дальнейшего увеличения чувствительности и эффективности методов управления перегрузками, вводятся новые сигналы о перегрузке и т.д. Кроме того, развитие Интернет предъявляет новые требования, например, управление трафиком большого объёма, генерируемого приложениями коллективного доступа к файлам, и трафиком Web серверов, содержащих мультимедийные файлы, которые существенно отличаются по своему размеру.

Существует две ключевые проблемы в исследовании управления перегрузками. Во-первых, требуется детальное статистическое и математическое описание Интернет трафика. Понимание его структуры и особенностей должно обеспечивать прочный фундамент для анализа новых идей по управлению трафиком и усовершенствования существующих. Во-вторых, высокая сложность системы приводит к необходимости дополнительных теоретических исследований, включающих в себя разработку математической модели сетевого трафика, имитационное моделирование и экспериментальные исследования в лабораторных условиях. Такие исследования способны в значи-

тельной степени воспроизвести сложность многоуровневой, высоко динамичной природы инфраструктуры Интернет. Но для того чтобы экспериментальные исследования и моделирование были показательными, они должны воспроизводить известные характеристики реального трафика в сети.

Анализ трафика в высокоскоростных сетях показывает, что такой трафик обладает свойствами, характерными для самоподобного трафика. За последние 20 лет этой тематике посвящено большое число работ. Отметим работы О.И. Шелухина [32], М. Crovella [51-53], A. Feldmann [57], S. Floyd [59, 77, 86], W. Leland [73], V. Paxson [77, 85, 86, 101], W. Willinger [57, 61, 73, 88, 101], и др. Однако математический анализ моделей, основанных на самоподобных процессах, является очень сложным для анализа и создания на их основе инженерных методик управления трафиком.

С другой стороны, традиционные модели телетрафика являются хорошо изученными. Разработке математических моделей трафика, а также методов управления им посвящены работы отечественных и зарубежных исследователей Г.П. Башарина [1-3], Ю.В. Гайдамаки [1, 2, 5, 33], В.А. Ефимушкина [7,8], А.П.Пшеничникова [11], К.Е. Самуйлова [1, 2], C.H. Степанова [10, 13-16], А.Д. Харкевича [11], V. Iversen [69], L. Kleinrock [9] и др. Но необходимо отметить, что классические модели теории телетрафика не всегда могут обеспечить достаточно точное описание реального трафика в современных сетях передачи данных, включая долговременные зависимости.

В традиционных моделях телетрафика масштаб времени, соответствующий системе обслуживания, определяется на основании средней длительности обслуживания запросов пользователей и данная величина не сильно отличается для различных требований. Однако в настоящее время существенную долю ресурсов в Интернет составляют файловые серверы, содержащие данные различного типа и объёма. Причём размер файлов и, соответственно, длительность их передачи отличаются значительно для файлов различного типа. Трафик, порождаемый такими серверами, можно разделить на группы в

зависимости от объёма запрашиваемых данных.

9

Таким образом, является актуальной задача разработки математической модели, которая бы могла адекватно отображать основные свойства трафика, генерируемого современными серверами данных, но при этом была бы основана на классических и хорошо изученных моделях телетрафика. Для этого необходимо провести анализ свойств трафика реальных серверов в Интернет для выявления основных особенностей такого трафика, а также разработать методов управления им для предотвращения перегрузок в сети.

Объектом исследования является сервер данных, на вход которого поступают запросы пользователей на передачу файлов различного размера.

Предметом исследования являются характеристики информационных потоков, генерируемых сервером данных, исследование которых позволяет разработать наиболее эффективные методы управления трафиком сервера.

Цель работы и задачи исследования. Целью диссертации является исследование влияния масштаба времени на свойства информационных потоков сервера данных.

Для достижения поставленной цели в диссертации проведены следующие исследования:

• анализ свойств реального сетевого трафика, порождаемого различными Web серверами, на вход которых поступают запросы пользователей на передачу файлов существенно различного размера;

• разработка математической модели трафика сервера данных, в которой каждому из потоков соответствует свой временной масштаб;

• проведение имитационного моделирования трафика сервера данных и исследование факторов, влияющих на вероятность потерь при его обслуживании;

• разработка методов управления скоростью передачи данных, поступающих от сервера, и оценка их эффективности при различных значениях параметров системы обслуживания потоков запросов.

Методы исследования. Для решения поставленных задач используются

методы теории сетей связи, теории вероятностей и математической статисти-

10

ки, теории массового обслуживания и методы математического моделирования.

Достоверность результатов. Достоверность результатов обеспечивается адекватностью используемых методов математической статистики и теории вероятностей, верификацией математической модели, а также сравнением аналитических результатов с результатами математического моделирования.

Научная новизна результатов.

1. На основании исследования трафика двух мультимедийных ресурсов впервые предложен метод разделения трафика сервера на несколько потоков, соответствующих различным типам запросов, основанный на анализе скорости изменения функции распределения объёма переданных данных.

2. Разработана математическая модель, позволяющая анализировать долговременные зависимости сетевого трафика, используя компоненты, которым соответствует большой временной масштаб. В отличие от самоподобного трафика этот подход даёт возможность использовать классические модели телетрафика для исследования процессов, которые обычно описываются процессами с долговременными зависимостями.

3. Впервые предложены методы управления трафиком, основанные на индивидуальных особенностях потоков данных, генерируемых сервером. Показано, что эффективность этих методов зависит не только от свойств сетевого трафика, но и от характеристик сетевых узлов и каналов, через которые проходит этот трафик.

Личный вклад: все основные научные положения и выводы, составляющие содержание диссертации, разработаны соискателем самостоятельно. Теоретические и практические исследования, а также вытекающие из них выводы и рекомендации проведены и получены автором лично.

Практическая ценность и реализация результатов работы: выполненные в диссертационной работе исследования, а также предложенные инженерные методики могут быть использованы для управления скоростью пе-

11

редачи данных в современных сетях пакетной передачи данных. Это управление может осуществляться на отдельном сервере, на границе сети центра обработки данных, в котором располагаются различные серверы данных, и на границе сети оператора, предоставляющего пользователя�