автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов

кандидата технических наук
Хоанг Жанг
город
Воронеж
год
2015
специальность ВАК РФ
05.13.11
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов»

Автореферат диссертации по теме "Разработка средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов"

9 15-5/1121

На правах рукописи

ХОАНГ ЖАНГ

РАЗРАБОТКА СРЕДСТВ УПРАВЛЕНИЯ НАГРУЗКОЙ 1НОГОСЕРВЕРНЫХ СИСТЕМ НА ОСНОВЕ МАСШТАБИРУЕМЫХ МАРКОВСКИХ ПРОЦЕССОВ

и-циальность: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Воронеж 2015

Работа выполнена в ФГБОУ ВПО «Воронежский государственный технический университет».

Научный руководитель: Кравец Олег Яковлевич, доктор технических

наук, профессор

Официальные оппоненты: Баранов Владимир Александрович, доктор

технических наук, доцент, ГКОУ ВПО "Академия Федеральной службы охраны Российской Федерации", профессор кафедры радиосвязи

Абрамов Петр Борисович, кандидат технических наук, доцент, Военный учебно-научный центр Военно-воздушных сил "Военно-воздушная академия им. проф. Н.Е.Жуковского и Ю.А.Гагарина", ст. преподаватель кафедры автоматизированных систем управления

Ведущая организация: ФГБОУ ВПО «Липецкий государственный

технический университет»

Защита состоится «21 » декабря 2015 года в 13°° часов в конференц-зале на заседании диссертационного совета Д 212.037.01 ФГБОУ ВПО «Воронежский государственный технический университет» по адресу 394026, г. Воронеж, Московский просп., д. 14.

С диссертацией можно ознакомиться в научно-технической библиотеке ФГБОУ ВПО «Воронежский государственный технический университет» и на сайте www.vorstu.ru.

Автореферат разослан «21» октября 2015 г.

Ученый секретарь диссертационного совета

Барабанов Владимир Федорович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Практическое применение методов управления многосерверными системами приобретает всё большую популярность, их исследованию посвящено большое количество работ. Многообразие методов и способов их описания порождает проблему исследования поведения таких систем и различных рабочих нагрузок, как в части типизации, так и масштаба.

Для исследования поведения систем и рабочих нагрузок могут быть использованы приближенные способы описания, которые ввиду огрубления параметров не позволяют обеспечить нужную степень адекватности. Вследствие этого, актуальной является задача унифицированного описания таких систем, в которых, с одной стороны, каждый узел имеет конечную емкость (т.е. каждый запрос, попадающий в заполненный узел, отклоняется, как в сетях с потерями), а с другой - в которых запросы посещают подмножество узлов в соответствии с некоторым случайным маршрутом, как в сетях Джексона или Келли.

Поскольку объем данных постоянно увеличивается, все больше и больше используются центры обработки данных (дата-центры) для принятия эффективных решений и получения конкурентного преимущества. Для глубоко распределенных многосерверных систем важны три приложения в Интернет-сервисах: поисковые системы, социальные сети и электронная коммерция, согласно широко применимому метрическому показателю - количеству просмотров и посетителей. Приложения анализа данных играют важную роль в центрах обработки данных, и, следовательно, стало более важным понимание их поведения в целях дальнейшего повышения эффективности центра обработки данных и компьютерных систем. Необходим учет архитектуры исполняющих платформ и типизация репрезентативных нагрузок.

Традиционно выделяется три категории нагрузок в высоконагруженных системах: услуги, обработка данных приложений и интерактивные приложения реального времени, причем все связаны с пропускной способностью. Вместе с тем, вопросы интегрированного управления нагрузками центра обработки данных в контексте указанных трех категорий рабочих нагрузок не исследовались. Необходим гибкий алгоритм тестировакия рабочих нагрузок в многосерверных системах, позволяющий в процессе тестирования подобрать метрику оценки параметров интегральной нагрузки.

Таким образом, актуальной является задача разработки средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов, алгоритмов тестирования и кроссплатформенных инструментов, обеспечивающих гибкие средства хранения рбъектной модели произвольной предметной области.

Работа выполнена в ФГБОУ ВПО «Воронежский государственный технический университет» в рамках научного направления «Вычислительные ком-

плексы и проблемно-ориентированные системы управления».

Цель работы заключается в разработке средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов, алгоритмов тестирования нагрузки и кроссплатформенных инструментов, обеспечивающих гибкие средства хранения объектной модели произвольной предметной области.

Для достижения поставленной цели в диссертационной работе сформулированы следующие задачи:

- провести анализ существующих моделей, алгоритмов и средств управления многосерверными системами высокой нагруженности, применяемых в распределенных вычислительных системах;

-создать математическое описание модифицированных стохастических сетей, совмещающих свойства сетей с .потерями и сетей Джексона;

- доказать наличие при определенных условиях наличие в высоконагру-женных системах, описываемых масштабируем марковским процессом, стационарной точки;

- разработать механизмы тестирования рабочих нагрузок в многосерверных системах, учитывающие тип нагрузки и многообразие метрик оценки параметров нагрузки;

- исследовать свойства рабочих нагрузок приложений анализа данных в многосерверных системах в зависимости от особенностей исполняющей платформы;

-разработать кроссплатформенные инструменты, обеспечивающие гибкие средства хранения объектной модели произвольной предметной области .

Методы исследования. В качестве теоретической и методологической основы диссертационного исследования использованы методы математического моделирования, оптимизации, теории вероятностей и математической статистики, технологии объектно-ориентированного программирования.

Тематика работы соответствует следующим пунктам паспорта специальности 05.13.11: п.9 «Модели, методы, алгоритмы и программная инфраструктура для организации глобально распределенной обработки данных», п. 10 «Оценка качества, стандартизация и сопровождение программных систем».

Научная новизна. В работе получены следующие результаты, отличающиеся научной новизной:

- математическое описание модифицированных стохастических сетей, отличающееся комбинированным рассмотрением узлов сети конечной емкости с отклонением запросов, попадающих в заполненные очереди, и наличием динамического случайного маршрута посещения узлов запросами, обеспечивающее динамическое совмещение характеристик двух важных классов сетей массового обслуживания - сетей с потерями и сетей Джексона;

-доказательство сходимости масштабируемого марковского процесса к

детерминированной динамической системе с единственной стационарной точкой, отличающееся использованием метода неподвижной точки и обеспечивающее описание системы со входным потоком и емкостью узлов, масштабируемых стремящимся к бесконечности коэффициентом;

- гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах, отличающийся динамической идентификацией типа нагрузки и позволяющий в процессе тестирования подобрать метрику оценки параметров нагрузки;

- свойства рабочих нагрузок приложений анализа данных в многосерверных системах, отличающиеся учетом особенностей исполняющей платформы и обеспечивающие кластеризацию программных архитектур для управления нагрузкой типа «анализ данных».

Практическая значимость заключается в создании кроссплатформенного веб-приложения, которое обеспечит пользователей гибким инструментом для хранения объектной модели произвольной предметной области, с целью оперативного формирования средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов.

Реализация и внедрение результатов работы. Результаты исследований используются в системе управления информационной системой компании Mott MacDonald (Великобритания, представительство во Вьетнаме) для обеспечения регламентных параметров реакции системы на запросы пользователей и управление транзакциями в распределенной СУБД.

Основные результаты работы внедрены в учебный процесс Воронежского государственного технического университета в рамках дисциплин: «Вычислительные машины, системы и сети», «Информационные сети и телекоммуникационные технологии», а также при выполнении курсового и дипломного проектирования.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях: XII Международной научно-практической конференции «Современные инструментальные системы, информационные технологии и инновации» (Курск, 2015), Международной научно-практической конференции «Advanced models and technologies in computer networks» (Yelm, WA, USA, 2015),: XX-th Международной открытой научной конференции «Modem informatization problems in economics and safety» (Yelm, WA, USA, January 2015), Международной летней научной школе «Парадигма» (Варна, Болгария, 2015), а также на конференциях профессорско-преподавательского состава Воронежского государственного технического университета (Воронеж, 2014-2015).

Публикации. По теме исследования опубликовано 12 работ, отражающих основных положения исследования, среди которых 4 публикации в журналах, рекомендованных ВАК РФ. В работах, опубликованных в соавторстве и приведенных в конце автореферата, лично соискателю принадлежат: в [2, 9] - матема-

тическое описание модифицированных стохастических сетей, отличающееся комбинированным рассмотрением узлов сети конечной емкости с отклонением запросов, попадающих в заполненные очереди, и наличием динамического случайного маршрута посещения узлов запросами; в [4] - исследование сходимости масштабируемого марковского процесса к детерминированной динамической системе с единственной стационарной точкой, отличающаяся использованием метода неподвижной точки; в [5, 6] - гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах, отличающийся динамической идентификацией типа нагрузки; в [1, 3, 10, 12] — исследование свойств рабочих нагрузок приложений анализа данных в многосерверных системах, отличающиеся учетом особенностей исполняющей платформы.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав с заключениями и выводами. Работа содержит 132 страницы основного текста, 12 таблиц, 34 рисунка. Список использованной литературы включает 160 наименований.

ОСНОВОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, определены цели и задачи работы, научная новизна, практическая значимость, отмечены основные результаты исследования, выносимые на защиту; приведены сведения об апробации работы.

В первой главе представлен анализ проблем программного управления нагрузкой многосерверных систем и тестирования нагрузки. Проведен сравнительный анализ научных работ, аналогичных по проблематике данной диссертации. Показано, что решение задач в подобных системах производится на основе огрубления моделей.

Проведен критический анализ методов измерения производительности и выбора тестовых показателей для анализа нагрузок в дата-центрах. Показано, что стратегическая задача - моделирование сложных сценариев использования распределенных и облачных вычислений для целей планирования емкости, оценки системы и исследований.

Проведенный далее анализ данных и служебных нагрузок дата-центров показал, что при их исследовании главной проблемой является кластеризация параметров для сравнений различных вычислительных парадигм. С точки зрения рабочей нагрузки и соответствующих показателей, как высокопроводящие, так и высокопроизводительные вычисления относятся к сфере научных вычислений, развернувшихся вокруг операций с плавающей точкой, в то время как большинство приложений «большого объема вычислений» имеют несколько операций с фиксированной точкой.

Исследованы особенности и показана необходимость разработки кросс-платформенного веб-приложения для хранения объектной модели произвольной предметной области как рабочего инструмента системы управления рабочими нагрузками.

На основании проведенного анализа и обозначенных проблем сформулированы цели и задачи диссертационного исследования, в основе которых лежит разработка средств управления нагрузкор многосерверных систем на основе масштабируемых марковских процессов, алгоритмов тестирования нагрузки и кроссплатформенных инструментов, обеспечивающих гибкие средства хранения объектной модели произвольной предметной области.

Во второй главе анализируются стохастические сети, состоящие из узлов, имеющих конечную емкость. В сети используются разные классы запросов, которые перемещаются в соответствии с некоторой политикой маршрутизации. Марковские процессы, описывающие эти сети, не имеют, в общем, свойства обратимости, следовательно явное выражение их распределений неизвестно. Определен режим сильной загрузки: скорость прибытия запросов, так же как и емкость узлов пропорциональна коэффициенту, стремящемуся к бесконечности.

Предполагая Пуассоновское распределение прибытия вызовов и экспоненциальное время нахождения в каждом узле, временная эволюция такой сети с N узлами может быть представлена как скачкообразный Марковский процесс Х(1) со значениями в некотором конечном (но большом) множестве 5. Оказывается, что, в отличие от сетей с потерями, Марковский процесс Х(1) в общем случае необратим или квазиобратим. Следовательно, в отличие от сетей Джексона (и им подобных) или чистых сетей с потерями, эти сети не имеют стационарного распределения в мультипликативной форме.

Сеть состоит из конечного множества I узлов, узел ¡е1 имеет емкость [С|М], где С]>0 и N - натуральное. Сеть получает конечное число классов клиентов индексированных конечным множеством Я; класс ге Я клиентов поступает в сеть в соответствии с Пуассоновским процессом в потоке Я^, где ^ > 0.

Развитие сети во времени можно в общем случае описать следующим образом. Стохастический процесс Хк(0, связанный с состоянием сети для введенного параметра N есть вектор, описывающий количество запросов разных класов на узлах сети. Получаем следующее уравнение развития сети

¿ХМ(1) = РМ(ХК0))+ММ(1), 1>о.

где Мы(1) - мартингал, который стремится к нулю при больших N. Рм - достаточно сложная функция (связанная с генератором соответствующего Марковского процесса), сходящаяся к некоторому пределу Р. Доказано, что при N —»Хм(0 сходится к функции удовлетворяющей соотношению

¿х(1) = Р(х(1)), 1>0. (1)

Точки равновесия ограничивающих процессов - это решения х уравнения Р(х) = 0.

• Продолжительность вызова. Клиент класса г, который ни разу не выходит из сети во время своего перемещения по сети, затрачивает экспоненциально распределенное время с параметром //, (продолжительность вызова в контексте мобильных сетей). Вариант с «г=0 не исключен и соответствует случаю, когда клиент постоянно находится в сети до тех пор, пока он не удаляется из сети, то есть пока он не войдет в заполненный узел.

• Время ожидания. Время пребывания клиента класса г в любом узле iel распределено экспоненциально с параметром уг. Таким образом, клиент может покинуть узел до окончания времени ожидания в связи с окончанием вызова (определяется параметром fir).

• Маршрутизация. Клиент класса г, входящий в сеть, прибывает в некоторый случайный (определяемый законом распределения qr) узел множества 7, и затем он перемещается от одного узла к другому, либо за пределы сети (обозначим как узел 0) в соответствии с некоторой матрицей переходов р(г) на 1х1и{0}. Изменяя параметр времени пребывания, без потери общности можно предположить, что матрица р<г) имеет нули на диагонали.

• Требование к емкости. Все клиенты занимают одинаковую емкость, находясь в любом узле.

Все случайные процессы, описывающие поступление вызовов, время пребывания в узле или продолжительность вызовов считаются независимыми.

Определенный выше класс сетей рассматривает клиентов с детерминированным маршрутом, как в сетях Келли и клиентов с Марковским маршрутом, как в сетях Джексона. На рис. 1 представлена сеть с двумя типами клиентов.

Клиенты типа 1 следуют по определенному маршруту, в то время, как клиенты типа 2 могут из узла 4 попасть в узел 1 или 3, емкость узлов равна 5. Некоторые классы операций могут следовать по бесконечному маршруту (циклу) в сети.

Определение. Для iel, reR и

t>0, X£(t) определяет число клиентов Рис. 1. Сеть с двумя типами клиентов юмсса г в узле j во время t

XN(t) = {X^(t),ie I,re R} есть соответствующий процесс. Нормированный процесс определяется как

X»(t)=ix»(t).H XN(t) = {X£(t),ie I,re R}.

Обозначим множество узлов, которые могут быть посещены клиентом класса г, как 1гс1, то есть ie 1г когда i посещается с положительной вероятностью Марковской цепи с матрицей переходов р(г> и начальным распределением qr.

А,Л<

• 1

A,iV

ШО-

ПЕ

к

Предполагается, что I = 1ЛГ • Пространство состояний Марковского процесса

геЯ

Хы(1) определяется как

г

х^ = 0, если i й 1г

С)-матрица Ам (х, у) для Хы (I) определяется следующим образом:

- Прибытие в узел г клиента класса г. А„(х,х + еи) = ^N4,(0' (х+е,„йы)

- Завершение обслуживания, уход из узла или выход из сети:

Ак(х,х-еи) = х;>г(цг+7гХр(г)(У)' (х+е^)+7ГР(г,а,0));

- Перемещение из узла 1 в узел j:

Ам (х, х - е^ + е^) = 7гхир(Г) (ц .0 • ,б3н). где екг - единичный вектор в координатах (¡, г). Пространство состояний нормированного процесса Xм(I) задается следующим образом:

[х = (хи)е- **

1 Л, т '

[х^ =0,если1е 1г нижний индекс с = (с,) у %с относится к вектору емкостей.

Для описания эволюции сети во времени вводится процесс означающий Пуассоновский процесс с параметром ^ > 0, процесс с верхним индексом • "",(1 е • вводится, когда нужно несколько таких Пуассоновских процессов. Пример: Их ч (1) для ¡е I и ге Я описывает Пуассоновский процесс поступления клиентов класса г в узел ¡. Аналогично, для к>1 , - Пуассоновский процесс, связанный с перемещением к-го клиента класса г из узла 1 в узел ]"е1и{0}.

Для и (1,г)е 1хЯ, У/ЧО = .

г

Величина У(К(Ч) обозначает число свободных мест в узле г Процесс Х1^) может быть представлен как решение следующего стохастического интегрального уравнения:

, 0 , и о (2)

- I II*

)ЕМ0) кг1 о к21 о

Здесь А^-) обозначает предел слева функции Г в момент времени 1

Утверждение 1. Если начальное состояние Xм(0) сходится к хе %с при N —», то в топологии Скорохода Xм (I) сходится к решению х(1) следующего дифференциального уравнения: для (¡,г) е I х Я ,

^xu(t)=^rqr(i) + YrXxj,(t)p(I)(j,i)jxi(x(t))-(Yr+цI)xiJ(t)

II, если Тхи<С(,

г

р'к л 1, в остальных случаях где алЬ=пип(а,Ь) для а,Ье • и

(3)

1

Утверждение 1 показывает, что точки равновесия хе ограниченной динамической системы, т.е. те х, которые удовлетворяют условию х'^) = 0 для любых (¡,г)е и I >0, когда (х;г(0)) = х, являются решениями следующего набора уравнений:

(Уг+Мт)Хы =

(4)

Утверждение 2 (Характеристика точек равновесия). Точки равновесия ограничивающей динамической системы есть элементы хе%с такие, что существует некоторое 1е (0,1]1, удовлетворяющее следующим условиям:

1. Для любых (1,г)е1*1{, (

ОАС) + Рг5>*Р(г)а0

(5)

2. Для любых т I, справедливо, что либо ?,=7 либо ^ х1>г = с1,

где аг = ХТ /(уг + щ) и |3Г = уг /(уг + |1Г) для геЛ.

Утверждение 3 (Существование точки равновесия). Точки равновесия динамической системы по утверждению 1 есть неподвижные точки из %с для функции Фс, объявленной следующим образом для х е %с:

(6)

( и

ф<= ©с,

\ \Л

агчга)+РгХх;>гр(г)ал),гея

где для ъ > 0 и ие [0,+°°)к

>л л

,1е I

)) /

0,(4) =

л1

Функция Фс имеет по крайней мере одну неподвижную точку. Утверждение 4 (Вероятностное представление). Если ¡в (0, 1]' таково, что система уравнений (5) имеет решение то это решение единственно и может быть представлено как

( -к» к Л

= ссг

Xffl'z,

к=0 р=0

V(i,r)e I xR,

(7)

где (7!'] )есть Марковская цепь с матрицей переходов р"'(', ') и начальным распределением ц,.

Утверждение 5 (Уникальность точек равновесия). Сугцествует уникальная точка равновесия динамической системы (х|Д1),(1,г)е 1хЯ), определяемой выражением

ХС/г + < X Vb(0 + УгХхмР'Г,0'')

(8)

Таким образом,

- создано математическое описание модифицированных стохастических сетей, отличающееся комбинированным рассмотрением узлов сети конечной емкости с отклонением запросов, попадающих в заполненные очереди, и наличием динамического случайного маршрута посещения узлов запросами, обеспечивающее динамическое совмещение характеристик двух важных классов сетей массового обслуживания - сетей с потерями и сетей Джексона;

- получено доказательство сходимости масштабируемого марковского процесса к детерминированной динамической системе с единственной стационарной точкой, отличающееся использованием метода неподвижной точки и обеспечивающее описание системы со входным потоком и емкостью узлов, масштабируемых стремящимся к бесконечности коэффициентом.

Третья глава посвящена исследованию свойств рабочих нагрузок приложений анализа данных в многосерверных системах в зависимости от особенностей исполняющей платформы.

Исследование рабочих нагрузок в многосерверных системах показывает, что приложения анализа данных имеют много общих присущих им признаков, из-за которых они помещены в отдельный класс, отличающий их от десктопов (SPEC CPU2006), НРС (НРСС), и служебных рабочих нагрузок, в том числе традиционных серверных нагрузок (SPECweb2005) а также внемасштабных служебных рабочих нагрузок (четыре из шести показателей в CloudSuite)

Выделены три важных приложения в Интернет-сервисах: поисковые сис-

темы, социальные сети и электронная коммерция, согласно широко применимому метрическому показателю - количеству просмотров и посетителей в день.

Выбрано 11 представителей нагрузок, и используются одни и те же наборы входных данных (табл. 1). Эксперименты выполнены на 9-узловом кластере Hadoop, включая один ведущий узел. Узлы в Hadoop кластере подключены через ЕТН сеть 1 ГБ. Каждый узел имеет два процессора Intel Xeon Е5645 и 32 ГБ памяти. Процессор Xeon Е5645 включает в себя шесть физических нестандартных ядер. Каждое ядро имеет собственный L1 и L2 кэш, и все ядра делят кэшпамять L3. Количество подчиненных узлов меняется от 1 до 8. Как показано на рис. 2, для разных рабочих нагрузок, скорость копирования данных на восьми узлах системы в диапазоне от 3,3 до 8,2, и значение Naive Bayes - 6,6, что указывает на то, что данные анализа рабочих нагрузок разнообразны с точки зрения рабочих характеристик. В дополнение к рабочим нагрузкам анализа данных использовано несколько тестовых наборов, в том числе SPEC CPU2006, НРСС, и SPEC web 2005, CloudSuite - масштабный тестовый набор для облачных вычислений, и проведено их сравнение с данными анализа рабочих нагрузок.

Таблица 1

Представление рабочих нагрузок анализа данных_

№ Рабочая нагрузка Размер и характер обрабатываемых данных К-во операций (млн.) Вид нагрузки

1 Sort 150 GB документы 4578 Hadoop

2 WordCount 154 GB документы 3533 Hadoop

3 Grep 154 GB документы 1499 Hadoop

4 Naive Bayes 147GB текст 68131 mahout

5 SVM 148 GB 2051 mahout

6 K-tneans 150 GB html 3227 mahout

7 Fuzzy K-means 150 GB вектор 15470 Собственная модификация

8 IBCF 147 GB вектор 32340 mahout

9 HMM 147 GB рейтинговые данные 1841 Собственная модификация

10 PageRank 187 GB веб страница 18470 mahout

11 Hive-bench 156 GB таблица 3659 Hivebench

На рис. 3 и 4 представлены примеры данных для анализа эффективности. На рис. 3 можно заметить, что служебные нагрузки имеют более низкое количество инструкций за такт (IPC) в сравнении с другими операциями. Большинство рабочих нагрузок анализа данных имеют средний уровень значений IPC больше, чем у служебных рабочих нагрузок. IPC 11 нагрузок анализа данных находятся в диапазоне от 0,52 до 0,95 со средним значением 0,78. Naive Bayes имеет наименьшее значение IPC среди 11 рабочих нагрузок анализа данных.

Рис. 4 иллюстрирует отказ отработанных инструкций каждой рабочей нагрузки. Служебные нагрузки (4 из CloudSuite и SPECweb) выполняют большой процент инструкций режима ядра (более 40%), в то время как большинство рабочих нагрузок анализа данных выполняют небольшой процент инструкций ре-

жима ядра. Служебные рабочие нагрузки имеют более высокий процент инструкций в режиме ядра, потому что обслуживают большое количество запросов,

что приводит к большому объему сетевой и дисковой деятельности.

д-------___——-

Подчиненные узлы

1 4

Рис. 2. Зависимость производительности системы от типа нагрузки и количества подчиненных узлов

Сортировка

Выборка

WordCount

SVM

НММ

IBCF

Кластерная нагрузка

Нечеткие К-средние

К-средние

PageRank

Bayes

Такой анализ также проведен для поведения исполняющей подсистемы, интерфейса, кэша разных уровней, прогнозов перехода. Выводы:

1. Рабочие нагрузки анализа данных имеют уровень межпроцессорного взаимодействия выше, чем служебные нагрузки, но в то же время ниже, чем нагрузки вычислений большой мощности.

2. И аналитические, и служебные нагрузки страдают от существенных торможений интерфейса, которые могут быть вызваны двумя факторами: глубокая иерархия памяти с длительным временем ожидания в современных процессорах, и большие двоичные объемы языка высокого уровня и сторонних библиотек.

3. Сторонние библиотеки и языки высокого уровня, используемые нагрузками центра обработки данных, могут снизить эффективность Ll-кэша инструкций и инструкций TLB (буфера быстрого преобразования адреса).

4. Для рабочих нагрузок анализа данных, Ь2-кэш допустимо эффективен, и они имеют меньше промахов по сравнению с L-2-кэшем у служебных рабочих

нагрузок, но в то же время больше, чем у НРСС нагрузок.

Таким образом, получены свойства рабочих нагрузок приложений анализа данных в многосерверных системах, отличающиеся учетом особенностей исполняющей платформы и обеспечивающие кластеризацию программных архитектур для управления нагрузкой типа «анализ данных».

ооооооооооо

Instruction per cycle (IPC)

О ООО ~ Naive Bayes ммямш

<=_ ~ * - « ~ k, SVM

Naive Bayes Grep мнмнмш

SVM WordCount тят^Ж^ш*

Grep K-means йфшимнв

WordCount r „ ..................................

Fuzzy K-means ШНШШМ K-means . „ ,

PageRank шштжшжтжж Fuzzy K-means MMHaHki I. ...............

PageRank

Sort Hive-bench P^tf*

Hive-bench : IBCF ^eesss ■

IBCF HMM §

HMM avg ВЖйййШШШЖ^ -avg

Software Testing ¡¡шш^шещшше у/л

Software Testing Media Streaming

Media Streaming Data Serving

Data Serving Web search

WebSearch web serving тшшмуштшж.

WebServin8 SPECFP màmmmMmàm

SPECFP

SPECINT SPECINT

SPECWeb Ш SPECWeb

hpcc-comm HPCC COMM

HPCC-DGEMM HPCC-DGEMM МмшАМ»

НРСС-F FT HPCC-FFT

HPCC-HPL HPCC-HPL

HPCC-PTRANS HPCC-PTRANS шшшшшшешш«

HPCC-RandomAccess HPCC-RandomAccess

HPCC-STREAM HPCC-STREAM mzmmmmmwm

Рис. 3. IPC каждой рабочей нагрузки Рис. 4. Соотношение между загрузкой ядра и пользователей

В четвертой главе рассмотрены вопросы технологии тестирования гетерогенных нагрузок и представлен гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах, отличающийся динамической идентификацией типа нагрузки и позволяющий в процессе тестирования подобрать метрику оценки параметров нагрузки.

Таблица 2

Парадигма Уровень Нагрузки Измерения Интеграция Объем К-во мест

Вычисления высокого уровня Суперкомпьютеры Научные вы числения: МР1- приложения Операции в секунду режиме «плавающе] точки» Высокая Низкое

Высокоуровневые распре деленные вы числения повышенной эффектнвно-зти Процессоры Градационные сервер ные нагрузки Вся работа, выпол ненная в фиксирован ный период времени Низкая Низкое

Высокоуровневые распределенные вычисления Распределенные системь реального времени Научные вычисления Операции в месяц в режиме «плавающей точки» Низкая Большое

Многоцелевые вычисления Системы реального времени Научные вычисления или анализ данных Задания в секунду Высокая ил» низкая Большое

Интенсивные вычисления данных ил» вычисления в дата-центрах Системы реального времени Анализ данных Низкая Большой Большое

Вычисления на уровне хранилищ Дата-центры Интернет сервисов, принадлежащие отдельной организации Очень крупные Интернет-сервисы Низкая Большой Большое

Облачные вычисления Хоспшговые дата-центры ЭааЗ + компьютерные утилиты Низкая эольшое

Высокообъ-гмные вычисления (НУ С) Дата-центры 1риложения для обработки данных Запросы в минуту в джоулях !^нные, обработанные в минуту и в джоулях Максимальное количество одновременно обслуженных пользователей Низкая -1изкая Низкая Средний большой От среднего до Зольшо-го большое эольшое От среднего до большого

Выделено три категории нагрузок в системах высокой нагруженности (СВН): услуги, обработка данных приложений и интерактивные приложения реального времени. Природа данного класса задач ориентирована на пропускную способность и цель компьютерных систем дата-центра, предназначенных для них, заключается в увеличении объема пропускной способности в условиях как обрабатываемых запросов (услуг), так и обрабатываемых данных (для при-

ложений обработки данных), или максимальном количестве одновременно обслуживаемых абонентов (для интерактивных приложений реального времени), выполняемых или поддерживаемых в центрах обработки данных.

Несмотря на то, что несколько вычислительных парадигм не являются формально или четко определенными, например, вычисления на уровне хранилища, интенсивно работающие с данными масштабируемые вычисления, и "облачные" вычисления, сравним СВН с несколькими вычислительными парадигмами по шести параметрам: уровни нагрузки, показатели, степень интеграции, уровни данных, число рабочих мест или сервисов обслуживания, как показано в табл. 2.

СВН - основанная на центре обработки данных вычислительная парадигма, ориентированная на пропускную способность рабочих нагрузок. Целью центра обработки данных компьютерной системы, предназначенной для СВН задач, является увеличение объема пропускной способности в плане запросов, или увеличение объема данных, обработанных для максимального числа абонентов одновременно, которые выполняются и поддерживаются в центре обработки данных. В табл. 2 СВН характеризуется 6 параметрами: уровни нагрузки, показатели, степень сцепления, объем данных, число рабочих мест или образцы обслуживания. В работе осуществлен сравнительный анализ ряда СВН, в результате создана система управления тестированием рабочей нагрузки включающая в себя следующие компоненты:

- подсистему управления тестами;

- подсистему управления статистикой и принятия решений.

Программная архитектура системы управления тестированием рабочих

нагрузок представлена на рис. 5.

бочих нагрузок

Рис. 6. Алгоритм работы модуля управления тестированием

Алгоритм работы модуля управления тестированием представлен на рис. 6. Работа модуля начинается с подготовки реестра серверов многосерверной системы, на которых предполагается функционирование менеджеров тестов. В зависимости от настроек, предполагаемой общей количества серверов многосерверной системы рассчитывается загрузка, которую должен обеспечивать каждый менеджер тестов. Далее начинается основной цикл работы до тех пор, пока не закончится время тестирования. По окончании тестирования осуществляется окончательный анализ и расчет показателей.

Таким образом:

1. Ни один отдельно взятый метрический показатель не может измерить производительность компьютерных систем на всех приложениях. Поскольку у различных категорий рабочих нагрузок в СВН различные цели, необходимо предложить различные метрики.

2. Разработана структура системы управления тестированием, отличающаяся инвариантностью к исследуемому объекту, программно-аппаратным платформам и режимам нагрузки.

3. Представлен гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах, позволяющий в процессе тестирования подобрать метрику оценки параметров интегральной нагрузки.

В пятой главе представлено описание кроссплатформенного веб-приложения, обеспечивающего пользователей гибким инструментом для хранения объектной модели произвольной предметной области, с целью оперативного формирования средств управления нагрузкой многосерверных систем на основе масштабируемых марковских процессов.

В основе системы лежит трехуровневая архитектура клиент-сервер. В ней нагрузка распределена между поставщиком услуг, называемым сервером, и заказчиками услуг, называемыми клиентами.

В работе использован ORM фреймворк EclipseLink, который является эталонной реализацией спецификаций Java Persistence API (JPA), которые были включены в Java ЕЕ, начиная с пятой версии.

Для создания модели данных, которая позволила бы хранить объекты произвольной предметной области, традиционный подход с созданием классов-сущностей для каждою конкретного типа объектов не подходит, гак как заранее неизвестны ни типы объектов, ни их параметры. Для решения данной задачи разработана метамодель, которая описывает каждый объект набором атрибутов, присущим конкретному объектному типу, и значениями для этих атрибутов. Такой подход к описанию объектов позволяет хранить произвольную объектную модель, используя ограниченный набор классов-сущностей.

Диаграмма классов разработанной метамодели представлена на рис. 7.

База данных разрабатываемого приложения обеспечивает хранение классов-сущностей и информации о пользователях системы. Структура базы данных, разработанная для хранения метамодели, содержит 8 таблиц.

;rc getEntryVataO

«isfiirfmiifSrttg евдт»;

s.Ustvaiue gFefrnxeVMe ;f,SSlngy*tui

ii'Entt^OfcjKtvste«

2>» LisiEnt у tfeftfiti •<»{) s ♦wasM,»;«u«(Lis!£pey vtfje) -EntiiyObjed geMueQ "Л>Ы »rs'aJusfErer/CejK- ^-SST^getVahjeO i> »vcte »Kttajsntig vsljsl

Рис. 7. Объектная модель, используемая в системе

Слой бизнес-логики приложения реализован с помощью JSF Managed Beans или бинов - Java классов, которые находятся под управлением контейнерного фреймворка (сервера приложений Java ЕЕ). JSF-компоненты уровня представления могут напрямую получать доступ к полям и методам.

Слой представления реализован с помощью JavaServer Faces (JSF) - платформы для создания пользовательского интерфейса веб-приложений, написанных на языке Java, и библиотеки JSF-компонент PrimeFaces 5.2.

Разработанные программные компоненты представляют собой отражение классовой модели относительно класса-предка IMylnterface в соответствии с архитектурой наследования. Механизмы межмодульного взаимодействия построены на интерфейсах созданных компонент. Сначала происходит разбор входной информации, синтаксический анализ запроса, контроль работоспособности межмодульных связей, и только потом запускается процедура взаимодействия в соответствии с алгоритмом, представленным на рис. 8.

Рис. 8. Схема обмена данными

Результатом разработки является кроссплатформенное веб-приложение, обеспечивающее пользователей гибким инструментом для хранения объектной модели произвольной предметной области.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ

1. Получено математическое описание модифицированных стохастических сетей, обеспечивающее динамическое совмещение характеристик двух важных классов сетей массового обслуживания - сетей с потерями и сетей Джексона.

2. Показана сходимость масштабируемого марковского процесса к детерминированной динамической системе с единственной стационарной точкой, обеспечивающая описание системы со входным потоком и емкостью узлов, масштабируемых стремящимся к бесконечности коэффициентом.

3. Синтезирован гибкий алгоритм тестирования рабочих нагрузок в многосерверных системах, позволяющий в процессе тестирования подобрать метрику оценки параметров нагрузки.

4. Получены свойства рабочих нагрузок приложений анализа данных в многосерверных системах, обеспечивающие кластеризацию программных архитектур для управления нагрузкой типа «анализ данных».

5. Создано кроссплатформенное веб-приложение, предоставляющее гибкий инструмент для хранения объектной модели произвольной предметной области, с целью оперативного формирования средств управления нагрузкой многосерверных систем.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В СЛЕДУЮЩИХ РАБОТАХ

Публикации в изданиях, рекомендованных ВАК РФ

1. Хоанг Жанг, Кравец О .Я. Подходы к измерению производительности и тестовые показатели для анализа нагрузок в дата-центрах// Экономика и менеджмент систем управления, №4.2(14), 2014. - С. 315-321.

2. Хоанг Жанг, Кравец О.Я. Исследование стохастических сетей, состоящих из узлов конечной емкости, на основе масштабируемых Марковских процессов// Системы управления и информационные технологии, №1.1(59), 2015. - С. 180-185.

3. Нгуен Тхоай Ань, Хоанг Жанг, Кравец О.Я. Особенности измерения производительности и балансировки нагрузки многосерверных информационных систем в реальном масштабе времени// Экономика и менеджмент систем управления, №1.1(15), 2015.-С. 156-162.

4. Хоанг Жанг, Кравец О.Я. Исследование стохастических сетей с узлами конечной емкости и запросами из разных классов// Вестник Воронежского государственного технического университета. Т. 11, № 3, 2015. С. 70-75.

Статьи и материалы конференций

5. Хоанг Жанг, Кравец О.Я. Вычислительная парадигма, ориентированная на пропускную способность дата-центров, и ее особенности// Информационные техноло-

гии моделирования и управления, №6(90), 2014. - С. 524-532.

6. Нгуен Тхоай Ань, Хоанг Жанг, Кравец О.Я. Классификация параметров энергоэффективности программных приложений при экспериментальном исследовании методов балансировки нагрузки многосерверных информационных систем// Информационные технологии моделирования и управления, №1(91), 2015. - С. 81-88.

7. Хоанг Жанг. Точки равновесия стохастических сетей на основе масштабируемых Марковских процессов// Информационные технологии моделирования и управления, №2(92), 2015. - С. 119-129.

8.Hoang Zhang. Numerical verification of agent's job control for systems of the distributed intermodular interaction// Modeling and Information Technologies: Selected Papers of the International Scientific School "Paradigma" (Summer-2015, Varna, Bulgaria)/ Compiling Editor Kravets. - Yelm, WA, USA: Science Book Publishing House, 2015.-P. 159-167.

9. Hoang Zhang, Kravets O.Ja. About convergence of scalable Markov process to the determined dynamic system with unique equilibrium point// Advanced models and technologies in computer networks: Proceedings of the International scientific and practical conference (Yelm, WA, USA, 06 July 2015)/ Editor in Chief Dr. Sci., Prof. O.Ja. Kravets. -Yelm, WA, USA: Science Book Publishing House, 2015. - P. 101-111.

10. Хоанг Жанг, Кравец О.Я. Характеристика приложений анализа данных и служебных рабочих нагрузок в дата-центрах// Современные инструментальные системы, информационные технологии и инновации: сб. науч. тр. XII Междунар. НПК; в 4-х т., Т. 4. - Курск, 2015. С.201-205.

11. Хоанг Жанг. О сходимости масштабируемого Марковского процесса к детерминированной динамической системе с уникальной точкой равновесия// Международна научна школа "Парадигма". Лято-2015. В 8 т. Т.1: Моделиране на системи и про-цеси: сборник научни стати / под ред. C.JI. Блюмина. - Варна: ЦНИИ «Парадигма», 2015.-С. 225-234.

12. Khoang Zhang, Kravets O.Ja. Identification and the characteristic of data-centers operational loads on the basis of the computing paradigm oriented on throughput// Modern informatization problems in economics and safety: Proceedings of the XX-th International Open Science Conference (Yelm, WA, USA, January 2015)/ Editor in Chief Dr. Sci., Prof. O.Ja. Kravets. - Yelm, WA, USA: Science Book Publishing House, 2015. - P. 85-93.

Подписано в печать 19.10.2015. Формат 60x84/16. Бумага для множительных аппаратов. Усл. печ. л. 1,0. Тираж 80 экз. Заказ № 2132.

ООО «Цифровая полиграфия» 394036, Россия, г. Воронеж, ул. Ф. Энгельса, 52

2015670512

2015670512