автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и средства организации обработки потоковой информации на распределенных гетерогенных вычислительных комплексах

кандидата технических наук
Телеснин, Борис Анатольевич
город
Ростов-на-Дону
год
2009
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и средства организации обработки потоковой информации на распределенных гетерогенных вычислительных комплексах»

Автореферат диссертации по теме "Методы и средства организации обработки потоковой информации на распределенных гетерогенных вычислительных комплексах"

□03488246

На правах рукописи

Телеснин Борис Анатольевич

МЕТОДЫ И СРЕДСТВА ОРГАНИЗАЦИИ ОБРАБОТКИ ПОТОКОВОЙ ИНФОРМАЦИИ НА РАСПРЕДЕЛЕННЫХ ГЕТЕРОГЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ КОМПЛЕКСАХ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

1 0 т 2009

Ростов-на-Дону 2009

003488246

Работа выполнена в Федеральном государственном научном учреждении научно-исследовательском институте «Специализированные вычислительные устройства защиты и автоматика» (ФГНУ НИИ «Спецвузавтоматика»), г. Ростов-на-Дону.

Научный руководитель: кандидат физико-математических наук, доцент

Репалов Сергей Анатольевич

Официальные оппоненты: доктор технических наук,

Левин Илья Израилевич

доктор технических наук, Омаров Омар Магадович

Ведущая организация: Научно-исследовательский вычислительный центр

Московского Государственного Университета

Защита состоится 25 декабря 2009 г. в 14-20 на заседании диссертационного совета Д 212.208.24 при Южном Федеральном Университете в зале заседаний Ученого совета Научно-исследовательского института многопроцессорных вычислительных систем имени академика А. В. Каляева Южного федерального университета по адресу 347928, г. Таганрог, ул. Чехова, 2, корп. И, комн. 347.

С диссертацией можно ознакомиться в зональной научной библиотеке Южного федерального университета по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148 и в сети Интернет по адресу: http://www.sfedu.ru

Автореферат разослан «23_» ноября 2009 г.

Ученый секретарь диссертационного совета,

кандидат технических наук, доцент

А. П. Кухаренко

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В связи с всевозрастающей потребностью общества в информационном обмене возрастают и объем, и сложность решаемых вычислительных задач. В частности задача обработки потоковой информации лежит в основе функционирования множества прикладных систем: систем мобильной телефонной связи, биржевых и банковских систем, систем продажи билетов в железнодорожном и авиационном транспорте, систем обмена текстовыми, голосовыми и видео сообщениями в Интернете и многих других.

Указанные задачи, как правило, связаны с обработкой больших потоков данных. С одной стороны, в этой области большинство прикладных и персональных компьютерных технологий не могут обеспечить требуемой производительности за счет одной платформы, а с другой - специализированные вычислительные комплексы неэффективны из-за высокой стоимости оборудования и трудностей в эксплуатации. Поэтому для решения подобных задач целесообразно применение универсальных вычислительных комплексов.

На сегодняшний день все большее значение приобретают высокопроизводительные и надежные вычислительные системы, предназначенные для обработки потоковой информации, построенные на базе вычислительных систем среднего и персонального класса. Данные системы более просты и дешевы в эксплуатации, чем специализированные вычислительные комплексы и суперкомпьютеры, которые часто стоят много больше, чем экономическая выгода от решения поставленных задач. Кроме того, системы на базе стандартных ЭВМ среднего уровня с достаточно широкими возможностями постепенного наращивания производительности доступны для приобретения и реализации средними и малыми предприятиями и научными организациями. При этом, нередко такие системы построены с использованием ЭВМ различных типов, то есть образуют гетерогенную систему.

Таким образом, актуальность темы данного исследования логически подтверждается следующими положениями:

- наличием большого количества научных и практических задач, требующих для своего решения вычислительных ресурсов, превосходящих возможности обычных персональных компьютеров;

- высокой стоимостью и сложностью эксплуатации высокопроизводительных систем (типа суперкомпьютеров и многопроцессорных систем);

- необходимостью разработки специализированного программного обеспечения и аппаратных технических средств параллельной обработки индивидуально для каждой частной задачи;

- наличием достаточного количества гетерогенных сетей, связывающих большое количество вычислительных ресурсов средней и малой вычислительной мощности в единую телекоммуникационную систему.

Эффективное использование гетерогенных комплексов требует разработки специальных методов распределения нагрузки, как правило, заметно более сложных, чем методы, применяемые в однородных комплексах.

Потоки мультимедийной информации, по сравнению с большинством других видов информации, характеризуются значительной неоднородностью. Как правило, наблюдается большой разброс объёмов заданий и большой разброс времени их обработки (прежде всего это характерно для случаев применения алгоритмов из области искусственного интеллекта). Отсюда возникает потребность в разработке таких моделей вычислительных комплексов, которые бы учитывали основные особенности процесса обработки мультимедийной информации.

Различные схемы распределения нагрузки в гетерогенных комплексах при одной и той же аппаратной базе могут различаться по эффективности использования ресурсов в несколько раз, поэтому возникает необходимость в моделировании и исследовании различных вариантов архитектур и соответствующих им схем управления работой комплекса.

Объект исследований. Объектом исследования является математическое и программное обеспечение распределённых систем обработки потоковой мультимедийной информации.

Целью работы. Повышение эффективности работы распределённых гетерогенных комплексов обработки потоковой мультимедийной информации.

Научная задача. Минимизация среднего времени пребывания задания в распределённой системе обработки потоковой информации при неизменных аппаратных ресурсах.

Задачи исследования. Для решения поставленной цели в диссертационной работе определены следующие задачи исследования:

1. проанализировать существующие методы и средства распределения задач обработки между вычислительными узлами в системах обработки потоковой информации;

2. разработать обобщенную математическую модель функционирования распределённой гетерогенной вычислительной системы;

3. в рамках предложенной модели разработать и исследовать метод управления, минимизирующий среднее время пребывания задания в системе;

4. разработать метод управления для расширенной модели гетерогенной вычислительной системы с полной информацией о состоянии обработчиков, минимизирующий среднее время пребывания задания в системе;

5. реализовать программные средства управления распределённым гетерогенным комплексом обработки потоковой мультимедийной информации.

Методы исследования. Методы исследования основаны на использовании теории программирования распределенных систем, теории вероятности, теории систем массового обслуживания, теории проектирования человеко-машинных интерфейсов.

Научная новизна. Предложена новая модель функционирования гетерогенного распределённого комплекса обработки потоковой информации в виде сети массового обслуживания без циркуляции. В рамках полученной модели найдены выражения для вероятностей распределения заданий по обработчикам, минимизирующие среднее время пребывания задания в системе. Разработан программный интерфейс подключаемых модулей обработки мультимедийной информации, основанный на технологии XML, накладывающий минимальные ограничения на формат входных и выходных данных и позволяющий единообразно осуществлять контроль и преобразование передаваемых данных.

Практическая ценность и реализация. Практическая ценность исследования заключается в возможности повышения эффективности работы распределённых гетерогенных комплексов обработки потоковой информации за счёт применения предложенной схемы распределения нагрузки на основе сети массового обслуживания. В отличие от традиционных схем распределения нагрузки (типа асинхронного распределения заданий или фиксированной привязки входных каналов к отдельным

вычислительным узлам), разработанная схема позволяет гибко регулировать распределение нагрузки в зависимости от мощности входного потока, что позволяет заметно поднять общую эффективность работы комплекса. Результаты диссертационного исследования нашли применение в виде практической реализации вычислительных комплексов, разработанных в рамках научно-исследовательских и опытно-конструкторских работ «Творение-2А», «Проза» (ФГУП «18 ЦНИИ» МО РФ); «Ребус-КУ-Р» (ФГУП НИИ Радио). При этом внедрение на данных комплексах систем распределения заданий на основе разработанной модели позволило добиться уменьшения их среднего времени отклика более чем на 15%.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на 4-м международном конгрессе «Звук и вибрация» (С.-Петербург, 1996 г.), Международной конференции «Речь и компьютер» (г. Москва, 1996 г.), 8-й региональной научно-практической конференции «Проблемы муниципального управления '99. Применение ГИС технологий», (г. Таганрог, 1999 г.), 10-й сессии Российского акустического общества (г. Москва, 2000 г.), Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности» (г. Таганрог, 2000 г.), Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности» (г. Таганрог, 2002 г.), Всероссийской научной конференции «Научный сервис в сети Интернет» (г; Новороссийск, 2004 г.), Международной научно-практической конференции "Методы и алгоритмы прикладной математики в технике, медицине и экономике", (г. Новочеркасск, 2006 г.), Восьмой международной научно-практической конференции «Информационная бсзопасность-2006» (г. Таганрог, 2006 г.), IV Международной научно-технической конференции «Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем» (г. Новочеркасск, 2006 г.), IX Международной научно-практической конференции «Моделирование. Теория, методы и средства» (г. Новочеркасск, 2009 г.).

Публикации. По теме диссертации опубликовано 30 печатных работ. Из них 9 научных статей, 17 тезисов докладов, один патент РФ и 4 свидетельства об официальной регистрации программы для ЭВМ.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 131 страницу основного текста и включает 27 рисунков, 12 таблиц. Список литературы состоит из 68 наименований на 8 страницах.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обсуждается актуальность и практическая значимость темы, сформулированы цели и предмет исследования, изложено краткое содержание работы.

Первая глава посвящена исследованию и анализу существующих алгоритмов и средств распределённой обработки потоковой информации.

В начале главы раскрывается понятие задач обработки потоковой информации и рассматриваются общие особенности решения данных задач на распределённых вычислительных комплексах.

Далее рассматриваются характерные особенности задач обработки мультимедийной информации, среди которых отмечаются высокая гранулярность при распараллеливании и высокие требования к возможностям модернизации получаемых решений.

Производится обзор классов систем распределённой обработки информации (суперкомпьютеры, кластерные системы на базе компьютеров среднего уровня, GRID системы) и производится их сравнительный анализ по ряду параметров.

Рассматриваются основные статистические характеристики потоков мультимедийной информации и отмечается близость этой области к классическим моделям, пришедшим в теорию массового обслуживания из анализа телекоммуникационного трафика.

Производится обзор современных моделей и технологий, связанных с областью распределенной потоковой обработки мультимедийных данных. Рассматриваются основные проблемы и пути их решения.

Рассмотрены принципы построения распределённых систем, что позволило сделать вывод о том, что при решении задач потоковой обработки информации на гетерогенных комплексах целесообразно построение подсистемы обмена данными между вычислительными узлами с использованием существующих средств создания распределённых приложений типа MPI, DCOM или CORBA. Это обеспечивает разумный

компромисс между требованием гибкости получаемого решения и степенью использования готовых решений.

Далее проведён краткий обзор теории массового обслуживания, суть которой состоит в применении методов теории вероятностей и математической статистики для моделирования работы распределённых систем обработки информации. Исходя из этого, сделан вывод о том, что функционирование гетерогенного распределённого комплекса может быть естественным образом описано в рамках этой теории.

В заключении главы сформулированы основные задачи исследования. Вторая глава посвящена моделированию функционирования распределённых гетерогенных комплексов обработки потоковой информации в рамках теории массового обслуживания.

Постановка задачи включает разомкнутую сеть массового обслуживания (СеМО), состоящую из п перенумерованных одноканальных узлов. На вход сети поступает пуассоновский поток требований интенсивности Я. Поступившее требование с

вероятностью / поступает на обслуживание в /-й узел, ]>] / = 1. Каждый узел

/=1

представляет собой аппарат с интенсивностью обслуживания с[1..л], то есть время обслуживания требования на <-м аппарате является случайной величиной, распределенной по экспоненциальному закону с плотностью распределения /(х) = [1, е-**1'*.

Норма обслуживания характеризуется следующим правилом: если требование, поступившее на ;-й аппарат, застает его занятым, то оно становится в очередь ожидания этого аппарата. После окончания обработки на аппарате требование моментально покидает сеть.

Введем случайный процесс: у(/) = { \(1), 1ф),..., \(1)}, где у(1) - число требований в /-м узле, ввиду известных свойств распределения Лапласа и экспоненциального распределения («отсутствие последствия») этот процесс является Марковским.

Рассмотрим вероятность обнаружения системы в момент времени г в состоянии

г = {г„гг,...,гв}:

Р(П,г2,...,г„,1) = РЫО = г^О) = г,.....у,(1) = О.

Определим далее предельное распределение вероятностей в виде: я(г) = я(г„г2.....гп) = ИтР(г,0.

Данное распределение существует в виду марковости процесса v(t).

Далее формулируются следующие основные задачи, связанные с исследованием рассматриваемой модели:

- определение стационарного распределение вероятностей л (г) этой системы обслуживания;

- определение среднего времени пребывания требования в системе;

- минимизация среднего времени пребывания требования в системе, путем управления делением входного потока /,. То есть требуется выбрать такое распределение /, при котором среднее время пребывания требований в системе будет минимальным относительно любого другого распределения.

В рамках решения первой задачи полученные уравнения нестационарного режима рассматриваемой модели имеют вид:

j = 0 : Я'(<М) = - P(Ô,1) ■ X + ¿Р(ё* ,0 • t.i

*С< »С/

где s = i(r).

При переходе в стационарный режим произвол ныв по времени стремя тся к нулю, limP(r,i) = л(г), и система линейных уравнений стационарного режима приводится к

следующему виду:

¡ы

(

где Цг) = [i : г,. оО]; j = {>,..,0,1,0,.., о} 6 = |),0,..,о}

Далее в работе показано, что решение уравнений стационарного режима имеет вид:

V,

1=1

х(0) = П(0) = П(1-Р,>, 7Г,.(0) = 0-Ç>,)

И

Отметим важный вывод: узлы сети функционируют независимо друг от друга, что выражается в независимости стационарных вероятностей каждой из подсистем. Последнее характерно для большого множества разомкнутых сетей, в том числе и сети Джексона. Каждый узел при этом представляет собой одноканальную систему массового обслуживания с ожиданием. При этом входной поток для каждой из подсистем, выражается в виде

= Л- ■ У/

и обладает таким же пуассоновским свойством, как и общий поток Я.

Среднее время пребывания в системе обслуживания складывается из среднего времени ожидания и среднего времени обслуживания. Так как система разделена на независимые составляющие, то среднее время пребывания можно выразить так:

т =1/,-т, , /=1

где /,• - вероятность того, что требование будет обслуживаться на ьм аппарате, Т/ -среднее время пребывания на аппарате.

Для одноканальной СМО с ожиданием, каковой является каждая из подсистем, среднее время ожидания просто выражается через среднюю длину очереди:

Т/ + К . ' А /Щ

где - среднее время ожидания начала обслуживания на ¡-м аппарате и V — среднее / / Н

время обслуживания на нем же.

Показано, что для среднего времени пребывания требования в системе, в конечном

итоге, имеет место выражение:

т='т'= -<р,);

Оптимальное деление входного потока (вероятности /) было найдено путём построения и решения соответствующих систем уравнений, соответствующих экстремуму значения среднего времени пребывания Т. В результате, для оптимальных значений вероятностей f¡ получено следующее выражение:

где ц - средняя производительность аппаратов, ¡(¡.1) =

Соответственно, для минимального среднего времени пребывания требования в системе имеем выражение:

Показано, что существует такое значение мощности обработчика //„: ('¡¡п)г

= —— , при которой оптимальная вероятность направления задания на данный

обработчик не зависит от интенсивности входного потока.

Для проведения качественного анализа результата положим количество обработчиков достаточно большим, их производительности равномерно распределенными в интервале [0,3; 0,5] и рассмотрим функцию /, как функцию двух аргументов /(ц,Х). Величины цп и при этих условиях можно считать постоянными. Для относительной интенсивности входного потока А'=х/цп можно построить набор графиков функции /(¿1,А), показанный на рисунке 1.

Рисунок 1. Зависимость вероятности распределения заданий от производительности обработчика для разных значений относительной интенсивности входного потока

Качественный анализ полученного результата показывает, что зависимость /, от А, такова, что при росте А, минимальные вероятности направления заданий на обработчик растут, а максимальные, наоборот, - падают.

Другими словами, при уменьшении интенсивности входного потока, вероятности направления заданий на обработчики со значением мощности, меньше чем ца

>

уменьшаются вплоть до выхода за пределы области определения вероятности. То есть, минимум среднего времени пребывания задания в системе, находится вне области определения параметров (вероятности направления заданий). При этом допустимое минимальное значение среднего времени пребывания заданий в системе находится на границе области определения его параметров. Показано, что решение этой проблемы состоит в исключении данных обработчиков из модели и пересчёте оптимальных вероятностей для получившейся модели.

Третья глава посвящена имитационному моделированию функционирования распределённых гетерогенных комплексов обработки потоковой информации.

Для проведения имитационного моделирования в среде системы компьютерной алгебры SAGE (http://sagemath.org) была разработана специальная программа, позволяющая оценивать основные характеристики СМО, подобных рассмотренной выше: с обработчиками различной мощности; без обмена данными между обработчиками; с временем обслуживания, удовлетворяющим различным распределениям вероятностей; с различными распределениями входного потока; с определённым набором стратегий распределения заданий.

/1

Рисунок 2. Зависимость Тти1 от параметра функции управления С помощью данной программы было проведена проверка полученного оптимального деления в описанной выше сети массового обслуживания. На рисунке 2

показан результат экспериментальной проверки формулы (1) для системы с двумя аппаратами следующей конфигурации: =18, цг =12, А=20.

Сплошной линией показана зависимость среднего времени пребывания требования в системе от значения параметра функции управления (при этом /2=1-/,). Точками показаны полученные экспериментальные значения, а вертикальными штрихами -оцененные дисперсии этих значений (производилось несколько независимых запусков системы с набором из 10000 заданий). Пунктирной линией показано среднее время пребывания требования в системе при другом алгоритме распределении заданий, учитывающем информацию о состоянии системы: очередное задание направляется на свободный обработчик, а если оба обработчика заняты - на более мощный из них.

Модель, рассмотренная во второй главе, на практике в чистом виде не встречается. В связи с этим, в третьей главе была предложена расширенная модель, имеющая по сравнению с рассматриваемой ранее, следующие особенности:

- время обработки заданий в узлах описывается не экспоненциальным распределением, а гамма-распределением с малой дисперсией (т.е. в окрестности математического ожидания распределение близко к нормальному закону);

- модулю управления заданий доступна актуальная информация о состоянии системы (длины очередей и состояния обработчиков).

Первое предположение соответствует довольно широкому классу задач обработки потоковой информации. Например, к нему относятся задачи обработки файлов, распределение длин которых хорошо описывается нормальным законом, а время обработки линейно коррелирует с длиной файла.

В реальных распределённых системах, как правило, присутствуют механизмы контроля ресурсов системы в реальном времени. Это оправдывает сделанное предположение о доступности актуальной информации о состоянии системы. Соответственно, логично предположить, что методы распределения заданий для новой модели будут использовать данную информацию.

Для введённой модели были рассмотрены три метода распределения заданий: 1. Метод с асинхронными обработчиками. Суть этого метода заключается в том, что задания сначала поступают в общую очередь системы, а освободившиеся обработчики забирают из неё очередное задание для обработки. Требование к организации общей очереди, вообще говоря, изменяет модель. Но поскольку это

требование не затрагивает аппаратных ресурсов, то в контексте конечной цели -получения максимальной выгоды от имеющихся вычислительных ресурсов -рассмотрение данного метода наряду с другими можно считать корректным.

2.Метод минимизации времени пребывания в системе очередного задания. В этом методе при поступлении очередного задания для каждого обработчика оценивается предполагаемое время выхода данного задания из системы, и задание направляется на обработчик, «обещающий» минимальное время выхода.

3.Метод на основе поддержания фиксированного распределения загрузки обработчиков. Данный метод был разработан в рамках диссертационного исследования специально для расширенной модели. Он опирается на предположение о том, что, несмотря на изменение модели, в оптимальном режиме работы статистически оцениваемые вероятности отправки заданий на обработчики должны быть близки к полученным во второй главе оптимальным значениям. При этом принимается компромиссное решение с критерием, используемым предыдущим методом (минимизация времени пребывания в системе очередного задания).

Сравнение указанных моделей проводилось для различных моделей систем, и наиболее полно был рассмотрен случай системы с двумя обработчиками различной мощности. На рисунке 3 показана зависимость среднего времени пребывания задания в системе в зависимости от интенсивности входного потока А. Производительность аппаратов составляла: ц, =5, цг = 1

Эксперименты показывают, что первый метод даёт наилучшие результаты при большой интенсивности входного потока и проигрывает другим методам при малой. Второй метод, в противоположность первому, даёт наилучшие результаты при малой интенсивности входного потока и заметно проигрывает другим методам при большой. Неоптимальный режим работы возникает в связи с тем, что при достаточно большой входной нагрузке на мощном обработчике образуется очередь, в то время, как слабый простаивает. То есть стремление к локальному оптимуму - минимизации времени пребывания в системе очередного задания - приводит к отдалению от оптимума глобального.

Т 1,4

0,2------------------------

0 ->-1-1-1-1-1-1-1-1-------1-г»-

г 2,2.5 2,5 2,75 3 3,25 3,5 3,75 4 4,25 4,5 4,75 5 5,25 5,5

А.

Рисунок 3. Среднее время пребывания заданий в системе для различных методов

Третий метод сочетает в себе лучшие черты первых двух при крайних значениях интенсивности входного потока и заметно опережает их в довольно широкой области средних значений. Кроме того, анализ гистограмм распределения времени пребывания задания в системе показывает, что у третьего метода наиболее короткий «хвост»: начиная с некоторого значения времени, вероятность того, что задание будет пребывать в системе дольше данного времени убывает быстрее, чем у других методов.

Результаты экспериментов с моделями систем с большим количеством обработчиков различной мощности подтверждают все качественные выводы, сделанные для системы с двумя обработчиками.

Четвертая глава посвящена описанию практической реализации распределённых комплексов потоковой обработки речевой информации. А именно, рассмотрена реализация комплекса обработки потока речевых сообщений.

В начале главы перечисляются требования, предъявляемые к комплексу, включающие отказоустойчивость, контроль модулей обработки, требования параллельности доставки заданий на обработчики, возможность учёта приоритета заданий, поддержка различных схем обработки, возможность обновления программных модулей обработки речи.

Далее приводится обзор модулей обработки речи, использовавшихся в реализованных комплексах: транскодер - для декодирования аудиосигнала из различных форматов; модуль детекции и определения качества речи; модуль сегментации диалога на монологи; модуль идентификации дикторов; модуль идентификации языка; модуль выделения ключевых слов.

В разделе кратко описаны общие алгоритмы и особенности функционирования данных модулей. Приведены сравнительные данные по их входным и выходным данным, требованиям по объёму оперативной и дисковой памяти.

Между данными модулями имеется ряд зависимостей, связанных с тем, что некоторые из них используют результаты работы других. Эти зависимости учитывались в схемах обработки.

При решении задачи организации взаимодействия узлов обработки с центральным управляющим сервером были рассмотрены различные подходы (с использованием технологий MPI, CORBA, DCOM). В результате было принято решение об использовании технологии DCOM.

Для реализации взаимодействия прикладных модулей обработки речи с управляющей подсистемой вычислительного узла был использован механизм динамических подключаемых библиотек (DLL). Проведённый анализ особенностей модулей обработки речи показывает, что их входные и выходные данные могут значительно различаться, поэтому интерфейс их подключения должен обладать достаточной общностью. В описываемом решении это достигнуто за счёт применения технологии XML.

Открытость архитектуры достигается за счет унификации интерфейсов всех модулей, хранения промежуточных результатов в XML формате, а также независимой настройки входных и выходных параметров модулей. То есть, под открытостью архитектуры понимается не только заменяемость модулей на аналогичные, но и возможность добавления принципиально новых модулей обработки. Унификация интерфейсов модулей состоит в том, что все модули имеют одинаковые объявления процедур в секции экспорта библиотеки и одинаковые для всех модулей типы формальных параметров этих процедур.

В рамках данного комплекса также был спроектирован и реализован интерфейс пользователя, позволяющий эффективно осуществлять контроль и управление комплексом распределенной обработки. На рисунке 4 показан интерфейс окна «Компьютеры обработчики», которое содержит информацию о подключенных к вычислительному комплексу компьютерах и позволяет удалённо управлять ими.

В заключении четвертой главы приводятся результаты экспериментальных измерений параметров работы комплекса и производится их сравнение с результатами имитационного моделирования.

$«кп Общие Управление Настройся Сообщения Отчеты Вид Окна Оода'ажа

DEJ0 ■ D

Журнал БД Компыотврьмйработмиси | Сообщения ь системе | Журнал ошибс*|

: а 41 J ! □ О е □ $J R!i?» saos

Компьютер * tocaHwat". Собственный идентфхатор " ' MOBILE-TELESNIN Сервер использует этот компьютер. Коытюте

Количество свободою: ресурсов (процессоров) " jl мвтсснмаяьное количество ишодьгуелаи: ресурсов (процессоров)-!.. Количество

Количество тедачоБребйтаниых с ошибкой * Й-- Вдшнья1адмттнемобр»батшаетсяй_сдедук11Цштадач.

|Имя_¡Идентификатор "^Разрешен ¡Соединен |

MOBIU-lEU5NIHy ИГкй В К пЛ ^ 10 [о \

Рисунок 4 - Общий вид окна «Компьютеры обработчики»

Аппаратная конфигурация комплекса, с которой проводились эксперименты, включала 14 чстырСхъядерных промышленных компьютеров и 6 двухпроцессорных BLADE-серверов. По экспериментальным запускам процесса обработки на компьютерах различных типов был сделан вывод о том, что процессорное ядро BLADE-сервера в 1,7 раз менее производительнее ядра 4-х ядерного компьютера. Два компьютера первого типа использовались для управления и обслуживания комплекса, и на них модули обработки речи не запускались. Таким образом, конфигурация системы включала 12 узлов обработки с относительной производительностью 1 и 48 узлов с относительной производительностью 1,7.

Для тестирования работы комплекса использовался набор из порядка 800 файлов, на которых запускались все задачи обработки речи. Схема распределения заданий была реализована в соответствии с методом для расширенной модели, описанным в третьей главе.

В рамках проведения экспериментов, данный пакет файлов подавался на вход в случайном порядке, причём так, чтобы количество заданий в единицу времени соответствовало распределению Пуассона (интервалы между поступлениями заданий соответственно распределены по экспоненциальному закону). Выбирая различные параметры интенсивности входного потока, была получена экспериментальная кривая среднего времени пребывания задания в системе, которая оказалась близка к кривой,

полученной путём имитационного моделирования - относительная погрешность не превысила 3%.

Исходя из полученных результатов, в диссертации сделан вывод о том, что разработанный метод распределения заданий является сбалансированным для данной конфигурации в достаточно широких значениях входной нагрузки.

В заключении обобщены итоги и результаты проведенных исследований. Сделан вывод о том, что поставленная научная задача была успешно решена и имеет практическую значимость.

При выполнении диссертационной работы лично автором была предложена модель функционирования гетерогенного распределённого комплекса обработки потоковой информации и в рамках ее исследования разработан для неё метод распределения заданий по обработчикам, минимизирующий среднее время пребывания задания в системе [5, 6, 911]; разработана расширенная модель гетерогенного комплекса и соответствующая модификация метода минимизации среднего времени пребывания задания в системе, а также проведено сравнительное имитационное моделирование работы различных методов распределения заданий (глава 3). В рамках реализации программных средств распределённого комплекса обработки мультимедийной информации (глава 4) лично автором была разработана подсистема распределения заданий по обработчикам, интерфейс подключаемых модулей обработки речи, а также пользовательский интерфейс управления и контроля работы комплекса.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ, ВЫДВИГАЕМЫЕ НА ЗАЩИТУ

1. Модель функционирования гетерогенного распределённого комплекса обработки потоковой информации в виде сети массового обслуживания без циркуляции.

2. Вероятностный метод распределения заданий по обработчикам для предложенной модели, минимизирующий среднее время пребывания задания в системе.

3. Открытые унифицированные интерфейсы подключения программного обеспечения к системе потоковой обработки речевой информации, упрощающие структуру средств контроля и управления комплекса и обеспечивающие возможности его модернизации.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В СЛЕДУЮЩИХ РАБОТАХ

Публикации в ведущих рецензируемых изданиях, рекомендуемых ВАК РФ

1.Телеснин Б.А. Сегментация речи (математическая модель). [Текст] / Аграновский A.B., Леднов Д.А., Телеснин Б.А. // Информационные технологии, № 9, 1998 г., с. 24-28.

2.Телеснин Б.А. Использование SQL для индексации и обработки текстовых документов. [Текст] / Аграновский A.B., Арутюнян Р.Э., Телеснин Б.А. П Информационные технологии, №5, 2004., стр. 14-19.

3.Телеснин Б.А. Методы защиты от вложенных SQL запросов. [Текст] / Булаев В.В., Пилиди B.C., Телеснин Б.А. // Научная мысль Кавказа. Приложение №5 2003г. Ростов-на-Дону, Издательство СКНЦ ВШ, 2003 г., с. 121-124.

4.Телеснин Б.А. Модульный принцип при разработке систем обработки текстовых документов. [Текст] / Аграновский A.B., Арутюнян Р.Э., Телеснин Б.А. // Телекоммуникации, №6, 2004 г., М: Машиностроение, с. 6-11.

5.Телеснин Б.А. Минимизация времени пребывания требования в сети массового обслуживания с ожиданием и аппаратами различной производительности. [Текст] / Жак C.B., Телеснин Б.А., Хади P.A. // Известия ВУЗов Северо-Кавказского региона. Технические науки. - 2005. - № 3. - С. 42-45.

6.Телеснин Б.А. Минимизация времени пребывания требования в сети массового обслуживания с ожиданием и аппаратами различной производительности. [Текст] / Жак C.B., Телеснин Б.А., Хади P.A. // Известия ВУЗов Северо-Кавказского региона. Технические науки. - 2005. - № 3. - С. 42-45.

Публикации в других изданиях

7.Телеснин Б.А. Способ автоматической классификации документов. [Текст] / Аграновский A.B., Арутюнян Р.Э., Телеснин Б.А., Хади P.A. // патент №2251170 от 27.04.2005 по заявке №2003126907 от 04.09.2003.

8.Телеснин Б.А. Способ потоковой обработки текстовых сообщений. [Текст] / Аграновский A.B., Арупонян Р.Э., Телеснин Б.А., Хади P.A. // патент №2251148 от 27.04.2005 по заявке №2003126918 от 04.09.2003.

9.Телеснин Б.А. Распределенные вычисления в задачах распознавания потоков речевой информации. [Текст] / Телеснин Б.А. // Искусственный интеллект. Интеллектуальные многопроцессорные системы-2004: Материалы Международной научной конференции Т. 2, Таганрог: Изд-во ТРТУ, 2004 г., 476 с. с. 59-60.

10. Телеснин Б.А. Максимизация производительности систем массового обслуживания методом деления входного потока. [Текст] / Телеснин Б.А. II Методы и алгоритмы прикладной математики в технике, медицине и экономике: Материалы VI Междунар. науч.-практ. конф., г. Новочеркасск, 23 января 2006 г.: В 5 ч./ Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск: ЮРГТУ, 2006. - Ч 5. - 78 е., стр. 39-41.

11. Телеснин Б.А. Оптимизация времени отклика в системах распределенной обработки сетевого трафика при обнаружении компьютерных атак. [Текст] / Телеснин Б.А. // Информационная безопасность: Материалы VIII Международной научно-практической конференции 4 1.- Таганрог, 3-7 июля 2006г. : Изд-во ТРТУ, 2006. -280 с ., с. 188-190.

Печать цифровая. Бумага офсетная. Гарнитура «Тайме». Формат 60x84/16. Объем 1,0 уч.-изд.-л. Заказ № 1526. Тираж 100 экз. Отпечатано в КМЦ «КОПИЦЕНТР» 344006, г. Ростов-на-Дону, ул. Суворова, 19, тел. 247-34-88

Оглавление автор диссертации — кандидата технических наук Телеснин, Борис Анатольевич

Содержание.

Принятые обозначения и сокращения.

Введение.

1 Исследование и анализ существующих алгоритмов и средств распределённой обработки потоковой информации.

1.1 Понятие обработки потоковой информации.

1.1 Особенности обработки мультимедийной информации.

1.2 Обзор существующих распределённых систем обработки информации.

1.2.1 Специализированные параллельные вычислительные системы.

1.2.2 Универсальные параллельные вычислительные системы.

1.3 Статистические характеристики потоков мультимедийной информации.

1.4 Принципы организации распределённой обработки потоковой информации.

1.5 Моделирование работы распределённых комплексов обработки потоковой информации.

1.6 Постановка задачи исследования.

Выводы.

2 Модель распределённой вычислительной системы обработки информации.

2.1 Сети массового обслуживания.

2.2 Ключевые особенности модели распределённых систем обработки потоковой информации.

2.3 Сеть массового обслуживания.

2.4 Исследование стационарного режима.

2.5 Среднее время пребывания требования в системе.

2.6 Метод минимизации среднего времени пребывания требования в системе.

Выводы.

3 Моделирование работы распределённых комплексов на примере обработки мультимедийной информации.

3.1 Структура программы для имитационного моделирования.

3.2 Проверка теоретических результатов.

3.3 Расширенная модель распределённой вычислительной системы обработки потоковой информации.

3.4 Методы распределения заданий в расширенной модели.

3.4.1 Метод с асинхронными обработчиками.

3.4.2 Метод на основе минимизации отклика на очередное задание.

3.4.3 Метод на основе поддержания фиксированного распределения загрузки обработчиков.

3.5 Эксперименты по оценке эффективности различных методов распределения заданий.

3.5.1 Система с двумя обработчиками.

3.5.2 Система с несколькими обработчиками.

3.6 Сравнение методов распределения заданий.

Выводы.

4 Практическая реализация программных средств управления комплексом распределённой обработки потоковой мультимедийной информации.

4.1 Основные требования к разрабатываемым программным средствам комплекса.

4.2 Общая структура комплекса.

4.3 Подсистема обработки речевой информации.

4.4 Открытая архитектура подключаемых модулей.

4.5 База данных результатов обработки.

4.6 Подсистема управления и контроля. j

4.6.1 Управление компьютерами обработчиками. jjj

4.6.2 Управление сервером. Л

4.7 Экспериментальное исследование работы комплекса. U

Выводы. U

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Телеснин, Борис Анатольевич

Быстрое развитие компьютерной индустрии расширяет круг прикладных задач, решаемых с помощью вычислительных комплексов, что, в свою очередь, влечет повышение актуальности ряда проблем и технологий, непосредственно связанных с их созданием. Значительная часть прикладных задач, решаемых с помощью вычислительных комплексов (высокопроизводительных вычислительных систем), связана с непрерывной обработкой больших объемов данных и, таким образом, относится к типу задач потоковой обработки.

Тем не менее, относительность понятия «высокопроизводительная вычислительная система» доказана на практике опытом применения компьютерных технологий практически во всех сферах человеческой деятельности. То, что несколько лет назад называли «суперкомпьютером», на сегодняшний день таковым уже не является. Однако, несмотря на доступность компьютерной техники и ее универсальность, большинство прикладных вычислительных задач невозможно решить с помощью имеющихся вычислительных ресурсов. При этом все имеющиеся вычислительные системы обработки информации можно разделить на системы, использующие следующие типы возможного взаимодействия:

- произвольное взаимодействие между двумя отдельными компьютерами и обмен информацией осуществляется в произвольном, заранее заданном, формате;

- интерактивное взаимодействие компьютера с информационной системой — принимаемые ответы на запросы обрабатываются автоматически;

- контролируемая обработка потоков данных, например прием информации (с помощью ее извлечения из сетевого трафика, проходящего по сети), получение которой инициирует процесс обработки принимаемых документов;

- автоматизированный процесс потокового приема и обработки информации в оговоренном формате.

На сегодняшний день большая часть вычислительных прикладных задач относится к последним двум классам систем. Это вызвано ограничениями на объемы информации, которые могут хранить и обрабатывать одиночные вычислительные системы, следовательно, необходимостью создания распределенных вычислительных систем.

Актуальность темы. В связи с всевозрастающей потребностью общества в информационном обмене возрастает и объем, и сложность решаемых вычислительных задач. В частности, необходимость обработки потоковой информации лежит в основе функционирования множества прикладных систем: систем мобильной телефонной связи, биржевых и банковских систем, систем продажи билетов в железнодорожном и авиационном транспорте, систем обмена текстовыми, голосовыми и видео сообщениями в сети Интернет и многих других.

В области обработки больших потоков данных, с одной стороны, большинство прикладных и персональных компьютерных технологий не могут обеспечить требуемой производительности за счет одной платформы, а с другой — специализированные вычислительные комплексы неэффективны из-за высокой стоимости оборудования и трудностей в эксплуатации.

Обработку потоковой информации характеризует наличие двух потоков — входного потока заданий и выходного (исходящего) потока результатов. Задача состоит в организации обработки этих данных на имеющихся вычислительных ресурсах в рамках требований, предъявляемых к системе исходя из её назначения.

Идея распределённой обработки потока, в соответствии с названием, заключается в распределении входного потока заданий по различным вычислительным узлам системы. Получается выигрыш в скорости обработки за счет совмещения прежде разнесенных во времени операций.

На сегодняшний день все большее значение приобретают высокопроизводительные и надежные вычислительные системы, предназначенные для обработки потоковой информации, построенные на базе вычислительных систем среднего и персонального класса. Данные системы более просты и дешевы в эксплуатации, чем специализированные вычислительные комплексы и суперкомпьютеры, решения на базе которых часто стоят много больше, чем экономическая выгода от решения поставленных вычислительных задач. Кроме того, решения на базе стандартных вычислительных систем среднего уровня с достаточно широкими возможностями постепенного наращивания производительности доступны для приобретения и реализации средними и малыми предприятиями и научными организациями. Еще одним достоинством таких систем является их модульность, необычайная гибкость и взаимозаменяемость различных вычислительных компонент в случае непредвиденных обстоятельств (отказа оборудования, несовместимости различных устройств и т.д.).

Таким образом, актуальность темы данного исследования логически подтверждается следующими положениями:

- наличием большого количества научных и практических задач, требующих для своего решения вычислительных ресурсов, превосходящих возможности обычных персональных компьютеров;

- высокой стоимостью и сложностью эксплуатации высокопроизводительных систем (типа суперкомпьютеров и многопроцессорных систем);

- необходимостью разработки специализированного программного обеспечения и аппаратных технических средств параллельной обработки индивидуально для каждой частной задачи;

- наличием достаточного количества гетерогенных сетей, связывающих большое количество вычислительных ресурсов средней и малой вычислительной мощности в единую телекоммуникационную систему.

Указанные возможности объединения широкого класса вычислительных устройств в единую вычислительную систему приводят к тому, что результирующий комплекс зачастую получается гетерогенным, т.е. составленным из модулей различной производительности, а также на основе разных аппаратных платформ. Эффективное использование таких комплексов требует разработки специальных методов распределения нагрузки, как правило, заметно более сложных, чем методы, применяемые в однородных комплексах.

Бурное развитие и широкое распространение телекоммуникационных сервисов в последние два десятка лет привело к значительному увеличению объёмов различных потоков мультимедийной информации, что естественным образом привело к росту потребности в их компьютерной обработке. В частности, мировой рынок речевых технологий, по данным Global Industry Analysts (http://www.strategyr.com), на 2007 год составил $3,1 млрд.

Потоки мультимедийной информации по сравнению с большинством других видов информации характеризуются значительной неоднородностью: как правило, наблюдается большой разброс объёмов заданий и большой разброс времени их обработки (прежде всего это характерно для случаев применения алгоритмов из области искусственного интеллекта). Отсюда возникает потребность в разработке таких моделей вычислительных комплексов, которые бы учитывали основные особенности процесса обработки мультимедийной информации.

Одним из наиболее подходящих решений для обработки потока мультимедийной информации являются комплексы распределённой обработки информации. При этом область обработки потоковой мультимедийной информации имеет свою специфику, накладывающую ряд ограничений на архитектуру таких комплексов. Различные схемы распределения нагрузки при одной и той же аппаратной базе могут различаться по эффективности использования ресурсов в несколько раз, поэтому возникает необходимость в моделировании и исследовании различных вариантов архитектур и соответствующих им схем управления работой комплекса.

Объект исследований. Объектом исследования является математическое и программное обеспечение распределённых систем обработки потоковой мультимедийной информации.

Цель работы. Повышение эффективности работы распределённых гетерогенных комплексов обработки потоковой мультимедийной информации.

Научная задача. Минимизация среднего времени пребывания задания в распределённой системе обработки потоковой информации при неизменных аппаратных ресурсах.

Задачи исследования. Для решения поставленной цели в диссертационной работе определены следующие задачи исследования:

1. проанализировать существующие методы и средства распределения задач обработки между вычислительными узлами в системах обработки потоковой информации;

2. разработать обобщенную математическую модель функционирования распределённой гетерогенной вычислительной системы;

3. в рамках предложенной модели разработать и исследовать метод управления, минимизирующий среднее время пребывания задания в системе;

4. разработать метод управления для расширенной модели гетерогенной вычислительной системы с полной информацией о состоянии обработчиков, минимизирующий среднее время пребывания задания в системе;

5. реализовать программные средства управления распределённым гетерогенным комплексом обработки потоковой мультимедийной информации.

Методы исследования. Методы исследования основаны на использовании теории программирования распределенных систем, теории вероятности, теории систем массового обслуживания, теории проектирования человеко-машинных интерфейсов.

Научная новизна. Предложена новая модель функционирования гетерогенного распределённого комплекса обработки потоковой информации в виде сети массового обслуживания без циркуляции. В рамках полученной модели найдены выражения для вероятностей распределения заданий по обработчикам, минимизирующие среднее время пребывания задания в системе. Разработан программный интерфейс подключаемых модулей обработки мультимедийной информации, основанный на технологии XML, накладывающий минимальные ограничения на формат входных и выходных данных и позволяющий единообразно осуществлять контроль и преобразование передаваемых данных.

Практическая ценность и реализация. Практическая ценность исследования заключается в возможности повышения эффективности работы распределённых гетерогенных комплексов обработки потоковой информации за счёт применения предложенной схемы распределения нагрузки на основе сети массового обслуживания. В отличие от традиционных схем распределения нагрузки (типа асинхронного распределения заданий или фиксированной привязки входных каналов к отдельным вычислительным узлам), разработанная схема позволяет гибко регулировать распределение нагрузки в зависимости от мощности входного потока, что позволяет заметно поднять общую эффективность работы комплекса. Результаты диссертационного исследования нашли применение в виде практической реализации вычислительных комплексов, разработанных в рамках научно-исследовательских и опытно-конструкторских работ «Творение-2А», «Проза», «Ребус-КУ-Р». При этом внедрение на данных комплексах систем распределения заданий на основе разработанной модели позволило добиться уменьшения их среднего времени отклика более чем на 15%.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на 4-м международном конгрессе «Звук и вибрация» (С.-Петербург, 1996 г.), Международной конференции "Речь и компьютер" (г.Москва, 1996 г.), 8-й региональной научно-практической конференции «Проблемы муниципального управления '99. Применение ГИС технологий», (г.Таганрог, 1999г.), 10-й сессии Российского акустического общества (г. Москва, 2000 г.), Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности» (г. Таганрог, 2000 г.), Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности» (г. Таганрог, 2002 г.), Всероссийской научной конференции «Научный сервис в сети Интернет» (г. Новороссийск, 2004 г.), Международной научно-практической конференции "Методы и алгоритмы прикладной математики в технике, медицине и экономике", (г. Новочеркасск, 2006 г.), Восьмой ме ждународной научно-практической конференции «Информационная безопасность-2006» (г. Таганрог, 2006 г.), IV Международной научно-технической конференции "Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем", (г. Новочеркасск, 2006 г.), IX Международной научно-практической конференции "Моделирование. Теория, методы и средства" (г. Новочеркасск, 2009 г.).

На защиту выдвигаются следующие основные положения и результаты:

1. Модель функционирования гетерогенного распределённого комплекса обработки потоковой информации в виде сети массового обслуживания без циркуляции.

2. Вероятностный метод распределения заданий по обработчикам для предложенной модели, минимизирующий среднее время пребывания задания в системе.

3. Открытые унифицированные интерфейсы подключения программного обеспечения к системе обработки потоковой речевой информации, упрощающие структуру средств контроля и управления комплекса и обеспечивающие возможности его модернизации. Структура диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 131 страниц основного текста и включает 27 рисунков, 12 таблиц. Список литературы состоит из 68 наименований на 8 страницах.

Заключение диссертация на тему "Методы и средства организации обработки потоковой информации на распределенных гетерогенных вычислительных комплексах"

Выводы

В данной главе были рассмотрены результаты практической реализации системы управления распределённым гетерогенным комплексом обработки потоков речевой информации. При этом получены следующие результаты:

1. Для удовлетворения требований к гибкости получаемого решения была разработана открытая архитектура подключаемых модулей с использованием технологии структурированного представления документов в XML формате.

2. В рамках выработки адекватной схемы распределения заданий были рассмотрены особенности функционирования модулей обработки речевой информации. Приведены сравнительные данные по их входным и выходным данным, требованиям по объёму оперативной и дисковой памяти. Рассмотрены зависимости между данными модулями.

3. Реализована подсистема гибкого обновления ПО обработчиков, позволяющая производить обновление без остановки работы комплекса и оптимизирующая сетевой трафик путём выборочного обновления компонентов данного ПО.

4. Выработана схема централизованного распределения заданий, основанная на предложенном в третьей главе методе.

5. Проведено экспериментальное исследование работы комплекса, подтвердившее целесообразность разработанного метода распределения заданий.

6. Спроектирован и реализован интерфейс пользователя, позволяющий эффективно осуществлять контроль и управление вычислительным комплексом.

Заключение

Диссертация посвящена разработке методов организации обработки потоковой информации на распределённых гетерогенных вычислительных комплексах. В процессе проведения диссертационного исследования были решены все поставленные задачи.

В рамках решения первой задачи в первой главе был выполнен анализ существующих алгоритмов и средств для решения задач распределённой обработки потоковой информации. В результате были сделаны следующие основные выводы:

- актуальность задачи разработки моделей работы распределённых гетерогенных вычислительных комплексов, построенные на базе ЭВМ различных типов и производительности, решающих задачи обработки потоковой информации;

- при разработке системы управления комплексами обработки потоковой мультимедийной информации целесообразно применение концепции универсальных вычислительных узлов.

Также при решении первой задачи был проведён обзор основных подходы к моделированию работы распределённых вычислительных комплексов обработки потоковой информации: теория управления, теория надёжности, теория массового обслуживания, имитационное моделирование, сети Петри. Показано, что теория массового обслуживания является наиболее подходящей областью для моделирования работы распределённых вычислительных систем. Среди актуальных проблем данной теории отмечено малое количество решенных оптимизационных задач, особенно в связи с моделями гетерогенных сетей.

Основываясь на решении первой задачи, во второй главе в рамках решения второй задачи была предложена модель работы распределённого комплекса обработки потоковой информации в виде сети массового обслуживания типа Джексона без циркуляции с пуассоновским входным потоком заданий и экспоненциальным распределением временем обработки. В качестве критерия оптимизации выбрана минимизация среднего времени пребывания задания в системе как один из наиболее важных параметров, характеризующих эффективность распределённой вычислительной системы.

Для рассмотренной модели была построена и решена система уравнений, описывающих состояние модели в стационарном режиме, что позволило разработать метод распределения заданий по обработчикам (третья задача).

В рамках анализа полученного решения были получены оценки границ интенсивности входного потока, после пересечения которых, использование узлов обработки малой мощности нецелесообразно.

Решению четвёртой задачи посвящена третья глава, в которой были получены следующие результаты:

- экспериментальная проверка в рамках имитационного моделирования подтвердила теоретические результаты, полученные во второй главе.

- разработана расширенная модель гетерогенного комплекса обработки потоковой информации, учитывающая типичные условия работы реальных комплексов в отношении распределения среднего времени обработки и доступности актуальной информации о состоянии системы;

- для расширенной модели разработан гибридный метод минимизации среднего времени пребывания задания в системе, отличительной чертой которого является идея о нахождении компромисса между стремлением к предполагаемому оптимальному распределению нагрузки и стремлением к оптимальному распределению заданий исходя из мгновенного сложившегося состояния системы;

- сравнение разработанного метода в рамках имитационного моделирования с двумя другими известными методами показали преимущества разработанного метода: при двух обработчиках с производительностью, отличающейся в 5 раз, данный метод даёт выигрыш перед лучшим из других методов порядка 12% вблизи средних значений входного потока и практически совпадает с лучшим методом при нагрузке, близкой к критическим значениям. Эксперименты с избранной моделью комплекса более сложной конфигурации в целом подтверждают результаты, полученные для системы с двумя обработчиками.

Результаты практического применения данного метода распределения нагрузки в реальных комплексах (в рамках научно-исследовательских и опытно-конструкторских работ «Творение-2А», «Проза», «Ребус-КУ-Р») показали фактическое уменьшение времени отклика систем порядка 10-15% по сравнению с применявшимися до этого более простыми схемами.

Пятая задача была решена в четвёртой главе, посвященной реализации программных средств управления комплексом распределённой обработки потоковой речевой информации.

В рамках выработки подходящей схемы распределения заданий были рассмотрены особенности функционирования модулей обработки речевой информации. Приведены сравнительные данные по их входным и выходным данным, требованиям по объёму оперативной и дисковой памяти. Рассмотрены зависимости между данными модулями.

Исходя из особенностей задачи, была выработана схема централизованного распределения заданий, основанная на предложенном в третьей главе методе.

Проведённое экспериментальное исследование работы комплекса в целом подтвердило результаты имитационного моделирования и целесообразность разработанного метода распределения заданий.

Требования гибкости полученного решения и результаты проведённого анализа входных привели к необходимости реализации открытой архитектуры подключаемых модулей. С учётом результатов проведённого анализа входных и выходных модулей обработки речи было принято решение о реализации модулей обработки в виде динамически подключаемых библиотек с использованием в их интерфейсе технологии структурированного представления документов в XML формате.

В виду того, что эксплуатация комплекса подразумевает достаточно частое обновление баз данных прикладных модулей и в виду значительного объёма этих баз, было принято решение о реализации специальной подсистемы обновления ПО обработчиков. Реализованная подсистема оптимизирует сетевой трафик путём выборочного обновления компонентов данного ПО.

В рамках реализации подсистемы управления распределённого комплекса был спроектирован и реализован интерфейс пользователя, позволяющий эффективно осуществлять контроль и управление вычислительным комплексом.

Библиография Телеснин, Борис Анатольевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Lednov D. A., Telesnin В. A., Telesnin К. A. Hierarchical System of Decoding Devices for the Decision of Problems of Recognition of Speech. // 4th Int. Congresson Sound and Vibration. St. Peterburg, Russia June 24-27, 1996, pp 1445-1448.

2. Agranovsky A. V., Lednov D. A., Telesnin B. A. Training and Operation of Pulse Decoder Devices for Speech Recognition. // Proc. of SPECOM'96, St. Petersburg. Russia, Oct. 21-23, 1996, pp. 126-128

3. Аграновский А. В., Леднов Д. А., Телеснин Б. А. Сегментация речи (математическая модель) // Информационные технологии, № 9, 1998 г., с. 24-28.

4. Булаев В. В., Пилиди В. С., Телеснин Б. А. Методы защиты от вложенных SQL запросов. // Научная мысль Кавказа. Приложение №5 2003г. Ростов-на-Дону, Издательство СКНЦВШ, 2003 г., с. 121-124.

5. Аграновский А. В., Зайцев В. В., Телеснин Б. А., Хади Р. А. Верификация программ с помощью моделей. // Открытые системы, № 12, 2003 г., с. 45-47.

6. Аграновский А. В., Арутюнян Р. Э., Телеснин Б. А. Использование SQL для индексации и обработки текстовых документов. // Информационные технологии, №5, 2004., стр. 14-19.

7. Аграновский А. В., Арутюнян Р. Э., Телеснин Б. А. Модульный принцип при разработке систем обработки текстовых документов. // Телекоммуникации, №6, 2004 г., М: Машиностроение, с. 6-11.

8. Арутюнян Р. Э., Лазуренко И. П., Телеснин Б. А. Моделирование полноты обработки текстовых сообщений в режиме реального времени. // Труды XI Всероссийской научно-методической конференции Телематика-2004, Санкт-Петербург, 2004, т. 1, стр. 147-148.

9. Телеснин Б. А. Развертывание распределённых вычислительных комплексов в Интернет. // Научный сервис в сети Интернет: Труды Всероссийской научной конференции (20-25 сентября 2004 г., г. Новороссийск). -М.: Изд-во МГУ, 2004. 288с., с. 74-76.

10. Аграновский А. В., Зулкарнеев М. Ю., Леднов Д. А., Телеснин Б. А. Классификатор аудио-файлов по языкам. // Свидетельство об официальной регистрации программы для ЭВМ № 20036113111/РОСПАТЕНТ. -М., 29.05.2003 г.

11. Аграновский А. В., Зулкарнеев М. Ю., Леднов Д. А., Телеснин Б. А. Фильтрация речевых сигналов. // Свидетельство об официальной регистрации программы для ЭВМ № 200361131 Ю/РОСПАТЕНТ.-М., 29.05.2003 г.

12. Аграновский А. В., Зулкарнеев М. Ю., Леднов Д. А., Телеснин Б. А. Автоматическая идентификация личности по голосу. // Свидетельство об официальной регистрации программы для ЭВМ № 20036113 П2/РОСПАТЕНТ.-М., 29.05.2003 г.

13. Аграновский А. В., Арутюнян Р. Э., Хади Р. А., Телеснин Б. А. Способ автоматической классификации документов, патент №2254610 от 20.06.2005 по заявке №2003126907 от 04.09.2003.

14. Аграновский А. В., Арутюнян Р. Э., Хади Р. А., Телеснин Б. А. Способ потоковой обработки текстовых сообщений, патент №2251148 от 27.04.2005 по заявке №2003126918 от 04.09.2003.

15. Ивницкий В. А. Сети массового обслуживания и их применение в ЭВМ (обзор) // Зарубежная радиоэлектроника, 1977. Т. 7. С. 33-70.

16. Ивницкий В. А. Теория сетей массового обслуживания. М. Изд-во Физико Математической литературы, 2004 — 772 с.

17. Jackson J. R. Networks of waiting lines // Operat. Res. 1957. V.5.№ 4. pp. 131142.

18. Little, J. D. C. A Proof of the Queueing Formula L = X W. // Operations Research, 9, 1961, pp. 383-387.

19. Таранцев А. А. Инженерные методы теории массового обслуживания — Санкт-Петербург, Наука, 2007 г 175 с.

20. Башарин Г. П., Толмачев А. Л. Теория сетей массового обслуживания и ее приложения к анализу информационно-вычислительных систем. // Итоги науки и техн. Сер. Теор. вероятн. Мат. стат. Теор. кибернет., 21, ВИНИТИ, М., 1983, с. 3-119

21. Gelenbe E., Pujiolle G. Introduction to Networks of Queues.-Chichester:Wiley, 1986.

22. Жак С. В. Экономика для инженеров. М.: Вузовская книга, 2004. -232 с.

23. Рабинер JI. Б. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор //ТИИЭР, т.77, № 2, февраль 1989-с. 86-120.

24. Bahl L. R. et al. Language-model / acoustic channel balance mechanism // IBM Technical Disclosure Bull. 23 (7B), pp.3464-3465, Dec. 1980

25. Jelinek F. Continuous speech recognition by statistical methods // Proc. IEEE, vol. 64, pp. 532-556, Apr. 1976.

26. Б. M. Миллер, A. P. Панков, «Теория случайных процессов», Москва, Физматлит, 2002.

27. Воеводин В. В., Воеводин Вл. В. Параллельные вычисления. Спб.: БХВ-Петербург 2002. 608 с.

28. Хинчин А. Я. Работы по математической теории массового обслуживания, Москва: Едиториал УРСС, 2004 240 с.

29. Michael Stonebraker, Ugur £etintemel, Stan Zdonik, The 8 Requirements of Real-Time Stream Processing, SIGMOD Record, Vol. 34, No. 4, Dec. 2005

30. Бражник A. H. Имитационное моделирование: возможности GPSS WORLD. СПб.: Реноме, 2006 г. - 439 с.

31. Шелухин О. И., Тенякшев А. М., Осин А. В. Фрактальные процессы в телекоммуникациях, Изд-во «Радиотехника», 2003 г., 480 с.

32. Шелухин О. И., Осин А. В., Урьев Г. А. Самоподобие и моделирование видепоследователыюстей. // Журнал «Наукоёмкие технологии», 2007 г., т. 8, №2-3, с. 5-26.

33. Крылов В. В., Самохвалова С. С. Теория телетрафика и ее приложения Изд-во: BHV, 2005 г., 288 е., ISBN: 5-94157-569-6.

34. The GRID: Blueprint for a New Computing Infrastructure. Edited by Ian Foster and Carl Kesselman Morgan Kaufmann Publishers, San Francisco, CA, 1999, 677 pp.

35. Mark Baker. Cluster Computing White Paper // The Computing Research Repository (CoRR), vol. cs.DC/0004014, 2000.

36. Прангишвили И. В., Виленкин С. Я., Медведев И. JI. Параллельные вычислительные системы с общим управлением — М.: Энергоатомиздат, 1983 г., 312 с.

37. Клиорин М. И., Кадулин В. Я., Смолкни В. М. Управляющие вычислительные комплексы СМ-2М: Архитектура и программное обеспечение. М.: Энергоатомиздат, 1989 г., 296 с.

38. Пащенко Ф. Ф. Введение в состоятельные методы моделирования систем, Изд-во «Финансы и статистика», 2007 г.

39. Половко А. М., Гуров С. В. Основы теории надежности, 2-е издание, СПб.: БХВ-Петербург, 2008 г., 704 с.

40. Королюк В. С., Портенко Н. И., Скороход А. В., Турбин А. Ф. Справочник по теории вероятностей и математической статистики — М.: «Наука» Главная редакция физико-математической литературы, 1985 г., 640 с.

41. Гаскаров Д. В. Интеллектуальные информационные системы. Учебник для вузов. — М.: Высш. шк., 2003 г., 431 с.

42. Михайлов Г. А., Войтишек А. В. Численное статистическое моделирование. Методы Монте-Карло: учеб. Пособие для студ. вузов. -М.: Издательский центр «Академия», 2006 г., 368 с.

43. Каляев И. А., Мельник Э. В. Метод мультиагентного распределения ресурсов в интеллектуальных многопроцессорных вычислительных системах. // Вестник южного научного центра РАН, Т. 3, № 4, 2007, с. 37-46.

44. Воеводин Вл. В., Жуматий С. А. Вычислительное дело и кластерные системы. М.: Изд-во МГУ, 2007. 150 с.

45. Методы робастного нейро-нечеткого и адаптивного управления: Учебник / Под ред. Н. Д. Егупова; издание 2-е, М.: Изд-во МГТУ им. Баумана, 2002. 744 с.

46. Theodoridis S., Koutroumbas К. Pattern Recognition, Second Edition. -Academic Press, 2003, 689 p.

47. Хайкин С. Нейронные сети: полный курс. 2-е издание Изд-во: Вильяме, 2006 г., 1104 с.

48. Оппенгейм А., Шафер Р. Цифровая обработка сигналов, 2-е изд., испр. -М.: Техносфера, 2007 г., 856 с.

49. Котов В. Е.Сети Петри. Москва, «Наука», ГРФМЛ, 1984 г.1. УТВЕРЖДАЮ1. АКТо внедрении результатов диссертационной работы Телеснина Б.А.

50. Методы и средства организации обработки потоковой информации на распределенных гетерогенных вычислительных комплексах»

51. Балакин А.В. Баталыциков А.А. улкарнеев М.Ю.к.ф.-м.н., научный сотрудник1. Руково

52. Метод минимизации среднего времени пребывания задания в системе на основе выбора функции распределения.

53. Способ управления комплексами обработки потоков речевых и текстовых данных.

54. Эти результаты внедрены в ходе разработки и создания автоматизированных комплексов предварительной информационной обработки и анализа данных (ОКР «Творение-2», «Тор-2», «Проза»)