автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Интеллектуальная платформа управления композитными приложениями в распределённых вычислительных средах

кандидата технических наук
Марьин, Сергей Владимирович
город
Санкт-Петербург
год
2010
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Интеллектуальная платформа управления композитными приложениями в распределённых вычислительных средах»

Автореферат диссертации по теме "Интеллектуальная платформа управления композитными приложениями в распределённых вычислительных средах"

На правах рукописи

уСС*фшу)

Марьин Сергей Владимирович

ИНТЕЛЛЕКТУАЛЬНАЯ ПЛАТФОРМА УПРАВЛЕНИЯ КОМПОЗИТНЫМИ ПРИЛОЖЕНИЯМИ В РАСПРЕДЕЛЁННЫХ ВЫЧИСЛИТЕЛЬНЫХ СРЕДАХ

Специальность 05.13.11 — Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук

1 с "ЕН 2013

Санкт-Петербург — 2010

004617778

Работа выполнена в Санкт-Петербургском государственном университете информационных технологий, механики и оптики

Защита состоится 27 декабря 2010 г. в 16 часов на заседании диссертационного совета Д 212.227.06 в СПбГУ ИТМО по адресу: 197101, г. Санкт-Петербург, Кронверкский пр., д. 49.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета информационных технологий, механики и оптики.

Автореферат разослан 27 ноября 2010 г.

Научный руководитель: доктор технических наук

Бухановский А.В.

Официальные оппоненты: доктор технических наук,

профессор Гергель В.П.

кандидат физико-математических наук, доцент Хоружников С.Э.

Ведущая организация: Институт системного анализа РАН

Учёный секретарь диссертационного совета доктор технических наук, профессор

Лисицына Л.С.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Современный этап развития технологий распределённых вычислений и систем тесно связан с общими тенденциями продвижения парадигмы «электронной науки» (е-Баепсе). Понятие е-8аепсе ассоциируется с технологическими аспектами организации разнородными группами специалистов совместных научных исследований, требующих объединения вычислительных и программных ресурсов для решения сложных междисциплинарных задач', в форме т.н. композитных приложений, состоящих из нескольких взаимодействующих между собой вычислительных сервисов. Специфической особенностью проектирования и использования композитных приложений является то, что их отдельные компоненты (сервисы) разрабатываются и поддерживаются различными группами специалистов, реализуют различные программные парадигмы, ориентированы на различные вычислительные платформы и требуют разных способов организации входных и выходных данных. Как следствие, для работы с композитными приложениями в распределённых вычислительных средах необходим специализированный класс промежуточного программного обеспечения, а именно — интегрирующие платформы, обеспечивающие исполнение и процессы взаимодействия предметно-ориентированных сервисов. В отечественной науке существенный вклад в развитие теоретических основ и практических решений в области платформ распределённых вычислений внесён научными школами А.П. Афанасьева, Вл.В. Воеводина, В.П. Гергеля, В.А. Ильина, Л.Б. Соколинского, и ряда других исследователей.

Платформа распределённых вычислений в общем случае должна обеспечивать не только исполнение композитных приложений на априорно заданном наборе вычислительных систем, но и управление процессом исполнения составляющих их сервисов с целью обеспечения эффективного использования ресурсов и минимизации общего времени решения задачи. Процесс управления сводится к построению расписания, обеспечивающего синхронизацию работы отдельных сервисов в условиях неоднородности вычислительных ресурсов и стохастической изменчивости параметров коммуникационных сетей и вычислительных систем, характеризуемой нестационарным поведением во времени. Как следствие, эта особенность затрудняет использование для решения задачи управления традиционных подходов распределения нагрузки, характерных, например, для кластерных систем, и требует развития специфического алгоритмического и программного инструментария, что и определяет актуальность темы исследования.

Предметом исследования является сервисно-ориентированная архитектура систем распределённых вычислений для компьютерного моделирования и обработки больших объемов данных.

Целью работы является развитие подхода к управлению параллельными вычислительными процессами на основе интеллектуальных технологий для обеспечения эффективного исполнения композитных приложений в распреде-

1 Sloot P.M.A., Frenkel D„ Vorst H.A. Van der et al. Computational e-Science: Studying complex systems in silico. A National Coordinated Initiative. White Paper, February 2007. (http://www.science.iiva.nl/research/scs/paners/archive/Sloot2007a.pdf)

ленных средах, и разработка соответствующего математического и программного обеспечения.

Задачи исследования. Достижение поставленной цели подразумевает решение следующих задач:

• Формирование системы требований к программно-аппаратным платформам поддержки распределённых вычислений для нужд е-Баепсе.

• Исследование методов планирования процессов исполнения композитных приложений в условиях неопределённости и стохастической изменчивости параметров распределённой среды, и разработка процедуры управления процессом их исполнения на основе отчуждаемых знаний предметной области.

• Проектирование и разработка сервисно-ориентированной программной платформы для компьютерного моделирования и обработки данных в распределённой среде, обеспечивающей возможность создания, запуска, мониторинга и эффективного исполнения2 композитных приложений.

• Исследование эффективности разработанных решений на основе вычислительных приложений в распределённых средах, функционирующих в режимах метакомпьютинга и Грид.

• Применение разработанных методов, алгоритмов и программных инструментов для разработки интегрирующей платформы высокопроизводительного программного комплекса НРС-МАБК для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов3.

Методы исследования включают в себя методы инженерии знаний, системного анализа и теории систем, инженерии программного обеспечения, анализа алгоритмов и программ, теории вероятностей, математической статистики и имитационного моделирования.

Научную новизну результатов работы определяют:

• Построение технологии управления процессом исполнения композитного приложения в распределённой среде в условиях неопределённости с использованием экспертных знаний в форме параметрических моделей производительности вычислительных сервисов заданной предметной области.

• Использование конкурентных эвристик для определения стратегии исполнения отдельных сервисов в составе композитного приложения с учётом стохастического характера изменчивости характеристик распределённой среды на основе имитационного моделирования.

Практическую ценность работы составляют:

• Процедура планирования процесса исполнения композитного приложения с использованием доступных вычислительных ресурсов, использующая совокупность экспертных знаний и информацию об актуальном состоянии вычислительной инфраструктуры, допускающая использование в распределённых средах различного назначения.

2 В данном случае под эффективностью понимается минимизация времени исполнения приложения.

' http://hpc-nasis.ifmo.ru

• Программное средство — интегрирующая платформа для исполнения композитных приложений произвольной предметной области на вычислительных ресурсах различной архитектуры (SMP, МРР, GPGPU, СВЕА).

• Повышение эффективности функционирования высокопроизводительного программного комплекса HPC-NASIS для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов за счёт использования разработанной платформы для организации доступа к вычислительной инфраструктуре.

На защиту выносятся:

• Процедура планирования процесса исполнения композитного приложения в условиях неопределённости и неполноты информации о состоянии распределённой вычислительной среды, использующая формализм представления знаний о производительности в виде параметрических моделей для определения оптимальной стратегии путем интервального сопоставления конкурирующих эвристик.

• Архитектура интеллектуальной платформы управления композитными приложениями, обеспечивающая повышение их производительности в неоднородных распределённых вычислительных средах, функционирующих в режимах метакомпьютинга и Грид.

Достоверность научных результатов и выводов обеспечивается строгостью наложенных ограничений предметной области, экспериментальными исследованиями эффективности распределённой платформы и производительности композитных приложений, а также практическим использованием разработанных методов и средств при создании высокопроизводительного программного комплекса HPC-NASIS для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов.

Внедрение результатов работы. Результаты работы нашли свое применение при выполнении проектов «Инструментальная технологическая среда для создания массовых мобильных он-лайн сервисов нового поколения» (НИР 2008-4-1.4-18-01-022) направления 1.4 «Генерация знаний» ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», «Разработка высокопроизводительного программного комплекса для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов» (ОКР 2008-04-2.4-15-02-003) направления 2.4 «Осуществление комплексных проектов, в том числе разработка конкурентоспособных технологий, предназначенных для последующей коммерциализации в области информационно-телекоммуникационных технологий» ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», «Инструментальная среда для построения композитных приложений моделирования сложных систем» (НИР П1386) направления «Распределённые вычислительные системы» ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы», «Интеллектуальные технологии распределённых вычислений для моделирования сложных систем» (НИР П469) направления «Распределённые вычислительные системы»

ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы», «Инструментальная технологическая среда для создания распределённых интеллектуальных систем управления сложными динамическими объектами» (НИР 2010-1.1-214-072-049) мероприятия 1.1 «Проведение научных исследований коллективами научно-образовательных центров» ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы», «Создание инструментальной среды для разработки композитных приложений в Грид-сети, как интеллектуальной системы поддержки принятия решений разработчика» (НИР, выполняемая по заказу Национальной ассоциации исследовательских и научно-образовательных электронных инфраструктур «е-АРЕНА»), Результаты работ внедрены в производственную деятельность ЗАО «Фирма "АйТи". Информационные технологии».

Апробация работы. Изложенные в диссертации результаты обсуждались на семи международных и всероссийских научных конференциях, семинарах и совещаниях, включая IX и X ежегодные Международные конференции «Высокопроизводительные параллельные вычисления на кластерных системах» (2009 г., Владимир; 2010 г., Пермь); XII ежегодную Всероссийскую научную конференцию «Научный сервис в сети Интернет: суперкомпьютерные центры и задачи» (2010 г., Новороссийск); IV Международную конференцию «Распределённые вычисления и Грид-технологии в науке и образовании» (2010 г., Дубна); XVII Всероссийскую научно-методическую конференцию «Телематика'2010» (2010 г., Санкт-Петербург); VII Межвузовскую конференцию молодых ученых (2010 г., Санкт-Петербург); Всероссийскую конференцию «Технологии Microsoft в теории и практике программирования» (2010 г., Нижний Новгород).

Публикации. По теме диссертации опубликовано 8 печатных работ (из них 3 — в изданиях из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК РФ).

Личный вклад автора в работах, выполненных в соавторстве, заключался в выполнении аналитического обзора в проблемной области диссертационной работы, развитии теоретических основ и реализующих их алгоритмов планирования исполнения композитного приложения, проектировании и разработке основных программных компонентов ядра интеллектуальной платформы, выполнении экспериментальных исследований производительности композитных приложений, а также интеграция разработанного решения в высокопроизводительный программный комплекс HPC-NASIS. В диссертацию включены результаты, которые соответствуют личному участию автора.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и списка литературы (109 наименований). Содержит 117 с. текста, включая 42 рис. и 11 табл.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность проблемы, формулируются цель и задачи исследования, отмечаются научная новизна и практическая значимость результатов, перечисляются основные положения, выносимые на защиту.

В первой главе проведён аналитический обзор технологических решений в области распределённых вычислений, включая платформы создания и исполнения композитных приложений. Рассматриваются основные аспекты, связанные с практической реализацией парадигмы e-Science, включая базовые концепции создания композитных приложений, формы и способы их представления в форме потока заданий (workflow, далее — WF), технологии управления их исполнением, а также вопросы поддержки принятия решений разработчика композитных приложений, в том числе — в рамках соответствующего виртуального профессионального сообщества. Проводится их сопоставление с основными отечественными и зарубежными разработками.

В табл. 1 приведены характеристики отечественных программных платформ в области e-Science, которые используются как в составе проблемно-ориентированных приложений, так и для решения мультидисциплинарных задач4. Сравнительный анализ в целом демонстрирует широту охвата проблемы, однако отражает определённую ограниченность подходов к задаче собственно управления композитными приложениями. Так, большинство отечественных решений либо не поддерживают технологии WF, либо поддерживают лишь частные случаи композитных приложений с распараллеливанием по данным.

Таблица 1

Характеристики отечественных программных платформ в области e-Science

Проект Предметная область Интегрированная среда SaaS Поддержка WF Распределённые вычислительные ресурсы Знания Сообщество пользователей

СИВС Платформа - + - - + +

w-ИЦКЛ Конструирование лекарств веб-форма + - + + +

Grid МО Молекулярная динамика - - + + - -

«Пирамида» Платформа - - по данным + - -

GMDH Shell Data mining + - - вручную - -

GIMM Задачи механики сплошной среды + + - вручную - -

MathCloud Математика + + + + - -

Triad.Net Имитационное моделирование - - неявная - + -

CAEBeans Платформа веб-форма + + + - -

iPEG Платформа + + по данным + + -

4 Обозначение «платформа» в графе «предметная область».

С целью углубленного анализа задачи управления композитными приложениями в табл. 2 приведены характеристики отечественных и зарубежных решений, ориентированных на работу с в распределённых вычислительных средах.

Таблица 2

Характеристики программных платформ управления _композитными приложениями_

Название Компоновка Планирование

системы Модель Составление Архитектура планировщика Уровень планирования Схема Цель

CAEBeans фиксирован" Централизованная Задача Динамическая Время

СУС ИСА РАН Абстрактная Графическое Планирование вырожденное: каждому вычислительному компоненту априори установлен в соответствие ровно один вычислительный ресурс

GrldMD задаётся непосредственно в тексте запускаемой программы (С++) Используется планировщик той грид-системы, на которой запускается приложение

DAGMan Абстрактная Текстовое Централизованная Задача Динамическая Время

Pegasus Абстрактная Текстовое Автоматически Централизованная Задача т Статическая от пользователя Динамическая Время

Triana Абстрактная Графическое Распределённая Задача Динамическая Время

ICENI Абстрактная Текстовое Графическое Централизованная Ш Динамическая с предсказанием Время Квоты

Taverna Абстрактная Конкретная Текстовое Графическое Централизованная Задача Динамическая Время

GrADS Абстрактная Текстовое Централизованная Задача Ш Динамическая с предсказанием Время

GridFlow Абстрактная Графическое Текстовое Иерархическая Задача Статическая Время

UNICORE Конкретная Графическое Централизованная * Статическая от пользователя *

Gridbus workflow Абстрактная Конкретная Текстовое Иерархическая Задача Статическая от пользователя Динамическая Квоты

Askalon Абстрактная Графическое Текстовое Распределённая Ш Динамическая Динамическая с предсказанием Время Квоты

Karajan Абстрактная Графическое Текстовое Централизованная *

Kepler Абстрактная Конкретная Графическое Централизованная *

* Архитектура системы подразумевает явную реализацию части стратегии планирования разработчиком конечного комплекса.

** В системе САЕВеапх \\Т задаётся разработчиком конечного комплекса и остаётся фиксированным для пользователя.

В табл. 2 указаны сведения о модели WF5, а также способе задания WF: графический, текстовый, либо автоматический (по неполному пользовательскому описанию). Также указаны характеристики планировщика, осуществляющего исполнение WF и целевая функция планирования (время исполнения или квоты на использование ресурсов). Результаты анализа в целом демонстрируют, что в настоящее время еще не сложилось единого подхода к вопросам управления процессом исполнения композитного приложения в распределённой среде. Так, часть решений требует от пользователя явного задания расписания исполнения, или использует результаты статического планирования. Вместе с тем ряд платформ (например, Askalon, GrADS, ICENI) позволяют выполнять прогноз времени исполнения и планирование всего WF до начала его выполнения с последующим мониторингом хода решения задачи и динамической корректировкой плана. Однако адекватность и достоверность такого прогноза дискуссионны в силу того, что он основывается только на экстраполяции фактических данных измерений времени расчётов, и не использует в полной мере априорных знаний предметной области касательно производительности отдельных предметно-ориентированных сервисов в составе композитного приложения.

Вторая глава посвящена теоретическим аспектам интеллектуальных технологий управления исполнением композитного приложения в распределённых средах, реализуемого в рамках концепции iPSE. Концепция iPSE (Intelligent Problem Solving Environment6) обобщает традиционные подходы к созданию проблемно-ориентированных оболочек за счёт введения интеллектуальных механизмов поиска, настройки и исполнения предметно-ориентированных сервисов в распределённой вычислительной среде. Концепция iPSE регламентирует возможность интеляекщ'алыюго управления производительностью композитных приложений. Она обеспечивается способом построения сервисов, когда уже на этапе создания сервисной оболочки разработчики прикладных сервисов предоставляют информацию не только об интерфейсах взаимодействия, но и о характеристиках производительности сервисов (например, в форме зависимости времени его работы от характеристик данных и параметров вычислительной архитектуры). Фактически, эта информация также представляет собой экспертное знание7, заданное в форме уравнения или табличной функции (профиля приложения). Эффективное взаимодействие сервисов в этом случае организуется самой оболочкой управления, которая выполняет операцию логического вывода (строит оптимальное расписание) на основе знаний о производительности, заложенных в функциональных сервисах, и данных о функционировании распределённой системы в целом, получаемых посредством её мониторинга в реальном времени. Это позволяет осуществить оптимизацию8 схемы организации

5 Абстрактный \УР (А\УР) предполагает указание только состава сервисов, а конкретный (ОМР) - режимов их запуска и расположения на вычислительных ресурсах.

6 Интеллектуальные высокопроизводительные программные комплексы моделирования сложных систем: концепция. архитектура и примеры реализации |Текст| / Бухановский А. В., Ковальчук С. В., Марьин С. В. // Известия вузов. Приборостроение. — 2009. — Т. 52, №. 10. — С. 5-24.

7 В данном случае с точки зрения интегратора экспертом выступает сам разработчик, когда (а) формулирует модель производительности с заданными допущениями и (б) приписывает её конкретной вычислительной архитектуре.

* По времени, или по другим показателям (например, надежности, уровню репликации и пр.).

взаимодействия между вычислительными сервисами за счёт управления последовательностью их исполнения на ресурсах, способами распараллеливания, балансировкой нагрузки и маршрутами передачи данных.

Формальный механизм построения описания композитного приложения сводится к последовательности преобразований описания абстрактного WF в конкретный (или частично-конкретный) WF. В качестве модели абстрактного WF выступает ориентированный ациклический граф Wa={wa=(Vu,Ea)}, где множество вершин Va — решаемые подзадачи, а множество ребер Еа — зависимости между ними по данным. Промежуточным этапом организации схемы построения приложения является частично-конкретный WF, представимый в форме:

Wj- = {(и-, = (Vj, Ej), state, resource)},

state:Vj —> {done, running, scheduled, not ^scheduled], (1)

resource :V, ->Cu(0), где state — функция отображения множества решаемых подзадач на множество состояний, включающего такие состояния как «выполнено», «запущено», «спланировано», «не спланировано»; resource — функция отображения множества решаемых задач на множество конфигураций доступных ресурсов С (в случае, если задача находится в состоянии, отличном от «не спланировано»).

Для составления расписания используется процедура планирования, которая может быть представлена в виде функции следующего вида:

sched : W, хТ^хН VV,-, (2)

/

где T0 — множество, содержащее характеристики времени исполнения основных сервисов на различных конфигурациях вычислительных ресурсов в составе WF, Н — характеристики распределённой среды. Ход исполнения WF в целом может быть представлен в виде последовательности частично-конкретных WF:

Wc(wa е Wa,sched,tQ ,1ге Н) = {(wf)b

vi'0 ={wa,state(v) = not _scheduled,resource(v) = 0}, (3)

/

Wj = sched(\Vj_\,tQ ,h),i >0, /

при этом функция /0 оценки времени окончания счёта на определённой конфигурации вычислительных ресурсов (как основная характеристика процесса синхронизации) представляет собой отображение вида:

t(':C->R+. (4)

/

Значения /0 могут быть получены различными способами, в том числе, путем профилировки. Однако в рамках концепции iPSE они интерпретируются как априорные знания предметной области, формой представления которых являются параметрические модели производительности, ассоциированные с доступными вычислительными сервисами предметной области. На рис. 1 приведены графики, иллюстрирующие основные аспекты построения параметрических

моделей производительности на примере трех сервисов, реализуемых вычислительными пакетами САМЕЯБ, СЖСА и МОЬРШЭ (на рис. обозначены цифрами 1, 2 и 3, соответственно)9.

а) юо-Ц

о 60

к

о а ш

40

п О--1 О —- -2

' \ О.....3

1; \ и V.--" 0

4 6 8 10 12 14 16 Количество вычислительных ядер

0 1 2 3 4 5 6 7 Количество вычислительных ядер

Количество базисных функций

О 2 4 в в 10 12 14 16 Количество вычислительных ядер

Рис. 1. Построение и анализ параметрических моделей производительности прикладных сервисов (комментарии к графикам — по тексту)

На рис. 1а на примере модели зависимости времени решения задачи от параметра N (числа атомов в молекулярной системе) проиллюстрирована процедура выбора оптимальных параметров запуска сервиса10. Из соображений минимизации времени работы и с учётом ограничения числа вычислителей, может быть произведён предварительный выбор вычислительного сервиса, обеспечивающего минимальное время исполнения: использование сервиса СЖСА (I), функционирующего на двух вычислителях (II). На рис. 16 приведены распределения времени работы пакетов (реализуемых сервисами), полученные на основании экспериментов в среде распределённых вычислений. Время ис-

9 Для задач квантовоП химии.

ш В данном случае — количества параллельных вычислителен — процессоров или ядер.

полнения учитывает накладные расходы на запуск сервиса в распределённой среде, что приводит к параллельному сдвигу графиков вдоль оси ординат по сравнению с рис. 1а. Кроме того, пересечение распределений при Р = 4 свидетельствует о неоднозначности решения, построенного по детерминированным моделям производительности. На рис. 1в приведён график, иллюстрирующий зависимость времени работы пакетов (составляющих основу сервисов) от двух величин: количества базисных функций (параметр предметной области) и количества вычислительных ядер (технический параметр). При этом можно заметить, что все пространство изменения этих переменных можно разделить на области, характеризующиеся минимизацией времени при использовании какого-либо из пакетов (что и является критерием выбора). На рис. 1г приведены графики производного параметра (параллельного ускорения), получаемого в процессе моделирования. Как можно заметить, выбор по этому параметру (максимизация ускорения) привел бы к другим результатам (выбору пакета 1 — САМЕББ). Как следствие, одной из задач, решаемых в ходе построения схемы выполнения, является корректное определение критериев оптимизации в соответствии с потребностями пользователя.

Параметрические модели производительности позволяют эффективно описывать лишь характеристики отдельных прикладных сервисов в составе композитного приложения. Определение времени работы всего в целом требует использования специфических подходов, основанных на построении алгоритмов планирования, использующих различные эвристики", входными данными для которых, в соответствии с формулами (2, 4), являются значения времени работы отдельных сервисов. Для исследования эффективности решения задачи управления процессом исполнения композитного приложения в распределённой среде были рассмотрены эвристические алгоритмы планирования МахМт, МтМт и Б^е^е. В результате анализа, проведённого посредством имитационного моделирования, было продемонстрировано, что в реальных распределённых системах в силу наличия стохастических факторов в изменчивости характеристик вычислительных ресурсов и коммуникационных каналов, возможно только интервальное сопоставление различных сценариев исполнения; при этом в зависимости от конкретного состояния среды может выигрывать та или иная эвристика. Таким образом, это не дает оснований однозначно декларировать целесообразность использования того или иного алгоритма планирования, и требует в каждом конкретном случае рассматривать конкурирующие эвристики, вводя при этом критерии их ранжирования. Таким образом, это позволяет обосновать общую процедуру планирования процесса исполнения композитного приложения в распределённых вычислительных средах в рамках концепции ¡РБЕ (см. рис. 2). Процедура включает в себя следующие этапы:

• Формализация композитного приложения: формирование структуры абстрактного \\Т, исходя из пользовательского описания, состава данных Е и ограничений на режимы исполнения отдельных сервисов.

• Определение актуальных параметров распределённой среды на основе инструментов мониторинга вычислительных ресурсов, выполняющих изме-

11 В силу ЫР-трудности решаемой задачи.

рения текущих характеристик производительности сервисов и пропускной способности коммуникационных каналов.

Workflow

А

J

(О)—*

Пользователь

Знания

Tc=F i(ES,=A,=D)

\(Щ Т^ЕоьЕрг)

TD=F3(EDbED2)

Задача

Набор данных

Параметры запуска

Требования к решению

Ресурсы

Мониторинг

Статические параметры

Динамические параметры

Т.

Набор активных фактов

Актуальное состояние системы

Описание решаемой задачи

Статистические характеристики среды

0.4

о.з 0.2 0.1 о

Результаты моделирования

SufferageK Мах Min

*» > «

г «

. Min Min "

еят» 'Дшм^вш

360 380 400 420 440

Время расчета

Блок имитационного моделирования

«3

11 О X 3 аз

Q.S

03 -

О

[ Выбор плана управления )

3 с

s §

Ц С 5.§

Щ =

о

Я!

Ф

О)

£ г

о <ь

чЁ

Q.

ю 03 со

® 3

з- с о о

гг,

Рис. 2. Процедура планирования процесса исполнения композитного приложения в распределённой вычислительной среде

• Формирование набора активных фактов: оценка характеристик производительности отдельных прикладных сервисов по параметрическим моделям (как форме представления знаний, ассоциированных с элементами а также определение накладных расходов, связанных с вызовом сервисов (Тс), передачей (Тн) и конвертированием (Т0) данных.

• Имитационное моделирование сценариев исполнения \\Ф на наборе конкурирующих эвристик: на основе априорных знаний о стохастической изменчивости параметров распределённой среды методом Монте-Карло генери-

руются модельные ансамбли вариантов исполнения композитного приложения.

• Интервальное оценивание: по каждой конкурирующей эвристике строится распределение времени исполнения, после чего проверяется гипотеза о сходстве-различии результатов для отдельных эвристик; в результате выбирается отделимая эвристика, с минимальным средним временем исполнения и ограничением на разброс в сторону увеличения времени исполнения12. В том случае, если сценарии исполнения статистически неотделимы, к реализации предлагается схема с минимальным средним временем исполнения.

Таким образом, предложенная процедура позволяет совокупно учесть стохастическую изменчивость характеристик распределённой среды и априорные знания о производительности прикладных сервисов в ходе планирования процесса исполнения композитного приложения.

Третья глава посвящена проектированию и разработке интеллектуальной платформы управления композитными приложениями, реализующей описанную выше процедуру планирования. На рис. 3 приведена сервисно-ориентированная архитектура платформы. Основная работа с компонентами (системными сервисами) в составе платформы осуществляется через интерфейс управляющего ядра. Управляющее ядро предназначено для осуществления операций с пользовательскими и консолидации работы прочих системных сервисов. В интерфейс управляющего ядра входят базовые команды работы с \\Т: компоновка и доопределение описания композитного приложения в форме абстрактного \\Т; запуск и остановка выполнения получение информации о текущем состоянии \\Т, включая идентификаторы файлов входных и выходных данных в соответствующем хранилище.

Основным содержательным элементом платформы является сервис планирования (планировщик). Планировщик предназначен для составления расписания запусков, то есть для отображения списка текущих задач, поступивших от управляющего ядра, на вычислительные ресурсы, информация о состоянии которых поступает от сервиса мониторинга. При планировании используются знания о вычислительных сервисах в форме параметрических моделей производительности и результаты имитационного моделирования в соответствии с процедурой, описанной в предыдущем разделе. Результатом планирования является расписание исполнения отдельных сервисов в составе

Согласно полученному расписанию, управляющим ядром осуществляется запуск заданий на соответствующих вычислительных ресурсах, контроль их исполнения, а также пред- и постобработка данных, выполняемая адаптерами вычислительных пакетов. К типичным задачам предобработки относится формирование входного файла для конкретного вычислительного пакета в соответствии с пользовательским описанием в терминах предметной области. К постобработке относится, например, конвертирование данных в необходимый формат для использования другими сервисами в составе или более удобного представления пользователю.

12 Ограничение необходимо, чтобы устранить ситуации, приводящие к кажущемуся «зависанию» системы.

Рис. 3. Общая архитектура интеллектуальной платформы управления композитными приложениями

Для учёта специфики запуска и сбора информации о ходе выполнения в конкретных вычислительных средах используется расширяемый набор провайдеров вычислительных ресурсов. Каждый провайдер — это подпрограмма, поставляемая вместе с платформой или написанная системным программистом, реализующая базовую функциональность взаимодействия с определённым набором вычислительных ресурсов. Такими ресурсами могут быть отдельные кластеры, группа кластеров или ресурсы Грид.

После запуска задачи на заданном вычислительном ресурсе информация о её состоянии периодически запрашивается сервисом мониторинга. Кроме информации о состоянии задач в сервис мониторинга также поступают данные о конфигурации и текущей загруженности вычислительных ресурсов. Эти данные передаются другим сервисам: планировщику для использования в процессе выбора ресурсов и построения расписания, управляющему ядру для выполнения необходимых действий при смене статуса задачи (например, при её окончании или сбое), а также компонентам, взаимодействующим с пользователем для отображения хода выполнения задачи и загруженности ресурсов.

Таким образом, представленная на рис. 3 архитектура позволяет обеспечить выполнение основных процессов управления исполнением композитных приложений в распределённой вычислительной среде.

Четвёртая глава описывает экспериментальные исследования характеристик интеллектуальной платформы управления композитными приложениями, а также её практическое использование в составе высокопроизводительного программного комплекса НРС-ЫА818 для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов. Схема интеграции платформы в состав программного комплекса, при которой

было произведено замещение стандартного блока управления разработанной платформой, приведена на рис. 4.

Справочные I | Архив данные ' I результатов

•Ввод данны>-

Зы-ЮД /;-:<■>•!.:;-

Визуальный Интерфейс Визуализация

редактор управления результатов

\ У V >

В 3 Д и М од С: й С т ВИ " с пользователем

Платформа управления композитными приложениями.

Рис. 4. Интеграция разработанной платформы в состав высокопроизводительного программного комплекса НРС-ИАЗН»

В табл. 3 приведены результаты измерения времени исполнения тестового композитного приложения13 в комплексе НРС-ЫА515 под управлением разработанной платформы в режимах метакомпьютинга (выделенные кластеры под управлением системы «Метакластер») и Грид14. Представлены статистические характеристики (среднее время Мх, СКО .V,, коэффициент вариации К(=5(/л/,) по отдельным составляющим накладных расходов платформы управления и среды распределённых вычислений в целом.

" Расчёт распределения электронной плотности молекулярной структуры.

14 В среде Грид Национальной нанотехнологической сети (Грид ННС); в проведении эксперимента участвовала научная группа НИИЯФ МГУ под руководством В.А. Ильина.

Таблица 3

Статистические характеристики составляющих времени накладных расходов (секунды) при исполнении композитного приложения НРС^А818

Временные характеристики запуска приложения Режим метакомпьютинга Режим Грид

5, V, м, ■V, V,

Время выбора вычислительного ресурса 14.92 2.1 0.14 ■ -

Время работы адаптеров платформы управления 0.9 0.06 0.07 0.32 0.08 0.26

Время передачи расчётных данных в хранилище платформы управления 3.62 0.13 0.03 3.13 0.66 0.21

Собственные накладные расходы распределённой среды 10.09 1.9 0.19 186.36 123.97 0.67

Накладные расходы на управление исполнением сервисов в платформе управления 9.16 2.68 0.29 9.7 0.92 0.09

Накладные расходы на управление исполнением ЧЧР в платформе управления 6.97 0.31 0.04 0.58 0.2 0.35

Проведённые экспериментальные исследования в целом продемонстрировали, что накладные расходы платформы управления сопоставимы по порядку с накладными расходами инфраструктуры распределённых вычислений в режиме метакомпьютинга, и на порядок меньше накладных расходов в среде Грид. Таким образом, это показывает возможность практического использования разработанной платформы управления композитными приложениями в распределённых вычислительных средах, не оказывая при этом существенного влияния на общую производительность вычислительной инфраструктуры.

Основные результаты диссертационной работы состоят в следующем:

• выполнен анализ и адаптация методов планирования процессов исполнения с учётом неопределённости и неполноты информации о состоянии распределённой вычислительной среды в условиях стохастической изменчивости её характеристик;

• разработана и обоснована процедура планирования процесса исполнения композитного приложения, обеспечивающая решение задачи управления распределёнными вычислениями и реализующая обоснованный выбор субоптимального расписания на основе совокупного использования экспертных знаний о производительности сервисов и результатов имитационного моделирования сценариев исполнения \\Ф;

• разработана и детализирована архитектура интеллектуальной платформы управления композитными приложениями в распределённых вычислительных средах, обеспечивающая запуск и контроль исполнения композитных приложений в соответствии с субоптимальным расписанием;

• спроектировано и реализовано программное средство — интеллектуальная платформа управления параллельным исполнением композитных приложений, успешно апробированное и внедрённое в состав высокопроизводительного программного комплекса НРС-НАБК для квантово-

механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов.

Публикации по теме диссертационной работы

1. Интеллектуальные высокопроизводительные программные комплексы моделирования сложных систем: концепция, архитектура и примеры реализации [Текст] / Бухановский А. В., Ковальчук С. В., Марьин С. В. // Известия вузов. Приборостроение. — 2009. — Т. 52, №. 10. — С. 5-24. (по перечню ВАК)

2. Динамическое управление распределёнными вычислительными ресурсами в составе композитного приложения [Текст] / Марьин С. В., Ковальчук С. В., Рыбаков Г. М., Бухановский А. В. // Научно-технический вестник СПбГУ ИТМО / СПбГУ ИТМО. — 2010. — Выпуск 67. — С. 126. (по перечню ВАК)

3. Интеллектуальные технологии распределённых вычислений для моделирования сложных систем [Текст] / C.B. Марьин, A.B. Ларченко, C.B. Ковальчук, К.В. Князьков, Е.В. Болгова, A.B. Бухановский // Научно-технический вестник СПбГУ ИТМО / СПбГУ ИТМО. — 2010. — Выпуск 70. — С. 123-124. (по перечню ВАК)

4. Подходы к конструированию интеллектуальных высокопроизводительных композитных приложений для моделирования сложных систем [Текст] / Ковальчук С. В., Марьин С. В., Дунаев А. В., Бухановский А. В. // Высокопроизводительные параллельные вычисления на кластерных системах : Материалы Девятой международной конференции-семинара : Владимир, 2-3 ноября 2009 г. — Владимир, 2009. — С. 219-224.

5. Сервисно-ориентированная распределённая среда управления прикладными вычислительными пакетами [Текст] / C.B. Марьин, C.B. Ковальчук // Технологии Microsoft в теории и практике программирования. Материалы конференции / Под ред. проф. В.П. Гергеля .— Нижний Новгород: Изд-во Нижегородского госуниверситета, 2010. — С. 427-429.

6. HPC-NASIS: Distributed Problem Solving Environment for Quantum Chemistry Computations [Text] / S.V. Maryin, S.V. Kovalchuk, A.V. Boukhanovsky, V.N. Va-siliev // Distributed Computing and Grid-Technologies in Science and Education : Book of Abstr. of the 4th Intern. Conf. (Dubna, June 28 - July 3, 2010).— Dubna: JINR, 2010, —P. 97-98.

7. Сервисно-ориентированная распределённая среда управления прикладными вычислительными пакетами [Текст] / Марьин C.B., Ковальчук C.B. // Сборник статей участников Всероссийского конкурса научных работ студентов и аспирантов «Телематика'2010: телекоммуникации, веб-технологии, суперкомпьютинг» / СПбГУ ИТМО. — СПб, 2010. — С. 205-206.

8. Интеллектуальная платформа управления композитными приложениями в распределённых вычислительных средах [Текст] / C.B. Марьин, C.B. Ковальчук, A.B. Ларченко // Высокопроизводительные параллельные вычисления на кластерных системах (НРС-2010) : Материалы X Международной конференции : г. Пермь, 1-3 ноября 2010 г. / Пермский государственный технический университет .— Пермь, 2010. — С. Ш-119.

Тиражирование и брошюровка выполнены в учреждении «Восстания - 1» 191036, Санкт-Петербург, Восстания, 1.

Тираж 100 экз. Объем 1 п.л.

Оглавление автор диссертации — кандидата технических наук Марьин, Сергей Владимирович

Основные обозначения и сокращения.

Введение.

1 Аналитический обзор в области платформ распределённых вычислений для e-Science

1.1 Общие тенденции развития высокопроизводительных приложений для компьютерного моделирования и обработки данных в области e-Science.

1.1.1 Проблемно-ориентированные среды и композитные приложения.

1.1.2 Использование прикладного программного обеспечения в форме услуги: концепция SaaS (Software as a Service).

1.1.3 Ориентация на распределённые вычислительные ресурсы и среды.

1.1.4 Использование знаний и интеллектуальных технологий.

1.1.5 Профессиональные виртуальные сообщества.

1.2 Подходы, технологии и особенности реализации высокопроизводительных приложений в распределённых средах.

1.2.1 Сервисно-ориентированная архитектура (SOА).

1.2.2 Представление распределённых композитных приложений в форме потока заданий

1.2.3 Алгоритмы планирования исполнения WF.

1.2.4 Интеллектуальные технологии поддержки принятия решений разработчика распределённых приложений.

1.2.5 Интеллектуальные технологии управления производительностью распределённых систем.

1.3 Сравнительный анализ существующих платформ управления композитными приложениями в распределённых вычислительных средах.

1.3.1 Сравнительный анализ отечественных разработок в области платформ высокопроизводительных вычислений для e-Science.

1.3.2 Сравнительный анализ платформ управления распределёнными композитными приложениями в форме WF.

1.4 Постановка задачи исследования.

Выводы по главе 1.

2 Процедура планирования процесса исполнения композитного приложения в условиях неопределённости и неполноты информации о состоянии распределённой вычислительной среды.;.

2.1 Концепция iPSE организации композитных приложений в распределённых вычислительных средах.

2.1.1 Общая архитектура 1Р8Е.

2.1.2 Интеллектуальное управление в 1Р8Е.

2.1.3 Использование знаний о производительности вычислительных сервисов в виде параметрических моделей.

2.2 Планирование исполнения WF на основе эвристических алгоритмов построения расписаний.

2.2.1 Эвристические алгоритмы для построения расписания.

2.2.2 Инструмент моделирования выполнения композитного приложения при использовании различных алгоритмов планирования.

2.2.3 Анализ эвристик планирования.

2.3 Определение стратегии управления на основе статистического сопоставления конкурирующих эвристик.

Выводы по главе 2.

3 Проектирование и разработка интеллектуальной платформы управления композитными приложениями в распределённых средах.

3.1 Общая архитектура и схема функционирования платформы.

3.2 Основные программные компоненты платформы.

3.2.1 Управляющее ядро.

3.2.2 Адаптеры вычислительных пакетов.

3.2.3 Планировщик.

3.2.4 База моделей производительности.

3.3 Программная реализация платформы.

3.4 Анализ соответствия разработанного решения основным тенденциям развития инструментария е-Быепсе.

3.4.1 Проблемно-ориентированные среды.

3.4.2 Композитные приложения.

3.4.3 Предоставление ПО в форме услуги (БааБ).

3.4.4 Использование распределённых вычислительных ресурсов.

3.4.5 Использование отчуждаемых знаний и интеллектуальных технологий.

3.4.6 Поддержка профессиональных виртуальных сообществ.

Выводы по главе 3.

4 Экспериментальные исследования характеристик платформы и её применение в программном комплексе НРС-МАБК.

4.1 Назначение и области применения программного комплекса НРС-НАБК.

4.2 Встраивание интеллектуальной платформы управления композитными приложениями в программный комплекс НРС-КАБК.

4.2.1 Интеграция платформы с основными системными сервисами НРС-ИАЗК.

4.2.2 Разработка адаптеров платформы к прикладным пакетам НРС^АБК.

4.2.3 Интеграция платформы в распределённых вычислительных средах под управлением системы «Метакластер» и Грид ННС.

4.3 Исследование функциональных характеристик комплекса НРС-№А818 на примере решения практических задач.

4.3.1 Описание решаемой задачи.

4.3.2 Последовательность действий при решении задачи самосогласования комплексом НРСЖАЗге.

4.3.3 Отражение хода решения задачи в интеллектуальной платформе.

4.4 Экспериментальное исследование производительности композитных приложений под управлением интеллектуальной платформы.

4.4.1 Определение времени исполнения композитного приложения в режимах метакомпьютинга и Грид.

4.4.2 Анализ составляющих накладных расходов на управление композитными

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Марьин, Сергей Владимирович

Современный этап развития технологий распределённых вычислений и систем тесно связан с общими тенденциями продвижения парадигмы «электронной науки» (е-Зшепсе). Понятие е-8«епсе ассоциируется с технологическими аспектами организации разнородными группами специалистов совместных научных исследований, требующих объединения вычислительных и программных ресурсов для решения сложных междисциплинарных задач1, в форме т.н. композитных приложений, состоящих из нескольких взаимодействующих между собой вычислительных сервисов. Специфической особенностью проектирования и использования композитных приложений является то, что их отдельные компоненты (сервисы) разрабатываются и поддерживаются различными группами специалистов, реализуют различные программные парадигмы, ориентированы на различные вычислительные платформы и требуют разных способов организации входных и выходных данных. Как следствие, для работы с композитными приложениями в распределённых вычислительных средах необходим специализированный класс промежуточного программного обеспечения, а именно — интегрирующие платформы, обеспечивающие исполнение и процессы взаимодействия предметно-ориентированных сервисов. В отечественной науке существенный вклад в развитие теоретических основ и практических решений в области платформ распределённых вычислений внесён научными школами А.П. Афанасьева, Вл.В. Воеводина, В.П. Гергеля, В.А. Ильина, Л.Б. Соколинского и ряда других исследователей.

Платформа распределённых вычислений в общем случае должна обеспечивать не только исполнение композитных приложений на априорно заданном наборе вычислительных систем, но и управление процессом исполнения составляющих их сервисов с целью обеспечения эффективного использования ресурсов и минимизации общего времени решения задачи. Процесс управления сводится к построению расписания, обеспечивающего синхронизацию работы отдельных сервисов в условиях неоднородности вычислительных ресурсов и стохастической изменчивости параметров коммуникационных сетей и вычислительных систем, характеризуемой нестационарным поведением во времени. Как следствие, эта особенность затрудняет использование для решения задачи управления традиционных подходов распределения нагрузки, характерных, например, для кластерных систем, и требует развития специфического

1 Sloot P.M.A., Frenkel D., Vorst H.A. Van der et al. Computational e-Science: Studying complex systems in silico. A National Coordinated Initiative. White Paper, February 2007. (http://www.science.uva.nl/research/scs/papers/archive/Sloot2007a.pdf) алгоритмического и программного инструментария, что и определяет актуальность темы исследования.

Предметом исследования является сервисно-ориентированная архитектура систем распределённых вычислений для компьютерного моделирования и обработки больших объёмов данных.

Целью работы является развитие подхода к управлению параллельными вычислительными процессами на основе интеллектуальных технологий для обеспечения эффективного исполнения композитных приложений в распределённых средах и разработка соответствующего математического и программного обеспечения.

Задачи исследования. Достижение поставленной цели подразумевает решение следующих задач:

• Формирование системы требований к программно-аппаратным платформам поддержки распределённых вычислений для нужд е-БЫепсе.

• Исследование методов планирования процессов исполнения композитных приложений в условиях неопределённости и стохастической изменчивости параметров распределённой среды, и разработка процедуры управления процессом их исполнения на основе отчуждаемых знаний предметной области.

• Проектирование и разработка сервисно-ориентированной программной платформы для компьютерного моделирования и обработки данных в распределённой среде, обеспечивающей возможность создания, запуска, мониторинга и эффективного исполнения2 композитных приложений.

• Исследование эффективности разработанных решений на основе вычислительных приложений в распределённых средах, функционирующих в режимах метакомпьютинга и Грид.

• Применение разработанных методов, алгоритмов и программных инструментов для разработки интегрирующей платформы высокопроизводительного программного комплекса НРС-ЫАБШ для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов3.

Методы исследования включают в себя методы инженерии знаний, системного анализа и теории систем, инженерии программного обеспечения, анализа алгоритмов и программ, теории вероятностей, математической статистики и имитационного моделирования.

Научную новизну результатов работы определяют:

2 В данном случае под эффективностью понимается минимизация времени исполнения приложения.

3 http://hpc-nasis.ifino.ru

• Построение технологии управления процессом исполнения композитного приложения в распределённой среде в условиях неопределённости с использованием экспертных знаний в форме параметрических моделей производительности вычислительных сервисов заданной предметной области.

• Использование конкурентных эвристик для определения стратегии исполнения отдельных сервисов в составе композитного приложения с учётом стохастического характера изменчивости характеристик распределённой среды на основе имитационного моделирования.

Практическую ценность работы составляют:

• Процедура планирования процесса исполнения композитного приложения с использованием доступных вычислительных ресурсов, использующая совокупность экспертных знаний и информацию об актуальном состоянии вычислительной инфраструктуры, допускающая использование в распределённых средах различного назначения.

• Программное средство — интегрирующая платформа для исполнения композитных приложений произвольной предметной области на вычислительных ресурсах различной архитектуры (SMP, МРР, GPGPU, СВЕЛ).

• Повышение эффективности функционирования высокопроизводительного программного комплекса HPC-NASIS для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов за счёт использования разработанной платформы для организации доступа к вычислительной инфраструктуре.

На защиту выносятся:

• Процедура планирования процесса исполнения композитного приложения в условиях неопределённости и неполноты информации о состоянии распределённой вычислительной среды, использующая формализм представления знаний о производительности в виде параметрических моделей для определения оптимальной стратегии путём интервального сопоставления конкурирующих эвристик.

• Архитектура интеллектуальной платформы управления композитными приложениями, обеспечивающая повышение их производительности в неоднородных распределённых вычислительных средах, функционирующих в режимах метакомпьютинга и Грид.

Достоверность научных результатов и выводов обеспечивается строгостью наложенных ограничений предметной области, экспериментальными исследованиями эффективности распределённой платформы и производительности композитных приложений, а также практическим использованием разработанных методов и средств при создании высокопроизводительного программного комплекса НРС-ЫА818 для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов.

Внедрение результатов работы. Результаты работы нашли своё применение при выполнении проектов «Инструментальная технологическая среда для создания массовых мобильных он-лайн сервисов нового поколения» (НИР 2008-4-1.4-18-01-022) направления 1.4 «Генерация знаний» ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», «Разработка высокопроизводительного программного комплекса для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов» (ОКР 2008-04-2.4-15-02-003) направления 2.4 «Осуществление комплексных проектов, в том числе разработка конкурентоспособных технологий, предназначенных для последующей коммерциализации в области информационно-телекоммуникационных технологий» ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2012 годы», «Инструментальная среда для построения композитных приложений моделирования сложных систем» (НИР П1386) направления «Распределённые вычислительные системы» ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы», «Интеллектуальные технологии распределённых вычислений для моделирования сложных систем» (НИР П469) направления «Распределённые вычислительные системы» ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы», «Инструментальная технологическая среда для создания распределённых интеллектуальных систем управления сложными динамическими объектами» (НИР 20101.1-214-072-049) мероприятия 1.1 «Проведение научных исследований коллективами научно-образовательных центров» ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы», «Создание инструментальной среды для разработки композитных приложений в Грид-сети, как интеллектуальной системы поддержки принятия решений разработчика» (НИР, выполняемая по заказу Национальной ассоциации исследовательских и научно-образовательных электронных инфраструктур «е-АРЕНА»). Результаты работ внедрены в производственную деятельность ЗАО «Фирма "АйТи". Информационные технологии».

Апробация работы. Изложенные в диссертации результаты обсуждались на семи международных и всероссийских научных конференциях, семинарах и совещаниях, включая IX и X ежегодные Международные конференции «Высокопроизводительные параллельные вычисления на кластерных системах» (2009 г., Владимир; 2010 г., Пермь); XII ежегодную Всероссийскую научную конференцию «Научный сервис в сети Интернет: суперкомпьютерные центры и задачи» (2010 г., Новороссийск); IV Международную конференцию «Распределённые вычисления и Грид-технологии в науке и образовании» (2010 г., Дубна); XVII Всероссийскую научно-методическую конференцию «Телематика'2010» (2010 г., Санкт-Петербург); VII Межвузовскую конференцию молодых учёных (2010 г., Санкт-Петербург); Всероссийскую конференцию «Технологии Microsoft в теории и практике программирования» (2010 г., Нижний Новгород).

Публикации. По теме диссертации опубликовано 8 печатных работ (из них 3 — в изданиях из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК РФ).

Личный вклад автора в работах, выполненных в соавторстве, заключался в выполнении аналитического обзора в проблемной области диссертационной работы, развитии теоретических основ и реализующих их алгоритмов планирования исполнения композитного приложения, проектировании и разработке основных программных компонентов ядра интеллектуальной платформы, выполнении экспериментальных исследований производительности композитных приложений, а также интеграция разработанного решения в высокопроизводительный программный комплекс HPC-NASIS. В диссертацию включены результаты, которые соответствуют личному участию автора.

Заключение диссертация на тему "Интеллектуальная платформа управления композитными приложениями в распределённых вычислительных средах"

Выводы по главе 4

В четвёртой главе показано использование разработанной платформы в качестве основы комплекса НРС-ИАЗК для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов. Показаны возможности практического использования платформы и её элементов. Кроме того, в данной главе продемонстрировано использование комплекса НРС-КАБК для решения практических задач, экспериментально исследовано влияние различных компонент комплекса на общее время выполнения и показано, что использование платформы не ухудшает производительность приложений в распределённых средах, а потому может использоваться для построения высокопроизводительных комплексов как для Грид-систем, так и для систем метакомпьютинга.

Заключение

Таким образом, в рамках диссертационной работы:

• выполнен анализ и адаптация методов планирования процессов исполнения с учётом неопределённости и неполноты информации о состоянии распределённой вычислительной среды в условиях стохастической изменчивости её характеристик;

• разработана и обоснована процедура планирования процесса ^исполнения композитного приложения, обеспечивающая решение задачи управления распределёнными вычислениями и реализующая обоснованный выбор субоптимального расписания на основе совокупного использования экспертных знаний о производительности сервисов и результатов имитационного моделирования сценариев исполнения

• разработана и детализирована архитектура интеллектуальной платформы управления композитными приложениями в распределённых вычислительных средах, обеспечивающая запуск и контроль исполнения композитных приложений в соответствии с субоптимальным расписанием;

• спроектировано и реализовано программное средство — интеллектуальная платформа управления параллельным исполнением композитных приложений, успешно апробированное и внедрённое в состав высокопроизводительного программного комплекса НРС-КАБК для квантово-механических расчётов и моделирования наноразмерных атомно-молекулярных систем и комплексов.

По теме диссертации опубликовано 8 печатных трудов, из них 3 — в журналах, соответствующих перечню ВАК ведущих рецензируемых научных журналов и изданий.

Библиография Марьин, Сергей Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Afanasiev, 2008. A. Afanasev, I. Lazarev, A. Tarasov. MathCloud a distributed mathematical environment // Proc. of XXI International Symposium on Nuclear Electonics & Computing, p. 15-19, Dubna: JINR, 2008.

2. Afanasiev, 2010. Combining high-end computing resources in a distributed environment / A.P. Afanasiev // Distributed Computing and Grid-Technologies in Science and Education

3. Book of Abstr. of the 4th Intern. Conf. (Dubna, June 28 July 3, 2010) .— Dubna: JINR, 2010.—P. 20

4. Almond, 1998. J. Almond and D. Snelling. UNICORE: Secure and Uniform Access to Distributed Resources via the World Wide Web. White Paper, October 1998

5. Bai, 2006. Intelligent Grids / X. Bai, H. Yu, G. Wang, Y. Ji, G.M. Marinescu, D.C. Marinescu // Grid Computing: Software Environments and Tools, 2006, XII, pp. 45-74.

6. Bajaj, 2004. Bajaj R. and Agrawal D. P. Improving Scheduling of Tasks in a Heterogeneous Environment, IEEE Transactions on Parallel and Distributed Systems, 15:107-118,2004.

7. Berners-Lee, 2008. Berners-Lee Т., J. Hendler, O. Lassila The Semantic Web // Scientific American Magazine. Retrieved March 26, 2008.

8. Binato, 2001. Binato S. et al., A GRASP for job shop scheduling. Essays and surveys on meta-heuristics, pp.59-79, Kluwer Academic Publishers, 2001.

9. Blythe, 2005. Blythe J., Jain S., Deelman E., Gil Y., Vahi K., Mandal A., Kennedy K. Task Scheduling Strategies for Workflow-based Applications in Grids. IEEE International Symposium on Cluster Computing and the Grid (CCGrid 2005)— 2005, pp. 1—9.

10. Braun, 2001. Braun T. D., Siegel H. J., and Beck N. A Comparison of Eleven static Heuristics for Mapping a Class of Independent Tasks onto Heterogeneous Distributed Computing Systems, Journal of Parallel and Distributed Computing, 61:801-837, 2001.

11. Cao, 2003. Junwei Cao , Stephen A. Jarvis , Subhash Saini, Graham R. Nudd, GridFlow: Workflow Management for Grid Computing, Proceedings of the 3st International Symposium on Cluster Computing and the Grid, p.198, May 12-15, 2003.

12. Casanova, 2000. Casanova H. et al., Heuristics for Scheduling Parameter Sweep Applications in Grid Environments, The 9th Heterogeneous Computing Workshop (HCW'00), April. 2000.

13. Cohen, 2007. Cohen S. Ontology and Taxonomy of Services in a Service-Oriented Architecture // The Architecture Journal Microsoft, 2007.- №11- pp. 30-35.

14. Davulcu, 2009. Default a-Logic for Modeling Customizable Failure Semantics in Workflow Systems Using Dynamic Reconfiguration Constraints / H. Davulcu, S.

15. Mukhopadhyay, P. Singh, S.S. Yau // Proc. Int'l Conf. on Grid and Distributed Computing (GDC), 2009, pp. 49-56.

16. Deelman, 2003. E. Deelman et al. Mapping Abstract Complex Workflows onto Grid Environments. Journal of Grid Computing, 1:25-39, Kluwer Academic Publishers, Netherlands, 2003.

17. Deelman, 2004. Deelman E. et al., Pegasus: Mapping scientific workflows onto the grid, European Across Grids Conference, pp. 11-20, 2004.

18. Feo, 1995. Feo T. A. and Resende M. G. C. Greedy Randomized Adaptive Search Procedures, Journal of Global Optimization, 6:109-133, 1995.

19. Foster, 2002. Foster I. What is the Grid. A three point checklist. GridToday / July 22, 2002: Vol. 1—no. 6.-Режим доступа: http://www.gridtoday.com/02/0722/100136.html, свободный.

20. Gallopoulos, 1994. Computer as Thinker/Doer: Problem—Solving Environments for Computational Science" // S. Gallopoulos, E. Houstis, J. Rice, IEEE Computational Science and Engineering, Summer 1994.

21. GAMESS. Gamess Gordon Group/GAMESS Homepage [http://www.msg.ameslab.gov/gamess/]

22. Gil, 2004. Artificial Intelligence and Grids:Workflow Planning and Beyond / Y. Gil, E. Deelman, J. Blythe, C. Kesselman, H. Tangmunarunkit // IEEE Intelligent Systems, 19(1),. pp. 26-33.

23. Gruber, 2005. Intelligent GRID Scheduling System / R. Gruber, V. Keller, P. Kuonen, M.-C. Sawley, B. Schaeli, A. Tolou, M. Torruella, T.-M. Tran // Parallel Processing and Applied Mathematics, LNCS 3911. 2005. pp. 751-757.

24. Hoekstra, 2003. Hoekstra A, Kaandorp J., Sloot P.M.A. A Problem Solving Environment for Modelling Stony Coral Morphogenesis // Proceedings of 3rd International Conference on Computational Sciences 2003 - P. 639 - 64922

25. Hu, 2009. Towards an Approach of Semantic Access Control for Cloud Computing / L. Hu, S. Ying, X. Jia, K. Zhao // Lecture Notes In Computer Science; Vol. 5931. Proceedings of the 1st International Conference on Cloud Computing. 2009. pp. 145-156.

26. Khac, 2010. Toward Distributed Knowledge Discovery on Grid Systems / N.A.L. Khac, L.M. Aouad, M-T. Kechadi // Emergent Web Intelligence: Advanced Semantic Technologies, st. Edition., 2010, XVI, pp. 213-244.

27. Kojima, 2009. Implementation of a Service-Based Grid Middleware for Accessing RDF Databases /1. Kojima, M. Kimoto // Lecture Notes In Computer Science; Vol. 5872? 2009. pp. 866-876.

28. K-Wf Grid. K-Wf Grid Home.- Режим доступа: http://www.kwfgrid.net/, свободный.

29. Kwok, 1999. Kwok Y. K. and Ahmad I. Static Scheduling Algorithms for Allocating Directed Task Graphs to Multiprocessors, ACM Computing Surveys, 31(4):406-471, Dec. 1999.

30. Laszewski, 2005. G. von Laszewski. Java CoG Kit Workflow Concepts for Scientific Experiments. Technical Report, Argonne National Laboratory, Argonne, IL, USA, 2005.

31. Ludascher, 2006. B. Ludascher et al. Scientific Workflow Management and the KEPLER System. Concurrency and Computation: Practice & Experience Workflow in Grid Systems. Volume 18 Issue 10, August 2006.

32. Maheswaran, 1999. Maheswaran M. et al. Dynamic Matching and Scheduling of a Class of Independent Tasks onto Heterogeneous Computng Systems. The 8th Heterogeneous Computing Workshop (HCW'99), San Juan, Puerto Rico, Apr. 12 1999.

33. McGough, 2004. S. McGough et al. Workflow Enactment in ICENI. In UK e-Science All Hands Meeting, Nottingham, UK, IOP Publishing Ltd, Bristol, UK, Sep. 2004; 894-900.

34. Molpro. Molpro quantum chemistry package [http://www.molpro.net/]

35. ORCA. ORCA [http://www.thch.uni-bonn.de/tc/orca/]

36. Pahlevi, 2008. Semantic grid resource monitoring and discovery with rule processing based on the time-series statistical data / S.M. Pahlevi, I. Kojima // Journal of Grid Computing. Vol. 7, #2. 2008. pp. 205-224

37. Parastadis, 2009. Parastadis S. A Platform for All That We Know: Creating a Knowledge-Driven Research Infrastructure // The Fourth Paradigm. Data-Intensive Scientific Discovery. Misrosoñ, 2009. - pp. 165-172.

38. Random.org. www.random.org

39. RandomOps. http://www.hvass-labs.org/projects/randomops/cs/

40. Rice, 1996. Rice J.R., Boisvert R. F. From Scientific Software Libraries to ProblemSolving Environments // IEEE Computational Science & Engineering -1996 v.3 n.3 -P.44-53

41. Roure, 2006. The Collaborative Semantic Grid / D. De Roure, J. Frey, D. Michaelides, K. Page // Proceedings of the International Symposium on Collaborative Technologies and Systems, 2006. pp. 411-418.

42. Sarkar, 2010. An Adaptive Execution Scheme for Achieving Guaranteed Performance in Computational Grids / A. De Sarkar, S. Roy, D. Ghosh, R. Mukhopadhyay, N. Mukherjee // Journal of grid computing. 2010, vol. 8, #1, pp. 109-131.

43. Schuchardt, 2002. Schuchardt K., Didier В., Black G. Ecce a problem-solving environment's evolution toward Grid services and a Web architecture // Concurrency and Computation: Practice and Experience - 2002 - v.14 - P. 13-15

44. Semantic Grid. Semantic Grid Document Store and Bibliography [http://www.semanticgrid.org/documents/]

45. SEMP, 2009. RU.CHAB. 80066-01 01 01. Программный компонент SEMP расчетов свойств мезосистем на основе полуэмпирических моделей квантовой химии. Описание программы // СПбГУ ИТМО, СПб 2009

46. Siddiqui, 2010. Siddiqui М., Fahringer Т. Grid Resource Management, Lecture Notes in Computer Science. Vol. 5951,2010.

47. Sloot, 2005. Sloot P.M.A., Boukhanovsky A.V., Keulen W., Tirado-Ramos A., Boucher C. A GRID-based HIV expert system. Journal of Clinical Monitoring and Computing, vol. 19,, p. 263-278

48. Smith, 1998. Smith B. Basis of formal ontology // Proceedings of International conference on formal ontologies in information systems (FOIS-98). Trento. Italy. 1998, p.p. 19-28.

49. Song, 2009. A Back Propagation Neural Network for Evaluating Collaborative Performance in Cloud Computing / B. Song, M.M. Hassan, Y. Tian, E. Huh // Grid and

50. Distributed Computing. Communications in Computer and Information Science, 2009, Vol. 63. pp.57-64.

51. Tannenbaum, 2001. Todd Tannenbaum, Derek Wright, Karen Miller, Miron Livny, Condor: a distributed job scheduler, Beowulf cluster computing with Linux, MIT Press, Cambridge, MA, 2001.

52. Taylor, 2003. I. Taylor, M. Shields, and I. Wang. Resource Management of Triana P2P Services. Grid Resource Management, Kluwer, Netherlands, June 2003.

53. Ullman, 1975. Ullman J. D. NP-complete Scheduling Problems, Journal of Computer and System Sciences, 10:384-393,1975.

54. Wang, 1997. Wang L. et al., Task Mapping and Scheduling in Heterogeneous Computing Environments Using a Genetic-Algorithm-Based Approach, Journal of Parallel and Distributed Computing, 47:8-22, 1997.

55. Xing, 2005. Design and Development of a Core Grid Ontology / W. Xing, M.D. Dikaiakos, R. Sakellariou, S. Orlando, D. Laforenza //In CoreGRID Integration Workshop, 2005. pp. 21-31.

56. Young, 2003. Young L. et al., Scheduling Architecture and Algorithms within the ICENI Grid Middleware, UK e-Science All Hands Meeting, IOP Publishing Ltd, Bristol, UK, Nottingham, UK, Sep. 2003, pp. 5-12.

57. Yu, 2004. Jia Yu , Rajkumar Buyya, A Novel Architecture for Realizing Grid Workflow using Tuple Spaces, Proceedings of the Fifth IEEE/ACM International Workshop on Grid Computing (GRID'04), p. 119-128, November 08-08, 2004.

58. Yu, 2005. Yu J., Buyya R. A Taxonomy of Workflow Management Systems for Grid Computing, Journal of Grid Computing, Volume 3, Numbers 3-4, Pages: 171-200, Springer Science+Business Media B.V., New York, USA, Sept. 2005.

59. Yu, 2008. Yu J. et al. Workflow Scheduling Algorithms for Grid Computing, Metaheuristics for Scheduling in Distributed Computing Environments, F. Xhafa and A. Abraham (eds), ISBN: 978-3-540-69260-7, Springer, Berlin, Germany, 2008.

60. Zhang, 2008. Agent-Based Grid Computing / M. Zhang, J. Tang, J. Fulcher // Computational Intelligence: A Compendium. Studies in Computational Intelligence, 2008, Volume 115/2008. pp. 439-483.

61. Zomaya, 2001. Zomaya A. Y., Teh Y. H. Observations on Using Genetic Algorithms for Dynamic Load-Balancing, IEEE Transactions on Parallel and Distributed Systems, 12(9):899-911, Sept. 2001.

62. Амамия, 1993. Амамия M., Танака Ю. Архитектура ЭВМ и искусственный интеллект. М.: Мир, 1993 400 с.

63. Бухановский, 2005. Бухановский A.B. Параллельное математическое обеспечение статистических измерений характеристик пространственно-временных полей // Дисс. на соиск. уч. степени доктора техн. наук. СПб., СПбГЭТУ «ЛЭТИ»: 2005. - 408 с.

64. Дунаев, 2008-1. Инструментальная оболочка поддержки принятия решений разработчика высокопроизводительных приложений в Грид / A.B. Дунаев, A.B. Ларченко, A.B. Бухановский // Научно-технические ведомости СПбГПУ — 2008.— №5. —С. 98-104.

65. Жегуло, 2001. Жегуло O.A. Представление знаний о методах распараллеливания в экспертной систем поддержки распараллеливания программ // Искусственный интеллект 2001.- №3.- С. 323- 330.

66. Интеллектуальные системы, 2001. Интеллектуальные системы в морских исследованиях и технологиях // Под ред. Ю.И.Нечаева. Санкт-Петербург, ГМТУ, 2001 -352 с.

67. Каляев, 2008. Каляев И.А., Левин И.И., Семерников Е.А., Шмойлов В.И. Реконфигурируемые мультиконвейерные вычислительные структуры // Изд. ЮНЦ РАН Ростов-на-Дону - 2008 - 393 с.

68. Князева, 2003. Князева М.А., Клещев A.C. Концепция банка знаний в области оптимизации программ для поддержки научных исследований. / ИАПУ ДВО РАН, Владивосток. 2003.

69. Ковальчук, 2008-1. Ковальчук C.B. Параллельная производительность стохастических алгоритмов / C.B. Ковальчук, A.B. Бухановский // Известия высших учебных заведений. Приборостроение. 2008. - №12. — С. 7-14.

70. Ковальчук, 2008-2. Особенности проектирования высокопроизводительных программных комплексов для моделирования сложных систем / C.B. Ковальчук [и др.] // Информационно-управляющие системы. — 2008. —№3. — С. 10-18.

71. Нечаев, 2003. Нечаев Ю.И. Математическое моделирование в бортовых интеллектуальных системах реального времени // Труды 5-й всероссийской научно-технической конференции «Нейроинформатика 2003». Лекции по нейроинформатике. Часть 2,- С. 119-179.

72. Нечаев, 2004. Нечаев Ю.И. Подходы и парадигмы информационных технологий в системах искусственного интеллекта // Труды конференции «МОРИНТЕХ-2004», 2004, с.6-12.

73. Радченко, 2009. Радченко Г.И. Грид-система CAEBeans: интеграция ресурсов инженерных пакетов в распределенные вычислительные среды // Вестник Нижегородского университета им. Н.И. Лобачевского. № 6. 2009. С. 192-202.

74. Соммервилл, 2002. Соммервилл И. Инженерия программного обеспечения. 6. М.: Издательский дом «Вильяме», 2002. 624 с.

75. Шамакина, 2010. Шамакина A.B. CAEBeans Broker: брокер ресурсов системы CAEBeans // Вестник ЮУрГУ. Серия "Математическое моделирование и программирование". 2010. № 16(192). Вып. 5. С. 107-115.