Анализ архитектур параллельных систем баз данных

Плужников, Всеволод Львович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Анализ архитектур параллельных систем баз данных

кандидата технических наук: Плужников, Всеволод Львович
город: Москва
год: 2011
специальность ВАК РФ: 05.13.17

Диссертация по информатике, вычислительной технике и управлению на тему «Анализ архитектур параллельных систем баз данных»

Автореферат диссертации по теме "Анализ архитектур параллельных систем баз данных"

На правах рукописи

005006881

Плужников Всеволод Львович

Анализ архитектур параллельных систем баз данных

Специальность 05.13.17 - Теоретические основы информатики (технические науки)

Автореферат диссертации на соискание ученой степени кандидата технических наук

1 2 Я Н В 2012

Москва - 2011

005006881

Работа выполнена в Московском государственном техническом университете им. Н. Э. Баумана.

Научный руководитель:

доктор технических наук,

профессор Григорьев Юрий Александрович

Официальные оппоненты:

доктор технических наук, профессор Юрчик Пётр Францевич

Ведущая организация:

кандидат технических наук, Бурдаков Алексей Викторович

ОАО «Научно-исследовательский центр электронной вычислительной техники»

Защита диссертации состоится «9» февраля 2012 года в 14:30 на заседании диссертационного совета Д.212.141.10. в Московском государственном техническом университете имени Н.Э. Баумана по адресу: 105005, г. Москва, 2-я Бауманская ул., д.5.

С диссертацией можно ознакомиться в библиотеке МГТУ им. Н.Э. Баумана.

Ваши отзывы в 2-х экземплярах, заверенные печатью, просим выслать по указанному адресу.

Автореферат разослан « И » дляк^рл 20 (/ г.

Учёный секретарь диссертационного совета, к.т.н., доцент

С.Р. Иванов

Подписано к печати « [£ » уе^Цл 20//г. Объем 1 п.л. Тираж 100 экз.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы.

Реализация параллельных систем баз данных с помощью современных технических средств обеспечивает высокую производительность выполнения запросов. В настоящее время существует несколько типов архитектур, позволяющих реализовывать параллельные системы баз данных. Технические средства, используемые для реализации этих архитектур, являются дорогостоящими, что приводит к необходимости учитывать показатель «производительность/стоимость» системы при выборе архитектуры.

Существующие методы анализа и выбора архитектуры систем рассматриваемого класса основаны или на сопоставлении вариантов по качественным критериям (масштабируемости, доступности данных и др.), или на сравнении результатов выполнения конкретных тестов (ТРС и др.), не учитывающих особенностей предметной области, для которой разрабатывается система. Выбор архитектуры с помощью этих методов нельзя считать обоснованным, их использование может привести или к чрезмерному завышению стоимости проекта, или к выбору системы с низкой производительностью.

Поэтому разработка математических моделей анализа архитектур параллельных систем баз данных, позволяющих выбирать структуру сложного многопроцессорного аппаратно-программного комплекса с минимальной стоимостью, обеспечивающего выполнение ресурсоёмких запросов к базе данных за допустимое время, является актуальной задачей.

В диссертационной работе указанная задача решается путем разработки моделей оценки индексов производительности параллельных систем баз данных, учитывающих особенности выполнения запросов различных типов к базе данных, механизм распределения таблиц по процессорам системы, параллелизм выполнения запросов в узлах, наличие «узких мест» в многопроцессорных комплексах с различной топологией.

Цель работы. Целью данной работы является разработка метода выбора архитектуры параллельной системы баз данных на основе применения математических моделей оценки характеристик производительности с учетом специфики решаемых ею задач и стоимости.

В работе решаются следующие задачи:

1) разработка метода выбора архитектуры параллельной системы баз дынных (ПСБД) на основе показателей стоимости и времени выполнения запросов к системе;

2) разработка аналитических моделей выполнения запросов в ПСБД с различными архитектурами, включая хранилища данных ROLAP;

3) разработка метода оценки стоимости ПСБД для различных архитектурных решений;

4) применение разработанных моделей и методов для выбора архитектуры ПСБД хранилища гидрометеорологических данных.

Объект исследования. Объектом исследования является класс параллельных систем баз данных.

Предмет исследования. Предметом исследования настоящей работы являются процессы обработки запросов в различных структурах параллельных систем баз данных.

Научная новизна. В работе получены следующие новые научные результаты:

1. Разработана модель обработки запросов в параллельной системе баз данных в виде замкнутой и разомкнутой СМО, учитывающая наличие "узкого места" в системе.

2. Выведено преобразование Лапласа-Стилтьеса времени выполнения запроса к одной таблице в параллельной СУБД. Рассмотрены варианты этого преобразования для различных архитектур параллельных систем баз данных (ПСБД).

3. Разработан математический метод оценки времени соединения таблиц в параллельной системе баз данных для различных архитектур (БЕ, БО, 8И) и разных методов реализации соединения (N0, Ш).

4. Выведены преобразования Лапласа-Стилтьеса и получены моменты случайного времени выполнения аналитических запросов к хранилищу данных, реализованному на основе ПСБД и использующему специальные планы соединения таблиц измерений и фактов.

Методы исследования. Исследования проводились на основе комплексного использования теории массового обслуживания, теории вероятностей, теории множеств, теории реляционных баз данных. Практическая ценность полученных результатов. В диссертации разработан алгоритм выбора архитектуры параллельной системы баз данных, основанный на упорядочивании ПСБД с архитектурами БЕ, СЕ, БЫ, БЕ-кластер по возрастанию их стоимости.

В работе для практического использования полученных результатов разработано инструментальное средство, позволяющее проводить расчеты временных показателей выполнения запросов к ПСБД. Оно включает в себя модули расчета для различных типов архитектур и позволяет строить зависимости среднего времени выполнения запросов в системе от количества процессоров, параметров запросов и наполнения базы данных.

Внедрение результатов исследований. Разработанные методы и инструментальное средство было использовано в процессе выбора архитектуры хранилища гидрометеорологических данных. Хранилище данных обеспечивает выполнение трех основные задач: накопление данных, их бессрочное хранение и обслуживание потребителей. В соответствии с предъявленными требованиями были определены допустимые архитектуры ПСБД и технические средства для их реализации. Проведены оценки временных показателей выполнения запросов к хранилищу ПСБД, выполнена оценка стоимости систем. На основе этих расчётов решена задача выбора архитектуры ПСБД с минимальной стоимостью.

Публикации по теме. По материалам работы опубликовано 6 печатных работ.

Апробация работы. Материалы работы были изложены автором на НТС кафедры ИУ-5 МГТУ им. Н.Э. Баумана, М., 2009-2011.

Объем работы. Диссертационная работа содержит 154 страниц, 38 рисунков и 19 таблиц, список литературы из 135 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность проблемы. Формулируются цели и задачи исследований, приводится перечень основных результатов, выносимых на защиту, и излагается краткое содержание глав диссертации.

В первой главе «Анализ существующих методов выбора архитектур параллельных систем баз данных» приведено описание параллельных систем баз данных (ПСБД), особенностей их функционирования и возможных архитектурных решений. Приведено описание форм параллелизма и способов параллельной обработки запросов в ПСБД. Выполнен критический анализ существующих методов выбора архитектуры на этапе проектирования систем. На основе этого анализа предлагается общая методика выбора архитектуры ПСБД.

Процесс выполнения SQL-запроса в параллельной системе баз данных можно представить в виде следующих шагов:

• генерация последовательного плана выполнения запроса,

• тиражирование плана выполнения запроса на все узлы системы,

• обработка запроса над фрагментированными таблицами (распределение фрагментов таблиц БД по узлам системы выполняется заранее и один раз),

• слияние результирующих данных.

Рассмотрим процесс параллельной обработки запроса, где выполняется соединение таблиц R и S базы данных (рис. 1).

Q = R I><] S - это логическая операция соединения (join) двух отношений (таблиц) R и S по некоторому общему атрибуту Y. В данном примере таблица R фрагментирована произвольным образом, а таблица S - по атрибуту соединения Y. На рис. 1 показано, что логический план выполнения соединения двух отношений тиражируется на 'п' процессоров в параллельной системе баз данных (на рисунке показаны 2 процессора). Далее выполняется параллельная обработка на каждом процессоре соответствующих фрагментов таблиц R и S. Вследствие того, что таблица R не фрагментирована по атрибуту соединения, при последовательном чтении записей этой таблицы происходит их обработка в операторе exchange, осуществляющем разбор записи и её межпроцессорный обмен. Таблица S фрагментирована по атрибуту соединения и записи, читаемые из фрагментов этой таблицы, обрабатываются на каждом процессоре локально.

Оператор exchange является составным оператором и включает в себя четыре оператора: gather, scatter, split и merge. Оператор split - это оператор, который осуществляет разбиение кортежей (записей), поступающих из входного потока, на две группы: свои и чужие. Свои кортежи - это кортежи, которые должны быть обработаны на данном процессорном узле. Эти кортежи направляются в выходной буфер оператора split (стрелка вверх). Чужие кортежи, то есть кортежи, которые должны быть обработаны на процессорных узлах, отличных от данного, помещаются оператором split во входной буфер правого дочернего узла, в качестве которого фигурирует оператор scatter. Нульарный оператор scatter извлекает кортежи из своего входного буфера и пересылает их на соответствующие процессорные узлы. Нульарный оператор gather выполняет перманентное чтение кортежей из указанного порта со всех процессорных узлов, отличных от данного. Оператор merge, реализующий логическую операцию join, определяется как бинарный оператор, который забирает кортежи из выходных буферов своих дочерних узлов, соединяет их и помещает результат в собственный выходной буфер. Таким образом, с помощью рассмотренных операций оператор exchange реализует полноценный межпроцессорный обмен записями в параллельной системе баз данных при обработке запроса методом фрагментарного параллелизма.

Анализ существующих решений ПСБД позволил выявить основные используемые на текущий момент типы архитектур:

1. SE (Shared-Everything) - архитектура с разделяемыми памятью и дисками.

2. SD (Shared-Disks) - архитектура с разделяемыми дисками.

3. SN (Shared-Nothing) - архитектура без совместного использования ресурсов.

4. СЕ (Clustered-Everything) - архитектура с SE-узлами, объединенными по принципу SN.

В настоящее время применяются два основных метода выбора архитектуры: 1) опытное сравнение производительности и стоимости систем на базе компонентных или интегральных тестов, 2) экспертная оценка архитектур ПСБД. Основным недостатком первого метода является то, что здесь используются обобщенные тестовые модели, не учитывающие специфических особенностей предметной области, для которой выбирается архитектура системы. Недостатком экспертных оценок является отсутствие оценок количественных показателей производительности, а также субъективный характер результатов сравнения систем.

В работе предложена концепция выбора архитектуры параллельной системы баз данных на основе оценки временных характеристик выполнения запросов к ПСБД и оценки стоимости системы. На первом этапе определяется множество различных архитектурных решений, которые могут быть использованы для реализации параллельной системы баз данных в рамках заданной предметной области. На втором этапе перечисляются технические и программные средства, с помощью которых данные архитектуры реализуются. На третьем этапе выполняется количественная оценка стоимостных показателей систем и показателей времени выполнения SQL-запросов предметной области. На четвертом этапе происходит непосредственный выбор архитектуры минимальной стоимости при ограничении на допустимое время выполнения запросов.

Во второй главе «Разработка математических методов анализа характеристик производительности параллельных систем баз данных» разработаны модели обработки запросов для различных архитектур ПСБД. Предложено аналитическое решение по данным моделям. С помощью преобразования Лапласа-Стилтьеса получены выражения для оценки среднего времени выполнения простого SQL запроса и запроса на соединение таблиц в различных архитектурах ПСБД. Исследованы зависимости времени выполнения запросов от количества процессоров в системе на примере реальной системы.

Разработана модель выполнения запросов к ПСБД с планом 7ia(<Tf(R)) в виде замкнутой СМО, узлы которой соответствуют ресурсам системы: диску, ОП, процессорам, соединительной шине. Число заявок в этой СМО равно количеству процессоров в ПСБД. Показано, что при наличии «узкого места» эта модель может быть сведена к модели «ремонтника», а затем - к разомкнутой СМО М/М/1. Определены параметры этой модели.

Но в исходной замкнутой СМО трудно в наглядном виде отразить процесс выполнения запроса к ПСБД: чтение и обработку записей в ресурсах системы, фильтрацию записей, межпроцессорный обмен. В рассмотренной выше модели это учитывается только посредством расчёта переходных вероятностей. Чтобы устранить указанный недостаток, в работе был использован

аппарат производящих функций (ПФ) и преобразований Лапласа-Стилтьеса (ПЛС).

Например, 6(1-Р/г (1-^(5))) - это ПЛС времени обработки записей, удовлетворяющих условию поиска с вероятностью РР, с ПФ числа записей в таблице 6(2) и с ПЛС времени обработки одной записи фх (5). Кроме того, этот аппарат позволяет рассчитывать не только математические ожидания случайных величин, но и моменты более высоких порядков.

В работе выведено преобразование Лапласа-Стилтьеса времени выполнения запроса с планом 71А(сР(К)) к одной таблице ПСБД:

ф{з) = 0{фо{з)ф11(з){\ -РР(1 -фМ)фр{*)), (1)

где 0(2) - производящая функция числа записей фрагментной таблицы Я, обрабатываемых на одном процессоре; для равномерного распределения записей по процессорам Б = гг/"; V - общее число записей в таблице Я, п -число процессоров в ПСБД; фв(з) - ПЛС времени чтения записи БД фраг-ментированной таблицы с диска (с учетом общесистемного буфера и очереди к дисковому массиву), фгм($) - ПЛС времени сохранения и чтения записи фрагментированной таблицы из оперативной памяти (с учетом очереди к шине памяти), - ПЛС времени межпроцессорного обмена при передаче результирующей записи по сети N. фр(^) - ПЛС времени обработки записи в процессоре, который является неразделяемым ресурсом; РР - вероятность, что запись удовлетворяет условию поиска Б (эта вероятность рассчитывается по известным формулам).

В работе приведены аргументы, позволяющие считать, что каждое из преобразований Лапласа-Стилтьеса ф0{$), фм(з),фы{$), фР(5) соответствует или времени пребывания в СМО МУМ/1 (ожидание и обслуживание), если соответствующий ресурс является разделяемым, или просто времени обслуживания, если ресурс является неразделяемым. Время пребывания в СМО М/М/1 распределено по экспоненциальному закону. В диссертации приведены выражения для указанных преобразований для различных архитектурных решений.

В предположении, что в ПСБД с архитектурой БЕ «узким местом» является диск, из (1) получена оценка среднего времени выполнения запроса (математическое ожидание):

п цп - пЛв цМР Цмр МмМр

где А,, и ц - это интенсивности поступления и обработки записей в ресурсе (Б - диске, М - оперативной памяти, Р - процессоре).

График функции Мс(п) имеет выраженный минимум в точке

п - +1 ~ 1). Это объясняется тем, что сначала с ростом числа

¿и ¿о V Ммр

процессоров время убывает, благодаря распараллеливанию обработки запроса, затем время возрастает из-за перегрузки подсистемы ввода/вывода.

В работе выполнен анализ процесса соединения таблиц в параллельной системе баз данных (ПСБД). Получены преобразования Лапласа-Стилтьеса времени соединения двух таблиц А и В методами ЫЫ и Ш:

(5) = Нм (з, вт (фв Ши Шр (5)0 - РвЧлв (1 - Фы (^))))) > (3)

От{ф0{з)ф2м{з)фР{з){\-Рв{\-(ф0(з)ф2м(5)ГП))х . (4)

(Ст (1-Рв+Рв(1-1- +1^(5))(1 - Т)АВ + п АВфы (5))))

г г

где 1 - номер процессора,

1 ¡-1 I /+1 п

Н А! . 2) = Ум С* > Фм 0)>" Фи С*Х фМ (5),..., Фп (5)) X

(5)

VAi(s,z1,...,z„) = GAiyD(sWii(sWP(s)(\-PA(l - qAin{zx,...,zn)))), (6)

GAi(l-PA(l~ z))- это производящая функция числа записей, удовлетворяющих условию поиска по таблице А (с вероятностью РА), qAm(z,,..., z„) определяется следующими рекуррентными формулами:

QAin(zl'->zn) = (l~PAin)4Ain-$zl>—>zn-$ + PAmzn>

tlAm-l(Zl>—'Zn-l) = Q-~PAm-l)c}Am-2(zl' — >Zn-2) + PAm-\zn-l> ^

Яла (zi) = (! - Рал ) + Рап2\ . Рал =1,

PAij - это вероятность, что запись передаётся из i-ro узла в j-й узел при условии, что она не была передана в узлы n...j+l,

GBi{\-PBJ]AB{\-z))- производящая функция числа записей таблицы В, удовлетворяющих условию поиска по таблице В (вероятность Рв) и условию соединения (вероятность г)ав ),

Wai(z)= (8)

7=1

г - число разделов (хеш-групп) в хеш-таблице,

показатели степени <вА ^ 2 и сов ^ 2 определяют число чтений/записей на диск хеш-групп.

Полученные формулы учитывают число записей соединяемых таблиц и

И И

фрагментацию таблиц по узлам системы (О^Дг) = г " и фильтрацию записей этих таблиц (вероятности РА и Рв), вероятность совпадения значений атрибутов соединения (г|ЛВ), варианты размещения хэш-таблицы в оперативной памяти (г, шА и сов), а также параметры межпроцессорного обмена записями между узлами ПСБД (см. (7)).

В работе после дифференцирования выражений (3), (4) в точке б=0 получены формулы для математического ожидания времени соединения двух таблиц в ПСБД с архитектурами БЕ, ББ, ЭК методами N0 и Ш. В работе приведён практический пример расчёта среднего времени соединения таблиц большой размерности (УА=Ув=10б) методами N0 и Ш в зависимости от числа процессоров в ПСБД, который показал наличие выраженного минимума. Анализ графиков позволил сделать несколько выводов:

1. Графики для архитектур БЕ и ББ практически совпали. Это объясняется высокими значениями интенсивностей |дм и Цм-

2. При п>3 среднее время для метода соединения Ш на два порядка меньше среднего времени для N0 (это и следовало ожидать для неиндекси-рованной по атрибуту соединения вложенной таблицы В). Более того, М>щ(1)~9400 е., Мш(1)~19 с.

3. При п< 7 архитектуры БЕ и ББ не на много хуже БК Следует также отметить, что при п=7 загрузка диска для БЕ и Б Б равна 0,63.

4. Для БЕ и ББ при п=11 перегружается дисковая подсистема, и дальнейший рост числа процессоров не имеет смысла. Для архитектуры БК время продолжает уменьшаться с ростом п (здесь нет разделяемых ресурсов). Однако следует иметь в виду, что для снижения времени выполнения соединения методом Ш с 2 секунд до 1 необходимо увеличить количество процессов с 10 до 20, а это может оказаться экономически не целесообразным.

В третьей главе «Разработка математических методов оценки характеристик производительности хранилищ данных на основе параллельных баз данных. Оценка стоимости ПСБД» предложены выражения для определения временных показателей выполнения запроса к хранилищу данных, построенному на основе ПСБД. Приводятся примеры использования этих выражений для расчета среднего времени выполнения запроса к хранилищу. Также приводится описание метода стоимостной оценки ПСБД. Разрабатывается оригинальный алгоритм выбора архитектуры параллельной системы баз данных.

В работе получено преобразование Лапласа-Стилтьеса (ПЛС) времени выполнения запроса к хранилищу данных, которое справедливо для каждого процессорного узла параллельной системы баз данных:

= ад • , (9)

где 1 - номер процессора,

Д(*) = П<7/1-М1-Л))). (10)

У=1

б Дг) = г " - производящая функция числа записей в таблице .¡-го измерения

в узле, К - число измерений, V] - общее число записей в таблице .¡-го измерения, п - число процессоров, р; - вероятность, что запись таблицы .¡-го измерения удовлетворяет условию поиска по этому измерению в запросе, х2(э) -ПЛС времени обработки записи блока листового уровня индекса (х(в)) и записи таблицы измерения (-/(я)),

= (П)

1 1-1 г г+1 л

(12)

Г(з, Ъ)=¥к_х{в,Ок{ 1 - рк(1 - <р„(з)ср2м (з)Чп)))), (13)

Ук-1 (*> 2 Ок_г (1 - (1 - Рд/ (*)<Рм (^)РГ1 (Ф"))), (14)

У2 г) =У, (*, С2(1 - р2(1 - <рю{з)ср2и {*)ср"м-1 {з)<р2^(ф "))),

У, (з, г) = С, (1 - л (1 - <р"м-1 (з (ф")),

дя(г1,...,г„) определяется следующими рекуррентными формулами: д„ (г,гп) = (1 - р„ )д„_1 (г,,..., ги_!) + ,

(г1 »••■> ) = (1 - Рп-Мп-г (21 >->2п-2 ) + Рп-\2п-\ > (15)

9\(21) = (1-р1) + р1г1, рх =1,

рш - это вероятность, что запись передаётся из данного узла в т-й узел при условии, что она не была передана в узлы П...Ш+1.

В диссертации приведены выражения для ПЛС фо^), срм(э), фк^), ФрКЮ* ФрХЮ. фрз(я), Фра(^) - это ПЛС случайного времени обработки записи (исходной, промежуточной, результирующей) в ресурсе: Б - диске, М -ОП, N - шине, процессоре: Р1 - поиск и чтение из таблицы измерения с помощью индекса, РД - построение кортежа декартова произведения записей измерений, РБ - сравнение записей БД в процессоре при их сортировке, РА - агрегация записей (значений фактов).

Выражения (12)-(15) учитывают создание при выполнении запроса первичного индекса, состоящего из декартова произведения кортежей (записей) таблиц измерений и передаваемого всем процессорным узлам ПСБД.

(16)

Это позволяет избежать передачи большого объёма таблицы фактов при межпроцессорном обмене.

В предположении, что запись результирующего декартова произведения измерений остаётся в данном узле или передаётся в другие узлы с одинаковой вероятностью (рт= 1/т в формулах (15)), из (9) было получено выражение для математического ожидания времени выполнения запроса к ПСБД:

м = -Ч"(0) ={rtg¡pi+nк-xt{giPiYPD+ 1=1 1=1

КА ■ , ' к 6п-2 г 1 к

[2(п -1)£, А + 2л I п'"1 П + 41 +-П ]Рл, +

/=2 У=1 /=1 п 1=1

[{n-\)glpl+{n-\)Zni-lt\gjPj+—nK-XhsiPi}VN^

/=2 у=1 И /=1

/С—1 I к. к к

/=2 у=1 1=1 1=1 /=1

К к

П 8гРг} Фрз + [пКА П giPi ] ФРА = /=1 г=1

бо <Рп+(1м <Рм +QN Ры+(1р.1 <Рр1+0р1 <PpI+Qps ~<Рр5+&ра Фра

где <рп и т.д. определяются следующим образом: если соответствующий ресурс является "узким местом", то это математическое ожидание времени пребывания в соответствующем разделяемом ресурсе (ожидание и обработка записи БД), в противном случае это математическое ожидание времени только обработки записи в ресурсе (для неразделяемого ресурса и для разделяемого ресурса, который не является "узким местом"),

g¡ = (3, (1) = УЛ/ п - математическое ожидание числа записей таблицы ¡-го измерения, которые хранятся в узле,

Р1 - вероятность, что запись ¡-го измерения удовлетворяет условию поиска по этому измерению в запросе.

Помимо архитектур БЕ, БЭ и БИ на практике применяют смешанные архитектурные решения. Например, узлы БМР (БЕ) соединяются по схеме "точка-точка" типа БК В этом случае получается архитектура типа СЕ. В этом случае формулу (16) можно переписать в следующем виде:

м =£?о 9о(пря) +2м Фм +Оы(пряХ{п))(ртмр+

> (17)

(б* (Рр]+<2р1 Фр1+йр5 (Ррз+О-РЛ ФРА

здесь предполагается, что в БМР-узле "узким местом" является диск, 10

nPR - число процессоров в одном SMP-узле, n= nSMp -Пря - общее число процессоров в системе, nSMP - число SMP-узлов, Г(п) - вектор (gi(n),..., gK(n)),

Pnsmp = ^ Mnsmp " среднее время передачи записи между процессорами одного SMP-узла (чтение из ОП, передача записи (сообщения) по межпроцессорной шине, запись в ОП), остальные обозначения такие же, как и в формуле (16).

Для тех проектов построения информационных систем, для которых важен экономический эффект, должна выбираться архитектура системы с минимальной совокупной стоимостью владения. Совокупная Стоимость Владения (ССВ) - это методика расчета, разработанная зарубежными экономистами, чтобы помочь потребителям и руководителям предприятий определить прямые и косвенные затраты и выгоды, связанные с любым компонентом компьютерной системы.

В работе выполнена оценка ССВ ПСБД, состоящей их нескольких SMP-систем (рис. 2). На рис. 2 введены следующие обозначения: nPR- число процессоров в одной SMP-системе, nSMP- число SMP-систем, NR= N/nSMP - число дисков, закреплённых за одной SMP- системой. Такая конфигурация позволяет исследовать следующие архитектуры:

• SE (одна SMP-система), nSMP=l,

• СЕ (кластер SMP-систем), nPR > 1 и nSMP>l,

• SN (система с одним процессором в узле), nPR=l, nSMP>l.

• SE-кластер (кластер SMP-систем с общей дисковой памятью), все п процессоров разделяют все N дисков (n= nPR-nSMP).

Формулы для оценки стоимости ПСБД определяются особенностями зависимости стоимости системы от числа процессоров и числа дисков в дисковом массиве. Например, известно, что стоимость одной SMP-системы плавно зависит от числа процессоров nPR до некоторого nPRKp.

Для сравнительной оценки стоимости различных архитектур параллельных систем баз данных предлагается использовать оценку затрат ежемесячного ССВ комплекса на протяжении пяти лет без модернизации комплекса с выделением следующих компонентов ПСБД: SMP-узлов, системы хранения и коммутационной сети.

Шина межпроцессорного обмена - Net

Рис. 2. Общая схема комплекса, состоящего из нескольких SMP- систем

Оценка ССВ определяется по формуле (руб./мес.):

Сссвмсубдм -

Ссхд (AQ + nSMPx CSMP (nPR) + С5W (nSMP) + С0ДР + NCPU x С no — _ _ +

. (Ссхд.э, W + nSMP x СШРЛ10nPR) + CSW 3j (nSMP) + С.Эл Др + ' ( ■18)

Ссад. конд (Ю + nSMP x CSMRKoHd (nPR) + CSW .Конд (nSMP) + СКонд др +

KCPU x С Сервис.no) __

— — __

где Ссхд (N) - стоимость системы хранения данных, зависящая от числа дисков и дисковых полок в системе хранения,CSMP(nPR) - стоимость SMP-сервера с количеством процессоров nPR, Csw{nSMP) - стоимость коммутатора сети Net на nSMP узлов в системе, С0 ДР- стоимость дополнительного оборудования в комплексе, {С.э,(.)} - составляющие стоимости электроснабжения системы в год, {С.,конд(.)}- составляющие стоимости теплоотвода от системы в год,

В работе разработан алгоритм выбора архитектуры ПСБД (алгоритм ВАПСБД), учитывающий специфику сравнения архитектур ПСБД и особенности стоимостной оценки:

Шаг 1. Рассчитать число дисков в RAID-массиве. Расчёт числа дисков проводится по формуле (19).

Q

Qd ■Pd

Х ^RAID

+ 2-k

'enc >

(19)

где Q- общий объём хранимых данных (фактов и измерений), QD - объём диска, pD - доля заполнения диска, kRAID - коэффициент, учитывающий использование технологии RAID для защиты данных от физического отказа дисков, 2 • кепс - коэффициент, учитывающий использование технологии горячего резервирования дисков (hot spare).

Шаг 2. Оценить стоимость дискового массива ССХд (N).

Шаг 3. Проанализировать запросы к хранилищу данных. Для каждого i-го запроса

1) определить количество измерений, по которым выполняется поиск

2) оценить число записей таблиц измерений в запросе (VP,j= Vy ■ рц,

Эти данные занести в таблицу и назначить граничные значения для среднего времени выполнения этих запросов.

Шаг 4. Положить nPR=l и nSMP=1.3To соответствует самой дешёвой конфигурации (одна SMP-система с одним процессором).

Шаг 5. Рассчитать среднее время (М) для всех запросов, используя

формулу (17), для SE-кластера q>D зависит от общего числа процессоров п= nPR-nSMP. Если для какого-либо запроса время его выполнения превышает граничное значение, то перейти к шагу 6, иначе перейти к шагу 8.

Шаг 6. Проверить nPR: если для текущего значения nPR перегружается диск массива RAID (дальнейшее увеличение nPR не приведёт к уменьшению времени выполнения запросов) или nPR>nPRKp, то перейти к шагу 7, иначе увеличить число процессоров в каждой SMP-системе: nPR:=nPR+l, перейти к шагу 5.

Шаг 7. Увеличить число SMP-систем: nPR:=l, nSMP:=nSMP+l. Если nSMP>nSMPrP, то выйти из алгоритма (решение не найдено, заданы слишком жёсткие ограничения на время выполнения запросов), иначе перейти к шагу 5.

Шаг 8. Полученная конфигурация (nPR. nSMP) является оптимальной, оценить ССВ архитектуры ПСБД по формуле (18). Завершить алгоритм (решение найдено).

В алгоритме последовательно наращивается число процессоров (nPR) и SMP-систем (nSMP), и таким образом параллельные системы баз данных с архитектурами SE, СЕ, SN или SE-кластер упорядочиваются по возрастанию их стоимости. Так как число шагов ограничено, то оптимальное решение или будет найдено, или нет.

В четвертой главе «Использование разработанных методов анализа для выбора архитектуры хранилища гидрометеорологических данных» при-

3) рассчитать среднее значение КР,= А [ VPy .

1

ведены результаты применения предлагаемых моделей при выборе архитектуры ПСБД хранилища гидрометеорологических данных.

Основной задачей построения хранилища гидрометеорологических данных является сбор, обработка и хранение гидрометеорологических данных в едином хранилище с целью их дальнейшей аналитической обработки и использования для нужд геоинформационных систем. Первым этапом построения хранилища была разработка схемы хранилища для проведения оперативного анализа основных показателей климатических данных. Основные климатические показатели определены в постановке задачи и должны быть извлечены из массива поступающих метеорологических данных.

Ежегодное поступление информации в хранилище составляет около 9Т6 климатических данных. В дисковом массиве предполагается хранить Q=61,4 Тб данных с последующим архивированием старых сведений. Технические и программные средства системы: Sun Oracle Database Machine (с ячейками Ех-adata).

Для выбора архитектуры ПСБД хранилища гидрометеорологических данных был применен алгоритм, разработанный в третьей главе (алгоритм ВАПСБД для SE-кластера). Исходя из требований к системе, получено общее число дисков в дисковых массивах N=320. Проанализированы три типа наиболее критичных запросов к хранилищу данных без материализации представлений (табл. 1), ТГр - граничное значение для среднего времени выполнения запроса.

Таблица 1.

Критические запросы к хранилищу ______

Краткое описание запроса VP К ТГР (с.)

Тип запроса №1. К трем измерениям. Получить усредненные и достоверные значения минимальной, максимальной, средней температуры, температуры точки росы с выводом места сбора информации, хранения и вида наблюдения за определенный промежуток времени 185 3 60

Тип запроса №2. К пяти измерениям. Получить достоверное среднее значение температуры, давления, количества выпавших осадков и продолжительности солнечного сияния с выводом станций наблюдений, мест хранения, видов наблюдений и типов носителей за определенный промежуток времени 24 5 60

Тип запроса №3. К семи измерениям. Предоставить усредненные и достоверные значения минимальной, максимальной, средней температуры, продолжительности солнечного сияния, количества выпавших осадков, скорости ветра, общей облачности, температуры почвы с выводом станций наблюдений, мест хранения, видов наблюдений, типов носителей, видов осадков, типов облаков и направления ветра 9 7 60

По результатам работы алгоритм ВАПСБД была выбрана оптимальная архитектура ПСБД (п5МР=3, пРЯ=4). Для этой конфигурации была рассчитана оценка ССВ по формуле (18), которая составила 7 431 096,48 руб./мес.

На рис. 3 приведены графики зависимостей среднего времени выполнения запросов от количества БМР-систем (пЭМР).

Рис. 3. Зависимость среднего времени выполнения запросов, от количества SMP-систем

Для оптимальной конфигурации были получены следующие значения среднего времени выполнения запросов: запрос №1 - 57 сек., запрос №2 - 60 сек., запрос №3 - 31 сек. Причём для запросов №1, 2 (К=3, К=5) это время является минимальным. Это объясняется большим числом кортежей в декартовом произведении записей измерений (1853, 243) и тем, что при дальнейшем увеличении количества SMP-систем увеличивается общее число процессоров, которые перегружают дисковую систему. По сравнению с однопроцессорной системой среднее время выполнения запросов сократилось почти в 6 (К=3), 7 (К=5) и 9 (К=7) раз.

ВЫВОДЫ

1. Разработаны модели обработки запросов к одной таблице в параллельной системе баз данных в виде замкнутой и разомкнутой СМО, учитывающие основные особенности разных архитектурных решений.

2. Предложен математический метод оценки времени выполнения запросов к нескольким таблицам СУБД для различных архитектур и способов реализации соединений этих таблиц.

3. Разработан математический метод оценки времени выполнения запросов к хранилищу данных, учитывающий особенности реализации плана соеди-

нения таблиц измерений и фактов в параллельной системе баз данных.

4. Предложен способ оценки совокупной стоимости владения для рассматриваемого класса систем в зависимости от конфигурации комплекса.

5. Разработан алгоритм выбора архитектуры параллельной системы баз данных, основанный на упорядочивании вариантов системы по возрастанию их стоимости.

6. С помощью разработанных методов и алгоритмов выбрана оптимальная архитектура параллельной системы баз данных для хранилища гидрометеорологических данных. Для заданных ограничений на среднее время выполнения наиболее критичных запросов с 3-я, 5-ю и 7-ю измерениями получена конфигурация с тремя SMP-узлами и четырьмя процессорами в каждом узле. При этом среднее время выполнения запросов сократилось соответственно в 6, 7 и 9 раз по сравнению с однопроцессорным вариантом. Выполнен расчет совокупной стоимости владения оптимальной архитектуры системы.

7. В дальнейшем планируется разработать систему поддержки принятия решения с развитым пользовательским интерфейсом для выполнения комплексных расчетов и выбора архитектуры параллельной системы баз данных для организаций, обрабатывающих большие объёмы данных.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Григорьев Ю.А., Плужников B.JI. Оценка времени выполнения запросов и выбор архитектуры параллельной системы баз данных // Информатика и системы управления. - 2009. - № 3. - С. 3-12.

2. Григорьев Ю.А., Плужников B.JI. Модель обработки запросов в параллельной системе баз данных // Вестник МГТУ им. Н.Э. Баумана. Приборостроение. - 2010. - № 4. - С. 78-90.

3. Григорьев Ю.А., Плужников B.JI. Оценка времени соединения таблиц в параллельной системе баз данных // Информатика и системы управления.-2011,-№ 1.-С. 3-16.

4. Григорьев Ю.А., Плужников B.JI. Анализ времени обработки запросов к хранилищу данных в параллельной системе баз данных // Информатика и системы управления. - 2011. - № 2. - С. 94-106.

5. Плужников B.JI. Оценка времени выполнения запроса в параллельной системе баз данных // Наука и образование. - Электрон, журн. - 2011. -№6. - [Электронный ресурс]. URL: http://technomag.edu.ru/doc/188065. html (дата обращения: 25.10.2011).

6. Плужников В. JI. Метод выбора архитектуры параллельной системы баз данных // Проблемы построения и эксплуатации систем обработки информации и управления: Сб. статей / Под ред. В.М. Чёрненького. - 2011. -Вып. 9.-С. 76-83.

Оглавление автор диссертации — кандидата технических наук Плужников, Всеволод Львович

ВВЕДЕНИЕ.

ГЛАВА 1. Анализ существующих методов выбора архитектур параллельных систем баз данных.

1.1. Формы параллелизма.

1.1.1. Межтранзакционный и внутритранзакционный параллелизм.

1.1.2. Межзапросный и внутризапросный параллелизм.

1.1.3. Межоперационный и внуриоперационный параллелизм.

1.2. Требования к параллельным системам баз данных.

1.2.1. Масштабируемость.

1.2.2. Производительность.

1.2.3. Доступность данных.

1.3. Классификация архитектур параллельных систем баз данных.

1.3.1. Классификация Стоунбрейкера.

1.3.2. Расширение классификации Стоунбрейкера.

1.3.3. Гибридная архитектура CDN.

1.4. Выполнение запросов в параллельных системах баз данных.

1.4.1. Синхронный конвейер.

1.4.2. Итераторная модель.

1.4.3. Скобочный шаблон.

1.4.4. Фрагментный параллелизм.

1.4.5. Оператор exchange.

1.5. Анализ существующих способов выбора архитектуры параллельных систем баз данных.

1.5.1. Опытное сравнение производительности и стоимости систем на основании тестирования.

1.5.2. Экспертная оценка архитектур параллельных систем баз данных.

1.6. Концепция разработки метода выбора архитектуры параллельных систем баз данных.

1.7. Выводы.

ГЛАВА 2. Разработка математических методов анализа характеристик производительности параллельных систем баз данных.

2.1. Обоснование разработки и требования к новому аналитическому методу.

2.2. Модель выполнения запросов в параллельной системе баз данных.

2.2.1. Сведение замкнутой двухузловой СМО к разомкнутой.

2.3. Математический метод оценки времени выполнения запроса к параллельной СУБД.

2.3.1. Оценка времени выполнения SQL-запроса к одной таблице.

2.3.2. Оценка времени выполнения SQL запроса к нескольким таблицам.

2.4. Примеры оценки среднего времени выполнения запросов в параллельной системе баз данных.

2.4.1. Расчет среднего времени выполнения SQL-запроса к одной таблице.

2.4.2. Расчет среднего времени выполнения SQL-запроса соединения таблиц.

2.5. Выводы.

ГЛАВА 3. Разработка математических методов оценки характеристик производительности хранилищ данных на основе параллельных баз данных. Оценка стоимости ПСБД.

3.1. Обоснование разработки математического метода оценки производительности хранилищ данных.

3.2. Выполнение запроса к хранилищу данных в параллельной системе баз данных.

3.2.1. Чтение данных измерений.

3.2.2. Обмен записями таблиц измерений и декартова произведения между узлами.

3.2.3. Преобразование Лапласа-Стилтьеса времени выполнения запроса к ROLAP в ПСБД.

3.2.4. Оценка среднего времени выполнения запроса к хранилищу данных.

3.3. Пример расчёта среднего времени выполнения запроса к хранилищу данных в параллельной системе баз данных.

3.4. Оценка стоимости параллельных систем базы данных.

3.4.1. Комплексная методология расчета ССВ.

3.4.2. Упрощенная методика расчета ССВ.

3.4.3. Анализ ССВ для параллельных систем баз данных.

3.4.4. Пример оценки ССВ для архитектуры SE.

3.5. Алгоритм выбора архитектуры ПСБД.

3.6. Выводы.

ГЛАВА 4. Использование разработанных методов анализа для выбора архитектуры хранилища гидрометеорологических данных.

4.1. Определение вариантов реализации архитектуры ПСБД для хранилища гидрометеорологических данных.

4.2. Описание предметной области проектируемой системы.

4.2.1. Общая характеристика деятельности по накоплению гидрометеорологических данных.

4.2.2. Описание типов и структур гидрометеорологических данных.

4.3. Описание схемы хранилища данных и запросов.

4.4. Выбор архитектуры ПСБД для хранилища гидрометеорологических данных.

4.5. Оценка стоимости архитектуры ПСУБД для хранилища гидрометеорологических данных.

4.6. Выводы.

ВЫВОДЫ.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Плужников, Всеволод Львович

Актуальность темы.

Реализация параллельных систем баз данных с помощью современных технических средств обеспечивает высокую производительность выполнения запросов. В настоящее время существует несколько типов архитектур, позволяющих реализовывать параллельные системы баз данных. Технические средства, используемые для реализации этих архитектур, являются дорогостоящими, что приводит к необходимости учитывать показатель «производительность/стоимость» системы при выборе архитектуры.

Существующие методы анализа и выбора архитектуры систем рассматриваемого класса основаны или на сопоставлении вариантов по качественным критериям (масштабируемости, доступности данных и др.), или на сравнении результатов выполнения конкретных тестов (ТРС и др.), не учитывающих особенностей предметной области, для которой разрабатывается система. Выбор архитектуры с помощью этих методов нельзя считать обоснованным, их использование может привести или к чрезмерному завышению стоимости проекта, или к выбору системы с низкой производительностью.

Поэтому разработка математических моделей анализа архитектур параллельных систем баз данных, позволяющих выбирать структуру сложного многопроцессорного аппаратно-программного комплекса с минимальной стоимостью, обеспечивающего выполнение ресурсоёмких запросов к базе данных за допустимое время, является актуальной задачей.

В диссертационной работе указанная задача решается путем разработки моделей оценки индексов производительности параллельных систем баз данных, учитывающих особенности выполнения запросов различных типов к базе данных, механизм распределения таблиц по процессорам системы, параллелизм выполнения запросов в узлах, наличие «узких мест» в многопроцессорных комплексах с различной топологией.

Цель работы. Целью данной работы является разработка метода выбора архитектуры параллельной системы баз данных на основе применения математических моделей оценки характеристик производительности с учетом специфики решаемых ею задач и стоимости.

В работе решаются следующие задачи:

1) разработка метода выбора архитектуры параллельной системы баз дынных (ПСБД) на основе показателей стоимости и времени выполнения запросов к системе;

2) разработка аналитических моделей выполнения запросов в ПСБД с различными архитектурами, включая хранилища данных ШЭЬАР;

3) разработка метода оценки стоимости ПСБД для различных архитектурных решений;

4) применение разработанных моделей и методов для выбора архитектуры ПСБД хранилища гидрометеорологических данных.

Объект исследования. Объектом исследования является класс параллельных систем баз данных.

Предмет исследования. Предметом исследования настоящей работы являются процессы обработки запросов в различных структурах параллельных систем баз данных.

Научная новизна. В работе получены следующие новые научные результаты:

1. Разработана модель обработки запросов в параллельной системе баз данных в виде замкнутой и разомкнутой СМО, учитывающая наличие "узкого места" в системе.

2. Выведено преобразование Лапласа-Стилтьеса времени выполнения запроса к одной таблице в параллельной СУБД. Рассмотрены варианты этого преобразования для различных архитектур параллельных систем баз данных (ПСБД).

3. Разработан математический метод оценки времени соединения таблиц в параллельной системе баз данных для различных архитектур (8Е, БЭ, БИ) и разных методов реализации соединения (N0, Ш).

4. Выведены преобразования Лапласа-Стилтьеса и получены моменты случайного времени выполнения аналитических запросов к хранилищу данных, реализованному на основе ПСБД и использующему специальные планы соединения таблиц измерений и фактов.

Методы исследования. Исследования проводились на основе комплексного использования теории массового обслуживания, теории вероятностей, теории множеств, теории реляционных баз данных.

Практическая ценность полученных результатов.

В диссертации разработан алгоритм выбора архитектуры параллельной системы баз данных, основанный на упорядочивании ПСБД с архитектурами БЕ, СЕ, БМ, БЕ-кластер по возрастанию их стоимости.

В работе для практического использования полученных результатов разработано инструментальное средство, позволяющее проводить расчеты временных показателей выполнения запросов к ПСБД. Оно включает в себя модули расчета для различных типов архитектур и позволяет строить зависимости среднего времени выполнения запросов в системе от количества процессоров, параметров запросов и наполнения базы данных.

Внедрение результатов исследований. Разработанные методы и инструментальное средство было использовано в процессе выбора архитектуры хранилища гидрометеорологических данных. Хранилище данных обеспечивает выполнение трех основные задач: накопление данных, их бессрочное хранение и обслуживание потребителей. В соответствии с предъявленными требованиями были определены допустимые архитектуры ПСБД и технические средства для их реализации. Проведены оценки временных показателей выполнения запросов к хранилищу ПСБД, выполнена оценка стоимости систем. На основе этих расчётов решена задача выбора архитектуры ПСБД с минимальной стоимостью.

Публикации по теме. По материалам работы опубликовано 6 печатных работ.

Апробация работы. Материалы работы были изложены автором на НТС кафедры ИУ-5 МГТУ им. Н.Э. Баумана, М., 2009-2011.

Структура диссертационной работы. В первой главе «Анализ существующих методов выбора архитектур параллельных систем баз данных» приведено описание параллельных систем баз данных (ПСБД), особенностей их функционирования и возможных архитектурных решений. Также рассматриваются существующие методы выбора архитектуры ПСБД на этапе проектирования систем. Проводится критический анализ существующих методов. На основе этого анализа предлагается общая методика выбора архитектуры ПСБД.

Во второй главе «Разработка математических методов анализа характеристик производительности параллельных систем баз данных.» предложены модели обработки запросов для различных архитектур ПСБД. Предложено аналитическое решение по данным моделям. С помощью преобразования Лапласа-Стилтьеса получены выражения для оценки среднего времени выполнения простого SQL запроса и запроса на соединение таблиц в различных архитектурах ПСБД. Исследованы зависимости времени выполнения запросов от количества процессоров в системе на примере реальной системы.

В третьей главе «Разработка математических методов оценки характеристик производительности хранилищ данных на основе параллельных баз данных. Оценка стоимости ПСБД» предложены выражения для определения временных показателей выполнения запроса к хранилищу данных, построенному на основе ПСБД. Приводятся примеры использования данных выражений для расчета среднего времени выполнения запроса к хранилищу. Также приводится описание метода стоимостной оценки ПСБД и выводятся выражения для определения упрощенной оценки стоимости с выделенной процессорной составляющей. Разрабатывается оригинальный алгоритм выбора архитектуры параллельной системы баз данных, основанный на упорядочивании ПСБД с архитектурами SE, СЕ, SN, SE-кластер по возрастанию их стоимости.

В четвертой главе «Использование разработанных методов анализа для выбора архитектуры хранилища гидрометеорологических данных» приведены результаты применения предлагаемых моделей при выборе архитектуры ПСБД хранилища гидрометеорологических данных. Приведены оценки производительности и стоимости различных архитектур и сделан ряд нетривиальных выводов

Заключение диссертация на тему "Анализ архитектур параллельных систем баз данных"

ВЫВОДЫ

В качестве основных результатов работы определены следующие положения:

1. Разработаны модели обработки запросов к одной таблице в параллельной системе баз данных в виде замкнутой и разомкнутой СМО, учитывающие основные особенности разных архитектурных решений.

2. Предложен математический метод оценки времени выполнения запросов к нескольким таблицам СУБД для различных архитектур и способов реализации соединений этих таблиц.

3. Разработан математический метод оценки времени выполнения запросов к хранилищу данных, учитывающий особенности реализации плана соединения таблиц измерений и фактов в параллельной системе баз данных.

4. Предложен способ оценки совокупной стоимости владения для рассматриваемого класса систем в зависимости от конфигурации комплекса.

5. Разработан алгоритм выбора архитектуры параллельной системы баз данных, основанный на упорядочивании вариантов системы по возрастанию их стоимости.

6. С помощью разработанных методов и алгоритмов выбрана оптимальная архитектура параллельной системы баз данных для хранилища гидрометеорологических данных. Для заданных ограничений на среднее время выполнения наиболее критичных запросов с 3-я, 5-ю и 7-ю измерениями получена конфигурация с тремя SMP-узлами и четырьмя процессорами в каждом узле. При этом среднее время выполнения запросов сократилось соответственно в 6, 7 и 9 раз по сравнению с однопроцессорным вариантом. Выполнен расчет совокупной стоимости владения оптимальной архитектуры системы.

7. В дальнейшем планируется разработать систему поддержки принятия решения с развитым пользовательским интерфейсом для выполнения комплексных расчетов и выбора архитектуры параллельной системы баз данных для организаций, обрабатывающих большие объёмы данных.

Библиография Плужников, Всеволод Львович, диссертация по теме Теоретические основы информатики

1. Соколинский J1. Б., Цымблер М. J1. Лекции по курсу "Параллельные системы баз данных": Электронный ресурс.. URL: http://pdbs.susu.ru/CourseManual.html. (дата обращения: 10.04.2009).

2. Соколинский Л.Б. Обзор архитектур параллельных систем баз данных // Программирование. 2004. № 6. С. 1-15.

3. Dewitt D., Gray J. Parallel database systems: the future of high performance database systems // Communications of the ACM. 1992. Vol. 35, No. 6. P. 1-26.

4. Базы данных. Интеллектуальная обработка информации. 2-е издание / В.В. Корнеев и др.. М.: Нолидж, 2001. 496 с.

5. Тамер Оззу М., Валдуриз П. Распределенные и параллельные системы баз данных: Электронный ресурс. URL: http://citforum.ru/database/classics/distrandparalsdb/ (дата обращения: 26.11.2010).

6. Pfister G. Sizing Up Parallel Architectures // DataBase Programming & Design OnLine . 1998. Vol. 11, No. 5. Электронный ресурс. URL: http://citforum.ru/hardware/articles/art5.shtml (дата обращения: 26.11.2010).

7. Соколинский Л.Б. Организация параллельного выполнения запросов в многопроцессорной машине баз данных с иерархической архитектурой //Программирование. 2001. №6. С. 13-29.

8. Ульман Дж., Уидом Дж. Введение в системы баз данных. М.: ЛОРИ, 2000. 347 с.

9. Stonebraker М. Inclusion of New Types in Relational Data Base Systems

10. ICDE 1986: Proceedings of the Second International Conference on Data Engineering. Los Angeles (California, USA), 1986. P. 262-269.

11. Костенецкий П.С., Лепихов A.B., Соколинский Л.Б. Технологии параллельных систем баз данных для иерархических многопроцессорных сред // Автоматика и телемеханика. 2007. № 5. С. 112-125.

12. Воеводин B.B. Суперкомпьютеры: вчера, сегодня, завтра. Сборник научно-популярных статей // Российская наука на заре нового века / Под редакцией академика В.П. Скулачева. М.: Научный мир, 2001. С. 475-483

13. Воеводин В.В. Математические модели и методы в параллельных процессах. М.: Наука, 1986. 296 с.

14. Корнеев В.В., Киселев A.B. Современные микропроцессоры. СПб.: БХВ-Петербург, 2003. 448с.

15. Крюков В.А. Разработка параллельных программ для вычислительных кластеров и сетей// Информационно-Аналитический Центр. Электронный ресурс. URL: http://parallel.ru (дата обращения: 23.10.2011)

16. Крюков В.А. Учебный курс "Операционные системы распределенных вычислительных систем." // Информационно-Аналитический Центр. Электронный ресурс. URL: http://parallel.ru (дата обращения: 23.10.2011).

17. Соколинский Л.Б. Параллельные машины баз данных. Сборник научно-популярных статей // Российская наука на заре нового века / Под редакцией академика В.П. Скулачева. М.: Научный мир, 2001. С. 484-494.

18. Костенко В.А. К вопросу об оценке оптимальной степени параллелизма.

19. Программирование. 1995. № 4. С. 24-28.

20. Галатенко В.А., Костюхин К.А. Отладка и мониторинг распределенных разнородных систем. // Программирование. 2002. №1. С. 27-37

21. Забродин A.B. Параллельные вычислительные технологии. Состояние и перспективы // Препринт Института прикладной математики им. М.В. Келдыша РАН, 1999, №71. С. 17

22. Соколинский Л.Б. Организация параллельного выполнения запросовв многопроцессорной машине баз данных с иерархической архитектурой // Программирование. 2001. No. 6. С. 13-29.

23. Dean J., Ghemawat S. MapReduce: simplified data processing on large clusters // Communications of ACM. 2008. Vol. 51, No. 1. P. 107-113.

24. Chaudhuri S., Narasayya V. Self-tuning database systems: a decade of progress // Proceedings of the 33rd international Conference on Very Large Data Bases. Vienna (Austria), 2007. P. 3-14.

25. Xu Y., Kostamaa P., Zhou X., Chen L. Handling data skew in parallel joins in shared-nothing systems // ACM SIGMOD international Conference on Management of Data proceedings. Vancouver (Canada), 2008. P. 1043- 1052.

26. Han W., Ng J., Markl V., Kache H. Progressive optimization in a sharednothing parallel database // Proceedings of the 2007 ACM SIGMOD international conference on Management of data. Beijing (China), 2007. P. 809-820.

27. Zhou J., Cieslewicz J., Ross K. A. Improving database performance on simultaneous multithreading processors // Proceedings of the 31 st international Conference on Very Large Data Bases. Trondheim (Norway), 2005. P. 49-60.

28. Garcia P. Korth H. F. Pipelined hash-join on multithreaded architectures

29. Proceedings of the 3rd international Workshop on Data Management on New Hardware. Beijing (China), June 15, 2007. DaMoN '07. ACM. New York (NY), 2007. P. 1-8

30. Lakshmi M.S., Yu P.S. Effect of Skew on Join Performance in Parallel Architectures // Proceedings of the first international symposium on Databases in parallel and distributed systems. Austin (Texas, United States), 1988. P. 107-120.

31. Ferhatosmanoglu H., Tosun A. S., Canahuate G., Efficient parallel processing of range queries through replicated declustering // Distrib. Parallel Databases. 2006. Vol. 20, No. 2. P. 117-147.

32. Lepikhov A.V., Sokolinsky L.B. Data Placement Strategy in Hierarchical Symmetrical Multiprocessor Systems // Proceedings of Spring Young Researchers

33. Colloquium in Databases and Information Systems. Moscow (Russia), 2006. P. 31-36.

34. Левин В.К. Отечественные суперкомпьютеры семейства МВС // Информационно-Аналитический Центр. Электронный ресурс. URL: http://parallel.ru/mvs/levin.html (дата обращения: 23.10.2011).

35. Copeland G.P., Keller T.W. A Comparison Of High-Availability Media Recovery Techniques // Proceedings of the 1989 ACM SIGMOD International Conference on Management of Data. Portland (Oregon), 1989. P. 98-109.

36. Bouganim L., Florescu D., Valduriez P. Dynamic Load Balancing in Hierarchical Parallel Database Systems // VLDB'96: Proceedings of 22th 28 International Conference on Very Large Data Bases. Mumbai (Bombay, India), 1996. P. 436-447.

37. DeWitt D.J. The Gamma database machine project // IEEE Transactins on Knowledge and Data Engineering. 1990.Vol. 2, No 1. P. 44-62.

38. Golubchik L., Muntz R.R. Fault Tolerance Issues in Data Declustering for Parallel Database Systems // Data Engineering Bulletin. 1994.Vol. 17, No 3. P. 14-28.

39. Graefe G. Encapsulation of Parallelism in the Volcano Query Processing Systems // Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data. Atlantic City (NJ), 1990. P. 102-111.

40. Graefe G. Query evaluation techniques for large databases // ACM Computing Surveys. 1993.Vol. 25, No 2. P. 73-169.

41. Lakshmi M.S., Yu P.S. Effectiveness of Parallel Joins // IEEE Transactions on Knowledge and Data Engineering. 1990.Vol. 2, No 4. P. 410-424.

42. Lymar T.Y., Sokolinsky L.B. Data Streams Organization in Query Executor for Parallel DBMS // Databases&Information System: Proceedings of the 4th IEEE International Baltic Workshop. Vilnius, 2000. Vol. 1. P. 85-88.

43. Mohan C., Pirahesh H., Tang W. G. Parallelism in relational database management systems // IBM Systems Journal. 1994.Vol. 33, No 2. P. 349-371.

44. Patterson D.A., Gibson G.A., Katz R.H. A Case for Redundant Arrays of Inexpensive Disks (RAID) // Proceedings of the 1988 ACM SIGMOD International Conference on Management of Data. Chicago (Illinois), 1988. P. 109-116.

45. Stonebraker M. Operating System Support for Database Management

46. Communications of the ACM (CACM). July 1981. Vol. 24, No 7. P. 412-418.

47. Stonebraker M. The case for shared nothing // Database Engineering Bulletin. 1986.Vol. 9, No 1. P. 4-9.

48. Stonebraker M., Hellerstein J.M. Introduction to Chapter 5: Parallel Database Systems // Readings in database systems (3rd ed.). 1998. P. 399-402.

49. Thakkar S.S., Sweiger M. Performance of an OLTP Application on Symmetry Multiprocessor System // Proceedings of the 17th Annual International Symposium on Computer Architecture. Seattle (WA), 1990. P. 228-238.

50. Valduriez P. Parallel Database Systems: the case for shared-something

51. Proceedings of the 9th International Conference on Data Engineering. Vienna (Austria), 1993. P. 460-465.

52. Williams M.H., Zhou S. Data Placement in Parallel Database Systems // Parallel database techniques. Los Alamitos. IEEE Computer society. 1998. P. 203-218.

53. Rahm E. Performance Evaluation of Extended Storage Architectures for Transaction Processing // Proceedings of the 1992 ACM SIGMOD International Con ference on Management of Data. San Diego (California), 1992. P. 308-317.

54. P. Valduries. Parallel Database Systems: Open Problems and New Issues // Distributed and Parallel Databases. 1993. №1(2). P. 137-165.

55. Шнитман B.3., Кузнецов С.Д. Серверы корпоративных баз данных

56. Информационно-аналитические материалы Центра Информационных Технологий. Электронный ресурс. URL:http://www.citforum.ru/database/skbd/ (дата обращения: 23.10.2011).

57. Система тестов SPEC. Лаборатория Параллельных информационных технологий НИВЦ МГУ Электронный ресурс. URL: http://www.parallel.ru/computers/benchmarks/spec.html (дата обращения: 23.10.2011).

58. Французов Д., Волков Д. Новое поколение тестов SPEC // Открытые системы, № 04, 1996 Электронный ресурс. URL: http://www.osp.ru/os/1996/04/178946/ (дата обращения 23.10.2011).

59. Шнитман В. 3. Современные высокопроизводительные компьютеры // Информационно-аналитические материалы Центра Информационных Технологий. Электронный ресурс. URL:http://citforum.ru/hardware/svk/contents.shtml (дата обращения: 23.10.2011).

60. В.З.Шнитман, С.Д.Кузнецов, Аппаратно-программные платформы

61. Информационно-аналитические материалы Центра Информационных Технологий Электронный ресурс. URL:http://citforum.rU/hardware//glaval.shtml#l (дата обращения: 23.10.2011).

62. Huppler К. Price and the TPC // Performance Evaluation, Measurement and Characterization of Complex Systems. 2011. Volume 6417/2011. P. 73-84

63. Nambiar R., Poess M. Transaction Performance vs. Moore's Law: A Trend Analysis // Performance Evaluation, Measurement and Characterization of Complex Systems Lecture Notes in Computer Science. 2011. Volume 6417/2011. P. 110-120

64. Young E., Cao P., Nikolaiev M. First TPC-Energy Benchmark: Lessons Learned in Practice // Performance Evaluation, Measurement and Characterization of Complex Systems Lecture Notes in Computer Science. 2011. Volume 6417/2011. P. 136-152

65. Crolotte A., Ghazal A. Benchmarking Using Basic DBMS Operations

66. Performance Evaluation, Measurement and Characterization of Complex Systems Lecture Notes in Computer Science. 2011. Volume 6417/2011. P. 204-215

67. Stonebraker M. A New Direction for TPC? // Performance Evaluation and BenchmarkingLecture Notes in Computer Science. 2009. Volume 5895/2009. P. 11-17

68. Елашкин M. Производительность СУБД и тесты TPC // BYTE Россия. Платформы и технологии. 2004. №3 (67). С. 5-8

69. Волков А.А. Тесты ТРС // Системы Управления Базами Данных. 1995. №2/95. С. 70-78

70. TPC Benchmark A, Standard Specification, revision 1.2 // Transaction Processing Performance Council: Электронный ресурс. URL: http://www.tpc.org/tpca/default.asp (дата обращения: 26.11.2010).

71. TPC Benchmark В, Standard Specification, revision 1.2 // Transaction Processing Performance Council: Электронный ресурс. URL: http://www.tpc.org/tpcb/default.asp (дата обращения: 26.11.2010).

72. TPC Benchmark С, Standard Specification, revision 2.0 // Transaction Processing Performance Council: Электронный ресурс. URL: http://www.tpc.org/tpcc/default.asp (дата обращения: 26.11.2010).

73. Kohler, W., Shah, A., Raab, F. Overview of TPC Benchmark C: The Order-Entry Benchmark // Transaction Processing Performance Council: Электронный ресурс. URL: http://www.tpc.org/tpcc/detail.asp (дата обращения: 23.10.2011)

74. Аносо А. Критерии выбора СУБД при создании информационных систем: Электронный ресурс. URL: http://www.infosystem.ru/designing/methodology/article/articlecritselectrmdb.html (дата обращения: 23.10.2011)

75. Льюис Дж. Oracle. Основы стоимостной оптимизации. СПб: Питер, 2007. 528 с.

76. Григорьев Ю.А., Плужников B.JI. Оценка времени выполнения запросов и выбор архитектуры параллельной системы баз данных// Информатика и системы управления. 2009. №3. С. 3-12.

77. Производительность СУБД Oracle Database 1 lg при работе на сервере Sun SPARC Enterprise М9000: Электронный ресурс. URL: http://ru.sun.com/sunnews/press/2010/2010-05-18.jsp (дата обращения: 26.11.2010).

78. JEDEC standard: DDR2 SDRAM Specification (JESD79-2F, November 2009): Электронный ресурс. URL: http://www.jedec.org/standards-documents/results/JESD79-2F (дата обращения: 26.11.2010).

79. Болинджер К. Врожденный параллелизм: Электронный ресурс. URL: http://www.osp.ru/ os/2006/02/l 156526/рl.html (дата обращения: 26.11.2010).

80. Черняк JI. Teradata отвечает на вызовы: Электронный ресурс. URL: http://www.national.class.ru/text/print/302/7354991 .html (дата обращения: 03.11.2011).

81. Oracle Real Application Clusters Administration and Deployment Guide 1 lg Release 1 (11.1): Электронный ресурс. URL:http://download.oracle.eom/docs/cd/B2835901/rac.l 11/ b28254/admcon.htm/ (дата обращения: 26.11.2010).

82. Григорьев Ю.А., Плутенко А.Д. Теоретические основы анализа процессов доступа к распределённым базам данных. Новосибирск: Наука, 2002. 180 с.

83. Жожикашвили В.А, Вишневский В.М. Сети массового обслуживания. Теория и применение к сетям ЭВМ. М.: Радио и связь, 1988. 192 с.

84. Клейнрок JI. Теория массового обслуживания. М.: Машиностроение, 1979. 432 с.

85. Бронштейн О.И., Духовный И.М. Модели приоритетного обслуживания в информационно-вычислительных системах. М.: Наука, 1976. 220 с.

86. Форум/Использование СУБД/Oracle/CPUSPEED на IntelXeon 5500 (Neha-lem): Электронный ресурс. URL: http://www.sql.ru (дата обращения: 02.12.2010).

87. Григорьев Ю.А., Плужников B.J1. Оценка времени соединения таблиц в параллельной системе баз данных // Информатика и системы управления. 2011. № 1. С. 3-16.

88. Лекции по курсу "Операционные системы и программное обеспечение на платформе zSeries" / В.А. Варфоломеев и др.: [Электронный ресурс]. URL: http://www.intuit.ru/department/os/ibmzos/ (дата обращения: 26.11.2010).

89. Лисянский К., Слободяников Д. СУБД Teradata® для ОС UNIX®: Электронный ресурс. URL: http://citforum.ru/database/kbd98/glava5.shtml (дата обращения: 14.03.2011).

90. Кузнецов С. Essential Modelling Options: Электронный ресурс. URL: http://citforum.ru/database/digest/digl612.shtml (дата обращения: 14.03.2011).

91. Миллер Р., Боксер Л. Последовательные и параллельные алгоритмы. Общий подход. М.: БИНОМ. Лаборатория знаний, 2006. 406 с.

92. Михайловский Н.Э. Архитектура информационной системы, оценка рисков и совокупная стоимость владения: Электронный ресурс. URL:http://www.cfin.ru/management/practice/supremum2002/l6.shtml (дата обращения: 23.10.2011)

93. Совокупная стоимость владения (ТСО): Электронный ресурс. URL: http://www.it-mpire.ru/index.php?page=51 (дата обращения: 23.10.2011)

94. Тарасенко П. Расчет и распределение затрат: Электронный ресурс. URL: http://www.eg-online.ru/article/52214/ (дата обращения: 23.10.2011)

95. Пустозеров Е. Сравнение совокупной стоимости владения для СУБД EnterpriseDB, Oracle, IBM DB2 и MSSQL: Электронный ресурс. URL: http://www.bureausolomatina.com/node/122 (дата обращения: 23.10.2011)

96. Feng W., Making a Case for Efficient Supercomputing. // ACM Queue. 2003. Oct. P. 1

97. Kemal A. Delic IT services = People + Tools + processes. // ACM Queue. 2003. Nov. P. 3-5

98. Barroso L. A. The Price of Performance // ACM Queue. 2005. Sept. P. 100

99. O'Donnell D. TCO // Journal Software Magazine. 1998 . Volume 18, Issue 11. P. 20-29

100. John P. Desmond Infrastructure: storage resource management software and SAN architecture seen lowering TCO // Journal Software Magazine. 2002 . Volume 22, Issue 2. P. 19-20

101. Smith J., Schuff D., Louis R. Managing your total IT cost of ownership

102. Communications of the ACM Internet abuse in the workplace and Game engines in scientific research.2002. Volume 45, Issue LP. 101-106

103. Corrigan K., Shah A., Patel C. Estimating environmental costs // Proceeding SustainIT'10 Proceedings of the First USENIX conference on Sustainable information technology. San Jose (CA), 2010. P. 1-1

104. Михайловский Н.Э. Архитектура информационной системы, оценка рисков и совокупная стоимость владения: Электронный ресурс. URL: http://www.cfm.rU/management/practice/supremum2002/l6.shtml (дата обращения: 23.10.2011).

105. Porter P. The politics of project TCO // Journal Software Magazine. 1998. Volume 18, Issue 11. P. 6-8

106. Вязилов E. Д. Информационные ресурсы о состоянии природной среды. М., 2001. 312 с.

107. Грацианский А. Н. Современное состояние экологических проблем и особенности информационного обеспечения их решения // Итоги науки и техники. Охрана природы и воспроизводство природных ресурсов. 1989. Т. 25. С. 3-32.

108. Лаврик О. Л. Информационный поток по экологии: проблемы доступа и использования для информационного обеспечения научных исследований // Науч. и техн. б-ки. 2006. № 3. С. 51-57.

109. Михайлов А. И. Системы информационного обеспечения в области охраны окружающей среды // Науч.-техн. информ. Сер. 1 : Орг. и методика информ. работы. 1980. № 1. С. 1-4.

110. Шевченко, Л. Б. Разработка модели проблемно-ориентированного сайта для информационного обеспечения экологических и природоохранных исследований // Библиосфера. 2005. № 2. С. 85-94.

111. Апарин Б.В., Зубрицкая E.H. Условно-постоянные характеристики в системе первичной обработки метеорологической инфрмации на ПЭВМ.

112. Попова В.Н., Сомова С.М. Автоматизированная система архивации судовых метеорологических наблюдений, поступающих в журналах КГМ-15.

113. Апасова Е.Г., Пуголовкин В.В., Шакирзянов И.З. Некоторые вопросы подготовки рядов метеорологических наблюдений на базе архивов ЕГФД.

114. Шаймарданов М.З., Веселов В.М., Шаймарданов В.М. Концепция модернизации Архивной системы Мирового Метеорологического Центра.

115. Шакирзянов И.З., Лавров В.А., Амельченко Е.В. Расчет стоимости услуг при обслуживании пользователей гидрометеорологическими данными.

116. Информационные технологии государственного фонда данных о состоянии окружающей природной среды. Электронный ресурс. URL: http://www.meteo.ru/publishtr/trudy 166/trudy 166.htm (дата обращения: 25.10.2011)

117. Штоян Д. Качественные свойства и оценки стохастических моделей. М.: Мир, 1979. 268 с.

118. Григорьев Ю.А., Плужников B.JI. Модель обработки запросов в параллельной системе баз данных // Вестник МГТУ им. Н.Э. Баумана. Приборостроение. 2010. № 4. С. 78-90.

119. Григорьев Ю.А., Плужников B.J1. Анализ времени обработки запросов к хранилищу данных в параллельной системе баз данных // Информатика и системы управления. 2011. № 2. С. 94-106.

120. Плужников В .Л. Оценка времени выполнения запроса в параллельной системе баз данных // Наука и образование. Электрон, журн. 2011. №6. Электронный ресурс. URL: http://technomag.edu.ru/doc/188065. html (дата обращения: 25.10.2011).

121. Плужников В. Л. Метод выбора архитектуры параллельной системы баз данных // Проблемы построения и эксплуатации систем обработки информации и управления: Сб. статей / Под ред. В.М. Чёрненького. 2011. Вып. 9. С. 76-83.

122. Гринвальд Р., Стаковьяк Р., Стерн Дж. Oracle 11g. Основы. СПб.: Символ-Плюс, 2009. 464 с.