Разработка математических моделей хранения и обработки данных большой размерности с высокой степенью достоверности

Алексеев, Александр Иванович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка математических моделей хранения и обработки данных большой размерности с высокой степенью достоверности

кандидата технических наук: Алексеев, Александр Иванович
город: Ставрополь
год: 2009
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка математических моделей хранения и обработки данных большой размерности с высокой степенью достоверности»

Автореферат диссертации по теме "Разработка математических моделей хранения и обработки данных большой размерности с высокой степенью достоверности"

На правах рукописи

003473629

Алексеев Александр Иванович

РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ХРАНЕНИЯ И ОБРАБОТКИ ДАННЫХ БОЛЬШОЙ РАЗМЕРНОСТИ С ВЫСОКОЙ СТЕПЕНЬЮ ДОСТОВЕРНОСТИ

Специальность 05.13.18 — Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Ставрополь - 2009

1 8 МОИ 2009

003473629

Работа выполнена в Северо-Кавказском государственном техническом университете на кафедре «Информационные системы и технологии»

Научный руководитель: кандидат физико-математических наук, доцент

Мезенцева Оксана Станиславовна

Официальные оппоненты1. доктор технических наук, профессор

Червяков Николай Иванович доктор технических наук, доцент Ирхин Валерий Петрович

Ведущая организация: Санкт-Петербургский государственный

электротехнический университет «ЛЭТИ», г. Санкт-Петербург

Защита состоится 1 июля 2009 года в 12 часов на заседании диссертационного совета Д 212.245.09 по присуждению ученой степени кандидата технических наук при Северо-Кавказском государственном техническом университете по адресу: 355028, г. Ставрополь, пр. Кулакова, 2, ауд. 305.

С диссертацией можно ознакомиться в библиотеке СевКавГТУ по адресу: 355028, г. Ставрополь, пр. Кулакова, 2; с авторефератом - на сайте www.ncstu.ru.

Автореферат разослан 29 мая 2009 года.

Ученый секретарь диссертационного совета кандидат физико-математических наук.

доцент

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Задачи факторизации, тестирования и определения простоты чиссл специального вида, системы спутниковой навигации, и многие другие ресурсоемкие задачи требуют обработки больших объемов информации в широком диапазоне с высокой достоверностью и точностью вычислений. Как правило, подобные задачи сводятся к вычислительным проблемам, оперирующим целочисленными переменными, значения которых на несколько порядков превышают максимум машинного диапазона.

Для решения многих прикладных и теоретических проблем необходимо проведение вычислений уже в сверхбольших диапазонах, которые, с одной стороны, являются обобщением больших диапазонов, но в то же время принципиально отличаются от последних. Так как вычислеиия в них должны проводиться над потенциально бесконечными математическими объектами, их явные числовые записи невозможно или нецелесообразно хранить в памяти по причине принципиальной недостаточности вычислительных ресурсов, в результате чего в один момент времени возможны хранение и обработка лишь одного элемента представления. При таком подходе к распределенному хранению и обработке данных высокой размерности неизбежно повышается вероятность потери части представления числа. Выход из строя даже незначительного количества узлов вкупе с высокой трудоемкостью алгоритмов обработки чисел из большого и сверхбольшого диапазонов может привести к серьезным и сложно решаемым проблемам восстановления.

Параллельные вычислительные структуры являются идеальной основой для построения устойчивых к отказам вычислительных средств. Ключевую роль в процессе функционирования таких вычислительных устройств играет способность сохранения работоспособного состояния за счет снижения в допустимых пределах каких-либо показателей качества при возникновении сбоев и отказов в системе. Достоинство данного подхода к выполнению процедур обеспечения отказоустойчивости реализуется в полной мере при перераспределении исходных данных между сохранившимися вычислительными ресурсами при деградации системы. Однако, существующие

методы обеспечения достоверности передачи и обработки данных высокой размерности не лишены недостатков, среди которых можно отметить излишнюю избыточность, повышенные требования к среде передачи, низкую эффективность средств локализации и устранения сбоев, особенно в случае пакетирования ошибок.

В то же время, на фоне развития сетевых технологий и увеличения объемов обрабатываемых данных, все большее значение приобретает разработка технологий высоконадежного хранения данных и удаленного высокоскоростного доступа к ним, средств и методов управления нагрузкой серверов и каналов связи. Размеры многих локальных сетей достигают значений, при которых подобные сети по техническим и топологическим характеристикам мало отличаются от глобальных. Проблемы хранения информации и обеспечения доступа к ней в глобальных и локальных сетях и вычислительных системах приобретают одинаковый характер и требуют единого подхода к их решению.

В связи с вышеизложенным, проводимое в работе комплексное исследование научной и технической задачи повышения достоверности и быстродействия систем распределенного хранения и обработки данных высокой разрядности с применением технологии математического моделирования и вычислительного эксперимента, является важным и актуальным.

Цепью диссертационного исследования является повышение отказоустойчивости вычислительных структур хранения и обработки данных большой размерности.

Объектом диссертационного исследования являются распределенные системы хранения и обработки данных высокой разрядности.

Предметом диссертационных исследований являются математические модели хранения и обработки больших массивов данных большой размерности.

Научная задача исследований заключается в разработке математических моделей хранения и параллельных вычислительных структур для обработки больших массивов данных с высокой степенью достоверности. В решении поставленной общей научной задачи можно выделить следующие частные задачи:

1. Разработка математических моделей распределенного хранения и обработки данных высокой размерности на основе пороговых схем и модулярной арифметики.

2. Разработка алгоритмов и программных реализаций модели хранения данных высокой размерности.

3. Разработка высокопроизводительных алгоритмов обработки данных в большом диапазоне с высокой степенью достоверности.

4. Комплексное исследование задачи повышения отказоустойчивости вычислительных структур распределенного хранения и обработки данных высокой разрядности с применением технологии математического моделирования и вычислительного эксперимента.

Методы исследования. Для решения поставленных в диссертационной работе задач использованы методы математического моделирования, теории чисел, абстрактной и линейной алгебры, теории параллельных вычислений, криптографии, комбинаторики, теории кодирования, теории функций случайных аргументов.

Достоверность и обоснованность полученных в диссертационной работе результатов и формулируемых на их основе выводов обеспечивается строгостью выполненных математических выкладок, базирующихся на аппарате теории чисел, абстрактной и линейной алгебры, криптографии. Справедливость выводов по эффективности разработанных математических моделей и вычислительных структур подтверждена результатами компьютерного моделирования, а также результатами тестирования программных реализаций разработанных алгоритмов.

Научная новизна диссертационной работы заключается в следующем:

1. Разработаны математические модели хранения и обработки данных большой разрядности, отличающиеся от известных тем, что для их построения впервые используются совместно математический аппарат пороговых схем и модулярной арифметики, позволяющие распределить информацию о хранимых больших числах по узлам распределенной вычислительной системы, обеспечить сборку данных с высокой степенью достоверности за счет введения регулируемой избыточности.

2. Разработан модифицированный алгоритм «разборки» числовой последовательности высокой размерности, отличающийся от известных тем, что для повышения скорости вычислений при малых значениях к и характеристике

о

конечного поля, не превосходящей 2-10 , используется метод вычисления обратной матрицы, основанный на рекурсивной блочной схеме умножения матриц в формате кватернарного дерева, а для значений к> 64 применяется алгоритм Штрассена, сокращающий трудоемкость до 0(п'"1:27) против 0(п3) для традиционного метода.

3. Разработан модифицированный алгоритм «сборки» числовой последовательности высокой размерности, отличающийся от известных тем, что сборка производится в модулярном коде, позволяющем распараллелить вычислительный процесс по модулям системы остаточных классов, что повышает отказоустойчивость и быстродействие системы. Оценка производительности алгоритма показала повышение показателя ускорения в среднем на 14-32% (в зависимости от разрядности используемых типов данных) по сравнению с аналогичными показателями для традиционно используемого алгоритма.

4. Разработан программный комплекс распределенного хранения и обработки данных, базирующийся на пороговых схемах и модулярных кодах, обеспечивающий, как следствие, высокую степень достоверности и отказоустойчивости, в частности, введение дополнительной единицы избыточности повышает вероятность безотказной работы системы за расчетный период в среднем на 20%.

5. Библиотека функций для реализации операций с данными большой размерности разработана впервые на аппаратной базе нейропроцессора ЫМ6403 и обеспечивает возможность исследования методом вычислительного эксперимента на базе векторно-матричных процессоров функций отказоустойчивости систем хранения данных большой размерности и достоверности их обработки. Анализ производительности функций обработки больших чисел (на примере функции вычисления произведения) показал повышение быстродействия в среднем на 47% для чисел до 10240 десятичных разрядов, и на 16% для чисел большей размерности.

Теоретическая значимость исследования состоит в разработке математических моделей хранения и обработки данных большой разрядности с высокой степенью достоверности.

Практическая значимость исследования. Реализация разработанных моделей в распределенных вычислительных системах существенным образом повышает достоверность хранения и обработки данных высокой размерности, поэтому полученные результаты могут быть использованы при решении задач факторизации, тестирования и определения простоты чисел специального вида, разработки систем спутниковой навигации, других ресурсоемких задач, требующих обработки больших объемов информации в широком диапазоне с высокой достоверностью и скоростью вычислений.

Основные положения, выносимые на защиту:

1. Математическая модель распределенного хранения данных большой разрядности с высокой степенью достоверности, базирующаяся на аппарате пороговых схем и модулярной арифметики.

2. Модифицированный параллельный алгоритм разборки числовой последовательности высокой размерности.

3. Математическая модель распределенной обработки данных большой разрядности с высокой степенью достоверности, базирующаяся на аппарате пороговых схем и модулярной арифметики.

4. Модифицированный параллельный алгоритм сборки числовой последовательности высокой размерности.

5. Программный комплекс распределенного хранения и обработки данных в большом диапазоне.

6. Параллельные алгоритмы действий с данными большой разрядности и библиотека функций их реализации на аппаратной базе нейропроцессора NM6403.

Апроба11ия работы. Основные положения диссертационной работы докладывались и обсуждались на VIII Всероссийском симпозиуме но прикладной и промышленной математике (Сочи-Адлер, 2007), Applied Mathematics, Statistics and Informatics (Trnava, 2007), международной научной конференции «Наука и технологии: актуальные проблемы 2007» (Ставрополь, 2007), международной научно-технической конференции

«Инфокоммуникационные технологии в науке, производстве и образовании» (Ставрополь, 2008), международной научной конференции «Актуальные проблемы и инновации в экономике, управлении, образовании, информационных технологиях 2009» (Ставрополь-Кисловодск, 2009).

Публикации. По содержанию и результатам диссертационной работы опубликовано 12 работ, в том числе 2 статьи в периодических научных изданиях, рекомендованных ВАК РФ, 1 статья в тематическом журнале, 6 материалов в сборниках по итогам проведения международных и всероссийских конференций, 2 работы, депонированные в ВИНИТИ, 1 свидетельство о государственной регистрации программы для ЭВМ.

Реализация и внедрение. Результаты диссертационной работы получены при выполнении НИР по теме «Разработка алгоритмических и программных решений совершенствования информационных технологий» (номер государственной регистрации 0120.0851960) в рамках программы «Участник молодежного научно-инновационного конкурса» («У.М.Н.И.К.») (государственный контракт №6019р/8509 от 16.06.2008). Полученные в диссертационной работе результаты использованы в ООО НПФ «Нейрон» (г. Ставрополь, акт о внедрении от 2 марта 2009 г.), ВГУП НИИ программных средств (г. Санкт-Петербург, акт о внедрении от 15 апреля 2009 г.), ЗАО НТЦ «Модуль» (г. Москва, акт о внедрении от 9 апреля 2009 г.).

Структура и объем диссертации. Работа состоит из введения, трех разделов, списка используемых источников, содержащего 200 наименований, заключения и приложений. Основная часть работы содержит 119 листов машинописного текста.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи работы, показаны направления исследований, научная новизна, практическая ценность полученных результатов, приведены основные положения, выносимые на защиту.

В первой главе на основе анализа российских и зарубежных литературных источников исследованы перспективные технологии построения хранилищ данных и модели распределенной обработки данных высокой размерности.

Проведенный анализ позволил сделать вывод об отсутствии единого подхода к проектированию систем распределенного хранения и обработки данных. Большинство традиционных решений ориентировано на конкретный и зачастую довольно узкий спектр задач и характеризуется низкой масштабируемостью и рядом других существенных ограничений. Лишенные многих из этих недостатков системы с масштабируемой избыточностью также не имеют широкого распространения по причине сложности эксплуатации и недостаточной надежности. Показано, что успешное развитие сетевой инфраструктуры, средств и методов сетевого взаимодействия, повышение производительности вычислительных систем в целом непосредственно связано с разработкой математических моделей достоверного распределенного хранения и обработки данных большой размерности, высоко скоростных методов доступа к ним, а также алгоритмов их реализации.

Показаны возможности итерационного вычисления большой величины С путем сведения соотношения:

где А, В, /(В) - большие числовые величины;

— сверхбольшая числовая величина; к форме сравнения по модулю Р>С: С(тойР) = {Агт{тойР) -[А/(3) /Д](то<1 Р) ■ В{гло6.Р))(тоАР), (2) где Р - диапазон модулярной арифметики С(тос1 Р). Обосновано, что система остаточных классов (СОК), благодаря внутреннему параллелизму, модульности, возможности арифметической коррекции ошибок, является наиболее подходящей базой для реализации высокоскоростных алгоритмов достоверной обработки данных большой размерности в распределенных компьютерных системах.

Во второй главе разрабатываются математические модели распределенного хранения и обработки данных большой размерности,

(1)

базирующиеся на аппарате пороговых схем и обладающие высокой степенью достоверности и отказоустойчивости.

Известный метод разбиения и сборки данных, основанный на аппарате пороговых схем состоит из следующей последовательности шагов:

1. Построение СР(А'). Существует два основных метода построения конечных полей. Выбор того или иного варианта основывается на требуемом числе элементов поля. Для поля, содержащего р элементов, где р - простое, кольцо вычетов 2п (и = /;) является полем, и элементы 2р есть 0,1,...,р — 1. Для более реального в рассматриваемой ситуации случая вР(д), ц = р", где р -простое: К =Рр[л:]/{/(л")) является полем тогда и только тогда, когда /(х) есть многочлен, неприводимый над полем Ер, = рт ,т = .

2. Представление исходных данных в виде элементов Ы). Рассматривая ¿-мерное пространство векторов Ь над ОР(Щ, исходная последовательность данных может быть представлена в виде последовательности векторов из Ь: (1 = (/,,/2,...,/т)•

3. Построение набора векторов Е. Необходимо построить набор векторов Е из Ь, состоящий из п векторов так, что любые к из Е есть базис в I:

__п

1 <У</5л |Ы

(определитель Вандермонда).

4. Формирование матрицы АкЛ и нахождение обратной ей Л~1;

VвJ е £: (/,,^) - (4)

где е, - вектора построенного набора Е,

1, - элементы исходной последовательности данных. По условию формирования Е построенная матрица имеет обратную А''.

1 1 ... 1

Р\ Рг - Р.

и-1 п-1

Р\ Рг - Рп

5. Сборка последовательности. Выражение для сборки исходной последовательности имеет вид:

Д = (5)

где /, = /Г'.У(,

- столбец А, содержащий /-ыс компоненты всех мастей.

Для построения математической модели хранения данных большой размерности используется аппарат системы остаточных классов, позволяющий распараллелить реализацию арифметических операций, что обеспечивает более высокие скорости выполнения операций, чем при использовании позиционных систем счисления и существенно повышает надежность вычислений, благодаря высокой способности к арифметической самокоррекции.

После нахождения обратной матрицы предлагается выполнить перевод коэффициентов матрицы А'1 в коды системы остаточных классов. Таким образом, математическая модель хранения данных большой разрядности примет вид:

„ v1

л"' -Лсок ~

(б)

Н к2 — Ькк )

где с. - модулярные представления элементов векторов е1 е Е, соответствующих скалярным произведениям Е1 — (2^,е ).

Обобщенный алгоритм, реализующий разработанную модель хранения числовой последовательности высокой разрядности, представлен на рисунке I.

Одним из наиболее трудоемких шагов стадии разборки числовой последовательности высокой разрядности является нахождение матрицы, обратной А. При малых значениях к предлагается использовать алгоритм вычисления обратной матрицы, основанный на рекурсивной блочной схеме умножения матриц в ОТ-формате. Указанная схема особенно эффективна в случае, когда коэффициенты матрицы являются элементами конечного поля, характеристика которого не превосходит 2-108.

Построение

Построение К-мерного просрЖ'ОТМ векторов

__ЕиядС^ЛЦ_

РоЛлемие исходной послвдоватепи'ости на гьОитныв части ..

ПоС1рое>1ио киОДа векгороо Е

Ър.ревВ(Ы),р*0-. {р'.р'.....р')

1 р, ... рГ1

1 р2 ... РГ1

|1 р„ ■•• рг

Формирование «•охримы А (к к к)

Разбиение ко б лежи

[А С\ В о

П -л-м а о ^

[о / ; 1>0 (О-ВА 'су1)

('. "Но 3

Разбиение на блоки

Л\ Аз1 Г^И

^ = Аа . х ^,

РЭ = Р1ХЛ2- А*^ 3 = =

X1

Перевод коэЭДнуивнтов матрицы о коды сиетймь! ктё'С'ных илассой

Л - (-((<У> + «м)Р + <•„., )Р + - + а, )р + о, в е Д цю<! р1 = а1 той р; (а^р + = Д то(1

Рисунок 1 - Обобщенный алгоритм, реализующий модель хранения числовой последовательности высокой разрядности

Для значений к > 1286 повышение производительности может быть достигнуто применением алгоритма Штрассена для нахождения обратной матрицы. Трудоемкость алгоритма умножения Штрассена, на котором базируется одноименный метод отыскания обратной матрицы, составляет 0(п1о*г7) против О (г?) для традиционного метода. Используя модификации метода Штрассена для параллельных вычислений (алгоритм Штрассена-Ныотона), можно добиться существенного снижения порога значении А*, при котором становится целесообразным применение этого алгоритма (до к>64).

В зависимости от размерности матрицы, обращение производится одним из двух способов:

1. Для к <64: четыре квадратных блока, полученные в процессе разбиения исходной матрицы подвергаются повторному разбиению до тех пор, пока порядок блока не достигнет единицы. Результирующая структура является кватернарным деревом.

А =

А С

В О

-А~'С^

ОУ А-'

О

(7)

О /

,0 (О-ва-'СГ'Д-Я 1]{ 0

2. Для к >64: используется параллельная модификация алгоритма Штрассена для обращения матриц:

Р2 = А1ХХР,, рг = АП, РА = АПХР„ Р5 = Р<-А12, Р6 = Р;\

£-|2 = Х > £-21 = Х ¿2 > ^11 = ~ ^Ъ Х £-21 ' £-22 = '

(8)

ч Аг -1 "Си с 12

А А22_ с ."-21 ^22 _

В качестве метода преобразования позиционных кодов в коды СОК используется модифицированный метод Горнера, или метод последовательного умножения и суммирования по модулю, основанный на представлении числа А, записанного в позиционной системе счисления с основанием р :

к

А = акрк +акАрк'1 + ...+ +а0р", или А = ^а.р', V/: 0 < а, < /> -1, (9)

в виде

А = (...((акр +• ак_,)р + ак_2)р + ... + а,)р + аа ~ А, то Ар, - а] тос] р], (Ю) где (акр + аы)р = Ак то(1р..

Операция сборки базового метода (5) состоит из к2 операций умножения и сложения в поле Галуа, что в свою очередь представляет собой А-2 операций обычного сложения и обычного умножения и иг операции вычисления остатка от деления. Учитывая, что число тактов на выполнение операции вычисления остатка от деления для современных 8180-процессоров превышает число тактов на выполнение операции умножения в среднем в четыре раза, обосновано, что значительное увеличение общей трудоемкости алгоритма связано именно с этим участком вычислений. Использование математического аппарата системы остаточных классов позволяет существенно повысить быстродействие рассматриваемого участка.

Построенная математическая модель обработки числовой последовательности высокой разрядности имеет вид:

-1

Чь*1 ькг ■■■

А = и '«• А = и I,' ° = Ф*. © АII '--К ® Р1)'

(П)

(12)

А = рм

¿к, - ах 11'

+ ам >

ГЬ

где - столбец Л, содержащий ¡'-ые компоненты всех частей, О, = («,,...,«„), 02 — (Д ,...,/?„) - собранные операнды, р,,-.,р„ - система оснований СОК, © - модульная операция,

8 =

(Пй-Ам) м

Пй

(13)

(р{х) - функция Эйлера, Обобщенный алгоритм, реализующий разработанную модель обработки числовой последовательности высокой разрядности, представлен на рисунке 2.

Рисунок 2 - Обобщенный алгоритм, реализующий разработанную модель обработки числовой последовательности высокой разрядности

Помимо упомянутых свойств распределенных вычислительных систем, основанных на аппарате пороговых схем, одной из отличительных особенностей такого подхода является то, что хранимые данные могут собираться не полностью, а лишь в том объеме, который необходим на данный момент, причем сборка каждой части может производиться независимо от других.

В процессе сборки над частями могут производиться арифметические операции, что позволяет сократить количество необходимых переводов в позиционную систему счисления и выполнять трудоемкую операцию преобразования кода из системы остаточных классов в позиционный код только на финальной стадии вычислений. Для такого преобразования применяется метод, использующий функции Эйлера, основанный на представлении числа А в виде:

Л = р,/,+а„ (14)

где /, показывает, сколько раз р1 укладывается в числе А, и выражении:

4 = /V

*К| - 4чГ<

Пл

(15)

Па

где 8, ~

(П л-д+.) -

Па

(р{х) - функция Эйлера.

В третьей главе исследованы факторы, влияющие на производительность векторной обработки данных большой размерности, выполнена программная реализация разработанных алгоритмов, повышающих производительность и достоверность систем хранения и обработки данных высокой размерности на аппаратной базе векторных процессоров. Произведены обоснование и выбор основных технологий, используемых для программной реализации разработанных алгоритмов.

На основе выбранной технологической базы был создан прототип программного комплекса, проведен анализ производительности различных участков кода в условиях меняющейся нагрузки на систему, сделаны выводы о

необходимых, изменениях п окончательной структуре кода, направленных на повышение быстродействия системы и реализации возможности использования в качестве системы реального времени. Было осуществлено кодирование отдельных частей комплекса, разработка и реализация интерфейса связи между ними.

Показано, что разработанные алгоритмы могут быть реализованы на любой аппаратной платформе, поддерживающей параллелизм операций, однако, наиболее эффективное отображение алгоритмических решений на аппаратную базу может быть получено при использовании разработки НТЦ «Модуль» - процессора Л1879ВМ1 (ЫМ6403), являющегося одной из наиболее высокопроизводительных моделей, реализующих 81МО-архитсктуру. Процессор NN16403 работает с машинными командами 32-х и 64-х разрядного формата и в этом смысле представляет собой суперскалярный микропроцессор со статической УЫ\У-архитектурой. Одной из важнейших особенностей процессора NN46403 является возможность работы с операндами произвольной длины в диапазоне 1-64 бит. Эта характеристика процессора особенно важна при рассмотрении ее в свете специфики используемого математического аппарата: оба уровня обеспечения параллелизма разработанного комплекса -вычисления в остаточных классах и механизм пороговых схем - позволяют динамически управлять нагрузкой узлов.

Конфигурация векторного сопроцессора зависит от решаемой задачи и может изменяться динамически, в ходе выполнения программы. Для разработанной программы используется конфигурация, основанная на 8-битных операндах.

С целью уменьшения вклада операции загрузки в общую производительность вычислений, процессор ИМ6403 предусматривает использование теневой матрицы. Перекодировка весовых коэффициентов в специальный вид, используемый теневой матрицей, занимает 32 такта, однако, выполнение этой операции может выполняться в фоновом режиме, параллельно с другими инструкциями, причем смена рабочей и теневой матриц происходит за один такт.

На рисунке 3 приведены схемы функций сложения и умножения больших чисел из разработанной библиотеки. На рисунке 4 представлена схема функции

локализации и исправления ошибок. Аппаратно-логическая схема разработанной библиотеки приведена на рисунке 5. Код функций ориентирован па процессор N№16403, однако, благодаря совместимости коммуникационных портов процессоров ЫМ6403 и серии ТМ8320С4х, библиотека допускает расширение средствами других вычислительных устройств.

с:

1 |

1 V ■Л |

1 « 1

| с = 0 I

а)

б)

Рисунок 3 - Алгоритмы вычисления суммы (а) и произведения чисел (б) из большого диапазона

Определение разряда

Определение весов ортогональны* базисов 01,

Опред«ленно ортогональных базисов В(

>

р.™, в<

А",.....а,)

Рисунок 4 - Схема функции локализации и устранения ошибок

Рисунок 5 - Аппарагно-логическая схема библиотеки базовых арифметических функций для проведения вычислений в большом диапазоне

Показано, что использование принципов векторной обработки и соответствующей аппаратной базы позволяет повысить производительность разработанных алгоритмов до уровня применимости в системах реального времени.

Проведенный анализ отказоустойчивое™, опирающийся на метод расчета надежности параллельных структур на основе аппарата функций случайных аргументов с использованием ОИ-распределения, показал, что введение дополнительной единицы избыточности повышает вероятность безотказной работы системы за расчетный период в среднем па 20%. Таким образом, дополнительная избыточность хранимой информации оправдывается повышенной безотказностью системы и представляется целесообразной.

На основе анализа производительности наиболее трудоемкой части общего алгоритма (вычисление ) для вычислительной системы из 32 узлов были получены следующие значения показателя ускорения: 19,63 для 16-разрядных операндов, 9,91 для 32-разрядных операндов, что превосходит аналогичные показатели для традиционно используемых алгоритмов в среднем на 32% и 14% соответственно. Анализ производительности функций обработки больших чисел (на примере функции вычисления произведения) показал повышение быстродействия в среднем на 47% для чисел до 10240 десятичных разрядов, и на 16% для чисел большей размерности.

В приложениях представлены результаты работы комплекса, фрагменты исходного текста программы.

ЗАКЛЮЧЕНИЕ

Основные результаты, полученные в диссертационной работе, можно сформулировать следующим образом:

1. Показано, что успешное развитие сетевой инфраструктуры, средств и методов сетевого взаимодействия, повышения производительности вычислительных систем в целом непосредственно связано с разработкой математических моделей достоверного распределенного хранения и обработки данных большой размерности, высокоскоростных алгоритмов доступа к ним.

2. Исследованы методы повышения быстродействия и достоверности систем распределенного хранения данных, основанных на аппарате пороговых

схем. Сформулированы ключевые преимущества и недостатки пороговых схем как моделей распределенного хранения данных.

3. Проведен анализ факторов, влияющих на производительность распределенных систем обработки данных. Показано, что при обработке больших объемов данных высокой размерности велика вероятность частичной потери передаваемой информации. Обосновано введение регулируемой избыточности системы храпения, позволяющей осуществлять эффективное восстановление данных в случае выхода из строя одного и более узлов.

4. Разработаны пути повышения быстродействия и достоверности вычислений. Для повышения скорости вычислений при малых значениях к и характеристике конечного поля, не превосходящей 2108, используется метод вычисления обратной матрицы, основанный на рекурсивной блочной схеме умножения матриц в формате кватернарного дерева, а для значений к > 64 применяется алгоритм Штрассена, сокращающий трудоемкость до 0(п'"127) против О(п) для традиционного метода.

5. Обосновано, что система остаточных классов, благодаря внугреннему параллелизму, модульности, возможности арифметической коррекции ошибок, является наиболее подходящей основой для реализации высокоскоростных алгоритмов достоверной обработки данных большой размерности в распределенных компьютерных системах.

6. Разработаны математические модели распределенного хранения и обработки дачных большой размерности, базирующиеся на аппарате пороговых схем и обеспечивающие высокую степень достоверности. Для построения математических моделей используется аппарат модулярной арифметики, что позволяет добиться существенного повышения коэффициента ускорения и отказоустойчивости предложенных алгоритмов, открывает перспективы их использования в системах реального времени.

7. Предложены алгоритмы сборки и разборки числовой последовательности высокой размерности. На основе анализа производительности наиболее трудоемкой части алгоритма сборки для вычислительной системы из 32 узлов были получены следующие значения показателя ускорения: 19,63 для 16-разрядных операндов, 9,91 для 32-разрядных операндов, что превосходит аналогичные показатели для

традиционно используемых алгоритмов в среднем на 32% и 14% соответственно.

8. Разработан программный комплекс распределенного хранения и обработки данных, базирующийся на пороговых схемах и модулярных кодах, обеспечивающий высокую степень достоверности и отказоустойчивости.

9. По результатам общего расчета отказоустойчивости сделай вывод, что введение дополнительной единицы избыточности повышает вероятность безотказной работы системы за расчетный период в среднем на 20%.

10. Исследованы факторы, влияющие на производительность векторной обработки данных большой и большой размерности. Проведено компьютерное моделирование разработанных алгоритмов повышения производительности и достоверности систем хранения и обработки данных высокой размерности на аппаратной базе векторных процессоров.

1 ¡.Разработана библиотека функций для реализации действий с данными большой и большой размерности па аппаратной базе нейропроцессора ИМ6403. Анализ производительности функций обработки больших чисел (на примере функции вычисления произведения) показал повышение быстродействия в среднем на 47% для чисел до 10240 десятичных разрядов, и на 16% для чисел большей размерности.

СПИСОК ОСНОВНЫХ РАБОТ ПО ТЕМЕ ДИССЕРАЦИИ

Статьи в периодических научных изданиях, рекомендованных ВАК РФ:

1. Алексеев, А. И. О реализации пороговых схем на базе системы остаточных классов [Текст] / А. И. Алексеев, О. С. Мезенцева // Обозрение прикладной и промышленной математики, том 15, выпуск 2-2008.

2. Мезенцева, О. С. Применение аппарата пороговых схем и модулярной арифметики для повышения производительности распределенных вычислительных систем [Текст] / О. С. Мезенцева, А. И. Алексеев // Научно-технические ведомости СПбГПУ №5 - 2008.

Статья в тематическом сборнике:

1. Мезенцева, О. С. О возможностях реализации модулярной арифметики на процессоре Л1879ВМ1 (№Л6403) [Текст] / О. С. Мезенцева, А, И. Алексеев //

Вестник Северо-Кавказского государственного технического университета №2 (11)2007.

Статьи в сборниках по итогам проведения международных научных конференций:

1. Mezentseva, О. Regarding the (N, k)-threshold schemes realization based on modular arithmetic algorithms [Текст] / О. Mezentseva, A. Alekscev // Journal of the Applied Mathematics, Statistics and Informatics (JAMSI), 3 (2007), No. 1.

2. Алексеев, А. И. Методы повышения быстродействия систем, функционирующих на основе пороговых схем [Текст] / А. И. Алексеев // Материалы международной научно-технической конференции «Инфокоммуникациоиные технологии в науке, производстве и образовании». Ставрополь, 2008.

3. Мезенцева, О. С. Применение системы остаточных классов для вычислений в сверхбольших диапазонах и обработки больших объемов информации в распределенных системах [Текст] / О. С. Мезенцева, А. И. Алексеев // Материалы III международной научной студенческой конференции «Научный потенциал студенчества в XXI веке». Ставрополь, 2009.

4. Алексеев, А. И. Оценка отказоустойчивости распределенных систем хранения и обработки данных, функционирующих на основе аппарата пороговых схем [Текст] / А. И. Алексеев, О. С. Мезенцева II Материалы международной научной конференции «Актуальные проблемы и инновации в экономике, управлении, образовании, информационных технологиях 2009», Ставрополь, 2009.

5. Алексеев, А. И. Применение векторной обработки данных для вычислений в сверхбольших диапазонах [Текст] / А. И. Алексеев, О. С. Мезенцева // Материалы международной научной конференции «Актуальные проблемы и инновации в экономике, управлении, образовании, информационных технологиях 2009», Ставрополь, 2009.

6. Мезенцева, О. С. О возможностях реализации модулярной арифметики на процессоре JI1879BM1 (NM6403) [Текст] / О. С. Мезенцева, А. И. Алексеев // Материалы международной научной конференции «Наука и технологии: актуальные проблемы 2007». Ставрополь 2007.

Работы, депонированные в ВИНИТИ:

1, Разработка математических моделей распределенного хранения и обработки данных [Текст] / Алексеев А. И.; Северо-Кавказский государственный технический университет. - Ставрополь, 2009. - 25 с. -Библиогр.: 8 назв. - Рус. Деп. в ВИНИТИ 250309, №160-В2009.

2. Вычисления в сверхбольших диапазонах и обработка больших объемов информации в распределенных системах [Текст] / Алексеев А. И.; Северо-Кавказский государственный технический университет. - Ставрополь, 2009. - 26 с. - Библиогр.: 10 назв. - Рус. Деп. в ВИНИТИ 250309, №161-В2009.

Свидетельство о государственной регистрации программы для ЭВМ:

1. Мезенцева О. С., Алексеев А. И. «Система распределенного хранения и обработки данных, базирующаяся на пороговых схемах и модулярных кодах», свидетельство о государственной регистрации программы для ЭВМ №2009610891 от 9 февраля 2009 г.

Печатается в авторской редакции

Подписано в печать 27.05.2009 Формат60x84 1/16 Усл. печ. л,- 1,5 Уч.-изд. л.- 1,0 Бумага офсетная. Печать офсетная. Заказ №254 Тираж 100 экз. ГОУ ВПО «Северо-Кавказский государственный технический университет» 355028, г. Ставрополь, пр. Кулакова, 2

Издательство Северо-Кавказского государственного технического университета Отпечатано в типографии СевКавГТУ

Оглавление автор диссертации — кандидата технических наук Алексеев, Александр Иванович

ВВЕДЕНИЕ.

1 АНАЛИТИЧЕСКИЙ ОБЗОР. МАТЕМАТИЧЕСКИЕ МОДЕЛИ

ХРАНЕНИЯ И ОБРАБОТКИ БОЛЬШИХ ОБЪЕМОВ

ИНФОРМАЦИИ.

1.1 Анализ моделей вычислений в больших диапазонах.

1.2 Анализ моделей хранения и доступа к данным.

1.3 Анализ моделей распределенной обработки данных.

1.4 Обоснование целесообразности применения системы остаточных классов для вычислений в больших диапазонах и обработки больших объемов информации в распределенных системах.

1.5 Постановка задач исследования.

Выводы по главе 1.

2 РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ

РАСПРЕДЕЛЕННОГО ХРАНЕНИЯ И ОБРАБОТКИ ДАННЫХ

2.1 Разработка принципов построения математических моделей 52 хранения и обработки высокоразрядных данных.

2.2 Разработка математической модели распределенного хранения данных большой размерности на основе модулярной арифметики и аппарата пороговых схем.

2.3 Разработка математической модели распределенной обработки данных большой размерности на основе модулярной арифметики и аппарата пороговых схем.

Выводы по главе 2.

3 РАЗРАБОТКА ПРОГРАММНОГО КОМПЛЕКСА

РАСПРЕДЕЛЕННОГО ХРАНЕНИЯ И ОБРАБОТКИ ДАННЫХ

ВЫСОКОЙ РАЗМЕРНОСТИ.

3.1 Разработка структуры программного комплекса распределенного хранения и обработки данных.

3.2 Применение векторной обработки данных для вычислений в больших диапазонах.

3.3 Оценка производительности и отказоустойчивости распределенных систем хранения и обработки данных, функционирующих на основе аппарата пороговых схем.

Выводы по главе 3.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Алексеев, Александр Иванович

Актуальность работы. Задачи факторизации, тестирования и определения простоты чисел специального вида, системы спутниковой навигации, и многие другие ресурсоемкие задачи требуют обработки больших объемов информации в широком диапазоне с высокой достоверностью и точностью вычислений. Как правило, подобные задачи сводятся к вычислительным проблемам, оперирующим целочисленными переменными, значения которых на несколько порядков превышают максимум машинного диапазона.

Для решения многих прикладных и теоретических проблем необходимо проведение вычислений уже в сверхбольших диапазонах, которые, с одной стороны, являются обобщением больших диапазонов, но в то же время принципиально отличаются от последних. Так как вычисления в них должны проводиться над потенциально бесконечными математическими объектами, их явные числовые записи невозможно или нецелесообразно хранить в памяти по причине принципиальной недостаточности вычислительных ресурсов, в результате чего в один момент времени возможны хранение и обработка лишь одного элемента представления. При таком подходе к распределенному хранению и обработке данных высокой размерности неизбежно повышается вероятность потери части представления числа. Выход из строя даже незначительного количества узлов вкупе с высокой трудоемкостью алгоритмов обработки чисел из большого и сверхбольшого диапазонов может привести к серьезным и сложно решаемым проблемам восстановления.

Параллельные вычислительные структуры являются идеальной основой для построения устойчивых к отказам вычислительных средств. Ключевую роль в процессе функционирования таких вычислительных устройств играет способность сохранения работоспособного состояния за счет снижения в допустимых пределах каких-либо показателей качества при возникновении сбоев и отказов в системе. Достоинство данного подхода к выполнению процедур обеспечения отказоустойчивости реализуется в полной мере при перераспределении исходных данных между сохранившимися вычислительными ресурсами при деградации системы. Однако, существующие методы обеспечения достоверности передачи и обработки данных высокой размерности не лишены недостатков, среди которых можно отметить излишнюю избыточность, повышенные требования к среде передачи, низкую эффективность средств локализации и устранения сбоев, особенно в случае пакетирования ошибок.

В то же время, на фоне развития сетевых технологий и увеличения объемов обрабатываемых данных, все большее значение приобретает разработка технологий высоконадежного хранения данных и удаленного высокоскоростного доступа к ним, средств и методов управления нагрузкой серверов и каналов связи. Размеры многих локальных сетей достигают значений, при которых подобные сети по техническим и топологическим характеристикам мало отличаются от глобальных. Проблемы хранения информации и обеспечения доступа к ней в глобальных и локальных сетях и вычислительных системах приобретают одинаковый характер и требуют единого подхода к их решению.

В связи с вышеизложенным, проводимое в работе комплексное исследование научной и технической задачи повышения достоверности и быстродействия систем распределенного хранения и обработки данных высокой разрядности с применением технологии математического моделирования и вычислительного эксперимента, является важным и актуальным.

Целью диссертационного исследования является повышение отказоустойчивости вычислительных структур хранения и обработки данных большой размерности.