автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.15, диссертация на тему:Обеспечение отказоустойчивости вычислительной системы с автоматическим распределением ресурсов

кандидата технических наук
Градов, Евгений Сергеевич
город
Москва
год
2004
специальность ВАК РФ
05.13.15
Диссертация по информатике, вычислительной технике и управлению на тему «Обеспечение отказоустойчивости вычислительной системы с автоматическим распределением ресурсов»

Автореферат диссертации по теме "Обеспечение отказоустойчивости вычислительной системы с автоматическим распределением ресурсов"

На правах рукописи

Градов Евгений Сергеевич

ОБЕСПЕЧЕНИЕ ОТКАЗОУСТОЙЧИВОСТИ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЫ С АВТОМАТИЧЕСКИМ РАСПРЕДЕЛЕНИЕМ РЕСУРСОВ

Специальность: 05.13.15 - " Вычислительные машины и системы "

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва - 2004

Работа выполнена в Институте проблем информатики РАН.

Научный руководитель: доктор технических наук, профессор,

Торчигин Владимир Павлович

Официальные оппоненты: доктор технических наук, профессор факультета

Информатики и информационных технологий Московского государственного социального университета, Светлана Александровна Пескова

кандидат технических наук, заместитель директора Межведомственного суперкомпьютерного центра РАН, Шабанов Борис Михайлович

Ведущая организация: Институт электронных управляющих

машин ОАО "ИНЭУМ"

Защита диссертации состоится " 17" июня 2004 года в 13-00 часов на заседании диссертационного совета Д 002.073.01 при Институте проблем информатики РАН по адресу: 119333, Москва, ул. Вавилова, д. 44, корп. 2.

С диссертацией можно ознакомиться в библиотеке Института проблем информатики РАН.

Автореферат разослан "14" мая 2004 г.

Отзыв, заверенный печатью, просим отправлять в одном экземпляре по адресу: 119333, Москва, ул. Вавилова, д. 44, корп. 2.

Ученый секретарь диссертационного совета Д 002.073.01

Общая характеристика работы

Актуальность темы

Для решения большинства современных фундаментальных задач в различных областях науки и техники требуются многопроцессорные суперЭВМ с производительностью 1012-1015 операций в секунду. Однако реальная производительность универсальных многопроцессорных вычислительных систем на задачах проблемного характера составляет в среднем лишь 12-15 процентов от пиковой производительности. Эффективность использования современных систем массового параллелизма падает с увеличением числа процессоров в системе, так как резко падает коэффициент их загрузки, при работе с глобальными данными.

Для решения проблем синхронизации вычислительных процессов по данным и равномерной загрузки процессоров необходимо исследование новых методов организации параллельных вычислительных процессов и разработка методов создания вычислительных систем с принципиально новой архитектурой, отличной от традиционной архитектуры фон-Неймана, которые обеспечат эффективное и автоматическое распределение вычислительных процессов по ресурсам вычислительной системы.

Однако с ростом сложности структуры вычислительных систем и повышением их быстродействия резко растут требования к достоверности результатов решения задач, поставленных перед вычислительной системой, а, следовательно, к системе контроля производимых вычислений. Эффективность системы контроля становится одной из наиболее важных характеристик вычислительного комплекса. Наиболее естественный путь повышения надежности вычислительной системы - это повышение надежности ее составляющих элементов, однако, как показывает опыт развития вычислительной техники, это не решит поставленной задачи для больших ЭВМ. Кардинально проблема обеспечения надежного и отказоустойчивого функционирования таких вычислительных комплексов (в особенности для вычислительных систем реального времени, требующих высокой достоверности результатов вычислений) может быть решена только структурным способом на аппаратном уровне.

Одним из таких способов является модульный принцип построения вычислительной системы, где каждый модуль охвачен полным аппаратным контролем, обеспечивающим высокую достоверность получаемых результатов. Отключение неисправного модуля в такой системе производится автоматически по срабатыванию встроенного аппаратного контроля.

На данный момент в отделе Построения информационно-вычислительных систем высокого параллелизма Института проблем информатики Российской Академии Наук разработан и отлажен макет машины нетрадиционной архитектуры с автоматическим распределением ресурсов (ВСАРР).

При разработке структуры и алгоритмов функционирования ВСАРР возникает проблема организации системы обеспечения отказоустойчивости при

вычислительной системе параллельные вычислительные процессы имеют сложную структуру, основанную на принципе потока данных. В случае возникновения неисправности (сбоя, отказа) при выполнении таких процессов возникают трудности с локализацией источника ошибки, возникает опасность распространения ошибки по всей системе до момента ее обнаружения и изоляции отказавшего модуля, а также возникают проблемы реконфигурации системы после отказов и восстановления нормального функционирования. На данный момент эти проблемы являются наименее проработанными.

Данная диссертационная работа посвящена проблемам обеспечения отказоустойчивого функционирования и достоверности выдаваемой информации вычислительной системы нетрадиционной архитектуры, обеспечивающей автоматическое распределение ресурсов системы между вычислительными процессами. Актуальность этих проблем определяется тем, что новая архитектура и сложные алгоритмы организации вычислительных процессов в вычислительном комплексе предъявляют новые требования и определяют новые задачи для системы аппаратного контроля и обеспечения отказоустойчивости устройств ВСАРР. Цель и задачи работы

Настоящая диссертационная работа посвящена решению задачи организации обеспечения отказоустойчивости вычислительной системы с автоматическим распределением ресурсов, разработке методов контроля вычислительных процессов и созданию алгоритмов восстановления вычислений в исследуемой вычислительной системе.

Для достижения поставленной цели в работе поставлены и решаются следующие основные задачи:

1. Исследование и анализ методов контроля вычислений и обеспечения отказоустойчивости современных вычислительных систем, позволяющий определить возможность их применения для вычислительной системы принципиально новой архитектуры.

2. Исследование архитектуры вычислительной системы с автоматическим распределением ресурсов с целью выявления проблем контроля вычислений, присущих исследуемой вычислительной системе.

3. Разработка методов контроля вычислительных процессов для исследуемой вычислительной системы, позволяющих обеспечить высокую достоверность выдаваемых результатов.

4. Разработка алгоритмов восстановления вычислений в исследуемой вычислительной системе в случае возникновения отказа какого-либо из устройств системы.

5. Создание аппаратных средств контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета вычислительной системы и аппаратных средств выдачи сообщений о возникающих неисправностях на HOST-машину.

Объект н предмет исследования

Объектом исследования является вычислительная система новой нетрадиционной архитектуры с автоматическим распределением ресурсов. Предметом исследования является организация аппаратного контроля параллельных вычислительных процессов с целью обеспечения отказоустойчивого функционирования и достоверности выдаваемой информации ВСАРР. Методы исследования

Исследования проводились с использованием теории отказоустойчивости, надежности и технической диагностики вычислительных систем, теории высокопроизводительных параллельных вычислений и методик проектирования сложных вычислительных комплексов с применением систем автоматизированного проектирования. Аппаратная реализация макета ВСАРР велась с применением принципов нисходящего проектирования электронных систем с использованием объектно-ориентированного подхода. Научная новизна

Впервые предложены и разработаны методы аппаратного контроля параллельных вычислительных процессов и обеспечения отказоустойчивости вычислительной системы с нетрадиционным подходом к организации процесса вычислений. Научная новизна работы состоит в следующем:

• в результате проведенного исследования принципиально новой архитектуры вычислительной системы с автоматическим распределением ресурсов определены роль и задачи системы контроля вычислений в исследуемой вычислительной системе;

• предложены принципы и разработаны методы организации аппаратного контроля вычислительных процессов и обеспечения отказоустойчивого функционирования устройств, входящих в состав ВСАРР;

• разработаны алгоритмы восстановления параллельных вычислительных процессов в исследуемой вычислительной системе в случае возникновения отказа устройств системы;

• в системе контроля вычислительных процессов и обеспечения отказоустойчивой работы устройств ВСАРР учтены особенности новой архитектуры при применении традиционных методов аппаратного контроля вычислительных процессов, наряду с оригинальными разработками.

Практическая значимость

Практическая значимость работы заключается в следующем:

• разработанные в диссертационной работе методы организации аппаратного контроля вычислительных процессов и алгоритмы обеспечения отказоустойчивого функционирования устройств вычислительной системы с автоматическим распределением ресурсов обеспечивают высокую достоверность выдаваемой информации;

• разработанные и реализованные аппаратные средства для контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета ВСАРР и аппаратные средства выдачи сообщений о

возникающих неисправностях на HOST-машину, делают возможным дальнейшее развитие и модернизацию макета, а также апробацию на нем алгоритмов предлагаемых для реализации в макетах новых версий и впоследствии - полномасштабной ВСАРР; • разработанные методы проектирования макета устройств, основанные на модульном принципе построения с применением программируемых логических интегральных схем (ПЛИС) позволяют существенно сократить временные и аппаратные затраты, необходимые для разработки новых версий отказоустойчивых устройств макета, а в дальнейшем -отказоустойчивых устройств полномасштабной системы. Положения, выносимые на защиту

1. Разработанные методы контроля вычислительных процессов для вычислительной системы принципиально новой архитектуры, позволяющие обеспечить высокую достоверность выдаваемых результатов.

2. Предложенная методика проектирования встроенного аппаратного контроля устройств вычислительной системы с автоматическим распределением ресурсов.

3. Разработанные алгоритмы, обеспечивающие восстановление параллельных вычислительных процессов в вычислительной системе с автоматическим распределением ресурсов в случае возникновения отказа какого-либо из устройств системы, а также в случае возникновения отказа какого-либо из блоков внутри устройств системы;

4. Созданные аппаратные средства для контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета ВСАРР и выдачи сообщений о возникающих неисправностях на HOST-машину.

Реализация результатов работы

Новые теоретические положения и технические решения опробованы экспериментально на макете ВСАРР. Результаты работы реализованы в Институте проблем информатики РАН (ИПИ РАН) в отделе Проблем построения информационно-вычислительных систем высокого параллелизма при исследовании и разработке нетрадиционной архитектуры вычислительных систем с автоматическим распределением ресурсов, а также при реализации проекта по созданию макета вычислительной машины данной архитектуры. Апробация работы

Основные положения и результаты работы докладывались и обсуждались на научных семинарах в ИПИ РАН в 2000-2004 гг., а также на ряде международных и всероссийских конференций в период с 2000 года по 2003 год: на международных молодежных научных конференциях "XXV Гагаринские чтения" (Москва, 2000) и "XXVI Гагаринские чтения" (Москва, 2001); на международной научной конференции "С.А. Лебедев и развитие отечественной вычислительной техники" (Москва, 2002); на международной научно-технической конференции Интеллектуальные и многопроцессорные системы ИМС2003 (пос. Дивноморское, 2003).

Исследование разработанных методик, алгоритмов и схемотехнических решений проводились в отделе Проблем построения информационно-

вычислительных систем высокого параллелизма Института проблем информатики РАН при реализации проекта по созданию макета ВСАРР. Публикации

По материалам диссертационной работы опубликовано 9 печатных работ, список которых приводится в конце автореферата. Структура и объем диссертации

Диссертационная работа состоит из введения, четырех глав, списка литературы из 75 наименований.

Работа изложена на 176 страницах машинописного текста, включая 69 рисунков и 10 таблиц. Содержание работы

Во введении обоснована актуальность темы диссертации, определены научная новизна и практическая значимость работы, сформулированы цель и основные задачи исследований, приведено краткое описание структуры диссертации.

В первой главе диссертационной работы даны основные понятия теории отказоустойчивости, приведена терминология и проведено исследование существующих методов аппаратного обнаружения ошибок и системные действия по восстановлению нормальной работы вычислительной системы после обнаружения ошибки. Рассмотрены и проанализированы архитектуры однопроцессорных и многопроцессорных отказоустойчивых вычислительных систем. Отмечена необходимость специализированного подхода к определению понятия отказоустойчивости при проектировании любой конкретной вычислительной системы из-за специфики архитектурных решений, применяемых для реализации конкретной вычислительной системы и особенностей организации вычислительных процессов в ней.

Из приведенного обзора делается вывод, что с ростом сложности структуры вычислительных систем и повышением их быстродействия резко растут требования к достоверности результатов решения задач, поставленных перед вычислительной системой, а, следовательно, к системе контроля производимых вычислений. Эффективность такой системы контроля становится одной из наиболее важных характеристик вычислительной системы. Как показывает опыт развития вычислительной техники, одно только повышение надежности составляющих элементов не решит поставленной задачи для больших ЭВМ. Кардинально проблема обеспечения надежного и отказоустойчивого функционирования таких вычислительных комплексов может быть решена только структурным способом.

Сложная структура параллельных вычислительных процессов в ВСАРР, основанных на принципе потока данных, требует новых подходов к организации контроля вычислений. Возникают трудности с локализацией источника ошибки, имеет место опасность распространения ошибки по всей системе до момента ее обнаружения. Также возникают проблемы реконфигурации системы после отказов и восстановления нормального хода параллельных вычислительных процессов. Почти во всех проанализированных работах эти вопросы остались без внимания, что позволяет сделать вывод о

том, что эти проблемы на данный момент являются наименее проработанными. Следовательно, необходима разработка новых структурных решений и алгоритмов восстановления вычислительных процессов после возникновения отказа, применимых для исследуемой многопроцессорной вычислительной системы с автоматическим распределением ресурсов.

Во ВТОРОЙ главе проводится анализ особенностей архитектуры и функционирования вычислительной системы нетрадиционной архитектуры с автоматическим распределением ресурсов (ВСАРР). Исследованы возможные варианты реализации отказоустойчивых структур устройств ВСАРР. Проанализированы возможности организации системы аппаратного контроля и обеспечения отказоустойчивости функционирования исследуемой системы. Сформулированы задачи и роль системы контроля и обеспечения отказоустойчивости устройств ВСАРР.

Особенности организации архитектуры и функционирования ВСАРР.

В настоящее время в Российской Федерации в Институте Проблем Информатики РАН (ИПИ РАН) под руководством академика B.C. Бурцева ведется разработка вычислительной системы с автоматическим распределением ресурсов.

Исполняемая на ВСАРР программа представляется в виде потокового графа, каждый узел которого имеет не более двух входов и практически неограниченное количество выходов. Узлы графа обрабатываются исполнительными устройствами (ИУ) ВСАРР. Результаты работы ИУ направляются по ветвям графа к следующим узлам-операциям. Готовность данных к исполнению определяет ассоциативная память ВСАРР.

Квантами информации, обрабатываемыми в ВСАРР, являются токен и пара. Токены представляют собой структуру, которая содержит передаваемое данное, а также ряд признаков и атрибутов. Токены перемещаются по ветвям графа.

В поле ключа находится информация, однозначно идентифицирующая токен или пару в вычислительном процессе, т.е. определяющая их вычислительный контекст - "цвет". Данное поле также содержит адрес расположения в памяти программы обработки данных в узле. С каждым узлом связана программа узла, которая выполняется исполнительным устройством ВСАРР. Программу узла можно рассматривать как функцию одного или двух аргументов. Эта функция может иметь один или несколько результатов, которые формируются в исполнительном устройстве в виде токенов для передачи их другим узлам. Структурная схема исследуемой ВСАРР приведена на рис. 1.

Принцип функционирования данной вычислительной системы сводится к следующему: в модулях ассоциативной памяти (МАП) ведется подбор токенов, имеющих одинаковое значение поля ключа токенов. Токены с совпадающими ключами образуют пару токенов, которая из МАП поступает в коммутатор готовых пар токенов. Данный коммутатор распределяет готовые к обработке пары между свободными исполнительными устройствами. ИУ ВСАРР выполняют программную обработку поступающих пар токенов. Результаты

обработки - токены выдаются на коммутатор модулей ассоциативной памяти (КМАП), который в соответствии с хэш-функцией, вычисленной в ИУ на основе контекста токена, распределяет их между МАП.

Рис. 1. Структурная схемаВСАРР (СВК- схемы встроенного контроля).

Роль и задачи системы контроля вычислительных процессов ВСАРР.

Разрабатываемая ВСАРР представляет собой универсальную систему, применимую для широкого спектра решаемых задач. Если ВСАРР используется как управляющая система - обычно такие системы должны выполнять в ограниченное время значительные объемы вычислений, поэтому основным требованием является минимальность времени восстановления работы в случае отказа составного устройства. Если ВСАРР используется для научно-технических вычислений - в этом случае отказ одного из устройств может привести к потере важных результатов длительных вычислений, на повторное вычисление которых потребуется значительное количество времени.

При выполнении программы узла из исполнительного устройства могут выдаваться токены результата, отсюда возникают следующие проблемы:

• Необходимо предотвращать выдачу токенов с искаженной информацией, так как после выдачи такого токена из ИУ остановить распространение ошибки по системе уже невозможно.

• При повторе программы узла, в которой произошел сбой, необходимо предотвратить повторную выдачу уже выданных токенов, для этого необходимо ввести специальный счетчик выданных токенов (он подробно рассмотрен в главе 3). Преимущество исследуемой системы заключается в

том, что содержимое памятей ИУ (в исследуемой системе это память команд, память команд расширения и память констант) и исходная входная пара сохраняются в ИУ до успешного завершения выполнения программы узла, что в дальнейшем значительно облегчает повторное исполнение программы в случае возникновения сбоя или отказа.

• При отказе какого-либо из модулей ИУ повторение программы узла необходимо осуществить на исправном модуле, следовательно, требуется создание механизмов передачи информации, необходимой для восстановления вычислительного процесса, на исправный модуль ИУ.

• В случае отказа какого-либо из ИУ выполнение программы узла необходимо осуществить на исправном ИУ, следовательно, требуется разработка алгоритмов передачи информации, необходимой для восстановления вычислительного процесса, на исправное ИУ.

Особое место в исследуемой ВСАРР занимает ассоциативная память. Как уже было сказано выше МАП служит для приема, хранения, ассоциативного поиска токенов и формирования пар из токенов с совпавшими ключами, которые затем пересылаются в ИУ для выполнения программы узла для этой пары. Основные проблемы контроля модуля ассоциативной памяти возникают при попытках реализации контроля памяти ключей токенов - ассоциативного запоминающего устройства (АЗУ). Структурно память ключей представляет собой матрицу ассоциативных элементов, то есть набор идентичных ячеек, в которых записаны ключи токенов, соединенных по входу общей шиной, на которую для сравнения подается ключ входного токена. Для осуществления контроля всех операций в памяти ключей необходимо введение большого количества дополнительного оборудования для каждой ячейки памяти. Очевидно, что МАП, охваченный полным встроенным аппаратным контролем целесообразно применять в системах, где необходима высокая достоверность информации, выдаваемой из МАП. При этом темп обработки приходящих токенов и выдачи готовых пар должен удовлетворять требованиям, предъявляемым к вычислительной системе.

Все вышесказанное означает, что для исследуемой ВСАРР необходима система контроля, встроенная в ИУ и МАП, обнаруживающая все возникающие неисправности с достаточно высокой вероятностью, автоматически осуществляющая реконфигурацию и восстанавливающая вычислительные процессы.

В состав ВСАРР входят несколько типов устройств, каждое устройство в свою очередь представляет собой иерархическую структуру из нескольких блоков. ВСАРР построена по модульному принципу, где каждый модуль охвачен аппаратным контролем для быстрого обнаружения неисправности, изоляции неисправного блока и восстановления вычислительного процесса. Каждое устройство автономно в плане аппаратного контроля. Контроль работы каждого блока, входящего в структуру устройства, осуществляется с применением схем контроля, встроенных в каждый блок. В случае обнаружения неисправности схема контроля каждого блока самостоятельно изолирует блок с целью предотвращения дальнейшего распространения

логических ошибок и посы.ает сообщение в блок управления системой контроля данного устройства, которое анализирует полученную информацию о возникшей неисправности и принимает решение о дальнейших действиях. При этом посылается сообщение о возникшей неисправности в операционную систему (ОС) ВСАРР, находящуюся на HOST-машине. В состав ОС входят программные компоненты системы контроля. Назначение программных компонент системы контроля - сбор информации о состоянии отдельных составных блоков системы, сбор информации об ошибках и отказах с целью набора статистики о состоянии всех устройств системы в ходе работы. В информации, посылаемую в ОС, указывается конкретное устройство, где возникла неисправность и ее характеристики.

Проведенное исследование структуры и особенностей функционирования ВСАРР позволило выявить основные процессы, требующие применения аппаратного контроля (см. рис. 1):

1. выполнение программы узла в НУ;

2. выполнение ассоциативного поиска и спаривание токенов в МАП;

3. передача готовых пар на исполнение в НУ через коммутатор готовых пар;

4. передача токенов результата из ИУ в МАП через коммутатор токенов.

В данной диссертационной работе основное внимание уделено исследованию вариантов реализации отказоустойчивых структур ИУ и затронуты вопросы построения отказоустойчивых МАП ВСАРР, организации структуры и алгоритмов функционирования систем встроенного контроля данных устройств, также рассмотрены проблемы организации восстановления вычислительных процессов, как на уровне ИУ и МАП, так и на уровне всей вычислительной системы в случае возникновения отказов устройств ВСАРР.

Исследование вариантов реализации отказоустойчивых структур ИУ.

В исходной структуре ИУ предусмотрено четыре модуля, каждый из которых содержит аппаратуру необходимую для организации вычислительного процесса: буфер команд, устройство выборки и декодирования команд, регистровый файл и т.д. Также предусмотрено несколько наборов функциональных устройств (ФУ). Каждый набор ФУ содержит блоки вещественных, целочисленных и специальных операций. Сочетание одного модуля и одного набора ФУ называется направлением вычислений ИУ. Все четыре направления ИУ разделяют общую память команд/констант, которая содержит полный набор команд для обработки всех узлов программы. Общими для всех модулей является устройство входного интерфейса пар, которое принимает пары токенов от ассоциативной памяти и распределяет их на обработку между направлениями, и устройство выходного интерфейса токенов, которое обеспечивает сбор готовых результирующих токенов из модулей ИУ и отправку их на коммутатор модулей ассоциативной памяти.

Как один из вариантов структура ИУ организуется с возможностью постепенной деградации, чтобы в случае отказа какого-либо из устройств производилась реконфигурация структуры ИУ, после чего работа продолжалась с ограниченными ресурсами и, как следствие, с меньшей производительностью. Наглядно реконфигурация отказоустойчивых структур ИУ представлена

на рис. 2. Согласно такому варианту реализации отказоустойчивой ИУ изначально структура ИУ является дублированной (1 вариант). Ее особенности:

• Реализовано дублирование двух направлений вычислений.

• Осуществляется одновременная обработка двух входных пар.

• Схемы встроенного контроля реализованы в модулях ИУ, в функциональных устройствах, в памяти команд и констант.

• Выдача токенов результата производится из исправных направлений.

• Реализована разветвленная система коммутации каждого модуля с каждым набором функциональных устройств для возможности последующей реконфигурации в случае возникновения отказа какого-либо из устройств.

В случае возникновения отказа какого-либо из устройств производится классификация отказа. Если это отказ памяти команд и констант ИУ, то такая ситуация воспринимается как отказ всего ИУ в целом.

Память является общей и ее дублирования не производится, именно поэтому так важна надежность системы встроенного контроля памяти ИУ. Если это отказ одного из модулей ИУ или отказ одного из наборов функциональных устройств, то устройство, скоммутированное с ним в данный момент (соответственно набор ФУ или модуль ИУ) переходит в состояние холодного резерва.

Далее производится реконфигурация ИУ и переход к мажорированной отказоустойчивой структуре.

Особенностями структуры ИУ в данном варианте реализации являются:

• Осуществляется одновременная работа трех направлений вычислений.

• Производится обработка одной входной пары токенов.

• Схемы встроенного контроля в модулях ИУ, в функциональных устройствах отключены за ненадобностью. Встроенный контроль функционирует только в общей памяти команд и констант ИУ.

Производится выдача токена, одинакового у большинства направлений. Сравнение осуществляет блок голосования (мажоритарный орган).

В случае возникновения отказа одного из устройств производится классификация отказа. Отказ памяти ИУ, как и в предыдущем случае приводит к отказу всего ИУ в целом. Если это отказ одного из модулей ИУ или одного из наборов функциональных устройств, то производится поиск холодного резерва. Если он есть, то производится реконфигурация ИУ и работа продолжается по принципу мажорирования. Если холодного резерва нет, то производится реконфигурация. ИУ и его структура принимает вид дублированной отказоустойчивой структуры (2 вариант):

• Реализуется дублирование 1 направления вычислений.

• Осуществляется обработка 1 входной пары.

• Схемы встроенного контроля работают в модулях ИУ, в функциональных устройствах и в общей памяти команд и констант ИУ.

• Выдача токенов результата производится из исправного направления вычислений.

Вх. котерфсАс трыюапса

2

' 'ЛИ '

п

ШЬр ..ФУ 1-

Моду. ЛГЛ1

Набор ФУ 2

пи

Модуль ,

ли 1

Ид Бор

фу»

Модуль ЛИ

Набор ФУ 4

£

9

—О

Блок ■ылня

Дублированная откио устойчива я структур! ИУ (1)

•Дубжфоткж ]•« шфаыежЯ мижлеюА оДр<Вопи 2-« полы» ну «СВК » ио^ш ИУ, в 4уяв*к*шмн( устройсп

«Вцача я»м »т п кфшм мфшимй.

Неоткаэоустойчимя струю-ура ИУ

«Бежррекпо фукшюю^шцсЮВКйстиюотре^ »птнсгфжтф^аса.

Вж втр^цЛв пары паек»

±£

Модуль

;мг

Пйбор ФУ1

М<«7ль

Н««ор ФУ 2

.га

Моя/ль

-

П«6ор ФУЗ

г

[<Л>Р /

Бюжмимя "«МО*

Мажорированная отказоустойчивая структура ИУ

»Олоусмоиш {и6я )« шлпршяатк «Обр*6отш I кодой

•СВК +уничом|у)*т ТР1МО «обасИммят «омид« вмспт И/ 'Гмин ЮМ, вЛМШВП у бОАОМЖТМ (ШрМЛвотА

у

п

Вя.тперфсйе

м

1 М<*7*к- ' - Ми; * № <

1 . СВк"

П«6ор «У 1 Пябор ФУ1

СВК С Вк'

и МНУ

га

ШI

Т7

иД-

УН.вор/

ЖфуГЗ

«III Д III II г

к дар

Ъл.борЛ,

Дублированная отказоустойчивая структура 11У(2)

•Дуб*фо«юс I мфмлсми •шнслтмй •О^ябола 1 подо! пфм

•СВК • МОфЖ ИУ, ■ МЮОАМК ус1ройспж. • МИШ) ШШИД N В*СПИТ •Выота югое* реултт т кфквтго мфмленм

При возникновении отказа какого-либо из устройств возможен переход на неотказоустойчивую структуру ИУ. В случае отсутствия системы

встроенного аппаратного контроля в устройствах, при таком варианте структуры ИУ достоверность результатов вычислений не гарантируется.

Обеспечение отказоустойчивости многопоточного ИУ.

При таком подходе к организации структуры ИУ необходима надежная система встроенного аппаратного контроля и механизмы реконфигурации структуры и восстановления вычислительного процесса внутри ИУ. Также необходима разработка алгоритмов передачи необходимой информации для восстановления вычислительного процесса на исправное ИУ, в случае полного отказа исходного ИУ. Структурная схема многопоточного ИУ с указанием расположения точек контроля изображена на рис. 3. Схема модуля многопоточного ИУ изображена на рис. 4. До момента обнаружения сбоя ИУ функционирует в нормальном режиме работы, при котором каждая операция внутри ИУ контролируется схемами встроенного аппаратного контроля. В случае обнаружения сбоя производится повтор выполняемой программы узла (троекратный), если сбой не повторяется, то ИУ возвращается к нормальному режиму работы, если же сбой происходит при каждом повторе, то ситуация рассматривается как отказ одного из устройств ИУ. Далее производится классификация отказа. В случае отказа памяти команд и констант ИУ, ситуация расценивается как отказ всего ИУ в целом. В многопоточной структуре ИУ память команд и констант не дублируется, поэтому к надежности функционирования системы встроенного аппаратного контроля памяти предъявляются высокие требования. В случае отказа функционального устройства осуществляется его изоляция и переключение заданий, направленных на выполнение в нем, на другое аналогичное устройство такого же типа, если оно исправно. Далее ИУ функционирует в режиме работы с ограниченными ресурсами. В случае отказа всех функциональных устройств одного типа ситуация расценивается как отказ всего ИУ. В случае отказа какого-либо блока внутри модуля ИУ принимается решение об отказе всего модуля в целом и далее включается режим передачи необходимой информации для восстановления вычислительного процесса на исправный модуль. После этого ИУ функционирует в режиме работы с ограниченными ресурсами. В случае отказа всех модулей принимается решение об отказе всего ИУ. Если происходит полный отказ ИУ, то включается режим передачи на исправное ИУ необходимой информации для восстановления вычислительного процесса.

В третьей главе описана система встроенного аппаратного контроля МИУ и МАП. Показана возможность построения аппаратного контроля работы ассоциативного запоминающего устройства и оперативного запоминающего устройства, входящих в состав МАП. Предложены алгоритмы и разработаны механизмы повтора операций в случае возникновения сбоя, обнаруживаемого системой встроенного контроля, восстановления вычислительных процессов в МИУ в случае отказа одного из устройств, входящих в его состав, восстановление вычислений в случае полного отказа МИУ.

Рис 3 Расположение точек контроля многопоточного ИУ (точки контроля обозначены треугольниками)

—-—"м-ас

Пмлтъ комач) и кмотдмт ИУ

V .V

4—

^ГП'Ц-Г

Модуль ИУ

* У Г

Дтафрм* аомми *

т*-—

--

УггН"*ч ■ ичрми ИУ

Рис. 4. Расположение точек контроля модуля МИУ (точки контроля обозначены треугольниками)

Также предложен алгоритм сохранения резервной копии задачи в контрольных точках в графе задачи, выполняемой на ВСАРР. В случае отказа устройств ВСАРР и невозможности восстановления вычислений обычными методами, возможно восстановление задачи из ее резервной копии.

Организация системы аппаратного контроля МАП.

Основные проблемы контроля модуля ассоциативной памяти возникают при попытках реализации контроля памяти ключей токенов - ассоциаотивного запоминающего устройства. Структурно память ключей представляет собой матрицу ассоциативных элементов, то есть набор идентичных ячеек, в которых записаны ключи токенов, соединенных по входу общей шиной, на которую для сравнения подается ключ входного токена. Для осуществления контроля всех операций в памяти ключей необходимо введение большого количества дополнительного оборудования для каждой ячейки памяти, работа которого по контролю операций приведет к значительной задержке темпа выдачи адресов совпадения ключей. Очевидно, что МАП, охваченный полным встроенным аппаратным контролем целесообразно применять в системах, где необходима высокая достоверность информации, выдаваемой из МАП. При этом темп обработки приходящих токенов и выдачи готовых пар должен удовлетворять требованиям, предъявляемым к вычислительной системе. Структура МАП изображена на рис. 5.

Рис 5. Структурная схема модуля ассоциативной памяти ВСАРР.

Контроль работы блока АЗУ.

На вход ассоциативной памяти из ИУ через коммутатор поступают токены. Из устройства управления УУАП в АЗУ направляется часть токена, а именно: ключ, маска и признаки. В УУАП проводится анализ типа токена, его кратности и вырабатываются сигналы управления. В режиме поиска входной ключ одновременно сравнивается со всем массивом записанных ключей и с учетом разрядов маски, вырабатываются сигналы совпадения в ячейках

ключей, которые оказались одинаковыми. Если реализован встроенный аппаратный контроль памяти ключей, то контроль поиска производится следующим образом (см. рис.6).

Рис. 6. СхемаконтроляработыблокаАЗУ.

Производится запись входного ключа и его контрольных разрядов в регистр входного ключа памяти ключей. Производится свертка входного ключа с последующим сравнением результата с контрольными разрядами, пришедшими вместе с входным ключом. В случае несовпадения значений вырабатывается сигнал ошибки передачи входного ключа по шине от УУАП в блок АЗУ. Перед выдачей на схему сравнения производится контроль считывания записанного ключа из ячейки памяти ключей: записанный ключ сворачивается на схеме свертки и далее производится сравнение полученной величины с контрольными разрядами, которые были записаны в ячейку памяти вместе с ключом. В случае несовпадения значений выдается сигнал сбоя блока АЗУ - ошибка чтения ячейки памяти. Далее входной ключ и записанный ключ подаются на схему сравнения.

Контрольработы блока ОЗУ.

Из блока УУАП двоичный адрес передается на регистр адреса считывания блока ОЗУ. По этому адресу из ОЗУ выбирается хранимый там токен и посылается в блок формирования пар (БФП), где вместе с входным токеном он образует очередную пару для ИУ. При записи токена в ОЗУ производится его

свертка и формирование контрольных разрядов, которые записываются в ячейку ОЗУ вместе с токеном (см. рис. 7).

Контроль сравнения осуществляется дублированием схемы сравнения: оба ключа подаются одновременно на две идентичные схемы. Затем результаты работы обеих схем сравниваются, и в случае несовпадения значений вырабатывается сигнал сбоя блока АЗУ - ошибка сравнения ключей. Если сбоя при ассоциативном поиске не произошло, то производятся действия по обычной схеме. В случае если совпадения не произошло, ключ с маской, признаками и признаком блокировки поиска записывается на свободное место в память АЗУ. Вместе с ключом в ячейку памяти ключей записываются также его контрольные разряды, которые в последствии используются для контроля чтения этого ключа из ячейки памяти.

В ту же ячейку записывается свертка адреса этой ячейки, для последующего контроля считывания содержимого ячейки по адресу. Когда необходимо считать токен из ОЗУ, на него подается адрес совпадения ключей токенов в АЗУ, эти адреса идентичны. При считывании токена из ячейки ОЗУ снова производится его свертка с последующим сравнением результата со значением контрольных разрядов, считанных из ячейки вместе с токеном. В случае несовпадения значений фиксируется ошибка чтения ячейки ОЗУ и далее производится повторение операций по обработке токена.

Одновременно с контролем считывания содержимого ячейки ОЗУ производится контроль адреса. Вычисляются контрольные разряды адреса, поступившего в ОЗУ, и результат сравнивается со сверткой адреса ячейки, считанной из ячейки ОЗУ. В случае несовпадения контрольных разрядов адресов фиксируется сбой и производится повторение операций по обработке

токена.

Алгоритм восстановления вычислительного процесса в случае отказа модуля МИУ.

1. Вычисления, производимые по программе узла, останавливаются, а все команды, следовавшие за командой, при выполнении которой произошел отказ модуля, и поступившие в исполнительный конвейер, аннулируются. Таким образом, в МИУ реализуется точное прерывание вычислительного процесса в случае возникновения отказа.

2. Устройство управления системой контроля (УУСК) изолирует отказавший модуль путем исключения его из рабочей конфигурации МИУ.

3. Производится проверка исправности остальных модулей МИУ. В случае отсутствия в МИУ исправных модулей УУСК принимает решение о полном отказе всего МИУ и далее работает алгоритм передачи данных, необходимых для продолжения вычисления программы узла с отказавшего МИУ на исправное МИУ. Если исправные модули есть, то см. пункт 4.

4. Производится поиск свободного модуля МИУ способного начать повторное выполнение программы узла, ранее выполнявшегося на отказавшем ИУ (по сигналу от УУСК поиск осуществляется устройством входного интерфейса пары, так как оно отвечает за распределение пар токеноз по вычислительным ресурсам внутри МИУ). Если такой модуль есть, то он переводится в режим обработки аварийной пары.

5. Далее свободый исправный модуль (либо зарезервированный исправный модуль после завершения выполнения программы узла) принимает на свои регистры пары токенов аварийную пару, которая обрабатывалась в отказавшем модуле. Пересылка осуществляется с регистров пар токенов УУСК, где их резервные копии хранятся с момента прихода на входной регистр пары до успешного завершения соответствующих им программ узлов.

6. Как уже было сказано выше, при повторном выполнении программы узла, необходимо предотвратить повторную выдачу токенов, выданных в процессе выполнения программы узла. Для этого служит счетчик корректных выданных токенов. Значения счетчиков каждого модуля, также как и копии входных пар токенов хранятся в специальных регистрах УУСК. Следом за пересылкой аварийной пары в модуль-обработчик пересылается значение счетчика выданных токенов, которое устанавливается в соответствующий регистр модуля-обработчика.

7. Поскольку обработка пар токенов и выполнение их программ узла в МИУ на всех 4 направлениях производятся независимо друг от друга, то пересылка исходной пары токенов и счетчика выданных' токенов является необходимой и достаточной информацией для повторного выполнения программы узла, при обработке которого возник отказ модуля МИУ. После пересылки на исправный модуль МИУ всех вышеперечисленных данных производится запуск модуля-обработчика.

Работать он будет в режиме обработки аварийной пары токенов, который отличается от нормального режима тем, что при попытке выдачи токена в течение выполнения программы узла эта выдача будет блокироваться, а из значения счетчика выданных токенов будет вычитаться 1. И так до тех пор, пока это значение не станет равным О, после этого выдача токенов и работа модуля МИУ в целом будет проводиться в обычном режиме.

8. После восстановления вычислительного процесса внутри МИУ устройство управления системой контроля формирует токен-сообщение на HOST-машину, в котором передается значение регистра неисправностей данного МИУ. Далее МИУ работает в режиме с ограниченными ресурсами.

Алгоритм передачи информации, необходимой для восстановления вычислительного процесса, на исправное МИУ в случае возникновения отказа одного из МИУ.

В случае полного отказа МИУ возникает задача передачи необходимой информации на другое, исправное МИУ для восстановления вычислительного процесса. Следует учитывать, что в случае отказа МИУ для передачи такой информации необходимо, чтобы система контроля, выходной интерфейс токена и блок выдачи токена МИУ оставались исправными. После принятия решения об отказе МИУ, устройство управления системой контроля осуществляет следующие действия:

1. Вычисления, производимые по программам узлов, останавливаются на всех четырех направлениях. Все команды, поступившие в исполнительный конвейер, аннулируются.

2. УУСК изолирует МИУ путем отключения входного интерфейса пары. Теперь на вход МИУ пары токенов из буфера-распределителя готовых пар приниматься не будут. Также блокируется выдача любой информации из МИУ через выходной интерфейс токена, кроме токенов, сформированных в УУСК.

3. Поскольку в МИУ на четырех направлениях вычислений одновременно может обрабатывать до 4 пар токенов, необходимо передать информацию для повторения 4-х программ узлов на исправные МИУ. Поскольку программы узлов графа задачи не связаны между собой, то выполнение восстановления вычислений программ узлов можно осуществлять на любом исправном МИУ независимо друг от друга. УУСК МИУ формирует 8 аварийных токенов из 4 исходных пар токенов, резервные копии которых хранятся на регистрах пар токенов УУСК с момента прихода на входной регистр пары до успешного завершения соответствующих им программ узлов.

4. Организация структуры ИУ ВСАРР позволяет выдавать из ИУ только токены, следовательно, перед УУСК стоит задача разбиения каждой исходной пары токенов на два аварийных токена, при взаимодействии которых получится аварийная пара токенов. Эта аварийная пара содержит поля исходной пары токенов, при обработке которой

произошел отказ ИУ, и информацию необходимую для повтора программы узла этой пары. Так как поле контекста сформированных токенов будет являться нестандартным, определение номера модуля АП данных токенов в коммутаторе модулей АП будет невозможно, значит для обоих аварийных токенов необходимо поставить один и тот же номер модуля АП (в котором была сформирована пара) и установить признак принудительной посылки в МАП с фиксированным номером.

5. Итак, 8 аварийных токенов пересылаются в МАП, при этом благодаря установке для обоих аварийных токенов каждого направления одного и тот же номер модуля АП и установке признака принудительной посылки в МАП с фиксированным номером, оба аварийных токена попадают в один и тот же МАП. Первые три поля в ключе каждого токена при поиске в МАП будут закрыты маской, поэтому совпадений ключей по ним обнаружено не будет. Четвертое поле содержит ключ аварийного токена, представляющий собой комбинацию из номера МИУ, где произошел отказ ^иу), и номера направления вычислений, в котором обрабатывалась исходная пара токенов ^напр). Именно это поле является аргументом поиска в ассоциативной памяти парного аварийного токена из этого же направления вычислений этого же отказавшего МИУ. Благодаря полю признака аварийного токена, аварийные токены не будут сравниваться с другими токенами, даже если предположить случайное совпадение их ключей с ключами обычных токенов.

6. При обнаружении совпадения ключей двух аварийных токенов, из токенов извлекаются соответствующие поля формируется аварийная пара токенов.

7. При приходе аварийной пары токенов в исправное МИУ включается специальный режим обработки аварийной пары. Осуществляется поиск свободного модуля ИУ. Далее свободый исправный модуль принимает на свои регистры аварийную пару, которая обрабатывалась в отказавшем МИУ, а также значение счетчика корректных выданных токенов записываются в соответствующие регистры. Далее начинается выполнение программы узла, при выполнении которой отказало исходное МИУ в режиме аварийной пары токенов, то есть с учетом работы счетчика корректных выданных токенов, алгоритм функционирования которого был описан выше.

8. После формирования и передачи на КМАП всех 8 аварийных токенов УУСК ИУ формирует специальный токен-сообщение для HOST-машины. Формат этого токена идентичен формату обычного токена. В его поле данных содержится значение регистра неисправностей ИУ. Это необходимо для сбора статистики на HOST-машине о состоянии устройств системы. В поле признака аварийного токена также стоит 1. Токен-сообщение передается на КМАП, а оттуда пересылается транзитом через МАП и БРГП на HOST-машину.

Алгоритм сохранения резервной копии задачи в контрольных точках виртуального графа задачи, выполняемой на ВСАРР.1

В качестве резервной копии задачи, выполняемой на ВСАРР, в общем оперативно запоминающем устройстве (ООЗУ) сохраняются все токены и пары токенов задачи, сформированных, циркулирующих, и обрабатываемых в вычислительной системе. Возможны два варианта реализации рассматриваемого алгоритма: либо команду сохранения токенов и пар задачи дает ОС с HOST-машины, либо программист сам расставляет контрольные точки в графе задачи, тогда в процессе выполнения задачи, в контрольной точке из программы узла делается системный запрос в ОС на выдачу команды "сохранить резервную копию задачи".

• Задача полностью останавливается с применением токенов-заглушек, засылаемых во все МАП и "отлавливающим" токены с определенным номером задачи. После взаимодействия с ними токены задачи сбрасываются в ООЗУ.

• Сохраняются резервные копии токенов и пар задачи, которые хранятся в ООЗУ, с целью последующего ее использования для восстановления вычислительных процессов в случае возникновения отказов устройств ВСАРР.

• В аппаратной таблице задач (АТЗ), где хранятся дескрипторы всех задач выполняющихся на ВСАРР, записывается дескриптор резервной копии задачи, содержащий указатели на область в ООЗУ, где хранятся копии токенов и пар задачи.

• Задача запускается снова путем подкачки токенов в МАП и запуска их на поиск.

Восстановление задачи из резервной копии осуществляется следующим образом:

• Поскольку в исследуемой системе невозможно определить токены и пары какой задачи в каком ИУ или МАП находятся, то неизвестно токены и пары каких задач были утеряны в результате отказа одного из устройств ВСАРР (например МАП). Следовательно, необходимо восстановить все задачи, которые были сохранены в контрольных точках. Для этого, прежде всего, необходимо осуществить сброс задач, то есть удаление из ВСАРР всех оставшихся токенов и пар задач.

• После сброса задач по дескрипторам резервных копий задач осуществляется подкачка в МАП всех токенов, сохраненных в виде резервной копии в ООЗУ, таким образом задача запускается с контрольной точки.

• Задачи, для которых не делалось резервных копий, запускаются с самого начала.

Размещение контрольных точек в графе задачи, в которых производится сохранение резервной копии задачи, весьма ответственное и сложное дело, поскольку останов задачи, сохранение копии и затем новый запуск задачи тормозит выполнение этой задачи. Следовательно, при применении ВСАРР в

системах реального времени необходимо, чтобы время сохранения копии задачи в контрольной точке графа задачи и затем восстановление задачи из резервной копии не превышали допустимых пределов.

В четвертой главе приведены материалы по разработке макета ВСАРР. Рассмотрены используемые для разработки элементная база и методы проектирования, разработаны аппаратные средства для контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета ВСАРР и аппаратные средства для выдачи сообщений о возникающих неисправностях на HOST-машину.

В качестве элементной базы для реализации макета ВСАРР были выбраны микросхемы программируемой логики - ПЛИС фирмы Altera. Из всего многообразия микросхем производимых фирмой Altera для реализации макета было выбрано семейство микросхем APEX 20 КЕ, которое на момент разработки макета являлось наиболее передовым. В данном семействе был выбран тип микросхем ЕР20К400ЕВС652-3. Микросхемы ПЛИС позволяют реализовать внутри себя различные проекты, что дает возможность использовать одну и ту же микросхему для создания различных проектов. Следовательно, есть возможность реализации все различные устройства в одном типе микросхем ПЛИС. При этом, если выдержать однотипность интерфейсов данных микросхем, можно создать универсальный элемент, с помощью которого возможна реализация всех устройств макета ВСАРР и ИУ ВСАРР в частности что облегчает разработку макета и повышает его ремонтопригодность.

Структура ВСАРР организована по принципу модульного построения: каждая из микросхем смонтирована на собственной плате второго уровня. Все платы второго уровня являются одинаковыми и поэтому могут быть взаимозаменяемыми, в случае отказа какого-либо из устройств ВСАРР. Платы второго уровня посредством разъемов монтируются на плату первого уровня (материнскую плату), на которой, кроме того, расположены микросхемы синхронизации и связи с HOST-машиной.

Логическое проектирование устройств, входящих в состав ВСАРР, проводилось в САПР фирмы ALTERA - Quartus II. Данная система позволяет провести полный цикл проектирования и моделирования разрабатываемого устройства, от описания задания до программирования микросхем. В дальнейшем планируется построение нового макета, который бы полностью воплощал в себе архитектурные решения и алгоритмы, изложенные во 2 и 3 главах. Новый макет послужит не только для целей демонстрации достоинств архитектуры ВСАРР, а также обладать производительностью для решения не только демонстрационных задач, но и для решения ряда прикладных задач.

В заключении обобщены основные результаты проведенных автором исследований и разработок, сформулированы основные выводы по работе, намечены пути дальнейшего исследования методов организации аппаратного контроля и обеспечение отказоустойчивости устройств ВСАРР при выполнении параллельных вычислений.

Основные результаты диссертационной работы

1. В работе проведен анализ методов контроля вычислений и обеспечения отказоустойчивости современных вычислительных систем, позволивший определить возможность их применения для вычислительной системы принципиально новой архитектуры, возникающих при обнаружении неисправностей и устранении их последствий.

2. Проведено исследование архитектуры вычислительной системы с автоматическим распределением ресурсов, позволившее определить роль и задачи системы контроля вычислительных процессов в исследуемой вычислительной системе.

3. Разработаны методы контроля вычислительных процессов для вычислительной системы принципиально новой архитектуры, позволяющие обеспечить высокую достоверность выдаваемых результатов и повысить надежностные характеристики вычислительных средств за счет сокращения времени диагностики.

4. Предложена методика проектирования встроенного аппаратного контроля устройств вычислительной системы с автоматическим распределением ресурсов.

5. Разработан алгоритм восстановления вычислительных процессов в исследуемой вычислительной системе в случае отказа какого-либо из исполнительных устройств системы.

6. Предложен алгоритм восстановления вычислительных процессов на уровне исполнительного устройства в случае отказа какого-либо из блоков, входящих в его состав.

7. Разработан алгоритм восстановления вычислительных процессов вычислительной системы с автоматическим распределением ресурсов в реальном масштабе времени в случае отказа устройств, входящих в ее состав с использованием резервных копий токенов и пар задачи, сохраняемых в контрольных точках виртуального графа задачи.

8. Созданы аппаратные средства для контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета ВСАРР и аппаратные средства для выдачи сообщений о возникающих неисправностях на Ы08Т-машину.

Основные публикации по теме диссертации

1) Градов Е.С., Янкевич Е.А. Автоматизированное проектирование специализированного вычислительного устройства в САПР Mentor Graphics System // "XXIV Гагаринские чтения." Тезисы докладов Всеросийской молодежной научной конференции. Часть 4. Секция микропроцессорные системы. - М.: МГАТУ, 1998. С. 67.

2) Янкевич Е.А., Градов Е.С. Моделирование коммутаторов исполнительного устройства потокового компьютера // "XXV Гагаринские чтения." Тезисы докладов Международной молодежной научной конференции. Секция микропроцессорные системы. - М.: МГАТУ, 1999. С. 656.

3) Янкевич Е.А., Градов Е.С. Модель коммутатора модулей ассоциативной памяти потокового компьютера // "XXVI Гагаринские чтения." Тезисы докладов Международной молодежной научной конференции. Т.2. - М.: "ЛАТМЭС", 2000. С. 464.

4) Градов Е.С. Разработка и исследование блока вещественных операций потоковой суперЭВМ // "XXVII Гагаринские чтения." Тезисы докладов Международной молодежной научной конференции. Т.4. - М.: "ЛАТМЭС, 2001. С. 67.

5) Градов Е.С. Принципы применения методики Logic Lock фирмы Altera для проектирования вычислительного комплекса нетрадиционной архитектуры // С.А. Лебедев и развитие отечественной вычислительной техники. Сборник докладов конференции.- М.: МАИК, 2002. С. 181 -187.

6) Янкевич Е.А., Градов Е.С, Торчигин СВ. Макетирование исполнительного устройства процессора гибридной архитектуры // С.А. Лебедев и развитие отечественной вычислительной техники. Сборник докладов конференции. М: МАИК, 2002. С. 176-180.

7) Градов Е.С. Современные тенденции развития элементной базы цифровой схемотехники// Интеллектуальные и многопроцессорные системы 2003. Материалы Международной научной конференции. Т.1. - Таганрог: изд-во ТРТУ, 2003. С. 247-249.

8) Градов Е.С. Исследование вариантов реализации структуры отказоустойчивого исполнительного устройства вычислительной системы с автоматическим распределением ресурсов.// УДК 681.31 Деп. В ВИНИТИ 31.03.2004, № 537-В2004.

9) Градов Е.С. Разработка алгоритмов передачи информации, необходимой для восстановления вычислительных процессов в случае возникновения отказов исполнительных устройств вычислительной системы с автоматическим распределением ресурсов.// УДК 681.31 Деп. В ВИНИТИ 31.03.2004, №538-В2004.

Расшифровка аббревиатур

АЗУ ассоциативное запоминающее устройство

АП ассоциативная память

АТЗ аппаратная таблица задач

БВО блок вещественных операций

БГП буфер готовых пар

БПЦСО блок простых целочисленных и специальных операций

БК буфер команд

БЦО блок целочисленных операций

ВМ вычислительная машина

ВСАРР вычислительная система с автоматическим распределением

ресурсов

ИС интегральная схема

ИУ исполнительное устройство

КМАП коммутатор модулей ассоциативной памяти

МАП модуль ассоциативной памяти

МИУ много поточное исполнительное устройство

ОЗУ оперативное запоминающее устройство

ООЗУ общее оперативное запоминающее устройство

ПЛИС программируемая логическая интегральная схема

САПР система автоматизированного проектирования

СВК схема встроенного контроля

УУ устройство управления

УУСК устройство управления системой контроля

ФУ функциональное устройство

Подписано к печати 28.03.2004. Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Тираж 100 экз. Заказ № 2.28.03.2004 Отпечатано в "МАТИ"-РГТУ им. К.Э. Циолковского 109240 Москва, Берниковская наб.,14

Э' и Л ^ Г)

Оглавление автор диссертации — кандидата технических наук Градов, Евгений Сергеевич

Введение.

Глава 1. Обзор методов обеспечения отказоустойчивости в современных вычислительных системах.

1.1. Основные понятия отказоустойчивости вычислительных систем.

1.2. Исследование методов обнаружения ошибок и восстановления функционирования вычислительных систем после обнаружения сбоя.

1.3. Исследование практически реализованных отказоустойчивых вычислительных систем.

Выводы к первой главе.

Глава 2. Исследование архитектуры и особенностей организации отказоустойчивого функционирования вычислительной системы с автоматическим распределением ресурсов.

2.1. Исследование принципов организации вычислительных процессов в системе с автоматическим распределением ресурсов.

2.2. Анализ архитектуры и определение роли и задач системы контроля и обеспечения отказоустойчивости вычислительной системы с автоматическим распределением ресурсов.

2.3. Параметры надежности вычислительной системы с автоматическим распределением ресурсов.

2.4. Исследование вариантов реализации структуры отказоустойчивого исполнительного устройства ВСАРР.

Выводы ко второй главе.

Глава 3. Разработка алгоритмов функционирования системы обеспечения отказоустойчивости вычислительной системы с автоматическим распределением ресурсов.

3.1.Разработка алгоритмов работы системы аппаратного контроля МИУ.

3.2. Разработка алгоритма передачи информации, необходимой для восстановления вычислительного процесса, на исправный модуль МИУ в случае возникновения отказа одного из модулей.

3.3. Разработка алгоритма передачи информации, необходимой для восстановления вычислительного процесса, на исправное МИУ в случае возникновения отказа одного из МИУ.

3.4. Разработка алгоритмов работы системы аппаратного контроля МАП.

3.5. Разработка алгоритма реализации контрольных точек в графе задачи, выполняемой на

ВСАРР.

Выводы к третьей главе.

Глава 4. Создание аппаратных средств для контроля выполнения операций в макете блока вещественной арифметики ИУ ВСАРР и пересылки сообщений о возникающих неисправностях на HOST-машину.

4.1. Анализ современных тенденций развития элементной базы цифровой схемотехники.

4.2. Выбор элементной базы и определение конструктивов для реализации макета ВСАРР.

4.3. Инструментальные средства и методика проектирования макета ВСАРР.

4.4. Разработка аппаратных средств для контроля выполнения операций в макете блока вещественной арифметики ИУ ВСАРР и пересылки сообщений о возникающих неисправностях на HOST-машину.

Выводы к четвертой главе.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Градов, Евгений Сергеевич

Актуальность проблемы.

Для решения большинства современных фундаментальных задач в различных областях

12 15 науки и техники требуются многопроцессорные супер-ЭВМ с производительностью 10 -10 операций в секунду. Однако реальная производительность универсальных многопроцессорных вычислительных систем на задачах проблемного характера составляет в среднем лишь 12-15 процентов от пиковой производительности. Эффективность использования современных систем массового параллелизма падает с увеличением числа процессоров в системе, так как резко падает коэффициент их загрузки, при работе с глобальными данными.

Для решения проблем синхронизации вычислительных процессов по данным и равномерной загрузки процессоров необходимо исследование новых методов организации параллельных вычислительных процессов и разработка методов создания вычислительных систем с принципиально новой архитектурой, отличной от традиционной архитектуры фон-Неймана, которые обеспечат эффективное и автоматическое распределение вычислительных процессов по ресурсам вычислительной системы.

Однако с ростом сложности структуры вычислительных систем и повышением их быстродействия резко растут требования к достоверности результатов решения задач, поставленных перед вычислительной системой, а, следовательно, к системе контроля производимых вычислений. Эффективность системы контроля становится одной из наиболее важных характеристик вычислительного комплекса. Наиболее естественный путь повышения надежности вычислительной системы - это повышение надежности ее составляющих элементов, однако, как показывает опыт развития вычислительной техники, это не решит поставленной задачи для больших ЭВМ. Кардинально проблема обеспечения надежного и отказоустойчивого функционирования таких вычислительных комплексов (в особенности для вычислительных систем реального времени, требующих высокой достоверности результатов вычислений) может быть решена только структурным способом на аппаратном уровне.

Одним из таких способов является модульный принцип построения вычислительной системы, где каждый модуль охвачен полным аппаратным контролем, обеспечивающим высокую достоверность получаемых результатов. Отключение неисправного модуля в такой системе производится автоматически по срабатыванию встроенного аппаратного контроля.

На данный момент в отделе Построения информационно-вычислительных систем высокого параллелизма Института проблем информатики Российской Академии Наук разработан и отлажен макет машины нетрадиционной архитектуры с автоматическим распределением ресурсов (ВСАРР).

При разработке структуры и алгоритмов функционирования ВСАРР возникает проблема организации системы автоматического контроля и обеспечения отказоустойчивости при выполнении вычислений. В такой вычислительной системе параллельные вычислительные процессы имеют сложную структуру, основанную на принципе потока данных. В случае возникновения неисправности (сбоя, отказа) при выполнении таких процессов возникают трудности с локализацией источника ошибки, возникает опасность распространения ошибки по всей системе до момента ее обнаружения и изоляции отказавшего модуля, а также возникают проблемы реконфигурации системы после отказов и восстановления нормального функционирования. На данный момент эти проблемы являются наименее проработанными.

Данная диссертационная работа посвящена проблемам обеспечения отказоустойчивого функционирования и достоверности выдаваемой информации вычислительной системы нетрадиционной архитектуры, обеспечивающей автоматическое распределение ресурсов системы между вычислительными процессами. Актуальность этих проблем, определяется тем, что новая архитектура и сложные алгоритмы организации вычислительных процессов в вычислительном комплексе предъявляют новые требования и определяют новые задачи для системы аппаратного контроля и обеспечения отказоустойчивости устройств ВСАРР.

Цель и задачи работы.

Настоящая диссертационная работа посвящена решению задачи организации обеспечения отказоустойчивости вычислительной, системы с автоматическим распределением ресурсов, разработке методов контроля вычислительных процессов и созданию алгоритмов восстановления вычислений в исследуемой вычислительной системе.

Для достижения поставленной цели в работе поставлены и решаются следующие основные задачи:

1. Исследование и анализ методов контроля вычислений и обеспечения отказоустойчивости современных вычислительных систем, позволяющий определить возможность их применения для вычислительной системы принципиально новой архитектуры.

2. Исследование архитектуры вычислительной системы с автоматическим распределением ресурсов с целью выявления проблем контроля вычислений, присущих исследуемой вычислительной системе.

3. Разработка методов контроля вычислительных процессов для исследуемой вычислительной системы, позволяющих обеспечить высокую достоверность выдаваемых результатов.

4. Разработка алгоритмов восстановления вычислений в исследуемой вычислительной системе в случае возникновения отказа какого-либо из устройств системы.

5. Создание аппаратных средств контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета вычислительной системы и аппаратных средств выдачи сообщений о возникающих неисправностях на НОБТ-машину.

Объект и предмет исследования.

Объектом исследования является вычислительная система новой нетрадиционной архитектуры с автоматическим распределением ресурсов. Предметом исследования является организация аппаратного контроля параллельных вычислительных процессов с целью обеспечения отказоустойчивого функционирования и достоверности выдаваемой информации ВСАРР.

Методы исследования.

Исследования проводились с использованием теории отказоустойчивости, надежности и технической диагностики вычислительных систем, теории высокопроизводительных параллельных вычислений и методик проектирования сложных вычислительных комплексов с применением систем автоматизированного проектирования. Аппаратная реализация макета ВСАРР велась с применением принципов нисходящего проектирования электронных систем с использованием объектно-ориентированного подхода.

Научная новизна.

Впервые предложены и разработаны методы аппаратного контроля параллельных вычислительных процессов и обеспечения отказоустойчивости вычислительной системы с нетрадиционным подходом к организации процесса вычислений. Научная новизна работы состоит в следующем:

• в результате проведенного исследования принципиально новой архитектуры вычислительной системы с автоматическим распределением ресурсов определены роль и задачи системы контроля вычислений в исследуемой вычислительной системе;

• предложены принципы и разработаны методы организации аппаратного контроля вычислительных процессов и обеспечения отказоустойчивого функционирования устройств, входящих в состав ВСАРР;

• разработаны алгоритмы восстановления параллельных вычислительных процессов в исследуемой вычислительной системе в случае возникновения отказа устройств системы;

• в системе контроля вычислительных процессов и обеспечения отказоустойчивой работы устройств ВСАРР учтены особенности новой архитектуры при применении традиционных методов аппаратного контроля вычислительных процессов, наряду с оригинальными разработками.

Положения, выносимые на защиту.

1. Разработанные методы контроля вычислительных процессов для вычислительной системы принципиально новой архитектуры, позволяющие обеспечить высокую достоверность выдаваемых результатов.

2. Предложенная методика проектирования встроенного аппаратного контроля устройств вычислительной системы с автоматическим распределением ресурсов.

3. Разработанные алгоритмы, обеспечивающие восстановление параллельных вычислительных процессов в вычислительной системе с автоматическим распределением ресурсов в случае возникновения отказа какого-либо из устройств системы, а также в случае возникновения отказа какого-либо из блоков внутри устройств системы;

4. Созданные аппаратные средства для контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета ВСАРР и выдачи сообщений о возникающих неисправностях на НОБТ-машину.

Публикации.

По материалам диссертационной работы опубликовано 9 научных работ.

Структура и объем диссертации.

Диссертационная работа состоит из введения, четырех глав, списка литературы из 75

Заключение диссертация на тему "Обеспечение отказоустойчивости вычислительной системы с автоматическим распределением ресурсов"

Основные результаты диссертационной работы.

1. В работе проведен анализ методов контроля вычислений и обеспечения отказоустойчивости современных вычислительных систем, позволивший определить возможность их применения для вычислительной системы принципиально новой архитектуры, возникающих при обнаружении неисправностей и устранении их последствий.

2. Проведено исследование архитектуры вычислительной системы с автоматическим распределением ресурсов, позволившее определить роль и задачи системы контроля вычислительных процессов в исследуемой вычислительной системе.

3. Разработаны методы контроля вычислительных процессов для вычислительной системы принципиально новой архитектуры, позволяющие обеспечить высокую достоверность выдаваемых результатов и повысить надежностные характеристики вычислительных средств за счет сокращения времени диагностики.

4. Предложена методика проектирования встроенного аппаратного контроля устройств вычислительной системы с автоматическим распределением ресурсов.

5. Разработан алгоритм восстановления вычислительных процессов в исследуемой вычислительной системе в случае отказа какого-либо из исполнительных устройств системы.

6. Предложен алгоритм восстановления вычислительных процессов на уровне исполнительного устройства в случае отказа какого-либо из блоков, входящих в его состав.

7. Разработан алгоритм восстановления вычислительных процессов вычислительной системы с автоматическим распределением ресурсов в реальном масштабе времени в случае отказа устройств, входящих в ее состав с использованием резервных копий токенов и пар задачи, сохраняемых в контрольных точках виртуального графа задачи.

8. Созданы аппаратные средства для контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета ВСАРР и аппаратные средства для выдачи сообщений о возникающих неисправностях на НОвТ-машину.

Практическая значимость. Практическая значимость работы заключается в следующем:

• разработанные в диссертационной работе методы организации аппаратного контроля вычислительных процессов и алгоритмы обеспечения отказоустойчивого функционирования устройств вычислительной системы с автоматическим распределением ресурсов обеспечивают высокую достоверность выдаваемой информации;

• разработанные и реализованные аппаратные средства для контроля выполнения операций в блоке вещественной арифметики исполнительного устройства макета ВСАРР и аппаратные средства выдачи сообщений о возникающих неисправностях на НОБТ-машину, делают возможным дальнейшее развитие и модернизацию макета, а также апробацию на нем алгоритмов предлагаемых для реализации в макетах новых версий и впоследствии - полномасштабной ВСАРР;

• разработанные методы проектирования макета устройств, основанные на модульном принципе построения с применением программируемых логических интегральных схем (ПЛИС) позволяют существенно сократить временные и аппаратные затраты, необходимые для разработки новых версий отказоустойчивых устройств макета, а в дальнейшем - отказоустойчивых устройств полномасштабной системы.

Реализация результатов работы.

Новые теоретические положения и технические решения опробованы экспериментально на макете ВСАРР. Результаты работы реализованы в Институте проблем информатики РАН (ИПИ РАН) в отделе Проблем построения информационно-вычислительных систем высокого параллелизма при исследовании и разработке нетрадиционной архитектуры вычислительных систем с автоматическим распределением ресурсов, а также при реализации проекта по созданию макета вычислительной машины данной архитектуры.

Апробация работы.

Основные положения и результаты работы докладывались и обсуждались на научных семинарах в ИПИ РАН в 2000-2004 гг., а также на ряде международных и всероссийских конференций в период с 2000 года по 2003 год: на международных молодежных научных конференциях "XXV Гагаринские чтения" (Москва, 2000) и "XXVI Гагаринские чтения" (Москва, 2001); на международной научной конференции "С.А. Лебедев и развитие отечественной вычислительной техники" (Москва, 2002); на международной научнотехнической конференции Интеллектуальные и многопроцессорные системы ИМС'2003 (пос. Дивноморское, 2003).

Исследование разработанных методик, алгоритмов и схемотехнических решений проводились в отделе Проблем построения информационно-вычислительных систем высокого параллелизма Института проблем информатики РАН при реализации проекта по созданию макета ВСАРР.

Заключение

Библиография Градов, Евгений Сергеевич, диссертация по теме Вычислительные машины и системы

1. Курейчик В.М., Родзин С.И. Контролепригодное проектирование и самотестирование СБИС: проблемы и перспективы. М.: Радио и связь, 1994.

2. Родзин С.И. Программно-аппаратные методы и модели обеспечения отказоустойчивости и самотестируемости вычислительных систем/ Проблемы и перспективы развития устройств автоматики, связи и ВТ. Ростов-Дон: РГУПС, 2000.

3. Согомонян Е.С., Слабаков Е.В. Самопроверяемые устройства и отказоустойчивые системы. — М.: Радио и связь, 1989.

4. Журавлев Ю.П., Котелюк Л.А., Циклинский Н.И. Надежность и контроль ЭВМ. — М.: Сов. Радио, 1978.

5. Селлерс Ф. Методы обнаружения ошибок в работе ЭЦВМ. М.: Мир, 1972.

6. N.Suri, C.Walter, M.Hugue. Advances in Ultra-Dependable Distributed Systems// IEEE Computer Society Press, Los Alamitos, Ca. 1995

7. Akers S., Krishnamurthy B. A Group-Thoretic Model for Symmmetric Interconnection Networks/ЛЕЕЕ Tr. On Сотр., V.38, N 4, April 1989, pp.555-565.

8. Smith T. High Performance Fault-Tolerant Real Time Computer Architecture.//FTCS-16, Vienna, Austria, 1986.

9. Jonson D. The Intel 432: A VLSI Architecture for Computer Systems.//Computer, V.17, N3, August 1984, pp. 40-48

10. Васильев Н.П. и др. Самовосстанавливаемая управляющая ВС.// В книге III Всесоюзное совещание по технической диагностике. М., Наука, 1975.

11. Согомонян Е.С. Отказоустойчивые избыточные структуры.// Автоматика и телемеханика, 1986, N10.

12. Wakerly J. Trippled Modular System Organization.// IFIP Congress, Stokholm, Sweden, 1974.

13. Ведешенков В. А. Об организации само диагностируемых цифровых систем.// Автоматика и телемеханика, N7,1983.

14. Гарднер X. Полностью аппаратное резервирование без участия программ// Электроника, 1983, N2, стр. 39-43.

15. Wallance J.J. Barnes W.W. Designing for Ultrahigh Availability: the Unix RTR Operating System// Computer, 1984, N8, pp. 31-39.

16. Харченко B.C. Модели и алгоритмы реконфигурации отказоустойчивых систем с адаптивной многоярусной мажоритарно-резервированной структурой.// Автоматика и телемеханика, N8,2000.

17. Кривоносое А.И., Меховской Н.Ф. и другие. Эскизный проект. Бортовая цифроваявычислительная машина унифицированной космической платформы. КБЭ (г.Харьков), 1990, печ.

18. Каравай М.Ф., Согомонян Е.С. Reliability Analysis of Redundant Systems.// FTCS-8, Toulouse, France, 1978.

19. Веселовский Г.Г., Куприянова M.B. Анализ некоторых комбинаторных свойств двоичного гиперкуба.// Автоматика и телемеханика, N8, 1997, стр. 178-187.

20. J. R. Sklaroff, "Redundancy Management Technique for Space Shuttle Computers," IBM J. Res. Develop. 20, pp. 20-28 (Jan. 1976).

21. Preparata F. On the Connection Assignment Problem of Diagnosable System.// IEEE Tr. On Electr. Computers, EC-16,1967.

22. Кеннет А. Многопроцессорная архитектура для обработки транзакций.// Электроника, т. 56, N2, 1983.

23. Сагг R. The Tandem global update protocol.// Tandem Syst. Rev. 1,2,1985.

24. Rennels D. FT computing Concepts and Examples.// IEEE Tr. On Сотр., V. C-33, N 12, Dec., 1984.

25. Lala J. et al. A Design Appoach for Ultra-Reliable Real-Time Systems.// Computer, V 24, N 5, May, 1991.

26. Cristian F. Understanding Fault-Tolerant Distributed Systems.// Communication of ACM, V 34, N2, Febr. 1991, pp. 57-78.

27. Lapri J. et al. Definition and Analysis of Hardware- and Software- Fault Tolerant Architecture.// Computer, V 23, N 7, July 1992.

28. Analog Devices: New Product Applications ADSP 21xx SHARC Processors, 1999.

29. Шнитман В.З. Современные высокопроизводительные компьютеры Электронный ресурс. // Центр Информационных Технологий. 1996. — Режим доступа: http://citforum.ru/hardware/svk/contents.shtml. - Загл. с экрана.

30. Каравай М.Ф. Математические основы отказоустойчивости.// Методы и системы технической диагностики. Саратов: изд. СГУ, 1990. Вып. 14. 4.1 С.3-7.

31. Agerwala Т., J.L.Martin, J.H.Mirza and others "SP2 System Architecture" // IBM Systems Journal, Vol. 34, M 2,1995.

32. Кузьминский M., Волков Д. Современные суперкомпьютеры: состояние и перспективы // Открытые Системы. 1995. - №6

33. Мокрушин JI.A. Концепция компьютеров потока данных: Обзор-реферат. // JL: ЛЭТИ, каф. ИИТ, 1990

34. Agervala Т., Arvind. Data Flow Systems // Computer. Vol.15. - No.2. Feb, 1982. - P. 10-13

35. Buck J.T., Scheduling dynamic dataflow graphs with bounded memory using the token flowmodel // Thesis of dissertation for the degree of Doctor of Philosophy, University of California at Berkeley, 1993

36. Dennis J., Data Flow Supercomputers // Computer. Vol.13. - No.l 1. Nov, 1980. - P.48-56

37. Dennis J.,. The Evolution of'Static' Data-Flow Architecture // Advanced Topics in Dataflow Computing, ed. L. Bic and J.-L. Gaudiot, Prentice Hall, 1991. P.35-91

38. Kavi K.M., J. Arul, R. Giorgi. Execution and Cache Performance of the Scheduled Dataflow Architecture // Journal of Universal Computer Science, Vol. 6, no. 10,2000

39. Culler D., "The Explicit Token Store" // Journal of Parallel and Distributed Computing, vol.10,289-308,1990.

40. Гиндбург A., M. Милчев, Ю. Солоницын, «Периферийные устройства» // СПб: ПИТЕР, 2001

41. Гордеев А.В., Молчанов А.Ю. "Системное программное обеспечение" // СПб: ПИТЕР, 2002

42. J. Silc, В. Robic, Т. Ungerer. Asynchrony in parallel computing: From dataflow to multithreading // Parallel and Distributed Computing Practices. March 1998. - Vol.1, No.l. -P.56-82.

43. J.B. Denis, G.R. Gao. Multithreaded Architectures: Principles, Projects and Issues // ACAPS Technical Memo 29, MIT, 1994.

44. Arvind, A.T. Dahbura, A. Caro. Computer Architecture Research and the Real World // Computation Structures Group Memo 397, MIT Laboratory for Computer Science, Cambridge, MA, April 23,1997.

45. Фетисов H.C. Архитектура многопроцессорной вычислительной системы потока данных // Препринт №11. м.: ВЦКП АН СССР, 1991.

46. С. Ruggiero, J Sargeant. Control of Parallelism in the Manchester Dataflow Machine // In Functional Programming Languages and Computer Architecture, number 274 in Lecture Notes in Computer Science, P.l-15. SpringerVerlag, 1987.

47. Мокрушин JI.A. Концепция компьютеров потока данных: Обзор-реферат. JL: ЛЭТИ, каф. ИИТ, 1990.

48. K.R. Traub, G.M. Popadopoulos, M.J. Beckerle, J.E. Hicks, J. Young. Overview of the Monsoon Project // Proceedings of the 1991 IEEE International Conference on Computer Design, Cambridge, MA, October 1991.

49. Бурцев B.C.,"Система массового параллелизма с автоматическим распределением аппаратных средств суперЭВМ в процессе решения задачи." В сб. Вычислительные машины с нетрадиционной архитектурой.// СуперЭВМ. Выпуск 2, М. ВЦКП РАН, 1994г., с.3-37.

50. Клямко Э.И. Схемный и тестовый контроль автоматических цифровых вычислительных машин. М.: Советское радио, 1963.

51. Akers S.B., On a Theory of Boolean Functions, J. Soc. Ind. Math., 7,4, 1959.

52. Hsiao M.Y., An Algebraic Transformation Method of Simplifying Boolean Functions, Nat. Electron. Conf., Chicago, CP, 63-1468, October, 1963.

53. Г.Чжен, Е.Мэннинг, Г.Метц, Диагностика отказов цифровых вычислительных систем. М.: Мир, 1972.

54. Сапожников Р.А., Бессонов А.А., Шоломицкий А.Г., Надежность автоматических управляющих систем. М.: Высшая школа, 1964.

55. Янкевич Е.А., Градов Е.С., Торчигин С.В., Макетирование исполнительного устройства процессора гибридной архитектуры // С.А. Лебедев и развитие отечественной вычислительной техники, Москва, 2002, стр. 176-180

56. Армстронг Ж.П. Моделирование цифровых систем на языке VHDL. М.: Мир, 1992.

57. Соловьев В.В. Проектирование цифровых систем на основе программируемых логических интегральных схем. М.: "Горячая линия-Телеком, Радио и связь", 2001.

58. Стешенко В.Б. ПЛИС фирмы "Altera": Элементная база, система проектирования и языки описания аппаратуры. М.: "Додэка-ХХГ, 2002.

59. Яицков А.С. VHDL язык описания аппаратных средств: Учеб. пособие. — М.: МАТИ-РГТУ "ЛАТМЭС", 1998.

60. Разевиг В.Д. Система проектирования цифровых устройств OrCAD. М.:"Солон-Р", 2000.

61. Антонов А.П., Мелехин В.Ф., Филиппов А.С. Обзор элементной базы фирмы ALTERA. -СПб.: Файнстрит, 1997.

62. Altera Corporation. APEX 20К Programmable Logic Device Family. Data Sheet. August 1999. ver.2.02.

63. Altera Corporation. Hardcopy Stratix device family. Data sheet. June 2003.

64. Altera Corporation. FLEX 10KE Embedded Programmable Logic Family. Data Sheet. June1999. ver.2.01.

65. Altera Corporation. Quartus Brochure. October 1999.

66. Шнитман B.3., Кузнецов С.Д. Аппаратно-программные платформы корпоративных информационных систем Электронный ресурс. // Центр Информационных Технологий. 1996. - Режим доступа: http://citforum.ru/hardware/appkis/contents.shtml. -Загл. с экрана.

67. Шнитман В.З., Кузнецов С.Д. Серверы корпоративных баз данных Электронный ресурс. // Центр Информационных Технологий. 1997. - Режим доступа: http://citforum.ru/database/skbd/contents.shtml. - Загл. с экрана.

68. Пескова С.А., Гуров А.И., Кузин A.B. Центральные и периферийные устройства электронных вычислительных средств; под ред. О.П. Глудкина. — М.: Радио и связь, 1999.

69. Опадчий Ю.Ф., Глудкин О.П., Гуров А.И. Аналоговая и цифровая электроника. М.: Радио и связь, 1996.

70. Левин И.И. Модульно-наращиваемая многопроцессорная вычислительная система со структурно-процедурной организацией вычислений на основе ПЛИС-технологии. // Научно-теоретический журнал "Искусственный интеллект".- 2003. №4. - С. 446-453.

71. Кузьминский М., Волков Д. Современные суперкомпьютеры: состояние и перспективы // Открытые Системы. 1995. - №6. - С.33-40.

72. Гиндбург А., М. Милчев, Ю. Солоницын, «Переферийные устройства» // СПб: ПИТЕР, 2001

73. БВО блок вещественных операций1. БГП буфер готовых пар

74. БПЦСО блок простых целочисленных и специальных операций1. БК буфер команд

75. БЦО блок целочисленных операций1. ВМ вычислительная машина

76. ВСАРР вычислительная система с автоматическим распределением ресурсов1. ИС интегральная схема

77. ИУ исполнительное устройство

78. КМАП коммутатор модулей ассоциативной памяти

79. МАП модуль ассоциативной памяти

80. МИУ многопоточное исполнительное устройство

81. ООЗУ общее оперативное запоминающее устройство

82. ПЛИС программируемые логические интегральные схемы

83. САПР система автоматизированного проектирования

84. СВК схема встроенного контроля1. УУ устройство управления

85. УУСК устройство управления системой контроля

86. ФУ функциональное устройство