автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Исследование и разработка способов и средств обеспечения отказоустойчивости многопроцессорных вычислительных систем с программируемой архитектурой
Автореферат диссертации по теме "Исследование и разработка способов и средств обеспечения отказоустойчивости многопроцессорных вычислительных систем с программируемой архитектурой"
Государственный комитет РООСР по делам науки и высшей школи НАУЧНО—ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ МНОГОПРОЦЕССОРНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ (НИИ МЗС) при Таганрогском радиотехническом институте им. В.Д.Калмыкова
На правах рукописи Для служебного пользования Экз. N 1 | УДК 631.324
СИВЦОВ Се?ргсзй АлексанАРОВич
ИССЛЕДОВАНИЕ И РАЗРАБОТКА СПОСОБОВ И СРЕДСТВ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ МНОГОПРОЦЕССОРНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ С ПРОГРАММИРУЕМОЙ АРХИТЕКТУРОЙ
Специальность 05.13ь 13 — вычислительные ¡:а:зины, комплексы,
еистены и сети
ЛВТ0РЕ0ЕРАТ . диссертации на соискгм-к'гсг ученей степени кандидата технических нгук
1аганрог -
1991
Работа выполнена в НИИ многопроцессорных шчр;-питеяьны£ истлей при Таганрогском радиотехническом институте им.В.Д.КалмыкоЕа.
Научный руководитель доктор технических наук, профессор Макаревпч О.Б.
Официальные оппонентк доктор технических наук, профзссор
До донов А. Г. кандидат технических нау:; Зайко В.Г.
Ведущее предприятие НИИ Приборостроение, г. Москва
ъ
Зафиа диссертации состоктсл " г? '• 1391г.
в ^ часов на заседания стц^члгэяронаппога совета Д 063.13.01 по защитам дасоартаций па осшскапш ученой степени доктора технических наук при Тсгкгрсгсхсогл радио гехнеческс.-л институте им.В.Д.Квлмыхога (347928, Таганрог, Чэхоза, 2 )
С диссертацией ыокяо ознакомиться в библиотеке Енсштута.
Автореферат разослан 1991г.
Ученый секретарь специализированного совета доктор технических нау*:
В ЛЬ Рогозов
:. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
АКТУАЛЬНОСТЬ РАБОТЫ. Постановка вычислительных экспериментов цельв моделирования реальных физических процессов, решение задач [алнза и прогнозирования природных явлений, задьч САПР и других !язаны с необходимостью обработки больших массивов данных, что сет Сыть обеспечено применением мощных многопроцессорных [числительных систем. Высокая производительность, гибкость. я Дельность, возможность эффективной реализации. широкого класса ¡дач, за счет их адекватного отображения на архитектуру, ¡условливаит зфЗ&ектишость использования многопроцессорных :числятельных систем с программируемой архитектурой (Е£Вй ПА), лачапдих в свой состав множество процессорных элементов (ЬЭ). 'вышение производительности МВС ПА обеспечивается увеличенная личества ПЭ в составе решающего поля, что вызывает ухудазигэ деззостных характеристик.
Устранение отказа в вычислительных системах, не обладащзх . ойстеом отказоустойчивости, вызывает длительные простои и нз. зЕОляет использовать систем в автономном режима. Требуемый овень надежности в течение заданного времени функционирования Еысокая скорость восстановления могут быть обеспечены сзойствс/д казоустойчивости МВС ПА.
Существенным' фактором при обеспечении отказоустойчивости и ганизации гарантоспособных вычислений на МВС ПА является кращение накладных расходов, сзязанных с обработкой отказа ПЭ- В язи с этим исследование и разработка средств, обеспечивающих казоустсйчиьесть, минимизацию Ерэмени восстановления • '-шслительных процессов в ИЗС ПА после возникновения нештатных туащй! в рзботе и высокую достоверность йункционирозания, ляются актуз.г"7г.а.
ЦЕЛЬЮ РАБОТЫ является исследование и разработка способов и эдств обеспечения отказоустойчивости многопроцессорных числительных систем с программируемой архитектурой атрализованвым управлением, распределенной памятью л ^мутационной системой матричного типа, гарантирувдих ^активнее фушздюнированиэ в условиях отказов ПЭ.
Для достижения поставленной цели необходимо: разработать модель надашости, учитывающую параметры эцедуры обработки ошибок, и . методику надежностного
проектирования МВС ПА;
- разработать комплекс средств, обеспечивающих высокую сг.ороо рвкон!игурации структуры коммуникационных связей решаизего поля I для ЫВС ПА с коммутационной системой матричного типа;
-- разработать эффективные средства управления восстанозлешн вычислений в МВС ПА после возникновения сбоев и омазо^;
- разработать средства контроля узлоь увр^-Елская с ц-_д повышения достоверности функционирования ПЭ и исдсгстем ЬЕС ПД.
МЕТОДЫ ИССЛЕДОВАНИЙ основаны на исгользсзангь: аппарата тгзр: вероятностей, теории нэд«*л&ети, теории вычислительных сиотэ теории случайных процессов, теории мнояеств.
НАУЧНАЯ НОВИЗНА. Разработан комплекс средстз, обеопачивакц возможность эффективного функционирования Е^соясаршзЕодител;,:! ЫВС ПА в условиях отказов, в том *£исле:
- разработана математическая модель нада^ностл 5£ЗС Ii позволящая, в отличие от известных, учитывать харэкт&ристт; средств обнаружения и устранения отказов, и ¿зтодяха нядежиостдс проектирования, отличающаяся от традициииных возможностью вибс стратегий' использования вычислительных ресурсов и средс обеспечения безотказности критически ресурсов, что повши надежность и эффективность функционирования ИБС ПА;
- разработаны ноше способы реконфигурации квЕпроцессор! свяаей после отказа процессорных элементов МВС ПА с кокмутациош системой матричного типа, обеспечивавшие сокращение вромеш затрат на перенастройку, по сравнения с традиционные, и метода выбора соответствуйтего способа рекоифигурац/и;
- предложен способ восстаяовления параллельного Еычлсллтельш процесса посредством управляемого отката и рззрэбот) соответствующие алгоритмы формирования контрольных записей и ли отката, сокращавшие время восстановления- по сравнению с извест способом формирования обобщенного восстанавливаемого блока реализацией восстановления с неуправляемым откатом за с устранения аффекта порожденного отката;
- разработан способ контроля последовательности микрокоманд циклическими участками в процессорных элементах МВС ПА, в отли от известных, сокращающий объем эталонных кодов завершения.
ПРАКТИЧЕСКУЮ ЦЕННОСТЬ работы представляют:
- методика надежностного проектирования КВС ПА;
- . разработанные средства управления реконфигурац
межпроцессорных связей в МВС ПА, , структура соответствующих им коммутационных устройств, применение которых сокращает время перенастройки коммутатора посла. отказа ГЕ, и инженерная методика-выбора способа реконфигурации;
- алгоритмы формирования корректной линии отката и кочтрочьных записей, применение которых позволяет ■ сократить время восстановления параллельного вычислительного процесса посла отказа ПЭ по сравнению с алгор:тмами обобщенного восстеяав.' заемого блока и восстановления с неуправляемым откатом;
- структуры устройств . лкропрограммного управления с контролем последовательности микрокоманд и ео^становлением после сбоев, применение которых повышает достоверность функционирования■ ПЭ МВС ТА по сравнению с .-радиционными микропрограммно управляемыми процессорами.
РЕАЛИЗАЦИЯ РЕЗУЛЬТАТОВ РАБОТЫ. Материалы диссертационной заботы использованы при выполнении1 следующих
заучно-исследовательских работ:
- "Разработка технического проекта вычислительного комплекса 5ля цифрового моделирования задач, создание экспериментального збразца. процессора ЕС 2703 и проведение исследований на зействущем экспериментальном образце" (Л ГР 01840073060 >, гыполненного. для НИЦ 5ВГ в сотнетотеии с проблемой 0.80.15 сомплексной программы 0.80.14, тема 01.10 по Постановлению ГКНТ :ССР и Комиссии президиума ОМ СССР Я 442/377 .от 20.II.81г. и шиказа Минрадиопрома СССР и Минвуза РСФСР от 20/31.07.81г. 3 378/459 (ДСП);
"Разработка - технических предложений по созданию ^числительного комплекса на базе ЕС 2703 для ЕС ЭВМ "Ряд 4" и резедение экспериментальных исследований по обоснованию ■ехничвсхис требований" (Л ГР 01880077320), выполненной на сновании Указана зам. руководителя Минрадиопрома СССР & 233 от 3.04.85г.
- "Разработка теории, принципов построения и организации ниверсальпых и проблемно осиентированных вархвысокопроизводительшх многопроцессорных вычислительных истам с программируемой архитектурой" (Я ГР 018700141ЭЭ), цполняемой по Постановлению СМ СССР .'5 328 от 05.10.85г.
Кроме того, результаты работы были использованы при создании
непосредственным участием автора технического проекта н°.
вычислительный комплекс ЕС1061-ЕС2703 (15-214-30157), а такте экспериментального образца вычислительного комплекса, действующий макет которого был принят комиссией и рекомендован для серийного изготовления.
Результаты диссертационной работы внедрены на ряда отедзриятий. г.Москвы и г. Нальчика. Экопсг,;т*;зск.£; эффект ст внедрения составляет 34.5 тыс. рублей в год.
АПРОБАЦИЯ РАБОТЫ. Основные результаты работы доклэдыг'злкзь к обсуждались на: Всероссийской конференции 'Новые электронные приборы и устройства" (г. Москва, 1983г..|; Еса союзной научно-технической конференции "СоЕвраенстЕованкэ устройств памяти информационных, компьютерных и робототехнических систем" (г. Москва, 1988г.); Всесоюзной школе-семинаре "Разработка и внедрен:«; в народное хозяйство персонал&шх ЭЕЧ" (г. Млнск, 19387.); Всесоюзной научно-технической конференция: "Еивучесть и реконфигурация информационно-вычислительных и управляющих систем" (г. Москез, 1988г.); Всесоюзной школэ-сеьянарв "Разработка л внедрение в народное хозяйство ЕС ЭВМ" (г. Киев, 198Эг,): научно-технических конференциях.профессорско-преподавательского состава,, аспирантов и сотрудников ТРТИ (г. Таганрог, 1987-1991г.г.).
ПУБЛИКАЦИИ. По результатам диссертационной -работы опубликовано' 15 печатных работ, и том числе 2 авторских свидетельства на изобретение и 3 положительных решения о выдаче авторского свидетельства на изобретение.
СТРУКТУРА И ОБЪЕМ РАБОТЫ. Диссертационная работа состоит из введения, четырех разделов и заключения, изложенных на 2СЭ страницах, содержит 66 рисунков, 106 наименований библиографии и 16 страниц приложения, всего 239 страниц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цель и задачи исследований.
В первом раздела проЕвден анализ влияния архитектурных особенностей МВС ПА на надежностные свойства и выполнено исследование способов обеспечения отказоустойчивости, позволяющих проектируемой системе функционировать безотказно в течение заданного времени с минимальным ухудшением" производительности.
Рассматривается базовая МВС ПА, в состав, которой входят:
[одсистема обработки, состоящая из S4 процессорных элементов, тзтрзпннй коммутатор (Ж), предназначенный для реализации как !б1-ироцессорЕЫХ обменов, так и передачи информации мекду ПЭ ¡г иенними устройствами, и подсистема управления, включающая ирввлящиЗ процессор (УП), общесистемную память, процессор ;бггапов. Совокупность ПЭ, каядий из которых имеет собственную <а:.ать программ и.память данных, составляет решапцее поле МВС ПА, :а котором могут быть организованы динамические подсистемы группы) процессоров, соответствующие структуре решаемых задач, 'езресурсныэ обмены осуществляются по прямым каналам, ¿встраиваемым з среда матричного коммутатора по командам гроцвссора обменов. Организация • вычислительного процесса на ззпавдем поле МВС ПА осуществляется под управлением УП.
Аналаз структуры и состава базовой МЕС ПА показал, что .тсудшенке вероятности безотказной работы, обусловленное большим соличеством Ш, мотпет быть компенсировано посредством азианического резервирования и реконфигурации решающего поля на зсновэ стратегий замещения или деградации. Требуемая вероятность безотказной работы подсистемы управления, отказ которой вызывает знезапный останов всей МВС и классифицируется как критический, ■тонет быть обеспечена резервированием соответствующих устройств « !лсков.
Для анализа надежностных свойств,. обоснования требуемого фовня резервирования соответствующих подсистем и ьыбора средств збработют нештатных ситуаций проектируемой МВС ПА, включэющой в звой состав H ПЭ, к из которых могут Сыть резервными и ^пользоваться в рэняме нагруженного (г=С) и ненагруженного. Гг=1) резерва, разработала модель обработки оиибки в базовой МВС IA, па основе которой определены соотношения для определения звроятноси! успешного завершения восстановления функционирования 5=a(qo6E.gP9K,(7I5:iTOT), где qo6HiqPSKr(?BoccT_ вероятности сорректного ' завершения процедур соответственно обнарукения, зеконфагурации и восстановления, л модель надекности МВС ПА
R=f(N,k,r,e,t);
Rjt=f(N,k.,Vjc, t ),
збеспечивающая возможность исследования вероятности безотказной заботы R и критической безотказности Е^ (вероятности возникновения критического отказа), обусловленной существованием л. критических подсистем.
Б работе . предложен критерий оцегси крл-пяссгхХ; безотказности, в соответствии с которым уровень безотказности каждой из критических подсистем 'должен быть на ниже вероятности отсутствия критического отказа Rg для худшей из множества Q некритических подсистем в течение всего времени- ^.ЕлЦЛОШфОЕапия. При этом, для определения корреляции цены критического отказа и условий эксплуатации проектируемой сиатегш псп^ьзсеин статистически отоеделяемый параметр . Де(0,1]. СоответсхвуюсЕй допустимый уровень критической безотказтюсти опродалзн свагноиением
Rv(í)?- lili [RS,ít)]-A. itQ
исследование базовой MEG с использованием предал озленной
р
модели показали, что за счет резервирования реращэго поля пр;. ухудеении производительности на 3-5» вокиошо увехдовиз Бремена безотказной работы в 1.5-2 раза.
На основе модели нгдежностк базовой МБС НА разработаны оцезк-i ожидаемой производительности, нозволяндио обосновать Еыбор стратегии использования вычислительных bjcypcc.: (деградация, замена) с целью, минимизации потерь прокзЕодаольЕооти глг устранении отказов.
В качестве критерия ЕЫбора стри'.агки п работа - ^адлосса язраеегр D - суммарное количество эффективна* 'вычислительных операций, выполненных КВС ПА за время функционирования. Представлены оценки суммарного количества эффэктшшкх отторгший п течение Тф с времен.-». восстановления Ат^, значения которого определены на основе анализа Ерэкапных параметров модели обработки отказа для ?ЛЕС ПА, ориентированной но прзменониз деградации { и , -ДТр ) и замещения ( D", Ат^ ), на основании которых определены условия эффективного использования указанных стратега?, соответственно в виде
£ - "чв ф 2 " В ' " В 1 ф 2'
При этом для МВС ПА, процессора, з элементы которой объединены в Npp динамических подсистем, к моменту времени, когда создается не менее чем KtPJ отказов ИЗ, параметры Ф1 определяются
зависимостью
(К,k,N^,Н[р]), . 1=1,2.
J. i ^
Исследования базовой ЛВС ПА в соответствии с критерием ■ максимального количества эффективных операций показали, что при
« ¿'с? оел?<? ьзфактизна стратегия замещения.
'Лч еекзъ? разработанных модели надежности и оценок временных ^ЕВД'ЮТрое процедур устранения отказов предложена методика здежноствзго проектирования, обеспечивающая возможность 55снаванпя выбора стратегии использования Еычис.^тельных ресурсов обеспечения безотказности ресурсов управления.
Основным средством обеспечении устойчивости к отказам МВС ПА psO'jTe принято динамическое резервирование решающего поля, при 1-гором процедура обработки отказа включает рекйнфигурацию тук туры межпроцессорных связей EJBC ПА и восстановление :тисдктельного процесса. Требование минимизации врекензпг потерь обработку отказа обусловливает необходимость сокращения зуени реконфигурации и восстановления. В сгя?п с этим, во втором здз.че рабсты проведены исследования и разработка способов и едете рбкзнфктурзции структуры связей в подсистеме коммутации тричного типа.
Для базовой ЩС ПА. представленной тоюгаством процессорных ээтегов PIPP03 С р, Р0ТКС Р, pi»3 П ?отк=0, где рР®3 К Ротк-згс-этствввно подааогвстпа резервных и откзза.'^шх ПЭ. ?з.тлельный вычислительный процесс в которой представлен графом 1,1), задача реконфигурации поело отказа состоит в реализации мшкестве F=P\P0TK некоторого процесса G'(V',I'), адекватного :одис:,!у. Для этого при Р П рогк yiQ и необходимо Р=?\Р0ТК
»TK.pOTK, pOTSf ротк, р}, Р=? U рР93, ррвз€ ?вез. В базовой JSC
указанная процедура требует выполнения полного перебора Х'ментов настройки fЛг.
На основе анализа задачи реконфигурации пскЕ.гагс: -.злсягасть процедурной, тек л структурной ее реализации, 1гр-з.':,„ож»р\ новые ссбы реконфигурация, осЕОзаншэ нз корректировке каналов чдччи (ККП)* корректировке списка соединений (КСС) t яЯлкацкз адреса настройки (МА).
Перенастройка с использованием ККП обвспеч;:во<этся ззлднивм в структуру Ш входных I я выходных коммутационных •;ое, что позволпэт выполнять реконфигурацию без изменения ?ett в основном матричном ког.мутаторе зз время, сравнимое с шчыи тактом. Использование средств ККП требует существенной ¡рзтной избыточности и вызывает необходимость жесткой фиксации рвшх ПЭ за соответствующими входами и выходами коммутатора, определяет целесообразность использования таких средств только
.три проектировании структурно надежных систем. В связи с этим, в качэстье базовых' для выполнения реконфигурации после отказов; в ЖС ПА приняты способы перенастройки'КСО и MA.
Корректировка списка соединений включает Еыбор точек коммутации, размещенных в файлах настройки, реализуемый на основе обработки соответствующих ссылок, и корректировку адресов в соответствии с алгоритмом
vieil,N] ! A^<i)=A°TK —+_ Ах(1):=АРвз,
Vietl.N] ! A,r(i)=A?rTK —» A,r(i):=A?®3.
Достоинством перенастройки с использованием KCG является высокая скорость реализации, отсутствие ограничений на гибкость использования вычислительных ресурсов МВС Па и возможность динамической корректировки уровня резервирования при изменении заданий.
Использование для выполнения реконфигурации после отказа ПЭ способа модификации адреса настройки позволяет исключить процедуру, корректировки списка соединений и восстанавлирзть работоспособность технических* средств решающего поля непосредственно е ходе настройки МК, что обеспечивает возможности повышения скорости перенастройки. Недостатком способа MA .является необходимость выполнения процедуры модификации во Еремя настройки МК для Есех последующих после фиксации отказа ПЭ межпроцессорных обменов.
Анализ процедуры реконфигурации показал, что существует
значение интенсивности обменов Sm, при котором суммарные
i ¡j
временные затраты на перенастройку способами КСС и MA с параметрами сложности соответственно Fj^q и р'^д раЕШ. Значение граничной интенсивности межпроцессорных обменов, определяющее область эффективного использования соответствующих - алгоритмов реконфигурации, представлено соотношением
Л ,р -т..F с = пр jkcc ма
FM3C1-P(x<T0 )1DT -
где йдр- количество - программ настройки МК, 1 - ожидаемое количество отказов ПЭ, Р(т<Т_) - вероятность отсутствия отказа Ю в интервале (О.З^рЗ.Так при S<S^p более эффективен ; алгоритм MA, а при S>Srp- алгоритм КСО. ' " 7
С целью сокращения суммарных временных затрат на выполнение
ад конфигурации структуры кеяпроцоссорзш сЕязей в работа предложен :пособ перенастройка с адаптацией к интенсивности межпроцессорных збменов, основанный на совместном использовании КСС и ИЛ.'
Анализ задач с 11^=20-50 при допустимой деградации 1-4 ПЭ и !е пскззал» чт0 использование разработанных способов
гз срзвненкп с базовым позволяет сократить суммарное время :астройки Ж в 3-4 раза, а настройка с адаптацией к интенсивности теютоцессорннх обманов сокращает суммарные временные затраты по ¡равнению с КСС и МА соответственно в 1.1 и 3 раза-. .В работе ггедлохена инженерная методика выбора средств управления ^конфигурацией после отказа Ш и ряд техничесгсо: решений, ¡редставлчящих собой коммутационные устройства для 1.3С ПА, таекткрсЕзнной на функционирование в условиях отказов.
Тгэт'-гй раздел работы посеяявн исследованию и разработке пссобсз и сведстз управления восстановленном вычислительных ■рацессав в ГЛВС ПА. особенностью которых является возможность •эализает коапрскзссоршх обменов и доступа к каналам шепнах 'стрсйств с децентрализованным управлением.
Сложность процедура восстановления параллельного ^числительного процесса заключается в необходимости учета нформацконной зависимости г«твей, реализуемых различными ПЭ, стстзая приводит к возникновению эффекта порогщенного отката змедляет процедуру восстановления. Известный метод обобщенного останавливаемого блока позволяет исключить возможность озникновения эффекта порожденного отката, однако, предполагает еобходимость отката всех ПЭ, введенных в сос;-.обобщенного лока. независимо от типов заверивших иеяпрокзссорн;т; обменов.
Для параллельного процесса, представленного моделью,
ключающей множество ПЭ Р={р^>, 1=Т7Я, реализующих элементарные
□оцессы, для кавдого из которых существуют множества точек отката
сообщений КЗС^гг.зй^.^ и локальных интервалов оомэна
т =-С 1п } ^, на котсшх определены соотвегствущие отображения,
здача корректного восстапоЕлекил состоит в формировании линии
жата 1КР, представляпдей ' собой ссЕОкупность точек
к
НРЧ, 1ДР= и гр-■ (кг31), возврат к которым обеспечивает
+ 0 + -»-Л
:сутстЕие эффекта поровненного отката. В представленной ¡становке необходим откат только зависимых ПЭ. Ка основе анализа дали " предложен способ восстановления с предварительным
'момент отказа ГО, который реализован на базе управляемого отк£Л-а и предполагает той выполнении межпроцессорных обменов и организации контрольных точек централизованно управляемое создание контрольной записи из элементов ЬЬА^, каждый из которых представляет собой совокупность Кч идентификаторов ВЬА,
т » . ГТТ д 1гН V II'
. ^ Х^Х^Л ^ , ^ V, Ч I * I * , 4- ^ А-
мл. ^
Г.Т А ./ГА "ПТ ТЭрч
■ X 11' х ^ 1 иГ ^ щ
где ТЛ - логическое имя зависимого ИЭ; 21 - дескриптор, -пжяплякций вид обмена зависимого Ю; НР - номер точки отката, соответствующей зависимому ПЭ.
Разработаны алгоритмы форлшрования контрольной записи Ид параллельного процесса и корректной линии отката 1ЛР, реализущие предложенный способ восстановления , и алгоритмы реализации известных способов обобщенного восстанавливаемого блока и неуправляемого отката на базовой ЫВС ПА и выполнены оценки их эффективности, при этом в качестве параметров сравнения
•'лгтл ттт. ГЗ/-.-0 охлт от\&»дст ■о^рогпоттп^' тагттХа Ф пл»т1г»'огУпг,,Ггг V
ИЛАЛ. и ^СииА ииОи X 1аГХ>_^./АСЛХ«АЛ А 2 у ГЮ 11 1,1X^X1 Л X и X •шГ 1 л А
обмену Кго.
Анализ процедур отката показал, что использование представленного способа позволя^тч сократить время восстановления вычислений в МВС ПА по сравнению с методом обобщенного восстанавливаемого блока е 1.2 ра§В\(для средних оценок), обеспечив при этом К„_=1, и по сравнению с процедурой
А О
неуправляемого отката - более чем в 10 раз.
3 работе предложены структуры устройств, обеспечивающие организацию автономного восстановления ПЗ.
Существенное значение для МВС. ПА, ориентированной на отказоустойчивое функционирование, является высокая достоверность. 3 связи с этим е четвертом разделе диссертационной работы проведены исследования и разработка средств контроля.
Средства обеспечения требуемого урошк достоверности функционирования устройств обработки известны и основаны на использовании кодоеой избыточности. Наибольшей сложностью характеризуется обнаружение ошибок, ьозникаших в устройствах управления, идентификация которых традиционными средствам:! затруднительна. К опискам такого вида относятся некорректное
Формирование последовательности управляющих сигналов и команд ГО. Применение известных методов для контроля последоватольпоата микрокоманд, ' содержащих циклические участки, шзавззт' необходимость существенного увеличения объема памяти для граненая эталонных кодов завершения, с целью сокращения количества которые и повышения достоверности функционирования Ш в работе прпдлоз&н способ контроля последовательности микрокоманд с преобразованием тэкущэй сигнатуры последовательности, адресов, реализуемый посредством избирательной марирутизации (КЫ) или корректировки текущей контрольной сигнатуры (КС) при прохождении циклических участков микропрограммы.
Контроль осуществляется сравнением текущих сигнатур последовательности адресов микрокоманд с эталонны:® кодами завершения, каждый из которых соответствует уникальному маршруту микропрограмма. При этом непосредственно сравнение наполняется а течение такта, завершающего выполненга «якропрограгаы, что но требует введения избыточных интервалов времени для контроля. Использование предлагаемого способа контроля предполагает Формирование текущей сигнатуры последовательности адресов микрокоманд только при однократном прохождении по телу цикла либо-выполнение соответствующей корректировки текущэй сигнатурисЗ СЕэртки адреса, что позволяет сократить количество эталонных кодов завершения, в «>=0((к+1 )т~1 .пт/ш) раз, где. т - среднее количество циклических конструкций в соответствущих ветвях алгоритма, к - усредненное число ветвлений, влоганных в'циклы, п -усредненное по числу циклов допустимое количество итераций.
Для сценки достоверности функционирования ~, ""яячащего V. контролируемых блоков, с учетом предлагаемого способа контроля представлена математическая модель вида
•%*№[ ¿V Ч'*0®*]'
где Рд-вероятность безотказной рабохы—контролируемого устройства,
- методическая вероятность обнаружения ошибки принятым средством контроля, Р^ - вероятность безотказной работы конгролируших органов, К^ и Кт - коэффщиенты пространственного и временного охвата контролем соответственно/ Коэдациента.Н^ и К, характеризуют объем неконтролируемого оборудования и время, в течение которого контролирующие устройства нечувствительны к возникновению ошбок.
Исследования эффективности средств контроля показали, что использование предложенного способа контроля позволяет повысить достоверность, функционирования ПЭ по сравнении с базовым на 1055.
Ка основе анализа структуры МВС ПА и организации вычислительных процессов разработана система контроля к диагностики, включающая специализированный процессор контроля.
Ка основании представленных моделей а оценок е работа ' предложены соответствующие методики, обеспечивающие проектирование !.ЭС ПА, ориентированных на отказоустойчивое функционирование с минимальными потерями производительности.
3 заключении обобщаются основные теоретические к практические результаты, пслученные в диссертационной работе.
3 приложении представлены текст программы, осуществляющей ХсрмироЕЗние контрольных записей и линии отжата ПЗ для параллельного процесса и результаты ее работы, а также документы, лодтЕврзшаюшш факты внедрения результатов дассертациодаой работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ и
Основным научным результатом диссертационной работы является разработка комплекса способов и средств, обеспечивающего возможность эффективного функционирования высокопроизводительной ЖС ПА в условиях отказов, с минимизацией потерь производительности и высокой достоверностью.
Основные теоретические и практические результаты исследований заключаются в следующем:
1. Разработана математическая модель надежности МВС ПА, позволяющая, в отличие от известных, учитывать при оцерке параметров проектируемых систем характеристики средств обнаружения и устранения отказов.
2. Разработана методика надежностного проектирования МВС ПА, ориентированных. на отказоустойчивое функционирование, обеспечивающая, в отличие от известных, еозмозшость выбора стратегии использования ресурсов решающего поля МВС ПА и средьтв обеспечения безотказности критических ресурсов, что поеышзэт надежность и эффективность функционирования МВС ПА.
с. Проведен анализ процедур организации межпроцессорных взаимодействий, на основе которого разработаны новые способы реконфигурации межпроцессорных связей после отказа процессорных
огэнтов в LSG ПА, обеспечивапдга, ■ по сравнению с известными, кращоЕЛЭ вротапя перенастройки коммутатора в 3-4 раза, зрвботаш классификация способов реконфигурации мевпроцессорных' язей поста отказа процессорных элементов и кетодика выбора ответствувдого способа реконфигурации. Предложены технические еочия для реализации разработанных способов, выполненные на оенз изобретений.
4. Выполнены ана.:из и исследование задачи восстановления раллэльного еычисл1.--ильного процесса в МВС ПА, на основе которых зрзботан ко .ый спсссб восстановления, исшглчвпций возникновение фокта nopoi еняого отката и позволяющий за счет этого сократить "ISO время '.юсстановлегшя корректных вычислений посла отказа оцессорного элемента в 1,2 паза. В соответствии с предложенным ccüOom разработаны алгоритмы формирования совокупности нтролышх записей и корректной линии отката.
Разработаны средства автономного восстановления вычислений процессорных элементах МВС ПА после cöoeE.
5. Разработан новый способ контхюля узлов управления СШССОР1ЩХ элементов МЕС ПА, в отличие от известных сокращающая ъ:и эталонных кодоп завершения и повыпвщий достоверность еаг:экированЕЯ в 1,1 раза за г*гет организации непрерывного нтроля текущих адресов микрокоманд в микропрограммах с циклами.
G. Практическим результатом работы являются а."лратно-згрсммныэ средства управления реконфигурацией,- воьгт^Г'ияечием числений в ЫЗС ПА, включая специализированный процессор нтроля, испытания которых проведены в состава мкс "-ггооцессорной отека ЕС 2703.
Основные результаты диссертации опубликованы' в следующих "отах:
1. Ыакаревич О.Б., Сивцов .. CepEmndt чпроцэссор для зтеки технического обслукиЕакия !iB0. /В кн. Многопроцессорные делительные структуры.- Таганрог: ТРТИ, 1587, вып. 9 (X7III),
67-68.
2. Макаревич О.Б., Бабенко Л.К., Сивцев O.A. Организация нтроля и диагностики многопроцессорной вычислительной саствиы/ П ;сопзная научно-техническая конференция. "Еявучэсть и сог.Ззгурация Ен5ор,:ационно-вычислитэльЕых и управляющих ;тоц".- Ы., 1938, Вкл.2, с. 74-76, (ДСП).
3. Севцов 4 С.А., Салатов A.n. Сервисный процессор
многопроцессорной вычислительной системы на базе ПЭВМ./тез.докл. Всесоюзной школы-семинара "Разработка . и внедрение е народа хозяйство пйрсональных ЭЕМ", ч.1, - Минск, 1988, C.I4I-I45.
4. МзкареЕич О.В., Еабенко Л.К., Сиецов С. Многопроцессорная вычислительная система с динаиичоск резервированием./Вопросы радиоэлектроники. Сер.ЭВТ, Выпй
с.52-60. ,
5. Сиецов O.A. Надежностное проектирование вычислитальн систем. / Деп. ВИНИТИ, 1989, J£6784-B89," - 37с. '
6. Сивцов С.А., Лесничий В.Н. Анализ методов обеспечен отказоустойчивости накопителе^ оперативных ЗУ./ Вопрс радиоэлектроники. Сер. ЭВТ, 1989, Вып.З, с.70-78, (ДСП).
7. Макаревич О.Б., Сивцов С.А. Организация отказоустойчиЕС функционирования процессора ЕС" 2723. /Тез.докл. ВсесопзЕ школы-семинара ЕС ЗЕМ-89, - КиеЕ, 1989, с.237-239.
8. Коммутационное устройство / А.В.Каляев, О.Б.Максрев? В.Р.Бартини.С.А.Сивцов, БИ й 2, 1991, а.с. I62I04I.
9. Микропрограммное устройство управления / А.А.Акулык 0.В.Катаев, С.А.Сиецов, БИ Я II, £391, а.с. 1636845.
10. Коммутационное устройство/ В.Р.Бартини, С.А.Сивцов заявка 4674519/24-24 (СССР). - Решение о выдаче а.с. от 27.I0.E
II. Сиецов С.А., Катаев О.В. О микропрограммной оргакиза1 автономного контроля и восстановления процессора МВС./Деп. ВИШИ 1990, & 549-ВЭО, 24с.
12. Еабенко Л.К., Сивцов С.А. Организация восстанови параллельного вычислительного процесса./' Деп. ВИНИТИ, 13' J54255-B9Q, - 32с.
13. Сиецов O.A., Еартини В.Р. Организация реконфигурз! решающих полей, обеспечивающая отказоустойчивость М /Межведомственный семинар "Повышение ■ эффективности зенита ракетного вооружения". Тез.докл. - Энгельс, 1990, с. 72-73, (ДС5
14. Коммутационное устройство/ С.А.Сивцов, В.Р.Еартш О.Б.Макаревич - заявка 4741289/24-24 (СССР) - Решение о выд; а.с. от 27.03.90.
15. Коммутационное устройство/ В.Р.Бартини, О.Б.Макэрок З.М.Пролейко, С.А.Сивцов - заявка 4813304/24-41569 (CCCF). Решение о выдаче а.с. от 27.02.91.
ОПТрТИ Зи. SSO TkA-ÖO зкэ. 499f.
-
Похожие работы
- Инвариантно-групповой анализ и синтез структур отказоустойчивых многопроцессорных вычислительных систем
- Обеспечение отказоустойчивости вычислительной системы с автоматическим распределением ресурсов
- Алгоритмические методы обеспечения отказоустойчивости вычислительных систем
- Метод, алгоритмы и аппаратные средства оперативного переразмещения программ в отказоустойчивых мультикомпьютерных системах
- Разработка методов обеспечения отказоустойчивости многопроцессорных вычислительных систем на основе перераспределения задач
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность