автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Исследование надежности отказоустойчивых вычислительных систем с учетом специальных процедур обработки сбоев

кандидата технических наук
Викторова, Валентина Сергеевна
город
Москва
год
1994
специальность ВАК РФ
05.13.13
Автореферат по информатике, вычислительной технике и управлению на тему «Исследование надежности отказоустойчивых вычислительных систем с учетом специальных процедур обработки сбоев»

Автореферат диссертации по теме "Исследование надежности отказоустойчивых вычислительных систем с учетом специальных процедур обработки сбоев"

РОССИЙСКАЯ АКАДЕМИЯ НАТО РГ8 ОД ИНСТИТУТ ПРОБЛЕМ ЭТРАВ^ЙИ«!

5 ..........на правах рукописи

ВИКТОРОВА ВАЛЕНТИНА СЕРГЕЕВНА

ИССЛЕДОВАНИЕ НАДЕЖНОСТИ ОТКАЗОУСТОЙЧИВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ С УЧЕТОМ СПЕЦИАЛЬНЫХ ПРОЦЕДУР ОБРАБОТКИ СБОЕВ

Специальность 05.13.13 -Вычислительные машины, комплексы» системы и сети

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва - 1994

Работа выполнена в Институте проблем управления

Научный руководитель: доктор технических наук,

профессор Волик В.Г.

Официальные оппоненты: доктор технических наук,

профессор Согомонян S.C. кандидат технических наук Нетес В.А.

Ведущая организация: Научно-исследовательский институт

"Научный Центр", г.Зеленоград

Защита диссертации состоится " "_ 1994 г.

в _ час _ мин на заседании специализированного

Совета N 4 (К.002.68.01) Института проблем управления РАН по адресу: 117806, Москва, ул.Профсоюзная, д.65.

Телефон Совета: 334-93-29.

С диссертацией можно ознакомиться в библиотеке Института проблем управления РАН

Автореферат разослан "_" __ 1994 г.

Ученый секретарь Специализированного совета кандидат технических наук

Ф.Ф.Пащенко

• ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. Использование вычислительных систем для управления ответственными объектами технологических производств, атомных электростанций, летательных аппаратов обусловливает выдвижение повышенных требований к надежности функционирования этих систем. Учет специфики вычислительной техники привел к трансформации традиционных методов обеспечения надежности в методы обеспечения сбое- и отказоустойчивости. Проверка проектных решений по обеспечению сбое- и отказоустойчивости управляющих вычислительных систем осуществляется на моделях надежности этих систем. Начальный этап развития области моделирования надежности отказоустойчивых управляющих систем (ОУВС), пришедшийся на 80-е года, характеризовался приложением традиционных моделей и методов анализа надежности к специфичному объекту - ОУВС; современный этап развития требует разработки новых моделей и методов, учитывающих способы управления отказоустойчивостью и порождаемые ими характерные особенности вычислительных систем. Основной особенностью обеспечения надежности ОУВС с программным управлением отказоустойчивостью является наличие специальных программно-аппаратно реализуемых процедур обработки неисправностей. В связи с этим большое значение приобретает разработка моделей и методов анализа надежности ОУВС с учетом специальных процедур обработки основного вида неисправностей вычислительных систем - сбоев.

Цель работы. Целью диссертационной работы является разработка моделей надежностного поведения ОУВС с программным управлением отказоустойчивостью с учетом

-многорежимности функционирования и изменения критерия работоспособности этих систем от режима к режиму;

-специальных процедур обработки неисправностей применяемых в подсистемах ОУВС и различающихся в зависимости от вида и режима работы этих подсистем.

Разработанные модели пригодны как для проведения анализа надежности ОУВС и оценки значений широкого спектра

стандартизованных показателей надежности, так и для реали-реализации алгоритмов выбора оптимальныхзначений параметров процедур обработки неисправностей.

Методы исследования. Основные результаты диссертационной работы получены с привлечением теории вероятности и марковских: случайных процессов, комбинаторных методов теории надежности, вычислительных методов линейной алгебры, методов динамического программирования.

Научная новизна. Сложное надежностное поведение ОУВС с программным управлением отказоустойчивостью требует осуществления декомпозиции модели надежности. Проведенный аналитический обзор известных моделей анализа надежности отказоустойчивых систем позволил сделать вывод о непригодности используемых в них принципов структурной и поведенческой декомпозиции при исследовании ОУВС данного класса.. В связи с этим предложен новый принцип временной декомпозиции модели надежности, позволяющий строить отдельные модели ОУВС для каждого из режимов функционирования, отличающегося надежностным поведением системы, а затем агрегировать их в единую модель.

На основе принципа временной декомпозиции построена модель анализа надежности ОУВС, учитывающая применяемые в них процедуры обработки неисправностей, специфика которых связана с невозможностью прерывания процесса управления для проведения мероприятий по восстановлению работоспособности.

На построенной модели реализована процедура динамического программирования, позволяющая выбрать оптимальные по критериям максимума средней наработки на отказ и минимума вероятности попадания в состояние опасного отказа - ОУВС параметры процедуры обработки неисправностей для вычислительных машин системы.

Для каналов связи ОУВС с объектом управления предложена комбинаторная модель надежности, новизна которой заключается в учете возможности возникновения одновременного сбоя нескольких устройств связи на одном интервале взаимодействия с объектом.

Для отказоустойчивых систем, допускающих при моделировании надежности использование принципа поведенческой декомпозиции, предложен метод определения основного параметра модели обработки неисправностей - вероятности успешного завершения выделенного этапа восстановления.

Практическая ценность. Разработанные модели и метода позволяют адекватно описывать надежностное поведение ОУВС и существенно повысить точность оценки показателей надежности ввиду учета специфичных именно для вычислительных систем типов неисправностей и способов восстановления работоспособности.

Реализованная на модели надежности ОУВС оптимизационная процедура позволила выбрать стратегию восстановления вычислительных машин, повышающую среднюю наработку на отказ системы.

На основе предложенных моделей и методов разработан комплекс программ анализа надежности и оптимального выбора параметров процедур восстановления, предназначенный для использования разработчиками ОУВС на этапах технического и рабочего проектирования.

Внедрение. . Результаты диссертационной работы были использованы при. проектировании сбое- и отказоустойчивых вычислительных систем в НИИ НЦ (г.Зеленоград). Исследование надежности этих систем с помощью предложенных моделей и методов позволило

- оценить эффективность' предлагаемых разработчиками мероприятий по обеспечению надежности;

- выявить и оценить вероятность возникновения комбинация неисправностей элементов управляющей системы, приводящих к катастрофическим последствиям.

Положительный опыт использования результатов работы подтвержден соответствующими актами.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на IV Всесоюзном Совещании "Надежность, живучесть и безопасность автоматизированных комплексов", Суздаль, 1988; Международной конференции

по вычислительным системам и информационной технологии, Австралия, Сидней, 1989; Конференции ШЕКО "Техническая диагностика 89". Прага,1989; VII Всесоюзной научно-технической конференции "Проблемы комплексной автоматизации судовых технических средств", Ленинград, 1989; Научном семинаре "Надежность и качество функционирования систем", Москва/МИИТ, 1990; ▼ Всесоюзном Совещании "Надежность, живучесть и безопасность автоматизированных комплексов", Суздаль, 1991; Всесоюзном Совещании "Проблема построения ..-,' перспективных бортовых управляющих вычислительных комплексов", Владивосток, 1991.

Связь диссертации с планом научных работ. Проведенные автором исследования выполнены по плану научно-исследовательских . работ Института проблем управления: тема 73-86/5-25 "Разработка научно-технических основ построения перспективных АСУ ТП и тренажеров для АЭС"; тема 72-88/12,5 "Развитие фундаментальных исследований и решение прикладных задач обеспечения надежности технических средств и систем управления, разрабатываемых предприятиями МИНприбора"; договор ИПУ с НИИ НЦ г.Зеленоград Я 173-90/05 "Исследование и разработка моделей, методов и программного обеспечения анализа надежностных характеристик отказоустойчивых и сбоеустойчивых конфигураций вычислительных комплексов"; тема 305-92/05 "Исследование механизмов обеспечения отказо-и сбоеустойчивости вычислительных систем и разработка принципов построения надежностных моделей".

Публикации. Автором опубликовано 11 научных работ по теме диссертации.

Структура и объем работы. Диссертационная работа состоит из 5 глав и приложения и содержит 130 страниц печатного текста, 34 рисунка, 5 таблиц.

.СОДЕРЖАНИЕ РАБОТЫ

В первой главе проведен аналитический обзор моделей надежности отказоустойчивых вычислительных систем. Все известные модели базируются на принципе поведенческой декомпозиции, подразумевающем раздельное моделирование "медленных" процессов возникновения неисправностей и "быстрых" процессов обработки возникших неисправностей. В качестве моделей возникновения неисправностей (МВН) обычно применяют комбинаторные модели, деревья отказов или марковские процессы с непрерывным временем, причем предпочтение в большинстве случаев отдается последним. Предпочтете марковских процессов объясняется тем, что только они позволяют описывать зависимость надежностного поведения подсистем, различные типы неисправностей, восстановление работоспособности на уровне всей системы в целом. Обработка неисправностей - многоэтапная процедура с известным порядком следования, временем проведения и распределением исходов каждого этапа, поэтому в качестве моделей обработки неисправностей (МОН) обычно применяют дискретные марковские процессы. Агрегация моделей происходит путем прореживания общего потока неисправностей МВН вероятностями успешного восстановления сбоев, полученными на МОН. Проведение подобной агрегации возможно при допущении о пренебрежимо малой длительности обработки неисправностей по сравнению со средним временем между их возникновением. Кроме существенного упрощения анализа надежности отказоустойчивых систем поведенческая декомпозиция позволяет снять проблемы жесткости, возникающие при решении систем дифференциальных уравнений, описывающих динамику распределения вероятностей по состояниям системы. Именно этот принцип моделирования был положен в основу широко известных автоматизированных систем анализа надежности - ARIES, HARP, SAVE, SHARPS.

Требования по учету длительности обработки неисправностей привели к разработке соответствующих моделей и

методов,которые нашли свое воплощение в автоматизированных системах анализа SURF и САКЕ. Оставаясь в рамках раздельного построения MBH и МОН, SURF и CARE учитывают при агрегации случайную произвольно распределенную длительность обработки неисправностей. В SURF учет осуществляется с помощью разновидности гамма-аппроксимации - .метода каскадов; в агрегированной модели CARS в явном виде присутствует зависимость переходных интенсивностей ' от времени,-что приводит к необходимости решения инге -тральных уравнений вида

P^t^oje-Jo^l'^ + 2 ¡Ъ? <х)\ v(x)e-4^i(X)dTdx.

к .к ' i?k m?ík mk 1?к

для нахождения распределение вероятностей по множеству состояний G агрегированной модели (i,k,m € G).

В результате проведенного обзора в диссертации делается вывод о непригодности рассмотренных моделей для описания надежностного поведения ОУВС с программным управлением отказоустойчивостью, в первую очередь, потому, что раздельное моделирование процессов возникновения и обработки неисправностей подразумевает немедленное прерывание работы системы на проведение восстановления, что невозможно осуществить для рассматриваемых управляющих систем, где взаимодействие с объектом управления реализуется по строго запрограммированному протоколу.

Во второй главе рассматриваются управляющие

вычислительные системы, отказо- и сбоеустойчивость которых обеспечивается введением резервирования основных аппаратурных блоков и программно поддерживаемых процедур восстановления информации, искаженной сбоями. Обоснованным выбором управления отказоустойчивым функционированием этих систем является гибкое программное управление, когда специальное программное обеспечение управляет согласованием параллельно работающих блоков, сравнением их выходов, запускает процедуры информационного восстановления, принимает решение об отключении неисправных блоков.

В результате проваленного в работе исследования надежностного поведения ОУВС с програмшшм управлением отказоустойчивостью выделаны следующие особенности; надекностного поведения, которые не нашли отражение в известных моделях анализа надежности:

1. Дискретный характер надежностного поведения.

При программном способе управления отказоустойчивостью функции аппаратных восстанавливающих органов реализуются программными процедурами. Для работы этих процедур выделяются определенные р а вноо т с то .тдие друг от друга промегхуткл времени» так называете интервалы согласования. Во вреия согласования осуществляется проверка на совпадение выходной информации параллельно работающих узлов системы и из. блокировка при' выявлении факта несовпадения. Таюш образом, реакция системы на возникшие неисправности выдается лнеь в определенные моменты зре?.:эшг, соответствующие окончанию согласования.

2. Многообразие типов неисправностей

Кроме общепринятого деления неисправностей вычислительных систем на сбои и постоянные отказы при анализе надежности ОУВС следует разделять неисправности (как на системном, так и на элементном уровне) по влиянию, оказываемому на объект управления. На елекентном уровне ноано выделить благоприятные II неблагоприятные неисправности (отказы я сбои). Все благоприятные неисправности выявляются средствами контроля. В качестве важнейшего признака благоприятной неисправности отдельной вычислительной машины (Ш) системы »ложно выделять ее способность выполнить при необходимости процедуру безопасного останова, гарантирующую отсутствие разрушений на обтьекте управления. Неблагоприятные неисправности не идентифицируются неисправной машиной» она не коает произвести самоблокировку и выполнить при необходимости безопасный останов. Часть неблагоприятных неисправностей может обнаруживаться исправными машинами, что позволяет предотвратить связанные с ними потери и обусловливает необходимость выделе^:?»

контролируемых и неконтролируемых неблагоприятных неисправностей при моделировании надежности. На системном уровне для ОУВС можно выделить два типа отказов -безопасные (БО) и опасные (00). Безопасный отказ системы-8то отказ, вызванный такой совокупностью благоприятных и неблагоприятных неисправностей ее элементов, при которой хотя бы одна из машин в состоянии выполнить процедуру безопасного останова. Опасный отказ системы ~ это отказ, вызванный такой совокупностью неисправностей ее элементов, при которой система не в состоянии осуществить безопасный останов, что может повлечь за собой разрушения объекта управления и оказать нежелательное воздействие на внешнюю среду.

3. Наличие специальных процедур обработки сбоев Процедуры обработки сбоев реализуются по разному в зависимости от вида и режима работы устройства ОУВС. Для устройств с перезаписываемой памятью (ВМ) . они включают в себя информационное восстановление, осуществляемое по строгому временному регламенту в определенные интервалы времени. Для элементов без-памяти или при наличии лишь постоянного ЗУ, например, устройств связи (УС) с объектом, в восстановлении информации нет необходимости. В таких случаях, чтобы не исчерпать ресурсы системы, отключая устройства по первому сигналу рассогласования, применяют специальные алгоритмы признания неисправного устройства отказавшим.

4. Неоднородность поведения во времени.

Программное управление отказоустойчивостью систем подразумевает многорежимность функционирования. К основному режиму (взаимодействия с объектом управления) добавляются, по крайней мере, еще два - согласование работы и восстановления. Временная епюра работы ОУВС строится так, что на каждый из режимов отводятся регламентированные по длительности и по порядку следования временные интервалы, причем время на восстановление отводится вне зависимости от наличия неисправных устройств. Неоднородность поведения

ОУВС выражается как. периодическое изменение критерия работоспособности системы от режима к режиму.

Дискретность поведения ОУВС обусловливает привлечение для моделирования надежности математического аппарата конечных марковских цепей.

В диссертации построена модель неисправностей отдельной вычислительной машины системы, учитывающая как их влияние на объект управления, так и способность средств контроля к их выявлению. Для получения компактных выражений переходных вероятностей модели предложен прием развесовки вероятности возникновения неисправности на составляющие, соответствующие вероятностям возникновения неисправностей выделенного типа.

Основная подсистема ОУВС, как правило, состоит из нескольких вычислительных машин, соединенных по принципу М из N. Все N машин параллельно выполняют одни и те же задания. Для работоспособности подсистемы необходима исправность М машин. В диссертации предложена модель на основе конечных цепей Маркова для надежностных исследований втой подсистемы.

Параметры модели надежности разделены на следующие.

1.Физические - описывающие надежностные свойства вычислительных машин. К ним относятся: интенсивности возникновения постоянных отказов и сбоев ВМ; коэффициенты: а, определяющий долю сбоев в общем потоке неисправностей, р, выделяющий часть аппаратуры ВМ, неисправности которой носят благоприятный характер.

По отношению к сбоям вводится предположение о мгновенности - длительность сбоя как физического явления считается нулевой .

2.Структурные - определяющие с позиций анализа надежности конфигурацию технической структуры системы. К ним относятся: N - общее число паралллельно работающих ВМ;

Н - минимальное число ВМ, необходимое для работы системы; Б - минимальное число ВМ, необходимое для реализации процедуры восстановления.

3. Временные - определяющие периодически повторяющиеся интервалы времени работы системы, характеризующиеся изменением режимов функционирования и надежностного поведения. Для систем с программной реализацией отказоустойчивости можно выделить следующие интервалы: At^ -взаимодействия с объектом управления; At - восстановления.

£3

Atn - проверки результатов восстановления ВМ. Периодически

повторяющаяся комбинация интервалов At ,At ,At„,

рви

объединенная в один интервал AT, определяет шаг дискретного марковского процесса, описывающего изменение состояний ОУВС.

4. Контроля п восстановления. Параметр контроля т] выделяет долю неблагоприятных отказов Ш, контролируемую исправными машинами системы. Параметр восстановлении к определяет число последовательных попыток восстановления ВМ, при неуспехе которых машина считается отказавшей и отключается из рабочей конфигурации. В общем случае к является вектором размерности Ы, i-я компонента которого определяет число попыток восстановления для состояния, характеризующегося H-i+1 исправными машинами ,.. .lCy)

В модели отражен следующий алгоритм организации сбое-и отказоустойчивого функционирования. Возникающие неисправности машин фиксируются во время интервалов согласования Atc, и неисправная машина блокируется вплоть до начала интервала восстановления Atß. Между двумя соседним! интервалами восстановления может быть заблокировано несколько машин. Условием работоспособности системы при блокировке машин является наличие S исправных машин, готовых к выполнению процедур восстановления. Если в системе накопилось такое количество заблокированных машин, что 8то условие не выполняется, она переходит в поглощающее состояние отказа первого рода (безопасный останов). Неисправная машина считается отказавшей и отключается из рабочей конфигурации, если неуспехом закончилось к последовательных попыток ее восстанокления. Неуспешность восстановления может быть вызвана двумя причинами- возникшая неисправность ВМ есть постоянный отказ; возникшая

неисправность ВМ есть сбой, однако во время восстановления в машине возникает вторичная неисправность (сбой или отказ).

Множество состояний модели разделено на следующие подмножества: исправное состояние (N,0); работоспособные состояния (N-1,0;№-2,0;...М,0); промежуточные состояния (И-^.р,!), где Н-.) - число исправных машин, р - число заблокированных машин, 1 - номер попытки восстановления 1-й из заблокированных машин; состояния отказа - Б0 и 00. В состояние Б0 можно попасть двумя разными путями: пройдя нормальный путь деградации N,0 -* N-1,0 -»...-» N-1,0 -»...-► М,0* Б0; перейдя скачком из любого состояния в Б0 при

возникновении различного типа наборов кратных благоприятных неисправностей. В состояние 00 можно также попасть из каждого состояния при возникновении различного типа наборов кратных неблагоприятных неисправностей.

Для задания дискретного марковского процесса, адекватно моделирующего надежностное поведение 0УВС с учетом периодического изменения от режима к режиму как логики переходов между состояниями, так и значений переходных вероятностей, необходимо задать ЬхЗ условных переходных матриц Р-, Элементами Р, являются переходные

X , 3 X , 3

вероятности, соответствующие 1-му режиму функционирования (1=1,2,...,Ь) при условии начала работы нз з-го состояния

(з=1,2____.Э ) определяемые на интервале времени

взаимодействия с объектом управления Д1;. Распределение вероятностей на момент окончания 1-го режима функционирования определяется матрицей Р^

V Ь

83*^1.8

8=1

где £вв-представляет собой матрицу, а,а элемент которой

равен 1, остальные олементы равны нулю; Дг^ - длительность 1-го режима.

Переходная матрица ф, задающая поведение процесса за шаг ДТ, выражается как %> = Р^х IР2х___О^х___х ¡Р^.

На предложенной модели вычисляются следующие показатели надежности:

среднее время до попадания в состояние отказа при заданном начальном состоянии определяется компонентами вектора %

% = N£AT,

где N - фундаментальная матрица цепи, £ - единичный г-компонентный вектор-столбец (г - число работоспособных состояний) ;•

-дисперсия случайного времени до попадания в состояние отказа при заданном начальном состоянии определяется компонентами вектора %г

%г = (2N-I)1 - Tsq ,

где - вектор, элементы которого получаются возведе-sq

нием в квадрат элементов вектора т;

стационарное распределение вероятности завершения функционирования системы в состояниях БО или 00 определяется компонентами матрицы В размерностью г X 2

В = NR,

где R - подматрица íp, размерностью г X 2, элементы которой соответствуют вероятностям перехода в подмножество состояний отказа.

Пошаговое исследование системы на дискретной марковской модели осуществляется непосредственно по переходной матрице системы ¡р. Условные вероятности попадания в 3-е состояние на п шаге цри условии, что начальным было i-e состояние, даются элементами матрицы ípn.

В работе приведен. пример использования модели для исследования надежностных характеристик трехмашинной ОУВС. Выявлены следущие факторы, в наибольшей степени влияющие на уровень показателей надежности: доля сбоев и доля благоприятных неисправностей в общем потоке неисправностей ВМ; организация процедуры восстановления.

Исследованы причины плохой обусловленности задачи вычисления показателей надежности ОУВС на предложенной

модели. Основной причиной является совместное моделирование потоков неисправностей с интенсивностями, различающимися в несколько порядков, что приводит к существенным различиям норм столбцов матрицы системы. Проблема плохой обусловленности решена в работе использованием абсолютно устойчивых вычислительных методов, в частности метода вращения при треугольной факторизации матриц.

В третьей главе проведено исследование надежности сетей связи ОУВС, обеспечивающих межмашинное согласование и взаимодействие вычислительных машин с объектом управления. Основным элементом подобных сетей являются устройства связи с объектом, Ы-ки которых объединяются в мультиплексные каналы (МК). Число N определяется количеством ВМ системы. Каналы обычно резервируются, так что сеть обмена (согласования) представляет собой мажоритарную структуру Укан из N каналов сети. Специфика анализа надежности подобных сетей, в основном, определяется двумя факторами:

-"просеиванием" потока сбоев введением процедур обработки неисправностей, препятствующих отключению устройств по первому сигналу рассогласования;

возможность» одновременного сбоя нескольких устройств на одном интервале обмена.

В зависимости от характера передаваемой по сетям информации в них используются различные критерии отказа сбоящего УС. Для устройств связи, участвующих в процессе обмена разнородной информацией с объектом управления, критерием отказа является превышение допустимой частоты проявления его неисправностей (частотный критерий). Для УС, реализующих межмашинное согласование, характеризую-Еееся однородностью передаваемой- информации, критерием отказа является появление искажения в нескольких последовательных тактах согласования (поапедовательностный критерий).

Вероятность (0УС(Т)) признания УС вычислительной системы на интервале (0,Т) отказавшим определяется как СЭУС(Т) = 1 - Рота(Т)р£б(Т) •

У с

гдо рп'(Т) - вероятность безотказной работы УС по

УС

постоянным отказам; - вероятность признания

неисправности УС сбоем согласно принятым критериям.

При использовании частотного критерия осуществляется подсчет количества сбоев на интервале времени в случае

превышения этим значением некоторого заданного уровня т^рУС признается отказавшим. Процедура реализуется с помощью специального счетчика, подсчитывающего количество сбоев на интервале (Шсц; (1+1 М^), 1=0,1.... ,1^-1, где

Вероятность признания неисправности УС» работающего в режиме обмена, сбоем на интервале (0,3?) определяется как

об

где п=Ысч/Мо0-,

<) - соответственно

об;

вероятности бессбойной работы и возникновения одного или более сбоев на интервале обмена А'Ь^.

Для УС, работающих в режиме межмашинного согласования, определение вероятности признания неисправности УС сбоем осуществляется по формуле

Р- в-«1/*«Ф>*>.

где

5> _

ср

моделирующей

критерия матрицей

сб

среднее время до

процесс набора с

(о параметром

ткр)

поглощения марковской цепи, УС-ом последовательностного и определяемой переходной

1

О Р Р Р

Р О

2 Р 0 о о

о о

3

4 ц

о о

о

4

о о а о

о о

. о

. о

. о

. о

. о

. о

о о о

0

ч

1

1

г

3

4

С

V1

V2

р и ч здесь вероятности бессбойной работы и возникновения одного или более сбоев на интервале согласования

С

Сети обмена и согласования отказывают по двум причинам:

-исчерпание ресурсов вследствие отказов и/или набора

критерия по сбоям УС-ов;

одновременное возникновение сбоев пкрит УС-ов за период обмена (согласования) А^^СА^), где п^^ принимает такое значение' и таким образом распределено по каналам сети,что приводит к отказу N „- М„_„ +1 или более каналов.

КЗН лаХ1

Вероятность возникновения отказа сети из-за кратных (одновременных на Ы )) сбоев является как функцией

времени, так и структурных параметров системы - числа работоспособных каналов, определяющих заданную работоспособную конфигурацию сети (N„-1) -М ), и состояний

кан кан кан

этих каналов г_.. .г.. „ .

0 ус Мус

Параметры .. .г_т объединены в вектор струк-

кэн и Му*

турных параметров о. Вектор о задает разбиение множества каналов сети А на непересекающиеся подмножества В^ каналов с V отказавшими УС-ми Причем,

- Н(ф+жвр>+ _и > = ^ - 1.

ус ус

где через N0 - обозначено количество элементов данного множества.

Для заданного работоспособного состояния сети, определяемого вектором С={Нка^1,г0,г1,...г^ >, вероятность

отсутствия кратных сбоев,приводящих к отказу сети на

нка «кан » ^ ЩВ^-Ху

х +...+х = £

тусМус

где вероятности безотказной работы и от-

КЭН гСЗН

каза на А1;0б(Д1;0) канала с V отказавшими УС-ми, определяемые

по биномиальным выражениям.

Вероятность безотказной работы сети на интервале (0,Т ) с учетом возможности возникновения одновременных (кратных) сбоев определяется выражением

^ан^ан

' сети

«> = 1

1=0

£ Р(Т.О) 2 го+-*'+г1~нкан*

ркр(^,о)

ыусмус

где Р(Т,ст)

(Нкая-И ■р I т» «

о----1"

1 определяет вероят-

ность пребывания сети в каждом ее работоспособном состоянии;

множитель а„= С® (О (Т)) (Р (Т)) ус определяет канал 3 ус

с отказами ровно з УС, а показатель степени г - количество

таких каналов.

Показатель средней наработки сети до отказа Г

вычисляется как 00

сети

Т

сети

- I

'о.™»""

Трудности аналитического определения средней наработки полностью устраняются применением численного

интегрирования, тем более уместного при надежностных исследованиях, так как функции вероятности безотказной работы в случае используемых функций распределения случайного времени работы до отказа элементов непрерывные и монотонно убывающие во времени.

В результате проведенных в работе исследований конкретных конфигураций сетей на описанной модели было показано существование порогового значение параметра процедуры обработки неисправностей УС. Увеличение параметра до порогового значения приводит к снижению вероятности отказа сети. Дальнейшее увеличение параметра не сказывается на изменении значений показателей надежности.

1

Кроме того, было продемонстрировано, что неучет кратных сбоев приводит к недопустимому искажению показателей надежности сети.

В четвертой главе проводится оптимизация процедуры обработки неисправностей вычислительных машин ОУВС. Процедура восстановления ВМ организуется как серия последовательных попыток восстановления, ориентированного на сбои. Неуспех к попыток восстановления приводит к отключению неисправной ВМ. На практике значение параметра процедуры восстановления к выбирается в интервале от 2-х до 5-ти с интуитивным обоснованием выбора. Величина параметра к может двояким образом сказаться на эффективности ( в частности, надежности) функционирования системы. Дело в том, что проверка результатов восстановления реализуется включением ВМ в активную конфигурацию, что порождает "опасный участок", на котором ОУВС может работать с, по-крайкей мере, одной неисправной ВМ. В этом случае любая неисправность других ВМ переводит систему в целом в состояние отказа. Осуществление к попыток неуспешного восстановления в к раз увеличивает этот опасный участок, тем самым увеличивая вероятность непосредственного перехода системы всостояние отказа. В тоже время задание к в интервале от 0 до 1 (машина отключается из активной конфигурации по первому сигналу рассогласования или после первой неуспешной попытки восстановления) снижает вероятность непосредственного перехода в состояния отказа (Б0,00), но может привести к быстрому исчерпанию ресурсов системы. Наличие этих двух конкурирующие процессов обусловливает необходимость разработки модели и процедуры оптимизации, гарантирующей поиск оптимального значения величины параметра к.

В диссертации описан известный подход к решению проблем оптимизации процедур обработки неисправностей и выявлено три основных момента, препятствующих его использованию в случае ОУВС.

1 ). Невозможность в аналитическом виде описать сложное

надежностное поведение ОУВС и дать формульное определение оптимизируемых показателей надежности и эффективности.

2). Непригодность используемого показателя среднего времени простоя'в качестве оптимизируемого функционала. Это объясняется тем, что затраты • времени на обработку неисправностей заранее предусмотрены в протоколах работы ОУВС; суммарное время обработки является постоянной величиной на интервале времени выполнения задания и не влияет на готовность системы.

3).Некорректность сведения в единое состояние состояний "сбой" и "отказ" элемента ОУВС, а затем раздельного моделирования процессов обработки неисправностей и деградации системы для случаев сбоя или отказа.

В диссертации исследовано, в какой степени укрупнение существенно различных состояний (сбой, из которого есть возврат в исходное состояние; отказ, из которого принципиально отсутствует возврат в исходное состояние) искажает значение показателей надежности ОУВС и сделан вывод о некорректности подобного приема укрупнения. Задача оптимизации процедуры обработки неисправностей ВМ ОУВС решена в диссертации методом динамического программирования с помощью аппарата марковских процессов с доходами. Рассматривается множество исправных и работоспособных состояний системы - N,0; N-1,0; N-2,0;...И,О. Для кахсдого из состояний определены К стратегий восстановления, отличающиеся числом попыток восстановления неисправной машины; первая стратегия соответствует немедленному отключению машины при возникновении неисправности (О попыток восстановления); к-я стратегия соответствует к-1 попытке восстановления, а затем отключению неисправной машины. Необходимо на каждом шаге (п) и для каждого состояния системы (1) определить число попыток восстановления неисправной машины, при котором достигается максимальное (минимальное) значение выбранного показателя надежности или .эффективности системы. Рекуррентное соотношение для проведения пошаговой оптимизации восстановленияв ОУВС имеет вид

N

яшта 1;

3=1

где Ы-число состояний системы; т1(п) - ожидаемый доход

за п шагов, ее.та в данный момент система находится в состо-N

средний одношаговый доход, выражаемый

3=1

через элементы р^, г исходных матриц переходных вероятностей Р и доходов И.

Практическая (программная) реализация рекуррентной процедуры оптизотзации показала, что сходимость к наилучшей стратегин для каздого состояния достигается при небольших п (порядка десятков шагов), в то время как общее время функционирования > 10' шагов. Последнее позволило воспользоваться итерационной процедурой динамического программирования, разработанной для решения задач оптимального управления процессов бесконечной длительности, и перейти от максимизации Олшимизации) суммарного дохода за [0,п] к максимизации (минимизации) асимптотического значения среднего одноиагового дохода - прибыли процесса. Модель надежности ВМ ОУВС имеет два поглощающих состояния (ВО и 00), через независимые прибыли которых (ё^ и в(х>) выраяаются все остальные прибыли процесса.

Вопросы проведения оптимизации по различным показателям надежности и эффективности решены в работ© специальным заданием матрицы доходов.

Итерационная процедура динамического программирования была применена для определения оптимального числа попыток восстановления от сбоев вычислительных машин троированной ОУВС. Оптимизация проводилась по показателям среднего времени работы до отказа и стационарной вероятности попадания в состояние опасного отказа. Проведелче оптимизации при варьировании параметров системы позволило выявить критичный параметр, оказывающий наиболее сильное влияние на выбор оптимального решения - суммарная

интенсивность неисправностей (Л.). Результатом оптимизации явилось: исключение бесполезных попыток восстановления при малых X (^10~31/ч); улучшение значений оптимизируемых показателей надежности в несколько раз при больших \ (>10 1/ч).

В пятой главе рассматриваются отказоустойчивые вычислительные системы (ОВС), в которых восстановительные операции начинают выполняться в случайные моменты времени, соответствующие моментам возникновения неисправностей, а длительность этих операций пренебрежима мала по сравнению о временем между отказами. Надежностное поведение подобных ОВС адекватно описывается моделями, построенными на принципе поведенческой декомпозиции, подразумевающем раздельное моделирование процессов возникновения и обработки неисправностей с последующей агрегацией МВН и МОН в единую модель надежности ОВС. Во всех известных моделях обработки неисправностей основной параметр модели -вероятность успеха выделенного этапа восстановления есть задаваемая величина. В работе предлагается подход к определению этой вероятности как функции от времени восстановления, интенсивности возникновения неисправностей, средней длительности сбоя.

Факт завершения физического явления - сбой является основным для успеха .восстановления. Большинство сбоев вызываются короткими импульсными помехами. Используемое в ряде работ предположение об экспоненциальном характере случайной длительности сбоев достаточно неестественно. В частности, в связи с большой дисперсией экспоненциального распределения и независимостью оставшейся длительности сбоя от предыдущего времени его существования. В тоже время использование неэкспоненциальных распределений нарушает" марковское свойство случайного процесса, моделирующего восстановление ОВС, и затрудняет проведение аналитичес-' ких исследований. Для разрешения этой проблемы в диссертации применен метод моделирования распределений произвольного вида с помощью экспоненциального. Метод основан на замене состояния, время пребывания в котором описывается

неэкспоненциальным законом, каскадом последовательно соединенных "экспоненциальных состояний". При равенстве параметров распределения каждого состояния каскада плотность вероятности неотрицательной случайной величины Т, представляющей собой суммарное время пребывания в состояниях каскада, а следовательно, в исходном "неэкспоненциальном состоянии", подчиняется закону Эрланга.

Определение вероятности успешного завершения выделенного этапа восстановления осуществляется в диссертации применительно к процедурам восстановления типа повторов операций (команд, сегментов программ, ограниченных точками восстановления). Неполнота контроля учитывается рассмотрением периода латентности неисправности (расстояния в сегментах от момента возникновения до момента проявления неисправности). Для успешного завершения восстановления должно осуществиться следующее сложное событие. Сбой как физическое явление должен закончить свое существование к моменту запуска процедуры восстановления (событие А). Во время проведения восстановления не должны возникать повторные сбои (событие В). Выражение для Р(А) и Р(В), полученные при предположении о пуассоновском характере потока сбоев и случайной длительности сбоя, распределенной по закону Эрланга с параметрами к ц,имеют вид: Р(А) = P(T,t) =

= (kH)%rie-Xc6t

Т 1

i 1=1tj где бт^^сб' £

Т - время выполнения сегмента.

(kjit

сб ^Л4* пcoi ^ "сб

сгггт

Сб]

¿J-ТГ- L •

1=1 2=0 1 COJ

Вероятность успеха 1-го этапа восстановления есть

1-1

1 L 3=1

Здесь время выполнения i-ro этапа восстановления;

*Ъеа1~ вРеия начала i-ro этапа восстановления;

At^-интервал времени между началом i-ro и завершением з-го

этапа восстановления; т] - полнота контроля; 1 - длительность периода латентностк.

Ввиду невозможности получения точного аналитического выражения для вероятностей пребывания в состояниях каскада при выводе выражений для Р(А) и Р(В) применен лриближенный метод, основанный на кратном интегрировании плотностей распределения случайного времени пребывания в состояниях каскада. Для каскада ыз двух состояний оценено отклоненение точного решения от приближенного.

В приложениях цриведены комбинаторные выражения для вычисления элементов переходных матриц для различных режимов функционирования ОУВС.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Построена модель неисправностей отдельной вычислительной машины ОУВС, учитывающая последствия uz возникновении на объекте управления.

2. Построена модель для анализа надежности резервированной структуры И из N вычислительных маягия системы, учитывающая дискретный характер надежностного поведения, многообразие типов неисправностей, наличие специальных процедур обработки сбоев, изменение критериев работоспособности системы в зависимости от резоздов функционирования.

3. Разработан алгоритм задания переходной матрицы 9 для ' конечной марковской цепи, моделирующей надежностное

поведени е резервированной структуры Ы из Н вычислительных машин системы. Алгоритм о с новыва е тся на разбиении шага, за который система изменяет свое состояние.

на последовательность подшагов, соответствующих различным режимам функционирования. Матрица !р задается как комбинация переходных матриц, соответствующих каждому из режимов.

4.Проведены исследования по выбору адекватных численных методов для оценки различных показателей надежности на построенной модели. Проблему плохой обусловленности вычислительной задачи нахождения* значений показателей надежности ОУВС на дискретной марковской модели предлагается решать использованием ортогональных абсолютно устойчивых методов линейной алгебры.

5. На предложенной модели проанализирована надежность трехмашш-шой конфигурации ОУВС по показателям: среднее время до отказа системы; вероятность безотказной работы на заданном интервале времени; стационарное распределение, определяющее стационарную вероятность завершения функционирования в том или ином состоянии отказа (опасный отказ или безопасный останов). Показана зависимость показателей от организации процедур обработки неисправностей.

6. Построена комбинаторная модель для анализа надежности сетей межмашинного согласования и сетей обмена информацией вычислительных машин системы с объектом управления. Модель учитывает следующую специфику надежностного поведения сетей ОУВС: "просеивание" потока сбоев введением процедур обработки неисправностей, препятствующих отключению элементов -сети по. первому сигналу рассогласования; возможность одновременного сбоя нескольких элементов на одном интервале обмена (согласования).

7. Получены аналитические выражения вероятности безотказной работы для следующих элементов сети: устройств связи, работающих в режиме обмена с объектом управления, для которых установлен частотный критерий признания сбоящего устройства отказавшим; устройств связи, работающих в режиме согласования, для которых установлен последователт -ностный критерий признания сбоящего устройства отказавшим; мультиплексных каналов. При выводе выражения для вероятности безотказной работы сети в целом была учтена

возможность отказа сети без действительного исчерпания ее ресурсов из-за одновременного сбоя нескольких каналов.

8. В терминах марковских процессов с доходами сформулирована задача оптимизации процедуры обработки неисправностей вычислительных машин ОУВС. Оптимизация может проводится по широкому спектру показателей надежности и эффективности, что обеспечивается соответствующим заданием матрицы доходов.

9. В результате оптимизации было определено оптимальное число попыток восстановления от сбоев для каждого работоспособного состояния трехмашинной конфигурации ОУВС. Оптимизация проводилась по показателям среднего времени работы до отказа и стационарной вероятности попадания в состояние опасного отказа. Наибольшая чувствительность оптимального решения наблюдалась к изменению суммарной интенсивности неисправностей.

10. Предложена корректировка оптимального решения, полученного по показателю вероятности попадания в выделенное состояние отказа, позволившая согласовать полученное решение с заданным уровнем других показателей надежности системы.

11. Для отказоустойчивых вычислительных систем, допускающих раздельное моделирование процессов возникновения и обработки неисправностей, предложен подход к определению основного параметра модели обработки неисправностей вероятности успеха выделенного атапа восстановления как функции времени восстановления, интенсивности возникновения неисправностей, средней длительности сбоя, полноты контроля

12. Получено аналитическое выражение вероятности успешного завершения выделенного этапа для процедур восстановления тала повторов операций. Выражение получено, исходя из предположения о стареющем распределении случайного времени существования физического явления сбой.

Разработанные модели были использованы при проектировании бортовой управляющей отказо- и сбоеустойчивой вычислительной системы в НИИ НЦ (г.Зеленоград), что позволило выбрать наиболее предпочтительные варианты системы в смысле надежности и безопасности.

СПИСОК ОСНОВНЫХ ПУБЛИКАЦИЙ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ

1. Викторова B.C. Элементарные маханизмы обеспечения отказоустойчивости и их влияние на готовность вычислительных систем. - Качество и надежность, Выпуск 7, М.: .1988.

2. Викторова B.C. Анализ эффективности алгоритмов восстановления. вычислительного процесса ЭВМ цри сбоях. - Качество и надежность, Выпуск 1î, M.: 1989.

3. Victorova V., Shagaev I. Analysis of Recovery Procedures for Supercomputers. - Conference on computing systems and information technology, August, 1989, Sydney. Australia/ Digest of Papers.

4.Victorova V., Shagaev I. Recovery Strategies in Supercomputers.- IMEKO, Technical diagnostics 89, Prague, 1989./ Digest of Papers.

5. Викторова B.C. Анализ стратегий восстановления в вычислительных системах со слабым контролем. - Проблемы комплексной автоматизации судовых технических средств / Тезисы докладов VII Всесоюзной научно-технической конференции, Л.:1989.

6. Викторова B.C. Не экспоненциальная модель длительности сбоя. - Качество и надежность, Выпуск 9, М.: 1990.

7. Викторова B.C., Шагаев И.В. Сравнительный анализ эффективности алгоритмов восстановления вычислительного процесса в ЭВМ. - Автоматикаи телемеханика, 1991, Л 1.

8. Викторова B.C. Оптимизация стратегий обработки неисправностей в отказоустойчивой бортовой управляющей системе. -Проблемы построения перспективных бортовых управляющих комплексов / Тезисы докладов Всесоюзного совещания, Владивосток, 1991.

9. Викторова B.C., ЗлобшскиЙ В.И., Степанянц A.C. Модель надежности управляющей ВС с программным управлением отказоустойчивостью. - Надежность, живучесть и безопасность автоматизированных комплексов / Тезисы докладов

5 Всесоюзного совещания,Суздаль,1991•

10. Викторова B.C., Степанянц A.C. Исследование надежности вычислительной системы с программно-управляемой отказоустойчивостью. - Приборы и системы управления, 1993. 7.

11. Викторова B.C. Выбор параметров процедуры обработки неисправностей в вычислительной системе с программно-управляемой сбое- и отказоустойчивостью. - Приборы и системы управления, 1993, № 7.

Личный вклад диссертанта в работы, выполненные в соавторстве:

в'работах [3,4,7] автором разработана модель для анализа эффективности алгоритмов восстановления вычислительного процесса и проведен сравнительный анализ конкретных алгоритмов восстановления;

в работах [9,10] автором разработаны элементы модели надежности вычислительной системы, отображающие процесс ее сбоеустойчивого функционирования.