автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.15, диссертация на тему:Комплексные модели анализа и обеспечения отказоустойчивости бортовых вычислительных систем

кандидата технических наук
Камлех Харб
город
Москва
год
2004
специальность ВАК РФ
05.13.15
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Комплексные модели анализа и обеспечения отказоустойчивости бортовых вычислительных систем»

Автореферат диссертации по теме "Комплексные модели анализа и обеспечения отказоустойчивости бортовых вычислительных систем"

На правах рукописи

КАМЛЕХ Харб

КОМПЛЕКСНЫЕ МОДЕЛИ АНАЛИЗА И ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ БОРТОВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

Специальность — 05.13.15 - Вычислительные машины и системы

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва

2004

Работа выполнена в Московском государственном техническом университете им. Н. Э. Баумана.

Научный руководитель: кандидат технических наук,

доцент Воробьев Г. Н.

Официальные оппоненты: доктор технических наук,

профессор Бархоткин В. А. кандидат технических наук, доцент Медведев Н. В.

Ведущая организация: ФГУП "НИИ "Аргон ", г. Москва

Защита диссертации состоится «40 у>июн£} 2004г. в на заседа-

нии диссертационного совета Д 212.141.10 в Московском государственном техническом университете им. Н. Э. Баумана по адресу 107005, Москва, 2-я Бауманская ул., д.5.

Ваши отзывы в двух экземплярах, заверенные печатью, просьба высылать по указанному адресу.

С диссертацией можно ознакомиться в библиотеке Московского государственного технического университета им. Н. Э. Баумана.

Автореферат разослан «_»_2004г.

Ученый секретарь

диссертационного совета,

К.Т.Н., доцент Иванов С. Р.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Непрерывно возрастающие требования к задачам, решаемым современными комплексами бортового оборудования летательных аппаратов различного назначения, приводят к усложнению комплексов, к необходимости применения в составе этих комплексов современных вычислительных систем, использующих последние достижения электронной промышленности. Усложнение комплексов, увеличение количества и усложнение выполняемых ими функций выдвигает на первый план проблемы контроля работоспособности и комплексной обработки информации с целью повышения надежности, улучшения точностных и динамических характеристик комплексов. Так, например, согласно инструкции FAA Advisory Circular 25.1309.1А бортовые вычислительные системы должны выполнять свои функции с вероятностью наработки на отказ за час полета.

Разработке методов обеспечения отказоустойчивости вычислительных систем (ВС) посвящено достаточно много работ российских и зарубежных исследователей. Большой вклад в развитие этих методов вносят как российские ученые - К. А. Иыуду, В. В. Липаев и др., так и зарубежные - Ж. К. Лапри, Ж. Д. Мусса, А. Авижиенис, Б. Ранделл, и др.

Результаты анализа существующих методов обеспечения отказоустойчивости показывают, что модели, учитывающие взаимосвязь поведения аппаратных и программных составляющих вычислительных систем в нештатных ситуациях, в настоящее время практически отсутствуют. Кроме того, известные модели не являются полными в связи с тем, что они не учитывают ряд параметров, существенно влияющих на корректное поведение ВС.

Теоретические исследования, направленные на обеспечение отказоустойчивости ВС, сдерживаются как отсутствием алгоритмов разработки решающих блоков, так и отсутствием методов для исследования влияния связанных неисправностей между версиями программного обеспечения (ПО).

Поэтому тема диссертационной работы, посвященной разработке моделей и методов анализа и обеспечения отказоустойчивости вычислительных систем реального времени с учетом аппаратных и программных составляющих ВС, является актуальной. Эта актуальность растет по мере расширения сфер применения и повышения требований к уровню отказоустойчивости и защищенности вычислительных систем. Актуальной также является разработка как алгоритмов для построения решающих блоков, необходимых для обеспечения надежности отказоустойчивых вычислительных систем, так и методов для исследования влияния связанных неисправностей между версиями программного обеспечения, поскольку доля

РОС НАЦИОНАЛЬНАЯ

БИБЛИОТЕКА н

СПет " OS

проектными неисправностями, представляет приблизительно 60% неисправностей ВС.

Целью диссертационной работы является исследование и разработка комплексных методов анализа и обеспечения отказоустойчивости бортовых вычислительных систем, учитывающих надежность аппаратного и программного обеспечения.

В соответствии с поставленной целью исследования проводились по следующим основным направлениям:

• Анализ существующих методов обеспечения гарантоспособности вычислительных систем реального времени;

• Разработка моделей надежности мультипроцессорных вычислительных систем, учитывающих различные варианты размещения программных версий;

• Анализ методов и моделей обеспечения отказоустойчивости вычислительных систем;

• Разработка модели и исследование различных вариантов построения решающих блоков (РБ) отказоустойчивых вычислительных систем;

• Анализ методов повышения отказоустойчивости программного обеспечения и оценки их надежностных характеристик;

• Создание комплекса алгоритмов и программ анализа и оценки надежности различных структур отказоустойчивых вычислительных систем (ОУВС), учитывающих надежность аппаратного и программного обеспечения;

Методы исследования. В работе использованы методы теории вероятностей и математической статистики, теории марковских процессов, теории графов и теории надежности.

Научная новизна. Разработана комплексная модель надежности ОУВС, учитывающая надежностные характеристики аппаратного и программного обеспечения (АПО) и позволяющая исследовать влияние различных параметров АПО на отказоустойчивость вычислительной системы.

Разработана модель, учитывающая влияние связанных неисправностей между версиями программного обеспечения, и выработаны рекомендации по повышению отказоустойчивости вычислительных систем в таких ситуациях.

Разработана модель для исследования различных алгоритмов построения решающих блоков, позволяющая обоснованно выбирать структуру РБ и рассчитывать их вероятностные характеристики.

Предложены оригинальные алгоритмы построения РБ, упрощающие аппаратную реализацию и обладающие повышенной надежностью.

Получены оценки надежностных характеристик различных вариантов построения программного обеспечения, использующих блоки восстановления, ^вариантное программирование и ^самопроверяемое программирование. Даны рекомендации по построению программного обеспечения, обладающего повышенной отказоустойчивостью.

Практическая ценность. Разработанные модели и методы позволяют адекватно описывать поведение и структуры отказоустойчивых вычислительных систем с учетом надежностных характеристик аппаратного и программного обеспечения.

Предложены инженерные методики, позволяющие обоснованно выбирать структуру и конфигурацию аппаратного и программного обеспечения при проектировании ОУВС с заданными характеристиками.

На основе разработанных моделей и методов обеспечения отказоустойчивости разработан комплекс алгоритмов и программ анализа и оценки надежности различных структур ОУВС, учитывающих надежность аппаратного и программного обеспечения.

Внедрение результатов работы. Полученные в диссертации результаты использованы в Научно-учебном комплексе «Информатика и системы управления» МГТУ им. Н.Э. Баумана при выполнении опытно-конструкторской работы по созданию отказоустойчивой цифровой вычислительной системы для бортового Фурье-спектрометра, предназначенного для длительного использования в составе научной аппаратуры космического аппарата «Метеор-М». Результаты использованы при разработке ОУВС реального времени в научно-исследовательском центре и в университете Алеппо (Сирия), а также в учебном процессе при чтении лекций и проведении лабораторных работ по курсу "Управляющие ЭВМ и системы" в МГТУ им. Н.Э. Баумана.

Апробация работы и публикации. По материалам диссертации опубликовано 4 научные работы.

Основные положения и результаты работы заслушивались и обсуждались в НИИ информатики и систем управления МГТУ им. Н.Э. Баумана, на заседании кафедры "Компьютерные системы и сети" МГТУ им. Н.Э. Баумана и на восьмой конференции сирийского компьютерного общества 2003 г. Алеппо (Сирия).

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, общих выводов, списка литературы и приложения. Она изложена на 121 машинописных листах. Содержит 56 рисунков, и 13 таблиц. Список литературы включает 92 наименования.

Содержание работы

Во введении обосновывается актуальность диссертационной работы, и формулируются основные цели и задачи работы. Рассматриваются методы исследований, раскрывается новизна и практическая ценность работы. Рассматриваются пути развития вычислительных средств, сфер их применения и вытекающие отсюда требования к вычислительным системам. Описывается структура и содержание диссертации.

В первой главе проведен анализ методов достижения гарантоспособности ОУВС, которая в настоящее время становится обобщенным комплексным показателем функциональной надежности вычислительных систем в условиях возникновения новых угроз надежности. Приведенная в работе классификация неисправностей и отказов позволяет упростить построение графа состояний исследуемой системы, особенно при возникновении связанных неисправностей между версиями ПО. Рассмотрены атрибуты гарантоспособности вычислительных систем, среди которых основное внимание в работе уделено надежности вычислительных систем.

Приведены основные методы достижения отказоустойчивости: предотвращение, устранение, прогнозирование неисправностей и обеспечение отказоустойчивости, которая реализуется обработкой ошибок и неисправностей. Обработка ошибок состоит из обнаружения, диагностирования ошибок и восстановления системы, основные методы которого были проанализированы. Приведены методы статического и динамического тестирования программного обеспечения.

Рассмотрены различные методы восстановления работоспособности ВС, такие как обратное, прямое восстановление и восстановление путем компенсации ошибок. Рассмотрены также различные методы устранения неисправностей на этапе проектирования ПО. Приведена классификация методов оценки надежности ВС.

Во второй главе разработана комплексная модель анализа и обеспечения отказоустойчивости ВС реального времени, которая учитывает взаимосвязь поведения аппаратных и программных составляющих ВС. Разработанная модель учитывает все параметры ВС, которые оказывают большое влияние на ее надежность.

Рассмотрены принципы выбора числа процессоров ОУВС, учитывая требования, как к надежности системы, так и к ее производительности.

Проведена оценка влияния связанных неисправностей между различными версиями программного обеспечения на надежность ПО. Показано, что в случае использования только копий программы увеличение числа копий не улучшает общую надежность вычислительной системы, а в случае использования различных версий, ПО происходит заметное улучшение общей надежности системы.

Обозначим через х долю связанных ошибок между версиями программы. Тогда интенсивность ошибок программы £ может быть записана как £ = а вероятность безотказной работы (ВБР) одной версии

программы равна Л = Л1"*./?*. При наличии т параллельных версий программы ВБР программного обеспечения выражается как

На рис. 1 приведена зависимость коэффициента улучшения надежности ПО К от доли связанных неисправностей X в случае т = 3, при этом К определяется следующим образом:

к=-

я

-100%.

Здесь и далее Я,(х) - ВБР программы в зависимости от х.

.к% т=3

-^=095

о.а аэ о.4 о.б о.в о.7 о.а о.»

Рис. 1. Зависимость коэффициента улучшения надежности от поли связанных ошибок

Показано, что вторая версия улучшает надежность программы (ВБР которой R=0.95) на 5%, а третья - на 0.25% (относительно надежности программы с двумя версиями) и четвертая - только на 0.01% относительно надежности системы с тремя версиями. Поэтому выбор нецелесообразен.

Рассмотрены варианты конфигурации отказоустойчивых вычислительных систем, состоящих из нескольких процессоров и программных версий. В общем случае аналитическая модель работы системы представляется в виде марковской модели древовидной структуры с непрерывным временем, описываемой системой обыкновенных дифференциальных уравнений следующего вида:

БРоОО-Ро (0) = -П(Я.+у)р0 (3)+Рр, (в)+ПР2 00;

spi (S) - Pi (0) = -<(n - IX*.+Г)+mÇ)Pi (S) + nXpo + ßp,2 (s)+r)pu(s);

где: п - число процессоров; m - число программных версий в каждом процессоре; ^ у - соответственно, интенсивность отказов и сбоев процессора; £ - интенсивность ошибок программы; ß, rj- соответственно, интенсивность восстановления работы процессора после сбоя и восстановления работы программной версии; - изображение по Лапласу вероятности отсутствия отказов в системе; Ро(®)_ вероятность отсутствия отказов в системе в начальный момент времени: Pi(s)- изображение по Лапласу вероятности отказа одного процессора; Pli®)- вероятность наличия одного отказавшего процессора в системе в начальный момент времени;

Pn(s)- изображение по Лапласу вероятности отказа одного процессора и сбоя

в другом процессоре и Ри^- изображение по Лапласу вероятности отказа одного процессора и одной программной версии.

Систему обозначим символом {п/т}, где п.т, соответственно, число процессоров и версий программы в данной системе.

На основе разработанной модели в работе проведен детальный анализ надежности системы, состоящей из п процессоров (и = 1,3), каждый из которых имеет m - версий ПО (т = 1,3). На рис. 2 приведены зависимости вероятности отказа различных вариантов построения мультипроцессорной системы от времени.

4 = i0'3,rj = ß = l02, с = 0.6

10° Ю1 10* Время, час юэ

Рис. 2. Зависимость вероятности отказа различных вариантов построения системы от времени Полученные результаты позволяют обоснованно выбирать тот или иной вариант технического решения в процессе проектирования и выбора конфигурации отказоустойчивой вычислительной системы.

Показано, что при определенных условиях, представление о независимости отказов аппаратуры и программного обеспечения в мультипроцессорных системах приводит к завышенной оценке надежности системы.

Полагая, что отказы программного обеспечения, аппаратуры и сбои аппаратуры являются событиями независимыми, вероятность отказа системы {Ъ/\}, выраженная через вероятности Р/}п1,Рр/,(,Р/упг, учитывающие только соответственно, запишется как

= Р/з/и + ~ ~~ (О

Если Р/}/и «1, Р,1п; «1 и Рппг «I то Рпп » Р,ъ/и + Рпп( + Рппг. (2)

В случае, если Р{гп * Р/зт + + Р/ы, , то это означает, что отказы

программ и аппаратуры и сбои аппаратуры зависимые случайные события и сумма Р/зпх +РПщ +/>3/1, (при допущении о независимости этих событий) дает лишь приближенную оценку надежности системы.

Исследована проблема увеличения зпачимости аппаратурных сбоев. Проблема становится более актуальной в связи с наметившейся тенденцией существенного превышения сбоев над отказами аппаратуры. На рис. 3 приведены зависимости вероятностей отказов системы от

Видно, что аппаратурные сбои сильно влияют на надежность системы.

На рис. 3 также показано, что учет программных и аппаратных ошибок совместно, дает более точную и достоверную оценку надежности системы.

ю* ю-4 ю-« 10-

О 2000 4000 6000 вооо юооо

Рис. 3. Зависимость вероятности отказа системы {3/1} от времени

На основе разработанной модели получены зависимости надежности системы от интеисивностей отказов и сбоев аппаратуры и интенсивностей отказов программного обеспечения. Это позволяет обоснованно перераспределять требования к надежностным характеристикам аппаратного и программного обеспечения исходя из общих требований к надежности ОУВС.

На рис. 4 показана зависимость вероятности отказов системы {3/1} от интенсивности отказов процессора Л.

Это позволяет определить диапазон интенсивностей отказов аппаратуры и ошибок программы и аппаратуры, опасно влияющие на надежность системы с определенной вероятностью отказа.

ю'

$=10-' _____--

рг

5=10"2

/ -гю-3,п=Р=10\

5=10"3 У с=0.6.

ю ю ю 10 \ ю

Рис. 4. Зависимость вероятности отказа системы {3/1} от интенсивности отказов аппаратуры

В работе исследована зависимость надежности системы от вероятности правильного обнаружения сбоя одного из двух процессоров с. Показано, что вероятность правильного обнаружения сбоя влияет не только на вероятность отказа системы, но и на ее время безотказной работы.

Показано, что в общем случае вероятность правильного обнаружения отказа зависит от текущего времени с момента наступления первого отказа ?

(3)

где - время, требуемое для обнаружения отказа второго процессора с момента наступления отказа первого процессора в троированной системе.

Третья глава посвящена анализу и синтезу комплексных моделей работы системы, учитывающих характеристики средств контроля и

голосования в отказоустойчивых системах. Проведен сравнительный анализ четырех алгоритмов голосования:

1. Мажоритарного алгоритма голосования.

2. Алгоритма голосования на основе взвешенного среднего значения результатов версий программы.

3. Алгоритма голосования на основе метода медианой фильтрации.

4. Оценивающего или прогнозирующего алгоритма голосования.

При моделировании первых трех алгоритмов голосования для имитации результатов трех версий на результат какой-то

версии программы можно наложить помеху, время появления которой распределено по показательному закону и ее амплитуда: записывается выражением пуассоновского распределения

(4)

где % - интенсивность ошибок версии программы.

Показано, что работа мажоритарного алгоритма голосования значительно зависит от порога голосования 5. На выходе этого алгоритма может происходить, скачок с амплитудой и возникнуть

неопределенность, которая появляется когда расстояние между результатами версий больше порога голосования, т.е. , где - результат -и

версии программы. Это позволяет обнаруживать связанные ошибки между версиями программного обеспечения. На рис. 5 показан результат работы такого алгоритма, где - выход алгоритма голосования.

5 Ю 15 20

Рис. 5. Результат работы мажоритарного алгоритма голосования при значении порога и при наличии помех на входе

Алгоритм голосования на основе взвешенного среднего значения результатов версий программы выбирает свой результат так, чтобы этот результат был самый близкий к двум ближайшим результатам версий.

Согласно алгоритму голосования на основе взвешенного среднего значения результатов версий программы выбирается значение которое

минимизирует величину , т.е.

тт + + (5)

где УГ|, И"2 и т^з взвешивающие коэффициенты. Получена следующая зависимость для вычисления х,

х, =1>/*/>'1><' (6)

которая позволяет оптимизировать результат по заданному критерию.

Значения взвешивающих коэффициентов у»и у?г и вычисляются следующим образом. Выбираются два ближайших результата, а результатам остальных версий присваиваются взвешивающие коэффициенты, которые обратно пропорциональны их расстоянию до ближайших результатов. Метод достаточно прост в реализации, однако выдает результат, который может отличаться от результатов версии программы, а также выдает наибольшее число фатальных ошибок.

В общем случае, согласно алгоритму голосования • на основе метода медианной фильтрации при наличии N результатов версии х; = выходом решающего блока является медиана, вычисляемая - следующим образом:

^ДГ*1>12 Л'

(7)

Показано, что данный метод может быть использован для маскирования двух одновременно появившихся ошибок в троированной системе.

Очевидно, что алгоритмы голосования на основе метода медианой фильтрации и на основе взвешенного среднего значения результатов версий программы, в отличие от алгоритма мажоритарного голосования, всегда выдают результаты независимо от значения расхождений между результатов версий. Зависимые неисправности между версиями сильно влияют на надежность всех трех алгоритмов голосования, так как при наличии зависимых неисправностей можно получать одинаковые, но неправильные результаты. Хотя зависимых неисправностей между независимо отлаженными версиями мало, целесообразно использовать алгоритм мажоритарного голосования вместе с приемочными испытаниями или алгоритм голосования на основе метода медианой фильтрации.

В случае, когда результаты двух или более версий программного обеспечения неправильные, предлагается использовать оценивающий или прогнозирующий алгоритм голосования. Согласно этому алгоритму

выполняется прогнозирование параметров путем применения метода наименьших квадратов, линейного прогноза или выполняется прогноз по методу Бурга. По сравнению с алгоритмом Бурга или алгоритмом линейного прогноза метод наименьших квадратов требует меньшего времени выполнения, однако является менее точным.

Проведенное в работе сравнение алгоритма линейного прогнозирования и алгоритма Бурга показало, что последний на несколько порядков точнее, чем алгоритм линейного прогнозирования. Кроме того, алгоритм линейного прогнозирования дает неправильные прогнозируемые значения, если количество заданных предыдущих значений мало.

Предложено несколько вариантов построения решающих блоков, формирующих решение на основе не всегда безошибочных результатов многоканальной обработки. Для двухпроцессорной системы синтезирована структура, вероятность отказа которой меньше вероятности отказа системы, состоящей из двух параллельных процессоров (если вероятность обнаружения отказа одного из двух процессоров меньше или равна 0.7). Предложенная структура использована при проектировании реальных ОУВС в научно-исследовательском центре (SSRC - Сирия) и позволили получить 10-15% повышение надежности систем.

Для трехпроцессорной системы получены различные решения, зависящие от того, проверяется ли работа двух процессоров путем сравнения их результатов одним из этих двух процессоров (т.е. (а~Ь)а), или третьим процессором (т.е. (а=Ъ)с). На рис. 6. приведены зависимости вероятности безотказной работы этих вариантов от где - вероятность того, что отказавший процессор выдает сигнал о том, что сравниваемые этим отказавшим процессором (например, а) результаты работы двух процессоров, например, а и Ь, отличаются друг от друга.

1

0.99 0.98 0.97 0.96 0.95 0.94 0.93 0.92 0.91 0.9.

Рс у -

Рсб

*\ч\ ч, вбр ры Рс. Ртмс \ \

4*0.1 % V \

0.2 0.4 0.6 0.8 я 1

Рис. 6. Зависимости ВБР различных вариантов построения РБ от К

Кроме того, показано, что результаты работы системы зависят от того, результаты каких процессоров сравниваются и в какой последовательности, а также от числа сравнений. Через Р„> Ра иРСд обозначим ВБР

предложенных в работе различных вариантов построения ОУВС.

Показано, что ВБР троированной мажоритарной системы ртс = 1 - З^2 + 2?3 меньше ВБР двух из предлагаемых структур решающих блоков, в которых два процессора сравнивают результаты на одном из процессоров. В одной из предлагаемой структур выполняется два сранения (Рса), а в другой - три. Последняя обладает наиболее высокой вероятностью безотказной работы - Ра. Н а основе сравнения полученных результатов сделан вывод о целесообразности организации голосования средствами основных процессоров системы без привлечения дополнительных аппаратных средств.

В случае числа процессоров больше трех целью является обеспечение получения правильного результата при отказа не более заданного числа процессоров. Предложены и рассмотрены системы и возможности их аппаратной реализации.

В случае, если число процессоров более трех, предлагается использовать понятие - диагностируемости, которая определяется как возможность однозначного определения отказавших процессоров в многопроцессорной системе на основе взаимных проверок, при условии, что число отказавших процессоров не превышает

Предложены алгоритмы, реализующие кольцевые структуры с диагоналями. Показано, что реализация предложенных алгоритмов наталкивается на различные трудности не обеспечивая при этом значительного повышения надежности системы. Кроме того, наличие большого числа процессоров влечет за собой малую эффективность данного технического решения. Показано, что наибольшей эффективностью обладает система из трех процессоров.

В заключении главы показано, что наиболее простым и эффективным решением, является структура решающего блока, реализующая голосование типа 2 из 3, где два процессора сравнивают результаты на одном из этих процессоров путем выполнения двух сранений. Показано, что надежность такой структуры превышает надежность троированной мажоритарной системы.

Четвертая глава посвящена анализу некоторых вариантов программ, обеспечивающих отказоустойчивость ВС. Эти варианты программ используют: блоки восстановления (БВ), К-вариантное программирование (КВП) и К-самопроверяемое программирование (КСПП). Получены оценки надежности рассмотренных вариантов программ. Показано, что наиболее

высокой надежностью обладает вариант программы, использующий N самопроверяемое программирование.

Основным недостатком программы, использующей блоки восстановления, является зависимость среднего времени выполнения программы £/Ти/ от наличия ошибок в алгоритмах и программах. Показано, что в блоках восстановления с двумя алгоритмами, зависимость среднего времени выполнения варианта программы, использующего блоки восстановления от вероятности успешного выполнения первого алгоритма р имеет линейный характер. На рис. 7а приведена такая зависимость для экспоненциального распределения времени выполнения двух алгоритмов Т^Т2 с параметрами Л, и на рис. 76 - для равномерного распределения в интервале

Рис. 7. Зависимость времени выполнения варианта программы, использующего блоки восстановления от вероятности успешного выполнения первого алгоритма

Получены выражения для вероятностей возникновения отказа каждого из рассматриваемых вариантов ПО где Хе[БВ,ЖПП,ЫВП]. Эти

вероятности записываются следующими формулами

где - вероятность независимой неисправности одной версии

ПО и решающего блока соответственно; - вероятность связанной

неисправности между версиями ПО и решающим блоком; - вероятность связанной неисправности между -ми версиями; - вероятность

различных видов неисправностей, присущих решающему блоку.

На рис. 8. приведена зависимость вероятности отказа каждого из рассматриваемых вариантов программ, использующих БВ, NBП и NCПП от времени.

(9)

(8)

+ 4<?2к ]Ролслп + Ягу + *Ч„ + Я 4, + Якю.нслп-Оквл =Яь.ивп + №Ягг + Язу )(^~Яо.нвп ) + Якюлтч

(10)

Из приведенных графиков следует, что наибольшей надежностью обладает вариант программ N С П П

Показано также, что вероятности необнаруженных отказов рассматриваемых вариантов программ удовлетворяют уравнению

Чипат ^ 1и.ит «Чилв- (11)

а вероятности обнаруженных отказов удовлетворяют другому уравнению Чл.БВ < Чилвп < Ч/.жсп • (12)

Рис. 8. Зависимость вероятности отказа вариантов программ, использующих БВ, NВП и NCПП от времени

Кроме того, вероятности независимых отказов решающих блоков трех вариантов программ удовлетворяют следующему уравнению

Чт,!кпп ^ Чю,ит <к Чтяв • (13)

На основе введения понятия степени отказоустойчивости в работе проанализированы системы со степенью отказоустойчивости к программным (/„ =1) и аппаратным ошибкам (/А=1). Такие системы в работе обозначены как Х//п //,, где X е[БВ, ЫВП, ЫСПП].

На основе разработанной модели надежности рассматриваемых систем были получены выражения, описывающие интенсивности обнаруженных и необнаруженных сбоев программы

Вероятности обнаруженных и необнаруженных связанных неисправностей между двумя версиями после отказа одной из трех версий систем ^ВП/1/1, N0071/1) д,,гг и дилУ определяются выражениями

Qd.iv —^Яцг ~ч].2У +ЧЮЛУ

Используя уравнения (13), атакже неравенство <чКУОлВП <Чяп>лссп можно записать ^»¿¡.^ и

Вероятность обнаруженных отказов системы, использующей БВ, меньше вероятности обнаруженных отказов систем, использующих NCПП и NBП. Вероятность необнаруженных отказов систем, использующих NСПП и NBП, меньше вероятности обнаруженных отказов системы, использующей БВ.

Проведено моделирование отказоустойчивых систем, использующих блоки восстановления, ^самопроверяемое программирование и N вариантное программирование. На рис. 9. показана вероятность отказов систем, использующих БВ, NCПП и NBП. Из графиков следует, что надежность систем, использующих ^самопроверяемое программирование и ^вариантное программирование на 20% превышает надежность системы, использующей блоки восстановления.

Рис. 4.14. Зависимость вероятности отказа систем БВ/1/1, ШП/1/1 и ^ППДЛ от времени

Основные результаты диссертационной работы

1. Проведен анализ методов обеспечения гарантоспособности вычислительных систем реального времени. Предложена оригинальная классификация неисправностей и отказов ОУВС.

2. Разработаны модели надежности мультипроцессорных отказоустойчивых вычислительных систем с различными версиями программ, позволяющие оценивать комплексное влияние отказов аппаратуры и сбоев программы и аппаратуры и дающие более точную и достоверную оценку надежности системы. Модели позволяют обоснованно подходить к выбору архитектуры и организации ОУВС в процессе проектирования системы. На базе разработанных моделей исследовано влияние на надежность системы связанных неисправностей между версиями ПО, интенсивностей отказов аппаратного и программного обеспечения, получено выражение

для вероятности правильного обнаружения отказа второго процессора в троированной системе.

3. Разработана модель, учитывающая влияние связанных неисправностей между версиями программного обеспечения, и выработаны рекомендации по повышению отказоустойчивости вычислительных систем в таких ситуациях.

4. Разработана модель для исследования различных алгоритмов построения решающих блоков, позволяющая обоснованно выбирать структуру РБ и оптимизировать его вероятностные характеристики. Предложены оригинальные алгоритмы построения РБ, упрощающие аппаратную реализацию и обладающие повышенной надежностью.

5. Получены оценки надежностных характеристик различных вариантов построения программного обеспечения, использующих блоки восстановления, N-вариантное программирование и N-самопроверяемое программирование. Даны рекомендации по построению программного обеспечения, обладающего повышенной отказоустойчивостью.

6. Проведены сопоставительный анализ и синтез некоторых вариантов программ, обеспечивающих отказоустойчивость ВС: блоки восстановления, N-вариантное программирование и N-самопроверяемое программирование. Предложен метод для вычисления среднего времени выполнения варианта программы, использующего блоки восстановления.

7. На основе разработанных моделей и методов обеспечения отказоустойчивости разработан комплекс алгоритмов и программ анализа и оценки надежности различных структур ОУВС, учитывающих надежность аппаратного и программного обеспечения.

8. Предложенные модели использованы при проектировании реальных ОУВС в научно-исследовательском центре (SSRC - Сирия) и позволили получить 10-15% повышение надежности систем.

Публикации по теме диссертации

1. Воробьев Г.Н., Камлех X. Интегрированная модель мультипроцессорных отказоустойчивых систем реального времени // Вестник МВТУ. Серия Приборостроение. - 2000. -№2. - С. 83-91.

2. Kamleh H., Vorobiof G.N. Fault-tolerance of real-time systems // Informatics (Damascus): Journal of Syrian Computer Society. - 1998. - Vol. 7, № 2. 65. - P. 156-163.

3. Kamleh H. Comparison of a voting algorithms for fault-tolerant real-time systems // Informatics (Damascus): Journal of Syrian Computer Society. - 1999. — Vol. 8,№2.74.-P.57-64.

4. Kamleh H. Fault-tolerance of critical systems // VIII Syrian computer society symposium. - Aleppo, 2003. - P 65-73.

Подписано к печати. 16.04.2004 г. Зак. 58 объем 1.0 пл. Тир. 100 Типография МГТУ им. Н.Э. Баумана, 105005, Москва, 2-я Бауманская, 5.

^ - 8 19 4

Оглавление автор диссертации — кандидата технических наук Камлех Харб

ВВЕДЕНИЕ

ГЛАВА 1. МЕТОДЫ АНАЛИЗА ГАРАНТОСПОСОБНОСТИ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ.

1.1. Анализ гарантоспособности вычислительных систем.

1.1.1. Угрозы гарантоспособности вычислительных систем.

1.1.2. Атрибуты гарантоспособности вычислительных систем.

1.1.3. Способы достижения гарантоспособности вычислительных систем.

1.2. Оценка надежности вычислительных систем.

1.2.1. Сравнительные оценки надежности вычислительных систем.

1.2.2. Вероятностные оценки надежности вычислительных систем.

1.2.3. Внесение неисправностей.

1.3. Математическая модель оценки надежности вычислительных систем.

1.4. Выводы.

ГЛАВА 2. КОМПЛЕКСНЫЕ МОДЕЛИ ОТКАЗОУСТОЙЧИВОСТИ ВС

2.1. Выбор числа процессоров.

2.2. Методы, использующие программную и аппаратную избыточности.

2.3. Интегрированные модели надежности мультипроцессорной ВС с несколькими версиями программ.

2.3.1. Описание модели.

2.3.2. Оценка надежности различных вариантов построения системы.

2.3.3. Анализ влияния сбоев на надежностные характеристики систем.

2.3.4. Влияние программной избыточности на поведения системы.

2.3.5. Зависимость надежности системы от интенсивностей ошибок ПО и отказов аппаратуры.

2.3.6. Зависимость надежности системы от вероятности обнаружения сбоев второго элемента трех элементной системы.

2.4. Выводы.

ГЛАВА 3. АЛГОРИТМЫ ГОЛОСОВАНИЯ И МОДЕЛИ ПОСТРОЕНИЯ РЕШАЮЩИХ БЛОКОВ

3.1. Учет характеристик средств контроля в случае резервирования.

3.2. Методы голосования.

3.3. Исследование характеристик решающих блоков.

3.3.1. Возможности реализации рассмотренных алгоритмов.

3.4. Выводы.

ГЛАВА 4. АНАЛИЗ МЕТОДОВ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ВС

4.1. Методы обеспечения устойчивости к программным сбоям.

4.1.1. Блоки восстановления.

4.1.2. N-вариантное программирование.

4.1.3. N-самопроверяемое программирование.

4.2. Анализ методов обеспечения отказоустойчивости.

4.2.1. Анализ блоков восстановления.

4.2.2. Анализ N-самопроеряемого программирования.

4.2.3. Анализ N-вариантного программирования.

4.2.4. Сравнение вариантов программ БВ, NBI1 и NCim.

4.3. Анализ надежности отказоустойчивых систем.

4.3.1. Критерии структурирования отказоустойчивых систем.

4.4. Выводы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Камлех Харб

Широкий диапазон применения вычислительных средств приводит к разнообразию задач, возлагаемых на их программное обеспечение (ПО). Для систем реального времени, особенно со строгими требованиями к работоспособности, требуется системная архитектура, обеспечивающая отказоустойчивость вычислительной системы. Примерами систем, которым необходим такой вид системной архитектуры, является самолетные системы, которые должны сохранять работоспособность в течение всего времени полета.

Разработке методов обеспечения отказоустойчивости вычислительных систем (ВС) посвящено достаточно много работ российских и зарубежных исследователей. Большой вклад в развитие этих методов вносят как российские ученые — К. А. Иыуду [1-7], В. В. Липаев [8,9] и др., так и зарубежные — Ж. К. Лапри [10-14], Ж. Д. Мусса [15], А. Авижиенис [11,16], Б. Ранделл [11,17], и др. [18-27].

Результаты анализа методов и средств, развившихся за последнее сорокалетие, показывают, что существующее положение дел в области создания отказоустойчивых вычислительных систем (ОУВС) может быть описано следующим образом.

В настоящее время имеются различные автоматизированные модели прогнозирования надежности, такие как автоматизированная система оценки надежности CARE III - (computer-aided reliability estimation, Version III) и полумарковский алгоритм оценивания диапазона ненадежности ВС как SURE (Semi-Markov Unreliability Range Estimator). Основным недостатком этих моделей является то, что они направлены на исследование оперативных аппаратных неисправностей и не занимаются исследованием программных неисправностей.

В области программного обеспечения (ПО) появились в последнее время различные методики и средства обеспечения надежности ПО на всех этапах разработки. Например, использование формальной математической спецификации и связанной с ней верификации, предотвращение ошибок и улучшение технико-экономических показателей создания ПО обеспечивается применением современных технологий и систем автоматизированного проектирования, объединенных понятиями CASE и языком четвертого поколения (4GL) [8,28]. В этой области применяется, как язык моделирования архитектуры ADL на этапе анализа и проектирования, так и унифицированный язык моделирования UML.

В области программного обеспечения появилось также устройство MAFALDA, предназначенное для внесения неисправностей программным путем и для определения классов отказов исполняющих систем на базе микроядра (таких, как ОСРВ VxWorks фирмы Wind River Systems, Inc и ОСРВ LynxOS фирмы LynxRTS) [29]. Применяются также упаковщики (wrappers) на уровне операционной системы или прикладной программы [30].

Гарантоспособность вычислительных систем реального времени становится актуальным предметом исследования. Так как в современных условиях появились новые угрозы, которые оказывают большое влияние на надежность функционирования вычислительных систем реального времени, расширялось само понятие надежности — было введено понятие гарантоспособности [10,12].

Проведен обзор существующих работ по обеспечению отказоустойчивости ВС, показал, что основные работы посвящены вопросам разработки методов и алгоритмов обеспечения отказоустойчивости либо аппаратурных, либо программных составляющих ВС. Практически отсутствуют работы по совместным эффектам, вызванным одновременными отказами аппаратуры и программного обеспечения. Теоретические исследования, направленные на обеспечение отказоустойчивости ВС сдерживается как отсутствием алгоритмов разработки решающих блоков, так и отсутствием методов для исследования влияния связанных неисправностей между версиями программного обеспечения.

Общая характеристика работы Актуальность темы. Непрерывно возрастающие требования к задачам, решаемым современными комплексами бортового оборудования (КБО) летательных аппаратов (ДА) различного назначения приводят к усложнению комплексов, к необходимости применения в составе этих комплексов сложных современных вычислительных систем, использующих последние достижения электронной промышленности. Усложнение комплексов выдвигает на первый план проблемы создания отказоустойчивых вычислительных систем (ОУВС), способных нормально функционировать при наличии сбоев и отказов аппаратуры, неисправностей в программах и ошибок в исходных данных. Бортовые ОУВС должны выполнить свои функции (согласно FAA Advisory Circular 25.1309.1А) с интенсивностью отказов не больше Ю-9 за 10 ч полета.

Результаты анализа существующих методов обеспечения отказоустойчивости показывает, что модели, учитывающие взаимосвязь поведения аппаратных и программных составляющих вычислительных систем в нештатных ситуациях в настоящее время практически отсутствуют. Кроме того, известные модели не являются полными в связи с тем, что они не учитывают ряд параметров существенно влияющих на корректное поведение ВС.

Теоретические исследования, направленные на обеспечение отказоустойчивости ВС сдерживается, как отсутствием алгоритмов разработки решающих блоков, так и отсутствием методов для исследования влияния связанных неисправностей между версиями программного обеспечения.

Поэтому задача разработки моделей и методов анализа и обеспечения отказоустойчивости вычислительных систем реального времени с учетом аппаратных и программных составляющих ВС является актуальной. Эта актуальность растет по мере расширения сфер применения и повышения требований к уровню отказоустойчивости и защищенности вычислительных систем. Актуальной также является разработка, как алгоритмов для построения решающих блоков, необходимых для обеспечения надежности отказоустойчивых вычислительных систем, так и методов для исследования влияния связанных неисправностей между версиями программного обеспечения. Поскольку доля отказов, обусловленных программными проектными неисправностями, представляет приблизительно 60% неисправностей ВС [10,11].

Целью диссертационной работы является исследование и разработка комплексных методов и моделей анализа и обеспечения отказоустойчивости бортовых вычислительных систем, учитывающих надежность аппаратного и программного обеспечения.

В соответствии с поставленной целью в диссертации были решены следующие задачи:

- Анализ существующих методов обеспечения гарантоспособности вычислительных систем реального времени;

- Разработка моделей надежности мультипроцессорных вычислительных систем, учитывающих различные варианты размещения программных версий;

- Разработка модели и исследование различных вариантов построения решающих блоков (РБ) отказоустойчивых вычислительных систем;

- Анализ методов повышения отказоустойчивости программного обеспечения и оценки их надежностных характеристик;

- Анализ методов и моделей обеспечения отказоустойчивости вычислительных систем;

- Создание комплекса алгоритмов и программ анализа и оценки надежности различных структур отказоустойчивых вычислительных систем, учитывающих надежность аппаратного и программного обеспечения;

- Разработка методов экспериментальной оценки надежностных характеристик программного обеспечения ОУВС.

Методы исследования. В работе использованы методы теории вероятностей и математической статистики, теории марковских процессов, теории графов и теории надежности.

Научная новизна. Разработана комплексная модель надежности

ОУВС, учитывающая надежностные характеристики аппаратного и программного обеспечения (АЛО) и позволяющая исследовать влияние различных параметров АЛО на отказоустойчивость вычислительной системы.

Разработана модель, учитывающая влияние связанных неисправностей между версиями программного обеспечения, и выработаны рекомендации по повышению отказоустойчивости вычислительных систем в таких ситуациях.

Разработана модель для исследования различных алгоритмов построения решающих блоков, позволяющая обоснованно выбирать структуру РБ и оптимизировать его вероятностные характеристики. Предложены оригинальные алгоритмы построения РБ, упрощающие аппаратную реализацию и обладающие повышенной надежностью.

Получены оценки надежностных характеристик различных вариантов построения программного обеспечения, использующих блоки восстановления, N-вариантное программирование и N-самопроверяемое программирование. Даны рекомендации по построению программного обеспечения, обладающего повышенной отказоустойчивостью.

Практическая ценность. Разработанные модели и методы позволяют адекватно описывать поведение и структуры отказоустойчивых вычислительных систем с учетом надежностных характеристик аппаратного и программного обеспечения.

Предложены инженерные методики, позволяющие обоснованно выбирать структуру и конфигурацию аппаратного и программного обеспечения при проектировании ОУВС с заданными характеристиками.

На основе разработанных моделей и методов обеспечения отказоустойчивости разработан комплекс алгоритмов и программ анализа и оценки надежности различных структур ОУВС, учитывающих надежность аппаратного и программного обеспечения.

Внедрение результатов работы. Полученные в диссертации результаты предназначены для использования при разработке новых ОУВС и использованы в научно-техническом центре и в университете Алеппо (Сирия), а также в учебном процессе при чтении лекции и проведении лабораторных работ и по курсу "управляющие ЭВМ и системы" в Ml ТУ- им. Н.Э. Баумана.

Полученные в диссертации результаты использованы в Научно-учебном комплексе «Информатика и системы управления» Ml "1'У им. Н.Э. Баумана при выполнении опытно-конструкторской работы по созданию отказоустойчивой цифровой вычислительной системы для бортового Фурье-спектрометра, предназначенного для длительного использования в составе научной аппаратуры космического аппарата «Метеор-М».

Апробация работы и публикации. По материалам диссертации опубликованы три статьи и сделан доклад.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, общих выводов, списка литературы и приложения. Она изложена на 121 машинописных листах. Содержит 56 рисунков, и 13 таблиц. Список литературы включает 92 наименования.

Заключение диссертация на тему "Комплексные модели анализа и обеспечения отказоустойчивости бортовых вычислительных систем"

Общие выводы

Настоящая работа посвящена разработке и исследованию комплексных моделей анализа и обеспечения отказоустойчивости бортовых вычислительных систем. Применение таких моделей представляется весьма перспективным в структуре вычислительных систем, поскольку это позволяет упрощать аппаратную реализацию, обладать повышенной надежностью и учитывать ряд параметров существенно влияющих на корректное поведение ВС.

Основными научными и практическими результатами работы являются:

1. Исследованы методы обеспечения гарантоспособности вычислительных систем реального времени, дана классификация методов достижения гарантоспособности.

2. Разработана комплексная модель надежности ОУВС, учитывающая надежностные характеристики аппаратного и программного обеспечения (АПО) и позволяющая исследовать влияние различных параметров АПО на отказоустойчивость вычислительных системы.

3. Разработана модель, учитывающая влияние связанных неисправностей между версиями программного обеспечения, и выработаны рекомендации по повышению отказоустойчивости вычислительных систем в таких ситуациях. На основе разработанной модели показано, что четвертая версия программы улучшает надежность программы только на 0.01% относительно надежности системы с тремя версиями (ВБР одного из которых R = 0-95).

4. Разработана модель для исследования различных алгоритмов построения решающих блоков (РБ), позволяющая обоснованно выбирать структуру РБ и оптимизировать его вероятностные характеристики. Предложены оригинальные алгоритмы построения РБ, упрощающие аппаратную реализацию и обладающие повышенной надежностью. Предложенные оригинальные алгоритмы построения РБ позволяют уменьшить вес и габарит бортовой ВС, упрощают аппаратную реализацию и обладают повышенной надежностью. ВБР полученного РБ РБВ = 0.9833, а ВБР трех процессорной системы Р^ = 0.972.

5. Получены оценки надежностных характеристик различных вариантов построения программного обеспечения, использующих блоки восстановления, N-вариантное программирование и N-самопроверяемое программирование. Предложен метод для вычисления среднего времени выполнения БВ. Даны рекомендации по построению программного обеспечения, обладающего повышенной отказоустойчивостью.

6. Разработана модель ОУВС, использующая блоки восстановления, N-вариантное программирование и N-самопроверяемое программирование и получены оценки их надежностных характеристик.

7. На основе разработанных моделей и методов обеспечения отказоустойчивости разработан комплекс алгоритмов и программ анализа и оценки надежности различных структур ОУВС, учитывающих надежность аппаратного и программного обеспечения.

8. Предложенные модели использованы при проектировании реальных ОУВС а научно-исследовательском центре (SSRC - Сирия) и позволили получить 10-15% повышение надежности систем.

Библиография Камлех Харб, диссертация по теме Вычислительные машины и системы

1. Иьгуду К. А., Кривощенков С. А. Математические модели отказоустойчивых вычислительных систем. — М.: МАИ, 1989. — 142 с.

2. Иыуду К. А. Теория надежности и живучести бортовых вычислительных машин. М.: МАИ, 1978. - 52 с.

3. Иыуду К. А., Силаева Т. А. Обеспечение надежного функционирования ЭВМ и систем. -М.: МАИ, 1993. 46 с.

4. Иыуду К. А. Задачи и упражнения по основам эксплуатации ЭВМ. — М.: МАИ, 1996.-31 с.

5. Иыуду К. А. Аналитическое моделирование надежности отказоустойчивости вычислительных систем // Приборы и системы управления. —1998. No.ll.-С. 40-42.

6. Иыуду К. А. Надежность, контроль и диагностика вычислительных машин и систем. — М.: Высшая школа, 1989. — 215 с.

7. Иыуду К. А., Садчиков П. И., Шаповалов Ю. В. Вычислительные устройства и системы. М.: Высшая школа, 1988. — 237 с.

8. Липаев В. В. Надежность программных средств. — М.: Синтег, 1998. -232 с.

9. Лгтаев В. В. надежность программного обеспечения АСУ. — М.: Энерго-издат, 1981.-239 с.

10. Laprie J. С. Dependability of software-based critical systems // LAAS Toulouse Paper. -1999 . -№ 99369. -27 p.11 .Avizienis A., Laprie J.C., Randell B. Fundamental concepts of dependability // LAAS Toulouse Paper. -2001 . -№ 01145. -19 p.

11. JLaprie J.C. Surte de fonctionnement informatique I I LAAS Toulouse Paper. — 2001.-№01326. -16 p.

12. Fault tolerant computing / J.C. Laprie, J. Arlat, C. Beounces. et al. I I LAAS Toulouse Paper. -1992. -№ 92532. -20 p.

13. A.Deswarte Y., Kanoim K., Laprie J.C. Diversity against accidental and deliberate faults // LAAS Toulouse Paper. -1999. № 99306. -23 p.

14. Musa J. D., Iannino AOkumoto K. Software reliability measurement, prediction, application. — New York: McGraw-Hill Int. editions computer science series. 1987. -621 p.

15. Avizienis A. The N-version approach to fault-tolerant software // IEEE Trans. On SE. -1985. Vol. SE-11, No.12. -P. 1491-1501.

16. Randell B. System structure for software fault tolerance // IEEE TSE. —1975. -Vol. SE-1. -P. 220-232.

17. Dependable systems of systems: State of the art survey / J. Arlat, J.C. Fabre, V. Isscmry et al. // LAAS Toulouse Paper. -2000. № 00353. 97p.

18. State of the art / J. Arlat, K. Kanoun,H. Madeira, et al. // LAAS Toulouse Paper. -2001. —№ 01605. -61p.

19. Spitzer C. R. Digital Avionics Systems, principles and practice. —NewYork: McGraw-Hill, Inc., second edition, 1993. —277 p.

20. Goal A. L. Software reliability models: assumptions, limitations and applicability // IEEE Trans, on SE. -1985. -Vol. SE11, No.12. -P. 1411-1423.

21. Scott R. K., Gault J. W., Mcallister D. F. Fault-tolerant software reliability modeling // IEEE Trans. On SE. -1987. -Vol. SE-13. No. 5. -P. 582-592.

22. Тейер Т., Липов M, Нельсон Э. Надежность программного обеспечения. — М.: Мир, 1981.-323 с.

23. Software product assurance for autonomy on-board spacecraft / J.P. Blanquart, M. Hemek, C. Honvault. et al. // LAAS Toulouse Paper. -2003. -№ 03022. -61. P

24. Okumoto K. A statistical method for software quality control // IEEE Trans, on software engineering. 1985. -Vol.11, No.12. - P. 1424-1437.

25. Rodriguez M., Fabre J.C., Arlat J. From error detection to error recovery wrappers for real-time systems I ILAAS Toulouse Paper. —2002. —№ 02190. — 20 p.

26. Kanoun K. Dependability evaluation: a survey // LAAS Toulouse Paper. — 2002.-№02382.-9 p.

27. Fault Tolerant computing / J. Arlat, Y. Crouzet, P. David et al // LAAS Toulouse Paper. -1998. -№ 98005. 63 p.

28. ЪЪ.Arlat J., Kanoun K., Laprie J.-C. Dependability modeling and evaluation of software-fault tolerance systems: Recovery blocks, N-version programming and N self-checking programming // LAAS Toulouse Paper. —1990. -№ 90057. — 57 p.

29. Lee P. A. Software faults: the remaining problem in fault-tolerant systems. // Lecture notes in computer science — 1994. —№ 774. —P. 174-189.

30. LlImpuK А. А., Осовецкий JI. Г., Мессих И. Г. Структурное проектирование надежных программ встроенных ЭВМ. —Ленинград: Машиностроение, 1989.-296с.

31. Goal A. L. Software reliability models: assumptions, limitations and applicability // IEEE Trans, on SE. -1985. -Vol. SE11, No.12. -P. 1411-1423.

32. Shin К. G., Lee Y.-H. Error detection process model, design, and its impact on computer performance // IEEE Trans, on computers. -1984. -Vol. C-33, No. 6. -P. 529-540.

33. Матов В. И., Белусов Ю. А., Федосеев Е. П. Бортовые цифровые вычислительные машины и системы. — М.: Высшая школа, 1988. — 215 с.

34. Madeira //., Camoes J., Silva J. G. A watchdog processor for concurrent error detection in multiple processor systems // Microprocessors and Microsystems. — 1991.-Vol. 15, No.3. -P. 37—45.

35. Avi Ziv, Bruk J. An On-line Algorithm for Checkpoint Placement // IEEE Trans, on computers. -1997. -Vol. 46, No. 9. P. 57- 63.

36. Feridun A.M. ,Shin KG. A fault tolerant multiprocessor system with rollback recovery capabilities // IEEE 181 Proc. 2-nd Int. Conf. of distributed сотр. systems. London, 1998. - P. 112- 119.

37. Progressive retry for software failure recovery in message-passing applications / Yi-Min Wang, Y. Huang, W. К Fuchs et al. // IEEE Trans. On computers. — 1997. -Vol. 46, No. 10. -P. 37-45.

38. Росляков Д. И., Терехов И. А. Отказоустойчивая технология фирмы "Sequoia" // Зарубежная радиоэлектроника, —1998. —No.l. -С. 76-79.

39. Waeselynsk Н. Verification de logiciels critiques par le test statistique. — Toulouse, 1993. -178 p. (Technical report LAAS.)

40. Есин Ю. Ф., Максимов В. А., Мамаев В. Я. Автоматизированное проектирование программного обеспечения бортовых систем отображения информации. — М.: Машиностроение, 1993. — 329 с.

41. Laprie J.-C. Dependability evaluation of software systems in operation // IEEE Trans. On SE. -1984. -Vol. SE-10, No. 6. -P. 701-714.

42. Барсуков А.Г., Назаров C.B. Измерительные средства и оптимизация вычислительных систем. -М.: Радио и связь, 1990. 248 с.

43. Капитонова Ю.В., Летичевский АЛ. Математическая теория проектирования вычислительных систем. М.: Наука, 1988. - 295 с.

44. Betous-Lmeida С., Kanoun К. Dependability evaluation: from functional to structural modeling // LAAS Toulouse Paper. -2001. -№01088. 17p.

45. Тассел Д. Ван. Стиль, разработка, эффективность, отладка и испытание программ. Перевод с английского Е.К. Масловского, В.А. Прониной: Под редакцией Э.А. Трахтенгерца. Издание 2-е. — М: Мир, 1985. 332 с.

46. Monsef Y. Modelisation et simulation des systemes complexes. -Paris: TEC DOC, 1996.-277 p.

47. Альянах И. H. Моделирование вычислительных систем. — Ленинград: Машиностроение, 1988. — 223с.

48. Артамонов Г.Т., Брехов О.М. Оценка производительности ВС аналитико-статистическими моделями. — М.: Энергоатомиздат, 1993. — 301 с.

49. Платанов С. В., Романовский А. С., Чухоров С. Ю. Применения компьютерных технологий // Вестник МВТУ. Приборостроение.—1999. No 2. -С. 70-77.

50. Фритч В. Применение микропроцессоров в системах управления. — М.: Мир, 1984.-463 с.

51. Погребинский С. Б., Стрельников В. П. Проектирование и надежность многопроцессорных ЭВМ. — М.: Радио и связь, 1988. — 165 с.

52. TabakD. Multiprocessors. —London: Prentice-Hall Int. Inc, 1989. -287 p.

53. Бахтеяров С. Д., Дудников Е. Е., Евсеев М. Ю. Транспьютерная технология. -М.: Радио и связь, 1993. — 315с.

54. Pattipati К. R., Kurien Th., Lee R.-T. On mapping a tracking algorithm onto parallel processors I I ШЕЕ Trans, on aerospace and electronic systems. —1990. -Vol.26, No. 5.-P. 147-153.

55. Bulter R. W., Johnson S. C. Techniques for modeling the reliability of fault-tolerant systems with the Markov state-space approach // NASA ref. —1996. — Publication 1348. -60 p.

56. Дружинин Г. В. Надежность автоматизированных производственных систем. -М.: Энергоиздат, 1986. — 387 с.

57. Принципы обеспечения отказоустойчивости многопроцессорных вычислительных систем // Сборник трудов института проблем управления. — М., 1987.-С 9-17.

58. Kant К. Performance analysis of real-time software supporting fault-tolerant operation // IEEE Trans. On computers. -1990. -Vol.39, No.7 . -P. 906-918.

59. Minto К D., Vidyasagar M. Design of Reliable Control Systems: Theory and Computations. — Waterloo(Canada): University of Waterloo, 1995. —182 p.

60. Chen J., Patton R. /. Robust Model-Based Fault Diagnosis for Dynamic Systems. Boston: Kluwer Academic Publishers, 1999. —354 p.

61. Росляков Д.И., Терехов И. А. Вычислительные системы и параллельные вычисления // Информационные технологии. —1998. —No. 1. -С. 31 -34.

62. Каган Б. М., Мкртумян И. Б. Основы эксплуатации ЭВМ. — М.: Энергоатом издат, 1988. -429 с.

63. Вентцелъ Е. С. Исследование операций. — М.: Советское радио, 1972. -550 с.71 .Королюк В. С, Турбин А. Ф. Процессы марковского восстановления в задачах надежности систем. —Киев.: Наукова думка, 1982. — 236с.

64. Birolini A. Quality and Reliability of Technical Systems, Theory, Practice, Management. —NewYork: Springer, 1997. — 502 p.

65. Trivedi K. S. Probability and statistics with reliability, queuing and computer science applications. — London: Prentice-Hall, 1982. -624 p.

66. Bass J. M., Shabgahi G. L., Bennett S. Experimental comparison of a voting algorithms in cases of disagreement I I Proc. 23rd Euromicro Conference. — Budapest (Hungary), -1997. -P. 516-523.

67. Stuart Bennet. Real-time computer control, an introduction. -New York: Prentice Hall, 1994. 417p.

68. Billinton R., Ronald N.A. Reliability evaluation of engineering systems: concepts and techniques. -New York: Pitman advanced publishing program, 1983. -365 p.

69. Pradhan D. К. Fault-Tolerant computing theory and technique. — London: Prentice-hall, 1986. 695 p.

70. Patrick D. T. Practical reliability engineering. -London: John Wiley & sons, second edition, 1985. 387p.

71. Mathews J. H. Numerical methods for mathematics, science, and engineering.1.ndon: Prentice Hall international editions, 1992. — 646 p.

72. Пархоменко П. IL, Согомонян Е. С. Основы технической диагностики.- М.: Энергоиздат, 1981. 320 с.

73. Rangarajan S., Don Fussel. A probabilistic method for fault diagnosis of multiprocessor systems // IEEE Trans, on computers. — 1985. -Vol. 34. —P. 278283.

74. Rook P. Software Reliability Handbook. Elsevier Applied Science. —London: Springer, 1991. -542 p.

75. S5.Shin K. G., Lee Y.-H. Design and evaluation of a fault-tolerant multiprocessor using hardware recovery blocks // IEEE Trans, on computers. —1984. —Vol.33, No. 2.-P. 113-124.

76. Согомонян E. С., Слабаков E. В. Самопроверяемые устройства и отказоустойчивые системы. — М.: Радио и связь, 1989. — 208 с. %1.Гнеденко Б. В., Беляев Ю. К., Соловьев А. Д. Математические методы в теории надежности. М: Наука, 1965. — 524 с.

77. Вентцель Е. С., Овчаров Л. А. Теория вероятностей. — М.: Наука, 1973. — 364 с.

78. Гнеденко Б. В. Вопросы математической теории надежности. — М.: Радио и связь, 1983. 526 с.

79. Leitch R.D. Reliability analysis for engineers: an introduction. — London: Oxford science publications, 1995. 235p.