автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Исследование и разработка методов построения устойчивых к неисправностям оперативных запоминающих устройств бортовых вычислительных систем

кандидата технических наук
Буханова, Галина Викторовна
город
Москва
год
1998
специальность ВАК РФ
05.13.13
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка методов построения устойчивых к неисправностям оперативных запоминающих устройств бортовых вычислительных систем»

Автореферат диссертации по теме "Исследование и разработка методов построения устойчивых к неисправностям оперативных запоминающих устройств бортовых вычислительных систем"

АКАДЕМИЯ НАУК РОССИИ

ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ

ОД

На правах рукописи

/ о мм ада

Буханова Галина Викторовна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ПОСТРОЕНИЯ УСТОЙЧИВЫХ К НЕИСПРАВНОСТЯМ ОПЕРАТИВНЫХ ЗАПОМИНАЮЩИХ УСТРОЙСТВ БОРТОВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

Специальность 05.13.13 - Вычислительные машины, комплексы, системы и сети

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Москва -1998

Работа выполнена в Институте Проблем Управления РАН

Научный руководитель: кандидат технических наук Шагаев И.В.

Официальные оппоненты: доктор технических наук Ведешенков ВЛ. кандидат технических наук Пляскота С.И.

Ведущее предприятие - Научно-исследовательский институт "Научный Центр", г.Зеленоград

Защита состоится . 199 г. в..... часов

на заседании Диссертационного совета N2 (Д002.68.01) по защите диссертаций на соискание ученой степени кандидата технических наук при Институте Проблем Управления РАН по адресу: 117342, Москва, ул. Профсоюзная 65.

С диссертацией можно ознакомиться в библиотеке Института Проблем Управления.

Автореферат разослан ___________________ 199 г.

Ученый секретарь совета

к.т.н. Юркевич Е.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Постоянный рост требований к функциональным и конструктивным характеристикам ответственных вычислительных систем (ВС), к которым относятся и бортовые ВС летательных аппаратов (в дальнейшем, БВС), вызывает необходимость разработки новых высоконадежных ВС и их функциональных блоков. Оперативные запоминающие устройства (ОЗУ); из-за крайне высокой плотности расположения и количества элементов на полупроводниковом кристалле, являются одними из наиболее влияющих на совокупную надежность БВС. Объем оборудования ОЗУ составляет большую часть аппаратуры БВС. Поэтому повышение надежности ОЗУ как функционального блока БВС является актуальной задачей. Только совершенствование технологий из-за достижения естественных физических пределов не позволяет обеспечивать требуемый уровень надежности электронной вычислительной техники. Еще одним способом повышения надежности аппаратуры ВС является обеспечение устойчивости к неисправностям (сбоям и отказам). Устойчивость к неисправностям предполагает, что появление неисправностей аппаратуры во время работы ВС ожидается, но их влияние будет автоматически преодолено использованием избыточных компонент. Избыточные ВС, способные продолжать функционирование в полном объме после возникновения неисправностей аппаратуры и ошибок в программном обеспечении принято называть отказоустойчивыми ВС (ОВС).

Таким образом, устойчивость к неисправностям аппаратуры ВС обеспечивается введением избыточности. Методы обеспечения устойчивости к неисправностям в отношении ОЗУ основываются либо на структурной, либо на информационной, либо на временной избыточности. Возможно также сочетание указанных видов избыточности. Перечисленные виды избыточности могут обеспечиваться аппаратурно и программно.

Известны два основных способа реализации устойчивости к неисправностям ВС. Одним из них является маскирование возникшей неисправности и продолжение функционирования ВС без задержки. Другой способ подразумевает автоматическое обнаружение неисправности системой, обеспечение структурой системы определения типа неисправности (отказ/сбой), локализации неисправности, реконфигурации структуры и восстановления поврежденной неисправностью информации. ВС, устойчивые к неисправностям, могут комбинировать оба способа для реализации устойчивости к неисправностям и менять режимы обеспечения устойчивости к

неисправностям. До настоящего времени границы применения этих различных способов не определены. В этой связи исследование и разработка методов построения устойчивых к неисправностям ОЗУ ВВС, основанных на использовании различных видов избыточности в структурах ОЗУ, представляются актуальными.

Целью работы является разработка методики использования различных видов избыточности в структурах ОЗУ для обеспечения структур ОЗУ свойством устойчивости к неисправностям и применение этой методики для разработки новых устойчивых к неисправностям ОЗУ ВВС. Для этого в работе исследуются возможность использования внешних средств введения структурной, информационной и временной избыточности в структуры ОЗУ для реализации свойства устойчивости к неисправностям, а также способы обеспечения устойчивости к неисправностям.

Методы исследования. Основные результаты диссертационной работы проанализированы с привлечением теории вероятности и марковских процессов, основ теории классификации избыточности информационных систем.

Научная новизна работы состоит в разработке методики использования различных видов избыточности для проектирования новых структур ОЗУ со свойством устойчивости к неисправностям, в разработке способа реализации свойства устойчивости к неисправностям, позволяющего сокращать период скрытости неисправностей (латентный период). Разработанная методика представлена в виде последовательности действий процесса проектирования устойчивых к неисправностям ОЗУ и рекомендаций для их выполнения. Представлена структура подсистемы ОЗУ ОВС, в частности ее системной и пользовательской частей. Использование избыточности представлено в виде таксономии, построенной в трех ортогональных осях: структура ОЗУ подсистемы, класс неисправностей, относительно которого компоненты ОЗУ устойчивы к неисправностям, и рекомендуемые виды избыточности, необходимые для реализации свойства устойчивости к неисправностям структур ОЗУ. Новизна предложенного в работе способа обеспечения устойчивости к неисправностям заключается в использовании комбинации двух известных способов обеспечения устойчивости к неисправностям для разработки новых структур ОЗУ, устойчивых к накоплению неисправностей в классе неисправностей произвольной кратности, а также в обеспечении возможности менять режимы обеспечения устойчивости к неисправностям.

Показано применение предложенной методики для проектирования устойчивых к неисправностям ОЗУ ВВС. Исследована возможность модификации классической троированной структуры, и разработаны новые структуры ОЗУ, устойчивые к

накоплению неисправностей в классе неисправностей произвольной кратности, а также троированные структуры ОЗУ с возможностью реконфигурации структуры. Рассмотрено применение метода управляемой деградации при построении структур ОЗУ такого типа. Осуществлен сравнительный анализ разработанных структур ОЗУ БВС с точки зрения надежности и технической реализуемости. Показано, что предлагаемые структуры ОЗУ имеют существенно более высокую надежность, по сравнению с классическими.

Практическая ценность. Полученные в работе результаты позволяют формализовать проектирование устойчивых к неисправностям ОЗУ БВС с различными функциональными и надежностными требованиями. Подсистема ОЗУ представляется в виде семейства ОЗУ, устойчивых к неисправностям относительно наперед заданных классов неисправностей. Обеспечение свойства устойчивости к накоплению неисправностей значительно уменьшает вероятность отказа предлагаемых структур ОЗУ, что, во-первых, обосновывает введение избыточности в структуры ОЗУ, по сравнению с обычной структурой ОЗУ, во-вторых, позволяет увеличить надежность ОЗУ как функционального блока БВС, и, следовательно, надежность БВС в целом. Это позволяет повысить коэффициент готовности БВС, снизить затраты на ее обслуживание. Системы, построенные по таким принципам, дешевле в эксплуатации и более надежны.

Результаты работы нашли практическое внедрение и обеспечили возможность реализации новых принципов обеспечения активной безопасности отечественных летательных аппаратов.

Реализация результатов. Полученные в работе результаты использованы при разработке структуры ОЗУ регистратора полетных данных для отечественных самолетов АОЗТ "ОКБ Сухого", а также при разработке структуры ОЗУ цифровой системы управления двигателем АМНТК "Союз". Использование результатов работы подтверждено актами о внедрении и заключениями экспертных советов.

Апробация работы. Результаты работы докладывались на научных семинарах лаборатории технической диагностики ИПУ (1991-1997), на Международной конференции "Technologische Sicherheit, Umwelt und Konversion-Risiken der Technik und ihre Beherrshung" (1992) в Берлине (Германия), на VIII Международной школе-семинаре "Диагностика и отказоустойчивость в технике" (1995) в Алуште (Украина).

Публикации. Автором опубликовано три научных работы по теме диссертации.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы 65 наименований, приложений, 39 рисунков, 14 таблиц. Приложения содержат 24 страницы. Всего 190 страниц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении раскрывается актуальность работы и ее цель, характеризуется научная новизна и практическая ценность, дается краткое изложение содержания работы по главам.

В первой главе проведен аналитический обзор работ по современным методам проектирования высоконадежных ОЗУ ОВС. Коротко рассматриваются основные причины нарушения работоспособности ОЗУ. В работе ОЗУ можно выделить следующие типы неисправностей - устойчивые (отказы) и кратковременные (сбои, перемежающиеся отказы). Оба типа неисправности приводят к ошибкам данных. Ошибка - это искажение хранимого или считанного из ОЗУ слова под воздействием отказа или сбоя. Интервал времени между моментами возникновения неисправности и появления ошибки данных называют латентным периодом или периодом скрытости неисправности. В этой связи задачей системы контроля является обнаружение ошибки по возможности с большей временной и пространственной разрешающей способностью, т.е. максимально близко от места ее возникновения и с минимальной задержкой по времени. На информационном уровне отказы могут проявляться в неверном считывании информации из каких-либо ячеек памяти, даже если вместо предыдущих ошибочных данных производится запись истинных (постоянные ошибки). Кратковременные неисправности (сбои), в отличие от отказа, вызывают временное изменение логического состояния отдельных битов, правильное состояние которых восстанавливается при повторной записи. Известно, что интенсивность сбоев интегральных схем запоминающих устройств (ИС ЗУ) на один-два порядка выше, чем интенсивность отказов. Это говорит о важности защиты ЗУ от сбоев ИС. Наконец, перемежающиеся неисправности иногда являются следствием постоянных неисправностей, появляющихся при редком сочетании логических переменных, как, например, кодочувствительные неисправности ОЗУ.

В результате проведенного обзора делается вывод, что обеспечение необходимого уровня надежности ОЗУ ОВС может быть достигнуто введением в структуры ОЗУ встроенных средств устойчивости к неисправностям. Причем, часть средств обеспечения устойчивости к неисправностям может быть внешней по

4

отношению к сверхбольшим ИС (СБИС) ОЗУ, другая может входить в их состав. На основе анализа существующих методов обеспечения устойчивости к неисправностям ОЗУ в первой главе приведена классификация методов обеспечения устойчивости к неисправностям ОЗУ (рис.1). Рассмотрены методы обеспечения устойчивости к

Рис.1

неисправностям ОЗУ ОВС, основанные на введении структурной, информационной и временной избыточности. Приводятся примеры реализаций ОЗУ в ОВС, в том числе в отказоустойчивых БВС. Показано, что перечисленные виды избыточности могут обеспечиваться аппаратурно и программно. Однако при построении структур ОЗУ, устойчивых к неисправностям, основным видом избыточности является аппаратурная. Программная избыточность служит дополнительным, системным, средством реализации или поддержки устойчивости к неисправностям.

В связи с тем, что расширяется область применения ОЗУ в ответственных применениях, например таких как бортовые системы управления и регистрации полетных данных, возникает задача разработки эффективных методов использования различных видов избыточности для обеспечения структур ОЗУ ВВС или систем подобного рода свойством устойчивости к неисправностям.

Применительно к ВВС, структура подсистемы ОЗУ которых, как правило, состоит из нескольких частей, требующих различных способов реализации устойчивости к неисправностям, а также учитывая особенно жесткие требования по безопасности и надежности, которые предъявляются к этим системам, необходимо решить следующие задачи:

1. Формализовать процедуру проектирования устойчивых к неисправностям ОЗУ с наперед заданными функциональными и надежностными требованиями.

2. Разработать методы использования различных видов избыточности для обеспечения структур ОЗУ ВВС свойством устойчивости к неисправностям произвольной кратности.

Вторая глава посвящена разработке методов построения устойчивых к неисправностям ОЗУ ВВС. Задачи второй главы формулируются следующим образом:

1. Разработать методику - последовательность действий процесса проектирования ОЗУ со свойством устойчивости к неисправностям.

2. Исследовать способы обеспечения устойчивости к неисправностям ОЗУ ВВС.

3. Разработать методы введения различных видов избыточности в структуры ОЗУ для обеспечения структур ОЗУ ВВС свойством устойчивости к неисправностям относительно наперед заданного класса неисправностей.

4. Исследовать контролирующие и восстанавливающие свойства структур ОЗУ, необходимые для обеспечения свойства устойчивости к накоплению неисправностей, используя минимальный объем аппаратурной и программной избыточности.

Разработанная в этой главе методика применения избыточности для проектирования устойчивых к неисправностям ОЗУ представлена в виде следующей последовательности действий:

1. Выбор уровня, на котором свойство устойчивости к неисправностям структур ОЗУ должно быть реализовано. Это следующие четыре уровня или их комбинации:

1 - технологический;

2 - функциональная схема СБИС ОЗУ;

3 - функциональный модуль ОЗУ (модуль обеспечения устойчивости к неисправностям ОЗУ или подсистема ОЗУ);

4-ОВС.

В работе рассмотрен иерархический подход к организации взаимодействия средств обеспечения устойчивости к неисправностям ОЗУ ОВС. ____..-

Функциональный модуль ОЗУ, устойчивого к неисправностям, реализуется либо на СБИС ОЗУ без встроенных средств обеспечения устойчивости к неисправностям, либо с использованием СБИС ОЗУ со встроенными средствами обеспечения. При использовании функциональных модулей ОЗУ в ОВС внутренние с точки зрения СБИС ОЗУ средства обеспечения устойчивости к неисправностям дополняются внешними средствами обеспечения устойчивости к неисправностям функционального модуля ОЗУ, а внутренние с точки зрения функционального модуля ОЗУ средства обеспечения устойчивости к неисправностям дополняются внешними средствами обеспечения устойчивости к неисправностям ОВС. Таким образом, под модулем обеспечения устойчивости к неисправностям ОЗУ здесь будем понимать некую подсистему в ОВС, которая позволяет:

1. Обнаруживать свои неисправности в процессе нормального функционирования и восстанавливать свое достоверное функционирование в случае обнаружения неисправности.

2. Иметь возможность пользоваться системной поддержкой своей внутренней устойчивости к неисправностям, в случае, когда собственных средств обеспечения устойчивости к неисправностям становится недостаточно.

3. Поддерживать устойчивость к неисправностям системы, т.е. иметь возможность использования собственной внутренней устойчивости к неисправностям для поддержания устойчивости к неисправностям ОВС.

Устойчивость подсистемы ОЗУ к неисправностям осуществляется с помощью алгоритма обеспечения устойчивости к неисправностям (АОУН), который представлен на рис.2. Для реализации шагов АОУН используются различные виды избыточности. В отношении всей системы каждый из шагов АОУН должен быть реализован, в то же время в отношении отдельных компонент подсистемы такое требование не является обязательным. При этом под достоверностью работы подсистемы ОЗУ понимается свойство, характеризующее истинность выходного результата работы подсистемы, которая определяется способностью средств контроля фиксировать правильность или ошибочность ее работы. Предполагается, что достоверность работы подсистемы зависит только от ошибок, вызванных

АЛГОРИТМ ОБЕСПЕЧЕНИЯ УСТОЙЧИВОСТИ К НЕИСПРАВНОСТЯМ ПОДСИСТЕМЫ ОЗУ

Шаг 1. Доказать, что неисправность не существует и 6'. Иначе 22. Шаг 2. Определить тип неисправности (отказ или сбой). Если отказ, то 3. Иначе 5.

Шаг 3. Локализовать неисправность.

Шаг 4. Определить возможность замещения неисправной компоненты подсистемы ОЗУ. Если возможно, реконфигурировать подсистему и 5. Иначе останов.

Шаг 5. Восстановить поврежденную аппаратурной неисправностью информацию или перезапуск программы работы после реконфигурации ОЗУ и 6. Шаг 6. Продолжить:

1) нормальное функционирование при условии, что неисправность не существует или после полного восстановления3, или

2) функционирование при неполном восстановлении4 после устранения неисправности {метод постепенной или управляемой деградации).

Рис. 2.

Примечания к рис. 2 :

1. Общее:

Номера цифр в тексте рис.2 указывают номер шага.

2. К шагу 1:

Если определение типа неисправности ( отказ или сбой ) не происходит, то этом случае имеет место маскирование возникшей неисправности и продолжение зункционирования без задержки.

3. При полном восстановлении система возвращается к нормальной работе с >бычной скоростью обработки и емкостью памяти, а информация, поврежденная шисправностью, восстанавливается до первоначального варианта.

4. При неполном восстановлении неисправность устраняется, но теряется скорость )бработки или уменьшается емкость памяти из—за отключения отказавших компонент, 1ли подсистема ОЗУ переходит в другой режим функционирования (изменяется ее конфигурация ).

отказами и сбоями объекта контроля, средств контроля, а также от характеристик используемого метода контроля.

2. Выбор способа реализации свойства устойчивости к неисправностям структур ОЗУ или их комбинации. Устойчивые к неисправностям ОЗУ различаются с точки зрения промежутка времени, отводимого на восстановление работоспособности после возникновения неисправности и допустимого с точки зрения функционирования ОВС.

По способу реализации устойчивости к неисправностям различают два типа систем:

1. ОВС с жестким временным диапазоном обеспечения устойчивости к неисправностям. К таким относятся системы с мажоритарным органом, применяющиеся в случае особо ответственных ВС, когда не допустимы даже кратковременные перерывы в работе ВС, а также для обеспечения устойчивости к неисправностям важнейших блоков и устройств ВС.

2. ОВС, в которых отдельно выделяются процессы обнаружения ошибки, выявления ее характера (случайная или постоянная), локализации неисправности, реконфигурации системы и восстановления информации.

Отметим, что системы, устойчивые к неисправностям, могут комбинировать оба способа реализации устойчивости к неисправностям и менять режимы обеспечения устойчивости к неисправностям. До настоящего времени границы применения этих различных способов обеспечения устойчивости к неисправностям не определены. Поэтому представляется целесообразным исследовать возможности использования известных способов реализации устойчивости к неисправностям или их комбинации для разработки новых структур ОЗУ для систем первого типа.

3. Выбор внешних, по отношению к СБИС ОЗУ, средств введения различных видов избыточности в структуру подсистемы ОЗУ для обеспечения структуры подсистемы свойством устойчивости к неисправностям относительно наперед заданного класса неисправностей. Для выполнения этого действия процесса проектирования устойчивого к неисправностям ОЗУ, необходимо определить относительно какого класса неисправностей подсистема ОЗУ должна обеспечить достоверность работы, а также восстановление работоспособного состояния ОЗУ, и в соответствии с этим определить какие виды избыточности необходимы для реализации этих свойств структуры подсистемы.

В структуре подсистемы ОЗУ различаются системное и пользовательское ОЗУ. Системное ОЗУ содержит основные данные, отвечающие за работоспособность

системы и реконфигурацию. Пользовательское ОЗУ предназначено для накопления, хранения и передачи информации в соответствии с назначением системы. Поэтому само использование избыточности для обеспечения структур ОЗУ свойством устойчивости к неисправностям можно представить в виде таксономии (табл.1), построенной в трех ортогональных осях: структура ОЗУ подсистемы, класс неисправностей, относительно которого компоненты ОЗУ устойчивы к неисправностям, и рекомендуемые виды избыточности, необходимые для реализации свойства устойчивости к неисправностям структур ОЗУ.

При этом класс неисправностей, относительно которого ОЗУ должно быть устойчиво, определяется назначением и условиями применения системы, в которой предполагается использовать ОЗУ.

Исходя из выбранного класса неисправностей осуществляется выбор средств контроля и восстановления. Выбор средств контроля производится исходя из характеристик методов контроля, которые описываются величиной вероятности обнаружения ошибок выбранным методом контроля, выбор средств восстановления -исходя из возможности восстановления достоверного функционирования.

Часть видов избыточности, представленных в Табл. 1, приведена на основе анализа существующих методов обеспечения устойчивости к неисправностям ОЗУ (методов контроля и восстановления), приведенного в главе 1, другая - с целью исследования возможности модификации классической троированной структуры ОЗУ, а также модуля обеспечения устойчивости к неисправностям ОЗУ ( подсистемы ОЗУ) в целом.

Во второй главе приводится таблица, в которой показано использование различных видов избыточности для реализации шагов АОУН подсистемы ОЗУ. Системная и пользовательская части подсистемы ОЗУ представляются в виде семейства ОЗУ, устойчивых к неисправностям наперед заданного класса.

4. Оценка эффективности принятых проектных решений заключается в следующем:

1. Исследование надежности предлагаемых структур ОЗУ, позволяющее обосновать использование различных видов избыточности для обеспечения структур ОЗУ свойством устойчивости к неисправностям.

2. Оценка экономической эффективности ОВС в целом или, возможно отдельно, предлагаемых структур ОЗУ, которые являются одним из основных функциональных блоков ОВС.

Таблица 1

Структура ОЗУ Класс Используемые виды

подсистемы неисправностей избыточности

Системная часть 1. Произвольной Структурная

кратности. (дублирование со

2. Одиночные и кратные сравнением результатов, -

нечетной кратности (в мажоритарное резервиро-

структурах с возмож- вание, реконфигурация

ностью реконфигурации). троированной структуры);

информационная (паритет.

сигнализаторы ошибок

мажоритарного

декодирующего

устройства);

временная ( виды

временной избыточности

указаны ниже) - с учетом

ресурса временной

избыточности подсистемы

ОЗУ.

Пользовательская Коррекция одиночных и Структурная

часть обнаружение двойных (резервирование замеще-

нием);

информационная (коды

Хемминга, паритет);

временная программная:

программная поддержка

функций обнаружения

неисправностей (ошибок)

и восстановления

информации;

временная аппаратурная:

восстановление повреж-

денной аппаратурной

неисправностью инфор-

мации.

Оценка эффективности принятых проектных решений осуществляется на моделях надежности этих подсистем для выполнения первого пункта этого шага и на экономических моделях - для второго пункта. Выполнение второго пункта требует отдельного рассмотрения и не является предметом исследования данной работы. Однако, при реальном проектировании систем, устойчивых к неисправностям, учитываются требования экономической эффективности.

5. Реализация подсистемы ОЗУ ( модуля обеспечения устойчивости к неисправностям ОЗУ) или семейства ОЗУ, устойчивых к неисправностям относительно наперед заданного класса неисправностей с использованием перспективных технологий электронной техники, например ПЛИС (программируемых логических интегральных схем), полузаказных СБИС и микропроцессоров. Этому посвящается глава 4.

Далее во второй главе рассмотрено применение предложенной методики для разработки новых структур ОЗУ со свойством устойчивости к неисправностям ВВС. Представлена структурная схема подсистемы ОЗУ. Показан общий подход к реализации пользовательской части подсистемы. Приведены примеры реализаций в некоторых конкретных ОВС. Для системной части исследуется возможность модификации классической троированной структуры с целью разработки новых структур ОЗУ, устойчивых к накоплению неисправностей произвольной кратности, в том числе с возможностью реконфигурации троированной структуры.

В соответствии с таксономией (табл.1) и АОУН (рис.2) в работе предложены два пути модификации классической троированной структуры ОЗУ (ТОЗУ), направленные на повышение устойчивости к неисправностям обоих типов:

1. Построение модифицированных структур ТОЗУ (МТОЗУ), устойчивых к накоплению неисправностей типа "сбой", или МТОЗУ с фильтрацией сбоев в элементах.

2. Построение МТОЗУ с возможностью реконфигурации структуры.

Первый путь модификации структуры ТОЗУ предназначен для обеспечения устойчивости к накоплению неисправностей типа "сбой". Второй путь предназначен для повышения устойчивости к неисправностям типа "отказ", а в некоторых случаях -и типа "сбой".

Рассмотрим процесс модификации структуры ТОЗУ. Для обеспечения свойства реконфигурации структуры в структурную схему мажоритарного резервирования вводятся дополнительные элементы - мультиплексор и схема управления режимом работы. При построении МТОЗУ, устойчивых к накоплению неисправностей, необходимо обеспечить обязательное выполнение шагов 2 и 3 АОУН. Это,-" в- свою очередь, требует введения в структурную схему мажоритарного резервирования аппаратного контроля, т.е. в таких структурах необходимо осуществлять встроенный функциональный контроль схемы мажоритарного резервирования. Классическое использование мажоритарного резервирования применяется в этих структурах ОЗУ для выполнения функций контроля и восстановления достоверного значения информации в классе неисправностей произвольной кратности. При этом учитывается возможность возникновения ошибок в двух элементах ТОЗУ по одному адресу и разряду считанного слова. Вводится обязательное условие доказательства кратности неисправности на входах мажоритарного элемента, т.е. определения одиночная или двойная ошибка возникла на его входах. Для реализации этого в работе использован тот факт, что декодирующее устройство, исправляя одиночные ошибки, может сигнализировать и обо всех одиночных и двойных ошибках. В этом случае сигналы на входах мажоритарного элемента окажутся неодинаковыми. Это может быть обнаружено известной схемой, которая является инверсной к схеме совпадения.

Однако для того, чтобы обеспечить фильтрацию сбоев в элементах ТОЗУ, недостаточно сигнализировать о наличии одиночных и двойных ошибок - необходимо точно знать одиночная или двойная ошибка на входах мажоритарного элемента, что требуется для определения действительного значения информации на его выходе, которое в свою очередь используется для определения типа неисправности "сбой/отказ", локализации неисправности, а также для восстановления корректной информации.

Действительным значением информации на выходе мажоритарного элемента (истинным результатом его работы) будем считать значение информации на выходе мажоритарного элемента, соответствующее одинаковым сигналам на его входах (XI, Х2, ХЗ). Предполагая при этом, что на входы мажоритарного элемента поступает безошибочная информация (хотя факт полного отказа элементов ТОЗУ будет учитываться при разработке структур такого типа).

Определение типа неисправности осуществляется посредством перезаписи корректной информации в элементы ОЗУ. Если при повторном считывании из ОЗУ

сигналы ошибок отсутствуют, это означает, что имел место сбой, если сигналы ошибок присутствуют вновь, то имеет место отказ.

Определение кратности неисправности (одиночная или двойная) на входе мажоритарного элемента во второй главе предлагается двумя способами:

1. Использование комбинации уровня обеспечения устойчивости к неисправностям функционального модуля ОЗУ и уровня ОВС.

2. Модификация мажоритарного элемента для обеспечения определения одиночная или двойная ошибка возникла на его входах.

Рассмотрим вначале второй способ. Модифицированный мажоритарный элемент имеет четыре входа (XI, Х2, ХЗ, Х4). Это приводит к тому, что увеличивается на единицу число элементов ОЗУ и, следовательно, увеличивается структурная избыточность. Четвертый элемент выполняет вспомогательную функцию, необходимую для осуществления фильтрации сбоев в элементах МТОЗУ. Тем не менее, ОЗУ такого типа, как правило, требуют меньшей информационной емкости, чем пользовательское ОЗУ, поэтому в качестве элементов памяти можно использовать, например микросхемы памяти с гибкой организацией, что позволяет строить функциональный модуль ОЗУ на уровне одной или нескольких микросхем памяти в зависимости от требуемой информационной емкости и разрядности ОЗУ, т.е. с относительно небольшой структурной избыточностью, по сравнению с классической троированной структурой. Если у мажоритарного элемента четыре входа, то можно построить декодирующее устройство, различающее одиночные ошибки (П) от двойных (£2), т.е. количество неодинаковых сигналов на входах мажоритарного элемента:

П(Х1, Х2, ХЗ, Х4) = XI ® Х2 Ф ХЗ Ф Х4,

Гг(Х1, Х2, ХЗ, Х4) = XI Х4 (Х2 0 ХЗ) V ХЗ Х4 (XI © Х2) V

V Х1ХЗ(Х2ФХ4).

С помощью сигналов ошибок Л и (2, можно модифицировать мажоритарный элемент для реализации функции фильтрации сбоев в элементах МТОЗУ. Это достигается следующим образом. Если при считывании из МТОЗУ сигналы ошибок П = = 1, Га =0, значение информации на выходе мажоритарного элемента считается действительным. Определение типа неисправности происходит перезаписью корректной информации в элементы МТОЗУ, если при повторном считывании Л = 0, Г2= = 0 (эти значения сигналов соответствуют также состоянию, когда все сигналы на

входе устройства имеют одинаковое значение), то имел место сбой. В том случае, если ^ = 1( г2 =о, то имеет место отказ. МТОЗУ уже не может быть устойчиво к накоплению неисправностей типа "сбой" во всех элементах, т. е. функция фильтрации сбоев в элементах МТОЗУ не выполняется. Устройство переходит в работоспособное состояние с тремя исправными элементами (£» =1). При возникновении следующей неисправности такое МТОЗУ переходит либо в отказовое состояние, либо в другой режим функционирования. В случае, когда {г=1 (имеется в виду основной режим функционирования), выход МТОЗУ блокируется, так как определить действительное значение информации с помощью аппаратуры сразу невозможно. После тестирования устройство может быть реконфигурировано, и, в зависимости от количества исправных элементов, использоваться в другом режиме функционирования.

Сам мажоритарный элемент, в соответствии с приведенной в этой главе таблицей истинности, при этом реализует функцию:

Гз(Х1, Х2, ХЗ, Х4, П) = XI Х2 ХЗ Х4 П V XI Х2 ХЗ Х4 Г, V уХ1Х2ХЗХ4Г^Х1Х2ХЗХ4&У Х1Х2ХЗХ4П.

В связи с тем, что число работоспособных состояний такой структуры ОЗУ невелико, представляется целесообразным исследование возможности построения модифицированных структур ТОЗУ, используя первый способ. Данная структура может применяться в качестве базовой структуры, построенной на уровне функционального модуля.

Вначале представляется модифицированная структура ТОЗУ, которая используется в качестве прототипа для построения МТОЗУ, устойчивых к накоплению неисправностей произвольной кратности. Для реализации такого МТОЗУ использовалось сочетание информационной ( паритет), структурной (мажоритарное резервирование) и временной избыточности в зависимости от ресурса временной избыточности, которым располагает система.

Структурная схема МТОЗУ представлена на рис.3. На ней показаны: ИС ОЗУ (1,2,3)- элементы МТОЗУ, для примера 8-разрядные (ИР) и, соответственно, один контрольный разряд (КР), блок восстановления, кодер/декодер паритета.

Структурная схема блока восстановления представлена на рис.4. Основными компонентами последнего являются: мажоритарный элемент (МЭ), мультиплексор

(MX), внутренний регистр данных (Per), блок управления (БУ), внутренняя шина данных -10 и внешняя шина данных и управления -11.

В структуре МТОЗУ предусмотрен также режим тестирования ИС ОЗУ (рис.4, сигнал управления режимом тестирования - 5).

Внутренние тины

Рис.3

Пояснения к рис. 4:

1.2. 3 - саотвегсвующле сигналы данных ИС ОЗУ. Сигналы блока управления (БУ):

< - сигнал управления выходным буфером данных [ЕБ] ТОЗУ: 5 - сигнал управления режимом тестирования ТОЗУ; б, 7, 8 — сигналы управления режимом восстановления;

9 — сигнал управления внутренним регистром данных |Рег). Шнны данных:

10 ~ внутренняя шина данных ТОЗУ:

И — внешняя шина мнкых и управления ТОЗУ;

12 — сигналы 1р. 1мс:

13 - сигналы данных для записи в ИС ОЗУ (1. 2 . 3). Р1.Р2.РЗ — сигналы после декодирования паритета соответственно ИС ОЗУ 1. ИС ОЗУ Z ИС ОЗУ 3.

Рис.4

С помощью блока восстановления и информации декодера паритета (сигналов после декодирования паритета PI, Р2, РЗ) осуществляется реализация свойства реконфигурации структуры ТОЗУ.

Поскольку в качестве метода контроля в данной структуре используется контроль на четность, то достоверное функционирование такого ОЗУ возможно в классе одиночных неисправностей и кратных нечетной кратности. По сравнению с классической троированной структурой, использование мультиплексора и схем контроля, позволяет восстанавливать информацию либо при помощи мажоритарного элемента, либо подключением исправной ИС ОЗУ к выходу устройства ( по результатам сигналов после декодирования паритета).

Для реализации функции восстановления корректной информации в элементах МТОЗУ используется обобщенный сигнал fp (он получается объединением по схеме ИЛИ сигналов PI, Р2, РЗ). Возможность ее осуществления определяется с помощью анализа значений сигнала fMC (он получается объединеннием по схеме И сигналов Р1, Р2, РЗ). При fMC =0 (fP= I) восстановление корректной информации в элементах ТОЗУ выполнять можно, при fMC = I (fp = 1) выход ТОЗУ блокируется.

Для реализации указанной выше функции, а также режима тестирования наряду с компонентами, приведенными на рис.3, используются микропроцессор и программная поддержка, т. е. системный уровень обеспечения устойчивости к неисправностям.

Определение типа неисправности "сбой/отказ" происходит перезаписью корректной информации в элементы МТОЗУ из внутреннего регистра данных (Per -рис. 4), в который записывается информация либо с выхода мажоритарного элемента, либо с выхода исправной ИС ОЗУ. Если значение сигналов после декодирования паритета Р1,Р2,РЗ =0, то имел место сбой, если один или два из этих сигналов имеют значение I, то имеет место отказ.

В работе делается вывод, что использование сочетания информации декодера паритета и сигнализаторов мажоритарного декодирующего устройства не может обеспечить определения кратности неисправности на входах мажоритарного элемента, так как сигнал декодера паритета (PI, Р2 или РЗ) свидетельствует о наличии ошибки одиночной или кратной (нечетной кратности) в пределах ИС ОЗУ. Распределение ошибок по соответствующим разрядам элементов МТОЗУ при этом может быть

различным. Следовательно, еще один способ определения кратности неисправности на входах мажоритарного элемента - это использование функциональных модулей ТОЗУ и рекомендуемого в табл.1 минимального набора видов избыточности. Хотя структурная избыточность такого ОЗУ становится больше, чем у классической троированной структуры, построение таких устройств стало возможным благодаря современному состоянию электронных технологий.

Предложены дублированные и троированные структуры ОЗУ, сформированные на уровне функциональных модулей ТОЗУ. В качестве функционального модуля ТОЗУ может применяться либо классическая троированная структура с использованием сигнализаторов ошибок на входах мажоритарного элемента, либо структура ОЗУ с модифицированным мажоритарным элементом.

Дублирование функциональных модулей ТОЗУ. В структуру ОЗУ (рис.5) входят два идентичных функциональных модуля ТОЗУ (ФМ1 и ФМ2), каждый из которых представляет собой классическую троированную структуру с использованием сигнализаторов ошибок на входах мажоритарного элемента. Обращение в режимах записи и считывания к обоим функциональным модулям производится одновременно.

Рис.5

Полежим х рис.3:

ФМ1. ФМ2 — функциональные модули (1.21:

СО — екгн&ш ошибок (3. 5] каждого И1 соответствующих

разряде.« ФМ1 к ФМ2;'

2, < - соответствующие сигналы данных при считывании иэ ОМ1 к ФМ2: БУ — блок управления;

1- сигнал управления выходным буфером |ВБ);

6 — сигналы управления мультиплексором (MX) дм каждого разряда данных:

7 - сигнал управления внутренним регистром данных (Per) а соответствии с

режимами записи и считывания:

В — внутренняя шика данных:

9 — обобщенные сигналы ошибок \fo\i, Ы;

10 - внешняя шина данных и управления {ВШ ДУ};

11 — сигналы данных мя записи в функциональные модули (ФМ1 и ФМ!|.

При считывании из ОЗУ анализируются сигналы ошибок декодирующего устройства в пределах каждого из разрядов ФМ1 и ФМ2. На выход такого ОЗУ с помощью мультиплексора (рис.5) подключаются выходы мажоритарных элементов соответствующих разрядов ФМ1 или ФМ2, входы которых имеют одинаковое значение сигналов. В случае, когда сигналы ошибок отсутствуют, на выход устройства подключаются выходы мажоритарных элементов ФМ1. Дополнительно здесь можно осуществлять сравнение значений соответственных выходных сигналов мажоритарных элементов ФМ1 и ФМ2. Если значение сигналов оказывается одинаковым - на выход устройства подключаются выходы мажоритарных элементов ФМ1, в противном случае - выход устройства блокируется, так как невозможно определить действительное значение информации.

Для обеспечения функции фильтрации сбоев в элементах функциональных модулей ТОЗУ в данной структуре ОЗУ формируются обобщенные сигналы ошибок f<pMi, fu>M2, Гфм и fP. Сигналы f<s>Mi и f<sM2 получаются объединением по схеме ИЛИ сигналов ошибок в пределах каждого из разрядов функциональных модулей, ¡фм -объединением по схеме ИЛИ F<pmi и f®M2- Сигнал f®M используется для начала операции восстановления корректной информации в элементах ФМ1 и ФМ2. Возможность осуществления этой операции определяется с помощью анализа значений сигнала fp. Этот сигнал получается объединением по схеме И сигналов ошибок соответствующих разрядов ФМ1 и ФМ2, затем - полученных сигналов по схеме ИЛИ для формирования обобщенного сигнала. При fp = 0 операцию восстановления выполнять можно, при fp=! - нет. Таким образом сигнал fP указывает на возможность определения действительного значения информации, необходимого для определения типа неисправности.

Определение типа неисправности осуществляется перезаписью информации в элементы функциональных модулей из внутреннего регистра данных, в который записывается информация с выходов мажоритарных элементов соответствующих разрядов, на входах которых одинаковые сигналы. Если при повторном считывании сигналы ошибок в пределах каждого из разрядов ФМ1 и ФМ2 отсутствуют, то имел место сбой. В противном случае имел место отказ, и ОЗУ переходит в работоспособное

состояние с одним исправным мажоритарным элементом соответствующего разряда устройства. При этом значение сигнала ¡фм будет постоянно и равно единице, поэтому для исключения начала операции восстановления его необходимо замаскировать. Устройство находится в этом работоспособном состоянии до тех пор, пока ГР=0. При возникновении следующей неисправности определить действительное значение информации (Гр = I), а также тип возникшей неисправности невозможно. ОЗУ переходит в отказовое состояние (блокируется выход) для данной конфигурации памяти или, после реконфигурации, в другой режим функционирования в зависимости от количества исправных элементов. Оно может продолжить функционирование либо как структура ОЗУ с использованием модифицированного мажоритарного элемента, либо как классическая троированная структура.

Для реализации функции восстановления корректной информации в элементах ФМ1 и ФМ2, режимов тестирования и реконфигурации организации памяти и поддерживающей аппаратуры предполагается использование микропроцессора и программной поддержки.

Троирование функциональных модулей ТОЗУ. В структуру ОЗУ (рис.6) входят три идентичных функциональных модуля ТОЗУ (ФМ1.ФМ2 и ФМЗ), каждый из которых, как и в дублированной структуре, представляет классическую троированную

Пояснения к рис.6:

ФМ (1.1 3) - функциональные модули (1. 2. 3];

'ом|. !«.«• гфмз - Обобщенные сигналы ошибок ФМ1. ФМ! Ф.\

соответственно;

БУ — блок управления;

MX — мультиплексор:

5 — сигналы управления мультиплексором;

6 - сигнал управления внутренним регистром данных (Per) в соответствии с режимами записи и считывания;

7 — внутренняя шика данных

8 — внешняя шика данных и управления (BLUДУ);

9 — обобщенные сигналы ошибок Гфм. ^м;

10 - сигнал управления выходным буфером данных (ВБ); I ( - сигналы данных для записи а ФМ (1. 2, 3).

«мз со а

ФМЗ

со i

мэ MX

1

г

3

Ю(5Г)

1]_ «у

Рис.6 20

структуру с использованием сигнализаторов ошибок на входах мажоритарного элемента. Алгоритм работы устройства аналогичен алгоритму работы ТОЗУ с достоверным функционированием в классе одиночных и кратных нечетной кратности неисправностей. Отличие заключается в том , что здесь обеспечивается достоверное функционирование в классе неисправностей произвольной кратности. Критерием наличия ошибок в данной структуре также являются сигналы ошибок мажоритарного декодирующего устройства в пределах каждого функционального модуля (обобщенные сигналы ошибок - Гфм и Гфмз). Они получаются объединением по схеме ИЛИ сигналов ошибок в пределах каждого из разрядов фукциональных модулей.

На выход такого ОЗУ с помощью мультиплексора (рис.6) подключаются либо выходы мажоритарного элемента, либо исправный функциональный модуль. В последнем случае обобщенные сигналы ошибок двух из трех функциональных модулей равны единице. Когда сигналы ошибок отсутствуют или имеется один из сигналов Гфм>, Гфм2, Гфмз, равный единице, на выход устройства подключаются выходы мажоритарного элемента.

Для обеспечения функции фильтрации сбоев в элементах функциональных модулей, как и в предыдущей структуре, формируется два сигнала Гфм (получается объединением по схеме ИЛИ Гфм 1, Гфм2, Гфмз ) и Гм ( получается объединением по схеме И Гфм1, Гфм2, Гфмз ). Сигнал Гфм используется для начала операции восстановления корректной информации в элементах ФМ1, ФМ2, ФМЗ, другой (Гм = 0) - указывает на возможность ее осуществления (при Гм = 1 операцию восстановления выполнять нельзя).

Определение типа неисправности осуществляется также как и в описанных выше структурах. Функционирование устройства с такой конфигурацией памяти и поддерживающей аппаратуры возможно до тех пор, пока имеется один исправный функциональный модуль.

Когда Гм = 1, ОЗУ переходит в отказовое состояние для данной конфигурации и затем, если это допустимо с точки зрения условий работы конкретной ОВС - в другой режим функционирования, подобно тому, как это было описано для дублированной

структуры. При этом первой ступенью деградации ОЗУ может быть дублированная структура.

Таким образом, для рассмотренных выше ОЗУ имеет место возможность

использования метода управляемой деградации. Практически это осуществляется реконфигурацией поддерживающей аппаратуры, а также соединений между элементами (ИС ОЗУ) в соответствии с режимом функционирования, в который переходит ОЗУ, непосредственно в системе, где данная структура ОЗУ используется.

В третьей главе осуществлен анализ надежности разработанных структур ОЗУ. При сравнительном анализе надежности этих устройств оценивались значения коэффициента готовности как функции времени. Для этого построены модели надежности ОЗУ на основе марковских процессов.

Поток восстановления считается заданным и определяется временем восстановления устройства (/я) в рабочее состояние (величина обратная 1в: ц = 1 //«).

Учитывая особенности применения метода управляемой деградации для предлагаемых структур ОЗУ, можно предложить следующий подход для построения моделей надежности этих устройств. При деградации МТОЗУ переходит в другой режим функционирования, т.е. изменяется его конфигурация. Это позволяет строить отдельные модели надежности МТОЗУ для каждого из режимов его функционирования, а затем агрегировать их в единую модель.

Множество состояний моделей устойчивых к накоплению неисправностей МТОЗУ разделим на следующие подмножества: рабочие состояния (исправное состояние - ?! и работоспособные состояния - одно (Рг) или два (Рг, Рэ), в зависимости от конфигурации МТОЗУ); состояния восстановления (Рщ, - для конфигураций

МТОЗУ с одним работоспособным состоянием и j=1,2 - для конфигураций МТОЗУ с двумя работоспособными состояниями); состояние отказа К В состояние Р можно попасть двумя путями: пройдя нормальный путь деградации Р\ -> Рг Рг -> V или Р\ -> Рг -> Р, перейдя скачком из любого состояния в состояние отказа, если произошел отказ средств контроля и восстановления. При этом из состояния восстановления можно выделить следующие исходы: восстановление информации в элементах МТОЗУ и возвращение в рабочее состояние; переход в состояние Р, если произошел отказ средств контроля и восстановления.

Для получения аналитического выражения для коэффициента готовности отдельных моделей соответствующих конфигураций МТОЗУ достаточно просуммировать вероятности пребывания устройства в рабочих состояниях. При этом время наработки на отказ соответствующих конфигураций МТОЗУ определяется следующим образом: задается минимально допустимое для анализируемого устройства значение коэффициента готовности, и определяется момент времени, соответствующий этому значению.

Тогда время наработки на отказ МТОЗУ с деградацией определяется как

где Та - время наработки на отказ соответствующих ступеней деградации МТОЗУ, N - число ступеней деградации МТОЗУ.

Функция готовности в мтом случае записывается как

АО'

/1|(Г),0 < / < 7ш, Лз(/>, То, < / < Тог,

Ач{1),!>Ток - I.

где /1,(1), А:(1), . . . , Ак(1) - функции готовности соответствующих ступеней ^градации МТОЗУ. При этом А(0), А(Т0,)...., А(Тоы.,)=1, а также полагается, что «конфигурация МТОЗУ входит в интервал времени восстановления системы, в :оторой оно используется.

Показано, что предлагаемые структуры ОЗУ имеют существенно более высокую надежность. Это, в частности, обосновывает увеличение структурной избыточности и введение информационной избыточности, по сравнению с классической троированной структурой, для обеспечения структур ОЗУ свойством устойчивости к накоплению неисправностей в классе неисправностей произвольной кратности. Так, время наработки на отказ предлагаемых структур ОЗУ увеличивается в 10 - 100 и более раз, по сравнению с классической троированной структурой, при одном и том же значении коэффициента готовности.

Глава 4 представляет реализацию полученных в работе результатов в составе проекта бортовой системы динамической безопасности. Результаты диссертации были использованы при разработке, изготовлении и отладке твердотельного регистратора полетной информации (ТТР). ТТР рассчитан на стыковку с бортовыми системами подготовки регистрируемой информации через устройство связи с объектом (УСО) и с наземным комплексом обработки зарегистрированных данных. Соответствующие

интерфейсы поддерживаются схемами на ПЛИС и микропроцессором. ТТР выполнен в виде блока по конструктиву "АШМС". Для связи с бортом и наземным комплексом служат внешние разъемы.

ТТР имеет основную плату памяти (плата 1), а также возможность подключения дополнительной платы памяти (плата 2); плату 3, панель оператора. Плата памяти (I и 2) содержит системное и пользовательское ОЗУ, микропроцессор, схемы управления и поддержки интерфейсов. Плата 3 содержит нормализаторы, схемы-сигнализаторы, управляющие световой индикацией, сетевой и резервный источники питания, часть схемы интерфейса связи ТТР с УСО. Блок ТТР имеет панель оператора с сигнализаторами питания и режимов и кнопками управления, используемыми при проверках и наладке.

Основные принципы конструкции. Энергонезависимость обоих видов ОЗУ в период отключения или нарушения сетевого питания обеспечивается за счет использования автономных резервных источников питания с аппаратурой оперативного включения резерва.

В пользовательском ОЗУ влияние основных факторов, вызывающих неисправности, ослабляются путем использования одноразрядных элементов памяти. Вследствие этого возникающие неисправности произвольной кратности влияют на систему как одиночные. Для обнаружения одиночных ошибок в пользовательском ОЗУ применен код защиты по паритету, для коррекции ошибочных разрядов БЕС - код Хемминга. Устройство снабжено специальной аппаратурой для кодирования, декодирования и коррекции. При ошибках, вызванных сбоем, возможно восстановление правильной информации без реконфигурации. При обнаружении устойчивой неисправности элемент памяти заменяется резервным. Предусмотрена аппаратура, позволяющая процессору ТТР управлять вводом резерва. Для продления срока достоверного функционирования устройства предусмотрена возможность управляемой деградации, при которой функции по обнаружению и коррекции ошибок перераспределяются от поврежденной аппаратуры программным средствам, работающим более медленно.

Системная часть ОЗУ устройства реализована с использованием результатов глав 2 и 3. Для системного ОЗУ используется классическая троированная структура с возможностью микропрограммного тестирования элементов ОЗУ, а также с возможностью реконфигурации структуры, т.е изменением конфигурации ее элементов для функционирования в режиме обычных восьмиразрядных ОЗУ.

Заключение содержит основные результаты приведенных исследований и выполненной работы.

В диссертации получены следующие основные результаты:

1. Исследованы методы и средства построения устойчивых к неисправностям ОЗУ ВВС.

2. Проанализирована классификация избыточности устойчивых к неисправностям ВС и разработана методика ее применения для проектирования ОЗУ с различными функциональными и надежностными требованиями.

3. Разработанная методика представлена в виде последовательности действий процесса проектирования устойчивых к неисправностям ОЗУ и рекомендаций для их выполнения.

4. Представлена структура подсистемы ОЗУ ОВС, в частности ее системной и пользовательской частей.

5. Использование избыточности представлено в виде таксономии, построенной в трех ортогональных осях: структура ОЗУ подсистемы, класс неисправностей, относительно которого компоненты ОЗУ устойчивы к неисправностям, и рекомендуемые виды избыточности, необходимые для реализации свойства устойчивости к неисправностям структур ОЗУ.

6. Показано применение предложенной методики для проектирования новых структур ОЗУ со свойством устойчивости к неисправностям ВВС.

7. Показан общий подход к реализации устойчивости к неисправностям пользовательской части ОЗУ, в отношении системной части ОЗУ исследована возможность модификации классической троированной структуры.

8. Предложены новые структуры ОЗУ, устойчивые к накоплению неисправностей в классе неисправностей произвольной кратности, а также троированные структуры ОЗУ с возможностью реконфигурации структуры. При этом рассмотрена возможность применения метода управляемой деградации при построении структур такого типа. ^.Осуществлен сравнительный анализ показателей надежности и технической реализуемости разработанных структур ОЗУ ВВС.

10. Показано, что предлагаемые структуры ОЗУ ВВС имеют существенно более высокую надежность, по сравнению с классическими.

И. Результаты диссертации были использованы и внедрены в ОКР "Регистратор полетных данных для самолетов АОЗТ "ОКБ Сухого", а также для разработки ггруктуры ОЗУ цифровой системы управления двигателем ЛМНТК "Союз", что подтверждается актами о внедрении и заключениями экспертных советов.

В приложениях приведены фото регистратора полетной информации, тексты программ реализации блоков платы памяти регистратора полетной информации, а также акты о внедрении и использовании результатов работы.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Буханова Г.В. Высоконадежные оперативные запоминающие устройства, тенденции развития //АиТ. 1993. N2. С. 3-28

2. Буханова Г.В., Томфельд Ю.Л. О реконфигурации систем с помощью ПЛИС // Восьмая Международная школа-семинар. Секция 2 "Диагностика и отказоустойчивость в технике". 8-17 сентября 1995. Алушта. Украина

3. Buhanova G., Gerasimov V., Tomfeld Yu„ Shagaev I. The Concept of Dynamic Safety for Aeroplanes // Международная Конференция "Technologische Sicherheit, Umwelt und Konversion-Risiken der Technik und ihre Beherrshung" (26 ноября 1992) Берлин, Германия.

В работах, выполненных в соавторстве, вклад диссертанта состоит в следующем: в [2] - предложены и реализованы структуры схем поддержки устойчивости к неисправностям системной части ОЗУ ВС с наперед предусмотренной возможностью реконфигурации организации элементов и поддерживающей аппаратуры, а также осуществлен выбор типа ПЛИС для реализации реконфигурации организации элементов и схем поддержки с изменяемыми функциями путем загрузки новых конфигурационных программ для ПЛИС в соответствии с режимом функционирования системы.

в [3] - разработана структурная схема подсистемы ОЗУ твердотельного регистратора полетной информации (ТТР), реализованы схемы поддержки устойчивости к неисправностям системной части устройства, а также схемы управления и поддержки интерфейсов связи с внешними устройствами.

Текст работы Буханова, Галина Викторовна, диссертация по теме Телекоммуникационные системы и компьютерные сети

АКАДЕМИЯ НАУК РОССИИ ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ

На правах рукописи

Буханова Галина Викторовна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ПОСТРОЕНИЯ УСТОЙЧИВЫХ К НЕИСПРАВНОСТЯМ ОПЕРАТИВНЫХ ЗАПОМИНАЮЩИХ УСТРОЙСТВ БОРТОВЫХ ВЫЧИСЛИТЕЛЬНЫХ

СИСТЕМ

Специальность 05.13ЛЭ - Вычислительные машины, комплексы,

системы и сети

Диссертация

на соискание ученой степени кандидата технических наук

Научный руководитель кандидат технических наук И.В.Шагаев

Москва -1998

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ 5

1. МЕТОДЫ ПРОЕКТИРОВАНИЯ ВЫСОКОНАДЕЖНЫХ ОПЕРАТИВНЫХ ЗАПОМИНАЮЩИХ УСТРОЙСТВ ОТКАЗОУСТОЙЧИВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ 10

1.1. Высоконадежные оперативные запоминающие устройства, тенденции развития 10

1.2. Типы неисправностей, возникающих в работе ОЗУ, и повышение

надежности ОЗУ методами совершенствования технологий и конструкций 15

1.3. Методы обеспечения устойчивости к неисправностям ОЗУ 20

1.4. Структурная избыточность 21 1.4.1. Резервирование 23

1.4.2.1. Резервирование ЗУ на микросхемах памяти (модульных ОЗУ) 30

1.4.2.2. Подключение резервных блоков памяти (резервирование

замещением) 32

1.4.3. Метод обхода отказавших ячеек 34

1.4.4. Методы контроля адресных цепей ЗУ 36

1.5.Информационная избыточность 38 1 .б.Временная избыточность 52

1.7. ОЗУ в отказоустойчивых вычислительных системах 57

1.8. Выводы к главе I 58

2. РАЗРАБОТКА МЕТОДОВ ПОСТРОЕНИЯ УСТОЙЧИВЫХ К НЕИСПРАВНОСТЯМ ОПЕРАТИВНЫХ ЗАПОМИНАЮЩИХ УСТРОЙСТВ БОРТОВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ 60

2.1. Введение 60

2.2. Разработка методики использования избыточности для проектирования

ОЗУ со свойством устойчивости к неисправностям 61

2.2.1. Выводы к п.2.2 80

2.3. Структурная схема подсистемы ОЗУ 82

2.4. Пользовательская часть подсистемы ОЗУ (пользовательское

ОЗУ). Общий подход к реализации 88

2.5. Системная часть подсистемы ОЗУ (системное ОЗУ) 91

2.5.1. Постановка задачи 92

2.5.2. Классическая троированная структура 92

2.5.3. Модификация классической троированной структуры 94

2.5.3.1. Построение МТОЗУ с возможностью реконфигурации структуры 94

2.5.3.2. Построение МТОЗУ, устойчивых к накоплению неисправностей типа "сбой" 95

2.5.4. Модифицированные структуры ТОЗУ, устойчивые к накоплению неисправностей 103

2.5.4.1. Структура ОЗУ, устойчивая к накоплению одиночных и кратных нечетной кратности неисправностей 104

2.5.4.2. Дублирование функциональных модулей ТОЗУ 111

2.5.4.3. Троирование функциональных модулей ТОЗУ 115

2.5.4.4. Реконфигурация поддерживающей аппаратуры. Один из подходов

к реализации 119

2.6. Выводы к главе 2 121

3. ИССЛЕДОВАНИЕ НАДЕЖНОСТИ МОДИФИЦИРОВАННЫХ

СТРУКТУР ТОЗУ 123

3.1. Введение 123

3.2. Модели анализа надежности 127

3.2.1. Классическая троированная структура 127

3.2.2. ОЗУ, устойчивое к накоплению одиночных и кратных нечетной кратности неисправностей 132

3.2.3. Структура ОЗУ с модифицированным мажоритарным элементом 137

3.3. Выводы к главе 3 140

4. СТРУКТУРА ТВЕРДОТЕЛЬНОГО РЕГИСТРАТОРА ПОЛЕТНОЙ

ИНФОРМАЦИИ 144

4.1. Введение 144

4.2. Основные принципы конструкции 145

4.3. Общее описание и реализация функциональных блоков платы

памяти ТТР 148

4.4.. Реализация блока TML 155

4.4.1. Общее описание 155

4.4.2. Реализация функций 155

ЗАКЛЮЧЕНИЕ 158

ПРИЛОЖЕНИЯ 160

Приложение 1. (фото 1, фото 2) 161

Приложение 2. Перечень элементов платы памяти ТТР 163 Приложение 3. Реализация функций блока AL

( программа "D5", программа "D64" ) 166 Приложение 4. Реализация функций блока AIL

( программа "D6D" ) 171 Приложение 5. Реализация функций блока IL

( программа "D7" ) 175 Приложение 6. Реализация функций блока TML

( программа "D8D" ) 178

АКТЫ 181

СПИСОК ЛИТЕРАТУРЫ 185

СПИСОК ПУБЛИКАЦИЙ Г10 ТЕМЕ ДИССЕРТАЦИИ 190

ВВЕДЕНИЕ

Актуальность темы. Постоянный рост требований к функциональным и конструктивным характеристикам ответственных вычислительных систем (ВС), к которым относятся и бортовые ВС летательных аппаратов (в дальнейшем, БВС), вызывает необходимость разработки новых высоконадежных ВС и их функциональных блоков. Оперативные запоминающие устройства (ОЗУ), из-за крайне высокой плотности расположения и количества элементов на полупроводниковом кристалле, являются одними из наиболее влияющих на совокупную надежность БВС. Объем оборудования ОЗУ составляет большую часть аппаратуры БВС. Поэтому повышение надежности ОЗУ как функционального блока БВС является актуальной задачей. Только совершенствование технологий из-за достижения естественных физических пределов не позволяет обеспечивать требуемый уровень надежности электронной вычислительной техники. Еще одним способом повышения надежности аппаратуры ВС является обеспечение устойчивости к неисправностям (сбоям и отказам). Устойчивость к неисправностям предполагает, что появление неисправностей аппаратуры во время работы ВС ожидается, но их влияние будет автоматически преодолено использованием избыточных компонент. Избыточные ВС, способные продолжать функционирование в полном объме после возникновения неисправностей аппаратуры и ошибок в программном обеспечении принято называть отказоустойчивыми ВС (ОВС).

Таким образом, устойчивость к неисправностям аппаратуры ВС обеспечивается введением избыточности. Методы обеспечения устойчивости к неисправностям в отношении ОЗУ основываются либо на структурной, либо на информационной, либо на временной избыточности. Возможно также сочетание указанных видов избыточности. Перечисленные виды избыточности могут обеспечиваться аппаратурно и программно.

Известны два основных способа реализации устойчивости к неисправностям ВС. Одним из них является маскирование возникшей

неисправности и продолжение функционирования ВС без задержки. Другой способ подразумевает автоматическое обнаружение неисправности системой, обеспечение структурой системы определения типа неисправности (отказ/сбой), локализации неисправности, реконфигурации структуры и восстановления поврежденной неисправностью информации. ВС, устойчивые к неисправностям, могут комбинировать оба способа для реализации устойчивости к неисправностям и менять режимы обеспечения устойчивости к неисправностям. До настоящего времени границы применения этих различных способов не определены. В этой связи исследование и разработка методов построения устойчивых к неисправностям ОЗУ ВВС, основанных на использовании различных видов избыточности в структурах ОЗУ, представляются актуальными.

Целью работы является разработка методики использования различных видов избыточности в структурах ОЗУ для обеспечения структур ОЗУ свойством устойчивости к неисправностям и применение этой методики для разработки устойчивых к неисправностям ОЗУ ВВС. Для этого в работе исследуются возможность использования внешних средств введения структурной, информационной и временной избыточности в структуры ОЗУ для реализации свойства устойчивости к неисправностям, а также способы обеспечения устойчивости к неисправностям.

Методы исследования. Основные результаты диссертационной работы проанализированы с привлечением теории вероятности и марковских процессов, основ теории классификации избыточности информационных систем.

Научная новизна работы состоит в разработке методики использования различных видов избыточности для проектирования структур ОЗУ со свойством устойчивости к неисправностям, в разработке способа реализации свойства устойчивости к неисправностям, позволяющего сокращать период скрытости неисправностей (латентный период). Разработанная методика представлена в виде последовательности действий процесса проектирования устойчивых к неисправностям ОЗУ и рекомендаций для их выполнения. Представлена

структура подсистемы ОЗУ ОВС, в частности ее системной и пользовательской частей. Использование избыточности представлено в виде таксономии, построенной в трех ортогональных осях: структура ОЗУ подсистемы, класс неисправностей, относительно которого компоненты ОЗУ устойчивы к неисправностям, и рекомендуемые виды избыточности, необходимые для реализации свойства устойчивости к неисправностям структур ОЗУ. Новизна предложенного в работе способа обеспечения устойчивости к неисправностям заключается в использовании комбинации двух известных способов обеспечения устойчивости к неисправностям для разработки новых структур ОЗУ, устойчивых к накоплению неисправностей в классе неисправностей произвольной кратности, а также в обеспечении возможности менять режимы обеспечения устойчивости к неисправностям.

Показано применение предложенной методики для проектирования устойчивых к неисправностям ОЗУ БВС. Исследована возможность модификации классической троированной структуры, и разработаны структуры ОЗУ, устойчивые к накоплению неисправностей в классе неисправностей произвольной кратности, а также троированные структуры ОЗУ с возможностью реконфигурации структуры. Рассмотрено применение метода управляемой деградации при построении структур ОЗУ такого типа. Осуществлен сравнительный анализ разработанных структур ОЗУ БВС с точки зрения надежности и технической реализуемости. Показано, что предлагаемые структуры ОЗУ имеют существенно более высокую надежность, по сравнению с классическими.

Практическая ценность. Полученные в работе результаты позволяют формализовать проектирование устойчивых к неисправностям ОЗУ с различными функциональными и надежностными требованиями. Подсистема ОЗУ представляется в виде семейства ОЗУ, устойчивых к неисправностям относительно наперед заданных классов неисправностей. Обеспечение свойства устойчивости к накоплению неисправностей значительно уменьшает вероятность отказа предлагаемых структур ОЗУ, что, во-первых, обосновывает введение избыточности в структуры ОЗУ, по сравнению с обычной структурой

ОЗУ, во-вторых, позволяет увеличить надежность ОЗУ как функционального блока БВС, и, следовательно, надежность БВС в целом. Это позволяет повысить коэффициент готовности БВС, снизить затраты на ее обслуживание. Системы, построенные по таким принципам, дешевле в эксплуатации и более надежны.

Результаты работы нашли практическое внедрение и обеспечили возможность реализации новых принципов обеспечения активной безопасности отечественных летательных аппаратов.

Реализация результатов. Полученные в работе результаты использованы при разработке структуры ОЗУ регистратора полетных данных для отечественных самолетов АОЗТ "ОКБ Сухого", а также при разработке структуры ОЗУ цифровой системы управления двигателем АМНТК "Союз". Использование результатов работы подтверждено актами о внедрении и заключениями экспертных советов.

Апробация работы. Результаты работы докладывались на научных семинарах лаборатории технической диагностики ИПУ (1991-1997), на Международной конференции "Technologische Sicherheit, Umwelt und Konversion-Risiken der Technik und ihre Beherrshung" (1992) в Берлине (Германия), на VIII Международной школе - семинаре "Диагностика и отказоустойчивость в технике" (1995) в Алуште (Украина).

Публикации. Автором опубликовано три научных работы по теме диссертации.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы 65 наименований, приложений, 39 рисунков, 14 таблиц. Приложения содержат 24 страницы. Всего 190 страниц.

Содержание работы. Первая глава диссертации является аналитическим обзором работ по современным методам проектирования высоконадежных ОЗУ ОВС. Рассмотрены методы повышения надежности ОЗУ, основанные на введении структурной, информационной и временной избыточности. Приводятся примеры реализаций ОЗУ в ОВС, в том числе в отказоустойчивых БВС. Выделяются научно-технические задачи, подлежащие решению.

Вторая глава посвящена разработке методов построения устойчивых к неисправностям ОЗУ ВВС. Исследуются возможность использования внешних средств введения структурной, информационной и временной избыточности в структуры ОЗУ для обеспечения структур ОЗУ свойством устойчивости к неисправностям, а также способы обеспечения устойчивости к неисправностям ОЗУ ВВС.

Разработана методика применения избыточности для проектирования ОЗУ со свойством устойчивости к неисправностям. Представлена структура подсистемы ОЗУ ОВС, в частности ее системной и пользовательской частей. Показано применение предложенной методики для проектирования устойчивых к неисправностям ОЗУ ВВС.

Рассмотрен общий подход к реализации устойчивости к неисправностям пользовательской части ОЗУ. Системное ОЗУ представлено на основе троированной структуры. Рассмотрена возможность применения метода управляемой деградации при построении структур ОЗУ такого типа.

Глава 3 посвящена исследованию надежности разработанных устойчивых к неисправностям ОЗУ ВВС. Для этого построены модели надежности предлагаемых структур ОЗУ на основе марковских процессов.

Глава 4 представляет реализацию полученных в работе результатов в составе проекта бортовой системы динамической безопасности летательных аппаратов.

Заключение содержит основные результаты приведенных исследований и выполненной работы. Приводится список печатных работ, опубликованных автором по теме диссертации.

В приложениях приведены фото регистратора полетной информации, тексты программ реализации блоков платы памяти регистратора полетной информации, а также акты о внедрении и использовании результатов работы.

1. МЕТОДЫ ПРОЕКТИРОВАНИЯ ВЫСОКОНАДЕЖНЫХ ОПЕРАТИВНЫХ ЗАПОМИНАЮЩИХ УСТРОЙСТВ ОТКАЗОУСТОЙЧИВЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

1.1 .Высоконадежные оперативные запоминающие устройства, тенденции развития

Современные ответственные ВС, используемые в различных областях человеческой деятельности, требуют для адекватного выполнения своих функций высокой надежности [1-3].

Особенно жесткие требования по безопасности и надежности в реальном времени функционирования предъявляются к ВВС: авиационным, космическим, ракетным. Выдача ошибочной информации в системах такого рода из-за сбоев, а тем более длительное искажение выходной информации, обусловленное отказами, может привести к значительному ущербу, а в некоторых случаях и к катастрофическим последствиям. Это безусловно вызывает необходимость разработки новых отказоустойчивых ВВС и их функциональных блоков.

Одним из наиболее важных функциональных блоков таких систем являются запоминающие устройства на микросхемах памяти. Запоминающие устройства (ЗУ) сами по себе относятся к числу наиболее сложных устройств цифровой техники. За два десятилетия (период с 1970 по 1990 гг.) в области создания интегральных схем (ИС) статических и динамических оперативных запоминающих устройств (СОЗУ и ДОЗУ), а также различных видов микросхем постоянной памяти произошли большие перемены [4, 5]. На смену кристаллам СОЗУ емкостью 256 бит пришли кристаллы емкостью 1 Мбит, кристаллам ДОЗУ емкостью 1 Кбит - кристаллы емкостью 4 Мбит. Уже сообщалось о создании ряда образцов 4 Мбит СОЗУ и 16 Мбит ДОЗУ. Примерно такими же темпами растет емкость различных видов микросхем постоянных ЗУ. Переход к схемам с более высокой степенью интеграции сопровождается сменой способов

переноса топологии слоя на пластину: от контактной печати к печати с лазером: затем к сканирующему проекционному переносу в масштабе 1:1 и, наконец, к проекционной мультипликации [5].

В табл. 1.1 представлены прогноз динамики развития сверхбольших интегральных схем (СБИС) и требования к мультипликаторам, а в табл. 1.2 -прогнозируемые сроки выпуска ДОЗУ различной емкости. СОЗУ, характеристики которых улучшаются такими же высокими темпами, отстают от них на одно поколение (т.е. в четыре раза) по абсолютным значениям удельной стоимости и максимально достигнутому уровню информационной емкости, так как выполняются на других элементах памяти, занимающих большую площадь на полупроводниковом кристалле. Вместе с тем, СОЗУ имеют и свои преимущества. Они отличаются от ДОЗУ более высоким быстродействием и в ряде случаев потребляют меньшую мощность в режиме хранения информации. В перспективе улучшение скоростных и энергетических характеристик цифровых микросхем, в том числе и СБИС ОЗУ, связывается с освоением арсенида галлия ОаАБ как исходного материала для построения микросхем [6, 7]. Наряду с увеличением информационной емкости для развития ДОЗУ и СОЗУ характерны следующие тенденции [4,8, 9]:

1) снижение удельной стоимости ДОЗУ и СОЗУ, рассчитываемой на 1 бит хранимой в них информации;

2) перевод большинства МОП-схем памяти с п - канальной технологии на КМОП-технологию, а во многих случаях - на комбинированную МОП-технологию, с использованием п-МОП-элементов памяти и КМОП-схем обрамления;

3) уменьшение времени выборки с 500 не и более для первых ИС памяти до 10 не и менее для самых быстрых современных СОЗУ и 60 не и менее-для наиболее быстродействующих ДОЗУ;

Таблица 1.1

ПРОГНОЗ ДИНАМИКИ РАЗВИ�