автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Исследование и разработка способов повышения надежности подсистем ввода-вывода малых ЭВМ и комплексов на их основе

кандидата технических наук
Чалахян, Эдуард Платонович
город
Ереван
год
1995
специальность ВАК РФ
05.13.13
Автореферат по информатике, вычислительной технике и управлению на тему «Исследование и разработка способов повышения надежности подсистем ввода-вывода малых ЭВМ и комплексов на их основе»

Автореферат диссертации по теме "Исследование и разработка способов повышения надежности подсистем ввода-вывода малых ЭВМ и комплексов на их основе"

ЕРЕВАНСКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ [АУЧНО-ИССЛВДОВАТЕЛЬСКИЙ ИНСТИТУТ МАТЕМАТИЧЕСКИХ МАШИН

РГВ Ой

Ь 'пОи 193;" прэвэх рукописи

ЧАЛАХЯН ЭДУАРД ПЛАТОНОВИЧ

ИССЛЕДОВАНИЕ И РАЗРАБОТКА СПОСОБОВ ПОВШЕШ НАДЕЖНОСТИ ПОДСИСТЕМ ВВОДА-ВЫВОДА МАЛЫХ ЭВМ И КОМПЛЕКСОВ НА ИХ ОСНОВЕ

Специальность 05.13.13 - Вычислительные машины,комплексы,

системы и сети

АВТОРЕФЕРАТ исеертации на соискание учёной степени кандидата

технических наук

ЕРЕВАН - 1995

Работа выполнена в Ереванском ордена Трудового Красного

Знамени научно-исследовательском институте математических машин.

Научный руководитель _

-кандидат технических наук, старший научный сотрудник ШАКАРЯН А.Г.

Официальные оппоненты

-доктор технических наук, старший научный сотрудник МАРТЫНОВ В.В.

-доктор физико-математических наук, профессор ШУКУРЯН С.К.

Ведущая организация

-ШША АН РА г.Ереван

Защита диссертации состоится "И " "МЮЛЯ 199ог. в И час. на заседаний специализированного совета К.115.СВ.01 Ереванского .научно-исследовательского института математических машин.

Адрес: 375033, Ереван-33, ул. А.Акопяна 3. С диссертацией можно ознакомиться в библиотеке Ереванского НИИ математических машин..

Автореферат разослан "3

имнз.

1995г.

Ученый секретарь специализированного совета, к.т.н., с.н.с.

РУСАНЕВИЧ В.С.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Малые ЭВМ и комплексы на их основе находят широкое применение в современных АСУ специального назначения,. в системах больших ЭВМ и вычислительных сетях в качестве вспомогательных ЭВМ, программируемых терминалов, коммутаторов сообщений, концентраторов данных и т.п. Благодаря эффективности выполнения операций ввода-вывода они обеспечивают предварительную обработку информации от множества пользователей в управляющих вычислительных комплексах, работающих в режиме реального времени (УБК РВ), а также в системах с разделением времени.

Подсистемы ввода-вывода рассматриваемого класса малых ЭВМ и комплексов на их основе строятся посредством унифицированного магистрального канала (МК), являющегося в принципе единственным) коммуникационным средством между центральным процессором (ЦП), оперативной памятью и контроллерами периферийных устройств малой ЭВМ. Такая унификация обеспечивает простоту неэкономичность малых ЭВМ в сочетании с высокой эффективностью,выполнения операций ввода-вывода, однако явно увеличивает уязвимость системы к ошибкам ввода-вывода, которые могут зачастую приводить УВК РВ к критическим ситуациям. С другой стороны стоимость подсистем ввода-вывода малых ЭВМ и комплексов составляет болыцую часть стоимости аппаратуры и имеет тенденцию к росту, в этих условиях повышение надёжности подсистем ввода-вывода является весьма актуальной задачей, комплексное (совместно с задачами повышения производительности и уменьшения стоимости малых ЭВМ и комплексов) , решение которой может заметно повысить эффективность их использования.

Несмотря на то, что отдельные вопросы повышения надёжности подсистем ввода-вывода малых ЭВМ и комплексов на их основе, в соответствии с принципами отказоустойчивости рассматривался рядом авторов, в настоящее время практически отсутствуют инженерные методики отказоустойчивого проектирования таких подсистем.

Целью исследования настоящей работы является анализ и разработка инженерных методик отказоустойчивого проектирования подсистем ввода-вывода малых ЭВМ и УБК РВ.

Для достижения поставленной цели в диссертации сформулиро-

ваны и решены следующие задачи:

- предложена форма представления отказоустойчивых вычислительных систем как набора вложенных подсистем с соответствующими уровнями и способами обеспечения отказоустойчивости;

- разработана методика оценки воздействия вычислительной нагрузки на надежность подсистем ввода-вывода малых ЭВМ с магистральной архитектурой;

- разработаны методики выбора структуры и состава средств обнаружения ошибок и средств комплексирования подсистем ввода-вывода малых ЭВМ и комплексов в соответствии со стоимостью и потерями на восстановление вычислительного процесса.

Методы исследования. В работе использован аппарат теории ЭВМ и вычислительных систем, теории вероятности, теории массового обслуживания и теории надежности.

Научная новизна работы заключается в следующем:

- разработаны инженерные методики, которые в совокупности

составляют законченный набор средств для анализа и проектирования отказоустойчивых подсистем ввода-вывода малых ЭВМ и комплексов на их основе;

- решена задача совместного анализа надежности подсистем ввода-вывода и производительности малых ЭВМ;

- определены критерии выбора структуры и состава средств обнаружения ошибок и средств комплексирования подсистем ввода-вывода малых ЭВМ и комплексов.

Практическую ценность работы представляют:

- инженерные методики оценки надежности подсистем ввода--выв'ода малых ЭВМ и комплексов;

- разработанные в соответствии с принципами отказоустойчивости технические средства подсистем ввода-вывода малых ЭВМ и комплексов - средства сопряжения с МК, групповые и одиночные контроллеры терминалов, контроллеры ВЗУ, средства комплексирования подсистем ввода-вывода.

Реализация и внедрение результатов работы. Разработанные методики и технические решения были использованы в разработках малых ЭВМ серии "Наири-4", изделиях 65с169, 65с170, 83т426, 83т427.

Апробация работы. Основные результаты работы докладывались и обсуадались на Всесоюзной школе-семинаре молодых ученых и специалистов (Минск, 1980г., два доклада), на Конференциях молодых ученых и специалистов ЕрНИИММ (Ереван, 1985, 1986, 1987), Конференции молодых ученых и специалистов АПО "Электрон" (Ереван, 1988) и др.

Публикации. По материалам диссертации опубликовано 12 печатных трудов, в том числе получено 4 авторских свидетельства.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, приложений и списка литературы из ЯX названий. Работа изложена на •'цт страницах машинописного текста, \Ь рисунках, Т таблицах.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, сформулированы цели и задачи исследования, подчеркнута новизна и практическая ценность работы, приведены результаты реализации и внедрения работы, дано краткое изложение её содержания.

В-первой главе проведен анализ существующих способов повышения надежности вычислительных систем. Показана возрастающая роль концепции отказоустойчивости в повышении надежности вычислительных систем в процессе их проектирования, производства и эксплуатации. Обосновано представление вычислительных систем как вложенного набора подсистем со свойственными им уровнями и способами обеспечения отказоустойчивости. Показана важность комплексного подхода в обеспечении надежности и производительности вычислительных систем. В этой связи представлены результаты работ ряда авторов, в которых указывается на строгую корреляцию между уровнями и изменениями вычислительной нагрузки с одной стороны и изменениями интенсивностей сбоев и отказов с другой. Чем выше уровни вычислительной нагрузки и чем больше диапазон её изменения во времени, тем значительнее изменения сбоев и отказов в течении тех же промежутков времени. Увеличение вычислительной нагрузки малой ЭВМ приводит к резкому повышению интенсивности обмена информацией по МК и соответствующему резкому увеличению ошибок передач, что значительно повышает риск получения недостоверных результатов обработки информации и риску возникновения системных отказов.

Аппаратные и программные средства обнаружения ошибок и восстановления вычислительного процесса от воздействия отказов играют фундаментальную роль в обеспечении отказоустойчивости вычислительных систем. В соответствии со степенью обнаруживаемо с ти и временем обнаружения ошибок проведена классификация средств обнаружения ошибок на - средства обнаружения по уровню сигнала, на функциональном уровне и средства диагностирования. Произведен сравнительный анализ этих средств обнаружения.

Средства обнаружения по уровню сигнала характеризуются высокой степенью обнаруживаемое™ и практически нулевыми значениями времен обнаружения. Они строятся по принципу самоконтролируемых схем и обнаруживают ошибки непосредственно при их возникновении. К этой категории средств относятся, например, сдвоенные дополняющие схемы, схемы реализующие коды обнаружения и исправления ошибок и- т. п. Эти средства обладают большой избыточностью и имеют соответственно высокую стоимость.

К средствам обнаружения ошибок на функциональном уровне относятся всевозможные программно-аппаратные средства обнаружения такие например, как обнаружение недействительного кода операции, тайм-ауты и т.п. Они менее дорогие, однако время обнаружения при этом растет.

Средства диагностирования обеспечивают возможность обнаружения ошибок посредством программной имитации ситуаций, при которых могут возникать ошибки. Результаты исследований проведенных рядом авторов показывают, что обнаруживаемость ошибок этой категорией средств есть монотонная возрастающая функция от времени тестирования.

Контроль подсистем ввода-вывода малых ЭВМ с магистральной архитектурой заслуживает особого внимания, так как скрытые ошибки МК распространяясь в системе могут причинить значительный ущерб работе вычислительной системы. Из-за повреждения в одном периферийном устройстве могут проявляться ошибки при работе других устройств. С другой стороны неисправности самого МК могут приводить к возникновению ошибок в работе каждого устройства, подключенного к МК. Анализ показал,что ошибки МК можно успешно обнаруживать посредством незначительной аппаратной избыто* ности введя дополнительный контроль операций передач информации.

Стратегии восстановления вычислительного процесса во много! зависят от характера ошибок, стоимости одинойчной процедуры восстановления и стоимости переключения на резерв. Средства компле]

сирования подсистем ввода-вывода обеспечивают перераспределение ресурсов и переключение на резерв в случаях возникновения отказов в компонентах ввода-вывода. Они включают переключающие устройства (коммутаторы) различных уровней, позволяющие строить гибкие и надежные вычислительные комплексы. Эффективность организации средств комплексирования может быть оценена посредством определения стоимости переключения на резерв. Хотя стоимость одной процедуры восстановления относительно невысока, однако частое возникновение сбоев и перемежающихся отказов может привести к частым попыткам восстановления, общая стоимость которых может оказаться слишком большой, а вероятность безуспешного восстановления приводящего к системному отказу при этом будет возрастать. Такие ситуации могут оказаться критичными для систем, работающих в режиме реального времени, поэтому они должны быть определены своевременно, а неустойчиво работающий компонент должен быть заменен. Здесь возникает задача оценки стоимости замены и восстановления.

Анализ рассмотренных способов повышения надежности вычислительных систем удовлетворяющих концепции отказоустойчивости показал, что в этом направлении достигнут значительный прогресс. Систематизирована методология проектирования отказоустойчивых вычислительных систем, разработаны модели и методы предсказания надежности, методы доказательства правильности программ и т.д. Однако методология отказоустойчивого проектирования носит универсальный характер, ориентирована на удовлетворение общих принципов проектирования, не учитывает функциональных особенностей подсистем, из которых состоят вычислительные системы и поэтому не может удовлетворять конкретным требованиям разработки отказоустойчивых подсистем.

В связи с этим в главе сформулированы задачи разработки методик отказоустойчивого цроектирования подсистем ввода-вывода малых ЭВМ с магистральной архитектурой и комплексов на их основе, включающих:

- представление отказоустойчивых вычислительных систем как вложенного набора подсистем со свойственными им характеристиками отказоустойчивости и способами её обеспечения;

- оценку воздействия вычислительной нагрузки малой ЭВМ на , надежность подсистем ввода-вывода;

- выбор структуры и состава средств обнаружения ошибок подсистем ввода-вывода малых ЭВМ в соответствии с требованиями по

надежности и стоимости потерь на восстановление вычислительного процесса;

- определение времени замены неустойчиво работающего компонента подсистем ввода-вывода в резервированных вычислительных комплексах на основе малых ЭВМ.

Вторая глава посвящена разработке методики оценки показателей надежности в зависимости от изменения вычислительной нагрузки.

Традиционные метода анализа вычислительных систем рассматривают надежность и производительность раздельно, однако при этом используются аналогичные математические методы,основанные на теории марковских процессов, что дает возможность их совместного рассмотрения. Возникновение отказов может рассматриваться при этом как результат прохождения потока задач через систему. Поток задач в свою очередь рассматривается как функция загруженности системы. Таким образом увеличение вычислительной нагрузки приводит к увеличению показателей использования системных ресурсов, что в свою очередь приводит к увеличению вероятности возникновения сбоев и отказов. Сбои и отказы уменьшают полезную пропускную способность системы за счет выполнения процедур восстановления вычислительного процесса и повторного выполнения задач, что приводит к увеличению времени пребывания задач в системе и коэффициентов использования ресурсов.

Для малых ЭВМ с магистральной архитектурой увеличение вычислительной нагрузки приводит к резкому увеличению использования МК, что в свою очередь приводит к значительной ненадежности системы из-за сбоев и отказов ввода-вывода.

В настоящее время широко используются аналитические вероятностные модели сетей с очередями, для которых разработаны эффективные вычислительные алгоритмы для вычисления коэффициентов использования ресурсов, пропускных способностей каналов связи, времен пребывания задач в системе и другие показатели производительности вычислительных систем.

Для оценки показателей надежности в зависимости от вычислительной нагрузки все сбои и отказы разделены на два больших класса - сбои и отказы, возникновение которых зависит от нагрузки и сбои и отказы, возникновение которых не зависит от нагрузки. Сбои и отказы, возникновение которых не зависит от нагрузки назовем "самопроизвольными". Сбои и отказы, зависимые от

|

нагрузки определены в соответствии с воздействием, оказываемым ими на выполнение задач. Те, которые оказывают воздействие на выполнение только текущей задачи в обслуживающем приборе назовем собственными, а те, которые могут оказывать воздействие и на другие задачи назовем "наведенными". Таким образом, в зави- > симости от того имеет ли место отказ или сбой (неустойчивы от- ' каз) имеем следующую классификацию отказов "самопроизвольные" I устойчивые и неустойчивые, "собственные" устойчивые и неустой- I чивые и "наведенные" устойчивые и неустойчивые.

Примем упрощающее предположение, что каждый центр обслужи- ; вания в модели состоит из одного обслуживающего прибора так, | что в каждом центре может в каждый данный момент обслуживаться ' не более одной задачи. Кроме того, примем, что периоды занятости обслуживающих приборов взаимно независимы, тогда;-, будем иметь, что коэффициенты использования обслуживающих приборов есть вероятности застать их занятыми.

Каждому типу отказов присвоим некоторые потенциальные интенсивности А , т.е. некоторые максимальные интенсивности с которыми эти отказы могут возникать в данном обслуживающем приборе. Результирующие интенсивности отказов будем определять в соответствии с классами задач и типами определенных выше отказов. Таким образом, некоторый класс задач подвергается воздействию определенных типов отказов в данном обслуживающем приборе в соответствии с коэффициентом использования обслуживающего прибора данным классом задач«

Пусть \ - коэффициент-использования обслуживающего прибора обслуживанием данного класса задач, - коэффициент использования обслуживающего прибора всеми классами задач обслуживаемых в данном приборе. Тогда для некоторого класса задач получим следующие выражения для вычисления результирующих ин-тенсивностей самопроизвольных отказов.

^■-Л- - для неустойчивых отказов

- для устойчивых отказов. Возникновение собственных отказов зависит только от занятости обслуживающего прибора обслуживанием данного класса задач независимо от того, являются ли они устойчивыми или неустойчивыми. Таким образом, выражение для вычисления результирующих интенсивностей для устойчивых и неустойчивых собственных отказов в некотором обслуживающем приборе принимает вид- ^ -Л .

В случае наведенных отказов необходимо учесть совместное использование обслуживающего прибора задачами наводящими отказы и задачами на которые эти отказы воздействуют. Пусть -коэффициент использования обслуживающего прибора задачами наводящими отказы, а ЛнЬ потенциальные интенсивности наведенных отказов, тогда результирующие интенсивности наведенных отказов в некотором обслуживающем приборе будут определяться из следующих выражений:"

^А^Лц- для неустойчивых отказов

(ыМл п.— для устойчивых отказов.

Таким образом результирующие интенсивности отказов зависимые от нагрузки для некоторой системы будут определяться по следующей формуле:

ле яр к.4

* %

где I - обслуживающие приборы, ] - типы отказов, к - классы задач, \>А - обобщенные выражения результирующих интенсивностей отказов рассматриваемых классов.

Вычисление результирующей интенсивности отказов по вышеприведенной формуле производится в соответствии со следующим алгоритмом:

- определить коэффициенты использования обслуживающих приборов различными классами задач и всеми классами задач обслуживаемых этими приборами;

- для каждого типа отказов и подверженных им классов задач вычислить результирующие интенсивности отказов в обслуживающих приборах;

- просуммировать значения результирующих интенсивностей отказов всех типов по каждому классу задач, по каждому обслуживающему прибору и по всей системе.

Полученные таким образом интенсивности отказов зависят от нагрузки и могут быть использованы для получения других показателей надежности для комплексной оценки проектируемой системы по надежности и производительности.

С использованием разработанной методики произведена фактическая оценка надежности подсистемы ввода-вывода малой ЭВМ в зависимости от организации режимов ввода-вывода и изменения вычислительной нагрузки.

В третьей главе исследуются вопросы повышения надежности подсистем ввода-вывода малых ЭВМ и комплексов в зависимости от организации средств обнаружения ошибок, способов и средств восстановления вычислительного процесса.

В процессе функционирования вычислительных систем желательно, чтобы при возникновении ошибок они обнаруживались непосредственно при их возникновении. Однако некоторые ошибки не могут быть обнаружены сразу и, поэтому распространяясь в системе причиняют ущерб вычислительному процессу, причем тем больший чем дольше они находятся в необнаруженном состоянии. Время обнаружения или скрытый период ошибки, определяемый как промежуток времени с момента возникновения ошибки до её обнаружения рассматривается здесь как мера эффективности средств обнаружения.

Представлена модель описывающая процессы обнаружения ошибок. На основе модели разработана методика для определения структуры и характеристик средств обнаружения ошибок подсистем ввода-вывода малых ЭВМ в соответствии с требованиями по производительности и отказоустойчивости.

В предложенной модели рассматриваются только случаи возникновения одиночных неисправностей подсистем ввода-вывода, так как вероятности одновременного возникновения нескольких неисправностей пренебрежимо малы. Ввиду функциональных характеристик подсистем ввода-вывода малых ЭВМ, возникновение неисправностей . ввода-вывода можно рассматривать как пуассоновский процесс с параметром л . В модель включены следующие состояния - исправное, неисправное, неактивной неисправности, ошибочное и обнаружения.

Скрытые периоды ошибок моделируются посредством включения в модель двух состояний обнаружения ошибок - ОБН^- и ОБ^. После возникновения неисправности, в зависимости от того имеются или не имеются периоды скрытости ошибок возможны следующие два исхода:

- прежде чем из-за неисправности возникнут ошибки, неисправность может быть обнаружена средствами обнаружения на сигнальном уровне и система перейдет в состояние ОБ^, другой причиной такого перехода может быть выполнение диагностической процедуры; продолжительность такого перехода положим распределенной экспоненциальной с параметром ;

- из состояния Н система переходит в состояние ОШ, ошибочная информация распространяется по системе пока средства обнаружения на функциональном уровне не обнаружат ошибку. Этот промежуток времени есть скрытый период ошибки, он зависит от средств обнаружения используемых в системе, выполняемых задач и характеристик ^физических устройств системы.

Состояние НН введено для моделирования поведения перемежающихся неисправностей. Перемежающаяся неисправность может не проявляться после выполнения некоторой процедуры восстановления, например при повторном выполнении операции. Такая ситуация моделируется переходом из состояния Н в состояние НН. В то же время после возникновения сбоя система может возвратиться в исправное состояние с некоторой интенсивностью Т .

Интенсивности переходов , , , равныС-0^

, , - в рабочем режиме и 0 , ^ , <7 при выполнении диагностических процедур соответственно, где £ - степень обнаружения средств обнаружения на сигнальном уровне, оС - вероятность возникновения ошибки из-за имеющейся неисправности, ^ -вероятность обнаружения ошибок средствами обнаружения на функциональном уровне.

Пронумеруем состояния И, Н, НН, ОШ, ОБН, ОБН -1=1,2, ..., 6 соответственно и определим матрицу Сбх£> переходов в состояния на основании модели представленной на рисунке. Вероятности состояний можно получить из следующего дифференциального уравнения:

где фСО - вероятность нахождения системы в состоянии I в момент времени 4г . Можно вычислить средние количества посещения состояния I = 1,2,3,4 перед тем, как система будет поглощена в одно из состояний ОБН2 или ОБН2 для любого события ^ , ^ = 1,2,3, заключающегося в возникновении сбоя, перемежающегося и устойчивого отказа соответственно и средние интервалы времени МПС¡11^1 , = 1,2,3, в течении которых система остается в состоянии (. до поглощения в одно из состояний ОБНт или

обн2.

В случаях неполной обнаруживаемое™ ( ) средствами обнаружения ошибок на сигнальном уровне и ненулевых значений периодов скрытости ошибок система подвергается следующим нежелательным явлениям, которые следует оценить. Первое - возможно получение недостоверного результата обработки, информации, второе - могут иметь место дополнительные потери на восстановление вычислительного процесса из-за распространения ошибок в системе.

Определение. Если в системе имеется по крайней мере одна необнаруженная ошибка к моменту завершения выполнения некоторого вычислительного процесса и, если к этому моменту времени в системе нет указателей о наличии ошибки, то данный вычислительный процесс считается завершенным с недостоверным результатом.

Положим Т - есть время выполнения некоторого процесса,тогда вероятность получения недостоверного результата определится из модели

в случае, логда Т величина детерминированная и

О ^ Л

если Т случайная переменная с функцией плотности вероятности/^).

Для оценки вычислительных потерь на восстановление вычислительного процесса определены следующие параметры - Йд и

средние значения издержек на восстановление и вероятности того, что для восстановления вычислительного процесса от воздействия ошибки типа ] = 1,2,3 используется способ восстановления I , где I = 1,2,3,4 способ восстановления - маскирование, повтор операций, повторное выполнение программы с контрольной точки и рестарт соответственно; б,-: - условная веро-

ятность того, что процесс восстановлен при условии использования I -ого способа восстановления от воздействия ошибки типа ; jX - вероятность возникновения события F,- при условии, что ошибка обнаружена. В соответствии с этими параметрами определяется выражение для относительных вычислительных потерь на восстановление в процентах от общего времени

где б - относительные потери на диагностирование и установку контрольных точек, '/APCE) среднее время между двумя последовательными обнаружениями ошибок.

Этот показатель является системно-ориентированным, так как показывает общие потери системного времени, а не потери времени на выполнение определенных задач. В системах УВК PB времена выполнения задач являются критичными. Определены выражения функций плотности вероятности задержек выполнения задач по причине восстановления от воздействия ошибок /ё("^^'Д") , где Т -время выполнения задачи при отсутствии ошибок. С учетом диагностики и установления контрольных точек это время уточняется следующим образом T=TO+G) . Вероятность возникновения критической ошибки и стоимость восстановления определяются из следующих формул .

1 "wp

где C(-t) — некоторая монотонная неубывающая функция стоимости. Показатели реи , р , СТ позволяют оценивать эффективность средств обнаружения' ошибок с точки зрения отказоустойчивости и производительности. При заданных требованиях по производитель ности следует определить какие средства обнаружения необходимо предусмотреть для удовлетворения заданным требованиям. Требования должны включать допустимые пределы вероятностей возникновения отказов и потерь на восстановление вычислительного процесса.

На основе выполненных расчетов построены кривые постоянных значений СТ и f^* Рси1+Р*р для различных значений обнаруживаемое™ средств обнаружения на сигнальном уровне и периодов скрытости ошибок. Области под кривыми есть допустимые области

выбора параметров средств обнаружения ошибок.

Разработка методики замены неисправных компонентов подсистем ввода-вывода вычислительных комплексов на базе малых ЭВМ является следующим вопросом исследования. Разработанная методика основывается на одном правиле, в соответствии с которым для заданного времени работы вычислительного комплекса следует определять некоторый момент времени "Ь., (если он существует при имеющейся интенсивности сбоев неустойчиво работающего компонента), после достижения которого выгоднее заменить неустойчиво работающий компонент, чем производить попытки его восстановления. Выгодность замены определяется путем сравнения стоимости связанной с переходом на резерв с потерями на восстановление.

Принимаем, что процесс возникновения неисправностей пуассо-новский. Принимаем также, что интенсивность неустойчиво работающего компонента увеличивается с появлением сбоев до некоторого количества сбоев, после которого остается постоянной, т.е.

Лр-гЛ^В соответствии с принятым правилом, попытки восстановления производятся до достижения системой момента времени , после чего производится замена. Рассмотрим вычислительный комплекс с одним резервным компонентом. В такой системе при попытке восстановления возможны следующие исходы: ■

1. Неустойчиво работающий компонент восстановлен. .

2. Все попытки восстановления оказались безуспешными, сбой перешел в отказ, произведен переход на резерв.

3. Переход на резерв неудачен, произошел системный отказ.

Введем обозначения; Р. - вероятность отказа при попытке восстановления, Я - вероятность системного отказа при переходе на резерв, С - стоимость потерь из-за простоя комплекса в единицу времени, б; - время простоя при I -ом восстановлении, в( - время связанное с переходом на резерв, Ть - время восстановления комплекса. Общая стоимость потерь при выполнении цроцессов восстановления с учетом всех возможных исходов, принимая линейную зависимость стоимости простоя от времени, определится по формуле * ч

<3 = ЬОр)°1+ ра-ЮСр + иРСа

Подставляя значения, получим ¿-1

Далее определим стоимость перехода на резерв.При этом возможны следующие исходы:

1. Переход на резерв успешный, вычислительный процесс восстановлен.

2. Переход на резерв неудачен, произошел системный отказ.

3. Переход на резерв успешный, неисправный компонент восстанавливается, но за время восстановления произошел отказ резервного компонента.

Примем вероятность возникновения системного отказа из-за отказа резерва 13 = I -С"" е , где -Л. - интенсивность отказа резерва, - время восстановления замененного компонента.Общая стоимость перехода на резерв определится по следующей формуле , _л7,,

Приравнивая С}^ и определяется момент времени , после которого выгоднее переходить на резерв.

Четвертая глава работы посвящена практическим вопросам разработки отказоустойчивых структур подсистем малых ЭВМ с магистральной архитектурой и комплексов на их основе.

Разработанные структурные решения обеспечивают повьшение достоверности передачи информации по МК, улучшение обслуживаемости, ремонтопригодности и готовности подсистем ввода-вывода за счет улучшенных надежностных показателей подсистем ВЗУ, средств телекоммуникации (включая групповые и одиночные контроллеры терминалов), контроллеров устройств непосредственного ввода-вывода, средств комплексирования подсистем ввода-вывода.

В структуре МК предусмотрены средства контроля передач данных, адресов и управляющих сигналов на нечетность» При этом обеспечивается оперативный контроль информационных потоков, за счет чего значительно уменьшаются скрытые периоды ошибок ввода-вывода и потери восстановления вычислительного процесса от воздействия ошибок передач. Указанная структура МК стандартизована (ОСТ 4Г,304.201) и нашла применение в разработках ряда малых ЭВМ и комплексов.

Разработаны принципы организации групповых контроллеров периферийных устройств непосредственного ввода-вывода информации (пишущая машинка, перфоленточные устройства ввода-вывода). В структуре контроллера предусмотрены пути прохождения данных

между вводными и выводными регистрами данных подключенных к контроллеру периферийных устройств, обеспечивающие дополнительные режимы работы, благодаря чему улучшаются показатели обслуживаемости и ремонтопригодности подсистемы контроллер-периферийные устройства. Контроллер позволяет выполнять подготовку данных на перфоленте собственными аппаратными средствами независимо от процессора ЭВМ, к которой он при этом остается подключенным. ЭВМ разгружается от задач подготовки и дублирования данных на носителе. Принципы организации контроллеров защищены авторским свидетельством (а.с. № 690471). Дальнейшее развитие эти принципы нашли в разработках группового контроллера алфавитно-цифрового дисплея и кассетного накопителя на магнитной ленте, обеспечивающего подготовку и редактирование данных аппаратными средствами контроллера с использованием функциональных возможностей алфавитно-цифрового дисплея и кассетного накопителя на магнитной ленте.

На основе методики разработанной во второй главе проанализированы режимы работы групповых контроллеров терминалов в составе малых ЭВМ работающих в режиме реального времени с точки зрения обеспечения надежности и производительности. В структуре контроллера предусмотрены средства для повышения надежности за счет уменьшения вычислительной нагрузки. Разработано буферное запоминающее устройство, позволяющее осуществлять передачи данных от терминалов в ЭВМ на высоких скоростях с малым количеством программных прерываний ЦП, за счет чего достигается существенное уменьшение затрат вычислительной мощности ЦП и пропускной способности МК на передачу данных. Организация такого буфера защищена авторским свидетельством (а.с.№1290339). Вывод данных на терминалы организован в контроллере на основе применения режима прямого доступа к памяти для всех подключенных терминалов как независимых приемников информации. При такой организации циклы прямого доступа терминалов могут чередоваться между собой в произвольной последовательности, за счет чего нагрузка на Ш, создаваемая терминалами изменяется плавно. Использование прямого доступа уменьшает количество программных прерываний ЦП, что особенно важно в системах с большим количеством абонентов, совместная работа которых приводит систему в насыщение, при котором количество сбоев и отказов резко возрастает. В контроллере предусмотрены диагностические режимы имитации работы удаленных терминалов, позволяющие проводить

контроль и диагностику группового контроллера исключая линии связи и терминалы. Аналогичные диагностические режимы предусмотрены также в контроллере для управления одним удаленным терминалом.

На примере реализации контроллера НМЛ показано использование результатов исследований полученных в третьей главе. Определены соотношения между категориями средств обнаружения ошибок закладываемых в контроллере. Показано, что средства обнаружения ошибок на сигнальном уровне и маскирования ошибок имеют принципиальное значение в повышении надежности подсистем ВЗУ и обеспечения достоверности передачи информации. Сделан вывод, что встроенные средства диагностирования имеют существенное значение для обеспечения отказоустойчивости сложных, высокоскоростных подсистем ВЗУ. Приведены характеристики средств обнаружения и встроенных средств диагностирования разработанного контроллера НМЛ. Показана применимость разработанных структур в других контроллерах ВЗУ.

Рассмотрены вопросы построения средств комплексирования подсистем ввода-вывода вычислительных комплексов на базе малых ЭВМ для ВЗУ и устройств непосредственного ввода-вывода информации. Показано, что в условиях повышения требований к надежности в основе структурных решений средств комплексирования лежат принципы модульности и магистральной организации. Определены соотношения между аппаратурой и программным обеспечением средств комплексирования для указанных категорий периферийных устройств. Представлены характеристики разработанных коммутаторов для ВЗУ и правила для программного управления коммутацией двух-входовых терминалов под управлением операционной системы УВК РВ.

ЗАКЛЮЧЕНИЕ

Основные результаты диссертационной работы заключаются в следующем:

1. Проанализированы проблемы повышения надежности подсистем ввода-вывода малых ЭВМ с магистральной архитектурой и комплексов на их основе. Показано, что при широком внедрении принципов отказоустойчивости в настоящее время отсутствуют инженерные методики, позволяющие оценивать технические решения по обеспечению отказоустойчивости подсистем ввода-вывода малых ЭВМ и комплексов.

2. Основной задачей диссертационной работы определена раз-

- 1У -

работка инженерных методик, обеспечивающих комплексное решение вопросов повышения надежности подсистем ввода-вывода на основе принципов отказоустойчивости с учетом требований по производительности и стоимости малых ЭВМ и комплексов.

3. Предложен способ представления отказоустойчивых вычислительных систем как набор вложенных подсистем со свойственными им уровнями отказоустойчивости и способами их обеспечения.

4. Разработаны инженерные методики, которые в совокупности составляют законченный набор средств для анализа и проектирования отказоустойчивых подсистем ввода-вывода малых ЭВМ и комплексов.

5. Разработанные методики достаточно универсальны и могут быть адаптированы для анализа и проектирования других подсистем.

6. На основе разработанных методик проведен анализ структур контроллеров периферийных устройств. Разработаны структуры групповых контроллеров периферийных устройств непосредственного ввода-вывода, групповых контроллеров удаленных терминалов,контроллеров ВЗУ, средств комплексирования подсистем ввода-вывода. Разработанные структурные решения направлены на улучшение обслуживаемости, ремонтопригодности и готовности подсистем ввода-вывода.

7. Разработанные под руководством и при непосредственном участии автора аппаратные средства сопряжения с МК, групповые и одиночные контроллеры терминалов, групповые контроллеры периферийных устройств непосредственного ввода-вывода, контроллеры ВЗУ, средства комплексирования подсистем ввода-вывода использованы в малых ЭВМ серии "Наири-4", изделиях 65с169, 65с170, 83т426, 83т427.

8. Практическое использование результатов работы подтверждается справками о внедрении.

По диссертации опубликованы следующие работы:

1. В.Д.Кикоть, Э.П.Чалахян, Ю.Б.Зайцев, Г.А.Оганян, Э.Л. Длеаджулян. Основные принципы подключения и реализации периферийной аппаратуры в ЭВМ "Наири-4", РЖ "Военная техника и экономика", сер.Общетех, № 8, 1978, БИМИ.

2. Г.А.Оганян, Э.Л.Джаджулян, А.О.Нерсесян, Э.П.Чалахян. Вопросы аппаратной реализации процедуры редактирования в ЭВМ. Вопросы радиоэлектроники, сер.ЭВТ, вып. 14, 1980.

3. Г.А.Оганян, Э.Л.Джаджулян, А.О.Нерсесян, Э.П.Чалахян,

К.Б.Таирян. Пульт оператора с дисплеем. Информационный листок № 82-0255, 1982.

4. Э.П.Чалахян, Э.Л.Джаджулян, Г.А.Троян, А.Г.Маргарян. Некоторые особенности подключения алфавитно-цифрового дисплея к малой ЭВМ. MPC, TIE, сер.ЭР, № 10, ВИМИ, 1984.

5. Э.П.Чалахян, Э.Л.Джаджулян. Анализ структур контроллеров диалоговых терминалов в составе малой ЭВМ, работающей в режиме разделения времени. Сб. рефератов НИОКР, обзор переводов, сер.AT, № I, ВИМИ, 1986.

6. Э.П.Чалахян, Г.А.Оганян, Э.Л.Джаджулян, Л.В.Карапетян. Устройство для сопряжения периферийных устройств с ЭВМ. A.c. СССР № 690471, Опубл. БИ № 37, 1979.

7. Э.П.Чалахян, Э.Л.Джаджулян, Г.А.Троян, А.Я.Григорян. Устройство для сопряжения источника и приемника информации. A.c. СССР № 1290339. Опубл. БИ № 6, 1987.

8. Э.П.Чалахян, Э.Л.Джаджулян, А.Г.Маргарян, А.О.Папоян. Преобразователь последовательного кода переменной длины в параллельный. A.c. СССР № 1290538. Опубл. БИ № 4, 1987.

9. Э.П.Чалахян, Э.Л.Джаджулян, А.Г.Маргарян, Э.Н.Акопян. Преобразователь параллельного кода в последовательный. A.c. СССР № 1282337. Опубл. БИ № I, 1987.

10. Э.П.Чалахян, А.Я.Григорян, А.Г.Маргарян, А.Г.Хуршу-дян, А.К.Саатчян. Организация управления терминалами в вычислительных системах коллективного пользования на базе малых ЭВМ. Тезисы докладов Х1У Научно-технич.конф.молодых ученых и специалистов ЕрНИИММ, Ереван1, 1987.

11. Э.П.Чалахян, Г.А.Троян, А.Г.Хуршудян, А.К.Саатчян. Об одном способе организации обмена данными между источником

и приемником информации. Тезисы докладов I Научно-технич.конф. молодых ученых и специалистов АПО "Электрон". Ереван, 1988.

12. В.В.Мартынов, Э.П.Чалахян. Определение времени замены неустойчиво работающего модуля в резервированных вычислительных системах. Вопросы радиоэлектроники. Сер.ЭВТ, вып.12,1989, с.97-100.

иц-ФПФиЧЬГ

0*fi и и b ni»ui q ft п Ъ w рп Ъо к р nt. п L ш ê fc фп рр (¿ut р щ f*

ш if и» l¿ui р щ ft ¿ Ь bp fi b± ЬпшЬд Ъ fj-Jutb tfpi»j tf_mi.nL q ne m 6 < ш i/ut p щ fr ifn L * l^h ЬЪ/Зши ftUU* blfb bp ft jrt L urn Lfinc рУшЪ <mpq bpftb *

fmjf* tú prf ftutlimbnt Pfiib ç ft t/t/ei t n pn *. ш é- £ bptabn^ß np фпрр р ^ ft ^ ш \f\» (¿ ш р ^ ¿ Ь bp ft be tiputbq ^fii/iil Г** J (¡¡_агп i g n t. m é

^u» \fvt t¿ui p щ bp ft /nlM^ — ^ L^b bbßtau {y uutbifh bp f, ш^и-т риняп L put Ъ ftp ^iilh-¿л b± ш peïnq nL pbta'f p i^mi^ t; bpvtbq ац^м^мшщ /tvy^i ¿тЬ^^шЬ/п

¿шыл ¿/> ui^^fr^^i tfbó tfmupb^ ш^г} u^mjifmbbbpnLtf vprffm^al t ^лс -

иш £ f) n l p Ьш Ь mit» i- ^ ¿ ¿?щр[>и* Jbpnrf ft Ь bpft \f?*\(nnfp* npnbq tffr^n-— qn tf (¿h* p b ^ft ^Cifrbft <i«?ni|i m a Ь t ^ ЬЬрш и ft и ut b-ГЪ bp ft иги^Чш^им^щ — ^ttlfrfipl

lîpvt t^n L Ш bb*

— ^ntuii ¿ fr п i. p Ьш t/ q m. qut Ь ft Ь bp ft цЬш4 «Mt/wL ifbpnr}ftÍ£t» fm—

l¿t* P tf b pft 4 m n t п ~ ъ b* % éutbnutp bf,X,nL ui t p bm Ь i[b put я b p kt* ¿

—- < m \f ш (¿m p ^ ft ¿ Ь bp f» if n L i* b £ pfr bb P* и fr uutbjb b n fr uumi^/oL b± t} f>& цЬ numft \f_ut j fr ut u, u^te ptBtnnL p\» j ft ¿ш L ш ¿ tf^rn щУ £ цЬш Ç ш tA b ¿ r» L \T b—

Pnf} fl l¿Ut

— uil/I^tf^nLl« UJ rf^utuinri ump^ft i/'njiiitu^uiti dmtfu Lut n pn ? b ^nt

if b p nr\ fi : lf?u»({_nLiM¿ xfbpnrf ft t^ui Ь bp ç pî/rf^mbntp mtifm'fp ^ЪшршСпрпи —

pfteb ЬЬ иня ¿u 4 Lut 4 ш1/> Ь ¿ n L iTni m^ — b¿ jtft bbpmufyuin bjb bp f, j nt. и m ¿f» — n с P f> t-Ь p bl^utu^fr wat» ^ ¿ni/ ^ im t/ш (¿ui f* 4 f> ¿ I/b p fr at pt/iM^ p n rjui Ьл l ^f» i l» f» Vt

w p <tbpp i

Ukp nrf ft Í£U¡ Ь bp ç liftptai.n L b ^ y^j ^fUàftpft limpqft bt, ЬршЬд ^ ft if ut Ъ

i¿p»j rx.ni.qn luí ¿ ^ ш iftm I^uí p ^ bp ft Ьн/мн щ ¿ г^ш Ь pb put q pn t •/ ? Utftm ql» é ш p —

rf ftt. t/ ^»b b p g <ut и 1Лш tpnno ê ЬЬ r,,t;tnm (f_tab tfn p 1 m pt/n \f% b p fy u> !¿l* bpnif b¡. ш pvtm rf pni, pbut I/p bbnrjbb^nt . t* bq t^t» Ь fb bp n tf •