автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Концепция и методы обеспечения отказоустойчивости параллельных вычислительных систем, выполняющих фиксированные комплексы задач
Автореферат диссертации по теме "Концепция и методы обеспечения отказоустойчивости параллельных вычислительных систем, выполняющих фиксированные комплексы задач"
г* г^
•1 V
РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ
На правах рукописи
ТУРУТА Евгений Николаевич
УДК 681.32
КОНЦЕПЦИЯ И МЕТОДЫ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ, ВЫПОЛНЯЮЩИХ ФИКСИРОВАННЫЕ КОМПЛЕКСЫ ЗАДАЧ
\
Специальность:
05.13. 13 - Вычислительные машины, комплексы, системы и сета
ДИССЕРТАЦИЯ (в форме научного доклада) на соискание ученой степени доктора технических наук
Москва 1996
Работа выполнена в Институте проблем передачи информации Российской Академии наук
Официальные оппоненты:
д. т. н., проф. Согоыонян Е. С. д. т. н., проф. Горбатов В. А. д. т. н., проф. Иыуду К. А. Ведущее предприятие:
Таганрогский государственный радиотехнический университет
Защита диссертации состоится * 1996 г. в^~_час.
на заседании Диссертационного совета Д002. 68.01 Института проблем управления РАН по адресу:
117342 Москва, Профсоюзная ул., 65 телефон Совета 334-93-29
С диссертацией можно ознакомиться в библиотеке Института проблем управления.
Научный доклад разослан
Ученый секретарь Диссертационного совета Д002.68.01 кандидат технических наук
Е. В. Юркевич
СОДЕРЖАНИЕ
стр.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ......................................5
1. КОНЦЕПЦИЯ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ПАРАЛЛЕЛЬНЫХ . ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ (ПВС) НА ОСНОВЕ РАЦИОНАЛЬНОГО ИЗМЕНЕНИЯ СТРАТЕГИИ РАСПРЕДЕЛЕНИЯ ВЫПОЛНЯЕМЫХ ЗАДАЧ.........14
1. 1. Отказоустойчивость как базовое свойство
высоконадежных, живучих и безопасных вычислительных систем ..................................................14
1.2. Модель отказоустойчивой ПВС с изменяющейся стратегией распределения задач (ОУ ПВС/РЗ)...............15
1.3. Показатели, используемые для характеристики ОУ ПЕС/Р3....27
1.4. Формализованная' постановка задачи рационального статического перераспределения задач, обеспечивающего требуемую отказоустойчивость системы и основные подходи к ее решению.....................................34
2. МЕТОДЫ РАЦИОНАЛЬНОГО СТАТИЧЕСКОГО ПЕРЕРАСПРЕДЕЛЕНИЯ ЗАДАЧ, ОБЕСПЕЧИВАЮЩЕГО ТРЕБУЕМУЮ ОТКАЗОУСТОЙЧИВОСТЬ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЫ (РСПЗ/ОУ) .............................42
2. 1. Методы рационального статического ПЗ/ОУ для ПВС,
выполняющих фиксированное множество задач, с явно не
заданными взаимосвязями (заданна класса I) ..............43
2.2. Методы рационального статического ПЗ/ОУ для ПВС, выполняющих фиксированное множество взаимосвязанных
задач с явно заданными связями (задание класса С) .......56
2.2. 1. Методы и алгоратмй РСПЗ/ОУ для ПВС,
допускающих только временную деградацию ..........56
2.2.2. Метод РСПЗ/ОУ для ПВС, допускающих как
временную, так и функциональную деградацию .......70
3. ОБЕСПЕЧЕНИЕ ОТКАЗОУСТОЙЧИВОСТИ РАСПРЕДЕЛЕННЫХ СИСТЕМ УПРАВЛЕНИЯ (РСУ) НА ОСНОВЕ РАЦИОНАЛЬНОГО СТАТИЧЕСКОГО ПЗ/ОУ ........................................................75
3. 1. Особенности РСУ, учитываемые при разработке методов
РСПЗ/ОУ ..'...............................................73
3. 2. Рациональное статическое ПЗ/ОУ в сложных РСУ.............76
3.2.1. Итеративное ПЗ/ОУ..................................76
3. 2. 2. Поэтапное ПЗ/ОУ...................................80
3.3. Рациональное статическое ПЗ/ОУ в территориально распределенных системах управления (ТРСУ) ...............82
3.4. Рациональное статическое ПЗ/ОУ в распределенных информационно-управляющих системах ......................87
3.5. Обеспечение отказоустойчивого функционирования РСУ
при выполнении операций с файлами ,......................92
3.6. Обеспечение отказоустойчивости РСУ конвейерного типа ....95
3.7. Рациональное статическое ПЗ/ОУ в децентрализованной системе автоматического регулирования (ДСАР) ............97
4. ВОССТАНОВЛЕНИЕ ВЫЧИСЛИТЕЛЬНЫХ ПРОЦЕССОВ Б ОУ ПВС ПРИ РЕАЛИЗАЦИИ РАЦИОНАЛЬНОГО СТАТИЧЕСКОГО ПЕРЕРАСПРЕДЕЛЕНИЯ
ЗАДАЧ ... .....................................................102
4.1. Принципы реактивизации процессов в ОУ ПВС, реализующей рациональное статическое ПЗ/ОУ .......................102
4.2. Методы решения задач реактивизации процессов в
ОУ ПВС/РЗ ...............................................109
4.3. Реактивизация процессов в ОУ ПВС/РЗ, выполняющей задание, описываемое моделью С5Р ........................112
4.4. Программная реализация механизма восстановления процессов в многотранспьютерной ОУ ПВС/РЗ .............. 114
5. ПРИНЦИПЫ АВТОМАТИЗИРОВАННОГО ПРОЕКТИРОВАНИЯ ОУ ПВС, ОБЛАДАЮЩИХ СВОЙСТВОМ РАЦИОНАЛЬНОГО СТАТИЧЕСКОГО • ПЕРЕРАСПРЕДЕЛЕНИЯ ЗАДАЧ .......".........................................................116
6. ЗАКЛЮЧЕНИЕ .....................:............................. 121
6.1. Основные результаты работы ..................:...........121
6.2. Отражение основного содержания диссертации в публикациях .............................................125
6.3. Личный вклад *........ . . ....................................................133
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время информационно-вычислительные и управляющие системы становятся неотъемлемой частью ответственных технических комплексов (технологические объекты, энергосистемы, авиакосмические системы, системы связи и др. ). Отказы таких систем приводят не только к снижению эффективности функционирования соответствующих комплексов, но и к их полной остановке сопровождающейся, большими материальными потерями, либо к авариям, часто с катастрофическими последствиями. Поэтому чрезвычайно высокая надежность, живучесть и безопасность таких систем - безусловное требование, предъявляемое при их разработке. Повышение надежности элементной базы, хотя и играет важную роль в решении данной проблемы, не может реиить ее полностью вследствие чрезвычайно быстрого роста сложности подобных систем. Ренение проблемы лежит на пути создания отказоустойчивых систем, т.е. систем, способных выполнять свои функции (возможно, с допустимой потерей качества) при отказах определенного числа элементов. Отказоустойчивость - базовое свойство системы, позволяющее обеспечить ее высокую надежность, живучесть и безопасность.
Современные информационно-вычислительные. и управляющие системы являются, как правило, функционально распределенными параллельныки системами, основу которых составляет некоторая совокупность взаимосвязанных процессорных нодупсО (ПН), выполняющих множество параллельных- взаимодействующих процессов (задание системы). Традиционные методы построения отказоустойчивых систем, такие как резервирование, голосование и др., не учитывают Функциональную и структурную распределенность современных параллельных вычислительных систем (ПВС). При высоких требованиях к надежностным показателям систем и их непрерывно возрастающей сложности это приводит к чрезмерной избыточности и не позволяет удовлетворить указанные требования при заданных стоимостных, аппаратурных, весо-габаритных, технологических и других ограничениях.
В связи с этим чрезвычайно актуальной является проблема разработки новых концепций построения отказоустойчивых ЛВС, которые учитывали бы их структурную и функциональную распределенность и позволяли бы наиболее полно использовать естественные избыточные ресурсы, являющиеся следствием такой распределенности.
В настоящее время в области отказоустойчивости распределенных систем наиболее перспективным является направление исследований, основанное на использовании свойства постепенной деградации системы и реконфигурации ее структуры, к которому относится данная диссертация. За рубежом работы в направлении, близком к развиваемому в диссертации, были начаты на 5-6 лет позже (около 1986 г.) и ставили более ограниченную задачу, состоящую в разработке программных и аппаратных средств, позволяющих реализовать имеющуюся в распределенных системах возможность передачи задач отказавших ПМ неотказавиим. Сейчас такие исследования активно развиваются в ряде стран (США, Франция, ФРГ и др.), где имеются перспективные разработки отказоустойчивых систем, реализующие такую возможность. Однако, до сих пор в этих исследованиях и разработках не учитывается ряд исследуемых нами важных факторов, характерных для распределенных ПВС, таких как взаимосвязь отказоустойчивости со степенью параллелизма, характером взаимодействия процессов, дисциплиной обслуживания заявок и др. Задача разработки методов рационального (оптимизированного) перераспределения задач (ПЗ) при отказах ПМ, которые позволяли бы проектировать системы с требуемыми значениями показателей отказоустойчивости, качества функционирования и стоимости при наиболее полном использовании имеющихся ресурсов, в таких разработках не ставилась. Не исследовалась и проблема восстановления функционирования системы во взаимосвязи с рациональным ПЗ.
Таким образом, несмотря на ряд исследований в данном направлении, решающих те или иные частные задачи построения отказоустойчивых ПВС с учетом потенциальной возможности перераспределения задач с целью сохранения работоспособности системы при ее допустимой деградации, к настоящему времени отсутствует целостная концепция построения отказоустойчивых ПВС на
базе этих свойств.
Данная работа посвящена актуальной проблеме разработки именно такой концепции и базирующихся на ней методов для ПВС, выполняющих фиксированные комплексы задач, что наиболее характерно для систем управления технологическими и другими объектами, функционирующих в реальном времени.
Цель» диссертации является разработка концепции и комплекса методов обеспечения отказоустойчивости ПВС, в основе которых -адаптация системы к отказам процессорных модулей, достигаемая с помощь» рационального . изменения стратегии распределения выполняемых системой задач при отказах ПЫ и последующего восстановления вычислительных процессов. Эти методы позволяют наиболее полно использовать как естественные избыточные ресурсы, кмекдаеся в распределенных системах, так и технические средства, специально вводимые в mix для повышения надежности, и сохранить работоспособность системы при отказах ПН, возможно, при заранее обусловленном снижении качества функционирования (деградации).
Основные задачи диссертации, решаемые для достижения указанной цели:
1. Разработка общей модели отказоустойчивой ПВС с изменяющейся (адаптивной) стратегией распределения задач (ОУ ПВС/РЗ) и ряда частных моделей ОУ ПВС/РЗ, конкретизирующих класс выполняемого системой задания, тип стратегии распределения задач, набор показателей качества функционирования и отказоустойчивости и ряд других параметров. .
2. Разработка системы показателей для оценки ОУ ПВС/РЗ.
3. Формализация постановки задачи рационального статического перераспределения задач, направленного на достижение отказоустойчивости системы (РСПЗ/ОУ). и разработка схемы классификации возможных методов РСПЗ/ОУ.
4. Разработка методов РСПЗ/ОУ для ПВС, выполняющих фиксированное множество задач с явно не заданными взаимными связями.
5. Разработка методов РСПЗ/ОУ для ПВС, выполняющих фиксированное задание, представляющее собой множество взаимосвязанных задач и описываемое с помощью современных моделей параллельных взаимодействующих процессов (включая алгоритмы
построения соответствующих планов распределения задач и расписаний их выполнения).
6. Разработка методов РСПЗ/ОУ для конкретных типов распределенных систем управления (РСУ), таких как территориально распределенные, информационно-управляющие, конвейерные РСУ, децентрализованные системы автоматического регулирования, системы обработки файлов данных.
7. Исследование проблемы восстановления процессов в ОУ ПВС/РЗ в ее взаимосвязи с построением рационального статического ПЗ/ОУ и разработка методов корректной реактлвизации параллельных взаимодействующих процессов при перераспределении их вследствие отказов ПМ.
8. Разработка принципов построения программных средств, реализующих механизм. восстановления процессов в ОУ ПВС/РЗ со статическим ПЗ/ОУ.
9. Разработка основных принципов автоматизированного проектирования ОУ ПВС/РЗ со статическим ПЗ/ОУ.
Методы исследований. Для решения указанных задач использованы методы теории вычислительных систем, дискретной оптимизации, теории массового обслуживания, теории параллельных вычислительных процессов, теории расписаний.
Научная новизна работы заключается в разработке целостной концепции обеспечения отказоустойчивости параллельных вычислительных систем на основе рационального изменения стратегии распределения выполняемых системой задач, обеспечивающего адаптацию системы к отказам процессорных модулей и направленного на оптимальное использование внутренних ресурсов ПВС, обусловленных ее функциональной распределенностью, и в разработке на базе этой концепции систематизированного комплекса методов и алгоритмов обеспечения отказоустойчивости ПВС. выполняющих фиксированные задания.
В частности, в диссертации впервые сформулирована и решена задача разработки методов рационального (оптимизированного) перераспределения задач. позволяющих проектировать системы, обладающие требуемой (заранее заданной) отказоустойчивостью при оптимизации значений определенных показателей качества функционирования и выполнении требуемых временных и ресурсных
ограничений. Предложенная классификация потенциально возможных методов РСПЗ/ОУ, базирующихся на данной концепции, позволяет осуществлять целенаправленную разработку таких методов для различных классов ПВС.
Совокупность разработанных теоретических положений может рассматриваться как значительный вклад в развитие перспективного научного направления - обеспечения отказоустойчивости вычислительных систем на основе использования внутренних ресурсов распределенных систем и их потенциальной способности к перераспределению задач и•реконфигурации структуры.
Практическая ценность работы. Полученные в диссертации результаты позволяют научно обоснованно решать важные задачи, возникающие при разработке высоконадежных, живучих и безопасных распределенных информационно-вычислительных и управляющих систем, такие как выбор наиболее рационального метода обеспечения отказоустойчивости разрабатываемой системы данного конкретного типа, разработка архитектуры отказоустойчивой ПВС и ее аппаратной структуры, разработка системного программного обеспечения, поддерживающего рациональное ПЗ и корректное восстановление процессов при отказах ПМ. Характерными представителями подобных систем являются системы управления ответственными объектами, такими как технологические комплексы в различных отраслях промышленности, энергосистемы (в частности, АЭС), системы транспорта и связи, магистральные трубопроводы, авиакосмические системы, судовые энергетические и навигационные системы, системы запиты окружающей среды, в частности, экологического мониторинга.
Комплекс предложенных методов обеспечения отказоустойчивости ПВС может применяться на стадии проектирования отказоустойчивых систем, удовлетворяющих заранее заданным требованиям к показателям качества функционирования, отказоустойчивости и стоимости. При этом предложенные в работе общие методы для систем достаточно широких классов являются основой для разработки частных методов, алгоритмов и программных средств для конкретных систем таких типов, как территориально распределенные управляющие и информационные системы, строящиеся на основе ЛВС, вычислительные комплексы распределенных АСУ ТП, однородные процессорные массивы. В работе предложен также ряд частных методов для РСУ некоторых
широко распространенных типов, которые могут применяться непосредственно на стадии проектирования соответствующих систем (для чего разработаны методические инструкции).
Группа предложенных методов, базирующихся на модели параллелизма СЭР, ориентирована на применение при проектировании высокопроизводительных отказоустойчивых систем массового параллелизма, предназначенных для обработки больиих объемов информации, которые строятся на основе транспьютерных модулей, являвшихся современной элементной базой многопроцессорных систем.
Практическое применение результатов работы позволяет повысить эффективность использования аппаратных ресурсов П8С и существенно укеньЕить аппаратную избыточность, специально вводимую для достижения требуемого уровня отказоустойчивости ПВС (за счет использования естественной избыточности распределенных ПВС и устранения необходимости введения избыточных ПМ или минимизации их числа). Этим достигается повышение эффективности использования избыточности, снижение стоимости ОУ-системы, улучизние ез весо-габаритных характеристик. Для определенных классов систем (в частности, бортовых) предложенные методы позволяют обеспечить требуемый высокий уровень отказоустойчивости системы без нарушения жестких требований к весо-габаритным характеристикам, что не всегда достижимо традиционными методами резервирования.
Предложенная концепция и комплекс методов могут служить основой для разработки интеллектуальной САПР (экспертной системы), предназначенной для проектирования ОУ ПВС, адаптирующихся к отказам процессорных модулей путем изменения стратегии ПЗ.
Данная концепция и методы, разработанные на ее основе, обладают определенной универсальностью, что делает возможным их применение (при определенной адаптации) для обеспечения надлежащего функционирования при чрезвычайных ситуациях не только вычислительных систем, но и систем другой природы, таких как административные, производственные, экономические и др.
Достоверность научных положений, выводов и практических рекомендаций подтверждается корректным обоснованием и анализом математических моделей исследуемых структур и процессов, наглядностью технической интерпретации и результатами практического использования предложенных методов.
Реализация результатов работы. Результаты работы использованы при проектировании и разработке ряда распределенных управляющих систем в следующих организациях:
- НПО "Аврора" - при разработке ЛВС АСУ борьбы за живучесть объекта, обладающей повышенными характеристиками отказоустойчивости и живучести;
- НПО "Нефтегазавтоматика" (г. Москва) - при проектировании территориально распределенных АСУ ТП магистрального транспорта газа;
- НПО "Буревестник" (в наст, время - НИИ "Система" НПО "Электронмаш", г.Санкт-Петербург) - при разработке отказоустойчивых структур многомашинных систем контроля и управления газоперекачивающими агрегатами магистральных газопроводов;
- Ново-Бакинский нефтеперерабатывающий завод (г. Баку) - при разработке и технической реализации оказоустойчивой децентрализованной системы автоматического регулирования, предназначенной для управления непрерывными технологическими процессами первичной переработки нефти и каталитического крекинга (система сдана в проыыпленную эксплуатации в 1990 г. );
- ОКБ "Союз" (г. Харьков) - при разработке отказоустойчивой многомашинной автоматизированной системы управления связью;
ОКБ "Марс" (г. Москва) - при разработке многотранспьютерной системы для отработки бортовых программ.
Кроме того, результаты работы использованы при разработке устойчивой интеллектуальной системы связи, проводимой совместно с рядом организаций по заказу Минобороны РФ в рамках НИР "Травник-АН". •
Аппробация работы. Основные результаты работы докладывались и обсуждались на следующих научных форумах.
1. Международные семинары и конференции.
- 5-я Ежегодная Европейская конференция по вычислительной технике - С0МРЕиИ)-91 (Болонья- 1991).
- 13-й Симпозиум по микропроцессорам и микропрограммированию - ЕШШСЮ-в? (Портсмут - 1987).
- 15-й Симпозиум по микропроцессорам и микропрограммированию - EUR0MICR0-89 (Кельн- 1989).
- Международный симпозиум IFAC "Обнаружение отказов и безопасность при управлении техническими процессами SAFEPROCESS-94 (Хельсинки - 1994).
- Международные конференции "Отказоустойчивые системы и диагностика" - FTSD (София 1984, Котовице - 1985, Варна - 198?, Варна -1990;
- 9-й Конгресс Международной конфедерации по измерительной технике (IMECO), Зап. Берлин -1982;
Международный симпозиум IFAC "Распределенные интеллектуальные системы" - DIS-88 (Варна - 1988).
- 3-й Международный симпозиум "Мультимикропроцессорные системы" - MMPS-89 (Штральзунд - 1989).
- Международный семинар по региональным сетям ЭВМ - К0МПАК'91 (Рига - 1991).
- Советско-итальянские семинары "Сети пакетной коммутации ЭВМ" (Москва - 1982, Сочи - 1984, Суздаль - 1986, Катанья - 1988, Ленинград - 1989, Москва -1990).
Советско-болгарские семинары "Теория построения распределенных систем управления" (Москва - 1987, София - 1990).
- Советско-западногерманский семинар (Москва - 1990).
- Совещания экспертов Академий .наук соцстран по комплексному научному проекту "Отказоустойчивые системы" - КНП-6 (Берлин - 1988, Винница - 1989, Берлин - 1989).
- Международный форум информатизации - МФИ-92 (Москва - 1992).
2. Всесоюзные и всероссийские семинары и конференции.
Всесоюзные симпозиумы. "Логическое управление с использованием ЭВМ" (Каунас - 1981, Ижевск - 1987, Орджоникидзе -1988, Симферополь - 1989, Симеиз - 1990, Феодосия - 1991).
- Всесоюзные симпозиумы по проблемам управления на сетях- и узлах связи (Переславль-Залесский - 1980, Винница - 1985).
- Всесоюзный семинар МДНТБ "Применение микропроцессоров в системах управления" (Москва -1982).
- 8-й Симпозиум по проблеме избыточности в информационных системах (Ленинград - 1983).
- 3-е Всесоюзное совещание "Надежность и эффективность АСУТП и АСУП (Суздаль - 1984).
3-е Всесоюзное совещание "Высокопроизводительные вычислительные системы" (Таллин - 1988).
- 4-е Всесоюзное совещание "Надежность, живучесть и безопасность автоматизированных комплексов (Суздаль - 1988).
- 1-й Всесоюзный семинар "Логические методы построения однородных и систолических структур (Москва - 1988).
- Всесоюзная школа-семинар по вычислительным сетям (Алма-Ата - 1988).
- 3-я Всесоюзная конференция "Локальные вычислительные сети" (Рига - 1988).
- Всесоюзный научно-технический семинар "Космонавтика и экология: концепции и технические решения" (Туапсе - 1990).
1-я Конференция советской транспьютерной ассоциации (Звенигород - 1991).
- 5-е Совещание по распределенным вычислительным системам и сетям (Калининград - 1992).
- 2-я Конференция "Информационные сети и системы" - КИСС-93 (С.-Петербург - 1993).
Публикации. По теме диссертации опубликовано 65 печатных работ.
1. КОНЦЕПЦИЯ ОБЕСПЕЧЕНИЯ ОТКАЗОУСТОЙЧИВОСТИ ПАРАЛЛЕЛЬНЫХ
ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ (ПВС) НА ОСНОВЕ РАЦИОНАЛЬНОГО ИЗМЕНЕНИЯ СТРАТЕГИИ РАСПРЕДЕЛЕНИЯ ВЫПОЛНЯЕМЫХ ЗАДАЧ
1. 1. Отказоустойчивость - базовое свойство высоконадежных, живучих и безопасных вычислительных систем
Надежность вычислительной системы, как и любого технического объекта, принято рассматривать как ее свойство выполнять определенные задачи в определенных условиях эксплуатации. Это сложное свойство, в свою очередь, представляется как совокупность следующих свойств: безотказность, ремонтопригодность,
долговечность и сохраняемость. В данной работе затрагиваются только те аспекты надежности вычислительных систем, которые связаны с их безотказностью.
отказом системы называют событие, вызывающее ее переход в неработоспособное состояние, а безотказностью - свойство системы не допускать отказов, т.е. непрерывно сохранять работоспособное состояние в течение определенного времени.
Отказоустойчивость трактуется нами как свойство системы сохранять работоспособное состояние при отказах какого-либо непустого подмножества ее элементов. Соотношение понятий безотказности и отказоустойчивости определяется тем, что система остается безотказной в течение определенного' времени (т.е. сохраняет работоспособное состояние) как в том случае, когда в течение этого времени не происходит отказ ни одного из ее элементов, так и в том случае, когда происходят отказы только таких подмножеств элементов, по отношению к которым система отказоустойчива. Таким образом, оба понятия характеризуют способность системы сохранять работоспособное состояние, но при разных условиях; безотказность - при условии как отсутствия, так и наличия отказов элементов, отказоустойчивость - только при условии, что происходят отказы элементов.
Существуют два пути повышения безотказности вычислительных систем: (1) увеличение вероятности сохранения системой начального состояния, соответствующего отсутствию отказов всех ее элементов (что достигается с помощью повышения безотказности элементов);
(2) построение систем, обладающих свойством отказоустойчивости и называемых отказоустойчивыми системами (ОУ-систеиани). Второй подход является одним из основных при построении систем, обладающих не только высокой надежностью, но и повышенными характеристиками живучести и безопасности.
Живучесть в настоящее время трактуется как свойство системы выполнять заданные функции (с сохранением в допустимых пределах заданных эксплуатационных показателей) при неблагоприятных внешних воздействиях. Под безопасностью понимают свойство системы не допускать аварий в • течение заданного времени. Авария рассматривается как катастрофическое событие, приводящее к опасным последствиям для управляемого объекта, обслуживающего персонала и окружающей среды и являющееся следствием перехода системы в опасное состояние в результате отказов ее элементов. С точки зрения обеспечения безопасности допустимо невыполнение системой требуемых функций вследствие ее перехода в неработоспособное состояние, в том случае, если это состояние не является опасным. Исследование проблем обеспечения высокой живучести и безопасности систем представляет собой самостоятельное направление, хотя и тесно связанное с проблематикой надежности.
Отказоустойчивость является базовым свойством, обеспечение которого необходимо при построении как высоконадежных, так и живучих и безопасных систем.
1.2. Модель отказоустойчивой ПВС с изменяющейся стратегией распределения задач (ОУ ПВС/РЗ)
Параллельную вычислительную систему рассматриваем в общем виде как совокупность процессорных модулей, взаимодействующих с помощью некоторой системы связи. Под процессорным модупеи (ПМ) понимаем вычислительное устройство, предназначенное для решения прикладных и, возможно, системных задач и содержащее один или несколько процессоров, индивидуальную память и устройства интерфейса. Система может иметь общие ресурсы (банки данных, долговременную память и др. ) и взаимодействует с внешней средой (объекты управления, операторы и др. ) с помощью выделенных для этого ПН, возможно, решающих также и прикладные задачи.
задание Г системы, трактуется как известное множество задач ~ » <1М, 1 для которого заданы требования к порядку их выполнения и взаимосвязи, определяющие класс задания Ф.
Нами рассматривается класс таких систем, которые в течение определенного достаточно длительного времени выполняют (возможно, многократно) либо фиксированное задание, либо известное множество заданий.
Свойство отказоустойчивости рассматривается нами в тесной связи с понятием качества функционирования си стены. Последнее
характеризуем векторным показателем К = К.....К . где К , 1 = 1,и,
- частные показатели, оценивающие отдельные свойства системы. Полагаем, что известно конечное множество значений каждого показателя К , допустимых для системы с точки зрения предъявляемых к ней требований. Выделим среди них два значения: номинальное - К°, соответствующее стандартным требованиям к функционированию системы в "штатном" режиме (т.е. без каких-либо нарушений), и граничное -К*, т. е. наименьшее допустимое значение при любых отклонениях от "штатного" режима (в предположении, что ухудшению любого свойства соответствует уменьшение значения соответствующего показателя К ).
Полагаем, что любое значение векторного показателя К определяет некоторое состояние системы К14 = называемое
состояниеи качества или К-состоянием. Пусть Л = (Кй) - конечное множество всех возможных К-состояний системы.
Назовем;
областью работоспособности систепы (Р-областыо) подмножество Л с Л , Л « (К*1), таких К-состояний К11« К^" ...,
И К Я В В 1 »
для каждого из которых справедливо К° > > К*, 1 = 1,и;
- работоспособный К-состоянием - любое К-состояние е Л ;
- неработоспособным К-состоянием - любое е Л ;
- номинальный и граничным К-состояниями - соответственно состояния К°- К".....К° и К"» К5.....К^ , где хотя бы одно
1 » 1 а
значение К^ « .
Отказом систе читаем событие, вызывающее ее переход в любое из неработось яых К-состояний.
Введенные понятия позволяют формально определить системы с посаепенноО деградацией, как системы, Р-область которых содержит,
кроме номинального, такте и другие К-состояния, соответствующие работе с ухудшенным, но допустимым качеством.
Полагая, что элементы системы подвержены отказам, определим ее структурное состояние (я-состояние) как = о ,...где п -число элементов системы, о е {0,1 У, а » 0, если 1-й элемент
I I
работоспособен, 1, если этот элемент отказал, 1 » 1,п.
Исследуем проблему отказоустойчивости ПВС, рассматривая в качестве элементов, подверженных отказам, процессорные модули (ПИ), и полагая, что отказавший ПМ не способен выполнять никакие задачи, однако его отказ'не влияет на взаимодействие других ПМ,. осуществляемое с помощью системы связи. В этом случае каждый компонент вектора соответствует ПМ М( . Назовем начальник э-состояние б" ■ 0,0,...,0; искаженный - любое б^* б°, конечный - З1 = 1,1.....1.
Пусть Л^ - (э^}, 4 * 1,...,2", - множество всех возможных
б-состояний системы. Формально считаем, что система, находящаяся в
любом б-состоянии. функционирует с определенным качеством,
которое оценивается векторным показателем К. Следовательно,
каждому б-состоянию всегда можно поставить в соответствие
определенное К-состояние, т.е. всегда существует некоторое
отображение $ множества Л всех э-состояний в множество Лг всех
К-состояний, т.е. <?:Л -Л . Если задана Р-область, то любое
* к
отображение ф разбивает множество /1 на два непересекающихся
подмножества: Л^ = Б I/ Б, где й = (эМ - структурная область работоспособности - подмножество работоспособных з-состояний, т.е. таких, каждое из которых отображается в некоторое работоспособное К-состояние; Б = {з^} - подмножество неработоспособных 5-состояний.
Поскольку только состояния подмножества Б соответствуют отсутствию отказа системы, то очевидно, что система является отказоустойчивой в том и только в том случае, когда это подмножество содержит, кроме начального, хотя бы одно из искаженных б-состояний. В противном случае система отказоНЕустойчива.
Следовательно, для того, чтобы система была отказоустойчивой, отображение Л^ должно быть таким, при котором в заданную
Р-область Ля с Л отображается некоторое подмножество Б структурных состояний, включающее, кроме начального, хотя бы одно
искаженное Б-состояние. Иначе говоря, отображение <р должно обеспечить реализацию отображения (р:Б - , где Б = Б°и Б", Б"= (бг ) - некоторое непустое подмножество искаженных
и
работоспособных б-состояний. Достигаемая степень
отказоустойчивости зависит от состава подмножества Б, а качество функционирования системы - от принятого отображения <р. Поскольку значения частных показателей качества функционирования системы, а следовательно, и векторного показателя К, зависят от множества задач, выполняемых в каждом состоянии б^ , и оу распределения их по работоспособным ПМ, то отображение ч> определяется принятой стратегией распределения задач (СРЗ) между работоспособными ПМ для каждого состояния б^ е Б, где б^ е ).
Как известно, распределение задач (РЗ), т.е. назначение каждой задачи в тот • или иной ПМ, необходимое для выполнения задания, может быть статический или динамическим.
При статическом рз его стратегия задается отображением О" множества задач в множество Н" работоспособных 1Ш,
соответствующее Б-состоянию б^, т.е. при динамическом
рз - определенным алгоритмом РЗ для состояния б^.
Отображение Б" описывается планом РЗ 0"» Цс!^ 8, (1^6(0,1), (1^= 1, если в состоянии задача и ' назначается для выполнения в ПМ Н1, с!^ - 0 в противном случае.
Для фиксированного б^ различные СРЗ приводят к различным значениям частных показателей качества и, следовательно, к отображению этого б-состояния в различные К-состояния. При проектировании отказоустойчивой системы задача состоит в том, чтобы сформировать такое подмножество Б и построить такое отображение ф, которые гарантируют выполнение поставленных требований к отказоустойчивости. Построение требуемого отображения 9 сводится к нахождению реализующей его стратегии рз х^ для каждого состояния б^, которая в общем случае различна для разных состояний зг. Следовательно, реализация в системе построенного отображения ф требует, в общем случае, изменения по определенным правилам стратегии РЗ при переходах системы между работоспособными Б-состояниями, которые вызываются отказами и восстановлениями ПМ. Такое изменение стратегии рз. может базироваться на статическом или на динамическом перераспределении задач (пз) [15].
Статическое пз состоит в том, что оптимальные или рациональные планы РЗ, отвечающие заданным требованиям к отображению у, для всех э-состояний заданного или найденного подмножества Б, включая начальное, находятся до начала выполнения системой задания, т.е. при еа проектировании или при подготовка к выполнению конкретного задания. Все задачи, назначаемые для решения в некоторый ПМ М! в соответствии с каждым из зтих планов, в совокупности образуют множество {1). Задачу будем считать
размещенной в ПМ , если , независимо от того, хранится ли
программный модуль этой задачи в памяти ПН М , или загружается в нее по мере необходимости.
Основных назовем такое размещение задач, при котором каждая из задач и е Й° (Называемых основными) размещена в одном и только в одном ПМ. Это размещение совпадает с начальным планом РЗ для состояния и задается двоичной матрицей X » [5, где х^- 1, если задача и е , и х^» 0, если в
дополнительное разнесение У " ¡¡у^(I резервных копий задач
формируется путем совмещения планов РЗ Б" - ¡<1^| для всех искаженных состояний э е ¡3" по правилу:
у - V (Iй , (а)
1 ь I ! I
и
где V - символ логической операции "дизъюнкция".
Отказоустойчивое размещение задач (ОУРнЗ) 2 » (| строится на основе размещений К и У по правилу: ^ У]г-
Оно приводит к резервированию задач, т. е. к размещению в различных ПМ нескольких резервных копий одной и той же задачи, причем в любом ПМ размещается не более одной копии каждой задачи.
В начальном б-состоянип выполняются только основные задачи в соответствии с начальным планом РЗ. После перехода системы (вследствие отказов некоторых ПМ) в определенное искаженное состояние она начинает функционировать в соответствии с планом РЗ для данного состояния. Это предполагает активизацию в работоспособных ПМ тех копий задач, которые назначены им в соответствии с данным планом, и их выполнение наряду с основными.
Аппаратные и программные ресурсы системы, необходимые для ее функционирования при наличии только основного РмЗ (включая ресурсы, требуемые для хранения и выполнения прикладных программ конкретного задания), назовем основными или неизбыточныии ресурсами, а систему, реализующую только основное РмЗ, неиэбыточной системой. Все ресурсы, не относящиеся к основным, назовем избыточными.
Очевидно, для реализации в системе дополнительного РмЗ и организации ПЗ при отказах ПМ необходимы избыточные аппаратные и программные ресурсы, к которым относятся: дополнительная индивидуальная память каждого ПИ для хранения программных модулей копий задач, размещенных в каждом из них; дополнительная общая память системы для хранения программных модулей всех задач множества (для случая такой организации ПЗ, при которой копии задач загружаются в память соответствующих ПМ из общей памяти только при переходах системы в искаженные работоспособные состояния); дополнительные устройства интерфейса и, возможно, каналы связи, требуемые для передачи дополнительных потоков информации, возникающих при реализации ПЗ, аппаратура контроля и диагностики отказов ПМ; дополнительные средства системного программного обеспечения (для реализации функций контроля и диагностики, идентификации искаженных состояний, восстановления функционирования системы после отказов ПН).
При динамическом пз оптимальное или рациональное распределение задач для любого отыскивается по предварительно разработанному алгоритму в процессе функционирования системы при каждом переходе ее в соответствующее состояние (возможно, с учетом предшествующей траектории ее б-состояний й распределения задач при ее прохождении). Программы выполнения распределенных задач загружаются в память надлежащих ПМ из памяти системы в соответствии с найденным РЗ. Для начального з-состояния в этом случае может использоваться как статическое, так и динамическое РЗ. Динамическое изменение стратегии РЗ состоит, в общем случае, в использовании различных алгоритмов динамического РЗ для разных состояний или групп таких состояний, причем соответствующие алгоритмы РЗ могут быть заранее сопоставлены с определенными группами состояний.
Выбор способа изменения стратегии РЗ (статического или
динамического) диктуется типом системы и предъявляемыми к ней
требованиями, в частности, режимом работы, наличием или
отсутствием общей памяти, ограничениями на допустимое время
восстановления функционирования системы после отказов ПМ, на
емкость памяти каждого ПМ и общей памяти и др.
Векторый показатель качества функционирования системы
характеризует выполнение данной системой данного задания, т.е.
значения этого показателя зависят как от характеристик системы
(как совокупности аппаратных и программных средств), так и от
характеристик задания, а также от организации его выполнения, в
частности, от распределения задач.
Выделил две группы важнейших частных показателей качества
функционирования системы г 15):
{ф >, Ь - 1,в - функциональные показатели, оценивающие ь
функциональные возможности системы, т. е. множество задач, которые система способна выполнять в течение заданного интервала времени или в определенном в-состоянии, возможно, с учетом их сложности, важности и других параметров, кроме временных.
<8 ), д =1,0 - временные показатели, оценивающие время выполнения системой отдельных задач или всего задания в целом.
Тогда векторный показатель качества функционирования системы представляется з виде:
КФ9' {Фг"--> V 9>.....0о (1'2Л)
Выделенным группам показателей соответствуют два вида
деградации и два вида отказов системы:
(1) функциональная деградация, которая выражается в
уменьпении значений показателей группы (Фь> и приводит к
Функциональному отказу, т. е. к наступлению события Рф = (Ф* < Ф* >
хотя бы для одного Ф е < Ф >, где Ф' , Ф* - текущее и граничное ь ь ъ ь
значения показателя Ф . -
ь
(г) вренепная деградация, которая выражается в снижении
значений показателей группы <9 > и приводит к вреыенноиу отказу,
я , .
т.е. к наступлению события Ра - <8 < 9 > бхотя бы для одного
. н я . я 9 е {9 >, где 9,9 - текущее и граничное значения
я я я я
показателя 9 .
я
Полный отказ 'системы определим как событие 7 - ? и
Основываясь на приведенном содержательном рассмотрении, введем общую формальную модель отказоустойчивой ПВС с изменяющейся стратегией распределения задач, позволяющую выделить для исследования различные типы ОУ ПВС путем порождения частных моделей.
Модель ПВС, не учитывающую надежностных свойств системы, определим как:
А" » {Н°, , 1°, Г° (Ф), Т, х°>, (1.2.2)
где: Н°- множество ПМ; - множество "общих ресурсов; 1° - система связи; Г°(Ф) - задание, выполняемое системой, где Ф - класс задания; Т - временной режим выполнения задания; х° - Начальная стратегия РЗ.
Определим компоненты модели. множество пн - Н°- <М >,1«Г,п: задано множество типов ПМ и разбиение множества Н° на подмножества ПМ различных типов с указанием их технических параметров, в частности, выделены подмножества однопроцессорных и многопроцессорных ПМ.
Множество общих ресурсов - }, <=1,2: заданы
подмножества ресурсов различных типов.
Система связи - V : задан тип системы связи*' и множество ее компонентов : 1° - система с сильными связями (т.е. система межсоединений, построенная на основе оперативной памяти или шинных структур различного вида); 1° - система со слабыми связями (т. е.
Ь
сетевая структура того или иного вида, основными компонентами
которой являются каналы передачи данных и специальные
коммуникационные модули. Может быть использована и более детальная
классификация систем связи ПВС.
задание ~ Г°(Ф) описывается на языке спецификации
вычислительных процессов, соответствующем классу Ф выполняемого
задания. Рассматриваем следующие 2 класса заданий:
- класс I - фиксированное множество задач с явно не заданными
взаимосвязями; включает подклассы: 1с - множество случайных задач,
т.е. задач, выполняемых в соответствии со случайными заявками от
внешней среды (заданы характеристики потоков заявок, дисциплина
обслуживания заявок в системе и соответствующие параметры);
*)См., например, монографию Б. А. Головкина "Параллельные вычисли' тельные системы". М. : Наука, 1980.
Ip - множество регламентированных (периодических) задач,
разбитое на непересекающиеся подмножества ЙЕ, е -1,Е; для каждой задачи Uj б ПЕ задан регламент ее выполнения: период выполнения 0_, момент инициализации - г", момент директивного
С J
завершения - т* (не позже которого задача должна быть завершена) и длительность выполнения -т ;
- класс С - фиксированное множество взаимосвязанных задач, т. е. задач с явно заданными взаимными связями по управлению и/или по данным, определяющими упорядоченность их выполнения во времени и возможный параллелизм (задание описано с помощью какого-либо из формальных языков спецификации параллельных взаимодействующих процессов: граф выполнения задач, сети Петри, модель csp Ч. Хора и ЛР- ) •
Реяип выполнения задания - Т: синхронный - Т , асинхронный -Та (заданы соответствующие параметры).
Стратегия распределения задач - х°. При статическом РЗ стратегия Х° задается отображением множества всех задач данного задания в множество всех ПМ, т.е. х° = D°:Q°-H°; при динамическом - алгоритмом РЗ для состояния s°.
ОвхазоНЕустойчивая система описывается моделью А° и характеризуется значением К0 показателя качества.
Отказоустойчивую ПВС с изменяющейся стратегией распределения задач (ОУ пвс/рз) определим как объект, описываемый набором:
aft= (HFT w iv дг,т tiV rV ггт(ф), т. x°ft vft(x>>, <1.2.3)
где Н", WFT, IFT - компоненты, аналогичные соответствующим компонентам модели А° (в общем случае HF£ Н°, WFT* W°, 1°, в
частных случаях возможно совпадение этих компонентов для обеих моделей); Дгт- тип элементов системы, отказы которых принимаются во внимание при исследовании ее отказоустойчивости, где AFTe (А , Д , А ), Д - процессорные модули, Д , Д - элементы,
Н W 1 Н Ч I
соответственно, общих ресурсов и системы связи; ПГ- <f, /, fr,..} -набор атрибутов, характеризующих надежностные свойства элементов: f - вид отказов (внезапный, постепенный, перемежающийся, сбой), /, vr - законы распределения потоков отказов и восстановлений элементов и др.; RFT- вид показателей отказоустойчивости системы.
Полагаем, что ОУ-система Агт выполняет то же самое задание Ггт(Ф) » Г°(Ф) и в том же режиме Т, что и система А", к для обеих систем используется один и тот же показатель качества функционирования К с заданными номинальным К° к граничным К* значениями; хоГТ - начальная стратегия рз, т.е. стратегия РЗ для начального Б-состояния ОУ-системы, которая может совпадать (но нэ обязательно) с х" в модели - А°; Угт(х) - закон изменения стратегии РЗ при отказах элементов типа Лгт.
В работе исследуются ОУ ПВС/РЗ, описываемые моделью:
А"» <НГТ, Иг,т IV йг\ Пгг, ^'€{5.0}.
<( 1 Н р
Ггт(1,С), Т, хогт= Б?гт Угт(х) = ^т(0")}. (1.2.4)
Эта модель получается из общей модели Агт при следующих предположениях:
- ПВС состоит из однотипных однопроцессорных ПМ, т.е. Нгт= Н" (для соответствующей неизбыточной системы Н° » Н°);
- состав множества И" общих ресурсов и тип системы связи 1гт не конкретизированы (допускается а );
- учитываются только отказы пм (т.е. Дгт=
- набор Пгт= Пгт» {f , /, / (или > }, характеризующий
Р ВН Р Р О "
надежностные свойства элементов (т.е. ПМ), определяется, исходя из того, что (1) рассматриваются внезапные отказы ПМ, поток которых считается пуассоновским (т.е. = с известной интенсивностью а; (2) ПМ могут быть как восстанавливаемыми (при пуассоновскоы
законе восстановления, т.е. ?г » у г ), так и невосстанавливаемыми
р
(т.е. ?г « /о- 0);
- требования к отказоустойчивости системы задаются с помощь» показателей одного из следующих видов:
Б - требуемая структурная область работоспособности, которая может быть задана максимально допустимым числом <1 любых отказавших ПМ, не вызывающим отказа системы;
0 - некоторый вероятностный показатель отказоустойчивости системы, в качестве которого может использоваться тот или иной показатель классической теории надежности, определяемый при учете введенного выше понятия отказа системы;
- задание Ггт(Ф)» ГРТ(1,С) принадлежит к одному из описанных выше классов I или С, т.е. Ф е (Г.С);
- возможен как синхронный, так и асинхронный режим Т выполнения задания;
- начальная стратегия РЗ определяется статическим начальный
рз, т.е. х°Т7= О'7"1: Н" (которое может совпадать с Б0 );
- изменение стратегии РЗ при отказах ПН основывается на статическом ПЗ: Угт(х) = Vт(Б"), где Vт <0") - искомый закон
п ■
статического ПЗ, т.е. закон изменения распределения задач (отображения 0") при переходах системы внутри-заданной структурной области работоспособности Б.
Закон статического ПЗ задается набором отображений 0" задания системы Ггт=» Г° (т.е. множества й° задач) в множество Н" работоспособных ПМ для каждого из б-состояний заданной
структурной области работоспособности Б, т.е.:
У^ф") = Ш", е Б), где Н".
Функционирование системы характеризуется показателем вида Кф9 (1.2.1) при заданных значениях и Кф0.
Отказонеустойчивую (неизбыточную) систему А° будем называть прототипной для ОУ-системы Агт, если эти системы выполняют одно и тоже задание и для них одинаковы тип ПМ, общих ресурсов и системы связи, режим функционирования и тип начального ПЗ (статическое или динамическое). '
Задача обеспечения отказоустойчивости ПВС на основе изменения стратегии РЗ в общем случае, т.е. для модели Агт, состоит в том, что требуется найти и реализовать в системе такую процедуру Угт(х) изменения стратегии рз, которая обеспечивает выполнение поставленных требований к отказоустойчивости системы и, возможно, К значениям показателей качества функционирования и стоимости. Такую процедуру назовем рациональной.
Для систем, описываемых моделью Аг,т, требуется найти и
а
реализовать рациональную процедуру статического ПЗ \ЛТ<0"), для чего необходимо построить такое отказоустойчивое размещение задач (ОУРмЗ) множества 0°, которое обеспечивает выполнение поставленных требований к отказоустойчивости системы, а также к значениям
заданных частных показателей качества функционирования и показателей стоимости при известных временных и ресурсных ограничениях. Такое ОУРмЗ назовем рациональным.
Эта задача допускает различные постановки, каждая из которых определяется набором тех компонентов модели А", которые при данной постановке считаются известными.
Компоненты У/г! Т в общих постановках, рассматриваемых нами, не учитываются. Они конкретизируют тип исследуемой системы и могут быть учтены в частных постановках задачи для систем определенного типа. Полагая, что всегда известен набор компонентов
В = (Ггт(Ф), А", Пгт, Нгт>, (1.2.5)
Я р
выделим две постановки задачи, важные для практики построения ОУ-систем и обозначаемые (п) и (Б):
(п) найти рациональное ОУРмЗ при условии, что известно множество Н° ПМ (и, возможно, начальное рз 0°) для прототипной отказонеустойчивой системы, выполняющей известное задание Ггт= Г°;
(п) найти одновременно рациональное ОУРмЗ и множество Н" ПИ, требуемое для реализации этого ОУРмЗ при построении ОУ-системы, полагая неизвестными значения Н° и
При разработке ОУ-системы на основе предлагаемого подхода необходимо решить следующие основные проблемы.
1. Разработка рациональных процедур и -методов изменения стратегии РЗ при отказах ПМ. При использовании статического ПЗ решение этой проблемы требует разработки методов построения рациональных ОУРмЗ и соответствующих им планов РЗ для всех работоспособных з-состояний, а для определенных классов систем -также расписаний выполнения задач в каждом из таких состояний.
2. Разработка механизмов восстановления вычислительных процессов в системе после отказов ПМ на основе новых планов РЗ, соответствующих искаженным работоспособным г-состояниям. Нами исследованы эти две проблемы и предложены методы их решения.
Очевидно, что методы ПЗ и восстановления процессов могут применяться только после обнаружения отказов ПМ и идентификации структурного состояния системы во время ее функционирования. Для этой цели могут использоваться многочисленные существующие методы технической диагностики (см., например, монографии: Пархоменко П.П.
Согомонян Е. С. "Основы технической диагностики". И., Энергоиздат. 1981; Согомонян Е. С., Слабаков Е. В. *Самопроверяемые устройства и отказоустойчивые системы". М., Радио и связь, 1989 и др.)
1. 3. Показатели, используемые для оценки ОУ ПВС/РЗ
Оценивая систему векторным показателем качества
функционирования К = (10,1=1,11, учитываем, что произвольный частный показатель К1 может быть мгновенным, интервальным или интегральным. *)
Мгновенный частный показатель К[(t() характеризует качество функционирования системы (отражающее данное частное свойство) в данный момент времени t( и является характеристикой некоторой случайной величины rj (t ). Далее используется математическое ожидание этой случайной величины, т.е. среднее качество функционирования (в соответствии с данным частным свойством) в ноиена t » t :
в (t ) - Mtn (t )] (1.3.1)
ii ii
или коэффициент качества функционирования в момент t : . ь (t ) > в <t )/К°
i I I I I
где К°- номинальное значение частного показателя Kt.
Интервальный показатель Ks (Т), 1 » 1,и оценивает результат эксплуатации системы в течение определенного интервала времени Т (т.е. ее выходной эффект). В качестве интервального показателя используем математическое ожидание выходного эффекта (средний выходной эффект) за интервал времени'Т:
В((Т> - MtB(T)3 (1-3.2)
или коэффициент эффекта e(t) » Bi(Т)/Б°(Т), где В(Т) - случайная величина, значения В^(Т) которой определяются выходным эффектом системы, соответствующим каждой п-й траектории ее s-состояний в
•)См., например, монографии:
Дружинин Г. В. Надежность автоматизированных производственных систем. И. : Энергоатомиздат. 1986.
Панфилов И. В.. Половко А. М. Вычислительные системы. Ы. : Сов. радио. 1980.
течение интервала Т; В°(Т) - номинальное значение среднего выходного эффекта.
Интегральный показатель позволяет оценить качество
функционирования системы в средней при ее работе в течение длительного времени. В качестве такого показателя ■ могут использоваться средний выходной эффект или коэффициент эффекта, вычисляемые в предположении, что с начала эксплуатации системы прошло достаточно длительное время. Это предположение позволяет найти стационарные вероятности Р^ пребывания системы в каждом из
э-состояний э , = 1,2°. используемые для вычисления среднего выходного эффекта В . В предположении о пуассоновских. потоках отказов и восстановлений ГШ, принятом нами, они вычисляются как предельные вероятности состояний марковской цепи.
Мгновенные, интервальные и интегральные показатели определяются через условные показатели, характеризующие качество функционирования системы при условии, что она находится в определенном состоянии' е А .
Нами введены следующие условные показатели. 1. Функциональные показатели [10,151.
$ ункциокольная мощность системы Е Б-состоянии з^;
Е = У а , (1.3.3)
V
где с й° - множество задач, которые система способна выполнять в э-состоянии т.е. тех задач, которые могут назначаться для решения в работоспособные ПМ, соответствующие этому состоянию; Э, - вес задачи.11 . т.е. некоторая величина, оценивающая эту задачу с точки зрения ее важности для объекта управления или пользователя.
Вес задачи определяется значением выходного эффекта системы, обусловленного выполнением именно данной задачи; при этом используется либо оценка суммарного выходного эффекта за все время функционирования системы, либо среднее значение этого эффекта в единицу времени. Вес задачи измеряется в принятых единицах выходного эффекта или имеет стоимостное выражение. В тех случаях.
когда вычисление такого эффекта затруднено, веса задач могут назначаться с помощью экспертных оценок, выражаться в условных единицах и характеризовать относительную важность задач.
Для некоторых классов систем, в частности, для систем управления технологическими процессами, вес задачи может оцениваться той частью еыходного эффекта системы, которая теряется вследствие "отбрасывания" этой задачи, т. е. прекращения ее выполнения системой. Эта потерянная часть выходного эффекта оценивается некоторым показателем QJ, сопоставленным с каждой задачей и названным потерями С17,19]. Потери, так же как и выходной эффект, оцениваются суммарным значением за все время функционирования системы или средним значением в единицу времени и могут иметь стоимостное выражение.
потери системы в состоянии определяются как
' ¡Г 9,- , П.3.4)
где й"« П°\ С1" - подмножество задач, отбрасываемых в состоянии з^.
Расход, отнесенный к состоянии э , - показатель, учитывающий как поаери (в стоимостном выражении), возникающие вследствие отбрасывания в данном искаженном состоянии некоторых задач, так и затраты на избыточные ресурсы, обеспечивающие резервирование задач, т. е. возможность выполнения работоспособными Ш определенных задач отказавших ПМ (17,19). Отбрасывание любой задачи рассматриваем как ее размещение в фиктивном т И , не требующее никаких ресурсов и затрат. Тогда значение расхода для состояния Э который является следствием, размещения копии задачи и в одном из работоспособных ПМ этого состояния, при учете того, что этот ПМ может оказаться и фиктивны!.!, определяется как
У - У <Г 1 , ' (1.3.5)
' > ¿-ЛИ'
м16 %
где П - множество всех р-ПН в состоянии э , включая и фиктивный ПЯ Мг,Н-НиМ,Н- множество всех реальных р-ПН в состоянии з ;
Г V V I V с г V
Д^» с при М^ Ну 'и Д » 8J ПРН « т.е. при размещении
данной задачи в фиктивном ПМ; с^( - затраты на избыточные ресурсы, требуемые для размещения копии задачи Uj в ПМ М(, д^ - потери, возникающие вследствие отбрасывания задачи U (т.е. ее размещения в фиктивном ПМ Hf).
Полный расход, соответствующий состоянию :
j , Гг = у У d" J .
v Z- J ¿- L- J1 J»
и€й° иеа°ибн
i J i V
(1.3.6)
2. Временные показатехи (для данного состояния б^):
(а) векторный показатель Т^ с 10,19ь
Т" = {Т"), 1 = Тд , (1.3.7)
М I 'Ну'
где Т^ - среднее время пребывания в ПМ М1 заявки на решение любой из задач множества А*, назначенных этому ПМ в состоянии д^ - число работоспособных ПМ в состоянии б^;
(б) векторный показатель [173:
■Чц " «^Л 1 "Т*,. П.3.8)
где Т^ - суммарное время ремения в ПМ М^ всех задач множества ;
(в) векторный показатель Т^ c54i: Tv = <Т">, 1 - T~L,
и } J
и
" - " (1.3.9)
где■ ■ Т^ - среднее время пребывания в системе заявки на решение данной задачи ;
(г) загрузка ПИ Н в состоянии Б [24,541:
*v'« У Л1 t1* ,
« L- > j
(1.3.10)
V °Г
где л' - интенсивность потока заявок на решение задачи в ПМ
; среднее время решения задачи и '-в ПМ М^ в состоянии
(Д) Т - время однократного выполнения задания системой, находящейся в состоянии б^ (для заданий типа С - множество
взаимосвязанных задач).
На основе этих условных показателей определяются мгновенные, интервальные и интегральные показатели, используемые при разработке методов обеспечения отказоустойчивости ИБС.
Так, мгновенный показатель - среднее качество функционирования для данного момента t , определяется в соответствии с (1.3.1.) как
В (t ) » У" Р (t )В (1.3. И)
11 V I 1>
. еЛ
V ж
где P„(tj) - вероятность того, что в момент t система находится в состоянии s^; В^ - значение условного показателя качества функционирования для любого момента пребывания системы в состоянии s^. В качестве показателя В^ могут использоваться введенные выше условные показатели в предположении, что В^» Const в течение всего времени пребывания системы в данном состоянии.
интегральные показатели качества функционирования определяются, в предположении, что система работает в течение достаточно длительного времени, позволяющего вычислить стационарные вероятности Р^ ее пребывания в состояниях s^. Эти вероятности рассматриваются как доли времени нахождения системы в соответствующих состояниях от общего времени ее работы. Наиболее общим интегральным показателем является среднее значение выходного эффекта системы в единицу времени, определяемое (в соответствии с указанной монографией Г: В. Дружинина) как:
= у Р е . L— v у
я еЛ
V з
где е^ - условное среднее значение выходного эффекта в единицу времени при условии, что система находится в состоянии .
При разработке методов рационального ПЗ использованы следующие интегральные показатели, конкретизирующие показатель е. 1. Средняя функциональная мощность системы:
Е(Л ) - У Р Е . (1.3.12)
* и- " " » 6 Л
I' »
2. Средние потери:
R(A )
. е Л
(1.3.13)
Эти показатели оценивают средние (по всем состояниям значения функциональной мощности и потерь либо за все время работы системы, либо в единицу времени, в зависимости от того, как определены вес и потери q^, для каждой задачи. Последние могут оценивать выходной эффект от выполнения данной задачи и его потерю либо в единицу времени, либо за все вреия работа системы.
3. Средний расход за все время функционирования системы:
Д(Л ) » С(Л ) * R(A ) ,
ess
где C(At> - суммарные затраты на резервирование задач, вычисляемые при учете всего множества А возможных состояний системы; R(A ) -
s я
средние суммарные потери, возникающие в процессе функционирования системы вследствие ее переходов в те или иные состояния s^e As-Заметим, что R(A^) зависит от распределения предельных вероятностей Р^ пребывания системы в состояниях s^, тогда как С(Ли) не зависит от этого распределения. Нами показано [19i, что:
J(A )
I I
j 1
sign
V
Е dn } + z
I € Л s е Л
(1.3.14)
где djXe (0,1) - элементы двоичной матрицы D", описывающей план РЗ для СОСТОЯНИЯ S^; функция sign X « 1 при X » 1 И sign X = о при X» о, поскольку в данном случае значение X - £ всегда
неотрицательно. При длительном функционировании системы (например, в течение известного интервала Т) расход может оцениваться средним значением в единицу времени. Тогда потери д^ вследствие
отбрасывания каждой задачи и затраты i на размещение ее копии в определенном ПМ также относятся к единице времени.
■
стойкость системы оцениваем показателем вила: С = С ♦ С .
а г
где С - стоимость всех ресурсов системы, не зависящих от выполняемого задания и от размещения Ъ - иг 1 о задач по ПМ; Сг • -стоимость всех ресурсов, зависящих от указанных факторов.
Для отхазонгустойчивой (неизбыточной) системы, когда-
Ъ » X » Ях^и, не учитывая стоимости общих ресурсов, получим:
о о
п п I.
с°- с° С° - С° ♦ С - У" с + У" У" X с , * 1 * х ¿- р, ¿- >1 11
1=1 I •1 1 а 1
гдб п°- число ПМ в отказонгустойчивой системе; с - составляющая
Р1
стоимости ПМ М , не зависящая от выполняемых им задач (в основном, стоимость процессора); с - составляющая стоимости ПМ И1, определяемая размещением в нем задачи и (в основном, стоимость памяти ПМ, требуемой для хранения в нем программного модуля данной задачи и ее выполнения); х е (0,1> - элементы матрицы основного РмЗ X.
Для отказонгустойчивой ПВС, состоящей из однотипных
однопроцессорных ПМ, когда с = с и с = с для любого ПМ, имеем:
р, р л )
С° - п°с + У с . (1.3.15)
Р и— Л
•1 = 1
Стоимость отказоустойчивой (избыточной) системы, состоящей из п = п° + Ь однотипных однопроцессорных ПМ (модель ОУ ПВС А"), оценивается как:
п ь
Сгт= Сгт+ Сгг= (п° + Ь)с + У У г с . (1.3.16)
* г р J1 1
1-1 .1 = 1
Используя матрицы основного и дополнительного РмЗ, получим:
I. п I.
С" = Сх + Су - (п°+ Ь)ср + у с} + У уцсГ (1-3-17)
3-1 1-1 3-1
где у е (0,1) - элементы матрицы У дополнительного РмЗ.
1.4. Формализованная постановка задачи рационального статического перераспределения задач^ обеспечивающего требуемую отказоустойчивость системы, и основные подходы к ее решению
Рассмотрим ОУ ЛВС, описываемую моделью (1.2.4), не
конкретизируя тип задания, системы связи, общих ресурсов и режим функционирования и полагая, что известен набор
Б = (Ггт(®)« Г"(1,С), Л" Пгт, € (5,0) >. (1.4.1)
«С К р
Пусть (Iе-(и >,.1«1.1. - известное множество задач, составляющих задание системы (без каких-либо указаний относительно порядка их выполнения); Н"= Н - множество ПМ ОУ-системы. Качество функционирования системы оцениваем векторным показателем К „ • <Е,9>, где Е - функциональный показатель типа
Е «о
функциональной мощности (ф. м. ) (1.3.3), 8 - временной показатель типа (1.3.7)-(1.3.10), характеризующий длительность обслуживания заявок на решение задач (в каждом ПИ или в системе в целом) либо длительность выполнения всего задания. В этом случае временная деградация системы выражается в увеличении значения этого показателя, а временной отказ - в превышении установленного граничного значения. Область работоспособности системы определяется как
Л - (К"). К" « (Е" ,0"). где Е° » ЕР > Е*, в* » » 9°, П II II Я Я II к
а отказ системы - как событие Г » <Е < Е" > I) {0 < в*}.
Отказоустойчивость системы оценивается максимально допустимым числом с! отказавших ПИ (о-ПН). где с1 > 1, или некоторым вероятностным показателем 0, вычисляемым (на основе принятого нами понятия отказоустойчивости) при условии, что число о-ПМ к » !,
т. е. И € {(1.0). Однако, поскольку конечной целью применения методов обеспечения отказоустойчивости является достижение требуемого уровня безотказности системы (задаваемого при ее проектировании), будем при разработка таких методов оценивать отказоустойчивость показателями безотказности (при к » 0), в частности, для невосстанавливаемых систем - вероятностью безотказной работы за" время Т:
а
0Т - у Рт(К} " Г С» рт(1 ~ Рг)П"к <1-4-2)
« г € Э к « о
V
где - вероятность того, что к концу интервала Т система
окажется в работоспособном состояни з^; р » 1-е~Лт - вероятность отказа одного ПМ на интервале Т.
Стоимость ОУ ПВС оцениваем показателем Сгт (1.3.16), (1.3.17).
Постановка задачи (п) - организация рационального статического ПЗ при заданном множестве процессорных модулей ОУ-системы.
Полагаем, что при построении ОУ-системы избыточные ПМ не вводятся и указанное множество совпадает с известным множеством ПМ прототипной отказокеустойчивой системы: Н° =» Н. Известно
начальное рз 0°» цсГ ( II, задающее разбиение множества 0° на непересекающиеся подмножества Й° собственных задач каждого ПМ М. . Это РЗ определяется технологическими соображениями, топологией и функциональной структурой системы, составом технических средств и другими трудно формализуемыми факторами.
Пусть в нокзбыточной системе реализовано только основное Риз X. позволяющее при отсутствии отказов ПМ выполнять задание в соответствии с заданным начальным РЗ, т.е. X » 0° . В такой системе статическое ПЗ неосуществимо, поскольку нет резервирования задач, и поэтому при отказах любых ПМ, т. е. "в любой искаженном состоянии прекращается выполнение собственных задач всех отказавпих .ПМ. Выполнение собственных задач работоспособных пм (р-пн) может продолжаться в соответствии с начальным РЗ, т.е. в тех же ПН (если для этого не требуются результаты выполнения отброщенных задач). Следовательно, в системе возможна только Функциональная деградация (уменьшение функциональной мощности) и
невозможна временная, поскольку оставшиеся р-ПМ не нагружаются дополнительными, т. е. несобственными, задачами. В этом случае отказом системы является функциональный отказ ¥ф - (Е < Е">."
Основное РмЗ X определяет для каждого искаженного состояния значения принятых частных показателей качества, т.е. Е*, причем Е* < Е°. а 9*= 0° (силу отсутствия временной деградации). Поскольку для неизбыточной системы возможен только функциональный отказ, то разбиение множества всех б-состояний на подмножества 5 ■ Б* и Б « Б*, соответственно, работоспособных и неработоспособных состояний, определяется тРлько значениями Е*,
т.е. Б* = б0 и (зг, Е* » Е*}, и Б" - (б', Е* < Е*). Неизбыточная
и иг Ы Ы{
система может оказаться отказоустойчивой, что имеет место в том и только в том случае, когда (зг) * 0 (это зависит от заданного
У
значения Е* и от начального РЗ). Далее этот нетипичный случай не рассматриваем и без потери общности полагаем, что Б* = (б"), т.е. неизбыточная система является оакаэоПЕустойчивой.
Пусть неизбыточная система не удовлетваряет требованиям к отказоустойчивости, т.е. 0° < 0*. где (3° определяется из (1.4.2) при Б - Бх, а О" - заданное минимально допустимое значение ВБР. Требуется при заданном множестве ПМ Н - Н° найти такое подмножество Б состояний системы и такое рациональное ОУРмЗ 1'- 1-1,п, реализующее отображение этого
подмножества в заданную Р-область Ля', которые обеспечивают выполнение поставленных требований к отказоустойчивости системы, ее стоимости и, возможно, к определенным аппаратным ресурсам (как отдельных ПМ, так и системы в целом). Задача отыскания требуемых Б, 2® может формулироваться либо как требование обеспечить выполнение заданных ограничений на значения всех указанных характеристик системы, т.е. 1?", Сгт, , либо как задача оптимизации по одному из указанных критериев при ограничениях на остальные, либо как задача многокритериальной оптимизации.
При проектировании ОУ-систем наиболее часто возникает задача обеспечения требуемого уровня отказоустойчивости системы при ограниченных ресурсах и стоимости или при минимальной стоимости. При этом стоимость может рассматриваться как некоторая обобщенная характеристика, конкретизируемая в зависимости от типа и назначения системы и учитывающая, например, весо-габаритные
характеристики, потребляемую мощность и т. д.
Рациональное ОУРмЗ строится путем совмещения рациональных планов РЗ для всех состояний s^e S (включая начальное) по "правилу дизъюнкции" (1.2.1). При построении таких планов для искаженных состояний возможны два подхода:
(1) ДЛЯ каждого состояния sr находится план распределения по работоспособным ПМ только собственных задач всех о-ПН данного состояния; собственные задачи всех р-ПМ остаются в "своих" ПМ;
(2) для каждого находится новый план распределения всех задач множества Q° по р-ПМ данного искаженного состояния, при этом не учитывается начальное РЗ, т. е. не делается различия между собственными задачами отказавшие и работоспособных ПМ.
Рассмотрим одну из наиболее часто встречающихся на практике постановок задачи - построение ОУ-системы с требуенын уровнен отказоустойчивости, оцениваемым значением QT (1.4.2), при ограничениях на объем определенных ресурсов и при минимальной стоимости [101:
Q » Q* , W « W* (h - О ), С" rain . (1.4.3) т т h h г
Используем первый подход к построению планов РЗ. Очевидно, искомое подмножество S имеет вид S » Sx U S., где S, - ís.), ScS"-
Д А о Л
некоторое подмножество состояний, являющихся неработоспособными
при основном рнз. т.е. таких, для которых E*(sfl> » Е* < Е".
Следовательно, необходимо для каждого s^ обеспечить (с помощью ПЗ)
выполнение требования Е5 » Е*. Это достигается назначением
некоторых из задач отказавших ПМ этого состояния для реиения в
работоспособных Ш. Поскольку при этокв р-ПМ сохраняются все их
собственные задачи, то возрастает загрузка этих ГО.!, что приводит к
временной деградации и, возможно, к временному отказу. Поэтому для
всех состояний s^ е необходимо обеспечить отсутствие временного
отказа, т.е. выполнение ограничения G, < О*.
б
Задача в постановке (1.4.3) резается в 3 этапа.
1. Сформировать требуемое подмножество S, для чего найтн такое подмножество S. с S", включение которого в S обеспечит достижение требуемого значения ВБР QT, т.е. увеличение значения QT (по сравнению с Q®. достигнутым при основном РмЗ) на величину AQr(S¿>,
удовлетворяющую требованию:
aqt(sü> > до; - q; - q;. (1.4.4)
При принятых допущениях относительно отказов ПМ справедливо:
ДО (S.> « У Pes,). (1.4.5)
т д t а s.eS.
Sa
где P(ss> - вероятность пребывания системы в искаженном состоянии sa при работе ее в течение времени Т. Подмножество Бд сформируем,
последовательно включая в него состояния s, е S" в порядке
о
убывания их вероятностей (т. е. увеличения числа к отказавших ПМ), вплоть до выполнения условия (1.4.4) (если Sx* is0), то формирование Бд начинается с к - 1).
2. Найти для каждого состояния se е S^ такое распределение задач отказавших ПМ между работоспособными ПМ (определяемое
матрицей Daf® |d®[l ). которое обеспечит выполнение требований:
ДСд -» min,
> Б" - Е*- ДЕ*. ' де' < е" -ei« де". (1.4.6)
о .. . о . • о • . • .
AWi ■ < ¿W* . h-O ,
ho по г
где ДС^ - дополнительные суммарные затраты на избыточные ресурсы,
О
требуемые для обеспечения возможности решения в работоспособных ПМ, соответствующих состоянию sfi, несобственных задач отказавших ПМ; эта величина учитывает только стоимость ресурсов, зависящих от РЗ, т. е. составляющую CFT стоимости системы (1.3.16), поскольку при отсутствии избыточных ПМ, т.е. при h=o (что мы здесь' предполагаем) С"* Const;
г • А : '
- ДЕ: - добавочная Ф.н., обеспечиваемая в состоянии s» в
о о
результате назначения собственных задач отказавших ПМ для решения в работоспособных ПМ;
- Е* - ф. м. неизбыточной системы в состоянии б, при
о о
основном РмЗ;
- йв[ - приращение значения временного показателя,
О
характеризующее временную деградацию системы в данном состоянии (например, увеличение длительности обслуживания заявок на решение задач) вследствие назначения работоспособным ИМ собственных задач
отказавших ПМ; в частности, если 0а » (Т^), то ДТ* -
приращение среднего времени пребывания в системе заявки на решение
задачи и ; если 0, » (Т*), 1=1,п, то АТ3 - приращение среднего
] О 1 I
времени пребывания в ПК М^ заявки на решение любой задачи из назначенных этому ПМ в данном состоянии;
- 8* = 9°- значение временного показателя неизбыточной системы в состоянии при основном РмЗ;
- - показатель, характеризующий потребность в избыточных
ресурсах вида Ь, необходимых для обеспечения возможности
выполнения задач отказавших ПМ в работоспособных ПМ в состоянии б,;
„ о
- - предельно допустимое значение этой величины. Значения указанных приращений в выражениях (1.4.6) зависят от
искомого плана распределения задач отказавших ПМ (составляющих для
состояния з5 множество А3) по работоспособным ПМ в данном
состоянии. Для обеспечения возможности совмещения найденных планов
РЗ при построении результирующего ОУ РмЗ сохраним для всех матриц
ИаГ соответствующих различным состояниям э,, один и тот же размер
I х п, положив с!^ - 0 для таких (.}Д), что либо и^ г А^, либо
М, € Н', где НС - множество о-ПМ в состоянии б,. Полагаем,
° л ья
что известны: веса ЭJ всех задач; матрицы ||с°( и и для
каждого состояния э3, где ы^3 - объем избыточных ресурсов вида Ь,
требуемых для решения несобственной задачи и в ПМ (в состоянии
); с3, - затраты на указанные избыточные ресурсы всех видов, в
частности, на дополнительную память ПМ, необходимую для хранения
копии данной задачи и ее выполнения, на дополнительные устройства
связи и интерфейса и т.п. Для принятой модели ОУ ПВС с однотипными
ПМ, т.е. для Агт, справедливо с5 » с и и*5* и*. Величины ДС*.
* л J л ) "
ДЕ3, как правило, линейно зависят от ^ , и* и плана РЗ,
тогда как зависимость ДбС от плана РЗ часто не является линейной и
о .
трудно определяется аналитически.
Задачу (1.4.6) представим в виде:
,
3 1
ш1п,
(а)
из€Аа
к.еиа
I I
а6 *
Л )
ДЕ
5 '
(0)
к €н. 1 3
(1.4.7)
I I
с1а 11 1
ДМ
кг'
Ь - 1,М
(в)
аг.
" 1 €на
в(и ),1-1
з
Т(И,),1-1.п ) < Д8,
1 О
к
в
где Н' - множество р-ПМ в состоянии э.; а а
общем случае нелинейная, выражающая зависимость величины плана РЗ 0ег для состояния б , временных
(г)
- некоторая функция.
в от
а •
8Ш ), временных параметров модулей
Т(М ),
I
характеристик задач -и зависящая от вида задания, режима функционирования системы, и других факторов, зачастую трудно формализуемых.
При решении этой задачи считаем, что каждый ПМ имеет некоторый временной ресурс, позволяющий при необходимости выполнять вместе с собственными и некоторые дополнительные задачи.
Л8!
8*-
0а
РмЗ
Для системы в целом этот временной ресурс
определяется заданным граничным значением 8* и основным Рмз и остается постоянным. Полагаем, что при реализации ПЗ в каждый ПМ вводятся избыточные ресурсы, необходимые только для хранения копий задач и обеспечения надлежащего обмена данными при их выполнении. Введение этих ресурсов (дополнительной памяти, интерфейсов и т.п.), связанное с увеличением стоимости, позволяет обеспечить требуемое приращение ф.м., но не увеличивает производительность ПМ, и, следовательно, временной ресурс системы. Кроме того, веса задач не коррелировагш с временем их выполнения в ПМ или другими временными показателями. Поэтому при некоторых значениях ДЕ* и Д8* задача (1.4.7) может не иметь решения, поскольку временной ресурс системы ограничен значением Д8* и не увеличивается с ростом
существует
затрат. Это означает, что для данного состояния б, не
О
<
плана РЗ, удовлетворяющего одновременно ограничениям (б) и (г) из (1.4.7). В этом случае необходимо либо изменить предельное значения этих ограничений (путем изменения значений Е"и 0* или основного РмЗ), либо ввести избыточные пн (сверх имеющихся п основных ПМ), которые наряду с основными участвуют в распределении задач отказавпих ПН. При этом необходимо решить задачу определения минимального числа избыточных ПН, достаточного для удовлетворения ограничений (б) и (г) для всех состояний б5 е Б.
Одна из постановок задачи построения рационального ОУРмЗ, отвечающая часто возникающим на практике требованиям (особенно для систем управления) состоит в следующем. Для заданного уровня отказоустойчивости, определяемого множеством Б" (или максимально допустимым числом с! о-ПМ) найти такое ОУРмЗ, которое обеспечит в каждом искаженном состоянии б е Б" максимальное значение ф.м. , при ограничениях на значения временного показателя, ресурсы заданных видов и стоимость, т.е. при заданном основном РмЗ надо решить задачу:
ДЕГ пах; Лвг ■< Д9*. ЛИГ « М" , ДСГ < ДС" . (1.4.8)
и Ы И пы пы и и
где значения всех показателей определяются, как в (1.4.7). Алгоритм реиения данной задачи, основанный на градиентном методе оптимизации, приведен в [17).
3. Построить рациональное ОУРмЗ Ъ = Иг И, совместив планы РЗ для всех € 5, включая э". по "правилу дизъюнкции" (1.2.1).
Постановка задачи (п) [13,15,17] - организация рационального статического ПЗ при одновременном определении требуемого числа ПМ ОУ-системы, обеспечивающего возможность построения рационального ОУРмЗ.
Сохраняются допущения, принятые в постановке (п), но множество ПМ прототипной неизбыточной системы и, следовательно, начальное РЗ - неизвестны. Требуется решить задачу типа (1.4.3), т.е. определить число п ПМ, гарантирующее возможность построения такого рационального ОУРмЗ , которое отвечает поставленным в (1.4.3) требованиям, и построить это ОУРмЗ. Для этого необходимо найти множество Б = и 5", определяемое парой значений (п,с1), где с! - максимально допустимое число о-ПМ. Очевидно, искомое
множество Б должно обеспечить заданное минимально допустимое значение 0* вероятности безотказной работы системы, определяемой выражением (1.4.2), т.е. искомые значения (п,<1) должны удовлетворять неравенству
<1
0Т . 0Т - . £ С* - рт)»-к » о; , (1.4.9.)
к х О
при минимальной разности (0т - 0*). При 0заданных О* и рт выражение (1.4..9) определяет минимально необходимое (но, возможно, недостаточное) значение п общего числа ПМ в системе (если п < п ,
' X X
то 0т < 0* при любых с! в пределах 0 « <1 < п-1) и множество
допустимых пар значений (п,с1), т.е. набор допустимых множеств Б. Алгоритм решения данной задачи (построение рационального ОУРмЗ при минимальном п) приведен в разделе 2.1 (Алгоритм 1/п/0-1).
2. МЕТОДЫ РАЦИОНАЛЬНОГО СТАТИЧЕСКОГО ПЕРЕРАСПРЕДЕЛЕНИЯ ЗАДАЧ, ОБЕСПЕЧИВАЮЩЕГО ТРЕБУЕМУЮ ОТКАЗОУСТОЙЧИВОСТЬ ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЫ (РСПЗ/ОУ)
Разработанные методы РСПЗ/ОУ обозначаются далее в соответствии с принятой нами классификацией: метод Ф/К/й, где
- О е П,С) - класс задания, выполняемого системой (класс системы);
-Не ((а), (п)} - постановка задачи построения ОУРмЗ: (п) - организация РСПЗ/ОУ при известном множестве процессорных модулей ОУ-системы, (5) - организация РСПЗ/ОУ при одновременном определении требуемого множества ПМ ОУ-систекы;
-Ее (Б,0> - способ задания требуемого уровня отказоустойчи -вости: Б - требуемая структурная область работоспособности (множество работоспособных Б-состояний). которая может быть задана максимально допустимым числом с1 о-ПМ); 0 - минимально допустимое значение принятого вероятностного показателя отказоустойчивости системы, в частности, вероятности безотказной работы.
2.1. Методы рационального статического ПЗ/ОУ для ПВС, выполняющих фиксированное множество задач, с явно не заданными взаимосвязями (задание класса I)
Рассмотрим системы класса I, т. е. такие, для которых в явном виде не заданы взаимосвязи, определяющие временную упорядоченность выполнения задач (хотя такие взаимосвязи, в частности, обмен данными, и существуют). Эти системы описываются моделью А"(1), получаемой из А" при Ггт (1,С)- Ггт Ц) - 0°, где 12° - множество задач с явно не заданными взаимосвязями (см. раздел 1.2). Модель Л"(1) может использоваться в том случае, когда не удается задать в явном виде временную упорядоченность выполнения задач, вследствие сложности их взаимосвязей, или отсутствия достаточных данных об этих взаимосвязях и о временном режиме функционирования системы (например, на начальной стадии ее проектирования). Для систем класса I разработаны следующие методы и соответствующие алгоритмы РСПЗ/ОУ, составляющие группы 1/п и 1/п, подразделяемые в свою очередь на подгруппы 1/п/Б и 1/п/0 в зависимости от принятого способа задания требуемой отказоустойчивости системы: И е (3,0).
Группа алгоритмов 1/п.
Подгруппа алгоритмов 1/п/5 .
Алгоритм 1/п/Б-1 [5,10,171: максимизация функциональной
мощности (ф.м.) Е или минимизация потерь й в каждом искаженном и м
состоянии из заданного множества £>"- {э ) при ограничениях на
и
временные показатели вида (1.3.7) и на долю добавочной стоимости системы для каждого состояния эи, определяемую как:
4 I.
О
ДС = У Тчр, с . (2.1.1)
I«1 ¡-1 1
Решается задача:
иах, Т^® « , 1 - Т7д0, ДСИг «АС^ (2.1.2)
где Т* и ЛС'г- предельно допустимые значения соответствующих величин, g. - число р-ПМ в состоянии s . Полагаем, что известны:
U Q
среднее время пребывания в каждом ПМ заявки на выполнение любой из
задач, назначенных ему в начальном состоянии; матрица приращений
среднего времени пребывания в каждом ПМ заявки на выполнение любой
одной из назначенных ему задач при добавлении в множество С"
задачи Uj, т.е. ЯДТ^а, j=l,L, i=l,n. Если приращения ф. м. и
среднего времени пребывания заявки в каждом ПМ, получаемые
вследствие размещения дополнительных копий задач, предназначенных
для выполнения в данном искаженном состояний, т. е. ДЕ и ДТ", __w 1
i»l,g , выражаются как линейные функции, соответственно, весов задач и значений ДТ^1, то задача (2.1.2) решается как задача дискретной оптимизации с булевыми переменными (любым из
известных методов). Алгоритм ее решения градиентным методом приведен в [17].
Алгоритмы I/n/S-2.a, I/n/S-2.b, I/n/S-2.c [19,241: минимизация среднего значения расхода на множестве всех s-состояний - Л(Л )■ (см.(1.3.14)), или на заданном подмножестве S" искаженных работоспособных s-состояний - J(S")при ограничениях на предельно допустимые потери в каждом из этих состояний; на значения временных показателей системы (в том.числе, таких, как Т^1, 1=1,gw> загрузка ПМ и каналов связи, временной регламент периодических задач); на ресурсы ПМ и системы в целом (память, каналы и др.); на допустимые области перераспределения каждой из задач отказавших ПМ. Решаемая задача в общем виде представляется как
J(S°) win.
У A d" « Аы* l-TTn или i-n+1, Vs е ;'
J1 J1 1 И
I V81®>{l S*}
j-i e s 1
1 t s
l-t i-1 " V €S
< B*. i-l,n ;
i' • (2.1.3)
e s"'
. * С
при заданных подмножествах 0° = {<1" »0}, определяющих запрещенные
и } 1
области перераспределения задач. Здесь КБ") определяется выражением (1.3. 14), если в нем положить Л^ = Б" и индекс >> ». о; А^1, В^ 4, С^1, А"*, , С* определяются принятыми конкретными ограничениями.
Разработаны алгоритмы, основанные на градиентном методе (Алгоритм 1/п/Б-2.а [19]) и на идеях аддитивного метода и метода последовательного улучшения решения задачи БЛП (Алгоритм 1/п/Б-2.Ь [24]), которые могут применяться для первоначального приближенного решения задачи РСПЗ/ОУ при проектировании ОУ-системы. Уточненное репение может быть получено с помощью Алгоритма 1/п/Б-2.с [24] или метода "ветвей и границ".Применение этих алгоритмов характерно при проектировании распределенных систем управления технологическими процессами (см. раздел 3.2).
Подгруппа алгоритмов 1/п/0.
Алгоритм 1/п/0-1 [5,6,10]. Обеспечивает выполнение требований к ВБР системы по функциональному отказу » <Еу< Е* > при ограничениях на значения временного показателя для каждого р-ПМ и при минимальной добавочной стоимости йС для каждого состояния з :
иг ы
От * (а)
Т? < Т", 1- Т7ди , Узые 5" (б) (2.1.4)
АС -» т1п, Ув €ЫБ (в)
Иг и -
С помощью этого алгоритма, основанного на градиентном методе [17], формируется множество Б - ЦБ", удовлетворяющее требованию (а), и строятся планы РЗ для всех э^е Б",
удовлетворяющие требованию отсутствия функционального отказа (т.е. Ец » Е*) при выполнении (б) и (в). Кроме того, может быть обеспечена максимальная ф. ы. в каждом состоянии из заданного подмножества Б? с Б" с помощью процедуры» аналогичной алгоритму Г/п/Б-1.
Алгоритм 1/п/0-2 [18,201: РСПЗ/ОУ для случая, когда все задачи начального множества хранятся в общей памяти системы, а загрузка их копий в память надлежащих р-ПМ производится в соответствии с предварительно построенными планами РЗ при переходе системы в то или иное состояние (вследствие отказов ПМ). Алгоритм позволяет сформировать множество Б"»^} и для всех состояний этого множества построить планы РЗ, в совокупности удовлетворяющие требованию (1.4.9) к ВБР системы по функциональному отказу при максимальной ф. м. в каждом состоянии Б.
V»)
(1.3.3) и при ограничениях на объем памяти каждого ПМ и на значение временного показателя Т^ (1.3.8) для каждого р-ПМ
М ,1»1,ды данного состояния. При построении плана РЗ для каждого такого состояния заново производится (исходя из требования оперативной перезагрузки всех ПМ) распределение всех задач начального множества 0° по всем д р-ПМ данного состояния без учета начального РЗ. Следовательно, для каждого значения д может быть построен типовой план рз, пригодный (при перенумерации ПМ) для любого состояния в ■ з(д), соответствующего наличию д р-ПМ.
Алгоритм включает две основные процедуры: (1) определение множества Л всех допустимых вариантов загрузки одного ПМ задачами из начального множества 0"при выполнении ограничений на объем памяти одного ПМ и на значение временного показателя; (2) определение рационального типового плана РЗ (для каждого заданного значения д) который не тольк<} обеспечивает значение ф. м. в любом состоянии з(д), не превышающее допустимого, но и максимизирует это значение при указанных ограничениях по времени и по памяти. Для этого из множества П выбирается (с .помощью формализованной процедуры покрытий Квайна) такое подмножество, состоящее из д допустимых вариантов загрузки, которое удовлетворяет указанным требованиям. Предложенные процедуры позволяют существенно уменьшить трудоемкость решения задачи по сравнению с применением методов булевого программирования.
Алгоритм 1/п/О-З [42,46,54,63]: РСПЗ/ОУ для систем, выполняющих множество й° задач в соответствии со случайными
С
потоками заявок на их решение, поступающими от объектов управления или пользователей (задание подкласса ). Такой тип задания характерен для распределенных систем управления (РСУ) и для
информационно-вычислительных систем (ИБС). Модель такой системы А"(1с) получается из модели А" при следующих предположениях!
(1) система выполняет задание Ггт(1е> » ' - (1^), >1,1.;
(2) поток заявок типа zJ, т. е. заявок на решение задачи Д^ , является пуассоновским (с известной интенсивностью л^;
'(3) заявки типа zJ поступают в ПМ М( , содержащий соответствующую задачу, и образуют в нем очередь 0'; обслуживание этих заявок, осуществляется в том же ПМ в соответствии с их относительными приоритетами;
(4) распределение времени обслуживания заявок в ПМ характеризуется средним значением 1 и вторым моментом ;
(5) потоки отказов и восстановлений ПМ, составляющих систему,
являются пуассоновскими, т.е. Пгт» ПГТ;
р
(6) время обнаружения отказа ПМ намного меньше среднего времени ожидания заявок в очереди.
Отказоустойчивость системы достигается построением рационального ОУРмЗ и организацией вычислений, позволяющей при отказах отдельных ПМ выполнять (в соответствии с поступающими заявками) копии собственных задач этих ПМ, размещенные в нвотказазших ПН. Для этого заявки типа zJ записываются (в порядке поступления) в очереди, формирующиеся во всех работоспособных ПМ, содержащих задачу и и ее копии (число таких ПМ обозначим д)>. При последовательных отказах ПМ, которые содержат эту задачу или ее копии, заявки из этих очередей поступают в тот или иной из неотказавших ПМ, содержащих копии данной задачи, в порядке, заданном построенными заранее расписаниями. Полагаем, что в каждый ПМ поступает информация о работоспособности всех остальных ПМ.
Рациональное ОУРмЗ для данной модели системы определяется следующими требованиями:
р} < р* ■ ■ - ТХ ; (2.1.5)
г - т° « Дт*. 1 - ТХ ; (2.1.6)
) 1 у
где р - вероятность отказа в обслуживании заявки типа из-за отсутствия задачи и во всех работоспособных ПМ; г}- среднее время пребывания одной заявки типа zJ в системе; г° - номинальное значение этой величины; р*, Дг" - заданные предельно допустимые
значения соответствующих величин.
Полагаем: (а) отказ в обслуживании одной заявки типа г
ая
объектом или обслуживания пользователя и называемые
вызывает потери gJ, связанные с ухудшением качества управления
Функциональными; (б) если г^ > г°, то имеют место потери бJ в каждую единицу времени пребывания в системе одной заявки типа
сверх номинального значения т°, называемые временными; при Х} « г°
временные потери отсутствуют. Задаются ограничения для потерь этих
двух видов (в единицу времени). связанных с обслуживанием заявки
типа 2 : )
А - д л р « А* ; (2.1.7)
1 1 )} 1
В = 5 (а - х р Иг - г°) < В* . (2.1.8)
I > J . г) J I }
Очевидно, что при заданных А* и В* требования (2.1.7),
(2.1.8) сводятся к (2.1.5), (2.1.6), где р* - и
Ат* - В*/5 (л - а р ). 1
} i J 1 ' } )
Суммарные (по всем задачам) функциональные и временные потери
I.
К- " ^ В.,, К-состояние системы - как К - (И ,1? ), а область ■
работоспособности задается предельными значениями указанных суммарных потерь и соответствующими значениям А* и В" для
каждой задачи. Отказом системы считается событие
<нЛ> О и *£>•
ф ф ее
Рациональное ОУРмЗ строится при учете следующих ограничений:
(а) на загрузку каждого ПМ Ы( :
Г. -Л у. « Г* 1 - Гп, (2.1.9)
в единицу времени определяются, соответственно, как I? - £ А и
< . 4 *
г, « г: 1 - 1,п,
и е о
} I
где ^ ' ^ " среднее время обслуживания заявки типа г^.
- множество задач, размещенных в ПМ М(;
(б) на объем памяти любого ИМ М :
" ^ * 1 = (2.1.10)
и € а ) 1
где v - объем памяти, необходимой для размещения задачи , v* -заданный предельно допустимый объем памяти одного ПМ.
Построение рационального ОУРмЗ и соответствующих ему планов РЗ для начального и искаженных работоспособных состояний относится к числу трудно решаемых комбинаторных задач и выполняется в соответствии с процедурой, изложенной в [42,46,54]. Предложенный эвристический алгоритм позволяет в значительной степени уменьшить число перебираемых вариантов за счет исключения тех из них, для которых решение задачи заведомо не существует. Процедура определения рационального ОУРмЗ основана на построении дерева допустимых вариантов размещения задач в одной типовой ПМ, принятом для построения системы. Допустимость варианта определяется исходя
из условий (2.1.8), (2.1.9), (2.1.10)). Пусть П = (0 ), Ь - ТЛ*. -полученное множество всех допустимых вариантов размещения задач в одном ПМ, где П - множество задач, размещаемых в одном типовом ПМ в соответствии с одним из допустимых вариантов, т. е. без нарушения указанных условий. Из множества П выбирается подмножество П*= (А*), 1»1,п*, включающее п*< п таких вариантов размещения задач, которые в совокупности обеспечивают наличие в п* ПМ требуемого числа экземпляров каждой задачи и , гарантирующего выполнение условия (2.1.7) (применяется процедура, сходная с процедурой решения задачи покрытия).
Каждый из выбранных вариантов размещения, т. е. множество Й* задач, сопоставляется с одним ПМ М , 1=1,п* и содержит как основные задачи, выполняющиеся в данном БМ в начальном состоянии, так и копии задач, выполняющиеся в этом ПМ во всех искаженных работоспособных состояниях. Следовательно, множество П* задает рациональное ОУРмЗ для п* ПМ. Основное РмЗ и планы РЗ для искаженных работоспособных состояний строятся при учете приоритетов задач.
Группа алгоритмов I/n.
Подгруппа алгоритмов 1/5/0.
Алгоритм 1/п/{)-1 [13,14,15,17]: построение рационального ОУРмЗ и планов РЗ для всех работоспособных искаженных состояний при одновременном определении требуемого числа ПМ. Удовлетворяется требование к ВЫ3 системы по полному отказу. выражаемое неравенством (1.4.9), при минимальной стоимости системы, т.е. решается задача: .
0Т *
о;.
min
при минимуме разности (0т - 0т) (см. постановку задачи (п) в разделе 1.4).
Алгоритм состоит из следующих шагов.
1. Найти такое минимальное число п° ПМ, которое позволяет построить основное РмЗ X - , обеспечивающее реализацию отображения в* -» К", где К"» {Е^.в"), и определить само это РмЗ.
Задача определения требуемых п° и X » Р0« ас^в,
1-Т7пв
формулируется как: п° min,
eis0 ) - F(Q°, в} ,J-ÜL, n\ D°) < в°
' О
n
Т. • • ■ >>i
(а)
(б)
(в) (2.1.11)
Ii. 1»1
1. Vj - 1,L,
(г)
где 0т временной показатель выполнения задачи U^, 1(- число задач, назначаемых для решения в ПМ М( согласно искомому начальному РЗ, F - некоторая функция, определяющая зависимость временного показателя системы от временных показателей выполнения задач и от распределения задач по ПМ (для данного типа системы, выполняемого задания, режима функционирования и др.). Требование E(s° )■ Е°, т.е. необходимость выполнения всех задач в начальном
состоянии, задается равенством (в); требование к основному РмЗ -равенством (г).
Начальное РЗ, обеспечивающее отображение К? может быть осуществлено при любом п » п", где п° - результат решения задачи (2.1.11), тогда как для выполнения требования (1.4.9), обеспечинакиего отображение искомого подмножества 5° искаженных состояний в заданную Р-область, необходимо п » пх. Очевидно, оба требования могут быть выполнены только при п » по - шах(п". пх>.
2. Полагая п » п , найдем (при заданных 0* и р.) минимальное
о Т Т
значение « (1 , удовлетворяющее неравенству (1.4.9).
Найденное значение ё назовем граничным числом о-пн, а
О
соответствующее ему значение д = (п - й ) - граничным числом р-лм.
О о о
Эти граничные значения определяют подмножество Е*""» <5 ) таких искаженных работоспособных э-состояний, для которых число о-ПМ
к - 1,2,..,<1 , а число р-ШЛ д, » д ,д +1,.. ,п - Подмножество
и о и о о о
5(с1<)) = >, включающее все такие состояния э®, для которых кц- с10> д0 - д0, назовем подмножеством граничных в-состояний.
При п»п для выполнения требования 0Т > 0 , необходимо
о I Т
сделать работоспособными все состояния найденного множества Б"" . т.е. обеспечить требуемое соответствие между состояниями гы е Б"10 и Й 6 Л.. Эта цель достигается с помощью такого размещения задач
К к
для каждого состояния б е Б"', которое обеспечит Е » Е и 6ц < б . Очевидно, что если такое РЗ осуществимо для граничного з-состояния в", т.е. при ды " до» то оно осуществимо и для всех тех б , для которых д • д 1,.., п - I.
д.
3. Иайти РЗ В ■ 1(1 ° 8 для произвольного граничного
я
о
5-состоя1шя з®, полагая, что в любом таком состоять .^дакоко осуществляется распределение всех задач множества й° по д^ р-ПМ. В этом случае для любого газонного числа до р-пх может быть найдено типовое рз. справедливое (при соответствующе!! перенумерации ГШ) для любого граничного состояния с данным числом р-ПН.
Такое типовое РЗ находится в результате ревенкя следующей задачи:
и
Е I
„ , Г с -
а. ¿- „ и, ■1-1 и^еО •»
ш1п.
(а)
еп - Р(£}°, в,.>1,1., д , О ) ■< в э„ л 0 во
9о д _
¡Г «1, V >1.1.
1-Т
(б)
(в)
(г)
(2.1.12)
Здесь С - значение той составляющей стоимости системы, 9„
которая
зависит от РЗ для произвольного граничного состояния; сц -
составляющая стоимости ресурсов одного ПМ, требуемых для выполнения им задачи и. Ограничение (г) означает, что в данном состоянии каждая задача может быть либо назначена для решения только одному ПМ, либо отброшена. 4
Если задача (2.1.12) имеет решение, то примем п ■ по и найдем типовые РЗ для всех искаженных б-состояний б^е Б"0, содержащих дц р-ПМ, где ди =до+1,..,по~1, решив задачу (2.1.12) для соответствующих значений д^.
Если эта задача, не имеет решения при данном до, т. е. для этого до не существует РЗ, удовлетворяющего одновременно ограничениям (б) и (в), то выполним итеративную процедуру: (1) положить п =■ п4 = по+1; (2) для п » п из (1.4.9) найти с1 = с^ , д1 =п1 -с^ ; (3) найти типовые РЗ для граничного состояния б' с числом о-ПМ д-', решив задачу (2.1.12) при дп=д,; (4) при
ч'
положить.
П «'
г
п,-1
отсутствии решения этой задачи при п повторить операции (2) и (3). Процедура повторяется до получения на некотором р-м шаге, т.е. при п=п и д =д , решения задачи
р о р
(2.1.12), т. е.; искомого типового РЗ для граничного б-состояния, содержащего д
р-ПМ при общем числе ПМ, равном п . ~р р
Найденное значение п является минимальным числом ПМ, р
при
котором обеспечивается заданная вероятность безотказной работы системы при киникальныг затратах, связанных с распределением задач в граничных состояниях (на дополнительные ресурсы в каждом ПН, требуемые для размещения копий задач).
4. Найти типовые РЗ для всех искаженных состояний множества Б"» Б"1*, не являющихся граничными (т. е. с числом р-ПМ дц - др+1,
д +2...... п -1), ревив задачу (2.1.12) для каждого из этих
р р
значений д .
*
Если ограничения 0 и Е* одинаковы для всех состояний
б е Б"Р включая граничные, и если не ставится задача достижения и
максимального значения Е„ или минимального значения в„ в каждом из
О м)
этих состояний, то для всех этих состояний можно (с учетом перенумерации ПН) использовать типовое РЗ, полученное для граничного состояния с числом р-ПМ, равным др. При этом в каждой э 6 Б"р, где число р-ПМ д > д , для распределения задач
и ы Р
используются только др р-ПМ, но эти др р-ПМ различны в разных состояниях б . При необходимости в задачах (2.1.11) и (2.1.12)
может учитываться и ограничение на общие ресурсы, т. е. « И*,
Ь-Ог(см. (1.4.3)).
5. Найти результирующее ОУРмЗ, удовлетворяющее поставленным требованиям, совместив все планы РЗ для состояний множества Б - Б"» з°11 Б"" и учитывая, что в каждом ПМ должно быть размещено не более одного экземпляра каждой задачи.
Полученное ОУРмЗ обеспечивает требуемую вероятность 0Т » ()*
пребывания системы внутри Р-области, определяемой значениями Е°,
Е", 9? 6* (т.е. в состояниях € Бр) без каких-либо
дополнительных требований к значениям Ей 9 для каждого из
и о
искаженных работоспособных з-состояний б Б"р.
Пусть кроме > 0* требуется обеспечить максимальную ф.м. системы в любой момент ее пребывания в Р-области, т. е. в любом состоянии эг. Тогда найдем такое типовое РЗ для граничного числа
и
д р-ПМ, при котором максимизируется значение Е , решив задачу: Е гаах: в « 8е ; С « С" , (2.1.13)
« я ч _ ч
о о О о
где Е , 6 , С определяются как в (2.1.12), С - предельно
9о 9о 9о во
допустимое значение стоимости С для граничного состояния.
в° .
Если найденное Е - Е » Е (а), то для всех состояний
д„ д юах о о
б е Био с числом р-ПМ д - д +!,..,п -1 найден планы РЗ,
ш Ы О О
максимизирующие значение Еы » Е , репив задачу (2.1.13) для каждого д (очевидно, Е * Е при д > а ).
аи 4 д иах в тех аи 3о
У о
В противном случае положим П1 » по +1, найдем из (1.4.9)
для п - п значение с! - с^ , а затем типовое РЗ для граничного
числа д4 - п^-с!, р-ПМ, решив задачу (2.1.13) при до» д^ Проверим выполнение условия (а).
Эта процедура повторяется до получения минимального числа п - пу и соответствующих и ду. удовлетворяющих требованиям (2.1.13) и (2.1.12-а), т.е. обеспечивающих требуемое значение 0т > 0* и максимальное значение ф. м. в любой момент пребывания системы внутри Р-области.
Аналогично достигается минимальное значение принятого временного показателя системы при нахождении ее внутри Р-области: решая задачу типа (2.1.13) при ограничении на Е и минимизации
®о
в и проверяя выполнение условия 8 . « 6е, последовательно находим РЗ для значений (п . с! ), (п, ,<1,),.. вплоть до некоторых
О О 1 1
(П2,с12>. удовлетворяющих поставленным требованиям.
Таким образом, в зависимости от требований, предъявляемых .к ОУ-системе, можно обеспечить определенный характер ее деградации при отказах ПМ, т.е. тот или иной вид траектории К-состояний внутри Р-области при переходах системы (вызываемых последователь,гчми отказами Ш! без их восстановления), вида
б0-» б* б*->. . .б* .. .-♦ бр. где б* е Б - работоспособное б-состояние,
соответствующее наличию к о-ПМ, ' ■ а ■'е ¡5 - некоторое неработоспособное б-состояние, соответствующее отказу системы.
В П7] рассмотрено построение рационального ОУРмЗ в постановке (п) для случая, когда временной показатель системы для произвольного состояния б^ определен как - )»
где - сумма времен выполнения всех задач, назначенных для
ранения в ПМ М( в состоянии > и Т*н» (Т^) -
номинальное и предельно допустимое значения этого показателя. В этом случае ограничения (б) в задачах (2.1.11) и (2,1.12) имеют вид, соответственно:
Т_, (б0) -> д." х * Т" V 1-1,п° (2,1.11 б )
т;: . у* х* у (2ЛЛ2 б,)
о]ей* 11 1
где г - время выполнения задачи и . 1
При этих временных ограничениях задача (2.1.11) решается как одна из известных задач дискретной оптимизации - "задача упаковки", а задача (2.1.12) - как задача булевого линейного программирования (БЛП). Задачи оптимизации ф. м. Е и временного
показателя 1*1.п, также решаются как задачи БЛП.
Алгоритм 1/п/0-2 [18,20]: РСПЗ/ОУ для систем, содержащих начальное множество задач в обкой памяти и выполняющих оперативную загрузку их копий в надлежащие р-ПМ при переходе системы в любое состояние б £ Б". Алгоритм позволяет найти минимальное число ПМ в 0У П5С, соответствующее этому числу рациональное ОУРмЗ и планы РЗ для всех искаженных работоспособных состояний, обеспечивающие выполнение поставленного требования типа (1.4.9) к ВБР системы по функциональному отказу ^ - (Е < Е* > при ограничениях на временные ресурсы п память каждого ПМ. В качестве временного показателя для произвольного принят векторный показатель Т!£ = (Т^ ), где
1 =■ Бри выполнении алгоритма формируются все такие множества
И задач, для каждого из которых суммарная ф. и. не иеи^е Е*. и затем для каждого из этих множеств выполняется процедура покрытия входящих в него задач наборами задач из множества П, которые соответствуют допустимым вариантам загрузки одного типового ПМ и найдены с помощью процедуры (1) Алгоритма 1/п/§-2. В результате для каждого множества 5г определяется минимальное число покрывающих его наборов задач, т.е. минимальное для этого множества число покрывающих р-ПМ. Минимальное из полученных для
всех V число покрывающих р-ПИ является граничным числом р-ПМ, т.е. д (одновременно для этого числа р-ПМ получается и план РЗ). Далее из неравенства вида (1.4.9) при найденном д находится общее число ПМ, т.е. п, планы РЗ для всех состояний, соответствующих наличию д+1, д+г.....п р-ПМ, и результирующее ОУРмЗ.
2.2. Методы рационального статического ПЗ/ОУ для ПВС, выполняющих фиксированное множество взаимосвязанных задач с явно заданными связями (задание класса С).
При разработке методов РСПЗ/ОУ для заданий класса С (что соответствует выполнению системой параллельной программы) полагаем что:
- ПВС состоит ■ из п > 2 идентичных ПМ с одинаковой производительностью, не зависящей от выполняемых задач;
- процессорные модули работают в однопрограммном режиме параллельной обработки информации и каждый ПМ в любой момент может быть занят обработкой не более одной задачи;
- при выполнении задания образуются очереди готовых к выполнению задач, т.е. таких, аргументы которых уже вычислены;
- процессы обмена информацией при работе системы, как внутреннего (между ПМ), так и внешнего (между ПВС и внешним миром), не задерживают процесс обработки задач.-
Для ПВС, выполняющих задание класса С, разработаны методы и алгоритмы РСПЗ/ОУ на основе постановки задачи (п): одновременно с ОУРмЗ и расписаниями выполнения задач в искаженных работоспособных состояниях определяется минимальное число ПМ, формирующих ОУ-систему. необходимое и достаточное для реализации указанных ОУРмЗ и расписаний. Одним из этапов решения этой задачи является процедура РСПЗ/ОУ при известном числе ГО.!, соответствующая постановке задачи (п).
2.2.1. Методы и алгоритмы РСПЗ/ОУ для ПВС, допускающих только временную деградацию.
Рассмотрим ПВС, требования к которой не допускают ее функциональную деградацию, т.е. отбрасывание задач. Отказом
системы в этом случае считается временной отказ. Для таких систем разработаны методы РСПЗ/ОУ, базирующиеся на различных моделях выполняемого системой задания, учитывающих те или иные его особенности.
Модель 1 - ациклический граф выполнения задач (ГВЗ). Задание представляет собой однократно или многократно (возможно, периодически) выполняемый комплекс взаимосвязанных задач, не содержащий условных ветвлений и внутренних циклов. Оно описывается ориентированным ациклическим графом выполнения задач с частично упорядоченными вершинами: вершины графа соответствуют одноименным задачам, а дуги определяют последовательность их выполнения. Задача, соответствующая вершине И , в которую входят дуги (II и,),
(иь1^).....(и^ир, может выполняться (готова к выполнению) в том и
только в том случае, когда завершено выполнение всех задач 1^,...,!^; завершение выполнения задачи и необходимо для инициации всех задач, соответствующих вершинам, связанным с вершиной и исходящими из нее дугами. Считаем, что ГВЗ имеет одну входную и одну выходную верпины, соответствующие начальной и0 и конечной (Г задачам, и что время выполнения всех задач одинаково. Выполнение последнего условия может быть обеспечено разбиением (когда это возмонжо) программ решения задач на части, выполняемые за одинаковое время и рассматриваемые как самостоятельные задачи.
В качестве временного показателя системы принято время однократного выполнения задания от и° до иг, оцениваемое в данном случае числом шагов, где шаг равен времени решения одной задачи; Т°, Т* - номинальное и предельно допустимое значения Т, где Т*> Т°. Отказом системы считается временной отказ, т.е. событие
<.Т > Т*). Предполагается, что все ПМ - невосстанавливаемые, а отказоустойчивость системы оценивается ее вероятностью безотказной работы (1.4.2).
Задаваемое значение Т® должно отвечать требованию Тн > Т° > Т , где Тц - время выполнения задания при размещении всех задач в одном ПМ и их последовательном выполнении. Т - абсолютно
я
минимальное время выполнения задания, определяемое только взаимосвязями задач; оно соответствует максимально возможному параллелизму, т.е. ситуации, когда любая пара задач, для которых параллельное выполнение допускается структурой задания.
обязательно выполняется параллельно. Число ПН, требуемое для
достижения значения Т , оценивается как n < L, где n » L ■ ■ »
соответствует размещению в каждом ПМ только одной задачи. Очевидно, п^ - это максимальное число ПМ, которое может потребоваться для построения отказонеустойчивой системы, поскольку увеличение числа ПМ сверх п^ йе может привести к уменьиению времени выполнения задания.
Для определения Т^ и минимального значения п^ используется ряд методов, в частности, .описанные ниже: для, одинаковых времен выполнения всех задач - п.1 Алгоритма C-l/n/Q/Ö-l.а.; для различных времен выполнения задач - пп. 1-3 Алгоритма С-2/п/0/Ф-1. Значения п , Т , РмЗ X и расписание R находятся при
а а » -к
использовании временной сети Петри (ВСП) в качестве модели выполнения задания. ■ Значение Т^ может быть найдено также известными методами как длина критического пути ГВЗ, однако предлагаемые методы позволяют одновременно найти соответствующее. РЗ и расписание.
Алгоритм С-1/Н/0/Ф-1.а [15,161 позволяет:
- (а) определить минимальное число п ПМ в ОУ-системе, называемое далее минимальной размерностью структуры ОУ-сисаемы, необходимое и достаточное для формирования такого множества S состояний, где
S » ■ s" U S", что, если для каждого s^ обеспечить время выполнения задания Т" « Т*, то 0Т » Q*;
- (б) сформировать требуемое тожество S;
- (в) построить планы РЗ и расписания R" выполнения задач в работоспособных ПМ каждого состояния s^ € S, обеспочиваюяио T(s°) < Т° для начального состояния и T(S )- Т" < Т* для каждого
U
s е S ;
и
- (г) построить ОУРмЗ, при котором реализуются указанные планы РЗ и расписания.
Таким образом, решается задача определения такой ыикикалькой разиерног • п структуры ОУ-системы и такого размещения в этой структур дач (с возможностью их перераспределения при отказах ПМ), которые обеспечивают выполнение требований:
Т(б" ) < Г (а)
Т(э Д.У.Н") < Т*, Уз еБ" (б)
1Л * * * * у '
От(п,Б ) > 0* (в)
Сгт— п!п (г)
(2. 2. 1)
Стоимость С" ОУ-системы определяется выражениями (1.3.16), (1.3.17), а ее минимизация рассматривается как поиск структуры минимальной размерности. Полагаем Т° »Т^.
Алгоритм состоит из следующих процедур.
1. Определение минимального числа п° - п^ Ш.1, начального РЗ Б" и расписания , обеспечивающих выполнение данного задания в начальном состоянии за абсолютно минимальное время Т° - Т ,
а
определяемое как наименьшее число Н уровней параллельного выполнения задач. Значение Т° . N находится с помощью процедура построения всех возмогных . подмножеств задач, суяесввснных для каждого уровня данного ГВЗ .' Для определения п°, й", К" находятся множества задач, существенных на всех возможных интервалах tk.li, где к-1,N-1, 1»2,Н (понятие введено автором), и производится их распределение по уровням внутри каждого интервала, минимизирующее значение п°.
Другая процедура определения п°, 0°. предложена а 1151. Она основана на построении максимальных групп совместимых задач, т. е. таких задач, которые могут выполняться последовательно без увеличения общего времени выполнения задания, и. следовательно. могут размещаться в одном ПН. При этом используются формальные методы из теории автоматов (группировка совместимых состояний, процедура покрытий Квайна).
После определения Т° N проверяется выполнение условия ТсТ*; при Г-Т* полученное реаение, т.о. начальное РЗ. иа допускает временную деградацию системы, а при Г'>Т* задача но имеет решения ни при каком числе ПМ.
2. Определение граничного числа р-РМ д^- , требуемого для достижения заданной степени отказоустойчивости (где граничное число о-ПМ), и построение такого расписания )
*> Трахтеигерц Э. А. Программное обеспечение автоматизированных
• систем управления. М. : Статистика. 1974.
%
выполнения задач на до "виртуальных" ПМ/ которое обеспечивает время выполнения задания, удовлетворяющее ограничению Т(до)<Т*, и спрагшдливо (при перенумерации ПМ) для любого граничного состояния s°, соответствующего наличию д^ р-ПМ. Значение d^ определяется как минимальное значение d, удовлетворяющее неравенству (1.4.9) при известных Q*, рт. п - п^» wax(n° п^). При этом используются известные методы построения расписаний минимальной длины, т. е. расписаний, обеспечивающих для заданного числа ПМ минимальное время выполнения задания. Найденное расписание определяет типовой план РЗ для д^ любых р-ПМ. Если в соответствии с предъявляемыми к системе требованиями необходимо только выполнение ограничения T(g )<Т*. а на минимизация времени выполнения задания в каждом состоянии s , то для всех состояний, соответствующих числу р-ПМ, превышающему g , используется найденное типовое расписание R(g ). Если необходимо минимизировать Iй для каждого состояния s (g), то строятся расписания минимальной длины и планы РЗ для всех значений д, где go->l < д < п-1.
3. Построение для каждого значения g • ge ,g -И .... ,п-1 отказоустойчивого размещения задач во всех п ПИ системы, т. е. такого размещения, при котором и любом состоянии su(g), соответствующем наличию g р-ПМ, реализуется расписание R"-R(g) и соответствующий план РЗ. Это размещение Y(g> строится с помощью специального совмещения планов РЗ, (найденных в п. 2) для всех состояний, соответствующих данному д. Способ построения указанного размещения, минимизирующий суммарную стоимость дополнительной памяти всех ПМ, приведен в 116).
4. Построение результирующего ОУРмЗ Z"I2 I путем совмеошния по "правилу дизъюнкции" (см. 1.2.1) начального РЗ D° и всех размещений Y(g) для g - g°.g°+1,...,n-1 при удалении избыточных копий задач.
Если при п=по (в процедуре 2) расписание минимальной длины приводит к Т(д ) > Т*. то необходимо выполнить ряд итераций,
с »in
увеличивая п и повторяя процедуру 2 с новыми увеличенными d и g
о о
до получения T(gM < Т* на некотором г-н шаге при общем числе I1M n«nr и граничном д^ .
Таким образом, в результате выполнения данного алгоритма опредйляются: (1) минимальное общее число ПН в ОУ-системе. равное
n»nr, гле п > п°; (2) множество S»(sy) работоспособных s-состояний (включая начальное); (3) планы РЗ и расписания выполнения задач для всех s^, обеспечивающие выполнение
поставленного требования Т" < Т*. где Т*>Т°, что в совокупности обеспечивает требуемую отказоустойчивость системы, т. е. ВБР 0т > Q*
Алгоритм С-1/5/0/Ф-1.Ь [161 ревает те же задачи (а), (б), (в), (г), что и предыдущий алгоритм, и включает ту ко процедуру определения n°, D", R". но, в отличие от него, но предполагает выполнения итераций при поиске минимального общпго числа ПМ В ОУ-системе. Это число п, удовлетворяющее требуемой степени отказоустойчивости Q^, определяется из неравенства (1.4.9) при найденном предварительно граничном числе д° р-ПМ, т.е. при d-d*-n-g"; в общем случае п > п°. Для нахождения д° используется следующая процедура.
Для каждого g - п°-1, п°-2....2,1 находится минимальное время выполнения задания Т (g)° N (д), выраженное числом пагов
ein ein
(уровней параллельного выполнения задач в ГВЗ). Для этого производится такое распределение задач по уровням их возможного параллельного выполнения, которое при данном g обеспечивает минимальное число этих уровней (при учете упорядоченности выполнения задач, заданной данным ГВЗ). граничный чиспои д* р-ПМ является такое киниыапьное значение д е (п°-1,п°-2,...2,1). которому соответствует Neia<g) « М*, где N*» Т* - заданное максимально допустимое время выполнения задания. Для каждого <j, такого, что n » g » дТ на основе полученных ранее распределений задач по уровням ГВЗ находится расписание R(g), обеспечивающее время выполнения задания Т . такое, что Т* » Т » Т® (для значений
9 «
g в пределах n » g - п® справедливо расписание R*). Процедуры построения размещений Y(g) и ОУРмЗ 2 аналогичны используемым в Алгоритме С-1/n/Q/Ф-1.а.
Модель 2 - ациклическая зремонг.ая сеть Петри (ВСП). Описывает однократно или многократно выполняемый комплекс взаимосвязанных задач, на содержащий условных ветвлений и циклов, при произвольных временах выполнения задач: с каждой задачей U^ е Q° сопоставлен переход моделирующей сети Петри, время срабатывания которого равно времени выполнения данной задачи - t ; U". U* - начальная и
конечная задачи; 0° , в' - соответствующие им переходы. Временной показатель - время Т однократного выполнения ВСП, моделирующей процесс выполнения задания как процесс срабатывания переходов от 6° до вг.
Алгоритм С-2/П/0/Ф-1 [22,23,27,28.303 предназначен для определения минимальной размерности структуры ОУ-системы. построения ОУРмЗ, планов РЗ и расписаний выполнения задач во всех работоспособных состояниях с целью обеспечения требований (2.2.1). Алгоритм состоит из следующих шагов.
1. Найти минимальную размерность п° идеальной системы, т.е. системы с идеальными ПМ, не подверженными отказам, и соответствующие этой размерности план РЗ D" и расписание R", удовлетворяющие требованию
T(n° ,s° ,D° ,R°) < Т° , (2.2.2)
где Т > Т° > Т и, следовательно, n° < п .
к ■ ■
2. Найти минимальное число п* ПМ, план РЗ D* и расписание R* для этого числа ПМ, такие, что время выполнения задания при отсутствии отказов всех ПМ, т.е. в состоянии s° (п* )=00.. .0, удовлетворяет требованию
Т(п* ,s° (п* ) ,D* ,R*) < Т* . (2.2.3)
3. Положить граничнное число р-ЯМ в. ОУ-системе равным д* = п* (поскольку Т* > Т, то очевидно, что п* с п°). Принять найденный план РЗ D* в качестве типового рз для любого граничного состояния s'w * s^ig*), т.е. для любых д* р-ПМ.
4. Найти минимальное общее число п - п^ ПМ, удовлетворяющее неравенству (1.4.9) для граничного числа д* р-ПМ, т.е. для d « d*« n - g*.
5. Принять для ОУ-системы: размерность n = maxtn'.n^), основное Риз Х° =D° и начальное расписание R°. Если п = п^ > п°, то
используются основное РмЗ X=D° и расписание R° для каких-либо п° ПМ из общего числа п^ ПМ, остальные (пг~п°) ПМ используются только для реализации дополнительного РмЗ. Нетрудно видеть, что требуемые ограничения (2.2.1а и б) при этом выполняются.
В результате выполнения шагов 1-5 определено: общее число п ПМ в ОУ-системе, где n е (п°,п }, основное РмЗ X = D°, типовое РЗ
О* для любого граничного состояния зц(д*), соответствующего наличию д* р-ПМ, и расписания для н Г?* для любого (д* >.
6. Исходя из основного РмЗ Х°- 0° и типового РЗ Б* для любого граничного состояния, найти дополнительное рнз У, обеспечивающее выполнение требований (2.2.1 в и г), где Сгт определяется как (1.3. 17;. Лля этого используется предлохенный алгоритм Алг-о Г27], который минимизирует стоимость С избыточных ресурсов, необходимых для реализации дополнительного РмЗ.
Для выполнения пагов 1 и 2 данного алгоритма предложена процедура Алг-л .определения минимальной размерности п структуры
А А А
идеальной системы, плана РЗ Б-Х и расписания Г?, обеспечивающих значение Т < Т. для заданного Т > Т^ г 23,27, 28;. На первом оаге этой процедуры используется алгоритм определения п^, Т^ и соответствующих РмЗ Б и расписания И (ллг-в), основанный на
■ в
достижении максимального параллелизма выполнения задач путем размещения в каждом ПМ только непараллельных задач (НП-задач) [ЗП. Любые две задачи называем непараллельными, если одновременное их выполнение невозможно вследствие определенной данным заданием упорядоченности выполнения задач. Максимальный параллелизм (т. е. Т-Т^) достигается при размещении в каадом ПМ некоторой группы НП-задач, т. е. множества таких задач, любые две из которых являются непараллельными. Группе НП-задач соответствует группа таких переходов моделирующей ВСП, любые два из которых не могут находиться в процессе срабатывания одновременно (т.е. при одном и том же состоянии ВСП, определяемом ее маркировкой). Все возможные пары НП-задач определяются в результате анализа графа достижимых маркировок ВСП или с помощью временной диаграммы ее выполнения. Может использоваться и программная модель выполнения ВСП. Для формирования максимальных групп НП-задач применяется метод построения максимальных групп совместимых состояний конечного автомата (используемый при минимизации числа его
состояний), а для определения минимального числа п ПМ, с каждым
■
из которых сопоставлена группа НП-задач, - метод реиения задачи покрытий (метод Квайна).
Далее в алгоритме Алг-л выполняется итеративная процедура: на каждой итерации для идеальной системы с известным числом п ПМ, где п - п„~1> п."2..... определяется размещение задач и
расписание, удовлетворяющие ограничению Т < Т для заданного Т > Т^. Для решения этой задачи предложен алгоритм але-с [27,28], основанный на определении последовательности моментов t ,t.,t ,..,t (где t'-O) изменения множества одновременно
о 12 к
выполняющихся задач (т.е. множества переходов ВСП, одновременно находящихся в процессе срабатывания) и последовательном размещении в каждый из таких моментов множества задач, разревенных в этот момент к инициации, по "свободным ПК" (т.е. по ПМ. не выполняющим в данный момент никаких задач). „
Алгоритм C-2/n/S/$-l [32.401 предназначен для построения ОУРмЗ, планов РЗ и расписаний выполнения задач в искаженных работоспособных состояних для ОУ-системы с известным числом ПМ (постановка задачи (п)) при задании требований к отказоустойчивости максимально допустимым числом d отказавших ПМ, определяющим множество S. Задание системы описывается ациклической ВСП. Алгоритм Обеспечивает минимальное время выполнения задания в каждом из состояний множества S. Задание описывается с помощью ВСП, содержащей ресурсную позицию. которая сопоставлена с множеством всех ПМ системы. В каждом состоянии s е S число меток
V
в этой позиции равно числу работоспособных ПМ. Для каждого s^ е S определяется такая последовательность выполнения задач, которая обеспечивает минимальное для s^ время выполнения задания: для
каждого допустимого числа о-ПМ, т. е для к - 0,1.....d, строим
граф достижимых маркировок моделирующей ВСП и находим любой из кратчайших путей в этом графе, который и определяет искомую последовательность выполнения задач. Для этого используется аппарат теории разбиений: для каждого из значений к - 0,1...,d строится такое разбиение Пк на множестве всех выполняемых системой задач, которое соответствует кратчайшему пути графа достижимых маркировок, имеющему длину и Удовлетворяет некоторым дополнительным требованиям (разбиение П" подчинено в определенном смысле разбиению П""')- Число блоков этого разбиения равно . а каждый блок - это множество параллельно выполняющихся задач. Далее в соответствии с "граничным" разбиением П* осуществляется (предложенным в 132,40] способом) размещение задач, которое удовлетворяет требованиям для всех к- 0,1.....d.
Модель 3 - стохастическая временная сеть Петри, содержащая циклы. Задание - множество взаимодействуют« процессов, каждый из которых представляет собой циклически повторяющуюся последовательность операций, возможно, содержащую альтернативные ветви и вложенные циклы. Процессы осуществляют асинхронный обмен сообщениями через "почтовые ящики" (ПЯ), выполняя операции передачи сообщения в ПЯ (Б) и приема сообщения из ПЯ (1Ъ. Память ПЯ неограничена. поэтому операция Б не блокируется. Операция I? блокируется в случае, когда в ПЯ нет сообщений для данного процесса. Принимающий процесс берет сообщения из ПЯ в соответствии с дисциплиной Р1Р0. Последовательность операций. выполняемая процессом между двумя ближайшими операциями Я, непрерываема.
Каждый процесс представляется ориентированным графом (строящимся на основе исходной программы процесса), дуги которого соответствуют операциям (включая Г? и Б), вернины - началу и концу каждой операции. В графе выделены начальная и одна или несколько конечных вершин. С каждой дугой, исходящей из вершины а^, сопоставлены: среднее время выполнения операции и условная вероятность выбора данной операции при достижении процессом вераины а^ (из каждой вершины может исходить несколько дуг). Процесс Р( характеризуется временен цикла г , т. е. средним временем его однократного выполнения.
Задание данного типа моделируется стохастической ВСП |47), представляющей собой совокупность циклических подсетей, связанных между собой посредством.позиций, моделирующих "почтовые ящики". Входной и выходной переходы этих позиций принадлежат различным подсетям. Каждая из указанных подсетей описывает определенный процесс (с операциями которого сопоставлены ее переходы) и может содержать альтернативные ветви и вложенные циклы.
В ОУ ПВС осуществляется основное размещение процессов (РП), аналогичное основному РмЗ, и дополнительное размещение пассивных копий процессов, аналогичное дополнительному РмЗ (каждый процесс или его копия целиком размещается в одном ПМ) Совокупность этих размещений определяет отказоустойчивое размещение процессов (ОУРмП). Качество функционирования системы оценивается временным показателем г»(г - число всех процессов задания.
Значения г зависят от размещения выполняемых (б данном состоянии
системы) процессов по ПН, (поскольку т зависит от загрузки ПМ, содержащего процесс Р^, и от времени выполнения операций й. Метод статистической оценки времени цикла предложен в !47). Стоимость ОУ-системы определяется (1.3.17), возможно, с учетом стоимости средств связи, необходимых для реализации обмена сообщениями между процессами и ПЯ (включая стоимость самих ПЯ).
Под отказом системы понимается событие, приводящее к невозможности выполнения задания, либо к такой ситуации, когда время цикла хотя бы одного из процессов „превышает заданное предельно допустимое значение. Отказоустойчивость системы оценивается показателем К € <с1,0т >, где 0т определяется (1.4.2).
Решается задача: для известного задания, найти такое число ПМ и такие основное и дополнительное РП, которые обеспечивают требуемую отказоустойчивость системы (т. е. 0т > 0* или с! ^ с!*) при минимальной ее стоимости и при заданных ограничениях на время цикла каждого процесса Р как в начальном состоянии, т. е. г((б0) < т°, так и в любом искаженном работоспособном состоянии
б* , соответствующем наличию к о-ПМ, к-1.с1, т.е. т( (б*) < г*. Зависимость времени цикла от размещения процессов не является линейной и его необходимо оценивать при каждом изменении РП (эта зависимость исследована в [47]). Функция стоимости также нелинейна вследствие дискретности компонентов аппаратуры, в частности, модулей памяти. Разработан следующий алгоритм решения этой задачи.
Алгоритм С-З/п/О/Ф-1 (47,623. Основное и дополнительное РП строятся одновременно. На первом шаге находится число ПМ, гарантирующее выполнение требования 0т > 0* без учета ограничений на времена циклов. Затем строится дерево выбора вариантов РП (процедура "ветвей и границ"): корневая вершина дерева соответствует отсутствию каких-либо процессов во всех ПМ, на каждом последующем шаге размещается в каком-либо ГО! один из еие не размещенных процессов. Каждому возможному размещению выбранного процесса соответствует ветвь дерева выбора. Процесс выбирается из множества всех основных процессов и их копий при использовании ряда эвристических критериев. Полученное на каждом шаге частичное РП проверяется на выполнение временных ограничений с помощью вычисляемых верхней и нижней границ времени циклов. При нарушении временных ограничений проверяемая ветвь отсекается. Процедура
продолжается вплоть до размеиения всех основных процессов и всех копий.
Модель 4. - взаимодействующие последовательные процессы (CSP) ' Задание описывается на языке CSP как множество последовательных процессов, взаимодействующих с помощью оомена сообщениями по логическим каналам: Описание (т.е. CSP-программа) имеет иерархически-параллельную структуру, образуемую вложенными друг в друга "параллельными командами". Используя такую команду, процесс активизирует множество процессов-последователей ("сыновей") . выполняющихся параллельно, и ожидает их завершения. После завершения всех процессов-"сыновей" активизировавший их процесс продолжает свое выполнение. Каждый из "сыновей" может содержать параллельные команды, активизирующие его собственных "сыновей" и т.д. до любого уровня вложения. Каждый процесс может содержать несколько параллельных команд, но принадлежащие одному и тому же процессу параллельные команды могут выполняться только по одной, причем каждая из них выполняется только после завершения всех процессов-"сыновей", активизированных предыдущей параллельной командой. Другой вид взаимодействия ' процессов в модели CSP -попарное взаимодействие с помощью передачи сообщений по однонаправленному логическому каналу - выполнение команд "вывода сообщения в канал" (т.е. передачи) и "ввода сообщения из канала" (т.е. приема). Эта связь является синхронной, т.е. осуществляется только при готовности к ней обоих процессов.
Вследствие свойства недетерминизма, присущего модели CSP, времена выполнения процессов, а, следовательно, и временной показатель выполнения задания, не могут быть оценены однозначно. Эти времена в общем случае различны для разных прогонов программы задания, причем реальное ■ время выполнения каждого прогона становится известным только после его завершения. В связи с этим при использовании модели CSP не представляется возможным применение методов формирования рационального ОУРмП, обеспечивающего требуемое значение принятого временного показателя (основанных на использовании аналитически выраженной зависимости
'Hoare C.A.R. Communicating sequential processes. Com: ACH, v. 21, п. a.
значения этого показателя от размещения процессов по ПМ).
Задача РСПЗ/ОУ решается в данном случае на основе следующего эвристического подхода, предложенного в 121,29,44,451 и учитывающего, что концепция CSP применяется, как правило, при разработке ПВС, для которых основным показателем является производительность (в частности, многотранспьютерных систем):
- выделить основные факторы, влияющие на производительность системы;
- на основе эвристических соображений выбрать ведущий фактор, т.е. в наибольшей степени влияющий на время' выполнения задания; этот выбор зависит от структуры CSP-программы данного задания и от степени влияния каждого из факторов на время его выполнения (количество процессов, способных выполняться параллельно и таких, для которых параллельное выполнение недопустимо, т. е. непараллельных процессов; количество команд ввода-вывода, интенсивность обмена данными между процессами и т. д. );
- построить ОУРмП, обеспечивающее отказоустойчивость системы при наилучшем ее качестве с точки зрения только ведущего фактора;
- изменить построенное ОУРмП с целью улучшить в максимальной степени свойства системы, соответствующие остальным факторам, не ухудшая достигнутого уровня качества по ведущему фактору.
На основе этого подхода разработаны следующие алгоритмы построения ОУРмП (обеспечивающего требуемую отказоустойчивость системы) при одновременном определении минимального числа ПМ. В качестве факторов, влияющих на производительность ПВС, рассмотрены: (а) степень параллелизма выполнения, процессов, (б) время, необходимое для осуществления взаимодействия процессов.
Считаем, что номинальной производительности системы соответствует максимальный параллелизм выполнения процессов, нарушение которого трактуется как отказ системы. Отказоустойчивость ПВС оценивается вероятностным показателем, в частности, ВБР (1.4.2). При построении ОУРмП требуется обеспечить максимальную степень параллелизма как в начальном состоянии, так и во всех искаженных,работоспособных состояниях, т.е. в этом случае считается недопустимой наряду с функциональной, также и временная деградация.
Алгоритм C-4/n/Q/$,6-l.а. [21,29,44]. В качестве ведущего фактора принята степень параллелизма выполнения процессов. Во всех состояниях s^ € S обеспечивается максимальная степень параллелизма при возможно меньшей (для достигнутого максимума параллелизма) нагрузке на систему внешних связей между ГШ. Под нагрузкой понимается объем передаваемых данных. Считается, что время обмена данными между процессами, размещенными в одном ПИ, пренебрежимо мало по сравнению со временем, требуемым для такого обмена при размещении этих же процессов в различных ПН. Поэтому уменьшение внешней доли общей нагрузки, связанной с взаимодействием процессов, (т. е. приходящейся на систему внешних связей) и соответствующее увеличение ее внутренней доли, (т. е. замыкаемой внутри ГОД) ведет к уменьшению времени связи между процессами. Алгоритм состоит из следующих процедур:
1. Определение минимального числа ПМ n>in и построение наилучшего РпП для идеальной системы, т.е. такого РмП, которое обеспечивает максимальный параллелизм выполнения процессов. Это достигается размещением в каждом ПН группы непараллельных процессов (НИ-процессов) при одновременном определении минимально необходимого для этого числа ПМ. Минимизация внесшей нагрузки достигается с помощью покрытия множества всех связанных пар процессов (введенное в работе понятие) максимальными группами ЯП-процессов с последующим целенаправленным устранением их пересечений.
2. Определение числа ПМ и построение ОУРмП для ОУ-системы, выполняемое исходя из того, что ВБР системы (при введенном выше понятии отказа) должна быть не менее заданного значения Q* при сохранении максимального параллелизма ео всех состояниях süeS°. Найденное выше число ПМ п и принимается в качестве граничного числа р-ПМ, т.е. д*=пв1п . и из неравенства (1.4.9) определяется общее число п ПМ в ОУ-системе. Далее находится план распределения процессов для каждого состояния s^(g'), соответствующего g р-ПМ, где g = g*,g"+1,...,n (g * n соответствует начальному состоянию). В каждом s^(g) процессы распределяются только в
q*= п ПМ из общего числа g ПМ и в качестве такого плана
J Bin ^
принимается найденное в п. 1 для п наилучшее РмП. На осноко
ein
полученных планов РП для всех s е S строится результирукаое
ОУРмП, при котором все процессы размещаются в п ПМ таким образом, что в любом з^ е Б найдутся д* р-ПМ, в которых реализовано наилучшее РмП. Для этого применяется предложенный способ, минимизирующий суммарную память всех ПМ (161.
Алгоритм С-4/п/(}/Ф,8-1 .Ь. [21,29, 44]. Ведущий фактор - время связи между процессами. Строится ОУРмП, обеспечивающее требуемую отказоустойчивость ПВС при минимальной нагрузке на систему внешних связей ПМ и при наибольшей степени параллелизма выполнения процессов, достижимой при этой нагрузке. Процедуры построения планов РП аналогичны процедурам предыдущего алгоритма. В их основе определение множества всех максимальных групп связанных процессов, покрывающих все связанные пары процессов, и устранение пересечений этих групп с учетом наличия пар и групп НП-процессов (с целью включения в каждую группу связанных процессов, сопоставляемую с одним ПМ, наибольшего числа НП-процессов).
2.2.2. Метод РСПЗ/ОУ для ПВС, допускающих как временную, так и функциональную деградацию
Для функционирования систем управления часто существенным является не решение отдельных задач, а реализация в целом некоторых функций, каждая из которых предназначена для управления частью технологического процесса или каким-либо крупным блоком объекта управления. Для таких функций легче, чем для составляющих их задач оцениваются потери, т. е. снижение выходного эффекта системы, вызванное невыполнением соответствующей функции. Нами предложен метод РСПЗ/ОУ, учитывающий эту особенность, - метод резервирования функций [35,50,61,65].
Задание, выполняемое системой, состоящей из п ПМ, рассматривается как совокупность Ч =ЧР },1=1,г функций, где под Функцией понимается множество взаимосвязанных задач, выполнение которого имеет определенное содержательное значение для системы в целом или для объекта управления. Каждая функция, описывается начальным гвз . • Рассматриваются следующие режимы выполнения задания.
А. Функции Р из заданного множества V выполняются в соответствии со случайными заявками <р ,"поступающими от объекта
управления или оператора с фиксированными вероятностями Р(<? ). где
Р(ф ) » 1, в моменты, разделенные фиксированным интервалом Т. 1 = 1
Каждая функция, представленная начальным ГВЗ С°, выполняется в соответствии с заранее построенным расписанием , которое при п
ПМ обеспечивает время выполнения данной функции, равное 1°".
Полагаем, что интервал Т = гаак Т°" + ДТ.
1
Б. Функции из множества V/ выполняются в соответствии с
заданным графой выполнения функций (ГВ$), вершины которого
соответствуют функциям Р , 1=1.г, а дуги задают отношения
следования между функциями: произвольная дуга (Р «И ) выходит из
конечной вершины ГВЗ функции ¥ и входит в начальную вершину ГВЗ
к
функции Р . Параллелизм выполнения задач данного задания определяется отношениями следования как между функциями.в ГВФ, так и между задачами в каждом ГВЗ. Для описания каждой функции и задания в целом могут использоваться так же временные сети Петри.
Для каждой функции Р задано множество Н1 = (СМ, к=1,«1 допустимых деформированных ГВЗ, выполнение каждого из которых разрешено в любом искаженном работоспособном состоянии з е Б". Каждый ГВЗ С* является результатом деформации начального ГВЗ С°, т. е. исключения из него некоторых вершин и дуг. В начальном состоянии система выполняет в режиме А начальный ГВЗ функции Р , соответствующей поступившей заявке <р(, а в режиме Б - начальный гвг, сформированный из начальных ГВЗ всех функций. В любом состоянии э е Б" в режиме А допускается выполнение по заявке »
О 1
как начального ГВЗ, так и любого из ГВЗ С* е Н , а в режиме Б -
как начального ГВФ, так и деформированного ГВФ, сформированного из
Г допустимых ГВЗ всех функций при сохранении отношений следования
между функциями, заданных начальным ГВФ. Допустимыми для Р
язляются как ГВЗ С, так и ГВЗ С" € Н .
1 11
Для каждого ГВЗ задано:
- - потери, являющиеся результатом выполнения ГВЗ
вместо С, где о" = 0 для ГВЗ С, и о" >0 для любого Б" * С, 1 31 1 31 11
причем "пустому" ГВЗ. т.е. прекращению выполнения всех задач функции Р , соответствует максимальное значение потерь = 91в>х:
- с" - затраты на "размещение задач, соответствующих
• данному ГВЗ, с° = с для С° и с0 - 0 для "пустого" ГВЗ.
1 1п«х I 1
Очевидно, что указанные значения как затрат (при условии, что все ПМ одинаковы), так и потерь (в любом случае) не зависят от размещения по ПМ задач, представляемых данным ГВЗ.
Используем следующие функциональные и временные показатели:
- потери, связанные с выполнением функции Р :
8 е {§" >, к=07й , 1=Тг;
- время выполнения Функции Р , определяемое для данного числа
* о
д ПМ как;
Т - Т ■ , где Т е (Т* ). к=о7« 1=Т7г;
1 1 ? I д 1 ч 1
Т^ - время выполнения допустимого ГВЗ С* при использовании д ПМ. Область работоспособности системы:
- для режима А: 0-« « д*; Т° « Т^ « Т*, 1=1,г; (2.2.4)
- для режима Б: 0 < дв « д*; Т° < ¡Гв « Т*; (2.2.5)
где "Р - номинальное время выполнения функции Р в состоянии э0;
Т° - номинальное время выполнения задания, описываемого ГВФ В, в
состоянии б"; д*, Т*, д*, Т* - граничные значения; д = £ д .
1 = 1
Задачу РСПЗ/ОУ рассматриваем в постановке (п) - найти:
(а) минимальное число п ПМ, составляющих ОУ-систему; (б) граничное
число д* р-ПМ; (в) допустимый ГВЗ, принятый для реализации каждой
функции Р в каждом состоянии б е Б"; (г) планы РЗ и расписания 1 и
выполнения задач для каждого состояния е Б, где множество
Б - и Б° определяется найденными п и д"; (д) ОУРмЗ для п ПМ, обеспечивающие выполнение следующих требований. В режиме А:
Т1 () « Т°. 1 = ТТг;
1,(5 ) «I', д (э ) < д*, 1 ° Тт. Уэ е Б"; (2.2.6)
1 и I и и
О, " О*. 1 ■ ТТг;
где Т( (б") - время выполнения функции Р( (т.е. ее ГВЗ ) в состоянии э"; Т () - время выполнения функции Р1 в состоянии
э , Т (э ) е {^(С)}, к»0,и ; Т(Ск) - время выполнения ГВЗ С"
Ы'1Ы 111 г 1
при использовании дц р-ПМ, соответствующих состоянию зи;
О,^) « (д*>. - потери вследствие выполнения функции Р1 в
состоянии б ; 0 - вероятность безотказного выполнения функции .р
ц> 1 1
при поступлении заявки <р( ; 0* - граничное значение 0(. Полагаем, что д* « д* для каждого допустимого ГВЗ * и что Т> * - Т.
В режиме Б:
Т (э°) « Г ;
в в
■т.(8«> « тв" а.'8«* « 4е ^ (2-2-7)
о«
где Тв(з°) - время выполнения начального ГВФ в состоянии при
использовании п ПИ; Т° - номинальное значение Тв; Тв(зц) - время выполнения деформированного ГВФ, принятого для состояния б ;
Тв(зи) е г - число всех допустимых деформированных
ГВФ; - потери, являющиеся результатом выполнения ГВФ,
принятого для состояния 0в - вероятность безотказной работы системы, выполняющей в каждом работоспособном состоянии допустимый ГВФ, принятый для этого состояния (начальный или деформированный).
Алгоритм С-1/а/0 [65] разработан для решения задачи РСПЗ/ОУ при работе системы в режиме А и' обеспечивает удовлетворение требований к вероятности 01 безотказного выполнения каждой функции
И ,1»1,г (по временному отказу) при заданных временных ограничениях (см. 2.2.6) и при минимизации средних потерь I? - на множестве искаженных работоспособных состояний, где
п -1 г *
8)
где P(s' ) - вероятность того, что система находится в любом из состояний s', соответствующих наличию g р-ПМ; е (0,1), x®k = 1,
если для реализации функции F в любом состоянии s® принят ГВЗ G*, х®к =0 в противном случае. В качестве отдельных шагов данного
алгоритма используются алгоритмы С-1/п/0/Ф-1.а,б и С-2/п/0/Ф-1. Результирующее ОУРмЗ строится исходя из требований минимизации суммарных дополнительных ресурсов всех ИМ, таких как память (см.
пп. 3, 4 алгоритма С-1/п/0/Ф-1.а и п. 6 алгоритма С-2/п/О/Ф-1).
или ограничения на объем памяти одного типового ПМ.
Для режима Б задачу РСПЗ/ОУ конкретизируем, исходя из
постановки (п), т.е. для заданных п и с1*, где с!" - максимально
допустимое число о-ПМ. Полагаем, что для всех состояний э9 с
фиксированным числом д р-ПМ принимается для реализации один и тот
же деформированный ГВФ В9, который при неизменных отношениях
следования функций, заданных начальным ГВФ, определяется набором
Е* допустимых ГВЗ, принятых для представления соответствующих №
функций в состоянии э4.
Требуется для каждого работоспособного состояния б9, где д = д*,... ,п-1; д* - п-с!? найти такой набор Е? - Ш" ,.. .й™ ,.. ,С" ) допустимых ГВЗ, где С'еН^ и такое распределение задач, соответствующих вершинам этих ГВЗ, по ПМ системы, что реализация в каждок состоянии 5® соответствующего ему ГВФ В9, сформированного из ГВЗ набора Е\ обеспечивает минимум потерь в данном состоянии при выполнении заданного временного ограничения.
Алгоритм С-1/п/Б предназначен для решения данной задачи при работе системы в режиме Б.
1. Для каждого э', д = д* ,...,п-1 , найти такой ГВФ В9 (т.е. такой набор Е?), который обеспечивает минимальное значение потерь в этом состоянии, т. е.
г И
1
9в<5') - д(ВМ <= ^Г ,]Г х!к -»тт.. (2.2.9)
1 - 1 к = О
учитывая, что для каждой функции р должен быть выбран один и только один ГВЗ С' е 1Г, т. е.
VI - Т7г, (2.2.10)
2. Для каждого д = д*...,п-1 найти расписание выполнения задач в д "виртуальных" ПМ и план РЗ для этих ПМ, соответствующие принятому для данного д ГВФ В^ и обеспечивающие выполнение
временного ограничения Т (8ц) » Т(В^) < Т* (см. 2.2.7).
3. Построить результирующее ОУРмЗ.
На этапах 1 и 2 применяются методы БЛП и алгоритмы РСПЗ/ОУ
для взаимосвязанных задач: С-1/п/0/Ф-1.а,Ь и С-2/п/0/Ф-1 [15,16,28], а этап 3 выполняется так же, как для режима А.
3. ОБЕСПЕЧЕНИЕ ОТКАЗОУСТОЙЧИВОСТИ РАСПРЕДЕЛЕННЫХ СИСТЕМ УПРАВЛЕНИЯ (РСУ) НА ОСНОВЕ РАЦИОНАЛЬНОГО СТАТИЧЕСКОГО ПЗ/ОУ
3. 1. Особенности РСУ, учитываемые при разработке методов
РСПЗ/ОУ
Распределенная система управления (РСУ) рассматривается в общем виде как совокупность взаимосвязанных узлов управления, выполняющих функции контроля и управления отдельными блоками объекта (агрегатами) или технологическими процессами. Некоторые из этих узлов выполняют Функции, соотносимые непосредственно с конкретными агрегатами объекта управления или с определенными частями технологического процесса, другие - общие функции, выполнение которых необходимо для системы или объекта управления в целом.
Под процессорных модулей (ПМ) будем понимать совокупность вычислительных средств одного узла управления, полагая, что, как правило, ПМ - это некоторое однопроцессорное вычислительное устройство. Рассмотрение многопроцессорных ПМ оговаривается особо.
Полагаем справедливыми следующие положения, вытекающие из особенностей РСУ:
1. Система может выполнять задание одного из рассмотренных классов I или С (включая случайные и регламентированные задачи).
2. Задание остается неизменным в течение всего рассматриваемого периода функционирования системы.
3. Допустимо достаточно большое время ответной реакции системы на изменения значений параметров объекта, что создает временной ресурс, который может использоваться для повышения отказоустойчивости системы.
4. Допустимо.прекращение выполнения системой (отбрасывание) известного множества задач (функций), причем могут быть оценены веса задач, определяющие их значимость для управляемого оъекта; известно множество "критических" задач, отбрасывание каждой из которых приводит к отказу системы.
5. Известно основное Рмз X, определяющее начальное распределение задач по ПН, т. е. 0°, и для каждой задачи - область запрещенного размещения, т. е. множество ПН, в которых эта задача не может выполняться (в силу особенностей управляемого технологического процесса, топологии системы, аппаратных средств ПМ и др.).
Разработка методов обеспечения отказоустойчивости РСУ проводилась на основе введенной выше модели ОУ ПВС Агт (1.2.4).
3. 2. Рациональное статическое ПЗ/ОУ в сложных РСУ 3. 2.1. Итеративное ПЗ/ОУ
Для сложных РСУ, содержащих большое число ПМ, возможно, разнородных и удаленных друг от друга на большие расстояния, процедура ПЗ/ОУ для всей системы в целом оказывается достаточно трудоемкой как с точки зрения решения задачи оптимизации, так и с точки зрения реализации' этого ПЗ в системе. Кроме того, эта процедура может привести к решениям, требующим передачи по сети связи на большие расстояния дополнительных потоков информации между объектами, потерявшими "свои" ПМ (вследствие их отказов), и теми ПМ, которые взяли на себя решение задач управления этими объектами. Это, в свою очередь, ведет к перегрузке сети связи. Такая ситуация характерна для территориально распределенных систем, которые предназначены для управления взаимосвязанными технологическими объектами, размещенными на большой территории, и часто реализуются в виде локальных вычислительных сетей (ЛВС). Эти
же трудности встречаются и при проектировании сосредоточенных ОУ ПВС. Нами предложена процедура РСПЗ/ОУ, направленная на преодоление этих трудностей и основанная на итеративном формировании групп ПН при учете взаимной "близости" ПМ в определенном заранее.смысле [5,6,10,14].
Пусть при построении отказоустойчивой РСУ для каждого искаженного работоспособного состояния из заданного множества Б" требуется обеспечить некоторое фиксированное значение функциональной мощности (ф.м.) Е » (задаваемое заказчиком системы в пределах от номинального Е° до минимально допустимого Е*), при заданных требованиях к значениям временных показателей системы и минимальных дополнительных затратах. Предлагается следующая процедура решения этой задачи.
Сформируем группы ПН: А ,..,А ,..,А ; Б ,..,Б„,..,Б ;
1 с£ а 1 р Ь
В ,..,В ,..,В ;... , где А - группа 1-го (низшего) ранга I 7 я
состоящая из некоторого числа ПМ, Б„ - группа 2-го ранга,
р
состоящая из нескольких групп А^ , и т. д. вплоть до группы Н, включающей все. модули системы. Пусть Г ' - произвольная группа н-го ранга. При формировании этих . групп в качестве критерия используется обобщенное расстояние между ПМ, определяемое в соответствии с типом РСУ, ее топологией, технической структурой, типом системы .связи и другими факторами. Так, помимо географического понятия, в качестве расстояния может быть принята степень связности каждой пары ПИ, определяемая интенсивностью обмена информацией между ними. В качестве групп А^ могут рассматриваться многопроцессорные модули, состоящие из некоторого числа однопроцессорных ПМ. ■
Результирующее ОУРмЗ является, как и ранее, результатом совмещения планов РЗ для всех работоспособных э-состояний. включая начальное (по "правилу дизъюнкции").
Процедура построения плана РЗ для любого данного искаженного работоспособного состояния б состоит в следующем:
и
1. Выделить для данного состояния все группы А , в которых есть отказавшие ПМ.
2. Для каждой такой группы А^ попытаться построить план рационального РЗ. предусматривающий перераспределение множества V собственных задач отказавших ПМ этой группы только между
работоспособными ПМ данной группы и удовлетворяющий заданным требованиям к значению ф.м. Е , временным показателям и стоимости
г
РСУ. Если попытка успешна, т. е. найдено реаение оптимизационной задачи для жаждой из указанных групп, то задача построения плана РЗ для данного состояния решена.
3. Если есть такие группы А^ , для которых указанная попытка
«С
безуспешна (т. е. отсутствует решение задачи оптимизации при заданных значениях ф.м. и временных показателей системы), то для каждой из этих групп принимается одно из решений:
(1) выполнить рациональное РЗ (т.е. обеспечивающее заданное значение ф.м. при заданных ограничениях) внутри данной группы, введя для этого необходимое число избыточных ПИ (задача решена);
(2) выполнить распределение задач внутри данной группы без введения избыточных пн, обеспечив максимально возможное значение ф. м. Е^' при заданных ограничениях на значения временных показателей, которое, очевидно, менее требуемой величины Е .' Найти множество Н(А^) задач, которые были отброшены при этом распределении вследствие невозможности их размещения ни в одном ПМ данной группы при выполнении заданных ограничений (что привело к снижению значения ф.м.).
Если принято решение (2), то выполнить следующие операции:
4. Для каждой группы Б„ найти множество И-■ всех собственных
р Ьр
задач отказавших ПМ, отброшенных в результате указанного выше распределения задач внутри каждой из групп А^, входящих в данную
группу Б0 (как объединение всех множеств М(А^) для данной группы
р л
V- ■■■ ■
5. Попытаться найти рациональное распределение этих задач
между ПМ тех групп Аи е Б„, для которых на шаге 2 получено <*■ р
рациональное РЗ, не вызвавшее отбрасывания задач.
6. В случае безуспешности шага 5 для каких-либо групп Б.
р
повторить, начиная с шага 3, указанную выше последовательность процедур (принимая решения (1) или (2)) для групп Б^, В^, Г5 и т.д. в порядке увеличения их ранга. В случае невозможности найти требуемое рациональное РЗ для группы Н (включающей все ПМ системы) без использования избыточных ПМ на более низких уровнях следует ввести избыточные ПМ на уровне системы в целом.
На шаге 2 (построение плана рационального РЗ для группы ПМ А^ в состоянии s ) решается задача БЛП в одной из следующих постановок:
(а) для случая, когда требуемое значение ф.м. равно номинальному (т.е. при сохранении всех собственных задач отказавших ПН данной группы):
С -» min; дТ" *
ил I
где число работоспособных ПМ в группе А^ в состоянии Ь .- число собственных задач отказавших ПМ рассматриваемой группы в данном состоянии.
(б) для случая, когда требуемое значение ф. м. меньше
номинального - максимизация ф. м. Е" в каждом из состояний э е Б"
и
с последующей проверкой выполнения требования Е" > Е^:
я ь
Е" = У У 3 с!" шах; ДГ < ДГ" , 1=Т7д_ ; с < С* .
¿_ ) } 1 ' I 1 аЫоС Ы Л ЫсС
1=1
(3.2.2)
Выполнение шага 3 сводится к решению задач БЛП (3.2.1) или (3.2.2) при условии, что в группу А^ вводится дополнительный фиктивный работоспособный ПМ, который в начальном состоянии не имеет собственных задач и которому при построении планов РЗ мохет быть передано любое число задач отказавших ПМ. Множество задач, отданных в фиктивный ПМ в результате выполнения процедуры (3.2.1) или (3.2.2), рассматривается далее либо как множество задач, предназначенных для выполнения вводимыми избыточными ПМ (в случае принятия решения (1)), либо как множество И(А^) задач, подлежащих распределению внутри данной группы Б^ (в случае принятия решения (2)). ".
Шаг 5 выполняется аналогично шагу 2.
Описанный способ позволяет снизить трудоемкость решения задачи оптимизации, а также получить более рациональные проектные
9 L
и<* и*
11 II dM- Lu« (3.2.1)
l»1 J-l
решения при реализации процедуры ПЗ/ОУ в сложной РСУ, вероятность перегрузки системы связи при отказах ПМ задачу введения необходимого числа избыточных ПМ.
уменьшить и решить
3. 2. 2. Поэтапное ПЗ/ОУ
Статическое ПЗ требует хранения в памяти каждого ПМ программных модулей всех копий задач, которые этому ПМ, возможно, потребуется решать при переходе системы в любое из состояний заданного множества Б". При большом числе таких состояний (что необходимо для достижения высокой надежности системы), а также в тех случаях, когда система выполняет большое число достаточно сложных задач, объем памяти, требуемый в каждом ПМ для этих целей, может превысить величину, допустимую для выбранного комплекта технических средств (мини- или микро-ЭВМ, комплект микропроцессорных БИС и др. ) Кроме того, большая размерность задачи оптимизации, определяемая мощностью множества Б", затрудняет ее решение.
При динамическом ПЗ оптимальный план РЗ для каждого состояния из множества Б" определяется после идентификации состояния, в которое перешла система в результате отказов ПМ, и программные модули задач, выполняемых в этом состоянии, загружаются в память каждого ПМ из внешней памяти системы в соответствии с найденным планом. Время перехода системы на новое РЗ, зависящее от времени вычисления оптимального плана РЗ для данного состояния и от времени загрузки программных модулей, может существенно превышать соответствующее время для статического ПЗ.
На сочетании статического и динамического подходов к ПЗ основано предлагаемое ниже поэтапное ПЗ, позволяющее устранить недостатки того и другого способов [5,9]. Для реализации поэтапного ПЗ система должна иметь общую память (ОП), в которой угонятся программные модули всех задач, выполняемых в системе.
деление планов РЗ и обмен информацией между ОП и модулями системы может выполняться с помощью микроконтроллера.
Процедура поэтапного ПЗ состоит в следующем.
Этап 1. Выполняется статическое ПЗ для некоторого множества « состояний, заранее сформированного на основе требований.
предъявляемых к системе. Это множество может включать, например, все состояния, переход в которые, не сопровождающийся перераспределением задач отказавших ПН, приводит к потере управления наиболее ответственными объектами, либо все состояния, требующие минимального перерыва в функционирования системы (вызванного необходимостью ее реконфигурации при отказах ПН), либо все состояния, вероятность перехода в каждое из которых из начального состояния не менее заданной величины (в простейшем случае - все состояния, соответствующие отказу не более заданного числа любых ПМ). На основе полученных планов .РЗ для всех состояний выполняется загрузка программных модулей копий задач в память соответствующих ПМ.
Этап 2. Для каждого из состояний строится множество
^г = ^лючаюиее все состояния, вероятность перехода в
каждое из которых из состояния не менее заданной (в простейшем
случае - все состояния, находящиеся от на расстоянии (по
Хеымингу) не более заданного). При переходе системы в некоторое
конкретное состояние работоспособные ПМ могут немедленно начать
выполнение задач отказавших ПМ в соответствии с планом РЗ,
полученным для этого состояния при статическом ПЗ на этапе 1. Во
время пребывания системы в этом состоянии одновременно с
выполнением требуемых задач находятся оптимальные планы РЗ для
всех состояний только одного из множеств Б" , а именно, для
2
множества, соответствующего данному конкретному состоянию в
которое действительно перешла система. Затем в соответствии с найденными планами РЗ осуществляется загрузка из общей памяти системы в память соответствующих ПМ программных модулей задач, требуемых во всех состояниях только данного множества Б^ . Эти процедуры выполняются без прерывания работы системы. Программные модули тех задач, размещенных в ПМ системы на этапе 1, решение которых могло бы потребоваться только в состояниях множества Б>, не совпадающих с тем состоянием, в которое реально перешла система, могут быть удалены из памяти соответствующих ПМ.
Этап 5. Для каждого состояния з"2е Б" строится множество
Ц 2
£>з = {б^3 > (аналогично этапу 2). При переходе системы в определенное состояние э^2 работоспособные ПМ могут немедленно начать выполнение задач отказавших ПМ в соответствии с планом РЗ,
полученным для этого состояния на этапе 2. Одновременно по отношению ко всем состояниям множества Б^ выполняются процедуры, идентичные выполняемым на этапе 2 для состояний множества Б^.
Аналогично выполняются последующие этапы, количество которых определяется требованиями к отказоустойчивости системы. Планы РЗ для состояний, входящих во всевозможные подмножества , Б^ могут быть построены до начала работы системы одним из предложенных выие методов и записаны в ее внешнюю память. В этом случае при переходе системы в какое-ли^о из искаженных работоспособных состояний з|ь осуществляется только передача из внешней памяти системы в память соответствующих ПМ программ и данных тех задач, которые требуются в соответствии с найденными ранее планами РЗ для состояний множества Б® , построенного для данного состояния
При изложенном подходе загрузка дополнительных задач в память ПМ производится только в расчете на наиболее вероятные переходы системы. При таких переходах, т. е. переходах типа б" ч э^2 -+
-♦ з£3-..., прерывания в работе системы отсутствуют, если время реконфигурации (определяемое временем нахождения оптимальных планов РЗ и временем загрузки программных модулей в память ПМ или только последним) не превышает время пребывания системы в данном состоянии, которое определяется надежностью ПМ, При других, менее вероятных переходах (например, таких, как з° -»• з^2 ), для которых не предусмотрено предварительное вычисление новых планов РЗ и загрузка их в память ПМ на шаг вперед, происходит приостановка в работе системы, необходимая для ее реконфигурации. Вероятность этого события должна быть не более допустимой, что можно обеспечить формированием надлежащих множеств Б1, Б^, и т.д.
3.3. Рациональное статическое ПЗ/ОУ в территориально распределенных системах управления (ТРСУ)
Системы этого типа строятся как локальные или региональные управляющие сети, в которых обмен информацией между ПМ выполняется с помощью сети передачи данных (СПД), образуемой каналами связи и коммутационными модулями (КМ). Связь процессорных модулей с СПД осуществляется с помощью КМ или специальных интерфейсных
устройств. Непосредственную связь с блоками объекта управления имеют только некоторые из ПМ, а именно, ПМ нижнего функционального уровня, каждый из которых предназначен для контроля и управления определенным блоком объекта. Для ТРСУ характерно наличие большого числа узлов управления (до нескольких сотен), значительная территориальная рассредоточенность этих узлов (до сотен и тысяч км), иерархическая Функциональная структура. Типичными представителями ТРСУ являются многоуровневые иерархические системы, распределенные на больших площадях, такие как АСУ ТП добычи и транспортировки нефти и газа, системы энергоснабжения и др.
Для обеспечения отказоустойчивости ТРСУ могут применяться все описанные выше методы и алгоритмы при учете особенностей этих систем. В качестве функциональных показателей принимаются потери (1.3.4, 1.3.13) и расход (1.3.6, 1.3.14), либо отнесенные к каждому из работоспособных состояний, либо усредненные по всем этим состояниям с учетом распределения вероятностей пребывания в каждом из них. При выборе временных показателей (обычно отнесенных к каждому работоспособному состоянию-я0 или зи> учитываем, что в общем случае ТРСУ может выполнять как случайные, так я периодические (регламентированные) задачи, т. е. при построении ОУРмЗ должны учитываться временные ограничения для задач и того и другого вида. Для любого состояния э е Б" выполнение случайных
О
задач характеризуем показателями: Т^ - среднее время пребывания в ПМ М заявки на решение любой из задач, назначенных данному ПМ в
состоянии б, 1-1,д, д ■-. число работоспособных ПМ в данном
состоянии (1.3.7), Т^ - среднее время пребывания в системе заявки
на решение задачи II , j-l.lL (1.3.9): г" - загрузка каждого Ш М( в
состоянии 1-1,ди (1.3.10). Для периодических задач
используются показатели временного. регламента их реиения. Для
задачи и е 0 , где 0 - подмножество задач с одинаковым } с с
регламентом решения, принято: в£ - период выполнения задачи, г) -момент инициации задачи, с* - требуемый момент завериения задачи, т} - длительность решения задачи. Значения г", т* задаются внутри интервала вс относительно начального момента этого интервала, так. чтобы х « т* - г".
При определении для ТРСУ затрат как составляющей среднего расхода (1.3.14) полагаем, что величина с учитывает как стоимость избыточных вычислительных ресурсов, необходимых для реализации дополнительного РмЗ, так и затраты на избыточные ресурсы, относящиеся к средствам связи (дополнительные каналы, устройства интерфейса и т.п.), которые обеспечивают сохранение требуемого обмена информацией между задачами при изменении их распределения по процессорным модулям в искаженных б-состояниях.
С ориентацией на ТРСУ разработаны алгоритмы построения ОУРмЗ, минимизирующие среднее значение расхода на' множестве всех или только работоспособных Б-состояний - Алгоритмы 1/п/з - 2.а, 2. Ь, 2.с [19,24] (см. раздел 2.1). С помощью этих алгоритмов решается следующая задача оптимизации:
J (S") min;
L
R = У q du « R*; Vs е S". (3.3. 1)
i- 1
При этом для случайных задач необходимо обеспечить:
V < Т* , VU е Йы , Vs е S"; (3.3.2)
j j j с и
е* * ж" < 1, VM е Г , Vs е S", (3.3.3)
I 1 1 и и>
где г* - заданное минимальное значение загрузки ПМ Mi.
Для каждой периодической задачи U е Q" при назначении ее в
j р
ПМ М е 1Г в состоянии s^e S" требуется выполнение следующих условий:
ни j1 = гно j + лгни j
KU 11 = гк° 1 ± АгГ
и 11 - г° j ± ■С
ни ) 1 ♦ г " ji « тки , )1
(3.3.4)
г
гдэ г"°,тк? г° - номинальные значения параметров для начального Б-состояния при основном РмЗ; сни, гкы, т° - значения
J1 > I 11
соответствующих параметров для задачи при назначении ее в ПМ Н(
в состоянии с (г° - длительность выполнения задачи и в ПМ М в и ] I J 1
\ . ни . ки . и
состоянии 5 ), Дг , Дг , Дт - заданные допустимые отклонения
и J 1 )
значений параметров от номинальных.
Ограничения на избыточные ресурсы для ПМ К] имеют вид:
« и" 1-ТТп , (3.3.5)
- !>>'.51911' ТУ и
где - показатель, оценивающий потребность в избыточных
ресурсах вида д (объем памяти ПМ, пропускная способность канала связи и т.д.), необходимых для размещения любой копии задачи и в ПМ М1. Ограничения на общие ресурсы системы при необходимости задаются аналогично.
Ограничения (3. 3. 1)-(3. 3. 4) описывают область
работоспособности системы, если в качестве функционального показателя приняты потери I? в искаженном работоспособном состоянии з^, а в качестве временных показателей - указанные Еыие параметры, характеризующие выполнение периодических и случайных задач.
В этой задаче дискретной оптимизации с булевыми переменными ограничения (3.3.1) - (3.3.3) и (3.3.5) выражены аналитически, а (3.3.4) - алгоритмически. Последние могут быть точно проверены только с помощью имитационного моделирования, при этом возможны два подхода: (а) репение редуцированной задачи оптимизации без учета ограничений (3.3.4), с последующей проверкой полученного репения на выполнение этих ограничений с помощью имитационного блока; (б) непосредственное включение имитационного блока в схему репения задачи оптимизации.
Разработанные алгоритмы были применены для организации РСПЗ/ОУ при проектировании распределенных АСУ ТП дальнего транспорта газа (АСУ ТП ЯП") [19, 24]. Эти системы предназначены для контроля к управления режимом транспорта газа и объектами газотранспортной сети и имеют иерархическую функциональную структуру типа: система
управления (СУ) производственного объединения (высший уровень) -СУ компрессорной станции (КС) - СУ компрессорного цеха (КЦ) - СУ газоперекачивающего агрегата (ГПА). Ограничения на потери, временной регламент выполнения задач и допустимые области перераспределения задач были сформулированы с учетом особенностей систем этого типа и конкретных значений параметров. Использованы данные о потерях от невыполнения тех или иных задач, полученные на основе оценки, произведенной с помощью моделей объектов управления (в Московском НПО "Нефтегазавтоматика"). Ограничения на области перераспределения задач связаны как с Технологией объектов газотранспортной сети, так и с топологией системы связи. Учет этих ограничений, а также идентичности множеств задач, выполняемых в узлах одного уровня иерархии, позволяет снизить размерность задачи оптимизации.
Распределенные АСУ ТП данного типа реализуются на базе ЛВС. Одной из концепций является построение всей системы как совокупности связанных между собой малых ЛВС, каждая из которых объединяет некоторую группу узлов одного уровня (ГПА, КЦ или КС), например, подчиненных одному узлу высшего уровня. При таком подходе упрощается решение задачи построения ОУРмЗ, т.к. решение, полученное для одной ЛВС, может быть использовано и для других.
С помощью одного из предложенных алгоритмов (Алгоритм 1/п/Б-2.а) найдено рациональное ОУРмЗ (минимизирующее среднее значение расхода на множестве Б"1 состояний, соответствующих отказу любого одного ПМ) для фрагмента АСУ ТП ДТГ, который может быть принят в качестве типового при проектировании сложной системы. Этот фрагмент включает один ПМ уровня КС (ПМ/КС), и три подчиненных ему ПМ уровня КЦ (ПМ/КЦ), каждому из которых подчинено по 7 ПМ уровня ГПА.
Известно: начальное множество задач (все задачи периодические с заданным регламентом), начальное РЗ, затраты на избыточные ресурсы (память, каналы связи), требуемые для размещения копии каждой задачи в любом ПМ, допустимые области перераспределения задач, потери от ^ невыполнения каждой задачи, ограничения на емкость памяти одного ПМ, интенсивности отказов и восстановлений ПМ (и полученные на их основе предельные вероятности всех состояний б1. соответствующих отказу любого одного ПМ).
Планы РЗ для каждого из состояний б1 е Б"! необходимые для
и
построения результирующего ОУРмЗ, найдены путем решения задачи
минимизации расхода в данном состоянии, определяемого как
я.
ь / и [ [ +
J -111 -1
•И- , . , - -
.... J,п» 1
(3.3.6)
при ограничениях на память каждого ПМ и на регламент решения каждой задачи (последнее задано упрощенным выражением, которое описывает только необходимое условие размещения задач по ПМ без нарушения временных соотношений).
3.4. Рациональное статическое ПЗ/ОУ в распределенных информационно-управляющих системах
На нижнем уровне иерархической структуры РСУ наряду с другими типами локальных управляющих устройств, непосредственно связанных с объектами управления или с операторами, широко используются функционально распределенные информационно-управляющие
(измерительные) системы (РИУС). Такая система состоит из некоторого числа микропроцессорных измерительных устройств (МИУ), соединенных, как правило, шинной структурой. Каждое МИУ выполняет сбор и первичную обработку информации, поступающей от отдельного агрегата или самостоятельной части технологического процесса. В ПМ второго уровня РСУ выполняется обработка данных от нескольких МИУ и формирование обобщенных показателей работы нескольких взаимосвязанных агрегатов (например, в пределах цеха), а также формирование команд управления режимами работы агрегатов с целью оптимизации режима работы цеха. В ПМ более высоких уровней РСУ осуществляется оптимизация режимов работы нескольких цехов и рассчитываются их технико-экономические показатели.
Каждое МИУ содержит микропроцессорный контроллер, а также блоки ввода аналоговых сигналов и преобразования их в двоичный код и блоки вывода дискретных управляющих воздействий. С каждым
МИУ М , 1« 1,11. сопоставлено множество X = (х'.....х' )
I 1 11с
измеряемых параметров и множество П( программ обработки значений этих параметров. Как правило, множества параметров не
пересекаются, а множества программ обработки для всех МИУ одинаковы и содержат программы управления опросом датчиков, линеаризации и масштабирования сигналов, усреднения, сравнения текущих значений параметров технологического процесса с заданными предельными значениями (уставками), регистрации отклонений значений параметров от уставок, выдачи управляющих воздействий на объект и сигналов оператору. Основной режим работы МИУ циклический опрос датчиков, хотя одновременно возможен к случайный поток заявок на решение задач, которые „ генерируются при отклонениях значений параметров от уставок и при поступлении команд от ПМ более высоких уровней и от операторов.
Для обеспечения отказоустойчивости РИУС применены (с учетом ее особенностей) предложенные выше методы РСПЗ/ОУ (постановка задачи и подход к решению изложен в [?]). Под задачей и здесь понимается совокупность программ и данных, необходимых для обработки сигнала , поступающего от объекта и соответствующего. его одноименному параметру. Решение задачи рассматривается как процесс обработки данного сигнала. Задачи У различаются между собой только наборами необходимых данных, включающих текущие и предельные значения измеряемых параметров, а также необходимые константы и коэффициенты, например, связанные с нелинейностью датчиков, сдвигом начала отсчета и т.д. Множества хе программ обработки, как правило, одинаковы для всех параметров и не зависят от МИУ.
Для организации рационального статического ПЗ/ОУ в РИУС могут использоваться методы, приведенные в разделе 2. 1, где в качестве критерия оптимизации ОУРмЗ принимается функциональная мощность (выражаемая, в частности, через потери) или величина расхода при ограничениях на стоимость избыточной систему (или на дополнительные затраты) и на значения временного показателя отдельного ИМ, т. е. МИУ.
При определении временного показателя ПМ учитывается, что ПМ в измерительной системе, как правило, осуиествляет циклический опрос датчиков, последовательную обработку получаемых значений параметров и сравнение их с предельными значениями. Время цикла опроса пропорционально числу параметров, измеряемых данным МНУ. Время, требуемое для обработки различных параметров, в общем
случае различно, но часто порядок этой величины одинаков для всех параметров. Поступление на вход ПМ значения очередного параметра х при опросе датчиков трактуется как заявка на решение задачи 11^. Поток заявок, обусловленный циклической обработкой входных сигналов, является детерминированным.
■Кроме того, в общем случае существует случайный поток заявок, вызываемый следующими событиями:
а) расхождение текущего значения параметра с заданным предельным значением; в этом случае прерывается циклический опрос и начинается выполнение подпрограмм регистрации отклонения параметра от нормы и генерации необходимой информации оператору и команд для системы управления.
б)'поступление заявки от оператора или от ПН более высокого уровня на выполнение определенной программы, например, программы ликвидации аварийной ситуации.
Результатом суммирования этих двух потоков при определенных условиях является случайный поток с пуассоновским распределением.
При циклическом режиме работы каждого ПИ Н1 для него задается допустимое приращение времени цикла Дт( и считается, что решение в этом ПМ несобственной задачи и^ (т. е. обработка дополнительного сигнала х ) вызывает приращение времени цикла Дг^. Эта величина в общем случае зависит как от обрабатываемого параметра (различные параметры могут требовать различных процедур обработки), так и от ПМ. Однако, если множества программ обработки всех параметров одинаковы и все МИУ однотипны (что часто имеет место), то Д-
для любых ПМ и параметров. При случайном потоке заявок может быть найдено приращение ДТ среднего времени обслуживания заявки в ПМ Н( вследствие передачи ему несобственной задачи и .
При оценке суммарных дополнительных затрат на реализацию ОУРмЗ учитывается, что решение в ПМ Н( несобственной задачи и^ требует дополнительных затрат с^ = + , где с^- затраты на дополнительную память, требующуюся для хранения в ПМ М( текущих значений параметра х , его предельных значений, постоянных коэффициентов и других данных, необходимых для обработки данного параметра; - затраты на организацию дополнительных связей,
необходимых для передачи значений параметра х^ в модуль М( (дополнительные каналы связи и устройства ввода-вывода (УВВ)).
В общем случае система может содержать ИМ различных типов,
зависящих от множества измеряемых параметров. Модули могут
различаться числом входных и выходных каналов, наличием или
отсутствием АЦП и ЦАП, типом интерфейса ввода-вывода
(последовательный, параллельный, программируемый), объемом памяти,
быстродействием микроконтроллера. В этом случае стоимость
дополнительной памяти и УВВ, а следовательно, и затраты с ,
зависят как от типа ПМ, так и от обрабатываемого параметра. Если
все ПМ однотипны, то с » с . ,,
1*1 и '
Рассмотрим частный случай, когда дополнительные затрата и
приращение среднего времени обслуживания заявки (или времени
цикла), вызываемые необходимостью обработки в ПМ некоторого
несобственного параметра х^, зависят только от этого параметра
(т.е. от задачи и ) и одинаковы для всех модулей. В этом случае
общие дополнительные затраты, требуемые для передачи задач
отказавших ПМ работоспособным, определяются для данного
состояния только множеством задач, оставленных в системе, и не
зависят от распределения их по модулям. Суммарное приращение АТ1
среднего времени обслуживания заявки в каждом ПМ зависит от
множества несобственных задач, назначенных для решения именно в
этом ПМ, т. е. от плана РЗ.
Пусть задача построения рационального ОУРмЗ для РИУС
формулируется как задача минимизации суммарных потерь Я для
У
каждого состояния б из заданного множества Б" искаженных
и
работоспособных состояний при ограничениях на суммарные дополнительные затраты С и на суммарные приращения ЛТ" для
и I
каждого работоспособного ПМ М( в этой состоянии, Т.е.:
ЛТ" « ДТЫ\ 1- Т7д . Ув € Б".
1 I эи и
Для указанного частного случая эта задача для каждого
данного состояния 5 решается в два этапа. ы
1. Найти множество Аг с таких задач отказавших ПМ,
О ..
сохранение которых в системе обеспечивает минимум потерь при допустимых суммарных дополнительных затратах, т.е. решить задачу:
««, - св « с;.
й - И -У Ь" д
и Ышак (1
тш.
и е *
|1 и
С - У Ьы с < с*
и € АГ
ц и
где Аги
- мнохество всех собственных задач отказавших ПН для данного состояния б :
д^ - максимальные потери в данном состоянии,
и е а
(I и
соответствующие отбрасыванию всех задач мнохества Аг;
и
е {0,1), Ь^ - 1, если задача Ц^ остается в системе в состоянии э , Ь" ■ 0, если задача отбрасывается.
2. Найти такое распределение задач найденного мнохества АГе
и
по работоспособным ПМ данного состояния, которое удовлетворяет заданному ограничению на приращение времени обслухивания заявки в каждом ПМ при минимуме дополнительных потерь, обусловленных тем, что некоторые задачи множества АГе могут быть отброшены с целью
и
удовлетворения временных ограничений.
Эта задача решается как задача максимизации той составляющей потерь, которая соответствует подмножеству е задач,
сохраненных в системе на втором этапе распределения (т.е. назначенных каким-либо из работоспособных ПМ состояния б ):
Р(ВГС ) - у у а" 9 тах.
и и. М1аИ
_ г ^ г с
пение» I и> (1 и
АТ?
Е
<1" лт
«11 ц
«г
и е а
к
где 1Г - множество работоспособных ПМ в состоянии <1^6 (0,1) определяется как и ранее.
Аналогично при учете особенностей РИУС формулируется задача построения рационального ОУРмЗ, при котором достигается заданное значение вероятности безотказной работы системы при минимуме дополнительных затрат и заданных временных ограничениях.
Выше предполагалось, что АТ^ является линейной функцией частных приращений ЛТ^, которые считаются известными. Если это допущение представляется оправданным для циклического режима работы ПМ (когда ЛТ^ » Дг^), то при обработке случайного потока заявок в общем случае его нельзя считать обоснованным и необходимо пользоваться методом, изложенным в разделе 2. 1. при описании Алгоритма 1/п/0 - 3. Для сложных РИУС могут применяться итеративное и поэтапное ПЗ.
3.5. Обеспечение отказоустойчивого функционирования РСУ при выполнении операций с файлами.
Для РСУ, применяемых в управлении производством и большими системами массового обслуживания (системы резервирования ж. д. и авиабилетов, системы административного управления информационными сетями и др.), характерно выполнение большого объема операций с файлами данных. Такие РСУ обычно содержат компоненты трех типов: автоматизированные рабочие места (АРМ) П ....,П , построенные на
1 п
основе персональных ЭВМ (ПЭВМ), систему связи (СС) и банки данных
(БД) Б],...,, в которых хранятся перманентные файлы .....^
(т.е. файлы не требующие частого обновления).
Предложен метод отказоустойчивого выполнения операций с перманентными файлами, инициируемых заявками, которые генерируются операторами АРМ [48]. Предполагается,что имеет место пуассоновский поток отказов БД, а также узлов и каналов системы связи без их восстановления. Надежность системы связи характеризуется вероятностью связности любых двух заданных узлов (при заданных вероятностях отказов узлов и каналов связи).
Пусть г(П ,Рк), 1=1,п, к«1.г - заявка на выполнение некоторой операции с файлом Рк> генерируемая пользователем АРМ П1. йбслухивание такой заявки состоит из следующих этапов:
1) постановка заявки: в очередь 0(П ,F ). формируемую в АРМ П( (в этой очереди заявка находится до окончания выполнения операции с данным файлом или до получения отказа в обслуживании).
2) определение (с учетом ненадежности системы связи) допустимого пути передачи информации от АРМ П( к одному из работоспособных БД, содержащих файл F . и установление связи с этим БД, если такой путь существует;
3) выполнение в БД требуемой операции с файлом Fk и передача необходимой информации в АРМ П1.
Заявка Z^.F^) получает отказ в обслуживании, если в системе нет ни одного работоспособного БД, содержащего файл Fk , или, если при наличии таких БД отсутствуют пути передачи информации к ним от АРМ П1 (вследствие отказов компонентов системы связи).
Выполнение заявки Z(n ,F ) назовем отказоустойчивый, если:
1) вероятность отказа Р(П1,F ) в обслуживании заявки на превышает допустимой величины Р* (П ,Fk ) ;
2) средняя длина ЦП >Ffc) очереди таких заявок в АРМ 11 ( не более допустимой 1*(П ,F ) ;
Задача состоит в том, чтобы в РСУ с заданной структурой, обеспечить отказоустойчивое выполнение всех заявок Z(H ,Fk>,
i=l,n, k=l,r, при заданных значениях P*(ni,Ffc) и 1*(П ,F ),
Предлагается'следующая процедура решения этой задачи.
1. Найти размещение файлов Fj.....Fr в банках данных
Bj.....Б , удовлетворяющее условию:
Pi^.F^).«« Р'(П ,Fk) (3.5.1)
при ограничениях на допустимый объем памяти и допустимую загрузку
« V*. J - l.m , (3.5.2)
каждого БД Bj, т. е.
те а * )
= ^ ^ г^П^) « 9* J-I.ni. (3.5.3)
Г € П I ■ 1 к J
где fiJ - множество файлов, размещенных в БД БJ, - объем
памяти, требуемый для файла Р , V* - максимально допустимый объем памяти любого БД, г (^ ^) - загрузка БД БJ заявками ,Р ). в*- предельная допустимая загрузка любого одного БД.
2. Выбрать для обслуживания заявок ■1(П1 ,Р ) такие из работоспособных БД. содержащих файлы Р^."■ при использовании которых удовлетворяется условие
1 СП ,Р ) « Г(П ,Р ) . (3.5.4)
1 к ' 1 к '
Назовем максимальной группой файлов такое множество Г^ = файлов, для которого выполняются условия (3.5.2) и (3.5.3) при
йJ = Г^, причем хотя бы одно из них наружается при добавлении к данному множеству любого одного из файлов, не включенных в него ранее.
На первом этапе выполняются следующие шаги С481
(1) Определить множество й = (Г ) всех максимальных (в общем случае пересекающихся) групп файлов.
(2) Для каждого АРМ П( и БД Б^, 1-1,п. определить
вероятность^^ доступа от П[ к Б^, т.е. вероятность того, что данный БД исправен и что в системе связи существует хотя бы один путь передачи информации между ^ и Б,
(3) Выбрать из множества П такое подмножество Й* = (Г[> максимальных групп файлов, что для любого АРМ П 1-1,п, и любого файла Р^ € выполняется условие (3.5.1).
(4) Сопоставить с каждым БД БJ, 3=1,ш, одну из максимальных групп г| (произвольно).
На втором этапе для выбора работоспособных БД, обеспечивающих допустимую длину очереди заявок в каждом АРМ, применяется метод, использующий элементы теории игр автоматов [48].
3.6. Обеспечение отказоустойчивости РСУ конвейерного типа
Отказоиеустойчивая структура конвейерной РСУ (КС-0) представляет собой цепь ИМ. соединенных в виде однонаправленного
конвейера, в котором каждый ИМ М , 1»1,п, связан только со своим непосредственным последователем М ^ 1, (которому передаются результаты обработки данных в М1) и, кроме того, управляет локальным объектом , получая от него входные данные У( и вырабатывая управляющее воздействие 2(. Это воздействие зависит от данных, поступающих от объектов О ,02,..,0 в соответствующие ПМ и обрабатываемых в них.
Отказоустойчивость конвейерной РСУ достигается путем введения обходных соединений, позволяющих при отказах определенного числа любых ПМ не допустить разрыва конвейера, передать часть задач, выполняемых отказавшими ПМ, их ' соседям и продолжить функционирование РСУ при ее допустимой деградации.
В отказоустойчивой структуре с обходом каждого одного ПМ (КС-1) каждый ПМ М имеет входящие соединения с двумя предшественниками Ни М4 2 и исходящие соединения с двумя последователями М и М . . При отсутствии отказов каждый ПМ М
1*1 1*2 I
обменивается информацией только с й 1 и И )1- При отказе любого одного ПМ этот ПМ исключается из системы путем блокирования всех его соединений-и активизации соединений, обходящих этот ПМ. При этом осуществляется программная реконфигурация системы, в результате которой все или часть задач отказавшего ПМ назначаются для выполнения его соседям. Эта возможность обеспечивается размещением в памяти каждого ПМ программных модулей тех задач соседних ПМ, выполнение которых он возьмет на себя при отказах этих ПМ. В силу специфики конвейерной системы и зависимости части задач каждого ПМ от выходных данных управляемого им локального объекта, соседним ПМ может быть передана только часть задач отказавшего ПМ, а именно только те задачи, выполнение которых не зависит от указанных данных. Полагаем, что потеря связи любого одного локального объекта с РСУ в результате отказа ПМ не приводит к отказу системы, а вызывает ее функциональную деградацию вследствие потери задач, зависящих от информации, поступающей от этого объекта.
Поя отказом системы понимается функциональный отказ, т.е. Ff « {ф « Ф*}, а в качестве условного функционального показателя принята нормированная функциональная мощность (н. ф.м.) системы в состоянии s^: ■> L / L, где Lv - число задач, которые система способна выполнять в состоянии sv, L - общее число задач, выполняемых системой при отсутствии отказов. Отказоустойчивость системы характеризуем вероятностью ее безотказной работы (ВБР) за интервал времени Т (от t=0 до t»tT):
Q - P(G(t) » G*, 0 < t < t°},
т т
где G(t) 0v. если s(t) - s^, G* - минимально допустимое значение н. ф. м.
Для конвейерной РСУ критичным, помимо нарушения заданного порога G* н.ф.м., является разрыв линии ПМ, в результате которого система распадается на несколько независимых частей, между которыми невозможна передача информации. Значения н.ф. м. для состояний, соответствующих разрыву линии, могут быть выбраны различным образом, в зависимости от специфики управляемого объекта. Отнесем эти состояния s* к состояниям отказа РСУ, полагая, что для каждого из таких состояний н.ф.м. G* = О (к -число отказавших ПМ). Для состояний s*, не вызывающих разрыва линии, значения н.ф. м. определяются подмножеством тех задач, которые ке могут быть переданы другим ПМ. • Это подмножество находится путем разбиения множества задач, выполняемых каждым ПМ.на определенные подмножества, исходя из специфики функционирования конвейерной РСУ.
Показано, что G* = 1 - ipk/n, где <р » w/m, w - число задач, отбрасываемых при отказе одного ПМ (которые не могут быть переданы другим ПМ), m - число собственных задач одного ПМ. В структуре КС-О разрыв линии наступает при отказе любого одного ПМ. В структуре КС-1 разрыв линии не наступает при отказе любого одного ПМ, а при отказе большего числа ПМ наступает только в том случае, когда среди отказавших ПМ есть хотя бы одна пара соседних. В структуре КС-a с возможностью обхода любого числа IIM, не превосходящего <х, разрыв линии не наступает при отказе любого числа ПИ, не превышающего ы, a при отказе большего числа ПМ наступает только при наличии в системе хотя бы одной группы
соседних отказавших ПМ, число которых •}"<*+ 1.
Для отказоустойчивой структуры КС-1 получена точная формула для вычисления ВБР системы при учете как разрыва линии, так и нарушения допустимого порога н. ф. м. при отсутствии такого разрыва. Для структуры типа КС-<< получены нижние оценки ВБР (в общем случае) и вероятности отсутствия разрыва линии для случаев «</п > р и о(/п < р, где р - вероятность отказа одного ПМ за время Т. Проведен также анализ отказоустойчивости, производительности и стоимости конвейерной РСУ со структурой типа КС-а, в которой каждый ПМ управляет группой локальных объектов. Исследована зависимость этих характеристик от числа и сложности ПМ и сформулирована задача выбора оптимального числа ПМ, как задача теории принятия решений. Исследованию отказоустойчивости конвейерной РСУ посвящены работы 11,2]. В [111 рассмотрено применение изложенного подхода для обеспечения отказоустойчивости кольцевой системы связи, используемой при построении РСУ.
3.7. Рациональное статическое ПЗ/ОУ в децентрализованной системе автоматического регулирования (ДСАР).
Модель ДСАР. Системы этого типа предназначены для решения задач непосредственного цифрового управления (НЦУ) технологическими процессами. Пусть 0 - (0(}, 1=1,N - множество объектов управления, каждому из которых соответствует множество регулируемых режимных параметров - {г^ ), и = 1,0^; А = {а^},
к=1,К, множество всех возможных алгоритмов управления режимными параметрами, используемых в данной системе; А(г^) » (а^1}, к-1,К
- набор алгоритмов управления параметром г^ объекта 0(, где е А. Множества А(гМ в общем случае могут быть пересекающимися. Под задачей, выполняемой системой, понимается программный модуль, реализующий алгоритм управления ак по отношению к параметру г^ объекта 0(. Эта задача может быть представлена как
^(и <к) = гле К ' программный модуль, реализующий
ту часть алгоритма управления, которая является одинаковой для всех параметров и зависит только от алгоритма управления ак€ А; ■I? (к( - программный модуль, зависящий как от алгоритма управления
ак , так и от данного параметра г^, т.е. определяющий привязку алгоритма а^ к данному параметру.
В силу однотипности задач управления технологическими процессами для ДСАР характерно использование стандартного набора А° = {а^) алгоритмов управления режимными параметрами объектов, не зависящего от параметра и от объекта. В этом случае под задачей и - {А°,К(11 > понимается программный модуль, реализующий заданный стандартный набор А° алгоритмов управления по отношению к параметру г^ объекта . Рассматриваем случай,с когда все задачи
и , т=1,1., выполняемые системой, где И е (II , ), являются
К « Ц1
периодическими и для любой из них известно: г^ - время решения задачи, т.е. время выполнения (без прерываний) программного модуля задачи на одном процессоре из заданного комплекса технических средств; Т^ - период решения задачи (дискретность); в-максимально допустимое время выполнения задачи (отсчитывается от начала периода); ую ~ объем памяти, занимаемый программным модулем задачи.
Современная ДСАР строится на основе локальной вычислительной сети (ЛВС). Ее структура представляет собой совокупность процессорных блоков (ПБ), каждый из которых, т.е. В(,
соответствует одному объекту управления О , 1=1,N, и состоит из п( однотипных ПН, выполняющих задачи управления . параметрами этого объекта. С помощью ЛВС обеспечивается полносвязное информационное взаимодействие между всеми ПБ системы, ас помощью внутриблочных структур межсоединений и устройств сопряжения с объектами (УСО) -полносвязное взаимодействие между всеми ПМ данного ПБ, а также между этими ПН и соответствующим объектом.
Рациональное ПЗ/ОУ при построении отказоустойчивой ДСАР. Эта задача решается в два этапа: (1) определение необходимого числа ПМ в каждом ПБ ДСАР и построение основного РмЗ для каждого ПБ при отсутствии отказов ПМ; (2) построение дополнительного РмЗ для каждого ПБ с введением при необходимости дополнительных ПМ.
Этап 1. Для каждого ПБ В(, 1=1.И. находится минимальное число п® ПМ. требуемое для основного размещения всех задач множества й" , выполняемых в этом ПБ, при удовлетворении заданных временных ограничений и ограничений по памяти.
Полагаем, что - множество задач, размещаемых в ПМ М' в
соответствии с основным размещением и б й°а справедливо: - ~
что для произвольной задачи и1* е й° справедливо: г" - г , V1* - V , Т' - единый период
а 1 а я в а а а
дискретизации для всех задач, размещенных в ПМ МЧ (эти задачи
выполняются последовательно без прерываний и их выполнение должно
быть завершено в течение одного периода). Тогда для каждого ПМ
ограничения по времени и по памяти определяются как
е1
Г"
■ 1 Г а
1 а _ и € а 1 а
Г"*
V я
1 « ^ и е а
Т'
V,
1,П°
1.П?
(3.7.1)
(3.7.2)
Необходимо найти такое основное размещение всех задач множества й° » (и1} по ПМ данного ПБ, чтобы число п° ПМ в этом ПБ
[ м I
было минимальным при выполнении требований (3.7. 1) и (3.7.2).
Полагаем,, что при заданных временных характеристиках задач вычислительные ресурсы ПМ позволяют удовлетворить временные ограничения (3.7.1) при любом основном размещении задач заданного множества по ПМ любого ПБ. Тогда указанная задача при учете только ограничения (3.7.2) сводится к одной из задач дискретной оптимизации - "задаче упаковки" и формулируется как:
п° -» ш1п ,
/'* - У х' V £ ¿^ ■ а »
и' €С1° в 1
V, а - 1 ,п°
(а)
(б)
(3.7.3)
I
I 1*1
О
I
I" -1\
I» ^
ш -1,1.:
(в)
(Г)
к
1 •
а
1
где х1 е (0,1) - элемент матрицы основного РмЗ X1 в ПБ В ; х1 »1,
■ а 1 к
если задача размещается в ПН М', х^ =0 в противном случае;
- число задач, размещенных в 1 - общее число задач,
размещенных в ПБ В(; каждая задача размещается в одном л только в одном ПМ (см. условие 3.7.3 г).
Этап 2. Для каждого ПБ , 1 ■ 1, N строится дополнительное РмЗ без увеличения числа ПМ п°, полученного на этапе 1, и без отбрасывания задач. При этом должны быть удовлетворены следующие временные ограничения для каждого работоспособного ПМ М^ в состоянии в е Б":
и
)•'«■- У й1и г < ДТ"? а -1,д (3.7.4)
® ■» в » 31 и
и1 € П° ■ 1
и ограничения по памяти для каждого ПМ М1
/ V < V1*, а =1,п°, (3.7.5)
'»« ■ « I
и1 е й° • 1
где с!1" е (0,1), (11и - 1, если в состоянии в задача и1
в& я« и *
размещается в ПМ М^, " ® в противном случае; д - число
р-ПМ в ПБ В в состоянии б ; V1® - свободный ресурс памяти ПМ
I 0) .Л
М^ после выполнения основного РмЗ; <0.П - элемент матрицы
У' дополнительного РмЗ в ПБ В , определяемый как у1 » V с11ы .
и
. «Б и
Данная задача решается как задача БЛП при учете того, что в каждом состоянии б должны выполняться все задачи (требование
О
(3.7.3 в)) и что любая задача назначается для решения только.в один р-ПМ. Принято, что множества собственных задач различных ПМ М^ не пересекаются.
Если при данном числе ПМ п° решение отсутствует, то процедура повторяется при введении дополнительных ПМ, число которых Ь определяется, исходя из объема недостающей памяти, при учете ее свободного ресурса, имеющегося в каждом ПМ после выполнения
основного РмЗ. С целью минимизации объема памяти дополнительное РмЗ строится с учетом полученного в соответствии с основным РнЗ размещения программных модулей Ак, каждый из которых может быть использован для обработки нескольких различных параметров г^ (т.е. входит в состав нескольких различных задач U^). Резервные копии задач размещаются в первую очередь в тех ПМ, которые уже содержат соответствующие этим задачам алгоритмы обработки, т.е. модули А^. В этом случае требуется дополнительно разместить в таких ПМ только копии программных модулей и обеспечить возможность
взаимодействия между модулем А^ и всеми соответствующими ему R С391. При учете возможности отбрасывания задач, т.е. не только временной, но и функциональной деградации, для построония ОУРмЗ могут быть применены с учетом указанных выше особенностей ДСАР и требований, предъявляемых к системе, алгоритмы максимизации ф. м. или минимизации расхода, описанные в разделе 2. 1.
Реализация ОУ ДСАР и ее применение. В результате исследований, проведенных при участил автора, в Азербайджанском институте нефти и химии им. !1 Азизбекова на основе изложенных принципов была разработана архитектура, аппаратные и программные средства ДСАР для отказоустойчивого управления непрерывными технологическими процессами на Ново-Бакинском нефтеперерабатыва -ющем заводе км. Владимира Ильича (НБНЗ) [39].
Система построена на основе ЛВС с кольцевой структурой и маркерным методом доступа, чем обеспечивается полносвязное взаимодействие между ее узлами (т.е. ПМ) и возможность использования свободных вычислительных ресурсов исправных ПМ для перераспределения задач. Максимальное количество узлов сети - 256, расстояние между ними - до 1 км, что позволяет охватить территорию крупного промыпленного предприятия. Скорость передачи данных -3 Мбит/с. Система содержит ПМ двух типов - станции связи с операторами и станции управления объектами, реализованные на базе диалоговых вычислительных комплексов (ДВК), выбор которых обусловлен требованием совместимости с существующими вычислительными и программными средствами интегрированной АСУ завода. Основными функциями станций связи с операторами являются поддержка человеко-системного интерфейса и первичная обработка технологической информации для ее последующей передачи на верхние
уровни управления. Станции управления объектами предназначены для непосредственного цифрового управления технологическими процессами, включающего периодическое измерение значений технологических параметров, вычисление их истинных значений, контроль отклонений от установленных пределов, формирование управляющих воздействий и передачу их на исполнительные механизмы.
В условиях нефтепереработки, когда станция сети управляет аварийно опасными крупнотоннажными технологическими процессами с высокоинтенсивными материальными потоками, потеря управляющих функций при отказах отдельных станций становится недопустимой. Вместе с тем обеспечение взаимозаменяемости станций путем оптимального резервирования в них задач управления приводит к существенному увеличению требуемого объема памяти и, как следствие, к удорожанию системы в целом. Анализ задач, решаемых современными системами НЦУ, выявил относительно небольшое число их типов, определяемое стандартным набором алгоритмов стабилизации режимных параметров (пропорционально-интегро-дифференциальных, инвариантных, адаптивных, стохастических, нечетких), алгоритмов съема первичной информации, выдачи управляющих воздействий и др.
Практическая реализация подобного перераспределения возможна лишь при сохранении физического доступа к объекту управления в период отказа станции сети. Эта проблема решена путем разработки специализированного многовходового УСО, допускающего
взаимодействие с четырьмя станциями сети и имеющего
4. ВОССТАНОВЛЕНИЕ ВЫЧИСЛИТЕЛЬНЫХ ПРОЦЕССОВ В ОУ ПВС ПРИ РЕАЛИЗАЦИИ РАЦИОНАЛЬНОГО СТАТИЧЕСКОГО ПЕРЕРАСПРЕДЕЛЕНИЯ ЗАДАЧ
4. 1. Принципы реактивизации процессов в ОУ ПВС, реализующей . рациональное статическое ПЗ/ОУ
Пусть ОУ ПВС устойчива к отказам не более с! любых ПМ из общего числа п ПМ. Работоспособной конфигурацией А® такой системы назовем конфигурацию, содержащую д работоспособных ПМ, где ■п-с1- д < п. . Основной назовем конфигурацию, для которой д = п.
Обеспечение отказоустойчивости ПВС на основе рационального статического ПЗ/ОУ требует выполнения следующих процедур.
1. Построение для каждой работоспособной д-конфигурации системы рационального расписания R*, д » n-d,n, т.е. такого, которое обеспечивает требуемое время выполнения задания (минимальное или не превышающее заданного значения) при ряде заданных ограничений.
2. Построение такого отказоустойчивого размещения основных процессов и их копий по п ПМ, при котором выполнение задания в каждой работоспособной g-конфигурации системы осуществляется в соответствии с рациональным расписанием ГУ.
3. Определение такого механизма перехода системы с расписания R® на 1?'" при отказах к любых ПМ, который обеспечивает корректное восстановление вычислений в работоспособной (g-k)-конфигурации ОУ ПВС при возможно меньших затратах времени.
Предложенные нами методы выполнения процедур 1 и 2 изложены выше. Рассмотрим проблему восстановления вычислений. При решении этой проблемы мы базируемся на принципе "восстановления с возвратом" (backward recovery), который состоит в следующем. В определенные моменты выполнения процесса создаются контрольные точки (КТ), т.е. состояния процесса, соответствующие этим моментам, запоминаются в некоторой памяти, внешней по отношению к ПМ, выполняющему процесс, и считающейся безотказной. При обнаружении ошибки в выполнении процесса (например, по промежуточным результатам или с помощью периодического тестирования) этот процесс прерывается и его выполнение возобновляется, начиная с состояния, соответствующего КТ, ближайией к моменту отказа (в том же самом ПМ при программной ошибке или аппаратном сбое, в другом ПМ при аппаратном отказе). При этом результаты первоначального выполнения процесса на интервале от данной КТ до момента отказа отбрасываются и процесс повторно выполняется на этом интервале.
Использование этого принципа при реализации РСПЗ/ОУ имеет существенные особенности, связанные с уменьшением числа р-ПМ в системе и с необходимостью осуществлять реактивизацию процессов одновременно с их перераспределением по р-ПМ.
Рассмотрим проблему восстановления вычислений при выполнении системой задания класса С [36.37,55,58], полагая для определенности, что задание описано с помощью ГВЗ при произвольных временах выполнения процессов. Под отказом системы понимается временной отказ, т.е. Р - (Т > Т*}.
Пусть Кй4) - время выполнения задания в соответствии с рациональным расписанием . Очевидно, что при построении рациональных расписаний для всех работоспособных конфигураций системы одним и тем же способом справедливо: К!?") « КР"'1) « Т(Р3) <...«
Введем некоторые понятия, необходимые для исследования проблемы восстановления процессов. Пусть система выполняет задание О « ^ Ь Выполнение каждого из процессов Р) представим в
виде последовательности его состояний:
о 1 Ь • » г Г
X, X ...-»Х -»X •....•♦хих . (4.1)
¡1 I 1 11
Состояние процесса в данный момент . определяется его контекстом, т. е. содержимым регистров процессора и определенных областей памяти того ПМ, в котором выполняется данный процесс (исполняющего ПМ). Имеется три типа состояний процесса: Х° начальное состояние (контекст процесса загружен в регистры процессора и в память исполняющего ПМ, но' никакие команды программы процесса не выполняются); X*, 11-1,г^ - активное состояние (выполняется одна из команд программы процесса, вследствие чего модифицируется его контекст, т.е. происходит переход в новое состояние); Х^ - конечное состояние, в которое процесс переходит после выполнения последней команды его программы (контекст процесса удален из памяти исполняющего ПМ).
Считаем, что состояние Х^ процесса PJ старше состояния X*
этого процесса (и обозначаем X" > Х^), если Х^ находится правее,
чем X* в последовательности (4.1).
Элементарным процессом (ЭП) назовем процесс, для которого кроме начального и конечного состояний существует только одно активное состояние. Полагаец, что 6 - время выполнения любого элементарного процесса и, что выполнение процессов одного задания
синхронизировано таким образом, что изменения состояний всех параллельно выполняющихся процессов происходят в одни и те же иоменты t реального времени (моменты р. в. ). Эти моменты заданы дискретной временной шкалой с нагом длительности о, называемым шагом выполнения задания э реальном времени (шагом р. в. ) и обозначаемым г .
Время выполнения процессов задания измеряется числом шагов. Расписания выполнения задания строятся в соответствии с временной шкалой, имеющей шаг длительности в, который называется шагом расписания R®, обозначается г® и при . выполнении задания сопоставляется с тем или иным шагом р. в. г . Граничные моменты t® шагов расписания называем моментами времени расписания К'. Очевидно, что одному и тому же шагу г^ реального времени могут соответствовать в различных расписаниях выполнения данного задания (например, в R9 и в Р"1) различные состояния некоторого . процесса Р^ (поскольку»местоположение временного интервала выполнения этого процесса мохет быть различным в этих расписаниях), т.е.
Х(Р ,R",r ) » X" и Х(Р ,Rq-\ г ) = Хр ,
j « j j » j
где X4 * Xp .
■5
Состояние задания на данном шаге г расписания R , обозначаемое S(R®,r), определим как набор состояний всех процессов задания на этом шаге, т.е.
S(R* ,r) = (X (R® ,г), j -ГХ) j J
Очевидно, состояние задания изменяется в кахдый из моментов 't дискретной временной шкалы. Пусть:
S(R*,v) = (Х^(R9,v), j =171) и S(R®~1,w) = (Xj(R4"1 ,w), j =171} -
состояния задания на шаге v расписания R4 и на шаге w расписания R9*1, где XjiR'.v), XjtR4"1^) е (х }; (х | - множество всех возможных состояний процесса Р . '
Считаем, что состояние S(R®,v) старше состояния S(R®"1,w), либо совпадает с ним, если для любого процесса Pj справедливо: .X (R®,v)-» X (R9"1,«), где знак ">" обозначает введенное выше отношение старшинства состояний процессов, а знак - совпадение соответствующих состояний, причем отношение старшинства состояний задания выполняется, если состояния хотя бы одного из процессов
находятся в отношении: Х1 (И® .V) >Х^(1?®"1,и). Эти отношения выявляются на основе известной для каждого процесса последовательности (4.1). Введенное отношение старшинства или
совпадения состояний задания обозначим , v) » БСР4"1 ,и).
Пусть для обеспечения устойчивости ЛВС к отказам с! любых ПМ построены рациональные расписания И®, д » (п-«1),п для всех возможных работоспособных конфигураций и осуществлено отказоустойчивое размещение основных процессов и их копий, соответствующее этим расписаниям. Пусть задание выполняется в основной конфигурации ПВС по расписанию И", шаги которого г" совпадают с шагами г^ шкалы реального времени (р. в. ).
В случае возникновения отказов любых к ПМ (где 1 « к « с!) на любом шаге г^ реального времени, называемым шагом отказа (которому соответствует шаг г"г расписания ГУ), выполнение задания в основной конфигурации. прерывается и возобновляется в работоспособной конфигурации А4, д - п-к (без возвращения в начальную точку задания) в соответствии с новым расписанием 1У и новым распределением выполняемых процессов по работоспособным ПМ. При этом прерываются все процессы, выполнявшиеся на шаге г^ включая и те, которые выполнялись в неотказавших ПМ, поскольку в соответствии с новым расписанием Я® они могут быть назначены для выполнения в другие ПМ.
Пусть Б«?*, гпГ) « ЧХ <1?", гпГ), 1 - Т7Е> - состояние
• J •
задания на шаге отказа "действующего" расписания К" и пусть выполнение задания в новой работоспособной конфигурации А® может быть возобновлено (т.е. система технически готова к этому) в начальный момент некоторого шага гг реального времена,
называемого шагом восстановления, где номер этого шага определяется как - г^ + Аг + 1 , где г^ - номер шага отказа в реальном времени (т.е. шага, "внутри* которого произошел отказ);
Аг - интервал времени (число шагов), требуемый для обнаружения отказа и выполнения программных процедур прерывания и реактпвизации процессов (таких, как внесение изменений в управляющие таблицы ОС и др); единица добавляется из-за способа нумерации шагов.
Такая реактивизация задания в новой работоспособной конфигу -рации А®, выполняемая на шаге реального времени (точнее, в
начальный момент ^ этого шага) в соответствии с расписанием R*. должна начинаться с такого состояния задания S(rM » S(R®, v®г >, которое соответствует определенному шагу v®r расписания R®. Следовательно, с шагом восстановления (р.в.) должен быть
сопоставлен некоторый паг v®г расписания R®, т.е. необходимо найти соответствие
П: гг v'r. (4.2)
* ¡х
Будем говорить, что задание реактивизируется, начиная с состояния S(rr) - S(R®, v®r), а наг v®r назовем шагом
k fl ц
восстановления в расписании R®.
Соответствие (4.2) должно отвечать требованию корректности выполнения задания при смене работоспособных конфигураций системы (вследствие отказов ПМ) и обеспечить возможно меньшие затраты времени на повторное выполнение некоторой части задания после его реактивизация.
Пусть требуемое соответствие П найдено. Тогда для
реактивизации задания в состоянии S(r£) на иаге р. в. необходимо обеспечить возможность реактивизации в новой работоспособной
конфигурации А® множества таких процессов, выполнение которых требуется при этом состоянии задания. В общем случае это множество включает как основные процессы, уже находивниеся в активном состоянии при выполнении задания в основной конфигурации до момента отказа на иаге .' так и вновь активизируемые копии процессов, не выполнявшиеся при работе системы в основной конфигурации.
Восстановление выполнения системой задания будем считать корректным, если оно обеспечивает совпадение результатов выполнения этого задания при возможной смене работоспособных
конфигураций от А" до A®, g*. n-d, с результатами его выполнения от начала до конца в основной конфигурации А". Очевидно, что восстановление является корректным, если контекст каждой вновь активизируемой копии CP на иаге восстановления гг р.в.. т.е. в
Ч к • •
момент р. в. t* ее активизации в новой конфигурации системы А*.
совпадает с контекстом одноименного основного процесса Р^, соответствующим состоянию этого процесса X е Б(Н®,
где у*г> - {х^(к®, v®'), j = ТХ> - состояние задания
на шаге v®г расписания И®, начиная с которого возобновляется его выполнение.
Указанное требование корректной роактивизации задания реализуется в ПВС с помощью механизма контрольных точек: при выполнении задания в основной конфигурации системы (т.е. до возникновения отказов ПИ) для каждого процесса в определенные моменты времени осуществляется передача копий его контекста, соответствующего этим моментам, в память тех с! ЛМ, в которых размещены пассивные копии данного процесса. Полученные копии контекста сохраняются в памяти указанных ИМ вплоть до следующего момента передачи контекста, когда происходит их обновление.
Контрольной точкой (КТ) процесса PJ назовем такое его состояние (точнее - идентификатор этого состояния), при переходе из которого в следующее состояние осуществляется копирование контекста, соответствующего состоянию Х° данного процесса, и передача его в память,, внешнюю по отноиению к данному процессу.
Контрольной точкой задания для данного расписания его выполнения назовем состояние задания, определяемое таким набором состояний всех процессов (на некотором шаге этого расписания), в котором все активные состояния процессов являются их контрольными точками.
Контрольной точке задания, выполнение которого
описывается расписанием'й", соответствует определенный шаг г"
. С Я
этого расписания и определенный момент времени этого
СЯ
расписания, в который должно осуществляться копирование контекстов всех активных процессов, т.е. фиксация КТ задания. Если в реальном времени задание выполнятся по расписанию й", то шагу г" и моменту
с я
этого расписания соответствуют определенный иаг г и момент ■Ь реального времени (момент фиксации КТ).
Хотя современные вычислительные средства (в частности, транспьютеры) в принципе позволяют осуществлять копирование контекста процесса одновременно с выполнением данного процесса, при этом не гарантируется полная корректность такого копирования
(в частности, соответствие полученных копий одному и тому же моменту времени). Поэтому полагаем, что в каждый из моментов 1 фиксации КТ осуществляется прерывание всех активных процессов задания на некоторое время для копирования контекста этих
процессов.
4. 2. Методы решения задач реактивизации процессов в ОУ ПВС/РЗ
Для создания в ОУ ИБС механизмов восстановления процессов, с помощью которых может быть обеспечено функционирование системы в соответствии с рациональным перераспределением задач в случае возникновения отказов ПМ, необходимо решить две основные задачи:
1. Выбор моментов фиксации контрольных точек задания при выполнении его в основной конфигурации в соответствии с расписанием Я" и определение самих КТ, т. е. соответствующих состояний задания - 5(1" ).
С м
2. Определение требуемого соответствия П:г' -»V"- между
к ¡1
шагом восстановления реального времени и шагом восстановления V*' в расписании , согласно которому задание должно выполняться после реактиЕИзании на шаге , т.о. в момент (при известной
яаге отказа г^ » г"г в реальном времени, т.е. з расписании ГГ).
Задача 1. Пусть система работает в реальном времени в основной конфигурации по расписанию Р". Обозначим: г* - интервал времени от момента начала работы системы по расписанию до начального момента шага отказа .в этом расписании; т® -
интервал времени от начального момента расписания № до начального момента шага восстановления у*г этого расписания (сопоставленного с шагом восстановления реального времени); Т(Я' ) - полное время выполнения задания по расписания Я* без прерываний.
Тогда при условии, что в течение выполнения задания происходит только одна смена работоспособных конфигураций системы, а именно, с А" на А", полное вроия выполнения задания (выражаемое числом шагов) определяется как:
Т - т" ♦ 4г + <Т<Н«> - Xя) * 1 (4.3)
или с учетом времени на фиксацию Ь контрольных точек в задании: Т - Т*^) ♦ й + Дг + +1. (4.4)
пд с
где 0 - (г" - г®) - время повторного выполнения некоторой части задания.
Очевидно, корректное восстановление задания после отказов к ПМ, имеющих место на шаге гпГ, должно начинаться с его состояния, являющегося ближайшей к иагу отказа контрольной точкой задания. Следовательно, с шагом восстановления р.&. должен быть
сопоставлен такой шаг расписания , начальный момент которого совпадает с моментом 1" фиксации ближайшей к иагу отказа
с
контрольной точки при работе по расписанию К". Если выбран некоторый интервал т между моментами фиксации КТ, то, очевидно, всегда В < т. Поэтому с уменьшением интервала т, т. е. с увеличением числа Ь контрольных точек, уменьшается значение В в выражении (4.4), но одновременно увеличивается значение ЬД^.
Время Д1 , требуемое для фиксации одной КТ (копирования
С
контекстов процессов) зависит от характеристик каналов связи ПВС и от объемов передаваемой информации. Так, каналы связи транспьютерных систем характеризуются скоростями передачи информации от 5 Мбит/с (для транспьютера 1мб Т4 14) до 80 Мбайт/с (для транспьютера 1мэ ни.
Если полное время выполнения задания не должно превышать Т*. то из (4.4) следует:
Т - Т(1У> + Дг + В + Ш + 1 « Т*
пд с
и, следовательно,
О + ЬД1 « ДТ,
с
где ДТ - (Т* - Т(Р*) - Дг - 1) - известная величина, не зависящая от числа КТ и от выбора моментов их фиксации.
В работах [3?, 55] предложен способ выбора моментов фиксации КТ. обеспечивающий длительность интервала с между соседними КТ. не превышающую заданного значения г. Способ основан на представлении каждого процесса задания в виде последовательности х-процессов. (время выполнения каждого из которых не превышает т) и построении расписаний 1,... выполнения задания, представленного как
совокупность г-процессов, размещение которых по ПМ и временные
интервалы выполнения не зависят от их принадлежности к тону или иному "исходному" процессу. В ряде случаев это позволяет повысить степень использования ПМ и уменьшить время выполнения задания. Копирование контекста каждого т-процесса с целью фиксации КГ осуществляется в момент его завершения, в следствие чего интервал между КТ не превышает г. В качестве т-процессов могут быть приняты, в частности, элементарные процессы.
Задача 2: определение соответствия П:г% v®r, т.е.
сопоставление с шагом восстановления р. в. гг шага v®r расписания R® [37,56]. " • **
Задание, будучи реактивизированным в момент р. в. t""
/
(начальный момент шага восстановления г^) будет выполняться по расписанию R®. начиная с его шага v®r. Используя введенные понятия старшинства состояний процессов и состояний задания, условие такого сопоставления сформулируем как ,
S(R", гпГ- 1) » S(R®,' v®r) . (4.5)
• f
Условие (4.5) задает идеальную функцию восстановления (ИФВ),
т.е. зависимость г®° - F(r"), определяющую для каждого значения
г" - 1,2.... ,T(R" ) такое максимальное значение г®, при котором еще
выполняется условие (4.5).
Восстановление процессов, т.е. выполнение переходов системы
из состояний SIR", rnf- 1) в состояния S(R®, v®r), в соответствии . . й
с ИФВ обеспечивает минимальное значение 5= г" - т®, что ведет к
г г
уменьшению времени выполнения задания Т (4.4). Однако, ИФВ может
и
быть реализована только в том случае, когда для каждого процесса КТ создается на каждом шаге выполнения задания, т. е. после каждого измененияё контекста этого процесса, вызванного выполнением одной команды его программы (иначе говоря, после завершения каждого ЭП). Как было указано, создание каждой КТ требует прерывания всех процессов на время Lt . что ведет к увеличению общего времени Т
с п ч
выполнения задания. Поэтому интервал s между соседними КТ (определенный при решении задачи 1 как е * х ), как правило, превышает длительность шага задания, т. е. е » 0, а реальная Функция восстановления (РФВ) имеет ступенчатый вид: г®* = F(m е).
• где m = 1,2,...; г*" « Const в течение каждого интервала с.
4.3. Реактивизация процессов в ОУ ПВС/РЗ, выполняющей задание, описываемое моделью CSP
При использовании указанной модели для описания задания, выполняемого системой, оно представляется в виде программы на языке CSP (CSP-програшы). Точкой реактивизации задания при таком описании будем называть некоторый специально определяемый процесс в CSP-программе или одну из команд этого процесса.
Ннояестзо Ви» (Р^} точек реахтиаизации для некоторого искаженного работоспособного состояния s^e S" включает все процессы Р^, удовлетворяющие требованию: если после перехода в состояние su и перераспределения процессов в соответствии с планом, найденным ранее для этого состояния, выполнение задания возобновляется, начиная с любого из этих процессов, то задание будет выполнено правильно при условии, что до его завершения возможны переходы системы только в состояния из множества S".
Во время выполнения задания каждый процесс может находиться в одном из следующих состояний: I - начальное-состояние (процесс еще не был активизирован), R - активное состояние (состояние выполнения), W - состояние ожидания (процесс прерван вследствие активизации своих последователей вплоть до их завершения), F -конечное состояние (процесс завершен). В момент отказа какого-либо ПМ в активном состоянии может находиться самое большее один из процессов, размещенных в этой ПМ. В каждом из состояний I, W, F может находиться произвольное число процоссоз данного ПМ, в том числе и ни одного.
Рассмотрим случай, когда планы РЗ для состояний su строятся исходя из того, что в любом таком состоянии подвергаются перераспределению только те процессы, которые после перехода системы в данное состояние оказались размещенными в отказавших ПМ ("отказавшие'' процессы).
Пусть в произвольный момент вследствие отказов ПМ система перешла в состояние su. Если множество Фи "отказавиих" процессов, не содержит ни одного процесса Р^(R) или Pj(W), находящегося в состоянии R или W. то после перехода в данное состояние в системе
должны быть выполнены только действия, реализующие перераспределение процессов Р(1) е находящихся в начальном состоянии I. В результате этих действий те ПМ, в которых размещены копии таких процессов, должны быть подготовлены к активизации этих процессов (т. в. переводу их в состояние Г?) в моменты, требуемые выполнением задания. При этом, поскольку переход системы з состояние б не нарушил хода выполнения задания, то но требуется
и
повторять выполнение каких-либо его частей. Для завершенных процессов, очевидно, никаких действий по их перераспределению выполнять не требуется. _
Повторное выполнение некоторых частей задания (начиная с точки реактивизации) необходимо только в том случае, когда в множестве Ф содержатся процессы Р (Ю или Р (И), при этом должны
и 3 3
быть повторно выполнены И ТО 15 другие.
В качестве точек реактивизации (ТР) могут быть использованы лишь некоторые процессы сзр-программы, которые назовем потенциальными точками реакаивизации. Нетрудно видеть, что процесс Р^ является потенциальной ТР в том и только в том случае, если он представляет собой вершину такого поддерева МР^) в сэр-программе задания, выполнение которого, начиная с , не зависит от хода выполнения любых других частей программы, но принадлежащих данному поддереву, и в свою очередь не влияет на выполнение этих частей. Потенциальную ТР назовем ближайшей, если реактивизация задания, начинающаяся нее, требует повторения минимально возможной его части.
Введем формальные понятия, позволяющие выявить^ потенциальные ТР. Поддерево Й(Р ) назовем замкнутым, если каждый процесс этого
Г
поддерева, включая его вершину, либо имеет только такие команды ввода-вывода (В/В), которые связывают его с процессами этого же поддерева, любо не имеет их вовсе.—Замкнутое поддерево назовем минимальным, если оно не содержит ни одного другого замкнутого поддерева.
Процесс, представляющий собой вершину некоторого поддерева, является потенциальной ТР для любых подмножеств процессов, принадлежащих данному поддереву, если и только если это поддерево является замкнутым. Вершина незамкнутого поддерева является потенциальной ТР не для любых, а лишь для некоторых подмножеств
процессов этого поддерева, которые могут быть найдены путем анализа сэр-программы.
Процесс Р*, представляющий собой вершину минимального
Г
замкнутого поддерева, является ближайшей потенциальной ТР для любых подмножеств процессов, принадлежащих данному поддереву.
Если замкнутое поддерево 0(Рг) не является минимальным, то его вершина является ближайшей потенциальной ТР (в указанном смысле) только для таких подмножеств процессов этого поддерева, которые не входят ни в одно замкнутое поддерево, принадлежащее 0(Р ).
г
Для определения реальных ТР. используемых для реактивизации данного задания, предлагается следующая процедура.
1. Определить (с помощью анализа сэр-программы задания) все потенциальные ТР Р и. для каждой из них найти такое множество
г
0Б(Рг> процессов, что Рг является ближайшей ТР для любых подмножеств процессов из указанного множества.
2. Для каждого состояния б , о - \,г, найти множество
и
ФА - Ф процессов, размещенных в отказавших ПМ данного
и и , '
состояния и находящихся в состояниях и VI .
3. Для каждого такого множества процессов, найти (при использовании найденных потенциальных ТР и множеств 0С(Р ))
Ь Г
реальные ТР, соответствующие данному состоянию и являющиеся
вершинами независимых замкнутых поддеревьев. Каждая из найденных реальных ТР Р (ФЛ ) « Р (э ,Х) зависит от состояния б и от
г и Г и и
основного РмЗ X и в общем случае может не быть ближайшей.
4. 4. Программная реализация механизма восстановления процессов
в многотранспьютерной ОУ ПВС/РЗ
Предложенные методы организации РСПЗ/ОУ и восстановления процессов применены. для обеспечения отказоустойчивости многотранспьютерных ПВС [56,59,64). Базовый блок таких систем -транспьютерный модуль (ТРАЛ) - включает один транспьютер, дополнительную память и четыре высокоскоростных канала связи, обеспечивающих межмодульные соединения по принципу "точка-точка". Наиболее характерными структурами многотранспьютерных систем являются регулярные структуры типа двумерной репетки или
свернутого тора.
Задание системы представляется параллельной программой на языках csp или Оккам. При использовании языка csp программа с помощью хост-ЭВМ транслируется в Оккам-программу, а последняя в машинные коды транспьютера. Таким образом, задание представляет собой программный комплекс, тлеющий блочную структуру. Программные блоки, называемые процессами, обладают следуюаиыи особенностями:
1) каждый процесс является автономным по управлению относительно других процессов, т. е. выполняется непосредственно под управлением транспьютера того ТРАМ, в котором он размещен (с другими процессами его связывают только потоки данных);
2) каждый процесс размещен в памяти ТРАМ, что ускоряет доступ к данным этого процесса и обеспечивает монопольное манипулирование ими со стороны данного ТРАМ, защищая тем самым от несанкционированных изменений;
3) каждый процесс имеет ограниченное и известное время выполнения.
Статическое отказоустойчивое размеаенив процессов находится с помощью приведенных выие алгоритмов и отражается в программе задания (с идентификацией конкретных TPАН) при написании ее программистом на языке Оккам (или на другом параллельном языке). В соответствии с этим размещением хост-ЭВМ загружает программы процессов и их копий в память соответствую®« ТРАМ до начала выполнения задания.
Комплекс программ на языке Оккам, реализующий предложенный метод восстановления процессов в ОУ ПВС. разработан при участии автора в ОКБ "Марс". При этом реиен ряд технических задач, а именно: диагностика каждым модулем общего состояния ПВС. реализация механизма контрольных точек, планирование выполнения процессов задания в соответствии с требуемым расписанием, загрузка программ в модули ПВС в соответствии с заданным плаяои РЗ. реализация механизма прерывания выполняющихся процессов, реконфигурация каналов связи между модулями.
В каждый ТРАМ загружается управлявная программа (так называемая "упряжь"), которая обеспечивает выполнение процедуры инициализации initial, а затем параллельное выполнение двух процедур: supervizor и process.monitor.i., из которых первая имеет
более высокий приоритет.
Процедура initial синхронизирует работу часов всех транспьютеров системы, т.е. устанавливает их на одно и тоже время, определяет адреса и размеры областей памяти, содержимое которых будет передаваться в другие транспьютеры во время фиксации КТ, определяет наличие соседних ТРАМ при помощи известной "программы-червя". '
Процедура supervizor реализует супервизорные функции, поддерживающие децентрализованное управление системой. Она выполняется одновременно во всех транспьютерных модулях, что необходимо для передачи данных по каналам связи между транспьютерами. В каждом модуле она выполняет: (1) диагностику системы и передачу ее результата процедуре process.monitor.i по внутреннему каналу связи; (2) формирование КТ и пересылку соответствующей информации; (3) пересылку транзитных пакетов данных.
Процедура process. monitor.1 обеспечивает выполнение процессов, размещенных в данном модуле, в соответствии с текущим
расписанием. Она является уникальной для каждого ТРАМа и реализует последовательности инициализации процессов при работе системы в соответствии с начальным расписанием R" и расписаниями R""1,....R"'" (при возникновении в системе соответствующего числа отказавших модулей).
5. ПРИНЦИПЫ АВТОМАТИЗИРОВАННОГО ПРОЕКТИРОВАНИЯ ОУ ПВС, ОБЛАДАЮЩИХ СВОЙСТВОМ РАЦИОНАЛЬНОГО СТАТИЧЕСКОГО ПЕРЕРАСПРЕДЕЛЕНИЯ ЗАДАЧ
Проблема проектирования ОУ ПВС может рассматриваться в двух аспектах:
(1) как один из этапов общей процедуры проектирования ПВС, когда методы обеспечения отказоустойчивости применяются по отношению к каждому из некоторого множества вариантов структуры ПВС. полученных на предыдущих этапах проектирования без учета требований к отказоустойчивости (на более поздних этапах производится сравнение этих вариантов по ряду показателей, включая отказоустойчивость, и выбор окончательного варианта):
(2) как самостоятельная проблема синтеза ОУ ПВС, когда требуется спроектировать сразу отказоустойчивую систему при отсутствии исходной отказонеустойчивой структуры.
Случаю (1) соответствует постановка задачи (п) (см. раздел 1.4), когда считается известной исходная отказонеустойчивая функциональная структура ПВС и, следовательно, начальное множество ПН, а также, возможно, начальное РЗ. По отношению к этой исходной структуре должны быть применены методы РСПЗ/ОУ, обеспечивающие достижение требуемого уровня отказоустойчивости при заданных временных, ресурсных и стоимостных ограничениях (при этом возможно увеличение исходного числа ПМ).
Случаю (2) соответствует постановка задачи (п), когда используются методы, позволяющие одновременно найти необходимое число ПН в ОУ-системе и организовать рациональное статическое ПЗ/ОУ, отвечающее поставленным требованиям к отказоустойчивой системе.
Для выполнения формализованных процедур проектирования ОУ ПВС необходимо на основе ее общей модели А" определить частную модель проектируемой ОУ-системы (т.е. конкретизировать компоненты общей модели).
Модель А" фиксирует: тип ПМ - Н" (т.е. • однотипные, однопроцессорные ПМ); возможные классы выполняемого системой задания - Ф е (1,С>; режим функционирования системы - Т; множество элементов системы, отказы которых принимаются во внимание - Дгт ■ Д" (т.е. множество всех ПМ системы); набор
показателей надежности ПМ - П" (для пуассоновских потоков
р
внезапных отказов и восстановлений); виды показателей
отказоустойчивости системы - 1?гт€ (Б.О). Эта модель предполагает статическое начальное РЗ и статическое ПЗ при отказах ПМ.
Частная модель Агт проектируемой ОУ ПВС определяется, исходя из конкретного типа системы, ее назначения и.возможного комплекса технических средств для ее реализации. При этом конкретизируется:
(1) тип технической структуры ПВС, включая: (а) тип или множество типов ПМ Нгт (возможно, отличающихся от Нгт), (б) виды
А 1
используемых общих ресурсов - Нгт, в частности, наличие или отсутствие центральной памяти системы, хранящей программные модули всех выполняемых задач: ("в), тип системы связи 1гт, учитывающий
территориальную распределенность или сосредоточенность ПВС, "сильные" связи (т.е. винная структура, общая память и др.) или "сллСие' связи (т.е. различные виды ЛВС и СПД);
А
(2) набор показателей надежности ПМ - Пгт;
р
(3) класс выполняемого задания - Ф е (1,С);
(4,1 тип функциональной структуры, в частности, целесообразность применения иерархического принципа ее построения.
При проектировании ОУ ПВС необходимо, исходя из принятой частной модели, решить задачу . организации рационального РСПЗ/ОУ, включающую построение рационального ОУ РмЗ, необходимых планов РЗ и расписаний выполнения задач. Это требует выбора наиболее эффективного алгоритма РСПЗ/ОУ и решения соответствующих оптимизационных задач. При этом, как при описании системы и выполняемого ею задания, так и при выборе показателей качества функционирования, целевых функций, ограничений и методов решения возникает больное число вариантов.
Многовариантность функциональной структуры ОУ ПВС и сложность задач РСПЗ/ОУ требуют автоматизации процесса проектирования, в том числе, процесса построения рационального ОУРмЗ и механизмов его реализации. При этом формализованные методы должны использоваться в сочетании с нефорнализуемыми знаниями и опытом разработчика. Эти задача могут решаться с помощью интерактивной программной системы (ИПС/ПЗ), предназначенной для проектирования отказоустойчивой функциональной структуры ПВС на основе рационального статического ПЗ [411.
Эта программная система строится на основе следующих принципов: ыногоуровневость диалога, т. е. возможность рекурсивной организации вложений одного сеанса диалога в другой, позволяющая поэтапно, детализировать решение задачи; вариантность выбора пользователем моделей и языков описания задания системы, требуемых характеристик ОУ ПВС, показателей качества, постановок задачи РСПЗ/ОУ и алгоритмов ее решения; открытость, т.е. возможность введения новых моделей ОУ ПВС, постановок задач и алгоритмов РСПЗ/ОУ.
Основные уровни ИПС/ПЗ:
(1) определение набора характеристик проектируемой ОУ ПВС, требуемого для построения ее частной модели;
(2) определение векторного показателя качества функциониро -вания системы (т.е. набора частных показателей), допустимых видов деградации и ее допустимых пределов (задающих область работоспособности системы), показателей отказоустойчивости системы, постановки задачи обеспечения отказоустойчивости - (п) или (п), целевой функции и ограничений задачи оптимизации;
(3) выбор алгоритма решения задачи РСПЗ/ОУ;
(4) задание исходных данных или их изменение перед прогоном программы, реализующей выбранный алгоритм РСПЗ/ОУ;
(5) диалоговая компонента внутри "ядра алгоритма" (выполняющаяся в течение одного прогона программы алгоритма при заданных условиях).
Часть характеристик и показателей системы, определяемых на уровнях (1) и (2) относится (по согласованию с заказчиком) к постоянным (для данного проекта), другие могут изменяться проектировщиком с целью получения решения, удовлетворяющего поставленным требованиям, либо наилучшего решения. К последним относятся характеристики, влияющие на качество решения, такие, как число и тип ПМ и их надехностные свойства, тип системы связи и общих ресурсов, предельные значения показателей качества ■ и ограничений на аппаратные и временные ресурсы и стоимость системы.
Принятый на уровне (1) набор характеристик системы определяет один из вариантов ее структуры. В ИПС/ПЗ предусматривается формирование множества допустимых вариантов структуры с помощью блока определения несовместных вариантов (на основе морфологического анализа). При этом для недопустимого варианта генерируется логическое объяснение несовместности и предлагается ряд близких по характеристикам допустимых вариантов.
После выбора на уровне (2) постановки задачи и необходимых показателей система проектирования (т.е. ЙПС/ПЗ) предлагает проектировщику на уровне (3) несколько возмохных _алгоритмов решения задачи РСПЗ/ОУ в данной постановке, из которых проектировщик, учитывая ряд неформализуемых факторов, мохет выбрать конкретный алгоритм. При этом первоначальный вариант отказоустойчивой структуры и соответствующее ОУРмЗ мохет определяться грубым, но быстрым методом с последующей корректировкой переменных характеристик ПВС в случае, когда
полученный вариант не удовлетворяет заданным требованиям (т.е. с возвратом на более ранние уровни диалога). Такая итеративная процедура выполняется вплоть до получения первоначального варианта структуры, удовлетворяющего требованиям проектировщика, после чего он переходит к решению задачи более точным способом.
На основе изложенных принципов в МНПО "Нефтегазавтоматика" разработана программная реализация двух последних уровней ИПС/ПЗ. Эти уровни объединены в программном комплексе, являющемся одной из "элементарных ячеек" ИПС/ПЗ. Такой комплекс может работать и самостоятельно. Он состоит из двух основных блоков, вызываемых последовательно: (1) блок задания и изменения исходных данных, (2) блок резервирования задач на заданном множестве искаженных работоспособных состояний. Имеются также вспомогательные блоки, которые используются при решении задачи в различных постановках и по разным алгоритмам. К ним относится блок определения вероятностей искаженных состояний системы, а также аналитические и имитационные модели для проверки временных ограничений. При первоначальном вводе данных задаются значения всех требуемых характеристик задач и ПМ, а при последующих обращениях - лишь их изменения.
После расчета вероятностей состояний проектируемой системы ИПС/ПЗ предлагает проектировщику возможные принципы формирования множества искаженных работоспособных состояний Ба" (э^): на основе значений вероятностей искаженных состояний, на основе важности каждого из состояний системы для объекта управления (характеризуемой весом состояния или потерями) и т.д. В зависимости от ответа проектировщика ИПС/ПЗ выбирает первое состояние б , для которого необходимо выполнить резервирование
и
задач (т.е. построить рациональный план размещения копий задач), и запускает "ядро" алгоритма, т.е. процедуру, реализующую собственно заложенный в данном алгоритме принцип резервирования задач, например, решение задачи дискретной оптимизации. Если результаты решения этой задачи для какого-либо из состояний з не удовлетворяют разработчика,- он может вернуться к блоку задания исходных данных с целью их изменения. С помощью выбранного алгоритма последовательно формируются планы РЗ для всех состояний й , а затем на их основе - результирующие ОУРмЗ. С этой точки
также можно вернуться на любой уровень ИПС/ПЗ.
Данная программная система использовалась для решения задачи построения отказоустойчивой функциональной структуры
распределенной системы управления компрессорной станцией магистрального газопровода.
6. ЗАКЛЮЧЕНИЕ
6. 1 Основные результаты работы
В диссертации на основе теоретического обобщения работ автора по проблеме отказоустойчивости параллельных вычислительных систем (ПВС) осуществлено решение крупной научной проблемы, имеющей важное народно-хозяйственное значение - проблемы разработки целостной концепции обеспечения отказоустойчивости ПВС на основе рационального изменения стратегии распределения выполняемых системой задач, обеспечивающего адаптацию системы к отказам процессорных модулей и направленного на оптимальное использование внутренних ресурсов ПВС, обусловленных ее функциональной распределенностю, и разработки на базе этой концепции систематизированного комплекса методов и алгоритмов обеспечения отказоустойчивости ПВС, выполняющих фиксированные задания.
Разработаны теоретические положения и предложены решения, совокупность которых является новым вкладом в теорию отказоустойчивости вычислительных систем, существенно развивая одно из ее наиболее перспективных направлений, основанное на реконфигурации структуры системы и восстановлении выполняющихся в ней процессов с целью поддержания работоспособности системы при отказах ее элементов с возможной постепенной деградацией в допустимых пределах.
В диссертации получены следующие теоретические и прикладные результаты.
1. Предложена общая модель отказоустойчивой ПВС с изменяющейся стратегией распределения задач (ОУ ПЕС/РЗ), отражающая тип аппаратных средств и их надежностные характеристики, класс выполняемого задания и временной режим его
выполнения, начальную стратегию распределения задач и закон ее изменения при отказах выделенного множества элементов системы, набор показателей качества функционирования, отказоустойчивости и стоимости системы. Эта общая модель позволяет путем спецификации определенных параметров генерировать частные модели ОУ ПВС/РЗ тех или иных классов.
2. На основе предложенной общей модели выделен класс моделей ОУ ПВС/РЗ со статическим перераспределением задач (ПЗ), для которого разработана система основных понятий и „ показателей качества функционирования и отказоустойчивости и даны формализованные постановки задач рационального статического ПЗ для для случаев как наличия, так и отсутствия прототипной отказонеустойчивой структуры ПВС.
3. Разработана схема классификации методов рационального статического ПЗ, позволяющая проводить целенаправленную разработку таких методов для различных классов систем и различных требований, предъявляемых к ним. Эта схема может служить основой для выбора наиболее эффективного метода ПЗ при проектировании ОУ ПВС заданного типа.
4. Для ОУ ПВС, выполняющих фиксированные комплексы задач, разработаны две группы методов РСПЗ/ОУ (соответствующие двум классам исследуемых систем), которые обеспечивают требуемый уровень отказоустойчивости и оптимизируют принятые для данного класса систем показатели качества функционирования при заданных временных и ресурсных ограничениях.
4.1. Для систем, выполняющих задание класса I. т.е. фиксированное множество задач с не заданными в явном виде взаимосвязями, определяющими временную упорядоченность их выполнения, разработана совокупность методов рационального статического ПЗ/ОУ, которые обеспечивают близкие к оптимальным значения принятых показателей качества функционирования системы (таких, как функциональная мощность, потери, расход, среднее время выполнения задачи и др.) при допустимой значении принятого показателя отказоустойчявбсти и при заданных ограничениях на аппаратные ресурсы и стоимость системы. Ряд методов предназначен .для построения отказоустойчивого размещения задач при Одновременном определении минимального числа Ш1. требуемого для
реализации такого размещения в ОУ-системе при удовлетворении поставленных требований. Эти методы ориентированы на применение при прямом проектировании отказоустойчивой системы без использования прототипной отказонвустойчивой структуры.
4.2. Для систем, выполняющих задание класса С, т.е. множество взаимосвязанных задач с явно заданной временной упорядоченностью, разработан ряд методов рационального статического ПЗ/ОУ, базирующихся па использовании современных моделей параллельных взаимодействующих процессов, а именно графов выполнения задач (ГВЗ), детерминированных и стохастических временных сетей Пери (ВСГ7), модели взаимодействующих последовательных процессов (CSP). Эти методы позволяют определить минимальное число процессорных модулей, требуемое для построения ОУ ПВС, обладающей заданной степенью отказоустойчивости, и построить требуемое отказоустойчивое размещение задач. Оки включают алгоритмы формирования множества работоспособных состояний, построения планов распределения задач и расписаний их выполнения для каждого из этих состояний и построения результирующего отказоустойчивого размещения задач во всех ПМ системы.
Разработаны методы рационального статического ПЗ/ОУ как для систем, допускающих только временную деградацию, так и для систем, допускающих и временную и функциональную деградацию (т. е. отбрасывание некоторых задач).
Методы, базирующиеся на использовании модели CSP, ориентированы на построение отказоустойчивых процессорных массивов для обработки больших объемов информации в реальном времени, особенно на основе транспьютерных модулей, когда в качэстве языка параллельного программирования применяется язык Окнам, основанный на модели CSP.
5. На основе предложенных моделей ОУ ПВС/РЗ и общих методов РСПЗ/ОУ разработан ряд методов рационального статического ПЗ/ОУ для некоторых типов распределенных систем управления (РСУ) при учете особенностей систем каждого из этих типов, а именно, для территориально распределенных систем управления (ТРСУ).
информационно-управляющих систем, систем оперирующих с мзссивами данных, конвейерных систем управления, децентрализованных систем автоматического регулирования (ДСАР). Для сложных распределенных
систем, содержащих большое число узлов, предложены два подхода -итеративное ПЗ и поэтапное ИЗ, позволяющие уменьшить размерность задачи оптимизации, облегчить выполнение требований, связанных с ресурсными и временными ограничениями, и получить более рациональные решения.
6. Сформулированы принципы корректной реактивизации параллельных процессов в ОУ ПВС, реализующей РСПЗ/ОУ, и разработаны методы восстановления процессов в такой системе, позволяющие осуществлять корректный переход системы на новое расписание при минимально возможной потере времени на повторное выполнение процессов. Для системы, реализующей модель параллелизма СБР, разработан метод корректной реактивизации процессов, учитывающий особенности этой модели и ориентированный на применение в многотранспьютерных системах, выполняющих параллельные СБР- или Оккаы-программы. Разработанные методы восстановления процессов реализованы в системном программном обеспечении специализированной отказоустойчивой многотранспьютерной системы (разработанной в ОКБ "Марс").
7. Разработаны принципы автоматизированного проектирования ОУ ПЕС с изменяющейся стратегией РЗ, которые могут служить основой для разработки САПР, предназначенной для проектирования ОУ ПВС/РЗ при задании заказчиком проектируемой системы ее типа, выполняемого задания, комплекса используемых аппаратных средств, стоимостных и ресурсных ограничений, требований к отказоустойчивости и показателям качества функционирования, а так же ряда дополнительных данных. Базовое алгоритмическое обеспечение такой САПР могут составить предложенные методы, позволяющие осуществлять проектирование ОУ ПВС/РЗ как на базе известной отказонеустойчивой структуры ПВС, выполняющей требуемое задание, так и без таковой, базируясь только на известном задании системы и данных об используемом комплексе аппаратных средств.
6.2. Отражение основного содержания диссертации в публикациях
Основное содержанке диссертации отражена в следуших
опубликованных работах.
1. Турута Е. Н. Анализ надежности конвейерной мультимикро-процессорной системы управления// Системы управления сетями. М. : Наука, 1980. С. 111-120.
2. Tourouta E.!I. On the reliability assessment of a fault-tolerant pipe-line multi-microprocessor system// EUROMICRO Journal, v.6, N 4. July 1980, p.243-248.
3. Турута E. H. Перераспределение задач в управляющей сети микропроцессоров при их отказах// Труды IV Всесоюзного симпозиума по проблемам управления на сетях и узлах связи. Н. : Наука. 1981. С. 145-149.
4. Турута Е. Н. Об одном подходе к перераспределению задач отказавших блоков в распределенной системе управления// Логическое управление. Вып. 3. М. : Энергоиздат, 1981. С. 14-20.
5. Турута Е. Н. Повышение отказоустойчивости локальных сетей ЭВМ путем перераспределения реиаемых ими задач// Препринт. М.: Научный совет по комплексной проблеме "Кибернетика" АН СССР,
1982. 21с.
6. Турута Е. Н. Перераспределение задач в управляющей мультимикропроцессорной системе с целью повышения ее отказоустойчивости// Применение микропроцессоров в системах управления. Материалы семинара ЩЩТП, 1982. С. 10-1?.
7. Tikhonov V.S., Gtlman G.I., Lazarev V.G.. Rog G.V.. Tourouta E.N. The microprocessor-based measuring systes reliability improvement by means of structure reconfiguration// Proc. of the 9th IMEC0 Congress. Berlin, 24-29 May,1982. Acta IMEC0. Publ.House of the Hungarian Academy of Sciences. Budapest 1982, pp.535-544.
8. Турута E.H. Введение избыточности в распределенную систему управления для повышения ее отказоустойчивости на основе перераспределения задач// VI11 Симп. по проблеме избыточности в информационных системах. Тезисы докладов, ч. 2, ЛЙАП. Ленинград,
1983. С. 134-137.
9. Турута Е. Н., Ковалев В. Ш. ОС одном методе повышения живучести локальных сетей ЭВМ// Автоматика и вычислительная техника. 1983. N 5. С. 42-44.
10. Турута E.H. Обеспечение отказоустойчивости управлявших многомикропроцессорных систем путем перераспределения задач отказавших модулей// Системы управления информационных сетей. М. : Наука, 1983. С. 187-198.
11. Лазарев В. Г., Пийль Е. И., Турута E.H. Построение программируемых управляющих устройств. М. :Энергоатониздат, 1984. 192с.
12. Гильман Г. И., Иохельсон Е. Д., Рог Г. В., Турута E.H. Повышение надежности распределенных АСУТП путем реконфигурации их структуры// Надежность и эффективность АСУТП и АСУП. Тезисы доклада III Всесоюзного совещания. Суздаль, апрель 1984 М.: ИПУ, 1984. С. 13-14.
13. Турута E.H. Об одном подходе к решению задачи синтеза распределенной отказоустойчивой вычислительной системы// Сети пакетной коммутации ЭВМ. Труды IV Советско-итальянского семинара. Москва-Сочи, 1984. Ы. : Наука, 1984. С. 55-59.
14. Турута E.H. Анализ и некоторые методы повышения надежности мультимикропроцессорных , систем// Надежность электронно-вычислительных машин и систем. Труды VII Национальной конференций с международным участием (FTSD-7). Болгария, София, 1984. С. 24-36.
15. Турута Е.Н. Организация распределения задач в вычислительных системах, обеспечивающая их отказоустойчивость// Автоматика и вычислительная техника. 1985. N 1. С. 5-14.
16. Турута E.H. Планирование параллельных . вычислений при построении отказоустойчивых вычислительных систем// Труды VIII Международной конференции "Системы, допускающие неисправности и диагностика" (FTSD-8). Польша, Катовице, 10-12 сент.,1985. С. 281-288.
17. Турута E.H. К вопросу о построении отказоустойчивых распределенных управляющих систем// Распределенные системы передачи и обработки информации. М.: Наука, 1985. С.103-111.
18. Аскеров Ч. И., Турута Е. Н., Фургина Л. А. Об одном методе распределения задач в отказоустойчивых многопроцессорных вычислительных системах// Труды V Всесоюзного симпозиума по проблемам управления на сетях и узлах связи. М.: Наука, 1986. С. 16-20.
19. Турута Е. Н., Бернер Л. И., Гармаш В. Б. Оптимальное резервирование задач в распределенных иерархических системах управления// Сетевые протоколы и управление в распределенных вычислительных системах. М. : Наука, 1986. С.183-196.
20. Турута Е. Н. , Аскеров Ч. И. , Фургина Л. А. Распределение задач с целью обеспечения отказоустойчивости многопроцессорных вычислительных систем// Сетевые протоколы и управление в распределенных вычислительных системах. М. : Наука. 19В6. С. 168-174.
21. HazzeoA., Villano U..Tourouta E.N. Process allocation and reactivation with the aim of providing fault-tolerance of concurrent computations in uniformly structured multiprocessor system //Сети пакетной коммутации ЭВМ. Труды VI Советско-итальянского семинара. Москва, 1986. М.: Наука, 1986. С. 48-55.
22. Piuri V., Tourouta E.N. Structure dimensioning and static task allocation for fault-tolerant multiprocessor system //Сети пакетной коммутации ЭВМ. Труды VI Советско-итальянского семинара. Москва, 1986. М. : Наука, 1986. С. 63-67.
23. Пьюри В., Турута Е.Н. Отказоустойчивое распределение задач в многопроцессорных системах и определение размерности систем // Распределенные управляющие и вычислительные системы. М.: Наука, 1987. С. 108-126.
24. Бернер Л. И.. Турута Е. Н., Марушкей D. И., Алгоритмы оптимального резервирования задач в распределенных системах управления// Распределенные управляющие и вычислительные системы. Ы.: Наука, 1987. С. 127-144.
25. Турута Е. Н. Построение отказоустойчивых управляющих многопроцессорных систем: основные проблемы и современное состояние// Логическое управление с использованием ЭВМ. Тезисы докладов Х-го Всесоюзного симпозиума. М.: Научный совет по комплексной проблеме "Кибернетика" АН СССР, 1987. С. 210-217.
26. Бернер Л.И., Турута Е.Н. Применение резервирования задач при проектировании отказоустойчивых территориально распределенных систем управления// Логическое управление с использованием ЭВМ: Тезисы докладов Х-го Всесоюзного симпозиума. U. : Научный совет по комплексной проблеме "Кибернетика" АН СССР, 198?. С. 217-221.
27. Piuri V., Tourouta E.N. An approach to fault-tolerant allocation of concurrent communicating processes in multiprocessor architectures and hardware dimensioning// Proc. of the EUR0MICR0'87. Portsmouth, UK, Sept. 1987. Microprocessing and Microprogramming, v.21, nn.1-5, pp.339-346.
28. Piuri V., Tourouta E.N. About fault-tolerant allocation of tasks In multiprocessor architectures and system dimensloning//Mlcroprocessing and Microprogramming, v.19, n.4, 1987, pp.335-349.
29. Mazzeo A., Tourouta E.N., Villano U. Process allocation and reactivation for fault-tolerance of concurrent computations in uniformly structured multiprocessor systems// Proc. of the 10-th Int. Conference on Fault-Tolerant Systems and Diagnostics (FTSD'10). Bulgaria, Varna, 1987. PP.162-170.
30. Piuri V., Tourouta E.N. Fault-tolerant allocation of concurrent communicating processes// Proc. of the 10-th Int. Conference on Fault-Tolerant Systems and Diagnostics <FTSD'10). Bulgaria, Varna, 1987. PP.75-80.
31. Tourouta Е.Ы. Ensuring fault-tolerance of a distributed computing system by reassignment of tasks// Proc of IFAC/IMACS Int. Symposium on Distributed Intelligence Systems (DIS'88). Bulgaria, Varna, June 1988. Part 2, pp. 297-301.
32. Пийль E.И., Турута E.И. Метод резервирования задач в многопроцессорной системе, основанный на использовании языка сетей Петри// Теория построения распределенных систем управления. Труда 1 Советско-болгарского семинара. Москва, 1987. М. : Наука, 1988. С. 102-104.
33. Турута Е.Н. Обеспечение отказоустойчивости многопроцессорных систем путем восстановления процесса вычислений// Тезисы докладов Ill-го Всесоюзного совещания по
высокопроизводительным вычислительным системам. Таллин, 1988. М. : Национальный комитет СССР по автоматическому управлению, 1988. С. 143-144.
34. Турута Е. Н. Обеспечение отказоустойчивости управляющих многопроцессорных систем на основе резервирования задач// Тезисы докладов IV Всесоюзного совещания "Надежность, живучесть и безопасность автоматизированных комплексов". Суздаль, 1988. М: Национальный комитет СССР по автоматическому управлению, 1988. С. 139-140.
35. Бернер Л.И., Турута Е. Н. Повышение отказоустойчивости распределенных систем управления с помощью резервирования функций// Логическое управление с использованием ЭВМ. Тезисы докладов XI-го Всесоюзного симпозиума. М. : Научный совет по комплексной проблеме "Кибернетика" АН СССР, 1988. С. 260-264.
36. Турута Е.Н. Отказоустойчивое выполнение параллельных вычислений в однородной многопроцессорной системе// Труды Всесоюзного семинара "Логические методы построения однородных и систолических структур". Москва, 1988. Физ. -мех. институт АН УССР. С. 168-170.
37. Турута Е.Н-, Денисов С. Г. Размещение точек восстановления при выполнении отказоустойчивых вычислений в однородной многопроцессорной системе// Труды Всесоюзного семинара "Логические методы построения однородных и систолических структур". Москва, 1988. Физ.-мех. институт АН УССР. С. 152-154.
38. Бернер Л. И. ,• Родивилова Н. Л. ,. Турута Е. Н. Резервирование задач и функций в управляющих территориально распределенных вычислительных сетях// Тезисы докладов XII Всесоюзной иколы-семинара по вычислительным сетям. Алма-Ата, 1988. Научный совет по комплексной проблеме "Кибернетика" АН СССР. 1988.
39. Муратов И. X., Турута E.H., Аиурбейли й. Р., Альшванг A.B. Принципы организации локальной вычислительной сети- для управления непрерывными технологическими процессами// Труды III Всесоюзной конференции "Локальные вычислительные сети". Рига, 1988.
40. Пийль Е. И. , Турута Е.Н. Применение сетей Петри для оптимального распределения задач в отказоустойчивой многопроцессорной системе// Управление в распределенных информационных системах. М. : Наука, 1989. С. 74-83.
41. Бернер JI. И., Родивилова H.JI.,. Турута Е. Н. Автоматизация проектирования структур отказоустойчивых распределенных систем управления// Логическое управление с использованием ЭВМ. Тезисы докладов XII Всесоюзного симпозиума. М. : Научный совет по комплексной проблеме "Кибернетика" АН СССР, 1989. С.258-261.
42. Соловьев А. В., Турута Е. Н. Обеспечение отказоустойчивости распределенных систем управления со случайным потоком заявок и статическим распределением задач// Логическое управление с использованием ЭВМ. Тезисы докладов XII Всесоюзного симпозиума. М.: Научный совет по комплексной проблеме "Кибернетика" АН СССР, 1989. С. 262-267.
43. Бернер Л.И., Турута Е.Н. Сравнительный анализ методов повышения отказоустойчивости распределенных систем управления// Управление процессами и ресурсами в распределенных системах. М.: Наука. 1989. С. 14-23.
44. Виллано У., Маццео А., Турута Е. Н. Отказоустойчивое распределение и реактивизация процессов в многопроцессорной вычислительной системе// Управление процессами и ресурсами в распределенных системах. Ы. : Наука. 1S89. С. 36-44.
45. Tourouta E.N. Multiprocessor systems fault-tolerance achievement on the basis of functional redundancy and task reassignment// Proc. of the 3rd Internat. Symp. on Multimicroprocessor Systems (MMPS'89). DDR, Stralsund, Oct. 16-20. 1989. PP. 20-36.
46. Soloviev A.V. , Tourouta E.N. Ensuring fault-tolerance of distributed control systems with random flow of requests and static allocation of tasks// Proc. of the 13th Internat. Conf. on Fault-Tolerent Systems and Diagnostics (FTSD'13), Bulgaria, Varna, June 20-22, 1990.
47. Pluri V,, Tourouta E.N. Global optimization of fault-tolerant allocation of concurrent communicating processes in distributed environment// Microprocessing and Microprogramming, v.28, NN 1-5.March 1990 (Short Notes of EUR0HICR0'89). PP 31-35.
48. Соловьев А. В., Турута Е.Я. Отказоустойчивое выполнение операций с файлами в распределенной система управления с банками данных// Логическое управление с использованием ЭЕЯ. Тезисы докладов XIII Всесоюзного симпозиума, к. : Научный совет по комплексной проблеме "Кибернетика" АН СССР, 1990. С. 318-323.
49. Бориер Л.И., Турута Е.И. Принципы построения автоматической экспертной системы динамического перераспределения задач распределенной системы управления// Логическое управление с использованием ЭВМ. Тезисы докладов XIII Всесоюзного симпозиума, и. : Научный совет по комплексной пробдеиз "Кибернетика" АН СССР, 1990. С. 331-334.
50. Турута Е. Н. Резервирование функций в распределенных системах управления// Теория построения рас пр-е да ленных систем управления. Труды II Советско-болгарского семинара. София, 1988. Болгарская АН, София. 1990. С. 26-32.
51. Турута E.H. Обеспечение надежности и безопасности распределенных систем управления ответствепяния техническими объектами// Тезисы докладоз научно-технического семинара "Космонавтика и экология: концепция и технические репения*. Туапсе, 1990. И. : Ипформприбор. 1990. С. 48.
52. Tourouta E.N. Fault-tolerant sapping algorithms onto hardware structure of a nultiprocessor system// Proc. of the 5th Annual European Computer Conference (C0KPEUR0-91). Bologna, Hay 13-16, 1991. PP. 447-451.
53. Соловьев А. В., Турута E.Я. Метод отказоустойчивого выполнения операций с файлами и распределенной системе управления с банками данных// Управление в распределенных интегральных сетях. М. : Наука. 1991. С. 56-64.
54. Соловьев A.B., Турута E.H. Метод обеспечения отказоустойчивости распределенных систем управления со случайным потоком заявок к статическим распределением задач// Управление ресурсами в интегральных сетях. И.: Наука. 1991. С.109-116.
55. Денисов С. Г.. Турута Е. Н. Восстановлено вычислительных процессов в многопроцессорной системе на основе их реактивнзацин //Управление ресурсами в интегральных сетях. Н. : Наука, 1991. С. 117-129.
56. Денисов С.Г., Турута Е.И. Отказоустойчивое статическое размещение процессов при ренении задач имитационного моделирования в многотранспьютерной системе// Логическое управление с использованием ЭВМ. Тезисы докладов 14-го Всесоюзного симпозиума. М. : Научный совет по комплексной проблеме "Кибернетика" АН СССР, 1991. С.186-190.
57. Турута Е. Н., Муратов И. X., Гусман И. И. Динамическое перераспределение задач в отказоустойчивых сетях распределенной обработки данных и управления// Труды Международного семинара по сетям ЭВМ. Рига, Институт электроники и вычислительной техники АН Лат. ССР, 1991.
С. 152-156.
58. Турута Е.Н. Комплекс методов обеспечения отказоустойчивости многопроцессорных систем на основе рационального перераспределения задач// Труды 5-го Совещания по распределенным вычислительным системам и сетям. Калининград, сентябрь. 1992. С. 133-135.
59. Турута E.H., Денисов С.Г. Метод отказоустойчивого выполнения параллельных процессов в системах с распределенной памятью, реализованных на базе транспьютерных сетей// Труды 5-го Совещания по распределенным вычислительным системам и сетям. Калининград, сентябрь. 1992. С. 120-132.
60. Турута E.H. Методы обеспечения отказоустойчивости информационно-вычислительных систем на основе рационального
перераспределения задач// Труды Международного форума информатизации (МФИ-82). Москва, 24-28 ноября 1992. С. 16-18.
61. Турута Е. Н. Отказоустойчивое размещение функций в распределенной информационно-вычислительной системе//2-я Конференция "Информационные сети и системы" (КИСС-93). Тезисы докладов. С-Петербург, Международная академия информатизации, 1993. С. 90-91.
62. Пьюри В., Турута Е.Н. Отказоустойчивое размещение параллельных взаимодействующих процессов в распределенной системе// Управление в распределенных системах. М. : Наука, 1993. С. 159-162.
63. Соловьев А. В., Турута Е. Н. Обеспечение отказоустойчивости центра коммутации пакетов// Управление в распределенных системах. И. : Наука, 1993. С. 32-34.
64. Денисов С.Г.. Турута Е. Н. Организация отказоустойчивого выполнения параллельных процессов в многопроцессорной системе при использовании модели параллелизма типа CSP/OCCAM// Управление в распределенных системах. Ü. : Наука, 1993. С. 35-40.
65. Tourouta E.N. The methods for ensuring fault-tolerance of distributed control systems// IFAC Syrap. on Fault Detectlon, Supervislon and Safety for Technical Processes (SAFEPROCESS'94). June 13-16, 1994. Helsinki, Finland. Preprints. V. 2, pp. 772-777.
6.3 Личный вклад
Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно. В работах, опубликованных в соавторстве, личный вклад автора состоит в следующем.
В работах 7. 12 автору принадлежит математическая формулировка задачи, выбор показателей отказоустойчивости и алгоритмы РСПЗ/ОУ для распределенной измерительной системы и распределенной АСУ ТП; в работе 9 - формализованная постановка задачи и алгоритм поэтапного РСПЗ/ОУ; в монографии 11 - главы, излагающие основные положения концепции обеспечения отказоустойчивости многопроцессорных систем (МПС) на основе перераспределения задач, определение показателей
отказоустойчивости МПС, метод РСПЗ/ОУ для управляющей МПС, метод анализа надежности управляющей сети микропроцессоров с кольцевой структурой; в работах 18,20 - формализованная постановка задачи РСПЗ/ОУ для МПС с общей памятью и оперативной перезагрузкой, всех работоспособных ПМ, общая схема алгоритмов РСПЗ/ОУ для известного и неизвестного числа ПМ и разработка ряда иагов этих алгоритмов; в работах 19.24,26,35,38,41,43,49, посвященных вопросам построения отказоустойчивых РСУ, - анализ и содержательная формулировка проблемы РСПЗ/ОУ для территориально распределенных систем
управления (ТРСУ), в -частности, для распределенных АСУ ТЕ. определение показателей качества функционирования систем этого класса, формализованная постановка задачи построения оптимального РСПЗ/ОУ для ТРСУ, решение этой задачи для фрагмента распределенной АСУ ТП магистрального газопровода, анализ проблемы резервирования функций в РСУ и общая схема ее решения, общие принципы разработки САПР отказоустойчивых РСУ на основе РСПЗ/ОУ, выбор критерия и разработка методики сравнительного анализа методов обеспечения отказоустойчивости РСУ, обоснование целесообразности создания экспертной системы . для динамического ПЗ, обеспечивающего отказоустойчивость РСУ; в работах 21.22.23,27,28,29,30,4s,47,62 -разработка моделей параллельных вычислений в 0У ПВС в условиях отказов ПМ, основанных на использовании сетей Петри и языка CSP, формализованная постановка -задач РСПЗ/ОУ при одновременном определении минимального числа ПМ в 0У ПВС для заданий различных типов и ряд взаимосвязанных алгоритмов решения этих задач; в работах 32,40.42,46,48,53.54,63 - разработка моделей выполнения в 0У ПВС заданий различных типов, определение показателей отказоустойчивости ПК, выполняющих случайные потоки задач, основные положения методов обеспечения отказоустойчивости для ПВС соответствующих типов, общие схемы алгоритмов РСПЗ/ОУ для рассматриваемых систем и реализация ряда шагов этих алгоритмов; в работах 39, 57 - исследование проблемы обеспечения отказоустойчивости распределенных систем управления непрерывными производствами на основе ПЗ, принципы организации и алгоритм РСПЗ/ОУ в системе данного типа, принципы организации динамического ПЗ в распределенной сети обработки данных производственной системы и основная схема алгоритма ПЗ; в работах 37,55,56,59,64 исследование проблемы восстановления процессов в 0У ПВС, реализующей РСПЗ/ОУ, и основные положения метода ее ренения. принципы отказоустойчивого статического размещения параллельных процессов в многотранспьютерной системе и метод их отказоустойчи -вого выполнения при использовании модели параллелизма CSP.
-
Похожие работы
- Инвариантно-групповой анализ и синтез структур отказоустойчивых многопроцессорных вычислительных систем
- Способы восстановления вычислительного процесса и методы оценки их эффективности
- Автоматизация управления предприятием в реальном масштабе времени с применением технологий виртуализации
- Отказоустойчивые программно-аппаратные вычислительные комплексы систем управления бурением с использованием интеллектуальной поддержки принятия решений
- Разработка методов обеспечения отказоустойчивости многопроцессорных вычислительных систем на основе перераспределения задач
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность