автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Обеспечение надежности автоматизированных информационных систем на основе сетевой кластеризации серверов

кандидата технических наук
Сутягин, Максим Валерьевич
город
Москва
год
2004
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Обеспечение надежности автоматизированных информационных систем на основе сетевой кластеризации серверов»

Автореферат диссертации по теме "Обеспечение надежности автоматизированных информационных систем на основе сетевой кластеризации серверов"

На правах рукописи

СУТЯГИН МАКСИМ ВАЛЕРЬЕВИЧ

ОБЕСПЕЧЕНИЕ НАДЕЖНОСТИ АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ СЕТЕВОЙ КЛАСТЕРИЗАЦИИ СЕРВЕРОВ

05.13.01 Системный анализ, управление и обработка информация

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва 2004

Работа выполнена на кафедре «Информационные системы» Московского государственного технологического университета «Станкин»

Научный руководитель: доктор технических наук,

профессор В.П. Климанов

Официальные оппоненты: доктор технических наук,

профессор Г.Ф. Филаретов кандидат технических наук, профессор И.И. Ладыгин

\

Ведущая организация: Государственный научно-исследовательский

институт информационных технологий и телекоммуникаций «Информика»

Защита состоится 3 февраля 2005 года в 8й на заседании диссертационного совета К 212.142.01 в Московском государственном технологическом университете «Станкин» по адресу: 127055 Москва, Вадковский пер., д. За.

С диссертацией можно ознакомится в библиотеке Московского государственного технологического университета «Станкин».

Автореферат разослан 30 декабря 2004 года.

Ученый секретарь

диссертационного совета

К 212.142.01

к.т.н. И.М. Тарарин

гоов-4 2 0*2

ОБЩИЕ ХАРАКТЕРИСТИКИ

Актуальность темы.

Одной из актуальных задач, возникающих при проектировании и модернизации автоматизированных информационных систем (АИС) является задача обеспечения заданного уровня надежности. При решении такой задачи возникает возможность уже на стадии проектирования АИС оценивать уровень надежности предлагаемых схем и технологий обработки данных. Для такой оценки необходима разработка математических моделей, учитывающих особенности режима эксплуатации.

Одним из основных методов повышения надежности технических средств АИС является резервирование серверов. Резервироваться могут как отдельные элементы сервера (процессор, жесткий диск, блок питания и т.п.), так и сервер целиком — за счет использования кластерных технологий.

Общим вопросам кластеризации посвящено значительное количество работ. Существуют типовые схемы кластеризации, но практически не используется такая технология как сетевая кластеризация — это направление только начало зарождаться. Эффективное применение сетевых кластерных технологий позволяет обеспечить не только повышение надежности функционирования АИС, но и повысить их катастрофоустойчивость, за счет применения сетевых (распределенных территориально) кластерных систем.

Катастрофоустойчивость является составной частью надежности и подразумевает способность АИС противостоять природным и техногенным катастрофам, террористическим актам и другим экстремальным воздействиям.

В настоящее время практически отсутствуют работы по созданию методов и математических моделей для оценки надежности и катастрофоустойчивости современных технологических схем кластеризации серверов на стадии проектирования АИС, что и определяет актуальность настоящей диссертации.

РОС. НАЦИОНАЛЬНАЯ

БИБЛИОТЕКА СЛс 09

Цель: Обеспечение надежности сетевых кластеров серверов автоматизированных информационных систем на основе применения сетевых схем кластеризации.

Для достижения данной цели в работе необходимо решить следующие задачи:

1. Проанализировать методы и средства обеспечения надежности и катастрофоустойчивости технических средств АИС.

2. Разработать математические модели высокой точности для описания процессов «отказов-восстановлений» на основе математического аппарата марковских цепей с непрерывным временем.

3. Разработать методику построения моделей для описания процессов «отказов-восстановлений», учитывающую технологические особенности контроля отказов и восстановлений серверов обработки данных высокой надежности.

4. Разработать имитационную модель описания процессов «отказов-восстановлений» для проверки адекватности аналитических моделей, разработанных с помощью созданной методики.

5. Разработать алгоритмы и программную среду математического моделирования технологических схем резервирования данных, обеспечивающих заданный уровень надежности и точности.

Методы исследования.

При выполнении диссертационной работы использовались методы теории вероятностей, случайных процессов, теории массового обслуживания, теории информации, теории катастроф, аппарат теории структурной надежности и методы математического анализа.

Научная новизна работы.

1. Разработана методика построения математических высокоточных моделей надежности кластерных систем, позволяющая учитывать вид контроля, время переключения, надежность системы переключения и другие факторы.

2. Предложен критерий готовности, учитывающий ненадежность системы переключения на резервные элементы и условия эксплуатации системы.

3. Разработана оригинальная схема организации сетевого кластера для обеспечения катастрофоустойчивости функционирования информационных систем.

4. Разработаны аналитические модели высокой точности для оценки надежности предложенной схемы организации сетевого кластера.

5. Разработана имитационная модель для проверки адекватности аналитических моделей, разработанных с помощью созданной методики.

Практическая значимость работы.

1. Предложенная оригинальная схема организации сетевого кластера обеспечивает высокий уровень надежности и катастрофоустойчивости хранения и обработки информации техническими средствами АИС различного назначения.

2. Разработанная программная среда для оценки надежности сетевого кластера позволяет выполнять оценку надежности различных вариантов организации кластера и выбирать эффективное решение на стадии проектирования.

Достоверность научных положений, рекомендаций и выводов.

Обоснованность научных положений, рекомендаций и выводов определяется корректным использованием современных математических методов и моделей.

Разработанная монте-карловская модель, обеспечивающая высокую точность моделирования, подтверждает адекватность предложенных аналитических моделей надежности.

Достоверность положений и выводов диссертации подтверждена положительными результатами внедрения результатов работы в проекты организации.

Внедрение результатов работы.

Разработанные в диссертационной работе оригинальная схема организации сетевого кластера, математические модели оценки надежности, методика

построения математических моделей и программное обеспечение были использованы в рамках научно-исследовательских работ по программе «Научное, научно-методическое, материально-техническое и информационное обеспечение системы образования» по проектам:

• «Разработка принципов функционирования, организационно-методического и программного обеспечения ядра администрирования информационно-управляющей сети сферы образования»;

• «Разработка технических предложений по формированию сервера баз данных и приложений Минобразования на средствах ЕСЦ сферы образования»;

• «Создание систем и методов высокоскоростного доступа к ресурсам телекоммуникационных образовательных сетей»;

• «Исследование методов и обоснование выбора аппаратно-программных средств высокоскоростного доступа к информационным ресурсам образовательных сетей»;

• «Технические решения и технологии организации сетевого взаимодействия объектов управления в рамках ресурсного центра».

Апробация работы.

Основные положения, теоретические выводы и практические рекомендации диссертационной работы докладывались и обсуждались на международном конгрессе «Конструкгорско-технологическая информатика 96» (Москва, 1996 г.), международных конференциях «Информационные средства и технологии» (Москва, 2002 и 2003 г.г.), Всероссийской научно-практической конференции «Технологии Интернет — на службу обществу» (Саратов, 2003 г.) и научных семинарах кафедры «Информационные системы» и Специализированного центра новых информационных технологий МГТУ «Станкин».

Публикации.

По материалам диссертации опубликовано 9 печатных работ.

Структура и объем работы.

Диссертация состоит из введения, четырех глав и заключения. Основная часть работы изложена на 138 страницах, содержит 21 таблицу, 5 диаграмм и 62 рисунка.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность решаемой проблемы, формулируются цели и задачи исследования, определена научная новизна и практическая ценность работы.

В первой главе проведен анализ и предложена классификация методов повышения надежности функционирования информационных систем.

Информационные системы играют значительную роль в жизненном цикле производства продукции или оказании услуг. В настоящее время их роль и влияние на обеспечение качества продукции и услуг постоянно растет. Задачи управления эффективно решаются за счет использования средств информационных технологий. Эта тенденция будет развиваться и в дальнейшем, вызывая рост зависимости обеспечения качества продукции и услуг от средств автоматизации.

Вместе с ростом роли информационных систем в обеспечении качества продукции и услуг предприятия и организации происходит рост рисков, связанных с недоступностью данных и информационных служб, необходимых для осуществления поддержки процессов жизненного цикла. Непрерывность и качество этих процессов находится в прямой зависимости от доступности информационной системы предприятия. Допустимое время простоя информационных служб и недоступности данных определяется исходя из характера задач, решаемых информационной системой.

Работоспособность информационной системы предприятия является определяющим фактором эффективности его деятельности, что диктует необходимость построения таких систем, которые основаны на современных технологиях и обеспечивают характеристики известные, как «RAS» (Reliability,

Availability, Serviceability). Эти характеристики являются традиционными для современных информационных систем.

Существует несколько уровней доступности (готовности) информационных систем. Различают системы:

• высокой готовности (High Availability);

• эластичные к отказам (Fault Resiliency);

• устойчивые к отказам (Fault Tolerance);

• непрерывной готовности (Continuous Availability).

В настоящее время значительно увеличилась вероятность того, что информационная система будет выведена из строя в результате катастрофы (аварии, стихийного бедствия или террористического акта). Для такого варианта используются катастрофоустойчивые системы.

Различают два типа катастрофоустойчивых систем:

• системы, способные восстановить работоспособность в течение приемлемого времени после катастрофы (Disaster Recovery);

• системы нечувствительные к катастрофам (Disaster Tolerance).

В свою очередь Disaster Recovery системы бывают шести уровней.

С точки зрения готовности информационных систем можно привести следующую классификацию:

Таблица 1

Классификация систем по показателю готовности

Класс готовности Показатель готовности, % Продолжительность простоев за год Тип системы

1 >90 более 1 месяца

2 >99 менее 4 дней

3 >99.9 менее 9 часов система готовности (High Availability)

4 >99.99 около 1 часа эластичная к отказам (Fault Resiliency)

5 >99.999 около 5 минут устойчивая к отказам (Fault Tolerance)

6 >99.9999 около 30 секунд непрерывной готовности (Continuous Availability)

Создание информационной системы с высоким показателем готовности требует больших финансовых затрат. Как видно из рисунка 1, повышение готовности системы на 1 класс увеличивает стоимость в два раза.

Стоимость 3,

Рис. 1. Влияние класса готовности на стоимость системы

В отличие от систем 1-3 классов готовности, системы с более высоким классом готовности требуют обеспечения:

• инфраструктурой соответствующей надежности;

• бесперебойным энергоснабжением;

• сценарием мероприятий по восстановлению системы;

• дополнительной подготовки администраторов систем и пользователей. Для обеспечения функционирования системы в режиме «непрерывной

готовности», и, особенно, для катастрофоустойчивых систем, требуется

создание резервных вычислительных центров, функционирующих в режиме «горячего резервирования» и удаленных от основного центра на значительное расстояние.

Статистика причин отказов в системах обработки транзакций показывает, что:

• отказы дисков составляют 27%;

• отказы сервера или его ядра — 24%;

• отказы в программах — 22%;

• отказы в коммуникационном оборудовании — 11%;

• отказы в каналах передачи данных — 10%;

• отказы из-за ошибок персонала — 6%.

Таким образом, на долю телекоммуникационного обеспечения приходятся более 20% отказов.

Анализ использования кластерных систем показал, что одним из вариантов снижения стоимости информационной системы с высоким показателем готовности является применение кластерных технологий.

Во второй главе проводится анализ существующих методов кластеризации и предлагается новая схема организации кластера на основе использования сетевых технологий, обеспечивающая повышение надежности функционирования информационных систем.

Кластер - группа вычислительных машин, которые связаны между собой и функционируют как один узел обработки информации.

По функциональному назначению кластеры можно разделить на:

• высокопроизводительные (High Performance);

• высокой готовности (High Availability);

• комбинированные.

Высокопроизводительные кластеры используются для задач, требующих значительной вычислительной мощности.

Кластеры высокой готовности используются в случаях, когда требуется обеспечить высокую надежность, а потери, вызванные простоем информационной системы, меньше затрат на организацию кластерной системы. 10

Смешанные кластеры используются, когда требуется обеспечить высокие показатели производительности и надежности.

Кластеры высокой готовности различают двух архитектур:

• без разделения ресурсов;

• с общими дисками.

По вариантам топологии различают:

• кластеризованные пары;

• звезда (или N+1 топология);

• кольцевая;

• масштабируемая (или N-14).

Наиболее часто применяются кластерные системы, состоящие из двух узлов.

Для создания катастрофоустойчивой информационной системы предлагается использовать сетевую кластерную систему.

Предлагается оригинальная схема организации кластера (рис 2.), позволяющая минимизировать вероятность возникновения отказов, вызванных телекоммуникационной составляющей информационной системы.

Рассматриваемый вариант кольцевой топологии двухузловой кластерной системы ориентирован на использование оптоволоконных линий связи, в качестве базовой сетевой технологии применяется технология БОШ, обладающая высоким коэффициентом готовности.

Для оценки коэффициента готовности предлагаемой сетевой кластерной системы целесообразно использовать математические модели надежности.

В третьей главе представлены: методика построения модели оценки надежности сетевой кластерной системы, критерий, учитывающий виды контроля, математические модели надежности, учитывающие особенности функционирования предложенной схемы кластеризации. Разработанные модели оценки надежности реализованы в виде алгоритма и программной среды моделирования.

В работе представлены алгоритмические разработки и программная реализация двух типов моделей:

• аналитических;

• монте-карловских.

В связи с тем, что исследуемые системы относятся к 5-6 классу готовности, что соответствует коэффициенту готовности 0,99999 - 0,999999, то требуется обеспечить точность математических моделей 10"7.

В основу аналитического моделирования положены следующие принципы:

• марковские случайные процессы;

• уравнения Колмогорова.

Для решения уравенений используется классический метод Гаусса.

В основе монте-карловской модели используется событийный подход к моделированию.

Разработана методика построения аналитических моделей (систем дифференциальных уравнений) надежности систем при различных вариантах эксплуатации и сопровождения.

Методика позволяет строить модели надежности с учетом следующих факторов:

• использование непрерывного и/или периодического контроля;

• время переключения на резервные элементы;

• надежность системы переключения резервного элемента;

• различные стратегии переключения на резервные элементы;

• количество бригад восстановления. Для реализации разработанной методики был предложен критерий, учитывающий виды контроля (периодический и непрерывный) и ненадежность переключающего элемента.

Общее выражение критерия можно записать следующим образом:

К=(1-Ропг -PnepXl-Рно) )>

i=1

гдеРотц—вероятность того, что система находится в состоянии отказа, обнаруживаемого контролем; Рпер— вероятность того, что система находится в состоянии переключения с

неисправного устройства на исправное; Рно— вероятность того, что система находится в состоянии, когда произошел отказ, но он не обнаружен (эта вероятность характеризует особенность периодического контроля); PK¡ — вероятность того, что отказало / устройство контроля.

Разработанная методика создания аналитических математических моделей предусматривает последовательный выбор пользователем вариантов построения модели (рис. 3). Для этого пользователю необходимо ответить на ряд вопросов:

1. Надежна ли система переключения на резервный элемент?

2. Учитывается ли время переключения на резервный элемент?

3. Какое число бригад восстановления используется?

4. Какой используется тип контроля (непрерывный и/или периодический)? Особенности разработанной методики иллюстрируются на примерах

создания аналитических моделей с постепенным усложнением поставленной задачи: от простых условий к более сложным (рис. 4,5).

Для предложенной схемы организации сетевого кластера (рис. 2) на основе разработанной методики была разработана модель оценки надежности (Кг), которая базируется на изложенных ниже положениях.

Учет тдвимости устройства перермтонммЛюктропя

СММНкОШ 1ТШ ЮИТрОПМ!

шин та»1«2:

моде ¡■шм-а

тртлт таят - 1-а

Стммнь 0« гт» окгролеы

•иым-сц

МрИОДИЧ юим- 1чц

штш мга2:

ммрарм •ими-а,

периодом кзми- 1-а,

Учат тубмнм сват

Рис. 3. Методика построения модели кластерной системы с учетом условий эксплуатации 14

устройства переключения

периодическим контролем основного элемента и учетом времени переключения на

резервный элемент

Исходный поток отказов — простейший с интенсивностью А. Интенсивность единичного отказа сегмента сети имеет величину 1/8 X. Время восстановления имеет экспоненциальную плотность распределения вероятностей с параметром 1/ц.

Используется 8 ремонтных бригад, контроль непрерывный, переключающие устройства—абсолютно надежны, время переключения — не учитывается.

За основу построения графа переходов (рис. 6) возьмем число связей между элементами кластерной системы.

Вершина 20 на графе характеризует состояние, при котором система теряет работоспособность. Коэффициент готовности равен Кг=1-Р2о-

Рис. 6. Граф переходов для кластерной системы на базе двух магистралей ТОО!

На основе разработанного графа переходов из состояния в состояние была получена система дифференциальных уравнений Колмогорова, которая имеет вид:

СП

=КЛъм+^т+и'т+т

=-(1д+^»ад+м» + ¿Л'• № I/■,(') = 1.0

Для проверки адекватности предложенной аналитической модели разработана монте-карловская модель оценки надежности сетевого кластера.

Монте-карловская модель реализована на основе реальных протоколов контроля и технологий устранения отказов в системе эксплуатации кластера, поэтому логика ее функционирования отражает адекватную картину работы сетевого кластера в режиме отказов/восстановлений.

Так как, для оценки предлагаемой схемы организации кластера, соответствующей 6-му классу надежности требуется значение коэффициента готовности с точностью 10"7, то для проверки адекватности предлагаемой аналитической модели потребуется обеспечение точности на порядок выше, что соответствует числу испытаний проводимого монте-карловского эксперимента не менее 10м.

Для определения точности монте-карловской модели используется методика оценки доверительного интервала.

Результаты моделирования аналитической и монте-карловской модели сравниваются. Эталоном выступает монте-карловская модель.

На основе итерационной процедуры исходной аналитической модели выбирается рабочий диапазон параметров, для которых аналитическая модель функционирует с заданной точностью.

В качестве рабочей модели принимается аналитическая модель, поскольку время моделирования при заданной точности примерно на пять порядков меньше, чем на эталонной монте-карловской модели (для систем 5-го класса готовности).

Программная среда моделирования включает оба типа моделей и реализована с использованием объектно-ориентированного подхода и среды Borland Delphi версии 5.

В таблице 2 представлено сравнение результатов моделирования по аналитической и монте-карловской моделям.

Таблица 2

Сравнение коэффициента готовности, рассчитанного с помощью аналитической и имитационной моделей

Аналитическая модель Монте-карловская модель (эталон) Погрешность

Кг 0,99999881 0,99999869 0,000012

среднее время моделирования* 2 сек 667 384 сек

* — моделирование проводилось на компьютере Pentium III 600 MHz с 512

Mb RAM.

Результаты моделирования показывают, что созданные аналитические модели:

• соответствуют заданному классу точности и могут быть использованы для исследования систем 5-6 классов готовности;

• обеспечивают получение результата за очень короткое время и могут быть использованы при проектировании сетевых кластерных систем.

В четвертой главе с использованием созданной программной среды моделирования проведен анализ надежности разработанной схемы сетевой кластерной системы.

На основе разработанной программной среды была проведена серия модельных экспериментов, в которых исследовано поведение сетевой кластерной системы (рис. 2) в различных условиях эксплуатации: периодический или непрерывный контроль, различное число бригад восстановления, абсолютно надежное или ненадежное устройство переключения/контроля, время переключения учитывается или не учитывается. Зависимость коэффициента готовности от указанных факторов представлена на рисунках 7-10.

Количество бригад восстановления

Рис. 7. Зависимость коэффициента готовности от числа бригад восстановления

100,00%

99,80% 99,60% 99,40%

Распределение бригад восстановления по магистралям

Рис. 8. Зависимость коэффициента готовности от распределения бригад восстановления и загрузки магистралей

_доп. лот. ■ , ______

Коэффициент готовности

0,001 0,01 0,1 1 10 100 1000 Периодичность контроля, с

Рис. 9. Зависимость коэффициента готовности от периодичности контроля

резервной магистрали

-« 0,00%

г 1 (УОД

-{ 0.00%

Стратегия перекпочения

-переключение при полном отказе текущей магистрали

- переключение при любом восстановлении основной магистрали

0,001 0,01

0,1 1 10 Время переключения, с

100 1000

Рис. 11. Зависимость коэффициента готовности от времени и стратегии

переключения

Полученные результаты моделирования подтверждают возможность получения системы 6-го класса надежности при использовании предложенной схемы организации сетевого кластера.

Созданные аналитические модели и программная среда позволяют оценивать надежность катастрофоустойчивых сетевых кластерных систем с высокой точностью за небольшой период времени. Малое время моделирования дает возможность на стадии проектирования кластерных систем быстро оценивать большое количество вариантов для выбора оптимального решения.

Опытная эксплуатация разработанной среды моделирования показала ее работоспособность и эффективность в широком диапазоне изменяемых параметров.

Предложенные модели и программная среда внедрены в ряде организаций: ГосНИИ СИ при проектировании сетевой кластерной системы Центрального серверного узла Министерства образования и науки РФ и ЗАО «Медиател» при проектировании АИС FORIS OSS, а также использованы при выполнении ряда работ по научно-техническим программам Министерства образования и науки.

В приложениях представлены описание технологии FDDI, марковских процессов, оценки параметров случайной величины методом доверительного интервала, листинги программ и акты внедрения.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ

1. Обоснована актуальность задачи обеспечения заданного уровня надежности путем резервирования серверов АИС на основе применения элементов сетевых кластерных технологий.

2. На основе проведенного анализа методов и средств обеспечения надежности и катастрофоустойчивости технических средств АИС предложена новая схема организации сетевого кластера на основе применения двух двойных колец FDDI, обеспечивающая катастрофоустойчивосгь функционирования АИС и позволяющая

обеспечить снижение соотношения «цена/надежность системы» при условии обеспечения заданного уровня надежности системы.

3. На основе математического аппарата марковских цепей с непрерывным временем и разработанного критерия готовности, учитывающего ненадежность системы переключения на резервные элементы, разработана методика построения математических моделей надежности систем, позволяющая учитывать вид контроля, время переключения, надежность системы переключения и другие факторы.

4. С использованием предложенной методики разработаны марковские модели высокой точности для оценки надежности предложенных схем организации сетевого кластера. Адекватность разработанных марковских моделей была подтверждена на основе сравнения результатов моделирования с результатами, полученными с использованием разработанной монте-карловской модели высокой точности.

5. Реализованы алгоритмы и программная среда моделирования надежности и катастрофоустойчивости сетевых кластерных систем в соответствии с разработанными методикой и математическими моделями.

6. Разработанная схема организации сетевого кластера и модель оценки надежности были использованы при проектировании сетевой кластерной системы Центрального серверного узла Министерства образования и науки РФ.

7. Теоретические положения и результаты исследований обсуждались на международных конференциях «Информационные средства и технологии» (Москва, 2002 и 2003 г.г.) и Всероссийской научно-практической конференции «Технологии Интернет — на службу обществу» (Саратов, 2003 г.). Основные результаты работы представлены в 9 научных публикациях. Результаты исследований были использованы при выполнении 7 научно-исследовательских работ по заказу Минобразования России.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Сутягин М.В. Анализ катастрофоустойчивости кластерных вычислительных систем / Международный форум информатизации -2002: Доклады международной конференции «Информационные средства и технологии». 15-18 октября 2002 г., в 3-х т. -М.: Янус-К, 2002.-Т. 1 .-С.66-69.

Сутягин М. В. К вопросу о катастрофоустойчивости информационных систем / «Технологии Интернет — на службу обществу» / Сборник статей по материалам Всероссийской научно-практической конференции. Саратов. -СГТУ, 2003 г., С.73-76.

Климанов В.П., Сутягин М.В., Быстрикова В.А. Задачи катастрофоустойчивости кластерных вычислительных систем. / Журнал «Новости искусственного интеллекта». № 3 (50) -2002, С.22-30 Климанов В.П., Сутягин М.В., Родионов А.Э., Ермаков A.A. Модели оценки надежности кластерной системы специального назначения. / Международный форум информатизации-2002: Доклады международной конференции «Информационные средства и технологии». 14-16 октября 2003 г., в 3-х т.т. ТЗ. - М.: Янус-К, 2003. С. 123-131.

Белушкин С.Д., Климанов В.П., Сутягин М.В. Методы повышения надежности информационных систем сферы образования. / Системы управления сферой образования: Сборник статей. - М.: МГИУ, 2003. С.151-162

Белушкин С.Д., Демин О.В., Климанов В.П., Сутягин М.В. Методы и средства обеспечения высокоскоростного обмена информацией в центральном сегменте телекоммуникационной образовательной сети. / Индустрия образования. Сборник статей. Выпуск 2. -М.: МГИУ, 2002. С. 120-124.

Белушкин С.Д., Крынкин Д.В., Климанов В.П., Сутягин М.В. Основы построения сервера баз данных и приложений Минобразования РФ. /

Индустрия образования. Сборник статей. Выпуск 2. -М.: МГИУ, 2002. С. 171-175.

8. Белушкин С.Д., Климанов В.П., Сандухадзе Д.Б., Сутягин М.В. Обоснование выбора программно-технической среды ядра администрирования информационно-управляющей сети сферы образования. / Индустрия образования. Сборник статей. Выпуск 1М.: МГИУ, 2001. С. 34-44.

9. Позднеев Б.М., Ланцов М.А., Максимов Н.С., Сутягин М.В., Мухин А.Н. Разработка программно-технического комплекса для сквозного конструкторско-технологического проектирования в машиностроении / 3-й международный конгресс "Конструкторско-технологическая информатика" — КТИ-96: Труды конгресса. - Москва: МГТУ "Станкин", 1996. С.109 -110.

Автореферат диссертации на соискание ученой степени кандидата технических наук

Сутягин Максим Валерьевич

Обеспечение надежности автоматизированных информационных систем на основе сетевой кластеризации серверов

Лицензия на издательскую деятельность ЛР №01741 от 11.05.2000 Подписано в печать 23.12.2004. Формат 60х90'Лб Уч.изд. л. 1,5. Тираж 50 экз. Заказ № 241

Отпечатано в Издательском Центре МГТУ «СТАНКИН» 103055, Москва, Вадковский пер., д.3а

РНБ Русский фонд

2006-4 2058

Оглавление автор диссертации — кандидата технических наук Сутягин, Максим Валерьевич

Введение

Глава 1. Анализ методов повышения надежности автоматизированных информационных систем

1.1. Надежность автоматизированных информационных систем

1.2. Анализ факторов, влияющих на надежность информационных систем

1.3. Уровни надежности автоматизированных информационных систем.

1.4. Характеристики надежности автоматизированных информационных систем

1.5. Катастрофоустойчивость автоматизированных информационных систем

1.6. Методы обеспечения надежности автоматизированных информационных систем.

Цели и задачи исследования.

Глава 2. Особенности использования кластерных технологий в системах с высоким показателем готовности

2.1. Многоуровневая модель кластера.

2.2. Классификация кластерных систем.

2.2.1. Высокопроизводительные кластеры

2.2.2. Кластеры высокой надежности

2.2.3. Смешанные архитектуры.

2.3. Классификация кластеров высокой готовности

2.4. Классификация катастрофоустойчивых кластерных систем

2.5. Существующие решения для организации кластеров высокой надежности.

2.6. Сетевая кластерная система с использованием технологии FDDI

Выводы по главе

Глава 3. Разработка моделей оценки надежности сетевых кластерных систем и программной среды моделирования

3.1. Обзор методов моделирования

3.1.1 Подходы к построению моделей.

3.2. Аналитические модели надежности

3.2.1. Использование моделей массового обслуживания для описания функционирования вычислительных систем.

3.3. Имитационные модели надежности

3.3.1. Событийный метод.

3.3.2. Процесс имитационного моделирования

3.4. Методика построения аналитических моделей для оценки надежности сетевых кластерных систем.

3.5. Разработка критерия оценки надежности сетевой кластерной системы

3.6. Построение аналитической модели для предлагаемой схемы организации сетевой кластерной системы.

3.7. Разработка и реализация имитационной модели надежности

3.8. Программная среда моделирования кластерной системы высокой готовности

Выводы по главе

Глава 4. Оценка надежности сетевых кластерных систем.

4.1. Проверка адекватности разработанной аналитической модели оценки надежности сетевой кластерной системы

4.2. Анализ надежности предлагаемой сетевой кластерной системы с высоким показателем готовности.

4.2.1. Кластерная система с одной магистралью FDDI.

4.2.2. Кластерная система с двумя магистралями FDDI.

4.3. Анализ надежности сетевой кластерной системы в различных условиях эксплуатации.

4.3.1. Зависимость надежности системы от числа бригад восстановления.

4.3.2. Зависимость надежности системы от распределения бригад восстановления по основной и резервной магистралям.

4.3.3. Зависимость надежности системы от типа контроля магистралей

4.3.4. Зависимость надежности системы от стратегии переключения и учета времени переключения

Выводы по главе

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Сутягин, Максим Валерьевич

На современном этапе экономического развития страны одной из важнейших проблем является задача повышения качества продукции и работ (услуг). Важное место в решении этой проблемы занимает задача повышения надежности разработок в области создания автоматизированных информационных систем (АИС), используемых в различных сферах деятельности: обработки данных, проектирования, научных исследований [1,2].

Повышение надежности разработок в области создания АИС — разносторонняя проблема. Она имеет социальный, экономический и научно-технический аспекты.

Социальный аспект проблемы заключается в необходимости своевременного приведения надежности разработок в соответствие с мировыми постоянно ужесточающимися требованиями, предъявляемыми потребителем к надежности продукции, которое в первую очередь определяется такими социальными факторами, как профессиональное мастерство и качество труда.

Экономический аспект проблемы повышения надежности продукции определяется тем, что данная проблема является частью более общей проблемы — повышения эффективности производства.

Научно-технический аспект проблемы обусловливается тем, что уровень надежности разработок АИС зависит от достижений науки и техники, а также темпов внедрения этих достижений в различные сферы производственной и непроизводственной деятельности.

Эффективность и качество АИС во многом предопределяются их надежностью, т.е. свойством системы сохранять во времени в установленных пределах значения всех параметров, характеризующих способность системы выполнять требуемые функции в заданных режимах и условиях эксплуатации. Проблемам надежности АИС посвящены работы таких ученых, как В.П. Бобков, О.Н. Бодин, В.И. Будзко, А.Э. Говорский, А.Г. Додонов, К.А. Иыуду, В.П. Климанов, А.И. Костогрызов, И.А. Мизин, В.В. Липаев, В.А. Нетес, Б.В. Палюх, В.И. Потапов, И.В. Прангишвили, Дж. Сандлер, Г.С. Теслер, И.А. Ушаков, В.А. Фатуев, Я.А. Хетагуров.

Одной из актуальных задач, возникающих при проектировании и модернизации АИС, является задача обеспечения заданного уровня надежности [28, 33, 39, 47, 52, 53, 58, 79, 83, 89, 92]. При решении такой задачи возникает возможность уже на стадии проектирования АИС оценивать уровень надежности предлагаемых схем и технологий обработки данных [9, 17, 19, 27, 26, 29, 46, 55, 63, 66, 68, 86]. Для такой оценки необходима разработка математических моделей, учитывающих особенности режима эксплуатации [4, 5, 6, 21, 36, 45, 60, 72, 93] .

Одним из основных методов повышения надежности технических средств АИС является резервирование серверов. Резервироваться могут как отдельные элементы сервера (процессор, жесткий диск, блок питания и т.п.), так и сервер целиком — за счет использования кластерных технологий.

Общим вопросам кластеризации посвящено значительное количество работ. Существуют типовые схемы кластеризации, но практически не используется такая технология как сетевая кластеризация — это направление только начало зарождаться. Эффективное применение сетевых кластерных технологий позволяет обеспечить не только повышение надежности функционирования АИС, но и повысить их катастрофоустойчивость, за счет применении сетевых (территориально распределенных) кластерных систем [7, 14, 15].

Катастрофоустойчивость является составной частью надежности и подразумевает способность АИС противостоять природным и техногенным катастрофам, террористическим актам и другим экстремальным воздействиям.

В настоящее время практически отсутствуют работы по созданию методов и математических моделей для оценки надежности и катастрофоустойчивости современных технологических схем кластеризации серверов на стадии проектирования АИС, что и определяет актуальность настоящей диссертации.

Цель: Обеспечение надежности сетевых кластеров серверов автоматизированных информационных систем на основе применения сетевых схем кластеризации.

Для достижения данной цели в работе решены следующие задачи:

1. Проанализировать методы и средств обеспечения надежности и катастрофоустойчивости технических средств АИС.

2. Разработать математические модели высокой точности для описания процессов «отказов-восстановлений» на основе математического аппарата марковских цепей с непрерывным временем.

3. Разработать методику построения моделей для описания процессов «отказов-восстановлений», учитывающую технологические особенности контроля отказов и восстановлений серверов обработки данных высокой надежности.

4. Разработать имитационную модель описания процессов «отказов-восстановлений» для проверки адекватности аналитических моделей, разработанных с помощью созданной методики.

5. Разработать алгоритмы и программную среду математического моделирования технологических схем резервирования данных, обеспечивающих заданный уровень надежности и точности.

При выполнении диссертационной работы использовались методы теории вероятностей, случайных процессов, теории массового обслуживания, теории информации, теории катастроф, аппарат теории структурной надежности и методы математического анализа.

К наиболее значимым результатам исследования, обладающим научной новизной, относятся:

1. Разработка методики построения математических моделей надежности кластерных систем, позволяющая учитывать вид контроля, время переключения, надежность системы переключения и другие факторы.

2. Критерий готовности, учитывающий ненадежность системы переключения на резервные элементы и условия эксплуатации системы.

3. Разработка оригинальной схемы организации сетевого кластера для обеспечения катастрофоустойчивости функционирования информационных систем.

4. Разработка аналитических моделей высокой точности для оценки надежности предложенной схемы организации сетевого кластера.

5. Разработка имитационной модели для проверки адекватности аналитических моделей, разработанных с помощью созданной методики.

Практическая значимость работы состоит в следующем:

1. Предложенная оригинальная схема организации сетевого кластера обеспечивает высокий уровень надежности и катастрофоустойчивости хранения и обработки информации техническими средствами АИС различного назначения.

2. Разработанная программная среда для оценки надежности сетевого кластера позволяет выполнять оценку надежности различных вариантов организации кластера и выбирать эффективное решение на стадии проектирования.

Обоснованность научных положений, рекомендаций и выводов определяется корректным использованием современных математических методов и моделей.

Разработанная Монте-карловская модель, обеспечивающая высокую точность моделирования, подтверждает адекватность предложенных аналитических моделей надежности.

Достоверность положений и выводов диссертации подтверждена положительными результатами внедрения результатов работы в проекты организации.

Разработанные в диссертационной работе оригинальная схема организации сетевого кластера, математические модели оценки надежности, методика построения математических моделей и программное обеспечение были использованы в рамках научно-исследовательских работ по программе «Научное, научно-методическое, материально-техническое и информационное обеспечение системы образования» по проектам:

• «Разработка принципов функционирования, организационно-методического и программного обеспечения ядра администрирования информационно-управляющей сети сферы образования»;

• «Разработка технических предложений по формированию сервера баз данных и приложений Минобразования на средствах ЕСЦ сферы образования»;

• «Создание систем и методов высокоскоростного доступа к ресурсам телекоммуникационных образовательных сетей»;

• «Исследование методов и обоснование выбора аппаратно-программных средств высокоскоростного доступа к информационным ресурсам образовательных сетей»;

• «Технические решения и технологии организации сетевого взаимодействия объектов управления в рамках ресурсного центра».

Основные положения, теоретические выводы и практические рекомендации диссертационной работы докладывались и обсуждались на международном конгрессе «Конструкторско-технологическая информатика - 96» (Москва, 1996 г.), международных конференциях «Информационные средства и технологии» (Москва, 2002 и 2003 г.г.), Всероссийской научно-практической конференции «Технологии Интернет — на службу обществу» (Саратов, 2003 г.), а также научных семинарах кафедры «Информационные системы» и Специализированного центра новых информационных технологий МГТУ «Станкин».

По материалам диссертации опубликовано 9 печатных работ.

Во введении обосновывается актуальность решаемой проблемы, формулируются цели и задачи исследования, определена научная новизна и практическая ценность работы.

В первой главе диссертационной работы проведен анализ факторов, влияющих на надежность информационных систем, предложена классификация АИС по уровням надежности, приведены характеристики надежности АИС и классификация методов повышения надежности АИС.

Показано, что требования к надежности для современных АИС значительно повысились. В последнее время появился новый класс надежности АИС — катастроф оустойчивые системы. Приведена зависимость стоимости системы от обеспечиваемого класса надежности.

Для создания катастроф оустойчивых систем требуется отнесение резервных элементов на значительные расстояния от основных элементов.

Сформулированы цель и задачи исследования.

Во второй главе проводится анализ существующих методов кластеризации и предлагается новая схема организации кластера на основе использования сетевых технологий, обеспечивающая повышение надежности функционирования информационных систем.

Приводится многоуровневая модель кластера, требования, предъявляемые к кластерным системам.

Приводится классификация кластерных систем по функциональному назначению, классификация высоконадежных кластеров по подсистемам хранения, по вариантам топологии, по распределению вычислительных ресурсов, классификация катастрофоустойчивых кластерных систем.

Приведен обзор существующих кластерных систем высокой надежности.

Проведен анализ отказов высоконадежных кластерных систем и показано, что отказы сетевого оборудования составляют около 20% от общего числа отказов.

Предложена новая схема организации сетевого кластера на базе двух магистралей FDDI, обладающего высокой надежностью сетевой составляющей.

В третьей главе представлены: методика построения модели оценки надежности сетевой кластерной системы, критерий, учитывающий виды контроля, математические модели надежности, учитывающие особенности функционирования предложенной схемы кластеризации. Разработанные модели оценки надежности реализованы в виде алгоритма и программной среды моделирования.

Проведен анализ методов моделирования, приведено описание методов аналитического и имитационного моделирования.

Предложены методика построения аналитических моделей для оценки надежности сетевых кластерных систем, учитывающая условия эксплуатации системы, и критерий оценки надежности сетевой кластерной системы, учитывающий ненадежность устройства переключения и контроля.

Разработаны аналитические модели оценки надежности предлагаемой сетевой кластерной системы, а также имитационная модель надежности для подтверждения адекватности аналитических моделей.

Создана программная среда моделирования, включающая оба типа моделей и реализованная с использованием объектно-ориентированного подхода и среды Borland Delphi версии 5.

В четвертой главе с использованием созданной программной среды моделирования проведен анализ надежности разработанной схемы сетевой кластерной системы.

Проведен сравнительный анализ надежности предлагаемой схемы сетевого кластера на базе двух магистралей FDDI с системой на базе одной магистрали FDDI.

С помощью созданной среды программной моделирования подтверждена адекватность разработанных аналитических моделей.

Выявлены зависимости надежности сетевой кластерной системы от числа и распределения бригад восстановления, периодического или непрерывного контроля магистралей FDDI, стратегии переключения и учета времени переключения.

В заключении приведены основные выводы по результатам диссертационной работы.

На защиту выносятся:

1. Схема организации сетевой кластерной системы высокой надежности на базе двух магистралей FDDI.

2. Методика построения математических моделей надежности систем, учитывающая виды контроля, время переключения, надежность системы переключения и другие эксплуатационные факторы.

3. Критерий готовности, учитывающий ненадежность системы переключения на резервные элементы и условия эксплуатации системы.

4. Аналитические и имитационная модели высокой точности для оценки надежности предложенной схемы организации сетевого кластера.

5. Программная реализация предложенных моделей.

6. Результаты проведенного моделирования и сравнительный анализ условий эксплуатации предложенной схемы сетевого кластера высокой надежности.

Заключение диссертация на тему "Обеспечение надежности автоматизированных информационных систем на основе сетевой кластеризации серверов"

Выводы но главе 4

1, Проведен сравнительный анализ предложенной схемы организации сетевого кластера на базе двух двойных колец FDD1 и сетевого кластера на базе одного двойного кольца PDD1 путем сравнения вероятности единичного отказа сетевых соединений. Установлено, что надежность кластерной системы зависит от способа подключения Оборудования (с чередованием или без). Допустимая вероятность единичного отказа для предлагаемой схемы организации значительно превышает допустимую вероятность для схемы с одной магистралью FDDI, особенно для систем с высоким коэффициентом готовности.

Проведен анализ надежности сетевой кластерной системы в различных условиях эксплуатации и выявлена зависимость коэффициента готовности кластерной системы от различных факторов: числа бригад восстановления, стратегии переключения на резервную магистраль и др. Предложенные модели и программная среда были использованы в ГосНИИ СИ при проектировании сетевой кластерной системы Центрального серверного узла Министерства образования и науки РФ и ЗАО «Медиател» при проектировании АИС FORIS OSS, а также использованы при выполнении ряда работ по научно-техническим программам Министерства образования и науки.

Представленный комплекс моделей позволяет проектировать кластерные системы высокой надежности

Заключение

Результаты теоретических и экспериментальных исследований, выполненных по проблеме повышения надежности автоматизированных информационных систем, а также опыт внедрения разработанных моделей, методики и программного обеспечения позволяют сделать следующие основные выводы:

1. Обоснована актуальность задачи обеспечения заданного уровня надежности путем резервирования серверов АИС на основе применения элементов сетевых кластерных технологий.

2. На основе проведенного анализа методов и средств обеспечения надежности и катастрофоустойчивости технических средств АИС предложена новая схема организации сетевого кластера на основе применения двух двойных колец FDDI, обеспечивающая катастрофоустойчивость функционирования АИС и позволяющая обеспечить снижение соотношения «цена/надежность системы» при условии обеспечения заданного уровня надежности системы.

3. На основе математического аппарата марковских цепей с непрерывным временем и разработанного критерия готовности, учитывающего ненадежность системы переключения на резервные элементы, разработана методика построения математических моделей надежности систем, позволяющая учитывать вид контроля, время переключения, надежность системы переключения и другие факторы.

4. С использованием предложенной методики разработаны марковские модели для оценки надежности предложенных схем организации сетевого кластера. Адекватность разработанных марковских моделей была подтверждена на основе сравнения результатов моделирования с результатами, полученными с использованием разработанной Монте-карловской модели высокой точности.

5. Реализованы алгоритмы и программная среда моделирования надежности и катастрофоустойчивости сетевых кластерных систем в соответствии с разработанными методикой и математическими моделями.

6. Разработанная схема организации сетевого кластера и модель оценки надежности были использованы при проектировании сетевой кластерной системы Центрального серверного узла Министерства образования и науки РФ.

7. Теоретические положения и результаты исследований обсуждались на международных конференциях «Информационные средства и технологии» (Москва, 2002 и 2003 г.г.) и Всероссийской научно-практической конференции

Технологии Интернет — на службу обществу» (Саратов, 2003 г.). Основные результаты работы представлены в 9 научных публикациях. Результаты исследований были использованы при выполнении 7 научно-исследовательских работ по заказу Минобразования России.

Библиография Сутягин, Максим Валерьевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Авен О.И., Гурнн Н.Н., Коган Я.А. Оценка качества и оптимизация вычислительных систем. М.: Наука, 1982. - 464 с.

2. Авербух О. Качество работы банкоматной сети: как и чем его измерить? ПЛАС. Платежи, системы, карточки. № 1(91) 2004 г. http://www.recon.ru/level3/plus2004/ plus-2004-01.html.

3. Альянах И.Н. Моделирование вычислительных систем. JL: Машиностроение, 1988.- 223с.

4. Барзилович Е.Ю., Беляев Ю.К., Каштанов В.А. и др. Вопросы математической теории надежности /Под ред. Б.В. Гнеденко. М.: Радио и связь, 1983. - 376с.

5. Барлоу Р., Прошан Ф. Математическая теория надежности. М.: Сов. радио, 1969. -488с.

6. Барлоу Р., Прошан Ф. Статистическая теория надежности и испытания на безотказность. М.: Наука, 1984. - 328с.

7. Беленков В.Г., Будзко В.И., Синицин И.Н. Проблемы создания катастрофоустойчивых крупномасштабных автоматизированных систем банковских расчетов. /Системы и средства информатики /Под ред. И.А. Соколова /Вып. 12 -М.: Наука, 2002. 314 с. - С.48-57.

8. Беленков В.Г., Будзко В.И., Синицин И.Н. Катастрофоустойчивость корпоративных автоматизированных систем /Системы и средства информатики /Под ред. И.А. Соколова/Вып. 12 -М.: Наука, 2002. 314 с. - С. 41-47.

9. Бодин О.Н. Расчет надежности элементов информационных систем: Учеб.пособие /Бодин О.Н., Сипягин Н.А. и др. -Пенза, 2000. -55с.: ил.

10. Бондаренко В. Устойчивость на все сто. /Материала web-сайта компании MUK. http://www.muk.com.Ua/support/4/.

11. Борзенко А. Кластеры. BYTE Magazine Россия, №5 2002 г. http://www.bytemag.ru/Article. asp?ID=865.

12. Борзенко А. Отказоустойчивые решения на базе Primergy. BYTE Magazine Россия, №9 2001 г. http://www.bytemag.ru/Article.asp?ID=428.

13. Борзенко А. Решение PrimeCluster для корпоративной ИТ-инфраструктуры. BYTE Magazine Россия, №3 2004 г. http://www.bytemag.ru/Article.asp?ID=2496.

14. Будзко В.И. Количественные оценки отказоустойчивых и катастрофоустойчивых решений. Вопросы защиты информации: Науч.-практ. журн./ ФГУП «ВИМИ», 2003. Вып. 2.-С. 19-32.15.