автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка метода анализа и обработки рисков отказов сложных многокомпонентных систем

кандидата технических наук
Васильева, Татьяна Николаевна
город
Москва
год
2013
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка метода анализа и обработки рисков отказов сложных многокомпонентных систем»

Автореферат диссертации по теме "Разработка метода анализа и обработки рисков отказов сложных многокомпонентных систем"

На правах рукописи

Васильева Татьяна Николаевна

РАЗРАБОТКА МЕТОДА АНАЛИЗА И ОБРАБОТКИ РИСКОВ ОТКАЗОВ СЛОЖНЫХ МНОГОКОМПОНЕНТНЫХ СИСТЕМ

Специальность

05.13.01 - Системный анализ, управление и обработка информации (по отраслям)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

О 5 СЕН 2013

Москва - 2013

005532580

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Национальный исследовательский университет «МЭИ» Министерства образования и науки Российской Федерации на кафедре Управления и информатики

Научный руководитель

доктор технических наук, профессор [Бородюк Виталий Павлович

Официальные оппоненты

доктор технических наук, профессор Орлов Александр Иванович

Ведущая организация

доктор технических наук, профессор Борисов Вадим Владимирович

Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Национальный исследовательский университет «Высшая школа

экономики»

Защита состоится 17 октября 2013 года в 14 час. 00 мин. на заседании диссертационного совета Д 212.157.08 на базе ФГБОУ ВПО «НИУ «МЭИ» по адресу:

Москва, ул. Красноказарменная, д. 14 в Малом актовом зале НИУ «МЭИ».

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу: 111250, Москва, ул. Красноказарменная, д. 14, Ученый совет ФГБОУ ВПО «НИУ «МЭИ»

Автореферат разослан " 2013 г.

Ученый секретарь

диссертационного совета Д 212.157.08, кандидат технических наук, доцент

Анисимов Д.Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы

В современном мире неотъемлемой составляющей бизнес-процессов каждой организации являются сложные технические системы, содержащие в своем составе аппаратные и программные компоненты. Это различные технологические комплексы, системы управления производством, информационные системы, вычислительные и телекоммуникационные сети. От бесперебойного функционирования данных систем зависит возможность ведения и прибыльность бизнеса организации. Отказы компонентов систем приводят к прерываниям и нарушениям бизнес-процессов организации, а, следовательно, к финансовому ущербу организации. Современное развитие технических и организационных мер по борьбе со сбоями в работе различных компонентов технических систем позволяет достичь высокого уровня их отказоустойчивости. Однако затраты на внедрение данных мер могут быть неоправданными. Нахождение разумного компромисса и выбор достаточного для организации уровня отказоустойчивости технических систем при допустимых затратах является одной из важнейших задач в области управления производством.

Для решения данной проблемы широко распространенная в мире методика «обслуживания по надежности» (RCM - Reliability Centered Maintenance) рекомендует проводить анализ рисков отказов компонентов систем. Значение риска, представляющее собой комбинацию вероятности отказа компонента и ущерба от данного отказа, позволяет определить, насколько критичны отказы компонентов системы для организации.

Существующие на данный момент способы проведения оценки рисков отличаются методами получения их составляющих - вероятности и ущерба. Наиболее распространено использование экспертных оценок в совокупности с балльными шкалами значений. При этом экспертный анализ является весьма ресурсоемкой процедурой, а использование балльных шкал затрудняет трактовку результатов расчетов. Поэтому актуальной является задача разработки метода анализа и обработки рисков, использующего для расчета показатели, которые можно получить на основе измеримых величин без использования прямого экспертного анализа. При этом данные показатели должны быть выразимы в виде, технологичном для получения конечных результатов, которые должны быть понятны как техническим специалистам, так и административному персоналу. Метод должен давать возможность достаточно простого определения экономической эффективности внедрения мер по борьбе с отказами компонентов и их финансовыми последствиями для организации. При наличии различных методик для разных типов бизнес-процессов, решение вопроса об использовании адекватного и легко интерпретируемого показателя экономической эффективности системы контрмер по-прежнему является актуальным.

Объект исследования

Объектом исследования в диссертации являются методы анализа и управления рисками отказов, а также показатели оценки экономической эффективности системы контрмер.

Предмет исследования

Предметом исследования является получение оценок потенциального ущерба от отказов в денежном выражении, определение критичности отказов для организации, а также определение экономической эффективности мер по борьбе с отказами и их последствиями.

Целью диссертации является разработка метода анализа и обработки рисков отказов сложных технических систем с возможностью оценки экономической эффективности системы мер по борьбе с ущербом от отказов в легко интерпретируемом виде.

Реализации поставленной цели требует решения следующих основных задач;

1. Проведение сравнительного анализа основных методов решения задачи анализа и управления рисками отказов компонентов систем, критериев оценки экономической эффективности системы контрмер. Выявление ограничений и недостатков в применении рассмотренных подходов и решений.

2. Разработка метода анализа и обработки рисков с учетом выявленных недостатков существующих подходов и решений.

3. Разработка показателя оценки экономической эффективности затрат на внедрение и использование системы контрмер.

4. Реализация разработанного метода в виде инструментальной системы (программного комплекса).

5. Проверка работоспособности разработанного метода и его инструментальной системы применительно к реальной технической системе.

Методы исследования

Для решения поставленных задач использовались методы системного анализа, оценки рисков и рентабельности, теории надежности, теории множеств, комбинаторики. При разработке программной реализации инструментальной системы применялся принцип проблемно-ориентированного проектирования DDD (Domain Driven Design), унифицированный язык моделирования информационных систем UML, объектно-ориентированное проектирование и программирование.

Достоверность результатов

Обоснованность научных положений, выводов и рекомендаций, сформулированных в диссертации, подтверждается:

- непротиворечивостью исходных предпосылок и математических процедур получения конечного результата - показателя рентабельности системы контрмер, выраженного через риски;

- результатами практического применения разработанного метода анализа и обработки рисков, подтверженными экспертной оценкой специалистов и

согласующимися с опубликованными результатами исследований, полученными другими методами.

Научная новизна

1. Разработан метод анализа и обработки рисков отказов сложных систем с представлением результатов в денежном выражении.

2. Выработаны рекомендации по процедуре разбиения системы на компоненты, являющейся исходным этапом реализации метода,

3. Введен фактор риска «сервис», характеризующий потребность конкретных пользователей системы в ее конкретных компонентах и позволяющий повысить достоверность расчета ущерба от отказа компонентов.

4. Разработана процедура расчета ущерба от отказов компонентов системы на основе измеримых и рассчитываемых показателей, позволяющая повысить достоверность исходных данных и результатов анализа путем отказа от прямой экспертной оценки ущерба.

5. Предложен критерий оценки экономической эффективности комплекса мер обработки рисков отказов в виде легко интерпретируемого показателя рентабельности.

Практическая значимость работы

Разработанный метод анализа и обработки рисков может быть использован широким кругом организаций для контроля и управления расходами, вызванными отказами технических систем организации. В первую очередь метод предназначен для организаций с высокой степенью интегрированности технических систем в бизнес-процессы и приоритетной функциональной доступностью ресурсов системы, заинтересованных в нахождении компромисса между затратами, выделяемыми на обеспечение функциональной доступности работы системы, и достигаемым уровнем защиты от отказов.

Метод реализован в виде инструментальной системы, которая дает возможность аналитикам и риск-менеджерам организации:

- проводить накопление статистики отказов компонентов системы;

- описывать структуру системы с учетом потребностей потребителей (пользователей) в сервисах системы в рамках бизнес-процессов;

- оценивать риски отказов системы на основе статистических данных и значений ущерба, вычисленных в рамках метода;

- оценивать экономическую эффективность комплекса мер по борьбе с финансовыми последствиями отказов, используя показатель рентабельности.

Использование результатов диссертации

На основе разработанного метода анализа и обработки рисков, а также показателя оценки экономической эффективности разработана инструментальная система. Метод анализа и обработки рисков отказов и инструментальная система были использованы для исследования конфигураций ядра информационно-вычислительной сети НИУ«МЭИ», а также в рамках проектной и консультационной деятельности ООО «Лаборатория ИКТ», что подтверждается соответствующими актами.

Апробация работы

Основные результаты работы докладывались и обсуждались на XVII Международном научно-техническом семинаре «Современные технологии в задачах управления, автоматики и обработки информации» (Алушта, сентябрь 2008 г.), Всероссийской научно практической конференции «Развитие конкуренции на рынке информационных технологий» (Москва, март 2009 г.), на IX Международной научной конференции «Новые информационные технологии и менеджмент качества» (Белек, Турция, май 2012 г.), на X Всероссийской школе-конференции молодых ученых «Управление большими системами» (Уфа, июнь 2013 г.).

Публикации

По результатам диссертационного исследования опубликованы семь печатных работ, в том числе две в журнале «Вестник МЭИ», включенном в перечень ведущих рецензируемых научных журналов ВАК. В публикациях, написанных в соавторстве, автору принадлежат основные результаты.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав с выводами к ним, заключения, списка литературы и приложения. Основной текст работы изложен на 186 страницах машинописного текста и включает 30 рисунков и 11 таблицу. Список литературы содержит 82 источника. Объем приложения составляет 15 страниц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность решаемой в диссертации научно-технической проблемы, сформулированы цель и задачи исследования, научная новизна и практическая ценность проведенных исследований.

В первой главе проведен обзор существующих стандартов, теоретических подходов и практических методов анализа рисков в различных сферах деятельности человека, в той или иной мере затрагивающих проблему анализа рисков отказов компонентов различных технических систем. Был проведен анализ рассмотренных подходов и методов, выявлены их преимущества и недостатки применительно к поставленной задаче получения оценок рисков отказов в денежном выражении. Также был проведен анализ показателей экономической эффективности мер обработки рисков.

Риски отказов фигурируют в стандартах и методах анализа рисков в следующих областях; в технологических системах — стандарты группы ГОСТ Р 51901 «Менеджмент риска» и методы анализа видов и последствий отказов, анализа «дерева событий» и «дерева неисправностей», структурной схемы надежности, Марковские методы; в информационной безопасности -стандарты BS 7799, ISO 27000, ГОСТ Р ИСО/МЭК 17799, 27001, методы CRAMM и RiskWatch; в управлении непрерывностью бизнеса - стандарты BS 25999 и ГОСТ Р 53647; в банковском деле - стандарт Базель II.

При анализе указанных стандартов и методов в качестве приоритетных рассматривались следующие факторы: 1) область применения;

2) вид и способы получения значений вероятности отказов и ущерба от отказов;

3) сложность и трудоемкость процедуры анализа рисков;

4) проработанность процедуры анализа рисков.

По результатам анализа был сделан вывод, что, несмотря на достоинства, которыми обладает каждый из рассмотренных методов и подходов, ни один из них не может быть применен для достижения поставленной цели в исходном виде.

Методы и подходы к анализу рисков отказов в технологических системах предлагают весьма сложные и трудоемкие процедуры для определения вероятностной составляющей риска отказа, уделяя недостаточно внимания составляющей ущерба. Методы анализа рисков информационной безопасности избыточны для решения задачи анализа рисков отказов технических систем, для определения вероятностной составляющей риска они используют гипотетические модели, основанные на опросе экспертов, а также, будучи ориентированы исключительно на информационные активы, не позволяют учитывать «процессную» составляющую рисков отказов. Стандарты в области управления непрерывностью бизнеса и банковском деле носят рекомендательный характер и не регламентируют процедуры анализа рисков отказов.

Значение риска позволяет оценить уровень функциональной доступности компонентов системы, не неся в себе информации о стоимости системы мер противодействия отказам. Для оценки экономической эффективности мер обработки рисков в настоящий момент используются такие показатели как: Возврат от инвестиций, Совокупная стоимость владения, Чистая приведенная стоимость, основными недостатками которых является сложность в оценке исходных данных для проведения расчетов.

В результате проведенного анализа и выявленных недостатков были сформулированы предпосылки и требования к разрабатываемому методу анализа и обработки рисков отказов. Метод должен позволять:

1) применение к широкому классу технических систем, не зависими от специфики производственных и бизнес-процессов организации;

2) получать оценки критичности отказов компонентов в виде значений рисков, выраженных в денежном эквиваленте;

3) определять финансовые последствия отказов компонентов и их выражение в денежном эквиваленте на основе измеримых и нормативно-справочных величин, не прибегая к прямой экспертной оценке ущерба;

4) рассчитывать вероятность возникновения отказов на основании статистических данных об отказах или нормативно-справочных величин, не прибегая к прямой экспертной оценке;

5) выявлять компоненты системы и их функции в рамках конкретного производственного или бизнес-процесса организации, не требуя при этом детального анализа всех бизнес-процессов организации;

6) оценивать экономическую эффективность комплекса мер обработки рисков отказов в легко интерпретируемом виде;

s

7) оперативно учитывать меняющиеся внешние условия, используя экономический показатель как критерий целесообразности изменения комплекса мер.

Вторая глава содержит подробное описание разработанного автором метода анализа и обработки рисков отказов технической системы на основе знаний о ее структуре, пользователях и их потребностях в функционале системы.

Условные обозначения, используемые при описании метода, представлены в таблицах 1,2, 3 и 4.

Исходные данные для расчета по методу анализа рисков

Таблица 1

Результаты обследования системы

№ п/п Показатель/ фактор риска Обозначение

1. Компонент системы {item) г

2. Группа пользователей системы (user group) 1Ю = (щ,...,иь), и -пользователь системы

3. Потребность пользователя в сервисе (demand for service) .05>-у(и,зту), ¡п> - сервис системы

4. Способ реализации сервиса (implementation of service) /5гУ (згу, Ь'О) = «'(¡'а

5. Критический способ реализации сервиса (critical implementation of service) С1Бп> («ГУ, иО) = ¡¡(¡а...../д) для каждой фиксированной ¡УС7

6. Конфигурация системы Соп/ (СопДкигаНоп)

Таблица 2

Статистика отказов/технические характеристики компонентов

№ п/п Показатель Обозначение

1. Время восстановления компонента системы в конфигурации Conf (time to repair) TR(f), f(i, Conf) -отказ компонента

2. Время наработки на отказ компонента (time between failures) TBF(f)

3. Число отказов компонента N(i, Conf)

4. Число невосстановимых отказов компонента (unrepairable items) Nu (i, Conf)

5. Период сбора статистики отказов TO, Conf)

6. Среднее время восстановления компонента (mean time to repair) MTTR (i, Conf)

7. Среднее время наработки на отказ компонента (mean time between failures) MTBF(i, Conf)

Таблица 3 Прочие исходные величины

№ п/п Показатель Обозначение Измерим

1. Стоимость меры (cost of measure) С(т), 7и(г'а,,.,г'3)-мера Да

2. Стоимость простоя пользователя-сотрудника, ден.ед./ч Ch(u) (cost of hour) Да

3. Стоимость компонента C(i) (cost) Да

4. Стоимость установки компонента Cins(i) (install) Да

5. Стоимость утилизации компонента Crem(t) (removal) Да

6. Стоимость восстановления компонента после отказа Lr(i, Conf) (repair loss) Да

7. ; Ущерб от недоступности сервиса для внешних пользователей, ден.ед./ч Lwch(srv, UG, Conf) (work of client loss within 1 h) Условно

8. Максимально возможный ущерб Lmax (maximum loss) Условно

9. Остаточный максимально возможный ущерб Lm(Conf) (residual loss) Условно

Результаты метода анализа и управления рисками

Таблица 4

Промежуточные и итоговые результаты метода анализа и обработки рисков

№ п/п Показатель Обозначение

1. Ущерб от отказа компонента/ совокупности компонентов (loss) L(i, Conf),L(si, Conf)

2. Ущерб в связи с утилизацией и заменой компонента (item change loss) Lc(i, Conf)

3. Ущерб от потерь рабочего времени (working time loss) Lw(i,Conf), Lw (si, Conf)

4. Вероятность отказа компонента, совокупности компонентов (probability) P(i, Conf), P(si, Conf)

Итоговые

5. Оценка риска отказа компонента, совокупности компонентов (risk) R(i, Conf), R(si, Conf)

6. Оценка рентабельности комплекса мер (profitability) Prof(Pk), Pk (package) - комплекс мер

Дополнительные

7. Вероятность отказа сервиса (probability) P(srv,UG,Conf)

8. Оценка риска отказа сервиса (risk) R(srv,Conf)

В случае если система хранит или обрабатывает «самоценную» информацию, т.е. информацию, нарушение целостности которой несет для организации ущерб, не связанный с недоступностью сервисов, предлагается вводить в анализ дополнительные величины, представленные в таблице 5.

Таблица 5

Дополнительные величины для учета информации

№ n/n Показатель Обозначение

Исходные данные

1. Способ хранения информации info (storage) S(info), info - информация

2. Критический способ хранения информации info (critical storage) CS (info) = si(ia,..,ip), si (set of items) - критическая совокупность компонентов

3. Стоимость информации C(info) (часто не измерима)

4. Стоимость восстановления информации Cr(info) (измерима)

Промежуточные результаты анализа

5. Ущерб от потери информации (information loss) Li(i, ConJ),Li(si, Conf)

Процедура метода анализа и обработки рисков отказов

Этап 1. Анализ структуры системы и определение факторов риска:

1.1. Описание значимых компонентов системы i, типов компонентов t. Компоненты i выделяются аналитиком (риск-менеджером) исходя из целей анализа в конкретном случае таким образом, чтобы для каждого компонента можно было собрать статистические данные об отказах или получить справочную информацию о частотах отказа. 1.2.Описание пользователей системы и, первичное выделение сервисов srv. 1.3.Описание соответствий между различными структурными единицами системы:

- выявление и описание DSrv(u,srv)\

- выявление способов реализации сервиса для совокупностей пользователей на основании DSrv(u,srv): ISry(srv,{Uy.....иъ)) ={л'(1а,...,г»| si(ia,-J/i)e {siu..,simi}}\

- фиксация UG в зависимости от ISrv(srv,(uу,... ,щ)):

UG= {UG......UGmg) ={("y.....м8)]ISrvisrvlu,.....щ)) е {ISrvu...JSrvr,ls}};

- определение CISrv(srv,UG) e{CISrvh...,CISrvncls} на основании ISrv(srv,UG) для каждой выделенной UG;

- при необходимости выявление информации info, S(info), CS{info).

1.4.Фиксация необходимых для анализа данных: г, t, и, UG, srv, DSrv(u,srv), CISrv(srv,UG), при необходимости также info, CS(info), особо - критических совокупностей компонентов sie{si\,..,simsi), т.е. наборов компонентов, одновременный отказ которых вызывает потерю некоторой информации или недоступность некоторого сервиса для некоторой группы пользователей: si = {si{ia,...,ip)\ si(ia,...,ip) = CS(info)e {CSv...,CSnc!}v v si(ia.....ip)~CISrv(srv,UG)e{CISrv\.....CISrvncis}}.

Анализ структуры системы с выделением факторов риска является одним из определяющих этапов анализа рисков. Для его реализации в диссертации были разработаны подробные рекомендации по разбиению системы на компоненты, выделению сервисов, пользователей, информации системы.

Этап 2. Получение исходных количественных показателей:

2.1.Получение значений Ch(u), C(í), Cins(i), Crem(i), Lmax, Lwch(srv,UG), Lr(i), a также при необходимости C(info), Cr(info) для исходной конфигурации системы.

2.2. Анализ статистических данных об отказах.

- определение TR(f), и TBFif) по каждому отказу каждого компонента, периода 1\i,Conf) для каждого компонента;

- расчет для каждого компонента количества наблюденного числа отказов N(i,Conf), в том числе Nu (i, Conf);

- расчет среднего времени восстановления для каждого компонента:

MTTRU, Conf) =-1-У TR(f)

J) N(i, Conf) j

- расчет ожидаемого времени недоступности сервиса для каждой пары сервис - критический способ реализации сервиса (srv, CISrv): TSR(CISrv,Conf) = mm(MTTR(i,Conf)), i e CISrv(srv,UG) = .

Этап 3. Расчет ущерба в результате отказа компонентов:

11D T^nrn«f\ Tn(,rn„f\ Conf) ■ (C(Q + Cins(i) + Cremji))

3.1 Расчет Lc(i,Conf): Lc{i,Conf) =---

N(i, Conf)

3,2Расчет приведенной оценки Lr'(i,Conf)\

Lr< {i, conf) = m,Co^)rNu{i Conf) ir{u Conf) N(i,Conf)

З.ЗПри необходимости: расчет ущерба Li(i,Conf) и Li(si,Conf) с использованием знания CSiinfo), C{info) и Cr(info):

Li(si, Conf) = ¿(C(w/o)+ Criinfo)), где CS{infó) = si;

es

Li(i,Conf) = Li(si,Conf), где si = i. 3.4Расчет значения ущерба от недоступности сервиса в течение 1 часа Lwhisrv,UG,Conf) (может быть переопределено экспертом):

Lwh(srv, UG, Conf) = £ 0,0lDSrv(u, srv) • Ch(u) + Lwch(srv,UG, Conf) t

p

где (i - число пользователей-сотрудников из группы UG, использующих в работе сервис srv; 3.5Расчет значения ущерба от отказа критической совокупности:

Lw{si,Conf) = TSR (CISrv, Conf) • Lwh{srva ,UGß)t где UGч 6

<*.ß

{(srv,UG)\CISrv(srv,UG) = si}-Lw(i,Conf) = Lw(si,Conf), где si = г. З.бРасчет значения общего ущерба в результате отказа

Щ Conf) = Lc(i, Conf)+Lr'(/, Conf)+Li(i, Conf)+Lw(j, Conf), Lisi, Conf) = Li(si, Conf)+ Lw(si, Conf).

Этап 4. Расчет вероятности отказа:

4.1 Вычисление вероятности отказа компонента.

Вычисление вероятности строится на основе статистических данных об отказах или технических характеристик компонентов (если статистических данных нет или они недостаточны для проведения анализа). Будем считать, что система функционирует в нормальном режиме, т.е. интенсивность отказов компонентов постоянна во времени. За вероятность отказа компонента принимаем вероятность того, что в произвольный момент времени компонент будет находиться в нерабочем состоянии:

P(t, Conf) = 1 - JГ, (/. Conf) = 1--MTBF(i,Conf)--

* MTBF(i, Conf ) + MTTR0, Conf)

__MTTR(i,Conf)_

А/7ВР(/, Соп/) + МПЩ, Соп/)' где Кг (/, Со«/) - коэффициент готовности компонента / в конфигурации Соп[,

МТВРЦ,СопГ)= 1 или значения МТТЯ и МТВР

И(1,СопГ)У

определяются техническими характеристиками компонента.

Дополнительно можно использовать пересчет вероятности для однотипных

компонентов:

Р{1а, Соп/) =... = РЦр, Сои/) = I (Р(1а, Соп/) +... + Р{1р, Со«/)), где V - число компонентов типа Л

4.2Вычисление вероятности отказа критической совокупности компонентов. Для совокупностей компонентов л" вероятность отказа равна вероятности одновременного отказа всех входящих в совокупность компонентов (по

определению критической совокупности): Р(«,Сои/) = ]~|Р(г',Со«/),

ш

4.3При необходимости - вычисление вероятности отказа сервиса для группы пользователей как суммы вероятностей отказов всех его критических компонентов и совокупностей (несовместное событие), соответствующих критическим способам реализации сервиса для пользователей данной группы.

Р(5п>,Ш,СопЛ= £Р(я,Сол/) + £Р(/,Сои/), где

si, i =CISrv(srv, UG) e {CISrv......CISrvncis},

при этом i g si, six сt siy. При несоблюдении данных условий, т.е. если какие-либо компоненты или совокупности включаются в другие совокупности, «включающие» совокупности не учитываются.

Этап 5. Опенка рисков отказов для исходной конфигурации системы:

5.1.Расчет оценок рисков отказов для компонентов и совокупностей компонентов как произведения оценок потерь и вероятности отказа, а также, при необходимости, сервисов как суммы произведений оценок потерь и вероятности отказа по всем критическим способам доступа и группам пользователей сервиса:

R(i,Conf) = L(i,Conf) • P(i,Conf),

R(si, Conf) = L{si, Conf) ■ P(si, Conf),

R(srv, Conf) = (srv, UG) ■ P(si, Conf) ■ TSR (si, Conf) +

UG sl

+ ZELwh(srv,UG)-P(l,ConfConf), где si, i =CISrv(srv,UG).

UG i

5.2.Оценивание рисков: определение допустимых значений рисков, сравнение с ними полученных значений, принятие решений о необходимости внедрения мер обработки рисков.

5,3.Фиксация базовой конфигурации системы Confbase, включающей в себя результаты анализа, полученные на этапах 1-5,

Этап 6. Обработка рисков и последующий повторный анализ рисков:

6.1.Описание возможных мер обработки рисков m(ia,..,iß)... m(iy,..,is), определение С(т).

6.2.Выбор комплекса мер Рк для исследования, определение Lres(Conf).

6.3.Расчет оценки суммарной стоимости комплекса мер Рк\ C(Pk) = ^C(m),me{ma,..,mß).

Рк

6.4,Описание новой конфигурации Conf, включающей в себя комплекс мер смягчения последствий отказов Рк. Процедура анализа рисков отказов (этапы 1 - 5) для системы повторяется с учетом комплекса мер смягчения последствий отказов Рк.

Этап 7. Оценка экономической эффективности комплекса мер обработки

рисков:

7.1.Вычисление оценки рентабельности комплекса мер Рк:

JC- XR{hConfbm,) + XR(si,ConfiaJ-£R(i,Conf)-^R&.Conf)\-C(Pk) ProAPk)^-*-^-*-

где i , si - компонент/совокупность компонентов системы после реинвентаризации, К- нормировочный коэффициент.

к =_:_A™, ~Lres(Conf)_

Confba¡í) + ^L(si,Confbast) Conf)Conf)'

I si I' si'

7.2.На основании значения рентабельности, являющегося показателем экономической эффективности комплекса мер, принимается решение о принятии данного комплекса мер:

- если получено, что ProfiPk) < 0, затраты на комплекс мер превышают выгоду от его применения, комплекс мер не эффективен;

- если получено, что ProfiPk) = 0, затраты на комплекс мер окупаются;

- если получено, что ProfiPk) > 0, затраты на комплекс экономически оправданны, комплекс мер эффективен.

Этап 8. Нахождение оптимального комплекса мер обработки рисков:

Задача нахождения наиболее экономически эффективного комплекса мер может решаться как задача оптимизации в одной из следующих постановок:

8.1.Максимизация рентабельности при ограничениях на сумму рисков и стоимость комплекса мер: ProfiPk)-> шах, при 1Я <Х\, С(Рк) <Х2.

8.2.Минимизация суммы рисков при ограничениях на рентабельность и стоимость комплекса мер: 1Л -» min, при ProfiPk) >Х\, С(Рк)<Х1

8.3 .Минимизация стоимости комплекса мер при ограничениях на рентабельность и сумму рисков: С(Рк) —> min, при ProfiPk) >Х1,1Л<Х2 XI, XI - соответствующие граничные значения для каждой постановки, устанавливаются аналитиком (риск-менеджером) в зависимости от задач и условий функционирования организации. Для решения указанных задач оптимизации предложен эвристический алгоритм, подробно представленный в диссертации на примере решения задачи в постановке 8.1. Поиск оптимального комплекса мер по данному алгоритму осуществляется путем видоизменения и моделирования нового комплекса мер и пересчета для него показателей стоимости, рентабельности и суммы рисков. Полученные значения сравниваются с предыдущими, и аналитиком выбирается лучший комплекс мер с точки зрения критерия поставленной задачи. Процедура повторяется до тех пор, пока не превышены установленные ограничения.

Для систем, не обрабатывающих и не хранящих «самоценную» информацию, единственный неизмеримый входной параметр C(info) может быть исключен из анализа, и для указанного класса систем анализ можно проводить без привлечения экспертов. Для прочих систем, а также в случае принятия риск-менеджером решения по переопределению значений исходных и рассчитываемых величин путем экспертного оценивания, предлагается использовать широко распространенный и описанный в литературе метод групповой оценки объектов.

Разработанный метод анализа и обработки рисков отказов имеет следующие основные характерные черты.

1. Метод имеет широкую область применения и не требует детального анализа бизнес-процессов организации. Основой для анализа служат данные о конкретных компонентах системы, ее пользователях и взаимосвязях между ними, полученные в результате обследования системы.

2. Метод позволяет отказаться от прямого экспертного оценивания вероятностей отказов и ущерба от отказа, предлагая процедуры вычисления данных величин метода на основе объективных измеримых показателей. Это повышает достоверность исходных данных и результатов анализа, снижая при этом его ресурсоемкость.

3. Для вычисления потерь от простоя пользователей в анализ рисков введен фактор риска сервис - пользовательская функция системы, отражающая реальные потребности пользователей системы в ее ресурсах. Потери от простоя пользователей и прерывания бизнес-процессов организации - это финансовые потери, вызванные недоступностью сервисов.

4. Метод дает легко интерпретируемые результаты в денежном эквиваленте, понятные как техническим специалистам, так и административно-управленческому персоналу организаций, а также хорошо сочитающиеся с показателем рентабельности при его последующем вычислении.

5. Метод не накладывает ограничений на тип мер по смягчению рисков отказов, оперируя лишь финансовыми характеристиками меры.

6. В качестве оценки эффективности затрат на комплекс мер обработки рисков введен показатель рентабельности. Его значение зависит от изменения затрат на комплекс мер и уровня рисков.

7. При использовании разработанного метода существует возможность повышения экономической эффективности комплекса мер путем снижения определенных рисков за счет перераспределения затрат на применение мер в соответствии с текущей ситуацией,

В данной главе приведены также разработанные авторомрекомендации по практическому использованию разработанного метода анализа и обработки рисков, в том числе по модификации метода при использовании в условиях недостаточности статистических данных, а также по проведению декомпозиции системы, выделению компонентов и сервисов. Помимо этого проведена классификация и описание наиболее распространенных организационных и технических мер обработки рисков отказов компонентов систем.

Третья глава содержит требования к инструментальной системе, реализующей предложенный метод анализа и обработки рисков и расчета экономической эффективности, а также описание разработанной инструментальной системы. На рис. 1 представлена модель структуры данных инструментальной системы, созданная на языке UML в виде диаграммы классов или модели предметной области. Проектирование системы осуществлялось с применением подхода предметно-ориентированного проектирования (Domain Driven Design - DDD).

зависит от

Рис. 1. Структура данных инструментальной системы «Риски отказов»

При работе с системой на первом этапе осуществляется ввод исходных данных о структуре системы, пользователях, сервисах и информации, а также значений исходных величин. Затем вводятся данные об отказах, таким образом, происходит накопление статистики. Далее система осуществляет необходимые расчеты и генерирует итоговый отчет с результатами: значениями рисков по критическим компонентам и совокупностям компонентов, значением рентабельности рассматриваемого комплекса мер.

Риск-менеджер анализирует полученные значения рисков и рентабельности и может использовать систему для моделирования различных вариантов комплекса мер обработки рисков для нахождения наилучшего с точки зрения стоимости и качества.

Также в третьей глава описаны допущения, сделанные при адаптации метода к программной реализации, и рекомендации по работе с системой.

В четвертой главе описывается процесс исследования конфигураций аппаратного ядра информационно-вычислительной сети НИУ«МЭИ» (ИВС) разработанным методом. Работа проводилась совместно с Информационно-вычислительным центром ИВЦ НИУ«МЭИ». Сеть имеет распределенную структуру и включает около 3500 компьютеров, 150 серверных систем.

Начиная с 2008 года в ИВС МЭИ активно внедряются механизмы виртуализации серверов как решения, позволяющие серьезно увеличить отказоустойчивость сети (благодаря механизму High Availability - «высокая

доступность»), более эффективно использовать вычислительные мощности оборудования и одновременно сократить ряд эксплуатационных затрат (например, затраты на электроэнергию) за счет снижения его количества. С целью выяснить, насколько экономически оправдан переход к системам виртуализации, а также выявить наилучшую с точки зрения отказоустойчивости и стоимости конфигурацию сети был проведен анализ рисков отказов программно-аппаратного комплекса различных конфигураций ядра ИВС по разработанному методу с использованием инструментальной системы, описанной в третьей главе.

В качестве исходных были использованы статистические данные систем мониторинга ИВС, собранные за 4 года, заключения и оценки технических специалистов ИВЦ, нормативно-справочная информация, статьи, описания.

В ходе анализа были рассмотрены конфигурации ядра сети, применявшиеся в разные годы, в том числе и в настоящий момент, в ИВС МЭИ, а также конфигурации, составленные на основе рекомендаций по построению инфраструктуры сети Cisco и VMware.

Сеть МЭИ предоставляет пользователям следующие сервисы: аутентификация в домене public.mpei.local; доступ в Интернет; Портал НИУ «МЭИ»; ОСЭП; ИС «Кадры», ИС ИРИС, СОД, др. Всего выделено 15 сервисов. Взаимовлияние сервисов не учитывалось, производительность сети учитывалась в виде ограничений на число работающих серверов.

Рассмотренные конфигурации по принципу реализации сервисов делятся на 2 группы: а) «сервер как сервис»: сервис реализуется 1 физическим или виртуальным сервером (разновидность модели предоставления вычислительных ресурсов PaaS - Platform as a Service); б) «функциональность как сервис»: сервис не привязан серверу, реализуется 4 физическими или виртуальными серверами, распределяющими нагрузку между собой (разновидность модели SaaS - Software as a Service).

Анализ рентабельности проводился обособленно для каждой из выделенных групп. Каждая группа содержит в качестве базовой конфигурацию без использования систем виртуализации (Вариант 1), а также 4 конфигурации с системами виртуализации: одну - с независимым хранилищем данных на каждом сервере (Вариант 2), две - с обособленными системами хранения данных, использующих различные принципы подключения к хост-серверам (Вариант 3 - Ethernet канал, подключение по протоколу iSCSI; Вариант 4 -подключение по каналу Fibre Channel), одну - с распределенной системой хранения данных между всеми хост-серверами ядра сети (Вариант 5).

Результаты анализа рисков и рентабельности конфигураций ядра ИВС, а также ряд дополнительных показателей, характеризующих степень защищенности сети от последствий отказов, представлены в таблице 5 (значения ущерба, рисков и затрат выражены в тысячах рублей (т.р.)).

Таблица 5

Результаты анализа рисков отказов конфигураций ядра ИВС

$ я Я -в" В й Суммарный риск, Я(Соп/), т.р. Вероятность отказа сервиса, Дот,Жч,Сом/) Ожидаемый ущерб от отказов в год, Лг(Соп/), т.р. Время восстановления (полный отказ) ТхвоАСопА 4 Максимально возможный ущерб ¿™х(Сол/),т.р. Недоступность сервиса в год Т^ет, ч Годовые затраты, С(Сол/), т.р. Рентабельность РгоЦСопУ)

Сервер как сервис

Вар1 4,8 0,0081 1 800,6 49,25 2 955,0 295,96 1 102,5 0

Вар2 1,6 0,0080 569,9 22,5 1 350,0 20,71 996,0 1,34

ВарЗ зд 0,0045 787,1 33 1 980,0 20,30 1 195,1 0,77

Вар4 3,1 0,0045 787,1 34 2 040,0 20,30 1 309,7 0,62

Вар5 1,2 0,0026 446,9 22 1 320,0 14,63 996,0 1,47

Функциональность как сервис (с распределением нагрузки РН)

РН-Вар1 1,2 0,0025 496,4 83 4 980,0 16,58 3 430,2 0

РН-Вар2 1,2 0,0025 443,3 36,5 2 190,0 15,16 2 558,1 0,36

РН-ВарЗ 3,0 0,0044 773,5 45 2 700,0 20,07 2 757,2 0,14

РН-Вар4 3,0 0,0044 773,5 46 2 760,0 20,07 2 871,8 0,10

РН-Вар5 1,2 0,0026 518,1 42 2 520,0 15,82 2 558,1 0,33

По результатам анализа получено, что:

1) переход к системам виртуализации в целом является экономически эффективным с точки зрения обеспечения доступности ресурсов сети и снижения эксплуатационных затрат, т.к. показатели рентабельности для всех конфигураций с использованием систем виртуализации положительны;

2) при распределении нагрузки (конфигурации группы «функциональность как сервис») экономический эффект достигается в основном за счет снижения эксплуатационных затрат, в отсутствие распределенной нагрузки (конфигурации группы «сервер как сервис») - за счет снижения эксплуатационных затрат, а также рисков отказов;

3) наилучшими по показателю рентабельности и сумме рисков являются конфигурации с системами виртуализации и распределенной системой хранения данных СХД - Вариант 5, особенно для небольших сетей; для сетей с большим количеством хост-серверов эффективность конфигурации с распределенной СХД падает, т.к. при увеличении числа серверов, падает производительность сети из-за необходимости синхронизации данных. Поэтому для конфигураций ядра сети группы «функциональность как сервис», рассчитанных на обслуживание большего числа пользователей и использующих большее количество хост-серверов, Вариант 5 конфигурации ядра уступил Варианту 2 - конфигурации, в которой хранилище данных существует на каждом хост-сервере отдельно и синхронизуется только с хранилищами четверки серверов, реализующих один сервис.

Полученные по результатам исследования выводы относительно

эффективности использования систем виртуализации с точки зрения

обеспечения бесперебойной работы сервисов вычислительной сети, а также рекомендации по выбору конфигурации системы виртуализации, соответствуют результатам опыта и экспертным оценкам специалистов ИБС, а также хорошо согласуются с результатами последних исследований компаний VMware и Cisco Systems в области построения систем виртуализации.

Использование разработанного метода анализа рисков в ИБС МЭИ позволило впервые получить оценки ожидаемого ущерба от отказов компонентов в денежном виде и аргументировать превосходство одних конфигураций ядра сети над другими с точки зрения экономической эффективности.

. Также в четвертой главе описывается использование разработанного метода и инструментальной системы в проектной и консультационной деятельности ООО «Лаборатория ИКТ».

В результате практического использования метода был сделан вывод о том, что параметры, предложенные для оценки рисков и рентабельности, удобны для работы и отражают действительную ситуацию по возможному ущербу от отказов компонентов сложной технической системы и эффективности комплекса мер по борьбе с ними.

В заключении приводятся основные результаты и выводы, полученные автором в ходе выполнения работы.

ЗАКЛЮЧЕНИЕ

В процессе решения задач, поставленных в диссертации, получены следующие основные научные и практические результаты:

1. Проведен обзор наиболее известных отечественных и международных стандартов и методов анализа и управления рисками отказов сложных систем, критериев оценки эффективности мер обработки рисков. Выявлены их недостатки, сформулированы требования к разработке нового метода.

2. Разработан метод анализа и обработки рисков отказов компонентов сложных систем с представлением результатов в денежном выражении. Разработаны рекомендации по разбиению системы на компоненты, идентификации факторов риска, учету различных потерь организации, связанных с отказами системы, а также приведены примеры мер обработки рисков отказов.

3. В рамках метода введен фактор риска «сервис», представляющий собой необходимую потребителю функцию системы и характеризующий потребность конкретных пользователей системы в ее конкретных компонентах, Выделение сервисов позволяет учитывать и оценивать влияние системы на бизнес-процессы организации без необходимости проведения детального анализа бизнес-процессов.

4. Разработана процедура расчета ущерба от отказов компонентов системы на основе измеримых и рассчитываемых показателей, позволяющая заменить прямую экспертную оценку ущерба, тем самым повышая достоверность исходных данных и результатов анализа.

5. Предложен показатель оценки экономической эффективности комплекса

мер обработки рисков отказов в виде рентабельности. Показатель позволяет оценить экономическую эффективность планируемого или внедренного комплекса согласно текущим условиям функционирования системы.

6. Для практической реализации предложенного метода и показателя экономической эффективности разработана инструментальная система.

7. Проведена проверка разработанного метода и его инструментальной системы на реальных объектах: Информационно-вычислительной сети Московского энергетического института (НИУ «МЭИ»), а также в рамках проектной и консультационной деятельности ООО «Лаборатория ИКТ», и сделаны выводы о применимости и хорошей адаптируемости метода к реальным практическим задачам.

8. Показана эффективность перехода к системам виртуализации серверов и . определены наиболее экономически эффективные конфигурации ядра вычислительной сети.

Основные положения диссертации изложены в следующих публикациях:

1. Васильева Т.Н., Бородюк В.П., Крепкое И.М. Принципы построения метода оценки финансовых потерь от отказов компонентов информационной системы // Вестник МЭИ. - №1 - 2012. - С. 85 - 90.

2. Васильева Т.Н., Бородюк В.П., Крепков И.М. Минимизация расходов, возникающих вследствие отказов корпоративной информационно-вычислительной системы // Вестник МЭИ. - №2 - 2012. - С. 143 -150.

3. Васильева Т.Н. Особенности управления финансовым ущербом от отказов компонентов сложных технических систем // Управление большими системами: материалы X Всероссийской школы конференции молодых ученых. Том 3/ Уфимск. гос. авиац. тех. ун-т. - Уфа: УГАТУ, 2013. - С. 4548.

4. Васильева Т.Н., Крепков И.М., Хорьков С.Н. Экономическая эффективность перехода к системам виртуализации с точки зрения доступности сервисов корпоративной сети // Новые информационные технологии и менеджмент качества (NIT&QM'2012). Доклады международной научной конференции. - М.: ООО «Арт-Флэш», 2012. - С. 67 - 69.

5. Васильева Т.Н., Львова A.B. Применение оценок рисков для смягчения последствий отказов программно-аппаратного комплекса корпоративной сети. // Современные технологии в задачах управления, автоматики и обработки информации: Труды XIX Международного научно-технического семинара. - М.: Издательский дом МЭИ., 2010. - С. 253 - 254.

6. Васильева Т.Н., Львова A.B. Применение оценок рисков в управлении информационной безопасностью // Прикладная информатика. - №5 (23) -2009.-С. 68-76.

7. Васильева Т.Н., Львова A.B. Применение оценок рисков в управлении информационной безопасностью // Всероссийская научно практическая конференция «Развитие конкуренции на рынке информационных технологий», 25 - 26 марта 2009 года, Москва. Сборник тезисов докладов. -М.: МФПА, 2009. - С. 51 - 52.

Подписано в печать М.М.Ш Зак.ДЛ ТИР. 100 П.л.

Полиграфический центр МЭИ, Красноказарменная ул., д.13

Текст работы Васильева, Татьяна Николаевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образвания «Национальный исследовательский университет «МЭИ»

_на правах рукописи

04201361823

Васильева Татьяна Николаевна

РАЗРАБОТКА МЕТОДА АНАЛИЗА И ОБРАБОТКИ РИСКОВ ОТКАЗОВ СЛОЖНЫХ МНОГОКОМПОНЕНТНЫХ СИСТЕМ

Специальность: 05.13.01 «Системный анализ, управление и обработка

информации (по отраслям)»

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель -доктор технических наук

профессор [В.П. Бородюк

Москва, 2013

л

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ.......................................................................................................................5

1. АНАЛИЗ РИСКОВ ОТКАЗОВ СЛОЖНОЙ СИСТЕМЫ......................................15

1.1. Процесс анализа и управления рисками...............................................................15

1.2. Обзор известных технологий анализа и обработки рисков отказов..................19

1.2.1. Риски отказов в технологических системах......................................................19

1.2.2. Риски отказов в информационной безопасности..............................................29

1.2.3. Риски отказов в управлении непрерывностью бизнеса...................................35

1.2.4. Риски отказов в банковском деле.......................................................................37

1.3. Показатели экономической эффективности.........................................................38

1.4. Заключение по рассмотренным методам анализа рисков...................................42

1.5. Требования к разрабатываемому методу анализа и обработки рисков отказов43 Выводы по главе 1..........................................................................................................44

2. РАЗРАБОТКА МЕТОДА АНАЛИЗА И ОБРАБОТКИ РИСКОВ........................45

2.1. Задачи и проблемы анализа и управления рисками............................................45

2.2. Существующие способы обработки рисков отказов сложных технических систем..............................................................................................................................47

2.3. Разработка метода анализа и обработки рисков отказов....................................55

2.3.1. Основные принципы и характеристики метода................................................55

2.3.2. Процедура метода анализа и обработки рисков...............................................60

2.4. Разработка рекомендаций по получению исходных данных метода................84

2.4.1. Рекомендации по выделению компонентов......................................................84

2.4.2. Рекомендации по выделению пользователей и сервисов................................88

2.4.3. Рекомендации по выделению информации.......................................................92

2.4.4. Рекомендации по сбору статистических данных..............................................93

2.5. Краткие итоги и выводы по методу анализа и обработки рисков.....................96

Выводы по главе 2..........................................................................................................98

3. РАЗРАБОТКА ИНСТРУМЕНТАЛЬНОЙ СИСТЕМЫ АНАЛИЗА И

ОБРАБОТКИ РИСКОВ.................................................................................................99

3.1. Нефункциональные характеристики инструментальной системы..................100

3.2. Функциональные требования к инструментальной системе............................100

3.2.1. Задачи и функции системы...............................................................................100

3.2.2. Сценарий работы Пользователя в инструментальной системе.....................104

3.3. Проектирование инструментальной системы....................................................106

3.3.1. Формирование предметной области................................................................106

3.3.2. Допущения при формировании предметной области....................................109

3.4. Порядок работы с инструментальной системой................................................110

Выводы по главе 3........................................................................................................129

4. ИСПОЛЬЗОВАНИЕ РАЗРАБОТАННОГО МЕТОДА АНАЛИЗА РИСКОВ ОТКАЗОВ ДЛЯ РЕШЕНИЯ ПРАКТИЧЕСКИХ ЗАДАЧ........................................131

4.1. Объект исследования............................................................................................131

4.1.1. Об информационно-вычислительной сети ИВС НИУ «МЭИ».....................131

4.1.2. О системах виртуализации................................................................................133

4.2. Исходные допущения и адаптация алгоритма анализа.....................................137

4.3. Выделение сервисов и критических компонентов ИВС...................................141

4.3.1. Описание сервисов.............................................................................................141

4.3.2. Описание компонентов......................................................................................142

4.4. Проведение анализа рисков отказов и рентабельности конфигураций ИВС. 153

4.4.1. Исходные данные для анализа рисков.............................................................153

4.4.2. Расчет рисков отказов критических компонентов и совокупностей............154

4.4.3. Расчет рентабельности конфигураций ИВС и других показателей..............157

4.5. Анализ результатов...............................................................................................165

4.6. Практическое использование метода в ООО «Лаборатория ИКТ».................171

4.7. Итоги и выводы по практическому использованию метода анализа и

обработки рисков отказов...........................................................................................171

Выводы по главе 4........................................................................................................173

ЗАКЛЮЧЕНИЕ............................................................................................................175

СЛОВАРЬ ТЕРМИНОВ..............................................................................................177

СПИСОК ЛИТЕРАТУРЫ............................................................................................178

ПРИЛОЖЕНИЯ............................................................................................................187

У

1. Акт об использовании результатов диссертации в ИВЦ НИУ «МЭИ».............187

2. Акт об использовании результатов диссертации в ООО «Лаборатория ИКТ». 190

3. Блок-схемы алгоритмов нахождения опитимального комплекса мер...............193

4. Структура базы данных инструментальной системы..........................................195

г

ВВЕДЕНИЕ

Актуальность

В современном мире неотъемлемой составляющей производственных и бизнес-процессов практически каждой организации являются сложные технические системы, содержащие в своем составе аппаратные и программные компоненты. Это различные технологические комплексы, системы автоматизации и управления производством, информационные системы, вычислительные и телекоммуникационные сети. От бесперебойного функционирования данных систем зависит возможность ведения и прибыльность бизнеса организации. Как следствие, возрастают капитальные и эксплуатационные затраты на данные технические системы.

Так, по данным американской компании Гартнер (Gartner Inc.) в 2010 г. мировые затраты в одной лишь области информационных технологий (ИТ-расходы), несмотря на финансовый кризис, увеличиваются по сравнению с предыдущим годом на 4,6% до 3,4 трлн. долларов [9], [70]. По прогнозам все той же Гартнер, сделанным ранее, это около 50% всех капитальных затрат организаций [32].

Вызванное техническим прогрессом постоянное усложнение технических систем приводит к увеличению доли затрат их поддержку и обслуживание по сравнению с общими затратами на проектирование, производство и применение этих систем [35].

Так, по данным доклада [69], представленного в Конгрессе США в ноябре 2008 года Службой проведения исследований (Congressional Research Service), затраты на поддержку и обслуживание технических систем на электростанциях США составляют в зависимости от типа электростанции от 30 до 100% всех операционных затрат на производство электроэнергии.

Компания Гартнер для учета и классификации эксплуатационных затрат на информационные системы и вычислительные сети вводит термин косвенные затраты, который можно использовать и для технических систем в широком смысле. Доля косвенных затрат в общей сумме затрат для информационных

систем может достигать 55%, учет их достаточно сложен [15]. Это издержки, в основном связанные с потерями рабочего времени вследствие простоев и отказов компонентов системы, необходимостью обслуживания системы. Универсальных и эффективных методов обнаружения, учета и предсказания подобных издержек в настоящий момент нет.

Таким образом, оптимизация затрат на поддержку и обслуживание технических систем, а также способность управлять косвенными затратами представляется важной и актуальной задачей для каждой организации, использующей технические системы в своих производственных и бизнес-процессах.

Затраты на поддержку и обслуживание технических систем определяются тем комплексом мер и средств обслуживания и поддержки, который принят в организации для обеспечения бесперебойной работы систем. На протяжении долгого периода времени господствующей системой подобных мер была система мер по проведению планово-предупредительных ремонтов (ППР), когда все компоненты систем проходят регулярный плановый капитальный ремонт. Однако в конце 60-х гг. XX века американские инженеры Стэнли Нолан и Говард Хип, проводившие исследование технических систем в авиационной отрасли, пришли к выводу, что методика обслуживания, основанная на проведении ППР, не является эффективной для сложных систем [78]. Это вызвано тем, что связь между возрастом оборудования и возникающими в нем дефектами (на предположении о которой основано проведение ППР) для большинства типов сложного оборудования является сравнительно слабой. В ходе исследования выявилось, что ППР, являясь весьма ресурсоемкими, не только не обеспечивают бесперебойного функционирования систем, но и сами могут провоцировать отказы.

В качестве альтернативы проведению ППР Нолан и Хип предложили методику «обслуживания по надежности» (RCM - Reliability Centered Maintenance), суть которой заключается в том, что диагностика и обслуживание систем производится не по заданному заранее временному интервалу для каждого компонента, а по совокупности условий, главным из которых является

критичность конкретного компонента для производственного или бизнес-процесса в целом. Использование данной методики в авиации позволило существенно сократить количество аварий и сбоев, не увеличив при этом затраты на обслуживание [60], [78]. В результате данного успеха ЯСМ стала широко использоваться и в других сферах деятельности человека, использующих сложные технические системы, получив наибольшее распространение в электроэнергетике, в том числе атомной [60]. В настоящий момент 11СМ является одной из наиболее полярных в мире методик в теории обслуживания.

ЯСМ - это процесс, используемый для определения действий, необходимых для того, чтобы компонент продолжал выполнять функцию, возложенную на него потребителями в данном производственном контексте [75]. Т.е. целью ЯСМ не обязательно является предотвращение отказов как таковое, но управление их последствиями в производственном контексте. Не всегда важно предотвратить отказ, важно предсказать его возникновение и принять необходимые меры для того, чтобы данный отказ не сказался на ходе производственного процесса.

Для этих целей ЯСМ рекомендует проводить анализ и обработку рисков отказов компонентов систем. Значение риска, представляющее собой комбинацию вероятности отказа компонента и ущерба от данного отказа, позволяет определить, насколько критичны отказы компонентов системы для производственных и бизнес-процессов организации.

Существуют различные способы проведения анализа рисков отказов. Они отличаются методами получения значений их составляющих- вероятности и ущерба. Наиболее распространено использование экспертных оценок в совокупности с балльными шкалами значений. При этом экспертный анализ является весьма ресурсоемкой процедурой, а использование балльных шкал затрудняет трактовку результатов расчетов. Поэтому актуальной является задача разработки метода анализа и обработки рисков, использующего для расчета показатели, которые можно получить на основе измеримых величин без использования прямого экспертного анализа. При этом данные показатели должны быть выразимы в виде, технологичном для получения конечных

результатов, которые должны быть понятны как техническим специалистам, так и административно-управленческому персоналу. Метод должен давать возможность достаточно простого определения экономической эффективности внедрения мер по борьбе с отказами компонентов и их финансовыми последствиями для организации.

В свете всего вышесказанного представляется целесообразной и актуальной разработка метода анализа и обработки рисков отказов компонентов сложных многокомпонентных систем, который бы позволил получать оценки критичности отказов для организации в виде, удобном для последующего использования при управлении затратами на сопровождение и поддержку систем, а также на внедрение мер по смягчению последствий отказов.

Для достижения данных целей метод должен позволять решать следующие задачи:

- декомпозировать систему на компоненты и определять их функции в рамках конкретного производственного или бизнес-процесса организации;

- определять вероятность возникновения отказов, приводящих к невыполнению компонентами своих функций, не прибегая при этом к прямой экспертной оценке вероятности;

- определять финансовые последствия отказов компонентов, не прибегая к прямой экспертной оценке ущерба;

- определять критичность отказов компонентов в выражении, удобном для последующего использования при управлении затратами систему;

- определять экономическую эффективность комплекса мер по обеспечению бесперебойной работы системы в легко интерпретируемом виде.

Целью исследований является разработка метода анализа и обработки рисков отказов сложных многокомпонентных технических систем с возможностью оценки экономической эффективности системы мер по борьбе с ущербом от отказов в легко интерпретируемом виде.

Основными задачами исследований являются:

1) Проведение сравнительного анализа основных методов решения задачи анализа и управления рисками отказов компонентов систем, критериев оценки экономической эффективности системы контрмер.

2) Разработка метода анализа и обработки рисков с учетом выявленных недостатков существующих подходов и решений.

3) Разработка показателя оценки экономической эффективности затрат на внедрение и использование системы контрмер.

4) Реализация разработанного метода в виде инструментальной системы (программного комплекса).

5) Проверка работоспособности разработанного метода и его инструментальной системы применительно к реальной технической системе.

Объектом исследования являются методы анализа и управления рисками отказов, а также показатели оценки экономической эффективности системы контрмер.

Предметом исследования является получение оценок потенциального ущерба от отказов в денежном выражении, определение критичности отказов для организации, а также определение экономической эффективности мер по борьбе с отказами и их последствиями.

Методы исследований.

Для решения поставленных задач использовались методы системного анализа, оценки рисков и рентабельности, теории надежности, теории множеств, комбинаторики. При разработке программной реализации инструментальной системы применялся принцип проблемно-ориентированного проектирования DDD (Domain Driven Design - более точный перевод «разработка, ориентированная на предметную область»), унифицированный язык моделирования информационных систем UML, объектно-ориентированное проектирование и программирование.

Научная новизна.

1. Разработан метод анализа и обработки рисков отказов сложных систем с представлением результатов в денежном выражении.

2. Выработаны рекомендации по процедуре разбиения системы на компоненты, являющейся исходным этапом реализации метода.

3. Введен фактор риска «сервис», характеризующий потребность конкретных пользователей системы в ее конкретных компонентах и позволяющий повысить достоверность расчета ущерба от отказа компонентов.

4. Разработана процедура расчета ущерба от отказов компонентов системы на основе измеримых и рассчитываемых показателей, позволяющая повысить достоверность исходных данных и результатов анализа путем отказа от прямой экспертной оценки ущерба.

5. Предложен критерий оценки экономической эффективности комплекса мер обработки рисков отказов в виде легко интерпретируемого показателя рентабельности.

Достоверность результатов.

Достоверность полученных результатов, сформулированных в диссертации, подтверждается:

• непротиворечивостью исходных предпосылок и математических процедур получения конечного результата - показателя рентабельности системы контрмер, выраженного через риски;

• результатами практического применения разработанного метода анализа и обработки рисков, подтвержденными экспертной оценкой специалистов и согласующимися с опубликованными результатами исследований, полученными другими методами.

Практическая значимость

Разработанный метод анализа и обработки рисков может быть использован широким кругом организаций для контроля и управления расходами, вызванными отказами технических систем организации. В первую очередь метод предназначен для организаций с высокой степенью интегрированное™ технических систем в

бизнес-процессы и приоритетной функциональной доступностью ресурсов системы, заинтересованных в нахождении компро