автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Предметно-независимые модели многокомпонентных систем и их применение в системах мониторинга
Автореферат диссертации по теме "Предметно-независимые модели многокомпонентных систем и их применение в системах мониторинга"
на правах рукописи
005018176
СУРПИН ВАДИМ ПАВЛОВИЧ
ПРЕДМЕТНО-НЕЗАВИСИМЫЕ МОДЕЛИ МНОГОКОМПОНЕНТНЫХ СИСТЕМ И ИХ ПРИМЕНЕНИЕ В СИСТЕМАХ МОНИТОРИНГА
05.13.01 - Системный анализ, управление и обработка информации (технические системы)
2 ДПР Аи.
автореферат диссертации на соискание учёной степени кандидата технических наук
Москва 2012
005018176
Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте проблем передачи информации им. A.A. Харкевича Российской академии наук
Научный руководитель: кандидат технических наук, доцент Баканова Нина Борисовна
Официальные оппоненты: Бернштейн Александр Владимирович,
доктор физико-математических наук, профессор, ИСА РАН, заведующий лабораторией
Защита состоится «23> AUiQ&kt 20Jb г. в \У.(УЭ на заседании диссертационного совета Д 002.077.01 при Институте проблем передачи информации им. A.A. Харкевича РАН (127994, г. Москва, ГСП-4, Большой Каретный переулок, 19, стр.1.).
С диссертацией можно ознакомиться в библиотеке ИППИ РАН.
Степановская Ираида Александровна, кандидат технических наук, старший научный сотрудник,
ИЛУ РАН, ведущий научный сотрудник
Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт проблем информатики Российской академии наук
Автореферат разослан «2jQ> г г [ОТС*- 2012 г.
Учёный секретарь
диссертационного совета
доктор физико-математических наук
И.И. Цитович
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования. Мониторинг явлений, процессов и их характеристик необходим для поддержки научно обоснованного принятия решений в процессе функционирования системы. В широком смысле, под мониторингом понимают систематический сбор и анализ информации об объекте с целью идентификации отклонений его характеристик от штатного режима, либо выявления тенденции изменения характеристик.
Задача мониторинга характерна для тех видов деятельности, где изучаемый объект представляет сложную многокомпонентную систему, о состоянии которой можно судить по изменению свойств системы в целом или совокупности составляющих её объектов. В качестве примеров видов деятельности, неотъемлемой частью которых является задача мониторинга, можно привести эпидемиологический надзор, управление крупномасштабными техническими объектами и производствами, организационное управление.
Многочисленные исследования в каждой из указанных областей, а также во многих других, указывают мониторинг как инструмент исследования сложных систем, так и практически значимую задачу, без которой невозможно нормальное функционирование многих организационных систем и технологических процессов, а также управление ими. Методы мониторинга традиционно применяются в экологических исследованиях. Проблемам экологического мониторинга посвящены работы И. П. Герасимова, Ю.А. Израэля, В.А. Королева, В.Д. Минченко. Исследованию методов мониторинга в здравоохранении посвящены работы Э. Лавсона, К. Клейнмана, Дж. Ломбардо, Д. Бакериджа, В. И. Покровского, Н.Н . Филатова, И. Л. Шананина. Вопросам технической диагностики посвящены работы A.B. Мозгалевского, П.П. Пархоменко, Е.С. Согомоняна, И.А. Биргера, Я.А. Фомина, Л.П. Глазунова, Б.В. Павлова, В.В. Клюева.
Несмотря на широкое применение систем мониторинга во многих областях деятельности, в существующих исследованиях отсутствует достаточно общая модель этих систем, которая бы позволила бы систематизировать накопленный опыт и эффективно использовать его. В каждой области создание системы мониторинга начинается «с нуля», использование наработок из смежных областей затруднено, а передача знаний возможна лишь с опытом разработчика. Это негативно сказывается на общей стоимости, сроках разработки и качестве проектируемых систем. В связи с этим, задача создания обобщённой модели систем мониторинга является актуальной. Препятствием к созданию обобщённой модели является значительная зависимость алгоритмического и математического обеспечения мониторинга от предметной области, поэтому для решения проблемы требуется решить задачу изоляции описания предметной области от общих методов и алгоритмов. Предметная область может быть описана информационными моделями, применяемыми при построении экспертных систем. В работе предлагается использовать информационные модели, используемые в экспертных системах, при проектировании систем мониторинга.
Таким образом, цель исследований состоит в разработке обобщённой предметно-независимой модели систем мониторинга и методов построения систем с использованием предложенной модели. Для достижения цели исследования поставлены и решены следующие задачи:
- Разработка формальной предметно-независимой модели многокомпонентной системы, являющейся предметом мониторинга, и динамики изменения её состояния;
- Анализ существующих информационных моделей представления знаний и обоснованный выбор информационной модели представления знаний предметной области для использования в интеллектуальных алгоритмах систем мониторинга;
- Разработка методов интеллектуального анализа и обработки экспертной информации для использования в предметно-независимых системах мониторинга многокомпонентных систем;
Методы исследований. В работе использованы методы общей теории систем, теории управления, методов математического анализа данных, теории графов, теории исследования операций, а также методов объектно-ориентированного анализа и проектирования систем.
Научная новизна заключается в комплексном исследовании систем мониторинга, в составе которых используются экспертные оценки состояния объектов мониторинга:
- Предложена формальная теоретико-множественная модель многокомпонентной системы мониторинга, а также объектная модель для проектирования информационных систем;
- Проведён анализ существующих формальных моделей представления знаний предметной области. На основании проведённого анализа выбрана информационная модель представления знаний предметной области для использования в интеллектуальных алгоритмах систем мониторинга;
- Разработаны методы интеллектуального анализа и обработки экспертной информации с использованием информационной модели предметной области, в том числе способ оценки неопределённости характеристик объектов мониторинга, а также алгоритм кластеризации объектов для формирования гипотезы о характере внешнего воздействия.
Практическая значимость исследования и реализация результатов. Научные результаты, полученные в диссертации, использованы при создании программно-аппаратного комплекса информационной системы мониторинга распространения вирусного гепатита, а также при создании системы планирования и мониторинга контрольных мероприятий Федеральной службы по надзору в сфере транспорта. Результаты использованы в рамках выполнения следующих работ:
- Федеральная целевая программа «Предупреждение и борьба с социально значимыми заболеваниями (2007-2011 годы)», проект номер 29-10/07 «Разработка концепции и моделирующего комплекса эпидемиологии острых и хронических вирусных гепатитов для нужд ФГУН "ЦНИИЭ" Роспотребнадзора»;
- Федеральная целевая программа «Предупреждение и борьба с социально значимыми заболеваниями (2007-2011 годы)», проект номер ИН-0008/08 «Разработка проектных решений и программных модулей графического представления эпидемиологических данных»
- Ведомственная целевая программа Федеральной службы по надзору в сфере транспорта «Повышение качества исполнения государственных функций и предоставления государственных услуг, в том числе, в электронном виде», ГК №44 «Разработка информационной системы контрольных мероприятий и документооборота в Ространснадзоре»
Достоверность научных положений определяется корректным
использованием математического аппарата и практической реализацией конкретных
информационных систем.
На защиту выносятся:
1. Предметно-независимые модели мониторинга многокомпонентных систем: формальная теоретико-множественная модель многокомпонентной системы мониторинга, а также объектная модель для проектирования информационных систем, описывающие структуру многокомпонентных систем мониторинга, для которых применимы предложенные в работе методы.
2. Анализ существующих формальных моделей представления знаний предметной области и обоснованный выбор информационной модели представления знаний предметной области, позволяющую создать базу знаний, выполняющую необходимые для использования в интеллектуальных алгоритмах систем мониторинга запросы;
3. Методы интеллектуального анализа и обработки экспертной информации с использованием информационной модели предметной области, включая способ оценки неопределённости характеристик объектов мониторинга и алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия, позволяющие идентифицировать недостоверные данные мониторинга;
4. Прототип программного комплекса, созданный на основе предложенных моделей и методов, осуществляющий сбор экспертных характеристик объектов мониторинга, и их интеллектуальную обработку с использованием проблемно-ориентированных семантических графов для обеспечения информационной поддержки при принятии управленческих решений, который демонстрирует применимость разработки для различных предметных областей.
Апробация работы. Основные положения и результаты диссертационной работы были доложены и обсуждались на всероссийской конференции «XII Всероссийский симпозиум по прикладной и промышленной математике (весенняя сессия)», международной конференции «Управление развитием крупномасштабных систем (МЬ80'2009)», всероссийской конференции «III Всероссийская молодёжная конференция по проблемам управления (ВМКПУ'2008)», конференции молодых учёных и специалистов «Информационные технологии и системы (ИТиС'2008)», международном семинаре «Распределённые компьютерные и телекоммуникационные сети (ОССМ'2005)».
Публикации. Основное содержание работы отражено в 10 работах, в том числе в журнале «Информационные технологии», рекомендованном ВАК РФ для изложения основных научных результатов диссертации на соискание учёных степеней.
Структура и объём работы. Диссертация состоит из введения, четырёх глав, приложений и списка литературы (69 наименований). Имеет общий объём 153 машинописных страницы, содержит 44 рисунка и 8 таблиц.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы диссертации, формулируются общие проблемы, цели и задачи исследования, научное и практическое значение полученных результатов, рассматривается структура диссертации и взаимосвязь отдельных глав.
В первой главе рассмотрены основные требования к системам мониторинга; представлен обзор математических методов, нашедших применение при решении задач мониторинга систем и процессов; приводятся основные сведения о построении информационных моделей предметных областей и существующие подходы к формализации знаний. Основное содержание главы опубликовано в [6, 7, 8].
Во второй главе предложена формальная теоретико-множественная модель многокомпонентной системы мониторинга, поставлены формальные задачи системы мониторинга в предложенной модели. Основное содержание главы опубликовано в [9,10].
В третьей главе построена объектная модель системы мониторинга. На основе предложенной модели определены принципиальные свойства взаимодействующих объектов, предложен шаблон описания сложной системы, позволяющий формализовать характерные для системы задачи и применить к ним предложенные методы и алгоритмы. Основное содержание главы опубликовано в [4, 5].
В четвёртой главе приводятся результаты применения разработанных моделей и методов при разработке конкретных информационных систем - описано приложение предложенных методов и алгоритмов к проектированию и разработке
систем мониторинга для эпидемиологии и транспортной безопасности. Основное содержание главы опубликовано в [1, 2, 3].
В первой главе:
• Рассмотрены основные требования к системам мониторинга;
• Приводится обзор математических методов, положенных в основу методов мониторинга;
• Приводятся сведения из области экспертных систем о средствах представления знаний предметной области, а также о вероятностных сетях представления причинно-следственных связей.
В разделе 1.1 обозначен ряд качественных характеристик, отражающих общие требования к сервисам мониторинга, среди которых сложность, гибкость, качество данных, приживаемость, чувствительность, прогностичность положительного результата, представительность, оперативность, стабильность. Рассмотрено влияние отдельных характеристик на выбор подходов к созданию систем мониторинга.
В разделе 1.2 приводится обзор математических методов обнаружения разладки целевой функции, нашедших применение в мониторинге систем и процессов: метод наименьших квадратов, авторегрессионное интегрированное скользящее среднее, экспоненциально взвешенное скользящее среднее, обобщённая линейная модель, метод накопленных сумм, вейвлет-анализ, метод опорных векторов, скрытая Марковская модель, методы на основе Байесовских сетей. Приведены краткие описания основных идей, заложенных в перечисленные математические методы.
В разделе 13 приведены сведения из области экспертных систем о средствах представления знаний предметной области, а также о вероятностных сетях представления причинно-следственных связей. Приведены описания типовых структур представления данных структур знаний. Отдельно дан обзор вероятностных сетей представления знаний, способов обучения интеллектуальных структур на их основе.
Во второй главе предложена формальная теоретико-множественная модель многокомпонентной системы мониторинга, поставлены формальные задачи системы мониторинга в предложенной модели.
• Описана общая структура модели, определены характеристики составляющих её элементов (микроуровень) и наблюдаемые характеристики системы как единого целого (макроуровень);
• Предложена модель изменения состояния объектов на микроуровне, приведён пример модели изменения состояний на микроуровне объектов для эпидемиологии;
• Предложена модель описания основных характеристик на макроуровне, приведён пример модели изменения состояний характеристик системы объектов мониторинга для эпидемиологии;
• Формализованы задачи мониторинга в терминах предложенной теоретико-множественной модели.
В разделе 2.1 описана общая структура модели. Исследуемая система состоит из множества объектов мониторинга, взаимодействующих между собой, и множества источников информации, измеряющих параметры объектов и передающие их в центр обработки данных (рис. 1).
На схеме введены следующие обозначения: {W, I] - многокомпонентная система, M = {S, Е} - система мониторинга. Многокомпонентная система (w, i} представлена множеством W = {wj, ... W|W|} объектов мониторинга и моделью I изменения состояния объектов. Объект w 6 W описывается вектором свойств D = (d1 — d|0|) размерности \D\, ¿¡£1,1=1... D. Система мониторинга M = {S, Е} состоит из множества источников информации S = {s1( ... S|S|} и центра обработки данных Е.
Для моделирования динамики системы в разделе 2.2 работы использован подход к моделированию сложных систем, характерной чертой которого является формулирование гипотез, описывающих динамику процессов на микроуровне, ведущих к пониманию динамики основных агрегированных характеристик на макроуровне. Модель / описывает динамику изменения состояния D отдельных объектов w е W во времени и может быть представлена в следующем виде. Состояние объекта W описывается вектором D, и изменяется в некоторые дискретные моменты в соответствии с правилом:
Л „о». = G(D,A(t),F(t)),
где DH0B - новое состояние объекта, D - предыдущее состояние объекта, A(t) -матрица взаимодействия объектов мониторинга, F(t) - вектор внешнего воздействия на систему объектов мониторинга. Вектор внешнего воздействия и матрица взаимодействия объектов зависят от времени.
Частным случаем модели является линейная модель, которая может описать основные свойства поведения реальных систем или использоваться как первое приближение. Уравнение описывает изменение состояние объекта, обусловленное внутренними законами его функционирования, внешним воздействием f и
(W, 1} Г
M
Рис. 1. Общая схема исследуемой системы 8
взаимодействием между объектами w Е W:
Di(Tn+1) = аи ■ D,(Тп) + Щ, ■ Dj(Tn) + ft(Tn),
где ... < Т0 < Tj < •■■ < Тп < — моменты изменения состояния объекта W, член du'DiOn) описывает внутренние законы изменения состояния объекта, член • Dj(Tn) описывает взаимодействие объектов, а /¡(Г„) описывает
ВОЗДеЙСТВИе ВНеШНеЙ СреДЫ На Объект Wj.
В заключение раздела приводится пример применения предложенной модели к описанию эпидемиологического процесса передачи инфекции.
В разделе 2.3 предложена модель описания основных характеристик на макроуровне. С точки зрения мониторинга систем и процессов интересны агрегированные характеристики системы, отражающие динамику процессов на макроуровне. Эти показатели, такие как уровень заболеваемости, преступности и т.д., часто отражают зависимость величин |С| подмножеств С множества объектов W от времени. Подмножества вводятся по принципу близости вектора состояния D объекта к центральному вектору подмножества:
weC**pc(DlDc)<£c,
где w - объект из множества объектов W, С с W - подмножество множества объектов W, рс - расстояние между векторами состояний объектов, D - вектор состояния объекта w, Dc - центральный вектор подмножества С, ес - радиус подмножества С. Таким образом, подмножество С задаётся тремя параметрами: C = C(pc,Dc,sc).
Каждому объекту w может соответствовать одно или более подмножеств, в этом случае будем говорить, что объект принадлежит одному или более классам: C(w) - C(D) = [Cwl,...}, где D - вектор состояния объекта w. Поскольку D = D(t), то и набор классов объекта меняется во времени, то есть C(w) = C(t).
Величина |С| класса С определяется как количество объектов w , принадлежащих классу С : \С\ =Y,weww е С , где выражение w G С принимает значение 1, если объект w принадлежит классу С и 0 в противном случае. В терминах объектов и классов агрегированные показатели, характеризующие динамику процессов на макроуровне, принимают вид
F(t) = FCICiWUCzWI.....|C„(t)U),
где F(t) - агрегированный показатель состояния системы, Cv..., Сп - классы объектов, t - время. В данном выражении функциональная зависимость F от величин классов |С| обозначает как зависимость от самой функции |C(t)|, так и от её производных, интегральных и других возможных характеристик.
В заключение раздела приводится пример применения предложенной модели к описанию макро-характеристик эпидемиологического процесса.
В разделе 2.4 сформулированы задачи мониторинга состояния системы IV в терминах предложенной математической модели. Рассмотрены две задачи: задача идентификации отклонения характеристик системы от штатного режима и задача проверки гипотез о характере отклонения.
Первая заключается в выборе набора классов Clf..., Сп, функции F(t), методов её измерения, штатного режима F0(t) и порога отклонения sF таких, что отклонение |F(t) — F0(t)l > будет соответствовать существенной коррекции модели изменения состояний объектов I. Понятие существенного отклонения зависит от конкретной области применения модели и может быть формализована, например, в терминах устойчивости системы W.
Вторая задача расширяет первую. Помимо идентификации отклонения |F(t) — FOt> sff необходимо выбрать наиболее вероятную гипотезу Л'probt из множества гипотез Н = {Hv...,HN} такую, что |F(t) - Hprob(t)\ = minH.eH (|F(t) - Hf(t)|).
Выигрыш от проверки гипотез развития процесса заключается в выборе значения ен < eF и, как следствие, раннем обнаружении отклонения характеристик от штатного режима при доле ложных срабатываний меньшей, чем можно получить простым уменьшением порога eF в выражении |F(t) — F0(t)| > eF.
В третьей главе построена объектная модель системы мониторинга. На основе предложенной модели определены принципиальные свойства взаимодействующих объектов, предложен шаблон описания сложной системы, позволяющий формализовать характерные для системы задачи и применить к ним предложенные методы и алгоритмы.
• Разработана объектная модель системы мониторинга и приведены примеры её применения для описания систем мониторинга в области эпидемиологии и транспортной безопасности;
• Рассмотрены классический и альтернативный предметно-независимый подходы к построению алгоритмов мониторинга;
• Произведён обоснованный выбор формальной модели представления знаний предметной области для использования в предметно-независимых алгоритмах;
• Разработана схема системы мониторинга, использующей предметно-независимые алгоритмы интеллектуальной обработки данных, рассмотрены:
о Вопросы обработки входных данных системы мониторинга; о Способ оценки неопределённости характеристик объектов мониторинга,
используемый в интеллектуальных алгоритмах обработки данных; о Алгоритм идентификации и устранения противоречивых информационных сообщений;
о Алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия;
В разделе 3.1 разработана объектная модель системы мониторинга, применяемая при разработке информационных систем мониторинга. В формулировках задач мониторинга, приведённых в разделе 2.4, определены абстрактные элементы модели, которые необходимо связать с концепциями предметной области при проектировании той или иной системы мониторинга: множество объектов W, вектор состояния объекта D, классы объектов Clf..., Сп, функцию F(t) агрегированных характеристик системы W, функцию F0(t) штатного режима функционирования системы W, норму |-| и порог eF отклонения F(t) от штатной функции F0(t) , а также альтернативные гипотезы Я = {Н1, ...,HN} и пороговое значение ен.
Диагностирование состояния D(t) объекта w системы производиться при помощи источников информации S, результатом работы которых D(t) является сообщение об изменении состояния объекта:
Ert\ = (1: Р (Щ) ~ B(tj-i)) > eD KiJ I 0: иначе
где функция E(tj) принимает значение 1 в те моменты времени tj, когда обнаружено значительное изменение свойств объекта; tj - моменты времени, в которые производились измерения состояния объекта; eD — порог, характеризующий значимость изменения. Информацию о событии Е несёт сообщение D(t) , производимое источником информации, поэтому наблюдаемое время tj возникновения события зависит от принципа работы источников информации и их набора. Изменение состояния D объекта iv может быть зафиксировано несколькими источниками информации в разные моменты времени. Каждый источник информации передаст сообщение о событии, в результате чего получим последовательность сообщений об одном и том же событии: E(tj) = 1, E(tj+1) = 1,..., E(tJ+n) = 1, где n -количество источников информации, обнаруживших изменение состояния D(t) объекта. Существует несколько причин, которые определяют «размножение» события, среди них:
• Состояние В объекта w фиксируют несколько источников информации:
• Источники Si и Sj фиксируют разные характеристики объекта w, то есть получают разный набор входных данных: D = {Dj.Dy.Dj}, где D(- информация источника Si, Dj - информация источника S), Dy - информация, измеренная обоими источниками;
• Источники Si и Sj производят разный набор результирующих значений: D = {0£, Dij, Sj), где Si - множество значений источника S;, Dj - множество значений источника Sj, Si;- - множество значений, общее для источников S; и Sj;
• События Ej и Ej похожим образом изменяют вектор состояния объекта D.
В результате, вместо одного момента времени Ь для каждого события получаем п значений, что искажает наблюдаемую функцию и, как следствие, приводит к сбоям при обнаружении отклонения состояния системы от штатного режима и при прогнозировании поведения системы. Решение проблемы искажения функции возникающего вследствие «размножения» сообщений о событии, связано с решением двух задач:
1. Идентификации повторных и противоречивых сообщений: Для сообщений о событиях и Я(^) установить, сигнализируют они об одном и том же событии, или о разных;
2. Кластеризации сообщений по их принадлежности к различным протекающим в системе информационным процессам.
Проблема характерна для систем мониторинга, в которых состояние многокомпонентной системы определяется множеством взаимосвязанных источников информации. На рис. 2 представлена иМЬ-диаграмма классов объектной модели такой системы. Объектная модель используется при проектировании программного обеспечения прикладных систем мониторинга. Соответствие между иМЬ-диаграммой и математической моделью задаётся в табл. 1.
Приведены примеры соответствия объектов модели и предметной области, а также сформулированы задачи идентификации повторных и противоречивых сообщений и кластеризации сообщений по их принадлежности к информационным процессам в терминах предметной области.
Раздел 3.2. Для обнаружения и исправления систематических ошибок измерения состояния К(£) системы IV требуется привлечение знаний предметной области. Это может быть достигнуто как разработкой специальных алгоритмов для узких предметных областей, так и использованием обучаемых интеллектуальных структур. В первом случае тиражируемость решения ограничена, так как алгоритмы включают специфику предметной области и наработки передаются только с опытом разработчика. При использовании обучаемых интеллектуальных структур требуется значительное количество обучающих примеров. Их разработка должна выполняться
I Процесс I-Происходит .-Н Наблюдаемая I
I_ ^_| |_система_|
Сосуитиз Состоит из
—Информируете-Событие ~|—Изменяет состояние»^ Объект ^
Обнаруживает
I Сообщение и~Генерирует-1 Источник I
|_^_1 1 информации I
Содержит Измеряет
Рис. 2. ЦМЬ-диаграмма классов объектной модели системы мониторинга
Таблица 1. Соответствие элементов UML-диаграммы и переменных математической модели. '
1. Наблюдаемая система W
2. Объект W
3. Процесс F(t)
4. Событие ...... Е
5. Источник информации ■ ■ S
5.1. Измеряемые параметры D
5.2. Множество значений измеряемых параметров
6. Сообщение ЕЮ
6.1. Множество значений выходных параметров D
совместно специалистами предметной области и специалистами в области искусственного интеллекта. В результате обученная модель также применяется только к решению узкой задачи.
Проблемой описанных методов является то, что формализованные знания предметной области заложены в алгоритмы обработки информации, что делает невозможным их простую адаптацию к новым задачам. В работе предложены алгоритмы обработки данных, которые взаимодействует с формализованной моделью знаний предметной области, для решения задач, определяемых данной моделью (рис.
На рисунке введены следующие обозначения: А - алгоритм обработки данных; В - входные данные алгоритма; И" - выходные данные алгоритма; БМ - интерфейс входных данных (модель данных); К - знания предметной области; КМ - интерфейс модели знаний. Принципиальным отличием предлагаемой структуры алгоритмов интеллектуального анализа и обработки информации является выделение модели знаний предметной области в независимый блок и взаимодействие алгоритма с этим блоком средствами формализованного интерфейса модели знаний.
В разделе 3.3 произведён обоснованный выбор формальной модели представления знаний предметной области. Модель должна отражать существенные свойства моделируемого объекта или явления, поэтому требования к модели
н dm h
а
т
сг
Рис. 3. Традиционные алгоритмы (слева) и новые алгоритмы с двумя входами (справа)
представления знаний также определяются свойствами моделируемого объекта -знаний. Когда говорят об отличиях знаний от информации, указывают следующие свойства: интерпретируемость, активность, связность, структурированность. Типовые модели представления знаний в той или иной степени отражают перечисленные свойства знаний, но ни одна из типовых моделей знаний не является универсальным решением. Однако различные модели знаний имеют общие черты, что позволяет строить гибридные модели знаний на основе типовых. Поэтому, задача выбора формальной модели представления знаний является задачей синтеза модели, удовлетворяющей требованиям поставленной задачи на основе типовых.
Предложена система критериев для выбора формальной модели представления знаний. На верхнем уровне критерии поделены на три группы: «Свойства представления», «Эксплуатационные характеристики» и «Удобство использования».
В группу «Свойства представления» входят критерии, описывающие принципиальные свойства модели представления знаний: способность к обучению, статические характеристики, характеристики методов вывода. К эксплуатационным характеристикам относятся: временная сложность, ресурсоёмкость, возможность распараллеливания. Группа характеристик верхнего уровня «Удобство использования» включает такие критерии, как сложность разработки, сложность восприятия.
В разрезе предложенной системы характеристик рассмотрены типовые модели представления знаний, выбрана базовая модель и предложены доработки, позволяющие использовать её в предметно-независимых алгоритмах мониторинга. В качестве базовой выбрана модель семантической сети, для работы с неточными знаниями предложено использовать методы нечёткой логики, а вероятностные знания и обучаемость структуры обеспечить засечёт аппарата Байесовских сетей.
В разделе 3.4 разработана схема системы мониторинга, использующей предметно-независимые алгоритмы интеллектуальной обработки данных. На рис. 4 представлена общая схема системы мониторинга, пунктирной линией выделена часть, в которой предметно-независимым способом решаются задачи идентификации повторных и противоречивых сообщений и кластеризации сообщений по их
Рис. 4. Общая схема решения 14
принадлежности к информационным процессам.
Приведено описание процедур предметно-независимого блока. Описаны процедуры, обозначенные на схеме, а также алгоритмы и модели, необходимые для этих процедур:
1. Преобразование непрерывных входных параметров в дискретные значения;
2. Мера близости векторов состояний объектов;
3. Выбор формальной модели представления знаний предметной области;
4. Алгоритм выбора расширенного множества значений состояния объекта;
5. Преобразование сообщений в события;
6. Объединение событий в процессы;
В разделе 3.4.1 рассмотрены вопросы преобразования непрерывных входных параметров в дискретные значения. Данные о состоянии объекта О должны быть представлены в формализованном виде. Для этого должны быть выбраны шкалы и единицы измерения. В случае, когда элемент ф вектора О является численным - результатом измерения, то единицы измерения и шкалы известны. Если для описания значений элемента с^ используются лингвистические конструкции, то требуется их формализация.
Наблюдаемые параметры могут быть описаны непрерывными или дискретными значениями. И вектор значений В состоит из дискретной и непрерывной составляющих: О = {Одискр-, Онепр-}.
Дискретным значениям ставятся в соответствие узлы семантической сети. Для этого задаётся отображение множества значений каждой из составляющих е ддискр. Дискретной составляющей вектора В на узлы семантической сети V: -> V, где D¡ — счётное и конечное множество значений ¡-ой компоненты с^ вектора Одискр'. В общем случае отображение может не быть взаимно однозначным. Например, нескольким элементам множества может соответствовать один элемент множества V, что возможно, когда используется недостаточно подробная семантическая сеть, либо значения множества £); содержит «синонимы»: Зйу, <1к 6 ~ йк.
Отображение непрерывных значений Внепр- на узлы семантической сети требует дополнительного шага. Непрерывные значения должны быть поделены на диапазоны, каждый из которых соответствует узлу семантической сети. Для представления диапазонов используются нечёткие множества, характеристическая функция ц(й"епр ) которых зависит от решаемой задачи.
В разделе 3.4.2 вводится мера близости векторов состояний объектов. Сообщение о событии содержит информацию о состоянии объекта в момент времени С, поэтому, мера близости сообщений зависит от меры близости векторов состояний объектов. Введём меру близости векторов состояний объектов
О ¡(О и и выберем алгоритм её измерения.
Состояние объекта 0 описывается наблюдаемой биа6л- и скрытой бскр- частями, между которыми существует вероятностная связь:
б = [0на6л.. дскр.^ р(0скр.) _ р(дскр.|0набл.^
где P(DCKp) — вероятность того, что скрытое состояние бскр- соответствует действительному состоянию объекта DCKp-. При этом считаем, что наблюдаемое состояние объекта Она6л- измерено без ошибок, т.е. Р(б) = р(бскР|бнабл-) •
р^днабл.^ _ Р£дскр.|днабл.)
Таким образом, задача сводится к измерению близости векторов состояний Dclcp' при условии получения результатов измерения бна6л\ Введём меру близости
Я скр. " скр.
векторов Di и Dj в следующем виде:
рфГ'.ЪГ ) = min [Р(б;скр I б-6-): Р(б/кр' I б-6-)],
следовательно,
p(DifDy) = p(D,CKp-, D/*p) = min [P(D;clcp' I DHa6jI); P(DyCKp' | DHa6")].
На практике данная мера близости будет мала для тех пар векторов состояний 5 , скрытые части 5скр- которых с близкой вероятностью проявляются при наблюдаемых измеренных значениях 5на6л-.
Предложен алгоритм выбора расширенного множества значений состояния объекта. Использование графа семантической сети в качестве основы построения Байесовской сети позволяет свести процедуру обучения к выбору значений условных вероятностей для рёбер графа сети, имея в наличии набор узлов и связей между ними. Таким образом, задача обучения семантической сети разделяется на две подзадачи:
1. Первоначальное обучение, включающее выбор онтологии предметной области и её подстройку при помощи экспертов;
2. Корректировка вероятностных коэффициентов Байесовской сети на основе данных, появляющихся при использовании созданной с использованием системы мониторинга.
Первоначальное обучение семантической сети начинается с выбора графа G, представляющего онтологию предметной области. Необходимым условием применения графа G, представляющего онтологию предметной области, для оценки меры близости векторов является возможность сопоставления Вскр- -» Сскр- и Отбл- -» ¿■набл. То есть вершины графа G должны содержать множество, соответствующее наблюдаемым и скрытым параметрам и их дискретным значениям.
Граф семантической сети должен выражать причинно-следственные связи между концептами, поэтому необходимым шагом подготовки графа онтологии является устранение циклов. Результатом устранения циклов станет граф, являющийся суперпозицией древовидных графов: G = 7\ U Т2 U ....
При использовании в качестве основы для построения графа G онтологии предметной области, отдельные деревья Т[ в составе графа G представляют ни что иное, как таксономии, элементами которых являются элементы множеств Сскр-, Сна6л-, а также элементы, соответствующие промежуточным уровням классификации.
Назначение условных вероятностей рёбрам графа происходит следующим образом. Предположим, что с G Сскр-, а ct G Снабл\ i = 1... п - узлы, соответствующие «причинам» узла с. В случае если наблюдаемые параметры Cj попарно независимы, то вероятность события с определяется по формуле полной вероятности:
Т>(с) = Ei DHa6"'[i] • р(с|с;),
где DHa6jI[i] равняется 1, если i-ый параметр наблюдается и 0 иначе. В случае, когда между наблюдаемыми параметрами существует зависимость, обучение потребует записи условной вероятности р(с[ U q) , где U сг - всевозможные комбинации событий С;.
При использовании данного подхода требуется значительное количество примеров для обучения сети, которое определяется числом перестановок элементов Ci для каждого элемента с 6 Сскр-. Сложность возрастает, если принять во внимание тот факт, что состояние некоторых параметров q 6 снабл- может приобретать не только два значения - 1 или 0, но и значение «неизвестно».
С другой стороны, граф G представлен в виде суперпозиции древовидных графов Ти при этом Tt являются таксономиями, то есть классификациями концептов сходными признаками. Это обозначает, что чем меньше расстояние между узлами дерева Т, тем ближе расположены соответствующие векторы состояний D : p(DiCKp-,DjCKp-)~/(CCKp'i,CCKp7), где /(Сскр ;, CCKpj) - расстояние между узлами графа Сскр-1, Сскру, соответствующим скрытым состояниям DjCKP', DjCKP'.
В дальнейшем, мера близости р(Л;скр', DyCKp) будет использоваться для кластеризации состояний DCKp\ то есть необходимо выбрать параметр £ такой, что при p(DiCKp-,D/Kp) <£, векторы 0,скр-,0/кр' попадают в один кластер. При этом деревья Т в составе графа G, основанного на онтологии, представляют таксономию -классификацию концептов. То есть, чем ближе находится общий родитель двух концептов, тем более близки векторы DCKp-, которые они представляют.
Таким образом, для первоначального обучения семантической сети при помощи эксперта меру близости векторов p(DlCKp', DyCKp ) можно записать в виде:
рф^О/*") = /(Сскр(,Сскру) = min (i(CCKpf,Cp),i(C«p7,Cp)),
где Ср - общий «родитель» узлов CCKp i и Сскру. В случае, когда общего родителя нет, p(DiCKP",D;CKP) = оо. При определении общего родителя Сскр'; и C^Pj поиск производится только на множестве E(CCKp i, Сскр-;) = Е(Сскр () П Е(Сскр-Д где Е(Сскр ) - расширенное множество значений элемента Сскр', определяемое как множество
наследников узла, находящегося на п узлов выше Сс|ф" Я(Сскр-) = 5исс(раг(Сскр-,п)), где раг(С, п) - множество всех родителей узла С, находящихся п узлами выше. Множество может иметь размерность больше 1, так как узел С е С может входить в несколько деревьев Т; зисс(С) - множество всех «наследников» узла С во всех деревьях Т в которые он входит.
Число п для каждого узла С определяется для каждого вхождения узла С в дерево Т на основании экспертной оценки, либо в зависимости от связей узла Сскр- с узлами Сна6л-: Р(СскР[Снабл).
Экспертная оценка заключается в выборе эмпирической зависимости числа п от значений вектора состояния Онабл-; п = п(Она6л) . Использование экспертной оценки числа п позволяет использовать онтологию предметной области в качестве основы для Байесовской сети в случае, когда для оценки условных вероятностей Р(Ос|ф |Онабл ) не существует достаточно данных для обучения сети.
В разделе 3.4.3 разработан алгоритм идентификации и устранения противоречивых информационных сообщений. Расстояние р(0,скр',07скр') между векторами состояний 0С1ф- , введённое указанным выше способом, позволяет установить меру близости состояний 0(,£); объектов IV. Сообщение о событии несёт также информацию о времени события и данные I, идентифицирующие источник события - объект иг {/, £>, г}. В случае, когда сообщения О] несут информацию о состоянии одного и того же объекта IV, то есть /у) <6, возникает задача идентификации и устранения повторяющихся и противоречивых сообщений о состоянии объекта многокомпонентной системы. В противном случае, решается задача кластеризации данных для идентификации независимых процессов, протекающих в системе.
При поступлении сообщения, вектору скрытого состояния Оскр■ ставится в соответствие расширенное множество значений Е, величина которого в соответствии с алгоритмом выбора расширенного множества значений тем больше, чем меньше вероятность Я(ООф.|днабл.).
'£'~П~Р(ОскР|Она6л-)'
Величина расширенного множества значений |Е| характеризуют дисперсию измеренного состояния объекта Вскр'. Сообщения, для которых |£| превышает заданное пороговое значение, считаются недостоверными.
При поступлении двух или более сообщений расширенные множества
значений которых пересекаются, принимается решение об идентичности сообщений. Устраняются все идентичные сообщения, кроме одного. Его выбор определяется либо минимальной дисперсией, либо свойствами, зависящими от условий задачи -
например, самое новое. Сообщение, представляющее множество идентичных сообщений, а также его дисперсию, будем называть событием.
В разделе 3.4.4 разработан алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия. События представлены сообщениями, для которых р(/(,¡¡) > в, то есть сообщения несут информацию о разных объектах и^ и . Процессом считается множество событий, связанных общими свойствами. Для объединения сообщений в процессы также используется алгоритм выбора расширенного множества значений с незначительными дополнениями.
Решение об объединении событий в процесс принимается при выполнении следующих условий:
С р(р„п1)>в
| £(ос,т(, О"**-) Ф 0.
( р(^)< г
Последнее условие отражает близость событий по времени, при этом т -характерное время события, зависящее от вида события т = т(Вскр ).
При объединении событий в процессы можно использовать меру близости Рт&Г-.ОГУ, которая отличается от описанной выше мерыр(Вгскр",1>ускр") тем, что вычисление происходит только по подмножеству {Г} деревьев, составляющих граф в.
В четвёртой главе приводятся результаты применения предложенных моделей и методов при разработке конкретных информационных систем - описано приложение предложенных процедур и алгоритмов к проектированию и разработке систем мониторинга распространения вирусного гепатита и планирования контрольных мероприятий в сфере транспортной безопасности. Приводятся:
• Цели и задачи создания информационных систем мониторинга распространения вирусного гепатита и планирования контрольных мероприятий в сфере транспортной безопасности;
• Описание предметной области;
• Результаты анализа требований к разрабатываемым информационным системам мониторинга;
• Проекты рассматриваемых информационных систем мониторинга;
Система мониторинга распространения вирусного гепатита предназначена для повышения эффективности эпидемиологического надзора за заболеваемостью вирусными гепатитами: оперативного контроля заболеваемости, систематизации процессов сбора, хранения и обработки больших объёмов первичных данных, связанных с заболеваемостью, анализа накопленных данных по заболеваемости с помощью методов и средств математической статистики. Анализ структуры
заболеваемости, позволяет органам Роспотребнадзора своевременно и обоснованно принимать управленческие решения по обеспечении противоэпидемиологических и профилактических мероприятий.
Процесс эпидемиологического мониторинга требует совместной работы множества специалистов, отличающихся выполняемыми функциями и полномочиями. В процессе анализа процессов предметной области были выявлены основные участники процесса эпидемиологического мониторинга: медработники лечебно-профилактических учреждений, врачи-лаборанты лабораторий, врачи-эпидемиологи четырёх уровней иерархии.
Диаграмма вариантов использования (рис. 5) демонстрирует необходимость совместной работы различных участников процесса при выполнении типовых задач, возникающих в процессе эпидемиологического мониторинга.
Взаимодействие множества специалистов, вовлечённых в процесс эпидемиологического мониторинга, приводит к появлению следующих нежелательных свойства данных мониторинга:
• Противоречивость и наличие повторов, возникающие вследствие частичного дублирования функций специалистов;
• Неоднородность представления, возникающая вследствие применения специалистами различных методик наблюдения одного и того же явления.
Предложенные в работе методы позволяют устранять эти свойства, помогая участникам процесса эпидемиологического мониторинга исправлять некорректные данные и обнаруживать скрытые взаимосвязи между данными мониторинга, полученными разными специалистами. На рис. 6 изображён элемент экрана системы мониторинга распространения вирусных гепатитов, демонстрирующий обнаружение повторов в первичных данных мониторинга.
Пользователь имеет возможность согласиться или отказаться от группировки
' Врхч.инф#щио«ист
полмэтиничасмй с*ти
Рис. 5 Диаграмма вариантов использования для типовых задач, выполняемых в процессе эпидемиологического мониторинга.
№2 Иванов Иван Иванович 11.05.1963
021.07.2009 20:00:00 В13.2Хрсничешш вирусный гепатит В. ЛПУ №1 Похожие извещения:
I от 12.07.200915:34:01. В18.2Хронический вирусный гепатите. Научно-консультативный
''"Клинико-диагностический центр ЦНИИЭРПН
Рис. 6 Элемент экрана системы мониторинга распространения вирусных гепатитов,
демонстрирующий обнаружение повторов в первичных данных мониторинга
экстренных извещений, предложенной системой. Отказ пользователя от группировки позволяет скорректировать параметры алгоритма группировки экстренных извещений.
В качестве основы информационной модели предметной области, использованной при разработке системы мониторинга распространения вирусных гепатитов, была выбрана семантическая сеть, входящая в состав международного медицинского классификатора UMLS (Unified Medical Language System).
Предложенные в работе методы были также применены при разработке системы планирования контрольных мероприятий в сфере транспортной безопасности. Система предназначена для консолидации информации о результатах контрольной деятельности Ространснадзора, анализа результатов контрольных мероприятий и составления плана будущих контрольных мероприятий.
Формально, процесс составления плана контрольных мероприятий является задачей многокритериальной оптимизации, однако необходимость учёта особенностей конкретных транспортных предприятий затрудняет формализацию критериев планирования. Поэтому, процесс планирования представляет собой последовательность согласований, выполняемых территориально распределёнными подразделениями Ространснадзора.
Целью процесса планирования является составление допустимого варианта плана мероприятий. Допустимость плана определяется разрешённой частотой проверок по заданной тематике, возможностью проведения одновременных проверок одной организации, наличием ресурсов для проведения проверки, тематикой и результатами предыдущих проверок и т.д.
Применение предложенных в работе методов мониторинга позволяет пользователям системы оперативно обнаруживать конфликтующие контрольные мероприятия, нарушающие условия допустимости плана, что повышает оперативность процесса планирования. Использование предложенной в работе информационной модели предметной области позволяет подключать ряд новых критериев планирования без изменения программного кода системы, что снижает материальные и временные затраты, необходимые для адаптации системы планирования контрольных мероприятий к изменяющимся требованиям пользователей.
В приложениях представлены документы, подтверждающие внедрение
результатов диссертационной работы, описание структур разработанных
информационных систем мониторинга.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Разработаны формальная теоретико-множественная модель многокомпонентной системы мониторинга, а также объектная модель для проектирования информационных систем, в которой специфика предметной области изолирована в формальной модели знаний предметной области;
2. Проведён анализ существующих формальных моделей представления знаний предметной области. На основании проведённого анализа выбрана формальная модель представления знаний предметной области для использования в интеллектуальных алгоритмах систем мониторинга;
3. Разработаны методы интеллектуального анализа и обработки экспертной информации с использованием формальной модели знаний предметной области, включая способ оценки неопределённости характеристик объектов мониторинга и алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия;
4. Разработаны проект и прототип программного комплекса, включающего в себя элементы перечисленных моделей и алгоритмов, осуществляющего сбор экспертных оценок состояния объектов и их интеллектуальную обработку с использованием проблемно-ориентированных семантических графов для систем мониторинга распространения вирусного гепатита и планирования контрольных мероприятий в сфере транспортной безопасности.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИОННОЙ РАБОТЫ
1. Баканова Н.Б., Гурвиц А.Л., Цапаева Ю.А., Сурпин В.П. Создание корпоративной системы сбора и анализа информации на основе Веб-технологий // Труды Международного семинара «Распределенные ' компьютерные и телекоммуникационные сети». М.: ИППИ РАН, 2005. С. 193-196.
2. Сурпин В.П., Волчков Д. В. Проектирование структур данных для комплекса сбора оперативной информации о случаях заболеваний // Информационные технологии и системы: Сборник трудов. М.: ИППИ РАН, 2008. С. 126-128.
3. Сурпин В.П. Проектирование комплекса сбора оперативной информации о случаях заболеваний // III Всероссийская молодёжная конференция по проблемам управления: Сборник трудов. М.: ИПУ РАН, 2008. С. 283-284.
4. Сурпин В.П. Разработка подсистемы ведения классификаторов корпоративной информационной системы // «Информационные технологии». 2009. №11. С. 2327.
5. Сурпин В.П. Алгоритм анализа входных данных для крупномасштабной системы сбора медицинской статистики // Управление развитием крупномасштабных систем: Материалы Четвёртой международной конференции. М.: ИПУ РАН,. 2009. Т. 2. С. 283-284.
6. Сурпин В.П.. An approach to data validation based on lifecycle-bounded metadata // Proceedings of the 4th Spring Young Researchers' Colloquium on Software Engineering. M.: ИСП PAH, 2009. C. 33-36.
7. Сурпин В.П. Нефункциональные требования и методология быстрой разработки приложений. Подход к прогнозированию производительности // Управление развитием крупномасштабных систем: Материалы Четвёртой международной конференции. М.: ИПУ РАН, 2010. Т. 2. С. 204-206.
8. Сурпин В.П. Применение методов сетей массового обслуживания в задаче распределения ресурсов «облачных» систем // Информационные технологии и системы - 2011: Сборник трудов. М.: ИППИ РАН, 2011. С. 227-232
9. Сурпин В.П. Метод тестирования гипотез о динамике информационных процессов в сложных системах // Обозрение прикладной и промышленной математики. 2011. Т. 18, Вып. 2. С. 334.
10. Сурпин В.П. Мониторинг многокомпонентных систем: предметно-независимые модели и методы // Информационные процессы. 2011. Т. 11. Вып. 3. С. 378-393.
Подписано в печать 19 марта 2012 г. Заказ № 1177. Объём: 1 п.л. Тираж 100 экз. Печать лазерная Типография «КОПИЦЕНТР» ИНН 7718871367 125040, Москва, Верхняя ул., д.34, стр. 1 +7 (495) 771-55-70 тулу.копировальный-центр.зи
Текст работы Сурпин, Вадим Павлович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
61 12-5/2298
Федеральное государственное бюджетное учреждение науки Институт проблем передачи информации им. A.A. Харкевича Российской академии наук
На правах рукописи
СУРПИН ВАДИМ ПАВЛОВИЧ
ПРЕДМЕТНО-НЕЗАВИСИМЫЕ МОДЕЛИ МНОГОКОМПОНЕНТНЫХ СИСТЕМ И ИХ ПРИМЕНЕНИЕ В СИСТЕМАХ МОНИТОРИНГА
05.13.01 - Системный анализ, управление и обработка информации
(технические системы)
ДИССЕРТАЦИЯ на соискание учёной степени кандидата технических наук
Научный руководитель: кандидат технических наук, доцент
Баканова Нина Борисовна
Москва-2012
СОДЕРЖАНИЕ
Введение.............................................................................................................................................5
Глава 1. Проблемы проектирования систем мониторинга..........................................................10
1.1 Основные требования к сервисам мониторинга в системах организационного управления........................................................................................................................10
1.2 Математические методы, применяемые в задачах мониторинга..........................12
1.2.1 Метод наименьших квадратов...........................................................................15
1.2.2 Авторегрессионное интегрированное скользящее среднее............................15
1.2.3 Экспоненциально взвешенное скользящее среднее........................................17
1.2.4 Обобщённая линейная модель...........................................................................18
1.2.5 Метод накопленных сумм..................................................................................19
1.2.6 Вейвлет-анализ....................................................................................................20
1.2.7 Метод опорных векторов...................................................................................21
1.2.8 Скрытая марковская модель..............................................................................23
1.2.9 Методы на основе Байесовских сетей..............................................................24
1.3 Сведения из области экспертных систем о средствах представления знаний предметной области.........................................................................................................25
1.3.1 Современные средства представления знаний предметной области.............25
1.3.2 Вероятностные сети для представления причинно-следственных связей.... 30
1.3.3 Нечёткая логика..................................................................................................39
Глава 2. Формальная теоретико-множественная модель многокомпонентной системы мониторинга.....................................................................................................................................45
2.1 Общая структура модели..........................................................................................45
2.2 Модель изменения состояния объектов на микроуровне......................................46
2.2.1 Пример: Модель изменения состояний объектов для эпидемиологии.........47
2.3 Модель основных характеристик на макроуровне.................................................50
2.3.1 Пример: Модель изменения состояний объектов для эпидемиологии.........51
2.4 Задачи мониторинга в терминах формальной модели...........................................54
Глава 3. Предметно-независимые модели и методы мониторинга многокомпонентных систем ...........................................................................................................................................................56
3.1 Объектная модель системы мониторинга...............................................................56
Пример 1: Эпидемиология..........................................................................................60
Пример 2: Транспортная безопасность......................................................................60
3.2 Классический и предметно-независимый подходы к алгоритмам мониторинга 61
3.3 Выбор формальной модели представления знаний предметной области для использования в предметно-независимых алгоритмах................................................62
3.3.1 Виды требований к формальной модели представления знаний...................62
3.3.2 Свойства типовых моделей представления знаний.........................................64
3.3.3 Система критериев для выбора формальной модели представления знаний67
3.3.4 Выбор формальной модели представления знаний.........................................73
3.4 Схема системы мониторинга, использующей предметно-независимые алгоритмы интеллектуальной обработки данных........................................................75
3.4.1 Входные данные системы мониторинга...........................................................76
3.4.2 Способ оценки неопределённости характеристик объектов мониторинга... 77
3.4.3 Алгоритм идентификации и устранения противоречивых информационных сигналов........................................................................................................................81
3.4.4 Алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия............................................................82
Глава 4. Результаты применения разработанных моделей и методов.......................................83
4.1 Цели и задачи создания информационных систем мониторинга.........................83
4.1.1 Система мониторинга распространения вирусного гепатита........................83
4.1.2 Система планирования контрольных мероприятий в сфере транспортной безопасности................................................................................................................85
4.2 Описание предметной области.................................................................................86
4.2.1 Система мониторинга распространения вирусного гепатита........................86
4.2.2 Система планирования контрольных мероприятий в сфере транспортной безопасности................................................................................................................90
4.3 Результаты анализа требований к разрабатываемым информационным системам мониторинга распространения вирусного гепатита и планирования контрольных
мероприятий в сфере транспортной безопасности.......................................................91
4.3.1 Система мониторинга распространения вирусного гепатита........................91
4.3.2 Система планирования контрольных мероприятий в сфере транспортной безопасности................................................................................................................96
4.4 Разработка информационных систем мониторинга распространения вирусного гепатита и планирования контрольных мероприятий в сфере транспортной безопасности....................................................................................................................99
4.4.1 Система мониторинга распространения вирусного гепатита........................99
4.4.2 Система планирования контрольных мероприятий в сфере транспортной безопасности..............................................................................................................116
Приложения...................................................................................................................................125
Приложение 1. Акты внедрения результатов диссертации.......................................126
Приложение 2. Диаграммы структурной модели системы мониторинга распространения вирусного гепатита..........................................................................132
Приложение 3. Диаграммы структурной модели системы планирования контрольных мероприятий в сфере транспортной безопасности.............................144
Список литературы........................................................................................................................149
Введение
Актуальность исследования. Мониторинг явлений, процессов и их характеристик необходим для поддержки научно обоснованного принятия решений в процессе функционирования системы. В широком смысле, под мониторингом понимают систематический сбор и анализ информации об объекте мониторинга с целью идентификации отклонений характеристик объекта от штатного распределения, либо выявления тенденции изменения характеристик.
Задача мониторинга характерна для тех видов деятельности, где изучаемый объект представляет сложную многокомпонентную систему, о состоянии которой можно судить по изменению свойств системы в целом или совокупности составляющих её объектов. В качестве примеров видов деятельности, неотъемлемой частью которых является задача мониторинга, можно привести эпидемиологический надзор, управление крупномасштабными техническими объектами и производствами, организационное управление.
Многочисленные исследования в каждой из указанных областей, а также во многих других, указывают мониторинг как инструмент исследования сложных систем, так и практически значимую задачу, без которой невозможно нормальное функционирование многих организационных систем и технологических процессов, а также управление ими. Методы мониторинга традиционно применяются в экологических исследованиях. Проблемам экологического мониторинга посвящены работы И. П. Герасимова, Ю.А. Израэля, В.А. Королева, В.Д. Минченко. Исследованию методов мониторинга в здравоохранении посвящены работы Э. Лавсона, К. Клейнмана, Дж. Ломбардо, Д. Бакериджа, В. И. Покровского, H.H. Филатова, И. Л. Шананина. Вопросам технической диагностики посвящены работы A.B. Мозгалевского, П.П. Пархоменко, Е.С. Согомоняна, И.А. Биргера, Я.А. Фомина, Л.П. Глазунова, Б.В. Павлова, В.В. Клюева.
Несмотря на широкое применение систем мониторинга во многих областях деятельности, в существующих исследованиях отсутствует достаточно общая модель этих систем, которая бы позволила бы систематизировать накопленный опыт и эффективно использовать его. В каждой области создание системы мониторинга начинается «с нуля», использование наработок из смежных областей затруднено, а передача знаний возможна лишь с опытом разработчика. Это негативно сказывается на общей стоимости, сроках разработки и качестве проектируемых систем. Таким образом, задача создания обобщённой модели систем мониторинга является актуальной. Препятствием к созданию обобщённой
модели является значительная зависимость алгоритмического и математического обеспечения мониторинга от предметной области, поэтому для решения проблемы требуется решить задачу изоляции описания предметной области от общих методов и алгоритмов. Предметная область может быть описана информационными моделями, которые являются предметом рассмотрения экспертных систем. В работе предлагается использовать информационные модели, используемые в экспертных системах, при проектировании систем мониторинга.
Таким образом, цель исследований состоит в разработке обобщённой предметно-независимой модели систем мониторинга и методов построения систем с использованием предложенной модели. Для достижения цели исследования поставлены и решены следующие задачи:
- Разработка формальной предметно-независимой модели многокомпонентной системы, являющейся предметом мониторинга, и динамики изменения её состояния;
- Анализ существующих информационных моделей представления знаний и обоснованный выбор информационной модели представления знаний предметной области для использования в интеллектуальных алгоритмах систем мониторинга;
- Разработка методов интеллектуального анализа и обработки экспертной информации для использования в предметно-независимых системах мониторинга многокомпонентных систем.
Методы исследований. Основные задачи диссертационной работы использованы методы общей теории систем, теории управления, методов математического анализа данных, теории массового обслуживания, теории графов, теории исследования операций, а также методов объектно-ориентированного анализа и проектирования систем.
Научная новизна заключается в комплексном исследовании систем мониторинга, в составе которых используются экспертные оценки состояния объектов мониторинга:
- Предложена формальная теоретико-множественная модель многокомпонентной системы мониторинга, а также объектная модель для проектирования информационных систем;
- Проведён анализ существующих формальных моделей представления знаний предметной области. На основании проведённого анализа выбрана информационная модель представления знаний предметной области для использования в интеллектуальных алгоритмах систем мониторинга;
Разработаны методы интеллектуального анализа и обработки экспертной информации с использованием информационной модели предметной области, в том числе способ оценки неопределённости характеристик объектов мониторинга, а также алгоритм кластеризации объектов для формирования гипотезы о характере внешнего воздействия.
Практическая значимость исследования и реализация результатов. Научные результаты, полученные в диссертации, использованы при создании программно-аппаратного комплекса информационной системы мониторинга распространения вирусного гепатита, а также при создании системы планирования и мониторинга контрольных мероприятий Федеральной службы по надзору в сфере транспорта. Результаты использованы в рамках выполнения следующих работ:
- Федеральная целевая программа «Предупреждение и борьба с социально значимыми заболеваниями (2007-2011 годы)», проект номер 29-10/07 «Разработка концепции и моделирующего комплекса эпидемиологии острых и хронических вирусных гепатитов для нужд ФГУН "ЦНИИЭ" Роспотребнадзора»;
- Федеральная целевая программа «Предупреждение и борьба с социально значимыми заболеваниями (2007-2011 годы)», проект номер ИН-0008/08 «Разработка проектных решений и программных модулей графического представления эпидемиологических данных»
- Ведомственная целевая программа Федеральной службы по надзору в сфере транспорта «Повышение качества исполнения государственных функций и предоставления государственных услуг, в том числе, в электронном виде», ГК №44 «Разработка информационной системы контрольных мероприятий и документооборота в Ространснадзоре»
Достоверность научных положений определяется корректным использованием математического аппарата и практической реализацией конкретных информационных систем.
На защиту выносятся:
1. Предметно-независимые модели мониторинга многокомпонентных систем: формальная теоретико-множественная модель многокомпонентной системы мониторинга, а также объектная модель для проектирования информационных систем, описывающие структуру многокомпонентных систем мониторинга, для которых применимы предложенные в работе методы;
2. Анализ существующих формальных моделей представления знаний предметной области и обоснованный выбор информационной модели представления знаний предметной области, позволяющую создать базу знаний, выполняющую необходимые для использования в интеллектуальных алгоритмах систем мониторинга запросы;
3. Методы интеллектуального анализа и обработки экспертной информации с использованием информационной модели предметной области, включая способ оценки неопределённости характеристик объектов мониторинга и алгоритм кластеризации объектов мониторинга для формирования гипотезы о характере внешнего воздействия, позволяющие идентифицировать недостоверные данные мониторинга;
4. Прототип программного комплекса, созданный на основе предложенных моделей и методов, осуществляющий сбор экспертных характеристик объектов мониторинга, и их интеллектуальную обработку с использованием проблемно-ориентированных семантических графов для обеспечения информационной поддержки при принятии управленческих решений, который демонстрирует применимость разработки для различных предметных областей.
Апробация работы. Основные положения и результаты диссертационной работы были доложены и обсуждались на всероссийской конференции «XII Всероссийский симпозиум по прикладной и промышленной математике (весенняя сессия)», международной конференции «Управление развитием крупномасштабных систем (МЬ8Б'2009)», всероссийской конференции «III Всероссийская молодёжная конференция по проблемам управления (ВМКПУ'2008)», конференции молодых учёных и специалистов «Информационные технологии и системы (ИТиС'2008)», международном семинаре «Распределённые компьютерные и телекоммуникационные сети (ВССМ'2005)».
Публикации. Основное содержание работы отражено в 10 работах, в том числе в журнале «Информационные технологии», рекомендованном ВАК РФ для изложения основных научных результатов диссертации на соискание учёных степеней.
Структура и объём работы. Диссертация состоит из введения, четырёх глав, приложений и списка литературы (69 наименований). Имеет общий объём 153 машинописных страницы, содержит 44 рисунка и 8 таблиц.
В первой главе рассмотрены основные требования к сервисам мониторинга в системах организационного управления; представлен обзор математических методов,
нашедших применение при решении задач мониторинга систем и процессов; приводятся основные сведения о построении информационных моделей предметных областей и современные подходы к формализации знаний.
Во второй главе предложена формальная теоретико-множественная модель многокомпонентной системы мониторинга без использования специфики предметной области, поставлены формальные задачи системы мониторинга в предложенной модели.
В третьей главе построена объектная модель системы мониторинга. На основе предложенной модели обозначены характерные проблемы и предложены методы и алгоритмы их решения. При построении информационной модели поведения определены принципиальные свойства взаимодействующих систем, предложен шаблон описания сложной системы, помогающий формализовать задачи, характерные для описываемой системы, в виде, позволяющем применить к ним предложенные методы и алгоритмы.
В четвёртой главе приводятся результаты применения предложенных моделей и методов при разработке конкретных информационных систем - описано приложение
-
Похожие работы
- Виртуализация многокомпонентной системной архитектуры предметно-ориентированной облачной вычислительной среды
- Разработка методов и оптико-электронных средств лазерного оперативного контроля многокомпонентных газовых смесей составляющих ракетных топлив и других токсичных веществ
- Исследование и разработка моделей экспертной системы морского мониторинга
- Многокомпонентный газоанализатор на основе блочных нейронных сетей с обучением методом имитации
- Направленный мониторинг соответствия процессов и результатов строительного производства проектным решениям
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность