автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Энтропийное моделирование динамики многомерных стохастических систем
Автореферат диссертации по теме "Энтропийное моделирование динамики многомерных стохастических систем"
На правах рукописи
Лебедева Ольга Викторовна
ЭНТРОПИЙНОЕ МОДЕЛИРОВАНИЕ ДИНАМИКИ МНОГОМЕРНЫХ СТОХАСТИЧЕСКИХ СИСТЕМ
05.13.18 - Математическое моделирование, численные методы и комплексы программ
Автореферат
диссертации на соискание ученой степени кандидата физико-математических наук
11 MAP 2015
Челябинск - 2015
005560309
005560309
Работа выполнена на кафедре теории управления и оптимизации ФГБОУ ВПО «Челябинский государственный университет».
Научный руководитель: - Тырсин Александр Николаевич
доктор технических наук, доцент
Официальные оппоненты: - Борзых Владимир Эрнестович
доктор физико-математических наук, профессор, ФГБОУ ВПО «Тюменский государственный архитектурно-строительный университет», заведующий кафедрой «Информатика и информационные технологии» Краковский Юрий Мечеславович доктор технических наук, профессор, ФГБОУ ВПО «Иркутсткий государственный университет путей сообщения», профессор кафедры «Информационные системы и защита информации» ФГБОУ ВПО «Пермский национальный исследовательский политехнический университет»
Ведущая организация:
Защита состоится 23 апреля 2015 г. в 14:00 часов на заседании диссертационного совета Д 212.296.02 при Челябинском государственном университете по адресу: 454001, Челябинск, ул. Братьев Кашириных, 129.
С диссертацией можно ознакомиться в библиотеке Челябинского государственного университета.
Автореферат разослан * 2015 г.
Ученый секретарь диссертационного совета, доктор физико-математических наук, профессор
Федоров В.Е.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Актуальным направлением математического моделирования является использование энтропии для описания поведения сложных систем, характерными признаками которых являются стохастичное поведение и неизвестный характер взаимосвязи факторов.
Степень разработанности темы. Энтропия - это широко используемое понятие в различных дисциплинах. Крупный вклад в развитие энтропии внесли JI. Больцман, Дж. Гиббс, Дж. Ингленд, Р. Клаузиус, А.Н. Колмогоров, Н. Мартин, Дж. фон Нейман, И. Пригожин, А. Реньи, А.Я. Хинчин, К. Шеннон и др.
Энтропийное моделирование является одним из перспективных направлений исследования стохастических систем. Данным направлением занимались многие авторы: А. Вильсон, П. Гленсдорф, H.H. Заличев, Б.Б. Кадомцев, Ю.Л. Климонтович, A.B. Коганов, А.П. Левич, Г.Г. Малинецкий, Ф.Ф. Пащенко, И.В. Прангишвили, С.М. Скоробогатов, Ю.Л. Соловьев, А.Н. Тырсин, A.M. Хазен и др.
Наряду с широким применением понятия энтропии в статике, определенных успехов в области динамики (производства) энтропии удалось добиться ученым при описании развития неравновесных, диссипативных процессов (И. Пригожин, Л. Онзагер, И. Дьярмати, Л.М. Мартюшев). Однако здесь рассматривались закрытые системы, что ограничивает исследование сложных систем. Т.к., помимо многомерности и стохастичности, сложные системы, как правило, обмениваются с окружающей средой энергией и веществом, т.е. являются открытыми.
Примеры энтропийного моделирования динамики многомерных стохастических систем (А. Вильсон, К.Г. Короткое, М.М. Семаго) являются недостаточно формализованными, носят частный характер и не могут быть использованы для определения состояния, в котором пребывает система, так как не предоставляют диагностические факторы, отражающие зависимость изменения энтропии. Следовательно, актуальной является разработка энтропийной модели динамики многомерных стохастических систем, позволяющая решать задачи диагностики и контроля их состояния.
Одним из направлений энтропийного моделирования является использование дифференциальной энтропии К. Шеннона1. В работе2 данный подход был применен для моделирования многомерных стохастических систем. Здесь в энтропийной модели выделены элементы системы и связи между ними в качестве управляющих переменных, однако подход ограничен гауссовскими системами.
Действительно, аналитическое нахождение энтропии многомерного случайного вектора получено лишь для совместного нормального распределения3. Поэтому представляется актуальным получить аналитическое выражение дифференциальной энтропии и ее изменения для многомерных случайных векторов с различными законами распределений компонент.
1 Shannon С.Е. A Mathematical Theory of Communication // Bell Syst. Tech. j., Julay-Oct. 1948. Vol. 27. P. 379-423, 623-656.
2 Тырсин A.H., Соколова И.С. Энтропийно-вероятностное моделирование гауссовских стохастических систем // Математическое моделирование. 2012. T.24. №1. С. 88-103.
3 Cover T.M., Thomas j.A. Elements ofinformation theory. N.Y.: Wiley, 1991. P. 230.
Целью работы является разработка и обоснование энтропийной математической модели динамики многомерных стохастических систем, позволяющая получить алгоритмы и программы для диагностики и контроля их состояния. Достижение данной цели предполагает решение следующих задач:
1. Получить для многомерных случайных векторов с различными законами распределений компонент аналитические выражения для дифференциальной энтропии и ее изменения.
2. На основе полученных выражений разработать энтропийную модель динамики многомерных стохастических систем.
3. Исследовать энтропийную модель динамики и на ее основе сформулировать задачу диагностики и контроля состояния многомерной стохастической системы.
4. Разработать алгоритмы и программы для решения задачи диагностики и контроля состояния системы на основе энтропийной модели динамики. Алгоритмы должны допускать применение модели на малых выборках данных.
5. Апробировать на примерах из разных областей методику использования энтропийной модели динамики.
Научная новизна заключается в следующем:
1. В области разработки новых математических методов моделирования объектов и явлений:
• Для многомерных случайных векторов, законы распределений компонент которых имеют параметры сдвига и масштаба, получены аналитические выражения для дифференциальной энтропии и ее изменения.
• Разработана энтропийная модель динамики многомерных стохастических систем.
2. В области разработки, исследования и обоснования математических объектов:
• Показано, что дифференциальная энтропия случайного вектора состоит из двух компонент: первая компонента определяет предельную энтропию, соответствующую полной независимости элементов вектора, а вторая — отражает степень взаимосвязей между элементами. При энтропийном моделировании эти компоненты характеризуют закономерности аддитивности и целостности многомерных стохастических систем.
3. В области разработки, обоснования и тестирования эффективных численных методов с применением ЭВМ:
• Предложен алгоритм непараметрического оценивания индекса детерминации многомерных регрессионных зависимостей. Алгоритм позволяет повысить точность оценивания множественного индекса детерминации на малых выборках данных.
4. В области реализации эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента:
• Разработана и зарегистрирована программа для реализации энтропийной модели динамики многомерных стохастических систем.
• Разработан и зарегистрирован комплекс программ, реализующих алгоритмы непараметрического оценивания индекса детерминации многомерных регрессионных зависимостей. Теоретическая значимость:
1. Полученные аналитические выражения для дифференциальной энтропии многомерных случайных векторов позволяют строить энтропийные математические модели стохастических систем различной природы.
2. Разработана энтропийная модель динамики многомерных стохастических систем. Данная модель формализована для задач диагностики и контроля состояния стохастических систем.
3. Разработан алгоритм непараметрического оценивания индекса детерминации многомерных регрессионных зависимостей, позволяющий использовать энтропийную модель динамики на малых выборках данных.
Практическая значимость:
1. Предложенная энтропийная математическая модель динамики проста в реализации и интерпретации математической модели.
2. Предложенный алгоритм оценивания индекса детерминации обеспечивает более высокую точность на малых выборках данных по сравнению с известными методами непараметрического регрессионного анализа, что делает возможным широкое использование энтропийного моделирования.
3. Приведенные практические примеры из разных областей свидетельствуют об универсальности предложенной энтропийной модели динамики при решении задач диагностики и контроля состояния стохастических систем.
4. Разработанный комплекс алгоритмов и программ позволяет оперативно оценивать динамику энтропии многомерных стохастических систем и решать задачи диагностики и контроля их состояния.
Методология и методы исследования. Для решения поставленных задач и доказательства сформулированных утверждений применялись методы теории вероятностей и математической статистики, многомерного статистического анализа, математического анализа, системного анализа, математического моделирования и численные методы.
На защиту выносятся следующие основные положения:
1. Для многомерных случайных векторов, законы распределений компонент которых имеют параметры сдвига и масштаба, получены аналитические выражения для дифференциальной энтропии и ее изменения.
2. Разработана энтропийная математическая модель для описания динамики многомерных стохастических систем, которая позволяет решать задачи диагностики и контроля их состояния.
3. Установлено, что изменение энтропии многомерной стохастической системы состоит из двух компонент, которые характеризуют ее свойства: аддитивность и целостность.
4. Разработан алгоритм непараметрического оценивания индекса детерминации многомерных регрессионных зависимостей, позволяющий повысить точность оценок на малых выборках данных.
5. Разработан комплекс алгоритмов и программ для оценивания изменения энтропии случайных векторов на малых выборках данных.
Степень достоверности и апробация результатов. Обоснованность и достоверность полученных результатов обусловлена математической строгостью постановки задач и корректным использованием математического аппарата. Полученные в работе исследовательские результаты согласуются с результатами других авторов. Адекватность математической модели подтверждалась примерами ее использования.
Результаты работы докладывались и обсуждались на: III-V Всероссийских научно-технических конференциях «Безопасность критичных инфраструктур и территорий» (Екатеринбург, 2009, 2011, Абзаково, 2012), XXXII Международной научной школе-семинаре «Системное моделирование социально-экономических процессов» Вологда, 2009), XVI и XVIII Байкальских Всероссийских конференциях «Информационные и математические технологии в науке и управлении» (Иркутск-Байкал, 2011, 2013), XIII и XV Всероссийских симпозиумах по прикладной и промышленной математике (Сочи-Вардане, 2012, Сочи-Дагомыс, 2014), XIV апрельской Международной научной конференции по проблемам развития экономики и общества (Москва, 2013), II Международной научно-практической конференции «Актуальные вопросы технических наук в современных условиях» (Санкт-Петербург, 2015), VI Международной научно-практической конференции «Отечественная наука в эпоху изменений: постулаты прошлого и теории нового времени» (Екатеринбург, 2015).
Результаты работы обсуждались на научных семинарах кафедры теории управления и оптимизации Челябинского государственного университета (Челябинск, 2010-2014), НИЦ «Надежность и ресурс больших систем и машин» УрО РАН (Екатеринбург, 2011-2012).
Работа выполнялась в соответствии с планами НИР по гранту РФФИ 10-01-96013-р_урал_а, по проектам Программ междисциплинарных фундаментальных исследований УрО РАН № 09-М-12-2001, № 12-М-127-2049.
Положения и выводы диссертационной работы, а также разработанный комплекс программ использованы: 1) В ООО «Курганавтотранс» для диагностики состояния автотранспортного предприятия; 2) В НИЦ «Надежность и ресурс больших систем и машин» УрО РАН для оценки состояния систем критичных инфраструктур; 3) В клинике ГБОУ ВПО Южно-Уральского государственного медицинского университета для анализа здоровья популяции; 4) В ООО «Поло Плюс» для контроля текущей деятельности на строительном проекте.
Использование результатов диссертационной работы подтверждено справками.
Публикации. Содержание работы отражено в 12 печатных работах, в том числе в 3 публикациях в журналах и изданиях, включенных в перечень ВАК для кандидатских диссертаций, и 3 программах, зарегистрированных в Объединенном фонде электронных ресурсов «Наука и образование» при Российской Академии Образования.
Структура и объем работы. Диссертационная работа состоит из введения, 4 глав, заключения, списка литературы из 133 наименований. Основной текст работы изложен на 123 страницах, включая 18 рисунков и 14 таблиц.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Глава 1. Энтропийные методы и модели многомерных стохастических систем
Известно4, что энтропия является фундаментальным свойством любых систем с вероятностным поведением. Любые объекты и явления живой и неживой природы содержат черты порядка и хаоса, организованности и дезорганизованное™, а, следовательно, и энтропии.
Одним из перспективных направлений моделирования многомерных стохастических систем является использование энтропии, которая может выступать в роли универсального параметра и идеально подходит для решения задач о поведении систем. К ним можно отнести оптимизационные задачи эффективного управления системами на основе увеличения и уменьшения ее энтропии, а также задачи диагностики и контроля состояний стохастической системы. Рассмотрим более подробно последний класс задач.
Модель диагностики5 представляет собой некоторую функцию^ = Ях)> которая отражает зависимость показателя у от некоторого процесса, протекающего на исследуемом объекте, характеризуемого множеством факторов х. Следовательно, при энтропийном моделировании для диагностики и контроля состояния необходимо с помощью диагностических факторов определять зависимость изменения энтропии с течением времени, т.е. оценивать динамику энтропии системы.
Примеры энтропийных моделей динамики немногочисленны, носят частный характер и не обуславливают переход к общей формальной модели. Они не позволяют связать динамику энтропии с фактическими характеристиками состояний стохастических систем. Поэтому представляется целесообразным разработать энтропийную модель динамики для решения задач диагностики и контроля состояния многомерных стохастических систем.
В настоящее время при энтропийном моделировании все чаще используют дифференциальную энтропию К. Шеннона2: +00 +00
Н(\) = - \... ¡МХ],...,Х„ )1п/у, где /у(я,,...,.*„) - совместная
— 00 -00
плотность распределения случайных величин
Действительно, в отличие от информационной энтропии К. Шеннона1: 1) дифференциальная энтропия не требует оценки вероятности пребывания системы в соответствующем состоянии, что делает возможным ее применять на малых выборках данных; 2) она применима во всех системах, в которых определено поня-
4 Прангишвили И.В. Энтропийные и другие системные закономерности / Вопросы управления сложными системами. М.: Наука, 2003. С. 20.
5 Биргер И.А. Техническая диагностика. М., 1978. С. 9.
тие вероятности случайного вектора; 3) может быть использована в случае многомерных систем; 4) допускает интерпретацию отрицательной энтропии.
Этот подход был использован в энтропийно-вероятностной модели гауссов-ских систем3. Пусть R — корреляционная матрица случайного нормально распределенного вектора Y. Тогда энтропия вектора Y равна
т j
H(Y) = '£jH(Yi) +—ln|R|, где |R| - определитель матрицы R. (1)
/=1 2
При моделировании стохастической системы ее энтропию целесообразно рассматривать как двумерный вектор3
( т л \
h(Y) = (#,(¥);tf2(Y))= £tf№);iln(|R|) . (2)
v/=l z J
К достоинствам предложенного подхода следует отнести следующее: 1) позволяет выделить элементы сложной системы и связи между ними в качестве отдельных управляющих переменных; 2) описывает главные составляющие системы: ее целостность и аддитивность; 3) простота реализации и интерпретации математической модели; 4) применим для сложных систем различной природы. К недостаткам предложенного подхода следует отнести следующее: аналитическое нахождение энтропии в представленной модели получено лишь для совместного нормального распределения. Это существенно ограничивает его использование.
Глава 2. Разработка энтропийной математической модели динамики многомерных стохастических систем
Определение 1. Распределения вероятностей случайных величин X и Y называются однотипными6, если существуют постоянные а>0, Ь, такие что распределения случайных величин Y и аХ + Ь совпадают.
Из однотипности распределений вероятности случайных величин Хи Y следует однотипность распределений вероятности случайных величин Y и X.
Определение 2. Параметр сдвига7 (в некоторых источниках его также называют параметром положения) - параметр ц, ц е О с Rk, семейства функций {ср0(-)}, заданных на Л* по следующему правилу: фц(•) = <р(--н) для любого це0, где ф(-) - некоторая заданная функция на Л*.
Определение 3. Параметр масштаба8 - один из параметров расположения, многообразием значений которых описывается семейство распределений вероятностей одного типа. Если распределение в R с функцией F(x) принадлежит тому же типу, что и фиксированное распределение с функцией F0(x), то F(x) = F0 ((х -\i)/\). Здесь X > 0, ц - параметры масштаба и сдвига.
Лемма 1. Пусть Хь Х2 - две непрерывные случайные величины, определенные на всей числовой оси и описываемые однотипными законами распределения с плотностями /,(*) = /(*;щ Д,), /2(х) = f(x;\±2,\2) соответственно, где и
Математическая энциклопедия. Гл.ред. И.М. Виноградов. М.: Советская Энциклопедия. Т.4. Ок-Сло, 1984. С. 886.
7Математическая энциклопедия. Гл.ред. И.М. Виноградов. М.: Советская Энциклопедия. Т.4. Ок-Сло, 1984.С. 1099.
'Математическая энциклопедия. Гл.ред. И.М. Виноградов. М.: Советская Энциклопедия. Т.З. Коо-Од, 1982. С. 560.
Л,Д2 - параметры сдвига и масштаба случайных величин Х1 и Х2. Тогда плотность вероятности случайной величины Х2 выражается через плотность вероятности случайной величины X/ следующим образом:
/(*;ц2Д2) = ^-/ Л2
А.
. 2 )
(3)
В справочнике Р.Н. Вадзинского9 приведен ряд непрерывных законов распределений, имеющих параметры сдвига и масштаба, удовлетворяющих условию (3). К ним относятся: нормальное распределение, распределение Лапласа, распределение Коши, равномерное распределение и др. Там же приведены трехпараметри-ческие распределения, имеющие параметры сдвига, масштаба и формы: гамма-распределение, распределение Вейбулла-Гнеденко, логнормальное распределение и др. Эти распределения также удовлетворяют выражению (3), т.к. параметр формы (если он существует) в результате линейного преобразования не изменяется9.
Теорема 1. Пусть Х2 - две непрерывные случайные величины, определенные на всей числовой оси и описываемые однотипными законами распределения с плотностями /,(х) = /2(х) = /(х;ц2Д2) соответственно, где |л,,ц2 и
Д2 - параметры сдвига и масштаба случайных величин Х1 и Х2. Тогда разность дифференциальных энтропий случайных величин X/ и Х2 равна:
Н(Х2)-ЩХ1) = 1пД2а,). (4)
Замечание 1. Следует отметить, что множество масштабно-сдвиговых распределений, рассматриваемых в теореме 1, является конечным. Но оно включает в себя практически все непрерывные распределения, используемые при моделировании реальных случайных явлений.
Теорема 2. Пусть в условиях теоремы 1 Х\ и Х2 - две непрерывные случайные величины, имеющие конечные дисперсии = <з\ и 0[Х2] = а2, соответствен-
но. Тогда формулу (4) можно записать в виде: Н(Х2)-П(Хх) = 1п(о2 /а,).
Следствие 1. Дифференциальная энтропия непрерывной случайной величины X, имеющей конечную дисперсию <з2х, равна Н(Х) = \песах, где С = Н(Х/ах).
Теорема 3. Пусть имеется две системы непрерывных случайных величин У(|) =(У1ш,72('),...,УЛ1)) и У(2) =(Г1<2),Г2<2),...,}^2)), каждые соответствующие компоненты которых (7=1,2,..,т) имеют конечные дисперсии и описываются однотипными распределениями с некоторыми параметрами положения и масштаба. Тогда разность энтропий систем случайных величин У(2) и У(1> равна:
АЯ (V) = Я(¥«)-Я(¥<'>) = 2>+ Г> /Г' , (5)
к=1 °Г„
где стго)/у(л.ти) =аг<'>^1-Ку>/гу>...гу} ; /г^~ и"Дексы детерминации соответствующих регрессионных зависимостей, к=2,3, ...,/и,7=1,2.
9 Вадзинский Р.Н. Справочник по вероятностным распределениям. СПб. Наука, 2001. С. 102.
9
СТГ(2) 1 И 1 ^<2),у(2) „(2)
Обозначив АН(\)Х = ——; ДЯ(У)Л =-Х1п—
*=1 сту(1) 1-Л (]) (1) (1)
'к 'к -'к-1
представим формулу (5) как ЛЯ (У) = ДЯ(У)1 + ДЯ(У)„, где Л//(У)Е и ДЯ(У)„ -
приращения энтропии за счет изменения дисперсий и индексов детерминаций
случайных величин Ух,У2,...,Ут.
Следствие 2. Если случайный вектор У является гауссовским, то
и аг(2) 1 К (2) . , ДЯ(У) = У 1п+ - 1п -г, где ЯуУ) — определитель корреляционной мат-
к=1 2 |
рицы Ку(/) случайного вектора У®, у=1,2.
Теорема 4. Пусть имеем систему непрерывных случайных величин У = (УиУ2,..,Ут), компоненты которой имеют конечные дисперсии. Ее энтропия
т I т
Я(У) = X Н{ук)+- £ 1п(1 - д* ). (6)
к=\ ¿к=2
Замечание 2. Формула (6) является обобщением частного случая для гауссов-ских систем соотнощения для энтропии (1). Поэтому в общем случае согласно (6) энтропия многомерной случайной величины складывается из двух составляющих:
т 1т
Я(У) = Я(У), + Я(У)К, где Я(У), = £ Н(Ук); Я(У)я = 1£ 1п(1- / ГЙ_,М).
Замечание 3. Формула (6) позволяет упростить задачу поиска энтропии многомерного случайного вектора, так как состоит из: 1) вычисления одномерных энтропии систем; 2) оценки индекса детерминации.
Замечание 4. Формула (6) может быть использована для оценки динамики энтропии непрерывных распределений, не имеющих параметров сдвига и масштаба. Это позволяет обобщить энтропийную модель динамики на случай произвольного распределения компонент.
Представим стохастическую систему 5 в виде многомерной случайной величины У = (У[,—,Ут). Будем считать, что данное представление является адекватной математической моделью системы 5. Каждый элемент Г, вектора У является одномерной случайной величиной, которая характеризует функционирование соответствующего элемента исследуемой системы. Элементы могут быть как линейно, так и нелинейно коррелированными.
Изменение энтропии стохастической системы можно интерпретировать следующим образом: если ДЯ (У) я 0, то в течение исследуемого периода в системе не происходило изменений, система стабильна (устойчива, упорядочена); если ДЯ(У)<0 (ДЯ(У)>0), то происходящие в системе изменения привели к увеличению (уменьшению) стабильности.
Для обнаружения причины изменения энтропии необходимо исследовать ее составляющие. В энтропийной модели динамики эти параметры интерпретируем так: если АН(У)г >0 (ДЯ(У)1 <0), то происходящие в системе изменения при-
вели к увеличению (уменьшению) хаотичности; если АН(\)к >0 (АН(\)„ <0), то изменения в системе привели к уменьшению (увеличению) взаимозависимости.
Аддитивные представления в виде двух компонент, как самой энтропии, так и ее изменения показывают ее дуализм. Изменение энтропии происходит аддитивным образом: с одной стороны — за счет изменения дисперсий, а с другой стороны — из-за изменения индексов детерминаций случайных величин У1,У2,...,Ут (рис. 1). Назовем АЯ(У)Е динамикой энтропии хаотичности, а АЯ(У)к - динамикой Рисунок 1. Взаимозависимость компонент, энтропии самоорганизации.
Для того чтобы оценить вклад произвольного 1-го элемента в изменение энтропии хаотичности необходимо рассматривать АИ(У1)Т. Оценивать вклад произвольного /-го элемента в изменение энтропии самоорганизации целесообразно через их предельные значения ^К'Л'
Теорема 5. Пусть имеем две непрерывные случайные величины X и У. Тогда теоретические значения корреляционных отношений обладают симметрией/?,^ =ЯХ/Г.
Выборочные оценки ЯХ1Г и Ёг/Х будут различными. Но с увеличением объема выборки они сходятся по вероятности к теоретическому значению.
Глава 3. Численные методы и алгоритмы идентификации энтропийных моделей многомерных стохастических систем
Основная проблема использования моделей (5) и (6) состоит в оценивании индексов детерминации. Т.к. формы соответствующих регрессионных зависимостей не известны, поэтому необходимо использовать непараметрические методы.
Индекс детерминации показывает долю дисперсии результативной переменной У, объясненной вариацией факторных переменных Х\, ... , Хт, включённых в не-
п п
линейную модель регрессии10 Ку/Х х = ^(Я - у)2 - у)2 > где у - среднее
значение результативной переменной, - значения регрессии, у, - фактические значения переменной У.
Существует два основных подхода для построения непараметрической регрессии — это группировка и сглаживание данных.
Известные алгоритмы группировки данных в многомерном случае11, такие как РОЯЕЬ, алгоритм ¿-средних, имеют ряд недостатков: 1) плохая применимость алгоритма при плохой разделимости выборки на кластеры; 2) необходимость апри-
10 Эконометрика: Учебник / Под ред. И.И. Елисеевой. 2-е изд., перераб. и доп. М,, 2007. С. 104.
11 Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: 1999. С. 38.
орных знаний о радиусе кластеров; 3) неустойчивость алгоритма (результат кластеризации сильно зависит от выбора начального объекта).
В работе предложен модифицированный алгоритм группировки данных на основе алгоритма РСЖЕЬ. Алгоритм позволяет вычислить меру «похожести» объектов (радиус поиска локальных сгущений) и является устойчивым относительно выбора начального объекта. Однако, «подходящее» разбиение на группы будет строиться только для хорошо кластеризуемых выборок. В результате точность оценивания индекса детерминации снижается. Асимптотическая оценка количества операций равна 0(Ьп2), где Ь - количество кластеров, п — объем выборки.
Известные методы сглаживания (ядерное сглаживание, оценки ¿-ближайших соседей и др.) сталкиваются с проблемой выбора размера окрестности усреднения. Заниженное значение окрестности недостаточно сглаживает непараметрическую регрессию, что приводит к завышению индекса детерминации. А, завышенное значение окрестности, наоборот, приводит к чрезмерному сглаживанию, при этом индекс детерминации занижается. Какого-либо универсального критерия выбора оптимальной окрестности сглаживания не предложено.
Рассмотрим подход, устраняющий недостатки, присущие методам группировки и сглаживания. Опишем алгоритм построения непараметрической регрессии с помощью сглаживания линейной регрессией. Пусть имеем многомерную выборку (хп,...,х^т,у1), / = 1Формируем матрицу расстояний, элементы которой
гг] = , /,_/ = !,...,п. Для каждого /-го наблюдения подбираем опти-
мальную выборку из и ближайших соседей, так чтобы построенное уравнение линейной регрессии имело минимальную дисперсию ошибок регрессии. Для оптимальной локальной выборки из Ь, ближайших соседей формируем значение у, непараметрической регрессии. По сформированному множеству значений /' = 1,..., п, найдем оценку индекса детерминации множественной регрессии.
Асимптотическая оценка количества операций равна 0(пт4).
С помощью статистического моделирования Монте-Карло на модельных данных проведено сравнение известных и предложенных алгоритмов непараметрического оценивания индекса детерминации.
Пример 1. Рассмотрим двумерную стохастическую систему (X, У). Пусть у = \,5ех + г, где лг~Л[-1,1] - равномерное распределение на отрезке [-1;1], 8~ N(0,1) - нормальное распределение с нулевым математическим ожиданием и единичной дисперсией, объем выборки N = 70.
Рисунок 2. Сглаживание регрессией.
-1.
0,5
На рис. 2 показано сравнение теоретической линии регрессии и оценки, полученной при выполнении алгоритма на основе сглаживания регрессией. Пунктирная линия на рис. 2-4 показывает 90%-й доверительный интервал наблюдений.
На рис. 3 представлено сравнение средних значений в группах, полученных при выполнении алгоритма группировки с теоретической линией регрессии при
Рисунок 3. Сглаживание с помощью группировки. На рис. 4 показано сравнение оценки, полученной при выполнении алгоритма ядерного сглаживания с гауссовскам ядром с теоретической линией регрессии при
различном выборе ширины окна /г.
а) Л = 0,001 I] б) л = 0,1 ; в) л=0,5 ;
5 ; _„-;\ 5 ....... ....... 5 4 ---- -Й^И»
* "' ^ 1
1___}-----9.» 1 .! ( 0.5 1 •2 - .........м-.....Л 0.5 1 -2
Рисунок 4. Ядерное сглаживание.
Анализируя рис. 2-4 можно сделать вывод, что алгоритмы группировки и ядерного сглаживания являются неустойчивыми, их результаты зависят от параметров Ь, Ь. Предложенный алгоритм обеспечивает высокую точность оценивания.
Пример 2. Рассмотрим систему (X, У, 7). Пусть : = 5х2 + у2 + е , где х,У~ /?[-1,1],е -N(0,1), объем выборки N = 70. Проведено М - 1000 испытаний.
Пусть и1еор - теоретическое значение индекса детерминации, Я2р - индекс детерминации, полученный с помощью алгоритма группировки, — индекс детерминации, полученный с помощью алгоритма ядерного сглаживания, В? -
индекс детерминации, полученный с помощью алгоритма на основе сглаживания линейной регрессией.
Пример 2, как видно из табл. 1, свидетельствует, что предложенный алгоритм на основе сглаживания линейной регрессией для многомерного случая значительно превосходит известные алгоритмы.
Таблица 1
п2 теор < К п2 РегР
ь = ъ ¿ = 4 1 = 5 /» = 0,01 И = 0,04 И = 0,07
0,616 0,406 0,586 0,659 0,839 0,625 0,525 0,599
Предложенное сглаживание на основе линейной регрессии обладает следующими особенностями. 1) Для выбора оптимальной окрестности, мы для каждого наблюдения ищем окрестность с минимальной дисперсией ошибок регрессии. Известно, что чем меньше значение дисперсии ошибок регрессии, тем качество однотипной модели выше. Поэтому данную задачу можно считать формальным
критерием эффективности для нахождения оптимальной окрестности (числа соседних точек). 2) Если градиент теоретической функции регрессии существенно изменяется, то при сглаживании вместо линейной регрессии можно использовать нелинейную регрессию. При этом критерий оптимальности выбора окрестности для сглаживания остается тем же. Это делает рассматриваемый подход универсальным. 3) Устойчивость к выбросам в предложенном алгоритме может быть учтена путем использования в оценке коэффициентов регрессии обобщенного метода наименьших модулей.
Предложенный метод непараметрического оценивания индекса детерминации обеспечивает достаточную точность для многомерных выборочных данных. Это позволяет на его основе оценивать энтропийные модели динамики многомерных стохастических систем по экспериментальным данным.
На основе энтропийной модели динамики опишем алгоритм диагностики и контроля состояний многомерной стохастической системы:
1. Вычислим динамику энтропии в течение времени I = 1,..,/: А1Я(У),...,Д'Я(¥).
2. Найдем период Дтах, в котором динамика энтропии максимальна.
3. В критическом периоде Дпих рассмотрим ДтюЯ(У)1 и ДтахЯ(\')я:
3.1. Если ДтахЯ(У)г > ДтахЯ(У)я, то компонента к, соответствующая тах{ДЯ(Ук)}", оказала наибольшее влияние на изменение в системе.
3.2. Если ДшахЯ(У)Л > Д"'ах//(У)1;, то компонента к, соответствующая тах{|д¡,|ДДг2/вд...г* |'--ф/?г(,/г1г2г)м |)Г=1 оказала наибольшее
влияние на изменение в системе.
4. Выводы: для стабилизации системы необходимо обратить внимание на компоненты, которые оказали наибольшее влияние на изменения в системе. Если справедливо 3.1, то в компоненте к наблюдается большой разброс показателей. Если справедливо 3.2, то компонента к слабо взаимодействует с другими компонентами.
Вышеизложенные алгоритмы и реализующие их программы были зарегистрированы в Объединенном фонде электронных ресурсов «Наука и образование» при Российской Академии Образования.
Глава 4. Практическое применение разработанных моделей, методов и
алгоритмов
В данной главе рассматриваются примеры практического использования энтропийного моделирования динамики систем.
Энтропийная модель динамики, согласно теореме 4, может быть использована для данных, имеющих однотипные законы распределения. Проверять на однотипность целесообразно с помощью гипотез однородности (критерий Смирнова, Ле-мана-Розенблата и др.). Но для этого сначала необходимо приравнять параметры сдвига и масштаба, либо только масштаба (если параметр сдвига отсутствует). Если законы распределения с одинаковыми параметрами являются однородными, то для исходных данных справедлива однотипность законов распределения.
В первом примере рассматривается диагностика состояния автотранспортного предприятия в течение месяца. За основу системы У возьмем коэффициент вместимости, который равен отношению количества занятых мест в автотранспорте к общему количеству мест. Разобьем исследуемую систему У на следующие подсистемы, соответствующие трем периодам времени:
У,: «00:00- 12:00»; У2 : «12:00- 18:00»; У,: «18:00-00:00» Рассмотрим динамику общей энтропии системы в течение месяца (см. рис. 5), причем 2-ое число месяца - воскресенье:
Рисунок 5. Динамика общей энтропии системы.
По рис. 5 можно сделать следующий вывод: день недели, когда в системе чаще всего наблюдается увеличение нестабильности - суббота. Такое поведение очевидно, так как по субботам пассажиры чаще всего уезжают в междугородные и пригородные направления. Критические изменения общей энтропии системы наблюдаются 15-го и 22-го числа.
Анализируя изменение компонент энтропии получим: 15-го числа подсистема У3, соответствующая периоду времени после 18:00, оказала наибольшее влияние на снижение стабильности в системе, а 22-го числа — подсистема Кь соответствующая периоду времени до 12:00. Необходимо проанализировать расписание рейсов, так как в эти промежутки времени наиболее часто встречаются неравномерно заполненные автобусы.
Во втором примере проводится анализ энтропии популяции при профилактике хронических неинфекционных заболеваний.
В основе энтропийной модели лежит представление популяции в виде системы, где каждый элемент - это показатель функционирования подсистем организма человека (см. рис. 6).
Таблица 2
Популяция У
Уровень общего Систолическое Индекс массы Уровень
холестерина У/ артериальное тела Уз глюкозы
давление У2 >
Рисунок 6. Подсистемы организма человека.
Возраст Статус здоровья Я(У)
18-24 Здоровые 7,023 -0,391 6,63
Практически здоровые 7,362 -0,174 7,19
Больные 8,11 -0,34 7,77
25-34 Здоровые 5,71 -0,49 5,22
Практически здоровые 7,77 -0,4 7,37
Больные 8,49 -0,41 8,08
Анализ табл. 4 показывает, что по мере ухудшения состояния здоровья популяции происходит увеличение общей, объединенной по всем факторам риска, энтропии. Следовательно, результаты комплексного клинико-эпидемиологического обследования согласуются с энтропийным подходом исследования систем.
Рассмотрим динамику энтропии во всех возрастных группах при переходе от здорового состояния к практически здоровому, от практически здорового состояния к больному. Результаты исследования показали, что максимальное увеличение популяционной энтропии происходит в возрасте 25-34 г. в результате действия подсистемы У4 (уровень глюкозы). Это говорит о том, что в этой возрастной группе необходимо особое внимание уделять уровню глюкозы в крови, так как изменение именно этого фактора риска повлияло на ухудшение здоровья.
В третьем примере проводится анализ энтропийной модели в экономике. Рассмотрим перечень макроэкономических показателей из раздела «Основные социально-экономические показатели РФ» ежегодно издаваемых Государственным комитетом по статистике РФ сборников «Россия в цифрах» с 2000 по 2011 годы.
На основе факторного анализа было установлено, что исходная система пред-ставима в виде трех факторов (главных компонент) У = (У,, Уг, У3), которые объясняют 93,2% всей вариации исходных признаков. Проведем далее сравнительный анализ поведения макросистемы в двух периодах (до 2005 года включительно и после) на основе анализа энтропии случайного вектора. Тогда получим АН (У) = АНТ(У) + АНК (У) = 1,172 +1,084 = 2,256. Данный результат может свидетельствовать об ухудшении в целом макроэкономических показателей во втором периоде, вызванным экономическим кризисом в сопоставлении с тем, что первый период характеризовался ростом экономического развития страны.
Использование результатов диссертационной работы подтверждено справками.
ЗАКЛЮЧЕНИЕ
Итоги исследования:
1. Получены для многомерных случайных векторов с различными законами распределений компонент аналитические выражения для дифференциальной энтропии и ее изменения.
2. На основе полученных выражений разработана и формализована новая энтропийная модель динамики многомерных стохастических систем.
3. Сформулирована задача диагностики и контроля состояния системы на основе энтропийной модели динамики.
4. Разработаны алгоритмы и программы непараметрических методов оценки индекса детерминации, позволяющие решать задачи контроля и диагностики многомерной системы на малых выборках данных.
5. Методика использования энтропийной модели динамики апробирована на реальных примерах в различных областях.
Рекомендации и перспективы дальнейшей разработки темы:
В качестве дальнейшего развития исследуемой темы можно рекомендовать разработку методов эффективного энтропийного управления негауссовскими стохастическими системами.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
Публикации в изданиях, включенных в перечень ВАК:
1. Тырсин, А.Н. Исследование динамики многомерных стохастических систем на основе энтропийного моделирования / А.Н. Тырсин, О.В. Ворфоломеева // Информатика и ее применения. - 2013. - Т. 7, вып. 4. - С. 3-10.
2. Тырсин, А.Н. Энтропийное моделирование работы автотранспортного предприятия / А.Н. Тырсин, О.В. Ворфоломеева // Вестник ЮРГТУ (НПИ). Социально-экономические науки. - 2011. -№3. - С. 145-150.
3. Яшин, Д.А. Применение метода энтропийно-динамического моделирования медико-биологических систем для анализа динамики основных измеримых факторов риска сердечно-сосудистых заболеваний в организованной популяции / Д.А. Яшин, О.В. Ворфоломеева П Врач-аспирант. - 2013. - № 3.1(58).-С. 225-232.
Публикации в других изданиях:
4. Тырсин, А.Н. Энтропийно-вероятностное моделирование макросистем / А.Н. Тырсин, И.С. Соколова, О.В. Ворфоломеева // Информационные и математические технологии в науке и управлении: Труды XVI Байкальской Всеросс. конф. Т. 1. - Иркутск: ИСЭМ СО РАН, 2011. - С. 60-66.
5. Тырсин, А.Н. Мониторинг состояния стохастических систем на основе энтропийно-вероятностного моделирования / А.Н. Тырсин, О.В. Ворфоломеева // Информационные и математические технологии в науке и управлении: Труды XVIII Байкальской Всеросс. конф. Т.1. - Иркутск: ИСЭМ СО РАН, 2013.-С. 59-64.
6. Тырсин, А.Н. Мониторинг состояния экономических систем на основе анализа динамики энтропии / А.Н. Тырсин, О.В. Ворфоломеева // В книге: XIV апрельская международная научная конференция по проблемам развития экономики и общества. В четырех книгах. Отв. ред. Е.Г. Ясин. Кн.1. - М.: Издательский дом Высшей школы экономики, 2014. - С. 277-283.
7. Ворфоломеева, О.В. Вычисление эмпирического корреляционного отношения. № 19314. [Электронный ресурс] / О.В. Ворфоломеева, Т.И. Овсянникова // Хроники ОФЭРНиО. - 2013. - №6 (49). - С. 19-20. - Режим доступа: http://ofernio.rU/oortal/newspaper/ofernio/2013/6.doc.
8. Ворфоломеева, О.В. Оценивание динамики энтропии многомерной стохастической системы. № 20564. [Электронный ресурс] / О.В. Ворфоломеева // Хроники ОФЭРНиО. - 2014. - № 12 (67). - С. 1. - Режим доступа: http://ofernio.ru/portal/newspaper/ofernio/2014/12.doc.
9. Ворфоломеева, О.В. Непараметрическое оценивание индекса детерминации регрессионных зависимостей. № 20565. [Электронный ресурс] / О.В. Ворфоломеева, А.Н. Тырсин // Хроники ОФЭРНиО. - 2014. - №12 (67). - С. 1. -Режим доступа: http://ofernio.ru/portal/newspaper/ofernio/2014/12.doc.
Тезисы докладов:
10.Ворфоломеева, О.В. К вопросу построения математических моделей критичных систем инфраструктуры / О.В. Ворфоломеева // Безопасность кри-
тичных инфраструктур и территорий: Материалы III Всеросс. конф. и XIII школы молодых ученых. - Екатеринбург: УрО РАН, 2009. - С. 143-144.
П.Тырсин, А.Н. Развитие сложных систем на основе энтропийно-вероятностного моделирования / А.Н. Тырсин, И.С. Соколова, О.В. Ворфо-ломеева // Безопасность критичных инфраструктур и территорий: Материалы IV Всеросс. конф. и XIV школы молодых ученых. - Екатеринбург: УрО РАН,2011.-С. 72-74.
12.Тырсин, А.Н. Повышение эффективности функционирования стохастических систем на основе энтропийного моделирования / А.Н. Тырсин, О.В. Ворфоломеева // Безопасность критичных инфраструктур и территорий: Материалы V Всеросс. конф. и XV школы молодых ученых. - Екатеринбург: УрО РАН, 2012. - С. 58-61.
13.Тырсин, А.Н. Оценивание изменения энтропии многомерных стохастических систем / А.Н. Тырсин, О.В. Ворфоломеева // Обозрение прикладной и промышленной математики. - 2012. - Т. 19, вып. 5. - С. 753-754.
14.Тырсин, А.Н. Об асимптотической симметрии корреляционного отношения. [Электронный ресурс] / А.Н. Тырсин, О.В. Ворфоломеева// Обозрение прикладной и промышленной математики. — 2014. — Т. 21, вып. 5. — Режим доступа: http://tvp.ru/conferen/vsppml5/kibsol67.pdf.
15.Тырсин, А.Н. Алгоритм непараметрического оценивания индекса детерминации регрессионных зависимостей. [Электронный ресурс] / А.Н. Тырсин, О.В. Ворфоломеева// Обозрение прикладной и промышленной математики. — 2014. — Т. 21, вып. 5. — Режим доступа: http://tvp.ru/conferen/vsppm 15/kibso 165 .pdf.
Подписано к печати 19.02.2015г. Формат 60x84 1/16 Объем 1,0 уч.-изд.л. Заказ №19. Тираж 100 экз. Отпечатано ИП Ковин П.В. ИНН 744801881433 г. Челябинск, ул. Энтузиастов, 5
-
Похожие работы
- Энтропийно-вероятностное моделирование сложных стохастических систем
- Анализ энтропийных моделей режимов электротехнических систем с генерирующими источниками, включая режимы детерминированного хаоса
- Формирование и анализ энтропийных моделей режимов функционирования электроэнергетических систем, включая режимы детерминированного хаоса
- Разработка теории стохастического подобия и методов стохастического моделирования в электроэнергетике
- Планирование дискриминирующего эксперимента для стохастических динамических систем
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность