автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Оценивание плотности вероятности на основе метода регуляризации

кандидата технических наук
Карандеев, Дмитрий Александрович
город
Москва
год
1998
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Оценивание плотности вероятности на основе метода регуляризации»

Автореферат диссертации по теме "Оценивание плотности вероятности на основе метода регуляризации"

РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ

ОД

На правах рукописи

' - ; УДК 519.217

Карандеев Дмитрий Александрович

ОЦЕНИВАНИЕ ПЛОТНОСТИ ВЕРОЯТНОСТИ НА ОСНОВЕ МЕТОДА РЕГУЛЯРИЗАЦИИ

(05.13.01 - управление в технических системах)

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Москва - 1998

Работа выполнена в Институте проблем управления Российской Академии Наук

Научный руководителыкандидат физико-математических наук, ст.н.с.

А. Р. Стефанюк

Официальные оппоненты: доктор технических наук, профессор

Б. Т. Поляк

кандидат физико-математических наук, ст.н.с. А. П. Серебровскнй

Ведущая организация: НИИ Квант.

Защита диссертации состоится 1998 г. в

/У час. _ мин. на заседании Специализированного Совета

Д002.68.02 Института проблем управления по адресу: 117806, Москва, ул. Профсоюзная 65.

С диссертацией можно ознакомиться в библиотеке Института проблем управления.

Автореферат разослан "/% " 1998 г.

Ученый секретарь специализированного совета д.т.н.

Акинфиев В.К.

Общая характеристика раГотш.

Актуальность темы. В настоящее время все бонч расширяется сфера применения статистики и статистических метолом В большинстве своем при этом решается задача: как но результаим

наблюдений определить статистические характеристики генерашнцц. ___,-,

совокупности, из которой взяты эти наблюдения. Наиболее емкой такой характеристикой является функция плотности распределения вероятности. Поэтому задача восстановления плотности верояшогш по эмпирическим данным является одной из основных эатач статистических исследований. Такие задачи, как распознавание образов, разладка случайной) процесса, оптимальное управление прогнозирование и др., могут решаться в том числе и пупм восстановления функции плотности вероятности. Это обстоятельство обуславливает актуальность и важность внедрения методов восстановления плотности вероятности в различные области теории управления и ее приложения.

Настоящая работа преследует две основные цели: « Изучить проблему выбора оптимальных параметров при восстановлении функции плотности вероятности и применить полученные результаты к конкретной задаче, которая может возникнуть, например, в промышленности. « Разработать некоторый алгоритм восстановления функции плотности вероятности, который как можно лучше подходил бы для очень малых объемов исходных данных, что особенно важно для применения результатов к задачам управления процессами производства, к созданию экономических моделей для нужд прогнозирования.

Научная новизна работы заключается в том, что • Проведено исследование кусочно-постоянной оценки функции плотности вероятности. На примере кусочно-постоянной оценки произведено исследование проблемы выбора опттшальных параметров при восстановлении функции плотности вероятности. Предложено два способа автоматического выбора оптимальных параметров при восстановлении плотности вероятности. Полученные результаты смоделированы на ЭВМ. » Предложенный метод выбора параметров настройки реализован программно. Рассмотренный метод восстановления функции

плотности вероятности и оценки его оптимальных параметров применен к задаче о разладке случайного процесса.

• Исследован метод стохастической регуляризации для случая, когда в качестве полигона берется специальным образом сконструированная функция. В результате получена новая оценка функции плотности вероятности по эмпирическим данным. Произведен сравнительный анализ новой оценки и наиболее часто употребляемых парзеновских оценок. Предложенная оценка функции плотности вероятности по эмпирическим данным дает заметное преимущество по сравнению с классическими парзеновскими оценками. Этими преимуществами являются: устойчивость оценки относительно ее параметров, а так же возможность более успешного ее применения к выборкам малого объема (порядка 20-40 элементов). Исследована сходимость новой оценки.

Практическая ценность работы заключается в том, что

• В результате исследования получен полностью автоматизированный алгоритм поиска разладки случайного процесса, применимый к ситуации, когда заранее ничего нельзя сказать о распределении рассматриваемого случайного процесса и, таким образом, нельзя применить какие-либо специализированные методы поиска разладки.

• Получена новая оценка функции плотности вероятности по эмпирическим данным, которая для выборок очень малого объема дает заметное улучшение относительно существующих.

Внедрение.

1) Исследованные в работе методы оценивания функции плотности вероятности и поиска разладки случайного процесса были доведены до промышленной реализации в научно-исследовательской работе "Сегмент" проводимой Академией криптографии Российской Федерации. Указанные методы используются для решения задач управления ресурсом в широкополосных цифровых сетях интегральгого обслуживания.

2) Методы оценивания функции плотности вероятности, исследованные в работе используются в разработках программного обеспечения, ведущегося в НИВЦ МГУ им. Ломоносова. При использовании систем аналитической обработки данных (OLAP)

указанные алгоритмы применяются для решения задач стратегического управления предприятием, для бизнес-анализа деятельности предприятия, при разработке систем принятия решений и приложений для многомерных СУБД.

Методы исследования. Общая методика исследования базируется на математических методах теории управления, теории решений некорректно поставленных задач, теории стохастической регуляризации и результатах математической статистики. Для исследования эффективности разработанных методов применяется моделирование на ЭВМ.

Публикации. Основные результаты работы опубликованы в 5 работах, список которых приведен в конце автореферата.

Апробация диссертации. Результаты диссертации докладывались на международной научно-практической конференции "Управление большими системами" (Институт проблем Управления, 22-26 сентября 1997 г.), а так же на семинарах Института Проблем Управления РАН, Института Проблем Передачи Информации РАН.

Структура и объем диссертации. Диссертационная работа состоит из введения, трех глав, заключения, списка цитируемой литературы из наименований. Общий объем

диссертации /00 страниц.

Содержание работы.

Во введении обосновывается актуальность темы диссертации, определяется цель исследования, приводится краткое содержание работы, формулируются основные результаты.

Первая глава посвящена проблеме выбора оптимальных параметров настройки на примере заданого алгоритма. В МЛ 2

первой__главы рассматривается метод, являющийся

усовершенствованием метода гистограммы. Этот метод был предложен Л.Р. Стефанюком в [1]. На примере этого метода проводится исследование выбора оптимальных параметров при восстанотении плотности вероятности. Рассмотрим случай, когда функция плотности вероятности Их) равна нулю за пределами некоторого ограниченного интервала [а,Ь]. Разобьем интервал [а,Ь] на Ь подинтервалов Д|. В предположении, что функция плотности

вероятности f(x) равна нулю за пределами ограниченного интервала [0,1], рассматриваемая оценка имеет вид:

/,(*)= е[т,_,,!,]), (1)

«-I 1

—+ а L

Г,

где /(•) - индикатор, = ^dFn(x), Fa(x) - эмпирическая функция

'/и

распределения, построенная по выборке л.....,ха\ r,,/ = 0,Z - точки

разбиения области определения функции /о(х) на L равных отрезков. При.а = 0 оценка (1) совпадает с известной гистограммной оценкой плотности вероятности. В [1] было показано, что для оценки (1) функционал среднеквадратичной погрешности может быть представлен как сумма остаточного отклонения и систематической ошибки вследствие ограниченности величины L:

Л(иД,а,/0)=Л„1(иД,а,/0)4 *,„,(£,/„), где

— (l~eo2) + a2(Lco2 -I)

4 / L( \fj(x)dx —-\rt{x)d*

. ь~а МЧ4,

где /0(х) - истинная функция плотности распределения вероятности,

которую нам необходимо найти.

S3 первой главы диссертации посвящен получению условий

сходимости оценки в метрике С<а,ь).

Теорема. Пусть выполняются условия п -> го, L -у оо, а -у О,

aL -»О, -2--► оо.

состоятельности оценки (1), а так же выполняется условие а/.'->о, тогда:

р\ sup |/„(х) - /0(*)| о| = 1

В §4_ производится обоснование алгоритма выбора оптимальных параметров при восстановлении плотности вероятности. Параметрами настройки рассматриваемого алгоритма являются константа регуляризации а и количество Ь ннтервапов разбиения.

Для определения качества алгоритма, восстанавливающего некоторую функцию плотности вероятности / Ос), определенную на множестве П, по выборке лг,,...,х„, рассматривается величина:

В случае выбранного алгоритма (1), когда функция плотности вероятности /„(*) равна нулю за пределами ограниченного интервала (0,1], величина Л имеет вид:

Далее мы будем придерживаться принципа Байеса, который состоит в оценивании качества алгоритма как среднего качества по множеству восстанавливаемых плотностей. Итак, зададимся априорной информацией о функциях, которые мы собираемся восстанавливать: некоторое множество функций и вероятностную меру на нем, характеризующую, как часто придется восстанавливать ту или иную функцию из этого множества. Далее будем подбирать оптимальные (по Байесу) параметры настройки алгоритма. Для простоты изложения везде ниже предполагается, что область определения О искомых функций плотности вероятности есть отрезок [0,1]. Путем несложных преобразований полученные результаты переносятся на произвольный отрезок (а,Ь].

В §5 прослеживается связь оптимальных параметров настройки алгоритма с характеристиками ширины восстанавливаемой функции. При Байесовском подходе возникает проблема задания исходного множества восстанавливаемых плотностей и априорного распределения на нем. Очевидно, что оптимальные параметры алгоритма зависят также от восстанавливаемой функции плотности вероятности. Тестирование алгоритма на различных типах распределение! показало, что оптимальные параметры настройки алгоритма в значительной степени зависят от "ширины" '

+ Для олмомолатммй плотности "ширину" следует понимать как длину интервала, в котором содержится "сутиестнеииая часть" или "почти все" распределение, формально же харакюрисгикои "ширины" будем считать величину параметра ю1, определенного «ыше. Например, для равномерного распределения на интервате ширины т, соср машемся и интернате (0,1], <>г I/(1л).

(2)

восстанавливаемой функции. На рассмотренных в работе примерах исследовалса характер этой зависимости.

Рассмотрим величину ш2. Если восстанавливаемая (истинная) функция fo(x) имеет вид: /oOO-eonst (наиболее "широкая" плотность из всех, сосредоточенных на 10,1]), то m2-l/L. Если /о(дс) ~S{x), т.е. "узкая" функция по сравнению с шириной отрезков разбиения 1/L, то о>2-1. Доказаны следующие леммы:

Лемма. Если из всех L отрезков разбиения области определения О точками zv.i =0,.., L исходная плотность вероятности /о(х)

отличается от нуля только на M из них, то û)!(/0)i —•

А/

Лемма. Если на M (M<L) отрезках разбиения области определения О исходной плотности вероятности /о(х) точками г(,/ = 0,..,£ сосредоточено не менее (I - 77) массы**, то

<»2(/„)^( + ^-^--

М (L-M)M

Мы получили искомую оценку снизу для со2. Заметим, что при

малых т] она определяется, главным образом, величиной М, а не L.

Таким образом, параметр о>2 связан с "шириной" а восстанавливаемой

функции плотности. Если на множестве Е возможных значений а

задать некоторое априорное распределение рарг(о), то, учитывая, что

R - R(tг), можно рассчитать Байесовский риск по формуле:

= ]R(o)plpr(o)da (3)

z

и определить, исходя из этого, =(aop,Loit) для рассматриваемого алгоритма:

в<» = = (4)

(предполагая, что такое Ъ^, существует).

В соответствии с принципом Байеса, предположим, что а -случайная величина. Обозначим через {/¡,0с), ogl} параметрический класс функций плотности вероятности, с "шириной", характеризуемой параметром о. Рассматривались множества функций /0 (х) следующих двух видов:

Функцию /о(х) интерпретируем как плотность распределения единичной массы по отрезку [0,11.

1) faix) - равномерное распределение на интервале ширины о, содержащемся в интервале [0,1].

2) fa(x) - треугольное распределение на интервале ширины сг, содержащемся в интервале (0,1).

"Ширина" о плотности распределения f„(x) имеет априорное распределение рарЛо), причем рарЛо) рассматривалась также двух видов:

а) Равномерное распределение на интервале [amin.l]: [О, <тфт!о,1]

« г и (Я

РагЛа)^

(l-ff-J*

о^К,,..1]

б) Треугольное распределение на интервале [сттш,1]:

2 2 ri 1 + ^-4 o-e[<rmin,l]

О-^ы,) """ <6>

Я11П V 1Л1П '

о.

Для каждого типа функции ДОс) рассматривались ситуации, когда распределение рарЛ<з) либо- треугольное на [<т„„,1], либо равномерное на [<ттт, 1]. Всего, таким образом, исследовано четыре случая, причем в допущении, что восстанавливаемая функция /„(л) не может быть уже, чем некоторое число стгащ (функция не может быть сколь угодно узкой).

Исследуем • асимптотическое поведение параметров ~{ач*- Г-ч*)' найденных предложенным методом (т.е. с помощью

минимизации величины при неограниченном возрастании

объема выборки: п->°о. Пусть /„(.*) - треугольное распределение. Тогда величина байесовского риска, в предположении, что величина ст распределена равномерно на отрезке [сттш,1], равна: Я».....("■ 1-,«) - С,,,,(я, + (П, где:

Зл/, (1+ «/.,) (<тт11| -1)<г^п - + 3а-Ш'ст^ + /.3 + 2агпС -2 -

-Зв'иА'«^, 16// !nam,naW^ -161п<т„,„Лг<т^),

2

По формуле (4) определяем систему уравнений для нахождении оптимальных параметров (а, I) алгоритма:

(9^ -481п(а„^)а1 -9о'пш)И +(30^,. -ЗОо^)!* +(641п(<тт1>^„ +

641п(^„)яа^т +12а1/г + 12^|П -б41п(атт)^1П -12^1 -12а^п-. 641п(<тю,л)а^)^ + 8<т^ + «а.,,,»» - 8 + 8п = 0

Второе из уравнений системы (относительно ¿Л имеет вид: АК™)^ +Рг(<Гш«)? + + «/>5К„„) + />б К,„») = <>. (7)

где р4(<т„1П), * = 1,...,6 - константы, зависящие от числа стт,п , но не зависящие от Ь, п, а. Доказаны следующие факты.

Лемма, Если при п -»а> уравнение (7) имеет корень Цп), такой что

-> да, (8)

то для этого корня

и (9)

Теорема. Уравнение (7) при любом п имеет вещественный корень, удовлетворяющий условию (9).

• Можно показать, что уравнение (7) имеет три возрастающих по модулю корня, асимптотически приближающихся к корням уравнения

И еще два ограниченных по модулю корня, асимптотически приближающихся к корням уравнения

Таким образом, оптимальные, в смысле (4) для рассматриваемого класса плотностей, параметры оценки (1) асимптотически ведут себя следующим образом:

¿„-и*. (Ю)

п

Анализ показывает, что при треугольном рарЛо) асимптотическое поведение оптимальных параметров остается таким же, как и при равномерном рарЛ<з). Учитывая (10), находим из (2), что при неограничненном возрастании объема выборки п функционал

2/3

среднеквадратичной погрешности Я ~ п .

В предположении, что /„(•*) - равномерное распределение, как в случае равномерного, так и в случае треугольного априорного распределения для ст, аналогичные рассуждения дают,что: , í 1

В этом случае достигается следующий порядок сходимости

1/2

функционала среднеквадратичной погрешности: R~n .

Заметим еще раз, что асимптотическое поведение параметров Lnpt и aopt при п —> га не зависит от того, какое априорное распределение величины а выбрано: равномерное (5) или треугольное (6).

В §6 производится оценка распределения . параметра о восстанавливаемой функции. При решении каждой конкретной задачи в наличии имеется выборка дг,,...,д:, из распределения /„(•*)• Образуем на основе этой выборки вариационный ряд <, *<2) <...5 j'"1 и определим величину размаха выборки Д, = х(„п) - . Если понимать "ширину" а, как указано в начале §5, то с большой вероятностью Дп< ст. Таким образом, можно в качестве апостериорной оценки для "ínin брать размах Д„ данной выборки. Можно пойти по другому пути и воспользоваться теоремой Байеса:

ИР-(<Т) • (П)

j/>(A„|cr)/v(cr)rf<T

о

Распределение размаха р(А„\п) для восстанавливаемой функции плотности вероятности f„(x) с функцией распределения F„(.х) можно найти по следующей формуле. Пусть t-A„, тогда:

4« Я"1

+ d(F„(x)). (12)

Далее находим pt,^„(<Al) ПРИ и затем используем

найденную плотность распределения величины о для нахождения Л,.„„(", /-."). Рассмотрим следующие два варианта:

1) f„(x) имеет равномерное распределение на интервале ширины о, содержащемся в интервале [0,1]. В этом случае условная функция распределения размаха выборки имеет вид:

, , ч nat" 1 ~(n~])i" /'(/|гт) =-----\--—, 0<t<.a .

Соответствующая условная функция плотности вероятности:

а

Полагая р^Дст) = 1,ст е(0,1], по формуле Байеса получим

апостериорную плотность вероятности распределения величины а при условии I:

\п - IX" - 2)1" а'" (сг - /)

-:-г» 2/, /1 л\

Г (и-2)-/"(л-1) + / (»4)

О, а < I.

■ Для каждой конкретной выборки ищется размах ' = Д„,

известные величины п, 1 подставляются в р^До]/) и получается

искомая плотность распределения вероятности для о, согласно которой можно далее. вычислять («,£,«) и затем определять

в„

Данное выражение получено в предположении, что априорно (до появления реализации) о распределена равномерно на (0,1]:

2) /„(х) - равномерная, а величина о априорно распределена согласно треугольному распределению рсрг(сг) = 2-2\\-2о\, ае(0,1].

Функция распределения размаха выборки имеет тот же вид, что и в предыдущем случае. Функция плотности вероятности апостериорного распределения о имеет вид:

[-2(-1 +11 - 2<ф(и - 1Хп - 2 К» - 3)/У" (сг - 0

,Н') =

'"*'(("-3)2"*' +12)+(п-1Х4г" +4/1 -2"/") <Гг'' 0, его

Сравнивая выражения и графики для р(о\0 при различных

априорных распределениях о, заметим, что выбор априорного

распределения практически мало влияет на распределение

р^,(сг). При увеличении размера выборки п, как в случае равномерной функции плотности вероятности р,р,(сг), так и в случае

треугольной, апостериорное распределение параметра о оказывается все более локализованным вблизи А„, что хорошо согласуется с идеей о том, что чем больше п, тем более точно А„ оценивает истинную "ширину" функции /а(л).

В §7 описывается предлагаемая в работе методика выбор., параметров настройки алгоритма. На практике обычно встречаен» ситуация, когда нет априорной информации о восстанавливаемом функции плотности вероятности. Анализ полученных результатов показывает, что оптимальные (в указанном выше смысле) параметры настройки алгоритма в большой степени зависят от "ширины" восстанавливаемой функции, точнее, от распределения параметра, характеризующего эту "ширину", на множестве восстанавливаемых функций. Для произвольной восстанавливаемой плотности предлагается воспользоваться формулами, полученными для равномерного распределения (5). Далее предлагается действовать согласно одному из следующих двух алгоритмов.

Первый способ. 1) В предположении, что искомая функция /„(.*) ' имеет равномерное распределение (5), ищем оценку функционала R, характеризующего расстояние между истинной функцией плотности вероятности и восстанавливаемой функцией, по формуле (2).

2) По формуле (12) находим распределение размаха выборки. Далее по формуле Байеса (14) находим плотность распределения вероятности а при условии имеющейся у нас реализации дг,,...,х„ случайной величины.

3) По формуле (3) находим и далее по формуле (4) - сами параметры оценки плотности.

Второй способ. 1) В предположении, что искомая функция /„(х) имеет равномерное распределение (5)-, находим оценку функционала R.

2) Из априорных соображений задаем распределение для ширины а восстанавливаемой функции, аналогично (5), (6). За минимально возможную "ширину" восстанавливаемой функции принимаем размах имеющейся выборки.

3) По формулам (3), (4) находим параметры оценки плотности.

Таким образом, удается учесть содержащуюся в выборке xi,...,xn

дополнительную информацию о восстанавливаемой функции /„(х) (в данном случае - информацию о ее "ширине").

Указанный метод с использованием теоремы Байеса был реализован на ЭВМ, и полученные результаты тестирования на

нормальном, Коши, и гамма-распределениях подтвердили его работоспособность.

Основные результаты, полученные в первой главе, заключаются в следующем. Исследованы и определены условия сходимости алгоритма в равномерной метрике С<а,ь). Предложено два способа выбора оптимальных параметров при восстановлении плотности вероятности. Первый способ пригоден в ситуации, когда априори известна некоторая информация о восстанавливаемом распределении (например, известно, что искомая фукнкция принадлежит к классу распределений Коши). На практике обычно встречается ситуация, когда нет априорной информации о восстанавливаемой функций плотности вероятности, и второй способ определения параметров алгоритма рассматривает именно этот случай. В результате исследования предложен метод, который легко реализуется программно и позволяет полностью автоматизировать сам алгоритм восстановления. Все действия, описанные на примере оценки (1), могут быть выполнены при определении оптимальных параметров настройки других алгоритмов восстановления плотности вероятности. Метод с использованием теоремы Байеса приводит к более громоздким вычислениям, но позволяет эффективнее использовать полученную из выборки информацию и приводит к лучшей оценке вер! и, соответственно, к лучшей оценке /п(дс) восстанавливаемой функции.

Во второй главе рассматривается применение оценки плотности вероятности, изученной в первой главе, для оценивания функции отношения правдоподобия применительно к разладке случайного процесса.

Целью данной главы являлось построение алгоритма обнаружения разладки случайного процесса, который позволял бы по заданной реализации автоматически определять момент изменения свойств случайного процесса.

Основные результаты, полученные в данной главе: На основе алгоритма восстановления функции плотности вероятности, изложенного в первой главе, построен алгоритм обнаружения момента разладки случайного процесса. Предложенный алгоритм содержит, параметры, по которым может производиться его настройка. В данном случае настройка параметров производится согласно

предложенному в первой главе методу усреднения по Байесу. Кроме того, предлагается алгоритм определения доверительного интервала, и котором должен содержаться момент разладки. Для некоторых типов распределений по предложенной формуле для доверительного интервала можно в общем виде подсчитать теоретическую оценку погрешности.

Теоретическая оценка погрешности и оценка, полученная в эксперименте, достаточно хорошо совпадают в случае, когда функция плотности вероятности рассматриваемого распределения не имеет "тяжелого хвоста" (под "тяжелым хвостом" подразумевается слишком медленное убывание функции плотности вероятности на бесконечности, как это происходит в случае распределения Коши). При наличии у функции плотности вероятности "тяжелого хвоста" экспериментальная . оценка погрешности несколько хуже теоретической. Действительный момент разладки всегда попадает в указываемый нами доверительный интервал.

• Рассматриваемая в предложенном методе обнаружения момента разладки оценка функции отношения правдоподобия при выполнении некоторых условий является состоятельной оценкой. Выведены условия сходимости указанной оценки функции отношения правдоподобия к истинной функции отношения правдоподобия в метрике С (а,ъ). Тестирование предложенного алгоритма на нормальных, гамма и Коши распределениях подтвердило его состоятельность. Алгоритм наиболее подходит к ситуации, когда заранее ничего нельзя сказать о распределении рассматриваемого случайного процесса и, таким образом, нельзя применить каких-либо специализированных методов, поскольку при решении задачи о разладке данным методом нам не требуется никакая априорная информация о самом случайном процессе. Эти факторы и определяют ценность предлагаемого алгоритма. В результате проведенной работы был создан готовый к Применению програмннй продукт для персонального компьютера

Третья глава диссертации посвящена построению новой оценки функции плотности вероятности с помощью мегола стохастической регуляризации. Для оиениппния плотности вероятности предлагается следовать методу стохастической

регуляризации с использованием специального непрерывного полигона.

В §J_ приводится описание метода стохастической регуляризации и основных существующих результатов с использованием этого метода. Известно, что плотность распределения вероятности р(х) - функция, удовлетворяющая следующему уравнению:

]p(x)dx = F(z), (16)

-яб

где F(z) - функция распределения. Это уравнение можно переписать с помощью функции Хевисайда 0(f):

j(?(z-x)p{x)dx = F(z), где <?«) = {J' (17)

Таким образом, функция р(х) является решением интегрального уравнения Фредгольма первого рода. Задача решения такого уравнения является некорректно поставленной, так как его решение не является устойчивым по отношению к малым изменениям правой части. Для решения таких задач широко применяется метод регуляризации по Тихонову. Предположим, что у нас имеется случайная выборка xi,x2,...,xn из неизвестного распределения. Будем искать оценку плотности распределения в виде решения операторного уравнения:

Af = F, (18)

где А оператор, осуществляющий взаимно-однозначное отображение элементов f(x) множества См метрического пространства Е> в элементы Fix) множества Фг метрического пространства Ег в ситуации, когда вместо правой части F(x) задана последовательность случайных функций F,(x), п = 1,2,..., такая, что: pfi(F,f;)—при Л-+00.

Будем решать уравнение (18) методом регуляризации по Тихонову. Суть метода состоит в том, что по последовательности F„(.t) строится последовательность функций /„(л), минимизирующая функционал

R(f.F,) = r>l2(Af,FJiuMf)< <19>

где П(/) - стабилизирующий функционал, а константы регуляризации ап-*0 при и->оо. Для стабилизирующего функционала П(/), удовлетворяющего следующим трем условиям:

1) точное решение ^ уравнения (18) принадлежит о(й(/)) - области определения стабилизирующего функционала П(/),

2) функционал С1(/) принимает на £>(о(/)) только вещественные неотрицательн значения,

3) все множества Ме = {/:П(/)£С}, С £ О являются компактами в метрике р£2(/,,/2),

существуют следующие теоремы (см. [2]).

Теорема /. Гели для каждого п выбирается положительное а„, такое, что а„ -* 0 при п <х>, то для любых положительных р и V найдется такой номер N-N(1^), что при всех п>Ы элементы /„, минимизирующие функционал (19), удовлетворяют неравенству:

ф,,(/„./„)> у} * Р{Л,(^Л) >//«,}, где Ых) - точное решение операторного уравнения (18) с правой частью Р.

Теорема 2. Пусть Е1 - гильбертово пространство, П(/) = |/|' и выполнены остальные условия теоремы 1. Тогда для любого е > О найдется такой номер №-М(е), что при п>Же):

/^л -/.г >4 >!«,}.

Итак, эти две теоремы при правильном выборе параметров настройки позволяют решить задачу (17) методом регуляризации по Тихонову. ' „

В §2 производится построение новой оценки. Пусть искомая плотность распределения , ¡»(х) е/,2 (-00,00). Будем искать р(х) как решение уравнения (16). В сачестве стабилизирующего функционала возьмем:

п(/И1*(дг~,)/('Н1 • (20)-

где я(х -/) - интегрируемая на всей числовой оси функция. Пусть

X

Согласно методу регуляризации, решение (16) может быть найдено путем минимизации в Ьг функционала (19), который в нашем случае имеет вид:

+ а.ГГ*(*-0/(0<л| • (21)

~> «¿, I» В;,

Доказана теорема о представлении оценки плотности вероятности, полученой методом стохастической регуляризации.

Теорема 3. Функция, на которой функционал (21) достигает минимума, представима в виде:

/<*) = 7*..(*-')/.(0А, (22)

где Аа (х - /) - обратное преобразование Фурье функции:

1

(23)

1 + а,У &(")£(-")'

а ¿(м) - ггреобразование Фурье функции g(t).

В ¿3 произведено построение оценки для я(1)«5(0. Для построения новой оценки предлагается строить специальный непрерывный полигон. Пусть имеется выборка X - {л,,дсг,...,дгг}. Рассмотрим следующую непрерывггую функцию-полигон: 1 > по точкам выборки построим новую сетку 5£"*{гоД1,...,г„}, где:1

г о

^-,1 = 1.....п-1,

2

2) значения функции в узлах сетки определим так:

п

>.<*,) = 0;

3) по полученным точкам построим кусочно-линейную непрерывную функцшо-полигон /•»(*):

= 4 + -г.). (24»

' Вообще говоря, го и г„ мо1у г быть выбраны иначе, например, г<> -■2х|-7.|, а г,1,-2х„-'п1, достаточно только выполнения условий: ;.,)< | и г, 1< гп.

Поскольку для рассматриваемого непрерывного полигона F.(x) и для эмпирической функции распределения Гп(х), которая определяется формулой:

0, *<*,.

F„(x) = j-, х, <i <xltl ,fc-l,2.....n-l,

n

1, *>*„.

справедливо неравенство:

sup|f(x) - F.(x)| <; sup)F(jr) - F,{x>\ ,

то справедлив следующий аналог теоремы Глнвенко-Кантелли о сходимости эмпирической функции распределения к истинной функции распределения.

Теорема 4. Пусть F.(x) - функция, заданная формулой (24), F(x) -функция распределения случайной величины Е,. Тогда при п-+ оо справедливо ^

pjsupjF(x) - F. (х)| -^г-» о| = 1.

Пусть искомая плотность распределения p(x)eL}(-Будем искать р(х) как решение уравнения (16) с функцией F*(x) в правой части. Согласно методу регуляризации, решение (16) может быть найдено путем минимизации в L2 функционала (19), который п нашем случае имеет вид:

где оператор А, согласно (17), задается следующей формулой: A(f(x\) = JfHz-x)f(x)dx.

Лемма. Минимум функционала Rn,„ достигается на решении уравнения:

A'Af{x)-A"F,(x) + aJ (*)*0, (25)

где А - линейный оператор, а1л* - оператор, сопряженный к А.

Доказательство леммы проведено с помощью нахождения производной Фреше функционала /?„„(/) по функции fix). Если в явном пиле вьчтиспть оператор А, го урапнение (25) примет вид:

/ 0<м - ]0(и - т)/(т)Л - Г, (х)|/и + а „/(х) = О (26)

Справедлива следующая теорема.

Теорема 5. Решением уравнения (26) является функция:

-Ь1

2 п

"isigt^x - z,е

1 -Ц^1 1

--е sigfi(x-z„)--е sign(x - z„) + (27)

"Vi • ;

+2ZT——t(0(-V, - *)-0(г, -x))

1 > 1

где Д, =-

Доказательство теоремы может быть проведено как прямым вычислением с использованием теоремы 3, так и применением к уравнению (26) преобразования Фурье в смысле обобщенных функций.

В $4 проведено исследование сходимости полученной оценки. Оценка (27) может быть получена как оценка вида /<х) - Т (х - «)/„(/)Л.

Если рассматривать йО^бО), тогда стабилизирующий функционал (20) примет вид:

iK/) = |jÄ(*-/)7</Vft| =1/001;,.

Тогда ¿К* -/) = Ф{6(х-/)), а, следовательно, ядро Л'u (i) в оценке (22) имеет вид:

♦« е'" 1 -У-

Если Функция /.,(*) дает представление полшона (24) в вице:

j

•(<> тогда опенка (27) может быть представлена в виде:

1 .„ -М

/(.X) = f К„ (X -i)f„(t)dt = —i е JJDJl ■ (28>

" 27«

Для оценок такого вида сходимость к искомой плотности в метрике ¿2 следует из теоремы 2 (см. |2]). В работе Надирая |3| было показано, что для оценки неизвестной плотности, представимоп в виде:

тЛХк{пг)шл' (29)

где К(х) - некоторая Плотность распределения, А->0, при л-><», справедлива следующая теорема.

Теорема 6. Пусть К(х) - функция с ограниченным изменением,

°° 2

плотность распределения f(x) равномерно непрерывна и ряд

»»I

сходится при любом а>0. Тогда при /»->«> с вероятностью единица У,= sup |/„W-/W|-+0

-ССКК®

В нашем случае'для оценки (28) эта теорема дает сходимость в метрике Таким образом, при выполнении соответствующих

условий рассматриваемые оценки сходятся в L2 и Cj^^.

В $5 производится сравнение новой оценки и некоторых наиболее часто используемых оценок функции плотности вероятности. При использовании метода стохастической регуляризации, если в правой части уравнения (16) использовать эмпирическую функцию распределения, то в результате получается оценка

/>(*) = ¿т-17=/^. (30)

2/JVa

представляющая собой парзеновскую оценку с экспоненциальным ядром.

Сравнительный анализ оценки (27) и оценки (30) показал, что оценка (27), построенная на основе непрерывного полигона (24) для выборок из любых распределений, имеет ряд преимуществ по сравнению с оценкой (30). В частности, оценка (27) дает заметно лучшее приближение в случае, когда в восстанавливаемой плотности вероятности имеются "узкие" пики или "тяжелые хвосты".' Экспериментальное сравнение проводилось на выборках из нормального распределения, гамма распределения и распределения Коши. Преимущество новой оценки проявляется в большей степени

при малых объемах случайной выборки. Чем меньше объем выборки, тем большее преимущество даег новая оценка (27).

Многие авторы отмечают, что даже самые незначительные изменения ширины колокола Ь могут "драматически" изменить парзеновскую оценку. В случае же предложенной в работе оценки (27), отклонение значения параметра регуляризации а„ от оптимального даже на порядок не приводит к таким драматическим изменениям, причем это справедливо и при очень малых объемах заданной выборки.

Проведено сравнение оценки (27) с парзеновской оценкой с ядром Епанечникова, которая имеет вид:

^ИЛ |Ф'(Где <31>

N>1 ^

При условии, что истинная плотность вероятности разлагается в ряд Тейлора в любой точке числовой оси, данная оценка является парзеновской оценкой с оптимальной в некотором смысле формой

ядра к{Х^ ^ • Сравнительный анализ двух оценок показал, что новая

оценка действительно имеет преимущества. В частности, оценка (27)

гораздо устойчивее к изменениям параметра аг„, а также дает более

качественное приближение при малых объемах выборки.

Преимущество новой оценки особенно заметно, когда

восстанавливаемая плотность вероятности не является унимодальной.

Произведено сравнение оценки (27) с одной из наиболее часто

применимых парзеновских оценок - оценкой с гауссовым ядром:

.1

1 Xя— X ~ 2

цх) = ' ' 1 , где = . (32)

ч2л пЯа " Vа

Оценка (27) демонстрирует те же самые преимущества относительно

парзеновской оценки с гауссовым ядром, что и по отношению к двум

другим рассматриваемым оценкам.

Детальный анализ всех четырех оценок показывает, что новая

оценка (27) для выборок малого и очень малого объема дасг заметное

улучшение относительно существующих. Этими преимуществами

являются устойчивость оценки относительно ее параметров, а также

возможность более успешного ее применения к выборкам малого

объема (порядка 20-40 элементов).

■ В заключении диссертации сформулированы основные выводы

полученные в работе. Основные результаты и_выводы настоящей

работы:

1. Проведено исследование кусочно-постоянной оценки функции плотности вероятности гистограммного типа. Исследованы и определены условия сходимости алгоритма в равномерной метрике С(а,Ь).

2. На примере кусочно-постоянной оценки произведено исследование проблемы выбора оптимальных параметров при восстановлении функции плотности вероятности. Установлено, что оптимальные параметры зависят не столько от формы восстанавливаемой функции, сколько от ее "ширины". Предложено два способа выбора оптимальных параметров при восстановлении плотности вероятности. Первый способ пригоден в ситуации, когда априори известна некоторая информация о восстанавливаемом распределении (например, известно, что искомая функция принадлежит к классу распределений Коши). На практике обычно встречается ситуация, когда нет априорной информации о восстанавливаемой функции плотности вероятности, и второй способ определения параметров алгоритма рассматривает именно этот случай.

3. Предложенный метод выбора параметров настройки был реализован программно. В результате получился полностью автоматизированный алгоритм восстановления функции плотности вероятности.

4. Рассмотрен алгоритм обнаружения разладки случайного процесса, который бы позволял lio заданной реализации автоматически определять момент разлплки. Настройка параметров алгоритма производилась согласно1 предложенному в работе методу усреднения по Блйесу. Кт^оме того, предложен и экспериментально проверен метод определения доверительного интервала, в котором должен содержаться мом«нг разладки. В результате проведенной работы был создан готовмй к применению программный продукт , для персонального компьютера.

5. Исследован метод стохастической регуляризации для случая, когда в качестве тточигоиа берется специальным способом

сконструированная функция. В результате получена новая оценка функции плотности вероятности по эмпирическим данным.

6. Сделан сравнительный анализ новой оценки и наиболее часто употребляемых парзеновских оценок (с гауссовым ядром, экспоненциальным ядром и ядром епанечннкова). Предложенная оценка функции плотности вероятности по эмпирическим данным дает заметное преимущество относительно классических парзеновских оценок. Этими преимуществами являются устойчивость оценки относительно ее параметров, а также возможность более успешного ее применения к выборкам малого объема (порядка 20-40 элементов). Чем меньше заданая выборка, тем более заметное улучшение дает новая оценка.'

7. Исследована сходимость новой оценки.

1. Anatoli R. Stefanyuk, Wolfgang Morgenstern. "Analysis methods for population characteristics: heterogeneity detection" Proceedings of the international Conf. "Modelling of Noncommunicable diseases: Methodological Issues" (19-21 Sept. 1994, Heildelberg, Germany) Heilderberg, 1996, pp. 17-27).

2. Вапник B.H., Стефлнюк A.P. Непараметрическне методы восстановления плотности вероятностей. Автоматика и Телемеханика. №8, 1978. Сгр. 38-53.

3. Надарая ЭЛ. О непараметрических оценках плотности вероятностей и рглрессии. Теория вероятностей и се применения, г. 10, вып. 1, стр. 199-203, 1965.

Работы автора по теме диссертации.

1. Белоконь О.В., Дартау Л.А., Карандеев Д.А., Осипенко А.П., Романова Н.Ф. Применение диалоговой системы ИДИФАР для изучения медико-социальных проблем пожилых. Тезисы докладов. Третий национальный конгресс по практической медицине по валеологии. 28-31 мая 1996г. Санкт-Петербург.

2. Карандеев Д.А. Функция отношения правдоподобия и разладка случайного процесса. Деп. в ВИНИТИ 674-В96 (от 04.03.1996).

3. Карандеев Д.А., Стефанюк А.Р. Выбор параметров настройки алгоритма при восстановлении функции плотности вероятности по эмпирическим да иным. Автоматика и Телемеханика. 1996. №10. С. 95-111.

4. Карандеев Д.А., Эйсымонт И.М. Оценка плотности вероятности на основе специального полигона. Материалы международной научно-практической конференции "Управление большими системами". 22г-26 сентября 1997 г. Москва. Россия.

5. Карандеев Д.А., Эйсымонт И.М. Проблема оценивания плотности вероятности по эмпирическим данным. Сборник докладов международной научно-практической конференции "Управление большими системами". Москва. 1998 г. С. 48-57.

Личный вклад соискателя. Все результаты, вынесенные автором на защиту получены самостоятельно. В работах, выполненных в соавторстве, диссертанту принадлежит формализация задачи, а также •оказательства теорем и построение примеров.

г.а. тпр.йп. им.