автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных

кандидата технических наук
Тишковская, Светлана Владимировна
город
Новосибирск
год
2000
специальность ВАК РФ
05.13.16
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных»

Автореферат диссертации по теме "Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных"

РГБ ОД

- 5 ИЮН 2303

На правах рукописи

Тишковскал Светлана Владимировна

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ БАЙЕСОВСКОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ И ОПТИМАЛЬНОГО ГРУППИРОВАНИЯ ДАННЫХ

Специальность 05.13.10 — применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (в области технических паук)

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Новосибирск - 2000

Работа выполнена в Новосибирском государственном техническом уии-вереитеге.

Научный руководитель —

Официальные оппоненты —

доктор технических наук, профессор Цой Е. Б.

доктор технических наук, профессор Котюков В. И.

кандидат технических наук, доцент Русин Г. Л.

Ведущая организация —■ Институт математики

им. С.Л. Соболева СО РАН

Защита диссертации состоится

^ЩАлЗ- 2000 г.

в У'' Ь^часов на заседании диссертационного совета Д 063.34.03 при Новосибирском государственном техническом университете (630092, Новосибирск - 92, проспект К.Маркса, 20).

С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.

Автореферат разослан " " _2000 г.

Ученый секретарь диссертационного совета кандидат технических наук, доцент Чубич В. М.

Общая характеристика работы

Актуальность проблемы. В современной прикладной статистике наблюдается растущий интерес к байесовским методам статистического вывода. Идеи байесовской статистики нашли широкое применение во многих прикладных областях: в инженерном деле, экономике, страховании, медициие и других. Основное отличие байесовской парадигмы состоит в том, что неизвестный параметр вероятностной модели рассматривается как случайная величина, в то время как в, -гак называемом, "классическом" подходе параметр считается фиксированной точкой. Интерпретация параметра модели как случайной величины позволяет исследователю априорно имеющуюся у него информацию о неизвестном параметре выразить в виде его априорного распределения и объединить её при помощи теоремы Вайеса с информацией, заключённой в экперимелтально полученной выборке.

Формирование байесовской статистики как единой теории связано с работами следующих авторов: Н.Лейгеув (1939), А.ШаЫ (1950), L.J.Savage (1954), Н.Ишйа и аБсЫ^ег (1961), О.УХтс11еу (1972), В. сЗе РтеШ (1974/75). Современный байесовский статистический вывод трактуется в терминах теории статистических решающих функций, предложенной и разработанной Вальдом в 1950 г.

В данной работе байесовский подход к оцениванию неизвестного параметра непрерывного вероятностного распределения рассматривается в структуре группированпых данных, когда область определения случайной величины разбита на конечное число непересекающихся интервалов, и известно только количество наблюдений, попавших в каждый интервал. Очевидно, что группированные данные являются более реалистичным описанием состояния природы и статистических наблюдений, чем традиционная выборка, состоящая из индивидуально известных данных. Большое число работ, посвященных статистическим выводам по группированным выборкам, говорит об интересе к группированным данным (ГД) среди специалистов.

При оценивании по ГД естественно возникает вопрос, каким образом выбрать граничные точки интервалов группирования, то есть возникает задача оптимального группирования данных. В "классическом" подходе методы оценивания в структуре ГД и методы оптимального группирования данных разработаны достаточно хорошо. В частности, в "классическом" параметрическом выводе по ГД наибольшее распространение получил метод максимального правдоподобия. Вопросами, связанными с оцениванием методом максимального правдоподобия по ГД, с решением задачи оптимального группирования в рамках этого метода, заиима-

лись J.Buгr¡dge) Б.К.Сох, С.КиМойГ, В.У.ЬтсИеу, С.Н.Яао, О.В.ЛиЫп, С.М.ТаШз, Н.А.Бодин, В.И.Деиисов, Б.Ю.Лемешко, Е.Б.Цой и др.

В байесовском выводе в настоящее время ГД используются не столь активно, как в "классическом" оценивании. В то же время, цензурированные данные очень широко применяются в байесовском подходе, о чем говорит большое число публикаций на эту тему. Очевидно, что байесовский вывод и группированные структуры данных, являющиеся более реалистичным способом представления наблюдений, чем цензурированные, занимают важное место в статистическом анализе данных, что подтверждает актуальность выполненной работы. Недостаточная разработанность методов байесовского оценивания но ГД говорит о необходимости развивать это направление, дающее возможность объединить реалистичность представления данных группированной выборкой, с одной стороны, и преимущества байесовского подхода, с другой.

Исследования диссертационной работы выполнялись в рамках госбюджетной НИР по теме "Байесовский подход к оцениванию характеристик надежности в структуре группированных данных" (г. Новосибирск, 1997, 1998 гг.).

Цель и задачи исследований. Целью исследования диссертационной работы является разработка алгоритмов байесовского оценивания параметров непрерывных распределений в структуре ГД и методов оптимального группирования данных в байесовском оценивании. Для достижения поставленной цели решаются следующие задачи:

- разработка алгоритмов байесовского оценивания в структуре ГД;

- исследование свойств байесовских оценок по ГД;

- разработка и исследование методов оптимального и асимптотически оптимального группирования данных в байесовском оценивании;

- разработка методики и алгоритмов оптимального и асимптотически оптимального группирования данных в байесовском оценивании;

- разработка программного обеспечения задачи оптимального и асимптотически оптимального группирования в байесовском оценивании и байесовского оценивания параметров распределений в структуре ГД;

- применение разработанных алгоритмов и про1раммного обеспечения для решения прикладных задач исследования.

Методы исследования. Для решения поставленных задач используется аппарат теории вероятностей, математической статистики, вычислительной математики, методов оптимизации, статистического моделирования.

Научная новизна. В диссертации разработаны методы байесовского параметрического оценивания в структуре ГД с предварительным оптимальным разбиением на интервалы группирования. Разработан алгоритм построения точечной байесовской оценки параметра по ГД. Исследованы асимптотические свойства байесовских оценок в структуре ГД при увеличении объема выборки и при увеличении числа интервалов группирования. Получена аппроксимация для байесовского риска при больших выборках. Впервые поставлена задача оптимального группирования данных в байесовском оценивании, предложены методы ее решения, сформулированы критерии оптимального и асимптотически оптимального группирования в байесовском оценивании. Разработана методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании на примере модели экспоненциального распределения.

Основные положения, выносимые на защиту.

1. Алгоритм построения точечной байесовской оценки параметра по ГД, позволяющий получать аналитические выражения для байесовских оценок в структуре ГД.

2. Теоремы об асимптотических свойствах апостериорных плотностей и байесовских оценок в структуре ГД при увеличении числа интервалов группирования.

3. Аппроксимация для байесовского риска при больших объемах выборок, позволяющая значительно упростить трудоемкий процесс вычисления байесовского риска при конечном фиксированном объеме выборки.

4. Методы оптимального и асимптотически оптимального группирования данных в байесовском оценивании параметров распределений.

5. Методика оптимального и асимптотически оптимального группироваг ния данных в байесовском оценивании, которая дает возможность за счет проведения оптимального разбиения на интервалы группирования улучшать качество статистических выводов, получаемых по ГД.

6. Программное обеспечение задачи оптимального и асимптотически оптимального группирования данных в байесовском оценивании и байесовского оценивания параметров распределений в структуре ГД, которое может быть использовано в любой прикладной области при решении практических задач, связанных с параметрическим байесовским оцениванием по группированным наблюдениям.

Обоснованность и достоверность полученных результатов обеспечивается применением аналитических методов для исследования свойств

оценок и критериев, доказанными теоремами, подтверждением аналитических выводов и работоспособности алгоритмов результатами статистического моделирования и вычислительных экспериментов.

Практическая ценность и реализация результатов. Предложенная методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании позволяет повысить точность и информативность байесовских оценок но ГД. Разработанные методы, методики, программное обеспечение были апробироваиы при решении прикладных задач анализа надежности видеомопиторов (ОАО "Инфракон", г. Винница, Украина), анализа требований страховых выплат (СК "Ин-корстрах", г. Новосибирск).

Апробация работы. Результаты диссертационной работы докладывались и обсуждались на: 11-ой и IV-ой международных научно-технических конференциях " Актуальные проблемы электронного приборостроения (АПЭП-94, АПЭП-98)" (Новосибирск, 1994,1998); "17th IFIP ТС7 Conference on System Modelling and Optimization" (Прага, Чехия, 1995); "The First Korea - Russia International Symposium on Science and Technology" (Ульсан, Корея, 1997); 3-ем сибирском конгрессе по прикладной и индустриальной математике (ИНПРИМ-98) (Новосибирск, 1998); международной конференции "Prague Stochastics'98" (Прага, Чехия, 1998); научном семинаре кафедры статистики университета г. Падуи, Италия (1999 г.), научных семинарах кафедры прикладной математики Новосибирского государственного технического университета (1998, 2000 гг.).

Публикации. По теме диссертации опубликовано 8 работ общим объемом 65 печатных страниц.

Личный вклад. В опубликованных в соавторстве работах автору принадлежат следующие результаты: в [3] — формулировка и доказательства теорем, алгоритм построения байесовской оценки параметра по ГД; в [4] и [6] — постановка задач оптимального группирования в байесовском оценивании в соответствии с критерием минимума байесовского риска и информационным критерием и оценивания надежности системы с использованием методов оптимального группирования в байесовском оценивании.

Структура и объем работы. Диссертация состоит из введения, пяти глав основного содержания, заключения, списка литературы (76 источников) и приложения. Общий объем — 152 страницы, включая 13 рисунков и 23 таблицы.

Содержание работы

Во введении дана общая характеристика диссертации, приведено краткое содержание работы по главам.

Глава 1 посвящена постановке и обоснованию задач исследования, в

ней приводится обзор работ, посвященных проблеме точечного оценивания неизвестного параметра непрерывного распределения п структуре ГД и задаче оптимального группирования данных при параметрическом оценивании.

Рассматривается задача байесовского точечного оценивания неизвестного параметра в 6 0 функции распределения F$(x) случайной величины

х ex.

Определение 1.2. Байесовской оценкой параметра 0 относительно априорного распределения тг(9) называется оценка, которая минимизирует величину

I l(e,t(y))r(e\y)de„ е

где t(y) - оценка параметра 0, построенная по данным у, 1(9, t(y)} — функция потерь, ъ{9\у) — апостериорная функция плотности, полученная в соответствии с теоремой Вайеса.

Для построения оценки неизвестного параметра в используются группированные структуры данных. Пусть область определения X случайной величины X разбита на к > 2 непересекающихся интервалов В-, —-

к

(at(i_i), £(,)], i — 1 так, что (J Ял = X, и граничные точки интерва-

¡=1

лов группирования удовлетворяют условию: Х(о) = inf(X), х^ — sup(X), Ж(0) < X(i) < • • • < < £(fc). Группированной выборкой называет-

ся совокупность вида (n-i,... £(]),... которая кратко обозна-

чается п = (ni,. ■ -,щ), где п, — число наблюдений, принадлежащих г-му интервалу группирования Л,-; п\ 4 • ■ • 1- гц = N, N — объем выборки. На практике часто рассматривают равноотстоящее группирование, при котором длины конечных интервалов группирования одинаковые: Ах — Xffl — = const, i — 2,..., k — 1.

Следует отметить, что традиционной областью приложения байесовского анализа в структуре цензурированных и ГД является анализ данных типа времени жизни и, в частности, теория надежности.

Обзор работ в области оценивания параметров распределений по ГД в "классическом" и байесовском подходах показывает, что методы параметрического оценивания по ГД для "классического" подхода разработаны достаточно хорошо, в частности, наибольшее распространение получил метод максимального правдоподобия. Байесовское оценивание по ГД менее развито и сопряжено со значительными вычислительными трудностями. Можно выделить следующие основные причины вопникяовения вычислительных трудностей при байесовском параметрическом оценивании по ГД.

1. Байесовское оценивание сопряжено со значительными вычислительными трудностями при работе с любыми структурами данных, в том числе, с традиционной негруппировашгой выборкой.

2. При работе с группированной выборкой появляется необходимость дополнительного интегрирования при вычислении вероятностей по области группирования Я,.

3. В байесовском оценивании широко используются сопряженные семейства распределений, которые характеризуются следующим свойством: если априорное распределение параметра в принадлежит этому семейству, то при любом объеме выборки и любых значениях наблюдений в выборке апостериорное распределение в должно также принадлежать этому семейству. При работе с группированными структурами данных свойство замкнутости сопряженного семейства относительно процесса выбора экспериментальных данных в общем случае нарушается, что усложняет и аналитическое, и численное построение байесовских оценок по ГД.

Группированные данные менее информативны, чем негруппированные. Поэтому, если существует некоторая свобода в выборе граничных точек интервалов группирования х^, то наиболее последовательным представляется следующий подход к выбору точек х^у. выбирать х^ нужно таким образом, чтобы уменьшить потери информации (понимаемой в широком смысле) вследствие группирования. Вопросы, связанные с оптимальным группированием данных в "классическом" статистическом анализе, достаточно хорошо разработаны. Наиболее изучена проблема оптимального группирования при оценивании методом максимального правдоподобия, при этом в качестве критерия оптимального группирования рассматривается критерий минимума асимптотической дисперсии оценки максимального првдоподобия (ОМП).

В главе 2 рассматриваются вопросы, связанные с построением и асимптотическими свойствами байесовских оценок параметров непрерывных распределений в структуре ГД.

Предлагается алгоритм построения байесовских оценок в структуре ГД, который позволяет в ряде случаев обойти проблему нарушения свойства замкнутости сопряженного семейства распределений, возникающую при работе с ГД. В соответствии с алгоритмом апостериорную плотность по ГД можно записать следующим образом:

*9Г(д\п) = £■■■£К^..п{п)щг..Лк(%), где 4=0 ¡3=0

^г-чЩп)

е

о, ■ • • с?д(-1)м-"+<' /

К.-,.,Л») = щ-я:---------------

£ ... £

о ч=о е

(здесь тг(в) — априорная функция плотности параметра 9).

Используя предложенный подход мы можем построить для функции Рд(х) семейство плотностей Тят(в), обладающее свойствами, аналогичными свойствам сопряженного семейства плотностей. То есть, если функция ж{&) принадлежит семейству то при любой выборке п функции

плотности щ,...^(<?!") также будут принадлежать Рвг(9)- При использовании в качестве априорной плотности некоторой функции тг(0) 6 Т']Т{0) предложенная схема позволяет получать аналитический вид байесовских оценок по ГД.

В табл. 1 для ряда распределений приведены примеры байесозских оценок в структуре ГД, полученных в соответствии с предложенной схемой.

Рассматривая асимптотические свойства байесовских оценок в структуре ГД, заметим, что асимптотическое поведение байесовских оценок во ГД можно рассматривать с двух точек зрения: при больших объемах выборок с одной стороны, и при больших значениях числа интервалов группирования к, с другой.

Асимптотические свойства байесовских оценок определяются предельными свойствами апостериорных плотностей. Известно, что апостериорная плотность в структуре ¡¡сгруппированных данных ~(в\х) при больших выборках аппроксимируется плотностью нормального распределения. При выполнении следующих условий, накладываемых на функцию правдоподобия Ь(п\0): 1) Ь(п\в) является ненулевой в пространстве в и имеет непрерывные производные, 2) Ып\&) имеет единственный максимум при оценке максимального правдоподобия по ГД в структуре группиро-

ванных данных имеет место аналогичное свойство: при больших N апостериорная плотность по ГД аппроксимируется плотностью нормального распределения со средиим ^омп и дисперсией

Уаг(&\п)

д2Ъ&Ь(п\в)

Асимптотические свойства апостериорных плотностей и байесовских оценок в структуре ГД при увеличении числа интервалов группирования рассматриваются при (1{а) = шах (л^ — —> 0, аг(1) --5- хщ,

.т^-!) —> х^у Заметим, что при этом к --> оо.

Таблица 1

Байесовские оценки параметра 9 по группированным данным (для квадратичной функции потерь)

Модель___ Байесовская оценка в}г(п)

Экспоненциальное распределение с априорным гамма-ряс-предепеиием: F,(x) = 1 - е-91 (х > 0,б>0), (0 > 0, о > 0, ß > 0) • .....• »¿.-¿-г« к-2 (где ...>*-! (") = £ 1(1)(«1 - «in + «<+t)+ 1=1

Равномерное распределение с априорным распределением Парею: х/в (0 < х < 0, 0 > 0), х(в) = aß*/?*-1 ($ > ß, а > 0, ß > 0) £ ^(-«(tV* !(.=0 (JV-nu-Ht-l+a)^* <Г (n) = ----i- it=0 (N-nk-Hk+a)9\k (где в, = тах{уЗ;га_,)})

Равномерное распределение с иеинформативным априорным распределением: F,{x) = x/6 (0 < х < в, в > 0), ж{в) ос 1/9 ik=0 (ЛГ-пк+«к-1)»**~ J. =-r- ^ фс-оь-«)** 4=0 (W-nfc+ijt)^!-!) (n, + ... + nt_, > 1)

Сформулирована и доказана следующая теорема о равномерной сходимости апостериорных плотностей.

Теорема 2.1. Пусть п(в) — априорная функция плотности неизвестного параметра в; х — ..., Хц) — некоторая фиксированная выборка из распределения случайной величины X € X с плотностью распределения f$(x); тт^(в) — апостериорная функция плотности параметра в, построенная по группированной выборке п, связанной с разбиением а € А, где А — множество всевозможных разбиений области X на к > 2 непересекающихся интервалов; тг"3(в) — апостериорная функция плотности параметра в, построенная по негруппированной выборке х. Пусть выполнены следующие условия: 1) 3М < оо W £ в тг(в) < М; S) ЭК < со Vre € X V0 € © fe(x) < К; 3) функция jg{x) равномерно непрерывна на X X В.

Тогда последовательность {7г®г(0)}а€д равномерно по в € В сходится к функции тг"9(в) при одновременном стремлении d(a) -* 0, х^ц —> Х(о), Цк-1) х{к)-

Теорема 2.1 позволяет исследовать асимптотические свойства байесов-

ских оценок при увеличении числа интервалов группирования к. Пусть — байесовская оценка, построенная по группированной выборке, связанной с разбиением or. Справедлива следующая теорема. Теорема 2.2. В условиях теоремы 2.1 для квадратичной функции потерь, если в — колтактпое множество, то байесовские оценки в структуре ГД сходятся к байесовской оценке впд в структуре негруппи-рованиых данных при одновременном стремлении d(а) -} 0, г^) X(q),

Результат теоремы 2.2 позволяет' определить число интервалов к, при котором будет отличаться от впя на заданную допустимую величину.

В главе 3 рассматривается проблема оптимального и асимптотически оптимального группирования данных в байесовском оценивании. Понятия оптимального и асимптотически оптимального группирования вводятся следующим образом.

Определение 3.1. Группирование называется оптимальным, если граничные точки хг = 1,..., fc — 1, интервалов группирования выбраны так, что

J111®* ( J™? )ф(Уь-,2Аь-1),

v ' 1 ' vi<—<Vk-i \т<~<уь-1 /

где - некоторый функционал, соответствующий выбранно-

му критерию оптимальности.

Определение 3.2. Группирование называется асимптотически оптимальным, если граничные точки xß', i — 1,..., к — 1, интервалов группирования выбраны так, что

= ( „min )<iAs(m,-,yk-i),

1' ' yi<-.<»t-l \Vl< -<Vk-lJ

где .j/fc—i) - величина, аппроксимирующая при N —> oo функци-

онал Ф(?/1,..., Pk-i), который определяется выбранным критерием оптимальности.

Предлагаются два критерия оптимального группирования данных в байесовском оценивании: критерий минимума байесовского риска и информационный критерий.

Байесовским риском называется величина

где 1(в, t) — функция потерь, в(у) — байесовская оцепка, построенная по статистическим данным у. Байесовский риск равен средним потерям при

использовании байесовской оценки в (у) вместо истинного значения параметра в. Выбирал и качестве граничных точек х'^ точки, минимизирующие байесовский риск по ГД ¡}*уг, мы минимизируем эти потери. Задача оптимального группирования в соответствии с критерием минимума байесовского риска сводятся к решению оптимизационной задачи вида:

Заметим, что вычисление значения р*т при конечном фиксированном объеме выборки N требует выполнения большого объёма вычислений. Получена аппроксимация для байесовского риска в структуре негруппиро-вапных и группированных данных, а именно, показано, что при выполнении следующих условий:

(В1) модель {/0(3-), О б 6} (или р,{9), i— 1,..., к) удовлетворяет стандартным условиям регулярности;

(В2) для параметра 0 существует и единственна ОМП #омп;

(ВЗ) существует априорное математическое ожидание величины г'1 (в), где гс(0) — информация Фишера для одного наблюдения;

при больших значениях N байесовский риск р*а аппроксимируется величиной

которую будем называть асимптотическим байесовским риском (здесь а — пд или дг). Тогда асимптотически оптимальным группированием, соответствующим критерию минимума байесовского риска, будет группирование, при котором в качестве граничных точек интервалов берутся точки, являющиеся решением задачи вида:

Р'зг -- Pjr{x(i)> ■■ Hk-1)) ~> min -

Информационный критерий базируется на информационном подходе к статистическим данным. В работе используется идея о приросте (увеличении) среднего количества информации в результате проведения эксперимента, предложенная D.V.Lindley (1956). В качестве меры информации, содержащейся в плотности р(в), принимается информация Шеннона: I (р(б)} = J р(0) log р(0)сЮ. Введем в рассмотрение следующие величины: в

I {т(0)} — информация о параметре в, которой мы располагаем априорно; 1{п(в\Па)} — информация о параметре в, которой мы располагаем после проведения эксперимента (Da при а — пд или дг обозначает соответственно негруппированиую или группированную выборку); Е[><1[1{тг(в\011)}\ —

среднее количество информации о параметре 9 после проведения эксперимента; /„ = Ei}J[l{n(e\D,^Y\ — /{тт(#)} — прирост (увеличение) среднего количества информации о неизвестном параметре 9 в результате проведения эксперимента. Чтобы количественно оценить потери информации вследствие группирования в работе рассматривается величинах = 1,lg—Igr> которая равна потерям информации при использовании ГД вместо негруп-пированных. В соответствии с информационным критерием оптимального группирования в качестве оптимальных граничных точек х^ следует выбирать точки, минимизирующие информационные потери. Задача оптимального группирования сводится к решению оптимизационной задачи вида:

2(х(1), ...,a;(Jt_i))-> min

*(»<-<*<»-i)

При больших значениях N для аппроксимации потерь информации X используется величина асимптотических информационных потерь XAs — — Ig* (где /д1' — аппроксимация для 1а), имеющая место при выполнении следующих условий:

(11) модель {fe(x),0 € в} (или р;(0), г = 1,..., к) регулярна;

(12) для параметра в существует и единственна ОМП &омп;

(13) существует априорное математическое ожидание величины logta(ö).

В качестве асимптотически оптимальных граничных точек интервалов группирования берутся точки, являющиеся решением задачи вида:

ХАг = ХА'(х(1),z(t_u) min .

Глава 4 посвящена вопросам оптимального и асимптотически оптимального группирования данных в байесовском оценивании. Подробно исследовала модель экспоненциального распределения с априорной гамма -плотностью у(а, 0).

При решении задачи оптимального группирования для рассматриваемой модели получены аналитические выражения для функционалов байесовского риска:

• ^ ЛИ C.nt •••>*(*-!))

ni+-+ru=iV

где 1п,...щ(Ь;хт, —, ar<fe_j)> =

/

к-1

(1 _ e-^oi)"1 J] - е-91«)"'

t=2

и информационных потерь:

1-Е - Si - S2(z(i),..., + S3(ar(1), ...,x(k_í}), где

£ = log a+ (N + P) [log r(iV + /?)j' - [log Г(/?)]' - log Г( JV + p) - N - 0, S, = logo -+(/}- 1) [logr(/?)l' - logГ(0) - (i, ■sr^ aP N1

(пь-.'ч)" «t>0,¿ -У,...,к; «i-h--!-iik-N 00 i

* 1 ЛГ!

o

bg—¡-: +

t-1

+ nilog(l - é'9x^) + £n¡ log - e"filw) - х{к„Г}пкв i=2

■••, I(i-l)) = £ An,...«» log •/з1п1...п»,

a" iV!

dd,

Г(0) щ!...в*!

ОО

X [ (1-е-9*«)"1 ]][ (е-^с-') - е-"*«)"'

(отдельно выписаны выражения для р*г и I для случал равноотстоящих групповых пределов), Проведенные численные исследования поведения функционалов байесовского риска в структуре ГД и информационных потерь позволяют сделать вывод о их монотонной зависимости от объема выборки N и числа интервалов группирования к и о существовании минимума по переменным (рис. 1).

В результате решения соответствующих оптимизационных задач для рассматриваемой модели в работе построены таблицы оптимального группирования (например, табл. 2) для критерия минимума байесовского риска и информационно!« критерия, отдельно для случая равноотстоящего и неравноотстоящего групирования. Содержащиеся в таблицах значения оптимальных граничных точек интервалов группирования (или оптимальных длин интервалов в случае равноотстоящего группирования) являются функциями параметров N, к, (3 и инвариантны относительно параметра масштаба гамма - распределения а. Приведенные в таблицах значения величин г = р'пд/р*дг (ддя критерия минимума байесовского риска) и

Рис. 1. Зависимость байесовского риска от граничных точек интервалов группирования г^), Хц), неравноотстоящее группирование: А' -= 10, Аг — 3, а-1,13=1

И — (1Пд — 1дг)/1пд (для информационного критерия) позволяют оценить эффективность оптимального группирования. Заметим, что по значениям величин И ■ 100% можно оценить, сколько процентов информации мы теряем, используя ГД вместо л «группированных.

Таблица 2

Оптимальные граничные точки интервалов группирования, соответствующие критерию минимума байесовского риска, и значения относительной г-эффектнвности г = р*../р*11Г. Объём выборки N -- 70

к л; 0=0.5 /3 = 1 уЗ = 1.5 ¿¿ = 2 /? = 3 /3 = 4

3 щ 0.395802 0.333134 0.285069 0~250143 0.201415 0.169019

щ 1.447614 1.130174 0.928451 0.786707 0.605191 0.492359

г 0.706741 0.731491 0.743748 0.761569 0.779657 0.792085

4 Ч 0.294026 0.244987 0.216332 0.208187 0.166434 0.149820

А; 0.839289 0.673035 0.592147 0.510233 0.402134 0.337117

л; 2.274337 1.661651 1.375247 1.156804 0.876132 0 695300

г 0.808010 0.825926 0.830142 0.837351 0.859138 0.865427

При решении задачи асимптотически оптимального группирования для рассматриваемой модели получены аналитические выражения для функционалов асимптотического байесовского риска по ГД р^' и асимптотических информационных потерь Хл> (отдельно рассмотрен случай равноотстоящих групповых пределов). Для рассматриваемой модели байесовский риск в структуре ГД р*дг может быть аппроксимирован с помощью асимптотического байесовского риска тогда и только тогда, когда 0 < х^) < а.

Выражения для функционалов, аппроксимирующих байесовский риск по негруппиропаппым и ГД, соответственно, имеют вид:

^ _ 0(1 + Р) N

' Рп!) N

Рдг N Г(/3) /

где Х(о) = 0, 1(1) < а. Заметим, что численные исследования функционалов р*г(а:(1),...,Х(к-1)) и р*г(Дх) показали, что их точки минимума {х'^у ... ,2^-1)) и удовлетворяют соответственно условию х*^ < а и Дж* < а при любых а, ¡5, N и А, то есть аппроксимацию байесовского риска р'дт выражением рр можно использовать для аппроксимации решения задачи оптимального группирования при больших значениях N. Показано, что функционал ХЛз, аппроксимирующий информационные потери, для рассматриваемой модели существует при любых значениях а > 0, /3 > 0 и имеет вид:

. ч^дг - ^/ьЛЕ^™!!1

о

где Ж(о) = 0. Доказано, что функционалы р^? и ХАз являются монотонно убывающими относительно числа интервалов группирования к.

В результате решения соответствующих оптимизационных задач для рассматриваемой модели в работе построены таблицы асимптотически оптимального группирования (табл. 3) для критерия минимума байесовского риска и информационного критерия, отдельно для случая равноотстоящего и неравноотстоящего групирования. Содержащиеся в таблицах значения асимптотически оптимальных граничных точек (или асимптотически оптимальных длин в случае равноотстоящего группирования) являются функциями параметров к, /3 и инвариантны относительно параметра а. Приведенные в таблицах значения величин тА* = р£д/р£? (для критерия минимума байесовского риска) и А'4* — е-21"4* (для информационного критерия) позволяют оценить эффективность асимптотически оптимального группирования.

Проведенные численные исследования показывают, что точки х*^ и х^*, г = 1,..., к — 1, достаточно близки уже при N = 100 и к > 3. В целом, можно предложить следующую методику оптимального разбиения на интервалы группирования: при N < 100, 2 < к <5 могут быть использованы оптимальные граничные точки интервалов группирования, при N > 100, к > 5 имеет смысл использовать асимптотически оптимальное разбиение.

Таблица 3

Фрагмент таблицы, содержащей асимптотически оптимальные длины интервалои группирования Д/г^, соответствующие критерию минимума информационных потерь, и значения асимптотической относительной ¿-эффективности А'45 = е~21А'

к /3 = = 1 ß - 1.5 Р-- - 2

AhA> ЛЛ' AhA> А** " Л hXs Лл"

2 1.448294 0.338315 0.989860 0.425146 0.753193 0.474545

3 1.226044 0.472661 0.818726 0.576884 0.613814 0.632947

4 1.099067 0.551013 0.727978 0.659299 0.534373 0.715191

5 1.012878 0.601029 0.655596 0.712242 0.480398 0.766231

6 0.954103 0.642961 0.606740 0.749517 0.441589 0.801225

7 0.898643 0.673113 0.570161 0.777387 0.417606 0 826762

8 0.857406 0.697326 0.538028 0.799120 0.386639 0.846282

9 0.823164 0.717316 0.512431 0.810601 0.366166 0.861863

10 0.793491 0.734170 0.493743 0.830997 0.35072.8 0.874425

В главе 5 описано программное обеспечение байесовского оценивания параметров распределений в структуре группированных данных и задачи оптимального группирования данных в байесовском оценивании, сделан обзор некоторых прикладных областей, в которых для решения практических задач используется байесовский подход.

Дано описание общей структуры и функционального назначения программной системы. Разработанное программное обеспечение предназначено для решения следующих задач.

1. Задача оптимального группирования (равноотстоящего или неравиоот-стоящего) в соответствии с критерием минимума байесовского риска и критерием минимума информационных потерь.

2. Задача асимптотически оптимального группирования (равноотстоящего или неравноогстоящего) в соответствии с критерием минимума байесовского риска и критерием минимума информационных потерь.

3. Вычисление байесовской оценки по группированным данным.

Программное обеспечение имеет.' модульную структуру (рис. 2). В целом, программная система состоит из 9 модулей: модуля BEst вычисления байесовской оценки неизвестного параметра по группированной выборке и модулей RUI, RNl, IUI, INI и RU2, RN2, IU2, IN2, решающих, соответственно, задачу оптимального и асимптотически оптимального группирования данных в байесовском оценивании и предоставляющих соответствующее разбиение на интервалы группирования. Приведено описание отдельных модулей программы и их функционального назначения.

Рис. 2. Схема комплекса программ оптимального группирования в байесовском оценивании

Описана структура программного обеспечения для модели экспоненциального распределения с априорной гамма - плотностью.

Программное обеспечение выполнено па языке С, обмен информацией между модулями осуществляется через файлы.

С использованием методов и программ оптимального группирования данных в байесовском оценивании решено несколько прикладных задач.

1. Апализ требований страховых выплат. Рассматривается задача оценивания вероятности того, что суммарные выплаты по страховым событиям за определенный промежуток времени не превысят средних суммарных взносов клиентов в страховую компанию. Задача сводится к оцениванию параметров иптенсивностей потока клиентов, приходящих в страховую фирму для заключения договора, и потока требований страховых выплат. С использованием разработанного программного обеспечения решена задача асимптотически оптимального группирования данных с числом интервалов группирования к = б в соответствии с критерием минимума байесовского риска и критерием минимума информационных потерь, данные о рассматриваемых потоках были асимптотически оптимально сгруппированны и использованы для построения байесовских оценок. Использование методики асимптотически оптимального группирования позволило уменьшить потери в эффективности оценивания вследствие группирования (относительно процедуры оценивания по негруппирован-ным данным) до 8 - 10 %.

2. Исследование надежности видеомониторов по группированным наблюдениям. Рассматривается задача оценивания функции надежности мониторов по группированным наблюдениям, полученным в результате испытаний. С помощью методов оптимального и асимптотически оптимального группирования в байесовском оценивании и разработанного программного обеспечения оптимальпым образом организована схема наблюдения за испытываемыми объектами для двух вариантов испытаний: с числом испытываемых объектов N — 30 н N — 200. В первом случае использовалось оптимальное разбиение, во втором — асимптотически оптимальное. Группированные экспериментальные данные об отказах используются для построения байесовских оценок параметра функции надежности испытываемой модели видеомониторов. Оценки, построенные с использованием критерия минимума байесовского риска, соответствуют минимальным средним потерям из-за использования оценки вместо истинного значения параметра с коэффициентами эффективности 0.7102 < г < 0.8871 (¿V = 30) и 0.7431 < г4' < 0.9629 (/V = 200). Оценки, построенные с использованием информационного критерия, соответствуют минимальным потерям информации, причем потери информа-

ции вследствие группировании при оптимальном группировании составили 8.9 - 18.4%, при асимптотически оптимальном группировании коэффициент асимптотической эффективности 0.6829 < Л'и < 0.9418.

Разработанное программное обеспечение может быть использовано при статистическом анализе надежности, а эконометрике, медицине, биологии, страховании, при анализе данных типа времени жизни, в любой прикладной области при параметрическом байесовском оценивании по группированным наблюдениям

В заключении сформулированы основные результаты, полученные в диссертационной работе.

В приложении содержатся акты о внедрении результатов исследований.

Заключение

Диссертационная работа посвящена разработке и исследованию методов байесовского оценивания параметров в структуре ГД. В диссертации впервые поставлена задача оптимального и асимптотически оптимального группирования данных в байесовском оценивании, предложены критерии оптимального группирования в байесовском оценивании. Основные результаты, полученные в диссертационной работе, могут быть сформулированы в виде следующих положений.

1. Разработаны алгоритм построения байесовских оценок в структуре ГД и метод построения семейства распределений со свойством, аналогичным свойству сопряженных распределений в байесовском анализе по негруппарованным данным, позволяющие получать аналитические выражения для байесовских оценок в структуре ГД.

2. Исследованы асимптотические свойства апостериорных плотностей в структуре ГД при увеличении объема выборки и при увеличении числа интервалов группирования.

3. Исследованы асимптотические свойства байесовских оценок в структуре ГД при увеличении числа интервалов группирования (при квадратичной функции потерь). Доказана теорема о том, что байесовская оценка по на-рушшрованным данным является предельным случаем байесовских оценок в структуре ГД, когда число интервалов группирования стремится к бесконечности.

4. Предложены и исследованы критерии оптимального и асимптотически оптимального группирования данных-в байесовском оценивании: критерий минимума байесовского риска, соответствующий минимуму общих ожидаемых потерь вследствие принятия байесовского решения по

группированной выборке, и информационный критерий, соответствующий минимуму информационных потерь вследствие группирования.

5. Получена аппроксимация для байесовского риска при больших выбо[)-ках, позволяющая значительно сократить объем вычислительных затрат, требуемых для вычисления байесовского риска. Сформулированы условия ее существования.

6. Разработана методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании на примере модели экспоненциального распределения. Применение методики дает возможность за счет проведения оптимального разбиения па интервалы группирования улучшать качество статистических выводов, позволяет повысить точность и информативность байесовских оценок по группированным данным.

7. Разработано программное обеспечение байесовского оценивания параметров распределений в структуре группированных данных и задачи оптимального и асимптотически оптимального группирования данных в байесовском оценивании. С помощью разработанного комплекса программ решены прикладные задачи анализа надежности видеомониторов, анализа требований страховых выплат.

Список публикаций

1. Трубченинова (Тишковская) C.B. Построение байесовских оценок параметров непрерывных распределений в условиях группированных дан-ных//Труды второй международной НТК "Актуальные проблемы электронного приборостроения" (АПЭП-94). — Новосибирск: НГТУ, 1994. — Том 4. — С. 34-38.

2. Тишковская C.B. О сходимости байесовских оценок параметров непрерывных распределений в структуре группированных данных// Сборник научных трудов. Под ред. К.П.Кадомской, А.А.Воеводы. — Новосибирск: НГТУ, 1995. Выпуск 1. — С. 45-51.

3. Tsoi Ye.B., Tishkovskaya S.V. Simulation and optimization of complex systems reliability characteristics in grouped data structure//Proceedings of the 17th IFIP TC7 Conference on System Modelling and Optimization, Prague, 1995, —• Chapman & Hall, London. — P. 355-362.

4. Denisov V.I.,Lemeshko B.Yu., Tsoi Ye.B., Tishkovskaya S.V., Postovalov S.N. Software for statistical analysis of grouped data// Proceedings of the 1st Korea - Russia International Symposium on Science and Technology. Korea, University of Ulsan. — 1997. — P. 239-243.

5. Байесовский подход к оцениванию характеристик надежности и структуре группированных данных. Отчет по НИР/ НГТУ, 1998. №гос. регистрации 01.9.80.001712. Цой Б.Б., Тишковская С.В. — 35 с.

6. Тишковская С.В., Разваляева В.Ю., Прохорович Н.А. Задача оптимального группирования в байесовском оценивании надежности системы/ Тезисы докладов Третьего Сибирского Конгресса по Прикладной и Индустриальной Математике (ИНПРИМ-98). — Новосибирск, 1998. — Ч.З.

— С. 77.

7. Tishkovskaya S.V. Information approach in the Bayesian estimation in the grouped data structure/ Prague Stochastics'98. Collection of abstracts, — Prague, 1998. — P. 89.

8. Тишковская С.В. Анализ качества байесовского оценивания параметра экспоненциального распределения по цензурированным данным// Труды IV международной НТК "Актуальные проблемы электронного приборостроения" (АПЭП-98). — Новосибирск: НГТУ, 1998. — Том 3.

— С. 80-82.

Подписано в печать 6 • ОЧ.го(чЛщ->\т Я4хГ>0х1/!6

Бумага офсетная. Тираж 100 жк Печ.л. ' ,_Заказа 295

Огнечатан» в тшкнрафгш I ¡опоспбпрскош государственного технического ушшерен го а 630092, г. Новосибирск, Н|>.1С.Маркса,20

Оглавление автор диссертации — кандидата технических наук Тишковская, Светлана Владимировна

Введение

1. Постановка и обоснование задач исследования

1.1. Используемые структуры данных.

1.2. Байесовский подход к оцениванию параметров распределений

1.2.1. Байесовский вывод в структуре частично группированных данных.

1.2.2. Выбор априорной функции плотности.

1.2.3. Выбор функции потерь.

1.3. Применение байесовского оценивания в структуре группированных данных в теории надежности

1.4. Оценивание параметров распределений и группированные структуры данных

1.5. Способы группирования данных.

1.6. Выводы

2. Байесовское оценивание параметров распределений в структуре группированных данных

2.1. Построение байесовских оценок в структуре группированных данных.

2.1.1. Алгоритм построения байесовских оценок в структуре группированных данных.

2.1.2. Модель экспоненциального распределения с априорным гамма-распределением.

2.1.3. Модель равномерного распределения с априорным распределением Парето.

2.1.4. Модель равномерного распределения с неинформативным априорным распределением

2.2. Асимптотические свойства байесовских оценок в структуре группированных данных.

2.2.1. Поведение байесовских оценок в структуре группированных данных при больших выборках.

2.2.2. Поведение байесовских оценок в структуре группированных данных при увеличении числа интервалов группирования.

2.3. Выводы.

3. Оптимальное группирование данных в байесовском оценивании

3.1. Оптимальное группирование, соответствующее минимуму байесовского риска.

3.1.1. Критерий минимума байесовского риска.

3.1.2. Аппроксимация байесовского риска при больших выборках.

3.2. Оптимальное группирование, минимизирующее информационные потери.

3.2.1. Информационный критерий.

3.2.2. Аппроксимация информационного функционала при больших выборках.

3.3. Выводы.

4. Оптимальное группирование данных для модели экспоненциального распределения

4.1. Группирование в соответствии с критерием минимума байесовского риска.

4.1.1. Оптимальное группирование.

4.1.1.1. Численное исследование поведения байесовского риска в структуре группированных данных.

4.1.1.2. Оптимальное группирование в случае неравноотстоящих групповых пределов

4.1.1.3. Оптимальное группирование в случае равноотстоящих групповых пределов.

4.1.2. Асимптотически оптимальное группирование

4.1.2.1. Аппроксимация байесовского риска для модели экспоненциального распределения

4.1.2.2. Решение задачи асимптотически оптимального группирования.

4.2. Группирование в соответствии с критерием минимума информационных потерь.

4.2.1. Оптимальное группирование.

4.2.1.1. Численное исследование поведения информационного функционала в структуре группированных данных.

4.2.1.2. Оптимальное группирование в случае неравноотстоящих групповых пределов

4.2.1.3. Оптимальное группирование в случае равноотстоящих групповых пределов.

4.2.2. Асимптотически оптимальное группирование

4.2.2.1. Аппроксимация информационных потерь для модели экспоненциального распределения

4.2.2.2. Решение задачи асимптотически оптимального группирования.

4.3. Выводы.

5. Программное обеспечение задачи оптимального группирования данных в байесовском оценивании и решение прикладных задач с использованием байесовского подхода 113 5.1. Программное обеспечение байесовского оценивания параметров распределений в структуре группированных данных и задачи оптимального и асимптотически оптимального группирования данных в байесовском оценивании

5.1.1. Описание общей структуры и функционального назначения программной системы.

5.1.2. Описание отдельных модулей программы и их функционального назначения.

5.1.3. Программное обеспечение для модели экспоненциального распределения.

5.2. Применение байесовского подхода и методов и программ оптимального группирования данных в байесовском оценивании при решении прикладных задач.

5.2.1. Анализ требований страховых выплат.

5.2.2. Исследование надежности видеомониторов по группированным наблюдениям.

5.3. Выводы.

Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Тишковская, Светлана Владимировна

Актуальность темы исследований. В современной прикладной статистике наблюдается растущий интерес к байесовским методам статистического вывода [1-3]. Идеи байесовской статистики нашли широкое применение во многих прикладных областях: в инженерном деле, экономике, страховании, медицине и других [2,4,3]. Основное отличие байесовской парадигмы состоит в том, что неизвестный параметр вероятностной модели рассматривается как случайная величина, в то время как в, так называемом, "классическом" подходе параметр считается фиксированной точкой. Интерпретация параметра модели как случайной величины позволяет исследователю априорно имеющуюся у него информацию о неизвестном параметре выразить в виде его априорного распределения и объединить её при помощи теоремы Байеса с информацией, заключённой в экпериментально полученной выборке.

Формирование байесовской статистики как единой теории связано с работами Джеффриса, Вальда, Сэвиджа, Райффы и Шлейфера, Линд-ли, де Финетти [5-10]. Современный байесовский статистический вывод трактуется в терминах теории статистических решающих функций, предложенной и разработанной Вальдом [6]. В соответствии с этой теорией байесовским решением сР будет решение, минимизирующее ожидаемые потери где Р(в\у) — апостериорное распределение неизвестного параметра 9, полученное по теореме Байеса; у — элемент выборочного пространства 6 & О; с1 : У —У Б — решающая функция, отображающая выборочное пространство У в пространство решений Б; (в случае решения задачи оценивания параметра 9 пространство решений В совпадает с параметрическим пространством ©); 1(9, (Г) —функция, описывающая потери вследствие принятия решения б?.

Идеология байесовского подхода позволяет ему решать такие трудные для "классического" вывода проблемы, как проблема малой выборки. В байесовском выводе апостериорное распределение является точной функцией выборки конечного объёма, поэтому исследователю нет необходимости полагаться на выводы асимптотической теории. Использование же оценок, полученных в рамках "классического" подхода, оправдано, как правило, именно их асимптотическими свойствами. Другим в преимуществом байесовского вывода является то, что он предоставляет более удобный и гибкий формальный аппарат для учета априорной информации, чем в "классическом" подходе.

В данной работе байесовский подход к оцениванию неизвестного параметра непрерывного вероятностного распределения рассматривается в структуре группированных данных, когда область определения случайной величины разбита на конечное число непересекающихся интервалов, и известно только количество наблюдений, попавших в каждый интервал. Очевидно, что группированные данные являются более реалистичным описанием состояния природы и статистических наблюдений, чем традиционная выборка, состоящая из индивидуально известных данных. Как отмечается в [11], в фундаментальном смысле все непрерывные переменные в конечном счете округляются или огрубляются, то есть группируются. Большое число работ, посвященных статистическим выводам по группированным выборкам, говорит об интересе к группированным данным среди специалистов (достаточно подробная библиография работ в этой области дана, например, в [11]).

Классическое" оценивание в структуре группированных данных разработано достаточно хорошо. В частности, в рамках "классического" подхода к оцениванию параметров по группированным данным наибольшее распространение получил метод максимального правдоподобия. Основные результаты, полученные в этой области, отражают работы [12-16].

В байесовском выводе в настоящее время группированные данные используются не столь активно, как в "классическом" оценивании. Причина этого заключается, по-видимому, в вычислительных трудностях, с которыми сталкивается исследователь при использовании группированных данных в байесовском оценивании. Так, например, в [11] высказывается мнение,что быстрому развитию байесовского анализа по группированным данным препятствует отсутствие достаточно эффективного и надежного соответствующего программного обеспечения. Действительно, общеизвестно, что байесовские методы в большинстве случаев требуют значительных вычислительных затрат, связанных с численным вычислением интегралов (зачастую высокой размерности). Решение этой проблемы сводится к разработке соответствующего программного обеспечения и в значительной мере облегчается развитием вычислительной техники (современная вычислительная техника позволяет байесовским статистикам решать многие задачи, которые ранее были недоступны).

Использование группированных данных, очевидно, создает дополнительные вычислительные трудности, одной из причин которых является нарушение свойства замкнутости сопряженных семейств распределений. Понятие сопряженного семейства распределений было введено Райффой и Шлейфером [8]. Сопряженные семейства получили большое распространение в байесовском анализе, они характеризуются свойством замкнутости относительно процесса выбора наблюдений в том смысле, что формальное преобразование априорного распределения из сопряженного семейства с помощью теоремы Байеса дает апостериорное распределение, принадлежащее тому же семейству. При использовании группированных данных свойство замкнутости сопряженных семейств, построенных относительно негруппированной выборки, в общем случае нарушается. Для решения этой проблемы в работе предлагается алгоритм построения байесовских оценок по группированным данным, позволяющий в ряде случаев обойти проблему нарушения свойства замкнутости сопряженного семейства распределений путем построения семейства распределений со свойством, аналогичным свойству сопряженных распределений.

Таким образом, группированные структуры данных и байесовский вывод занимают важное место в статистическом анализе данных. Недостаточная разработанность методов байесовского оценивания по группированным данным говорит о необходимости развивать это направление, дающее возможность объединить реалистичность представления данных группированной выборкой, с одной стороны, и преимущества байесовского подхода, с другой. Данная диссертационная работа предназначена для того, чтобы в какой-то мере заполнить существующий пробел в области байесовского параметрического оценивания по группированным данным.

Чтобы методы байесовского оценивания по группированным данным имели логическую завершенность, необходимо рассмотреть вопрос о выборе граничных точек интервалов группирования, то есть задачу оптимального группирования в байесовском оценивании. Так как всякое группирование ведет к потере информации, то с помощью оптимального группирования (то есть выбора граничных точек разбиения в соответствии с некоторым критерием оптимальности) мы могли бы уменьшить информационные потери, и, тем самым, улучшить качество оценивания.

В "классическом" оценивании задача оптимального группирования разработана достаточно хорошо, в частности, применительно к оцениванию методом максимального правдоподобия [12,17,16]. В развитом в этих работах подходе в качестве критерия оптимального группирования принимается минимум асимптотической дисперсии (или некоторого функционала от дисперсионной матрицы) оценки максимального правдоподобия. Фактически при этом максимизируется информация Фишера, так как через нее выражается асимптотическая дисперсия. Заметим, что этот подход не лишен недостатков. Во - первых, он позволяет находить лишь асимптотически оптимальные граничные точки, использование которых обосновано лишь при выборках достаточно большого объема. Во - вторых, зависимость информации Фишера от неизвестного параметра приводит к тому, что и асимптотически оптимальные граничные точки также зависят от неизвестного параметра, что затрудняет их практическое использование.

Очевидно, что отсутствие исследований по оптимальному группированию в байесовском оценивании является следствием того, что группированные данные до сих пор используются недостаточно активно в байесовском оценивании. В данной диссертационной работе качество группирования в байесовском выводе предлагается оценивать в соответствии с двумя критериями оптимальности: критерием минимума байесовского риска и критерием минимума информационных потерь. Оптимальное группирование по первому критерию может быть проинтерпретировано с точки зрения теории принятия решений, как минимизирующее общие ожидаемые потери вследствие принятия решения сГ. Оптимальное группирование по второму критерию можно интерпретировать с точки зрения информационной статистической теории, как минимизирующее потери информации вследствие группирования.

В соответствии с указанными критериями оптимального группирования в данной работе предлагается метод оптимального и асимптотически оптимального разбиения на интервалы группирования в байесовском оценивании. Решение задачи оптимального группирования позволяет получать разбиение, оптимальное для конечного фиксированного объема выборки N. Решение задачи асимптотически оптимального группирования позволяет находить разбиение, являющееся оптимальным при неограниченном возрастании объема выборки N.

В целом, проведение предварительного оптимального разбиения на интервалы группирования при построении байесовской оценки по группированной выборке делает процедуру байесовского оценивания в структуре группированных данных логически завершенной. Решение задачи оптимального группирования ставит процедуру оценивания по группированным данным на качественно новый уровень, повышает эффективность получаемых статистических выводов. Все это говорит о необходимости разработки методов оптимального группирования в байесовском статистическом анализе по группированным данным.

Цель и задачи исследований. Целью исследования диссертационной работы является разработка алгоритмов байесовского оценивания параметров непрерывных распределений в структуре группированных данных и методов оптимального группирования данных в байесовском оценивании. Для достижения поставленной цели решаются следующие задачи:

- разработка алгоритмов байесовского оценивания в структуре груп-пированых данных;

- исследование свойств байесовских оценок по группированым данным;

- разработка и исследование методов оптимального и асимптотически оптимального группирования данных в байесовском оценивании;

- разработка методики и алгоритмов оптимального и асимптотически оптимального группирования данных в байесовском оценивании;

- разработка программного обеспечения задачи оптимального и асимптотически оптимального группирования в байесовском оценивании и байесовского оценивания параметров распределений в структуре группированных данных;

- применение разработанных алгоритмов и программного обеспечения для решения прикладных задач исследования.

Методы исследования. В диссертации используется аппарат теории вероятностей, математической статистики, вычислительной математики, методов оптимизации, статистического моделирования.

Научная новизна. В диссертационной работе получены следующие результаты:

- разработан алгоритм построения точечной байесовской оценки параметра по группированным данным;

- доказана равномерная сходимость апостериорных плотностей по группированным данным к апостериорной плотности по негруппиро-ванным данным при увеличении числа интервалов группирования;

- доказана сходимость байесовских оценок в структуре группированных данных (при квадратичной функции потерь) к байесовской оценке в структуре негруппированных данных при увеличении числа интервалов группирования;

- получена аппроксимация для байесовского риска при больших выборках;

- сформулированы критерии оптимального и асимптотически оптимального группирования в байесовском оценивании параметров распределений;

- разработана методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании на примере модели экспоненциального распределения.

Основные положения, выносимые на защиту.

1. Алгоритм построения точечной байесовской оценки параметра по группированным данным, позволяющий получать аналитические выражения для байесовских оценок в структуре группированных данных.

2. Теоремы об асимптотических свойствах апостериорных плотностей и байесовских оценок в структуре группированных данных при увеличении числа интервалов группирования.

3. Аппроксимация для байесовского риска при больших объемах выборок, позволяющая значительно упростить трудоемкий процесс вычисления байесовского риска при конечном фиксированном объеме выборки.

4. Методы оптимального и асимптотически оптимального группирования данных в байесовском оценивании параметров распределений.

5. Методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании, которая дает возможность за счет проведения оптимального разбиения на интервалы группирования улучшать качество статистических выводов, получаемых по группированным данным.

6. Программное обеспечение задачи оптимального и асимптотически оптимального группирования данных в байесовском оценивании и байесовского оценивания параметров распределений в структуре группированных данных, которое может быть использовано в любой прикладной области при решении практических задач, связанных с параметрическим байесовским оцениванием по группированным наблюдениям.

Обоснованность и достоверность полученных результатов обеспечивается применением аналитических методов для исследования свойств оценок и критериев, доказанными теоремами, подтверждением аналитических выводов и работоспособности алгоритмов результатами статистического моделирования и вычислительных экспериментов.

Практическая ценность и реализация результатов. Предложенная методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании позволяет повысить точность и информативность байесовских оценок по группированным данным. Разработанные методы, методики, программное обеспечение были апробированы при решении прикладных задач анализа надежности видеомониторов (ОАО " Инфракон", г. Винница, Украина), анализа требований страховых выплат (СК " Инкорстрах", г. Новосибирск).

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на:

- Н-ой, IV-ой международных научно-технических конференциях "Актуальные проблемы электронного приборостроения (АПЭП-94, АПЭП-98)" (Новосибирск, 1994, 1998);

- "The 17th IFIP ТС7 Conference on System Modelling and Optimization" (Прага, Чехия, 1995);

- " The First Korea - Russia International Symposium on Science and Technology" (Ульсан, Корея, 1997);

- 3-ем сибирском конгрессе по прикладной и индустриальной математике (ИНПРИМ-98) (Новосибирск, 1998);

- международной конференции "Prague Stochastics'98" (Прага, Чехия, 1998);

- научном семинаре кафедры статистики университета г. Падуя, Италия (1999 г.);

- научных семинарах кафедры прикладной математики Новосибирского государственного технического университета (1998, 2000 гг.).

Публикации. Основные результаты диссертации опубликованы в 8 печатных работах [18-25], в том числе 1 зарегистрированном отчете по НИР [22]. В опубликованных работах автору принадлежат результаты, изложенные в тексте диссертации.

Структура диссертации. Диссертация состоит из введения, пяти глав основного содержания, заключения, списка литературы и приложения.

Заключение диссертация на тему "Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных"

5.3. Выводы

В пятой главе описан комплекс программ, позволяющий вычислять байесовские оценки параметров распределений в структуре группированных данных и решать задачу оптимального и асимптотически оптимального разбиения на интервалы группирования. Программное обеспечение может быть использовано при статистическом анализе надежности, в эконометрике, медицине, биологии, страховании, при анализе данных типа времени жизни, в любой прикладной области при параметрическом байесовском оценивании по группированным наблюдениям.

Программная система состоит из восьми основных модулей, позволяющих осуществлять оптимальное разбиение на интервалы группирования в соответствии с двумя критериями оптимальности: критерием минимума байесовского риска и критерием минимума информационных потерь, для каждого критерия оптимальности отдельно рассматриваются случаи равноотстоящего и неравноотстоящего группирования. В качестве вероятностной модели в системе используется модель экспоненциального распределения с априорным гамма-распределением.

Программное обеспечение имеет модульную структуру, что позволяет настроить программу на другие модели. Для этого нужно подключить

Л 1

Байесовские оценки вдг интенсивности отказов 0, ч , построенные по асимптотически оптимально сгруппированным выборкам (объем выборки N = 200) к Критерий минимума байесовского риска Критерий минимума информационных потерь

3 0^г=2.1108-Ю-2, И5=0.743183 09Г=2.0904-Ю"2, АЛ8=0.682962 п=(83,76,41) п=(127,67,6)

4 ^Г=2.1417-Ю-2, И5=0.835605 вдг=2.1199-Ю"2, А^=0.787079 п=(58,69,57,16) п=(Ю6,75,16,3)

5 ^г=2.1532-10-2, И8=0.885693 0^г=1.9867-Ю-2, АЛй=0.846995 п=(49,59,48,36,8) п=(87,72,34,6,1)

6 ^г=2.0429-10"2, И5=0.915807 0^2.0739-Ю-2, А 883423 п=(40,48,46,38,23,5) п=(85,66,36,10,3,0)

7 0976-Ю-2, Ия=0.935259 05Г=2.1685-Ю-2, А 906104 п=(36,48,41,31,29,11,4) п=(82,55,47,12,4,0,0)

8 ^Г=2.0048-Ю-2, гА5=0.948520 05Г=1.9601-Ю"2, А Лв=0.917787 п=(32,39,40,30,27,24,4,4) п=(67,62,43,21,4,3,0,0)

9 ^г=2.0120-10-2, И5=0.957703 ^Г=2.0020-Ю-2, А 939247 п=(30,32,40,28,28,26,11,2,3) п=(56,61,41,27,10,2,3,0,0)

10 ^г=2.0297-10-2, 7-^=0.962905 (9^=2.0730-Ю-2, Л^^О.941803 п=(27,31,35,34,27,25,13,4,3,1) п=(54,59,43,28,11,2,3,0,0,0) к программной системе модули, вычисляющие байесовскую оценку по группированным данным и функционалы байесовского риска и информационных потерь, соответствующие новой модели.

Программные модули РШ2, Ш2, 1Ш2, ПЧ2, решающие задачу асимптотически оптимального группирования, можно использовать в соответствующем модуле, решающем задачу оптимального группирования, для уточнения начального вектора граничных точек интервалов группирования.

Комплекс программ может использоваться, как самостоятельный программный продукт, так и в составе другого программного обеспечения по статистическому анализу данных.

В главе сделан обзор некоторых прикладных областей, в которых используется байесовский подход. Байесовские методы применяются для решения практических задач в инженерном деле, экономике, страховании, медицине, юриспруденции и других. Традиционной областью приложения байесовского анализа является теория надежности.

Разработка методов байесовского вывода по группированным данным способствует дальнейшему расширению области практического применения байесовских методов. С применением методов и программ оптимального группирования данных в байесовском оценивании в работе решены прикладные задачи анализа требований страховых выплат, анализа надежности видеомониторов.

Заключение

Диссертационная работа посвящена разработке и исследованию методов байесовского оценивания параметров в структуре группированных данных. В диссертации впервые поставлена задача оптимального и асимптотически оптимального группирования данных в байесовском оценивании, предложены критерии оптимального группирования в байесовском оценивании.

В диссертации получены следующие основные результаты.

1. Разработаны алгоритм построения байесовских оценок в структуре группированных данных и метод построения семейства распределений со свойством, аналогичным свойству сопряженных распределений в байесовском анализе по негруппированным данным, позволяющие получать аналитические выражения для байесовских оценок в структуре группированных данных.

2. Исследованы асимптотические свойства апостериорных плотностей в структуре группированных данных при увеличении объема выборки и при увеличении числа интервалов группирования.

3. Доказана сходимость байесовских оценок в структуре группированных данных к байесовской оценке по негруппированным данным (при квадратичной функции потерь) при увеличении числа интервалов группирования.

4. Предложены и исследованы критерии оптимального и асимптотически оптимального группирования данных в байесовском оценивании: критерий минимума байесовского риска, соответствующий минимуму общих ожидаемых потерь вследствие принятия байесовского решения по группированной выборке, и информационный критерий, соответствующий минимуму информационных потерь вследствие группирования.

5. Получена аппроксимация для байесовского риска при больших выборках, позволяющая значительно сократить объем вычислительных затрат, требуемых для вычисления байесовского риска. Сформулированы условия ее существования.

6. Разработана методика оптимального и асимптотически оптимального группирования данных в байесовском оценивании на примере модели экспоненциального распределения. Применение методики дает возможность за счет проведения оптимального разбиения на интервалы группирования улучшать качество статистических выводов, позволяет повысить точность и информативность байесовских оценок по группированным данным.

7. Разработано программное обеспечение байесовского оценивания параметров распределений в структуре группированных данных и задачи оптимального и асимптотически оптимального группирования данных в байесовском оценивании. С помощью разработанного комплекса программ решены прикладные задачи анализа надежности видеомониторов, анализа требований страховых выплат.

Библиография Тишковская, Светлана Владимировна, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)

1. Lindley D.V. The 1988 Wald memorial lectures: the present position in Bayesian statistics (with discussion)// Statistical Science. — 1990. — Vol.5, №. — P. 44-89.

2. Pilz J. Some thoughts on the present position in Bayesian statistics// Mathematical Research. — 1990. — Vol.68. — P. 70-82.

3. Савчук В.П. Байесовские методы статистического оценивания. Надежность технических объектов. — М.: Наука, 1989. — 323 с.

4. Зельнер А. Байесовские методы в эконометрии. — М.: Статистика, 1980. — 438 с.

5. Jeffreys Н. Theory of Probability. — London: Oxford University Press, 1961. — 428 p.

6. Вальд А. Статистические решающие функции//Позиционные игры.

7. М.: Наука, 1967. — С. 300-522.

8. Savage L.J. The foundations of statistics. — New York: John Wiley & Sons, 1954. — 294 p.

9. Райфа Г., Шлейфер P. Прикладная теория статистических решений.

10. М.: Статистика, 1977. — 359 с.

11. Lindley D.V. Bayesian Statistics: A Review. — Philadelphia: SIAM, 1972. — 83 p.

12. De Finetti B. Theory of Probability. Vol. 1, 2. — New York: John Wiley & Sons, 1974/75.

13. Heitjan D.F. Inference from grouped continuous data: A Review//Statistical Science. — 1989. — Vol.4, №2. — P. 164-183.

14. Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. — М.: Наука, 1966. — 176 с.

15. Lindley D.V. Grouping corrections and maximum likelihood equations// The Cambridge Philosophical Society. — 1950. — Vol.46, Part 1. — P. 106-110.

16. Tallis G.M. Approximate maximum likelihood estimates from grouped data// Technometrics — 1967. — Vol.9, №. — P. 599-606.

17. Бодин Н.А. Оценка параметров распределений по группированным выборкам//Тр. ин-та им. В. А. Стеклова АН СССР. — 1970. — Т. 111.1. С. 110-154.

18. Денисов В.И., Лемешко Б.Ю., Цой Е.Б. Оптимальное группирование, оценка параметров и планирование регрессионных экспериментов: В 2-х ч. — Новосибирск: НГТУ, 1993. — 347 с.

19. Лемешко Б.Ю. Математическое обеспечение задач статистического анализа на основе группированных данных: Дис. . канд. техн. наук (05.13.01)/ Новосиб. электротехн. ин-т. — Новосибирск, 1979. — 225 с.

20. Трубченинова С.В. Построение байесовских оценок параметров непрерывных распределений в условиях группированных данных//Тр. II Междунар. НТК "Актуальные проблемы электронного приборостроения" (АПЭП-94). — Новосибирск: НГТУ, 1994. — Т. 4. — С. 34-38

21. Тишковская С.В. О сходимости байесовских оценок параметров непрерывных распределений в структуре группированных данных//Сб. науч. тр./ Под ред. К.П.Кадомской, А.А.Воеводы. — Новосибирск: НГТУ, 1995. — Вып. 1. — С. 45-51.

22. Tsoi Ye.В., Tishkovskaya S.V. Simulation and optimization of complex systems reliability characteristics in grouped data structure//Proceedings of the 17th IFIP TC7 Conference on System Modelling and Optimization.

23. Prague, 1995: Chapman & Hall, London. — P. 355-362.

24. Denisov V.I.,Lemeshko B.Yu., Tsoi Ye.B., Tishkovskaya S.V., Postovalov S.N. Software for statistical analysis of grouped data//Proceedings of the 1st Korea Russia International Symposium on Science and Technology.

25. University of Ulsan (Korea). — 1997. — P. 239-243.

26. Байесовский подход к оцениванию характеристик надежности в структуре группированных данных. Отчет по НИР/ НГТУ; Цой Е.Б., Тишковская С.В. — №ГР 01.9.80.001712. — Новосибирск. — 1998. — 35 с.

27. Tishkovskaya S.V. Information approach in the bayesian estimation in the grouped data structure/ Prague Stochastics'98. Collection of abstracts,1. Prague, 1998. — P. 89.

28. Закс Ш. Теория статистических выводов. — М.: Мир, 1975. — 776 с.

29. Де Гроот М. Оптимальные статистические решения. — М.: Мир, 1974. — 492 с.

30. Gutierrez-Репа Е., Smith A.F.M. Exponential and Bayesian conjugate families: review and extensions//Test. — 1997. — Vol.6, №1. — P. 1-90.

31. Martz H.F., Waller R.A. Bayesian reliability analysis. — New York: John Wiley & Sons, Inc., 1981.

32. Sander P., Badoux R. Bayesian methods in reliability. — Netherlands: Kluwer Academic Publishers, 1991. — 223 p.

33. Viertl R. Statistical methods in accelerated life testing. — Gottingen: Vandenhoeck and Ruprecht, 1988.

34. CamaraV.A. Bayesian reliability modeling with applications: PhD thesis.

35. University of South Florida, 1997. — 157 p.

36. Гнеденко Б.В., Беляев Ю.К., Соловьев А.Д. Математические методы в теории надежности. — М.:Наука, 1965. — 524 с.

37. Little R.J.A., Rubin D.B. Statistical analysis with missing data. — New York: John Wiley & Sons, Inc., 1987. — 278 p.

38. Pao C.P. Линейные статистические методы и их применения. — М.: Наука, 1968. — 548 с.

39. Денисов В.И. Математическое обеспечение системы ЭВМ экспериментатор. — М.: Наука, 1977. — 251 с.

40. Лемешко Б.Ю. Статистический анализ группированных, частично группированных, и негруппированных наблюдений одномерных непрерывных случайных величин: Дис. . д-ра техн. наук (05.13.16).

41. Новосибирский государственный технический университет, Новосибирск, 1997. — 444 с.

42. Brooks R.J. On the Loss of Information through Censoring//Biometrika.1982. — Vol.69, №1. — P. 137-144.

43. Al-Hussaini E.K., Jaheen Z.F. Approximate Bayes estimators applied to the Burr model// Communications in Statistics, Theory and Methods. — 1994. — Vol.23, №1. — P. 99-121.

44. Arnold B.C., Press S.J. Bayesian estimation and prediction for Pareto data//Journal of the American Statistical Association. — 1989. — Vol.84, №408. — P. 1079-1084.

45. Calabria R., Pulcini G. Bayes estimation in exponential censored samples with incomplete information//Communications in Statistics, Theory and Methods. — 1990. — Vol.19, №8. — P. 3037-3049.

46. Hurt J. Bayes methods in reliability analysis//Osterreichische Zeitschrift fur Statistik und Informatik. — 1990. — Vol.20, №1/2. — P. 65-66.

47. Pandey A., Singh A., Zimmer W.J. Bayes estimation of the linear hazard-rate model//IEEE Transactions on Reliability. — 1993. — Vol.42, №4.1. P. 636-640.

48. Pandey M., Singh V.P. Bayesian shrinkage estimation of reliability from a censored sample from a finite range failure time model//Microelectronics and Reliability. — 1989. — Vol.29, №6. — P. 955-958.

49. Shalaby O.A. Bayesian inference in truncated and censored exponential distribution and reliability estimation//Communications in Statistics, Theory and Methods. — 1993. — Vol.22, Ж. — P. 57-79.

50. Siddiqui S.A., Jain Sanjay, Chauhan R.K. Bayesian analysis of reliability and hazard rate function of a mixture model// Microelectronics and Reliability. — 1997. — Vol.37, №6. — P. 935-941.

51. Sinha Debajyoti. Time-discrete beta-process model for interval-censored survival data//Canadian Journal of Statistics. — 1997. — Vol.25, №4. — P. 445-456.

52. Upadhyay S.K., Singh U., Shastri V. Estimation of exponential parameters under multiply type II censoring// Commun. Statist., Simul. and Comput. — 1996. — Vol.25, №3. — P. 801-815.

53. Тихов M.C. Асимптотическое поведение оценок байесовского типа// Теория вероятностей и ее применение. — 1992. — Т.37, №4. — С. 810-811.

54. Naylor J.С., Smith A.F.M. Applications of a method for the efficient computation of posterior distributions//Appl. Statist. — 1982. — Vol.31.1. P. 214-225.

55. Smith A.F.M.,Skene A.F., Shaw J.E.H., Naylor J.E.H., Dransfield M. The implementation of the Bayesian paradigm//Communications in Statistics, Theory and Methods. — 1985. — Vol.14. — P. 1079-1102.

56. Smith A.F.M. Computational aspects of Bayesian methods//Computing Science and Statistics: Proceedings of the 20th Symposium on Interface, Fairfax, Va. — Alexadria (Va),1988. — P. 47-48.

57. Lindley D.V. Approximate Bayesian methods//Trabajos de Estadística.1980. — Vol.31. — P. 223-237.

58. Tierney L., Kadane J.B. Accurate approximations for posterior moments and marginal densities//Journal of the American Statistical Association.1986. — Vol.81. — P. 81-86.

59. Kass R.E., Tierney L., Kadane J.B. Asymptotics in Bayesian computation// Bayesian Statistics 3 (Bernardo J.M. et al., eds.). — Oxford University Press, Oxford, 1988. — P. 261-278.

60. Geweke J. Bayesian inference in econometric models using Monte Carlo integration//Econometrica. — 1989. — Vol.57. — P. 1317-1339.

61. Tanner M.A., Wong W.-H. The calculation of posterior distributions by-data augmentation//Journal of the American Statistical Association. — 1987. — Vol.82. — P. 528-550.

62. Eger K.-H., Wunderlich R. Likelihood ratio tests for grouped observations// Statistics for grouped observations. — Technische Universität Karl-Marx-Stadt, 1989. — P. 22-62.

63. Cox D.R. Note on grouping// Journal of the American Statistical Association. — 1957. — Vol.52, №280. — P. 543-547.

64. Ehrenfeld S. Some experimental design problems in attribute life testing/ / Journal of the American Statistical Association. — 1962. Vol.57. — P. 668-679.

65. Кульбак С. Теория информации и статистика. — М.: Наука, 1967. — 408 с.

66. Феллер В. Введение в теорию вероятностей и ее приложения. — М.: Мир, 1984. — Т. 2. — 738 с.

67. Боровков A.A. Теория вероятностей. — М.: Наука, 1986. — 432 с.

68. Lindley D.V. On a measure of the information provided by an experiment//Ann. Math. Statist. — 1956. — Vol.27. — P. 986-1005.

69. Кокс Дж.Р, Оукс Д. Анализ данных типа времени жизни. — М.: Финансы и статистика, 1988. — 189 с.

70. Капур К., Ламберсон J1. Надежность и проектирование систем. — М.: Мир, 1980. — 605 с.

71. El-Sayyad G.M. Information and sampling from the exponential distribution//Technometrics. — 1969. — Vol.11. — P. 41-46.

72. Brooks R.J. On the Relative Efficiency of Two Paired data Experiments//J. R. Statist. Soc. B. — 1980. — Vol.42, №2. — P. 186-191.

73. Химмельблау Д. Прикладное нелинейное программирование. — М.: Мир, 1975. — 535 с.

74. Singpurwalla N.D., Wilson S.P., Fuller E.R. Jr., Eberhardt K.R. Statistical aspects of failure processes in ceramics//Fifth International Meeting on Bayesian Statistics, Invited Papers. — Alicante, Spain, June, 1994. — P. 143-156.

75. Fienberg S.E., Finkelstein M.P. Bayesian statistics and the law//Fifth International Meeting on Bayesian Statistics, Invited Papers. — Alicante, Spain, June, 1994. — P. 25.

76. Loredo T.J. Bayesian inference in astrophysics//Fifth International Meeting on Bayesian Statistics, Invited Papers. — Alicante, Spain, June, 1994. — P. 105-142.

77. Raftery A.E., Madigan D., Volinsky C.T. Accounting for model uncertainty in survival analysis improves predictive performance// Fifth International Meeting on Bayesian Statistics, Invited Papers. — Alicante, Spain, June, 1994. — P. 275-300.

78. West M. Some statistical issues in paleoclimatology//Fifth International Meeting on Bayesian Statistics, Invited Papers. — Alicante, Spain, June, 1994. — P. 567-589.