автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Статистический анализ одномерных интервальных наблюдений
Автореферат диссертации по теме "Статистический анализ одномерных интервальных наблюдений"
Ч)
^ МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ ^рВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
На правах рукописи
Постовалов Сергей Николаевич
СТАТИСТИЧЕСКИЙ АНАЛИЗ ОДНОМЕРНЫХ ИНТЕРВАЛЬНЫХ НАБЛЮДЕНИЙ
Специальность 05.13.16 — применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (в области технических наук)
Автореферат диссертации на соискание ученой степени кандидата технических наук
Новосибирск, 1997
Работа выполнена в Новосибирском государственном техническом университете.
Научный руководитель: кандидат технических наук, доцент
Лемешко Б.10.
Официальные оппоненты: доктор технических наук, профессор
Губарев В.В.
кандидат технических наук, с.н.с:. Бериков В.Б.
Ведущая организация: Объединенный институт информатики СО РАН
Защита состоится ______1998 г. в часов на заседании
диссертационного совета Д063.Л4.03 при Новосибирском государственном техническом университете (630092, Новоспбиргк-92, пр. К.Маркса. 20).
С диссертацией можно ознакомиться в библиотеке. Новосибирского государственного технического университета.
Автореферат разослан "____^Г"^_____ 1998 г.
Ученый секретарь
диссертационного совета _
к.т.н., доцент и Г.П. Чикильднн
Общая характеристика работы
Любая математическая теория, родившаяся из практических задач, в своей основе содержит ряд явных или неявных предположений об исследуемом объекте. Когда выводы теории перестают соответствовать практике, требуется либо пересмотреть основные предположения, либо ограничить область ее применения. Одним из узких мест современной математической статистики, как это не раз подчеркивалось А.И. Орловым, является недостаточное внимание к погрешностям наблюдений случайных величии.
Принято считать, что исследователю известна выборка {zi,£2,...,.t„} из генеральной совокупности наблюдений непрерывной случайной величины. Но в реальном эксперименте из-за конечной разрядной сетки средств измерений наблюдается дискретная величина, принимающая конечное число значений. Радикальный выход состоит в отказе от рассмотрения непрерывных случайных величин и замене их дискретными аналогами. Однако такое решение потребует отказаться от множества статистических методов, разработанных в предположении непрерывности случайной величины. Более последовательным является дальнейшее обобщение понятия "наблюдение".
Наряду с точечными наблюдениями в статистике рассматриваются группированные наблюдения, которые более реалистичны, так как в эксперименте фиксируется не точка, а интервал, которому принадлежит реализация случайной величины. Недостатком классической группированной выборки является то, что при попадании наблюдения на границу между двумя соседними интервалами группирования возникает неопределенность в принадлежности наблюдения к той пли иной группе. Устранить этот недостаток можно за счет увеличения каждого интервала группирования на величину максимальной погрешности наблюдения, что приводит к группированной выборке с перекрытиями, рассмотренной в A.C. Родионовым.
В результате специальных исследований, проведенных в 1965-1975 гг. П.В. Новицким, М.А. Земельманом, В.П. Кузнецовым и др., было установлено, что законы распределения ошибок измерений весьма разнообразны, и многие фактические распределения ошибок, отличающиеся по форме, пересекаются в области 0.05-й и 0.95-й квантили в очень узком интервале значений x/cr — l.G±0.05, что позволяет с: допустимой в технических расчетах точностью 0.05(т определить 90%-й доверительный интервал, содержащий наблюдение. Таким образом, по паспортным данным средства измерения можно определить с большой доверительной вероятностью интервал, содержащий истинное значение наблюдаемой случайной величины. Исследованию таких выборок посвящена серия работ А.И. Орлова.
Вочможны и еще более общие способы описания реальных наблюдений. Шошин в 1979 г. предложил фиксировать выборки из размытых чисел, каждое из которых задается функцией плотности распределения. В работах R. Kruse, K.D. Meier, R. Viertl, S. Fruhwirth-Schnatter проводится статистический анализ выборок, состоящих из нечетких чисел.
Из рассмотренных подходов наиболее обоснованным представляется интервальное описание наблюдения. Развитие интервальной математики, ро-
лившейся первоначально из задач вычислительной математики по учету ошибок округления (Moore, Шокин, Алефельд и др.), привело к ее проникновению в другие разделы математики. Хотя термин "интервальная статистика'1 еще не является общепризнанным, наличие целого ряда публикаций позволяет утверждать, что рождение этой теории на стыке интервальной математики и математической статистики уже произошло.
Развитию подлежат как методы статистического анализа интервальных наблюдений, так и соответствующее программное обеспечение. Цель и задачи исследований. Целью исследования диссертационной работы является разработка методов и процедур статистического анализа одномерных интервальных наблюдений.
Для достижения поставленной цели решаются следующие задачи:
• осуществляется перенос, классических процедур проверки согласия ни случай интервального представления наблюдений;
• исследуются асимптотические свойства критериев согласия по интервальным наблюдениям;
• разрабатываются методы точечного и интервального оценивания параметров распределений по интервальным наблюдениям:
• на базе объектно-ориентированного программирования создается программная система статистического анализа интервальных наблюдений, с возможностью преобразования исходной выборки и/или распределения случайной величины операторами сдвига, масштаба, отражения, усечения, логарифмирования, смеси, произведения.
Методы исследования. Для решения поставленных задач используется аппарат теории вероятностей, математической статистики, вычислительной математики, статистического моделирования. Научная новизна диссертационной работы заключается:
• в построении оценок границ вероятности согласия по критериям Колмогорова, Смирнова, и'2 и fi2 Мизеса для интервальных выборок;
• в построении интервальных L-, М- и MD- оценок параметров распределений по интервальным наблюдениям;
• в построении алгоритма проверки гипотез о согласии с использованием непараметрических критериев в случае предварительного оценивания параметров произвольным методом;
• в построении алгоритма отбраковки аномальных наблюдений с использованием робастных оценок, минимизирующих статистику Колмогорова.
Основные положения, выносимые на защиту.
1. Метод проверки согласия по критериям \2 Пирсона, отношения правдоподобия, Колмогорова, Смирнова, ю'2 и U2 Мизеса теоретического распределения с интервальной выборкой.
2. Теорема об асимптотических свойствах критерия Колмогорова по интервальной выборке.
3. Интервальные L-, М- и MP-оценки параметров по интервальной выборке.
4. Объектно-ориентированная программная система статистического анализа интервальных наблюдений одномерных непрерывных случайных величин.
Обоснованность и достоверность полученных результатов обеспечивается применением аналитических методов исследования свойств оценок и критериев, подтверждением аналитических выводов результатами статистического моделирования.
Практическая ценность и реализация результатов. Работа над системой статистического анализа ведется в рамках госбюджетной НИР по теме "Объектно-ориентированная программная система статистического анализа". Система успешно используется для статистического анализа реальных наблюдений случайных величин.
Аппробация работы. Результаты исследований докладывались на 15 конференциях, в том числе международных "Информатика и проблемы телекоммуникаций" (Новосибирск, 1995-1997); "Новые информационные технологии в университетском образовании" (Новосибирск-97), "Научные основы высоких технологий" (Новосибирск-97), "Актуальные проблемы электронного приборостроения" (Новоспбирск-96), VIII-м и IX-м симпозиумах по непараметрцческим и робастным методам в кибернетике (Красноярск-95; Железногорск-97), Втором Сибирском Конгрессе по Прикладной и Индустриальной Математике (Новосибирск-96), совещаниях по интервальной математике (Новоеибирск-96; Красноярск-97), First Korea-Russia International Symposium of Science and Technology (Ulsan-97). Публикации. По теме диссертации опубликовано 27 работ, в том числе 23 печатные и 4 зарегистрированных отчета по НИР. В конце реферата приведен список публикаций, в которых отражены основные результаты. Личный вклад. В опубликованных работах автору принадлежат результаты, изложенные в тексте диссертации.
Структура работы. Диссертация состоит из введения, трех глав основного содержания, заключения, списка литературы (103 источника), двух приложений. Общий объем — 196 стр., включая 64 рисунка и 17 таблиц.
Глава 1. СПОСОБЫ НЕТРАДИЦИОННОГО ПРЕДСТАВЛЕНИЯ СТАТИСТИЧЕСКИХ ДАННЫХ
В первой главе приведен обзор литературы по различным способам представления наблюдений одномерной непрерывной случайной величины и предложена классификация одномерных наблюдений (рис.1). Самым общим способом представления наблюдения являются нечеткие и размытые числа. Интервальное наблюдение можно получить из размытого, если зафиксировать доверительную вероятность, и из нечеткого, если зафиксировать «-уровень. Из интервального наблюдения можно получить точечное наблюдение, если взять произвольную точку из интервала, в котором находится значение случайной величины. В п. 1.1 рассматриваются выборки из нечет-
Рис. 1. Классификация наблюдений
ких наблюдений, дается определение нечеткого числа, нечеткой выборки, описывается построение нечетких характеристик и эмпирической функции распределения по нечеткой выборке. Статистическим анализом нечетких выборок занимались R. Kruse, K.D. Meier, R. Viertl, S. Fruhwirth-Schnatter. Определение 1. Кусочно-непрерывная функция ipa- : R —> [0,1], отображающая R б интервал [0,1], определяет нечеткое число а* на R, если семейство множеств (C(a*)a)ne(oi], полученное из yv(') по формуле
■ С{а*)а = {а е R : vv(a) > a},Vcv 6 [0,1], обладает следующими свойствами: С(а*)„ не пусто при а = 1,
С(а*)„ тт> замкнутый интервал {C'i(«*)„,Су(а*)а] С R.
Функция ^v(-) называется характеризующей функцией а", множество (С(а*)а)ае[од] называется а-отсечением а*.
В п. 1.2. рассматриваются выборки из размытых наблюдений, введенные П.Б. Шошиным для описания субъективных величин.
Определение 2. Характеризующая функция фи> (х), определяет размытие число а*, сели она обладает следующими свойствами:
</V(.r) > 0,Vx 6 R; Jy\t-{x)dx< со. к
Если. I сп, (x)d.t: = 1, то размытие число называется нормированным, ина-н
че ~ размытое число называется ненормированным..
Автором найдены условия, при которых нечеткое число является размытым и наоборот.
Теорема 1. Нечеткое число а" с характеризующей функцией VV (•'■')
ячлястсмразмытым числом, тогда, и только тогда, когда S = / <pu-(r)<b- <
R
•Х-. При птим характеризующая функция размытого числа имеет вид:
Vv(tf) = iwM-
Теорема 2. Размытое число а* с характеризующей функцией ф„'(х) является нечетким числом, тогда и только тогда, когда функция VvW является: унимодальной и М = maxipa-(x) < оо. При этом характеризую-
гцая функция нечеткого числа имеет вид:
<Ра'{х) = ~[Фа'{х).
В п. 1.3. рассматриваются выборки из интервальных наблюдений. Частными случаями интервальной выборки (интервалы не пересекаются) являются группированные, и,ензурир о ванные и частично группированные. Статистическим анализом частично группированных выборок занимались Г. Куллдорф, H.A. Бодин, Б.Ю. Лемешко и др. Оценивание параметров по группированной выборке с неполным покрытием рассмотрено A.C. Родионовым. А.И. Орловым введена интервальная выборка, каждое наблюдение которой получается из точечного наблюдения и максимально возможной ошибки средства измерения. Статистический анализ таких выборок базируется на вычислении нотны — максимального отклонения статистики из-за погрешностей средства измерения.
В п. 1.4 формулируются основные задачи интервальной статистики и основные методы их решения.
Мотодологический подход к построению общей теории интервальных выборок состоит том, что неопределённость в задании исходных данных порождает неопределённость в статистических выводах.
Глава 2. ИНТЕРВАЛЬНОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРОЧНЫХ ДАННЫХ. СТАТИСТИЧЕСКИЙ АНАЛИЗ ИНТЕРВАЛЬНЫХ НАБЛЮДЕНИЙ
В главе рассматриваются основные задачи статистического анализа интервальных наблюдений.
Определение 3. Интервальным наблюдением называется интервал, содержащий, неизвестное точно значение реализации случайной величины.
Определение 4. Интервальной выборкой объёма п называется множество из п интервальных наблюдений:
х„ = {[а;, b;] £ IR I а; < Xi < bi, а; G R, bi £ R, i = 1,..., n}, (2.1)
где IR — множество всех интервалов на R.
Интервальную выборку (2.1) можно рассматривать как n-мерный параллелепипед в пространстве R". Тогда выборку, рассматриваемую в классической статистике Х„ = {.Г|, ..., хп }, можно интерпретировать как точку, прпнадлежащюю этому параллелепипеду. В частности, выборку, в которой наблюдались значения z;, фиксируемые с точностью до интервала [амЬ,]. < Х{ < б,-,t = 1,...,п, будем называть точечной и обозначать
Х„ 6Х„.
В п. 2.1 рассматриваются вопросы построения эмпирической функции распределения и гистограммы по интервальной выборке.
Для построения гистограммы область определения случайной величины разбивается на к непересекающихся интервалов точками Хд < Х\ < ... < Хъ и подсчитывается количество наблюдений, попавших в интервалы (X], ] = 0,..., к — 1. Если интервальное наблюдение [а,-,Ь,-] покрыва-
ет точку разбиения Х^, то точечное значение наблюдения можно отнести как к интервалу так и к интервалу Чтобы нагляд-
но представить множество всех допустимых гистограмм, предлагается по интервальной выборке строить интервальную гистограмму (см. рис. 2).
0.4094 0.3685 0.3275 0.2866 0.2457 0.2047 0.1638 0.1228 0.08188 0.04094
О —' --—--"—--—>
-2.998 -2.194 -1.389 -П.584 0.2199 1.024 1.829 2.633 3.438
Рис. 2. Интервальная гистограмма, построенная по интервальной выборке объемом 100 наблюдений
Sun Dec 0? 14:35:58 1997
Высота каждого столбца интервальной гистограммы является интервалом, нижняя граница которого определяется минимально возможным числом точечных наблюдений в интервале группирования, а верхняя граница — максимально возможным числом точечных наблюдений в интервале.
Для построения множества всех допустимых эмпирических функций распределения упорядочим граничные точки интервалов:
«(1) < 0(2) < ••■ < а(„), 6(1) < Ь(2) < ... < 6(„).
Тогда эмпирическая функция распределения Fn(x), построенная по произвольной выборке Хп £ Х„, будет принадлежать .множеству, ограниченному сверху Fn(x) и снизу Fn{x):
Fn{*) < ВД < Щ*) Vx g R, (2.2)
X < 0(1),
«(,) < X < i = 1,... ,11 - 1,
х > а(п);
где
Í
ВД = i
I 1,
С 0, х < 6(1),
£кО) = { »> Но - х < 6('+1)' г = 1,... ,п - 1, I 1, х > Ь(п).
В п. 2.2. рассматриваются вопросы проверки гипотез о согласии по интервальным выборкам. Т. Са^аДсН нашёл верхнюю и нижнюю границы статистики Колмогорова в случае, когда выборка задана с пропусками данных, но при этом известно количество пропущенных наблюдений на интервалах между членами вариационного ряда. Этот результат обобщается автором на случай произвольной интервальной выборки и на статистики критериев согласия Колмогорова, Смирнова, ш2 и Г22 Мизеса [3, 4, 5].
При проверке гипотез о согласии теоретического распределения с точечной выборкой для найденного значения соответствующей статистики 5* вычисляется вероятность
оо
р = Р{5 > = I д{8)<18, .у*
где д(в) — плотность распределения статистики при условии истинности нулевой гипотезы. При заданном уровне значимости « гипотеза о согласии не отвергается, если р > а. Вероятность Р{Б > 5*} будем называть вероятностью согласия. При задании интервальной выборки (2.1) статистика принадлежит интервалу [5^,5*], границы которого определяются неравенством:
5!(ХП) = < 5*(Х,„Л < вир 5*(Х„,Р) = ^(Х„). (2.3)
х"е5С" х„ех„
Вероятность ^{б1 > 5*} будет принадлежать интервалу ¡рты,ртах], где
оо оо
Ртт = / д(я)(1я, ртах = j & 31
Тогда, при заданном уровне значимости а, гипотезу о согласии следует отклонить, если р„юх < а; гипотезу о согласии не следует отвергать, если р„ип > п. Если рт{„ < а < р„шп то однозначного вывода сделать невозможно.
Автором получены аналитические выражения для оценок границ 5*(Х„) и 5*(Х„) статистик критериев согласия Колмогорова, Смирнова, П2 и ш2 Мизеса.
Статистика критерия согласия Колмогорова имеет вид: А, = вир 1^(1)
X
где Еп(х) — эмпирическая функция распределения, Р(х) — теоретическая, согласие с которой проверяется, п — объём выборки. Оценки границ статистики Колмогорова определяются выражениями:
Д, = иых{ыр{Рп{х)-Р{х)),ыр{Р(х)-Щх)),0}, БЦ = шах^ир^л:) - _Г(д:)),8ир(.Г(.г-)
Статистика критерия согласия Смирнова имеет вид: Z)+=sup(F„(s)-F(z)).
X
Оценки границ статистики Смирнова определяются выражениями: D+ = sup^x) - F(x)), D+ = sup(F)t(x) - F(x)).
X X
Статистика критерия согласия w2 Мизеса имеет вид:
+0° 1 "Г 9; — 112
n^ = n J (ВД _ F(x))2dF(x) = — + £ F(x{i)) - — ,
—со t-1 I
где — i-я порядковая статистика. Если выборка интервальная, то каждый член вариационного ряда известен с точностью до интервала
X(i) < »'(J) Щ,
где и xjjj можно определить из неравенства (2.2), так как между вариационным рядом и эмпирической функцией распределения существует взаимно-однозначное соответствие (см. рис. 3) и Fn(x^) = г/га:
хщ = inf{y | у = F^(i/n)}, Щ = sup{?/ j у =
ЕШ х(')
Рис. 3. Определение границ г-го члена вариационного ряда
Оценки границ статистики па;2 определяются выражениями: ,1я _ 1 "
где «¡и Щ имеют вид:
1Пщ) - ^ «ж Пча) < Пщ) <
О, при Г(Щ),
- № "Р* ^ < Р(х{{)) <
•ч,- = тах
\?< ч 2?; ~ 1
1 Ы ~
гт-
2?:- 1
2п
С
са критерия согласия П2 Мизеса имеет вид:
татистика
= " 2 £ Ы + " 1П(1 " '
Оценки границ статистики пП2 определяются следующими выражениями:
пП1 = -п-гьД^х^)) 2" (1-Р{хщ Щ = -п- 21п Д (1 -
На рис. 4. приведен пример проверки согласия по интервальной выборке. На диаграмме в правом верхнем углу цифрами обозначена вероятность согласия по критериям: 1 — отношения правдоподобия, 2 — \2 Пирсона, 3 — Колмогорова; 4 — Смирнова, 5,6 —• ш'2 и О2 Мизеса. Заштрихованные области показывают интервалы неопределённости вероятности согласия.
Рис. 4. Проверка согласия интервальной выборки объемом 100 наблюдений со стандартным нормальным распределением
Очевидно, что чем меньше интервал неопределённости \ртт,ртах}^ тем более определённые выводы можно сделать. На длину интервала неопределённости Ар = Рта* — Ртт ВЛИЯЮТ ДЛИНЫ ИНТерВаЛОВ [а;, ?);], ?' = !,.... Щ закон распределения, с которым проверяется согласие; критерий согласия; количество наблюдений.
Интересный результат получен при исследовании поведения верхней п нижней границ вероятности согласия в зависимости от увеличения числа наблюдений. Критерии согласия построены таким образом, что с увеличением объема выборки при справедливой нулевой гипотезе максимально допустимое отклонение эмпирического распределения от теоретического стремится к нулю. Однако вследствие ошибок измерений отклонение никогда
не будет равно нулю, и его величина будет зависеть от точности измерительного прибора.
Автором получена и доказана теорема об асимптотических свойствах критерия Колмогорова по интервальной выборке.
Теорема 3. Пусть задана последовательность интервальных выборок Х,„ для которых нижняя и верхняя границы эмпирической функции распределения F,(.r) и Fn{x) сходятся в равномерной метрике соответственно к Е_(х) .и F(x) со скоростью 0(1/п), и sup(F(x) - £(ж)) > с > 0.
х
Пусть также Т — это множество всех функций распределения, непрерывных справа, Pmax{F,Xn) и ;>,m'n(F, Х„) — соответственно верхняя и нижняя границы вероятности согласия по критерию Колмогорова.
Тогда при п -4 оо:
1. VF е Т, таких что Уж (F(x) < F(x) < F(x)),
fnj ?,«(F,XU)-)1, (6) pmia{F,Xu) 0;
2. VF 6 T, таких что Эх {(F{x) < F(x)) V (F(x) > F(x))),
(a) p,„r(F,X„) 0, (6) pmin{F,Xn)0.
Из теоремы следует, что в случае интервальных наблюдений закон распределения случайной величины описывается не одной функцией, а некоторым множеством, для получения которого можно либо находить интервальные оценки параметров функции распределения, либо по отдельности аппроксимировать верхнюю и нижнюю границы эмпирической функции распределения.
В п. 2.3 рассматриваются вопросы точечного и интервального оценивания параметров распределений по интервальным наблюдениям. Определение 5. Пусть им.еется некоторая точечная оценка параметра по точечной выборке в" = $*(Х„). Интервальной оценкой параметра в. порожденной точечной оценкой. 0*(Х„), по интервальной, выборке будем, называть интервал [£1,0*], границы которого определяются из соотношений:
£ = xmm 0*(Х„), F = шах^Х,,). (2.4)
Всякая точечная оценка, построенная по случайным наблюдениям, является случайной величиной. Следовательно, границы интервальной оценки, порожденной точечной оценкой, будут также случайными. Доверительный интервал, содержащий истинное значение параметра с заданной вероятностью, получается объединением доверительных интервалов, построенных по всем точечным выборкам из Х„.
В большинстве случаев определение интервальной оценки в явном виде невозможно. Рассмотрим общие подходы к определению интервальных оценок, порожденных классами точечных L-, М- и MD-оценок.
L-оценки формируются следующим образом:
71 ÏI
о* = Е1';^;). Е(;; = 1, ;=i ¿=1
где Xftf — t-я порядковая статистика. Поиск интервальной оценки, порожденной ¿-оценкой, сводится к решению двух задач линейного программирования размерности п.
М-оценки получаются в результате минимизации функционала:
в'(Хп) =argminM(Xn,0) = argmin £ 0), (2.5)
i=ri
где p(xi,9) — функция потерь. Пусть
М(в) = min М(Х„, 0) = £ min р(хи 9),
Х„еХ„ ,_[ Г;6[Я(,6(]
Щв) = max М(Хп, е) = ± max p{xh в) л„ех„ ¿=1«<е[<чЛ']
— верхняя и нижняя границы М(Хп,д) по всем возможным точечным выборкам Х„ е Х„, и ~М — min Ж (9).
Теорема 4. Множество Т = {в | Л£(0) < М} содержит все возможные точечные М-оценки (2.5) при Х„ 6 Х„.
Рис. 5. Нахождение интервальной М-оценки
Теорема описывает допустимое множество оценок параметров, но не дает метода его построения. Рассмотрим случай, когда в — скалярный параметр и функционал М(Х„,в) является выпуклым. Тогда множество Т представляет собой замкнутый интервал, границы которого определяются из уравнения М(в) = M (см. рис. 5). Это уравнение молено свести к двум задачам нелинейного программирования:
01 = arg min (М(б)-М)2, 9* = arg min (М(0)-М)2.
MD-оценки получаются, если в выражении (2.5) в качестве минимизируемого функционала взять расстояние между эмпирической функцией распределения Fn(x) и теоретической F(x,0). Интервальные MD-опенки получаются аналогично интервальным М-оценкам, если учесть выражение (2.2), задающее границы возможного расположения эмпирической функции распределения. В качестве меры близости эмпирической и теоретической функций распределения можно использовать статистики непараметрических критериев согласия.
Различные точечные оценки параметров порождают в общем случае различные интервальные оценки. Естественным критерием для сравнения различных интервальных оценок является длина интервала А9 = 6 — 6. Свойства интервальных оценок во многом зависят от свойств точечных оценок, по которым они строятся. Если точечная оценка робастна, т.е. "нечувствительна" к наличию аномальных наблюдений в выборке, то соответствующая ей интервальная оценка будет иметь меньшую длину, чем интервальная оценка, порожденная точечной оценкой, не обладающей свойством робастности. Длина интервальной оценки слабо зависит от объема выборки и не стремится к нулю при увеличении числа наблюдений.
Глава 3. ОБЪЕКТНО-ОРИЕНТИРОВАННАЯ СИСТЕМА СТАТИСТИЧЕСКОГО АНАЛИЗА
В п. 3.1 рассматриваются достоинства объектно-ориентированного подхода при создании программных систем статистического анализа.
В п. 3.2 описывается иерархия классов разрабатываемой системы статистического анализа интервальных наблюдений (см. рис.6).
Рис. 6. Иерархия базовых классов
В п. 3.3 описывается представление исходных данных в системе (интервальных наблюдений и выборок), а также основные действия над ними (преобразования сдвига, масштабирования, зеркального отражаения, усечения, смеси). Моделирование псевдослучайных выборок, подчиненных заданному закону, осуществляется по методу обратных функций.
В п. 3.4 описывается представление вероятностной модели в системе. Для описания вероятностной модели служит абстрактный класс 'ТНвШ-
bution". К основным функциям, выполняемым над абстрактным распределением, относятся вычисление информационной матрицы Фишера, вычисление обратной функции распределения, генерирование случайного числа, нахождение точек равновероятного и асимптотически оптимального группирования. Распределение задается функцией распределения F(x, 9), плотностью /(х,0) и их производными по параметрам до второго порядка включительно , которые необходимы для вычисления инфор-
мационной матрицы Фишера по группированным и по негруппированным данным и при вычислении оценок параметров методами поиска первого и второго порядка. Учитывая, что к распределениям могут быть применены операции сдвига и масштаба, для вычисления первых и вторых производных по параметрам сдвига и масштаба следует знать , и
д ■ От абстрактного класса "Distribution" образовано несколько производных классов, перечисленных в таблице. Для всех распределений найдены выражения для производных.
В п. 3.5 описывается класс "Stat", в котором решаются основные задачи статистического анализа. Основными данными этого класса являются выборка и распределение. Над объектом типа "Stat" определены следующие операции: оценивание параметров распределения по выборке, проверка простых и сложных гипотез о согласии выборки с распределением, выделение аномальных наблюдений в выборке, группирование выборки.
В п. 3.6 описывается алгоритм идентификации наблюдаемого закона на заданном множестве моделей с использованием ряда критериев согласия.
В п. 3.7 рассматривается задача идентификации закона распределения разностей двух циклов наблюдений деформаций стеновых панелей на Ленинградской АЭС. Группированная выборка была идентифицирована как смесь двустороннего экспоненциального и нормального распределений.
Объектно-ориентированная программная система статистического анализа интервальных наблюдений (негруппированных, группированных, цен-зурированных, частично группированных, интервальных) обладает следующими возможностями:
• включает все возможности программной системы (см. Лемешко Б.Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. — Новосибирск: Изд-во НГТУ, 1995. — 125 е.), в том числе применение асимптотически оптимального группирования;
• обладает существенно большим множеством параметрических моделей законов распределения для описания наблюдаемых случайных величин за счет использования групповых семейств, семейств гамма-распределений, бета-распределений, распределений Джонсона и операций над ними;
• обеспечивает возможность вычисления оценок параметров распределений несколькими методами: методом максимального правдоподобия (Af-оценок); минимизацией статистик критериев Колмогорова и w2 Мизеса (MD-оценок).
Таблица
Производные классы от "Distribution"
Наименование | Базовый класс Описание |
DShift,DScale Distribution Сдвиг, масштаб
DReflection Distribution Зеркальное отражение
DLeft,DRight Distribution Усечение слева, справа
DLog Distribution Логарифмирование
DMixt Distribution Смесь
DMult Distribution Произведение
DGamma Distribution Семейство гамма-распределений
DBeta Distribution Семейство бета-распределений
DJ Distribution Семейство распределений Джонсона
DO Distribution Равномерное распределение
D1 Distribution Экспоненциальное распределение
D2 Distribution Полунормальное распределение
D3 Distribution Распределение Релея
D4 Distribution Распределение Максвелла
D5 DGamma Распределение модуля п-мерного нормального распределения
D6 Distribution Распределение Парето
D7 Distribution Распределение Эрланга
D8 Distribution Распределение Лапласа
D9 Distribution Нормальное распределение
D10, Dll Distribution Логнормальные распределения
D12 Distribution Распределение Коши
D13 Distribution Логистическое распределение
D14 Distribution Распределение Вейбулла
D15, DIG Distribution Распределения экстремальных значений
D17 DGamma Обобщенное распределение минимального значения
D18 Distribution Распределение Накагами
D19 Distribution Гамма-распределение
D20,D21,D22 DBeta Бета-распределения 1-го, 2-го и 3-го рода
D23,D24,D25 DJ Распределения БЬ-, Б1- и Би-Джонсона
D26 Distribution Двустороннее экспоненциальное распределение
D27 Distribution Н- распределение
D28 DGamma Г-распределение
D29 DBeta Ь-распределение
Sample Distribution Эмпирическое распределение
• обеспечивает проверку сложных' гипотез о согласии непараметрическими критериями Колмогорова, Смирнова, ш1 и П2;
• позволяет проводить отбраковку аномальных наблюдений с использованием робастных оценок, минимизирующих статистику Колмогорова;
• позволяет идентифицировать закон распределения выборки на заданном множестве распределений по совокупности критериев согласия;
• позволяет генерировать псевдослучайные выборки, подчиненные заданным законам распределения.
В процессе создания программной системы и при ее использовании:
1. Методами статистического моделирования исследованы распределения статистик непараметрических критериев согласия при проверке сложных гипотез и вычислении оценок параметров методом максимального правдоподобия [11].
2. Методами статистического моделирования исследована зависимость распределений статистик критериев согласия х2 Пирсона и отношения правдоподобия от способа группирования [11].
3. Установлена существенная зависимость распределений статистик критериев согласия при проверке сложных гипотез от метода оценивания параметров и от объема наблюдаемой выборки.
4. На основе функций влияния Хампеля исследована робастность оценок минимизирующих статистику Колмогорова.
Программная система обеспечивает получение более корректных статистических выводов по сравнению с существующими программными средствами статистического анализа, представляет собой инструмент для исследования статистических свойств оценок и критериев проверки гипотез.
Система может использоваться при решении задач контроля качества и исследованиях надежности, при обработке результатов наблюдений в любой прикладной области.
Приложения. В приложении П1 приведено руководство пользователя программной системы. В приложении П2 содержатся акты о внедрении результатов исследований.
Заключение
В диссертации получены следующие, результаты.
1. Предложена классификация наблюдений одномерных непрерывных случайных величин. Рассмотрены нечеткие, размытые, интервальные и точечные наблюдения. Найдены условия, при которых размытые и нечеткие наблюдения являются эквивалентными.
2. По интервальной выборке построены функции, определяющие коридор для эмпирической функции распределения.
3. Найдены аналитические выражения для вычисления границ интервалов, содержащих (все) возможные значения статистик непараметрических критериев согласия Колмогорова, Смирнова, ш2 и П2 Мизеса по интервальной выборке. Показано, что процедура принятия решения при проверке гипотез о согласии по интервальной выборке становится неопределенной, так как значение статистики критерия известно с точностью до интервала.
4. На примере использования критерия согласия Колмогорова по интервальной выборке показано, что при достаточно большом объеме выборки существует целое множество моделей (значений параметра), не отвергаемых критерием с точки зрения "крайнего оптимиста", так как из-за погрешностей средств измерения они являются неразличимыми. И в то же время, с точки зрения "крайнего пессимиста", при достаточно большом числе наблюдений можно отвергнуть любую модель.
5. Предложен подход для получения интервальных оценок параметров распределений по интервальной выборке. Предложены и реализованы процедуры для вычисления интервальных оценок по интервальной выборке в классах L-, М-, MD-оцспок.
6. Показано, что функция влияния Хампеля для статистики Колмогорова является ограниченной, откуда следует робастность оценок минимизирующих статистику Колмогорова. Предложено и реализовано использование этих оценок в процедуре выделения аномальных наблюдений.
7. Методами статистического моделирования показано, что при проверке сложных гипотез распределения статистик непараметрических критериев согласия существенно зависят не только от вида наблюдаемого закона распределения, типа и количества оцениваемых параметров, но и от метода оценивания. Предложен и реализован алгоритм проверки согласия по непараметрическим критериям в случае сложных гипотез, учитывющий вид наблюдаемого закона распределения, тип и количество оцениваемых параметров, метод оценивания параметров.
8. Разработана объектно-ориентированная программная система статистического анализа, обеспечивающая большой выбор параметрических вероятностных моделей, получаемых за счет применения операций над законами распределений: сдвига, масштабирования, зеркального отражения, усечения, смешивания, произведения. Система обеспечивает решение задач статистического анализа одномерных наблюдений непрерывных случайных величин (оценивания параметров распределений, проверки гипотез о согласии, идентификации закона распределения) по интервальным выборкам, в том числе по точечным, дензурирован-ным, частично группированным и группированным.
Список публикаций
1. Статистический анализ независимых и зависимых случайных величин в геодезии / Отчет по НИР, НГТУ, 1996г. № гос. per. 01.9.60 003120
инв. № 02.9.60 008130. Лемешко Б.Ю., Лесных Н.Б., Мизина Г.И., Постовалов С.Н. — 69 с.
2. Лемешко Б.Ю., Постовалов С.Н. К использованию непараметрических критериев по частично группированным данным // Сб. научных трудов НГТУ. — Новосибирск, 1995. — № 2. — С. 21-30.
3. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ одномерных наблюдений по частично группированным данным // Изв. вузов. Физика. — 1995. — № 9. — С. 39-45.
4. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ наблюдений, имеющих интервальное представление // Сб. научных трудов НГТУ.
— Новосибирск, 1996. — № 1. — С. 3-12.
5. Лемешко Б.ГО., Постовалов С.Н. О решении задач статистического анализа интервальных наблюдений // Вычислительные технологии.
— 1997. — Т.2. — № 1. — С. 28-36.
6. Лемешко Б.Ю., Постовалов С.Н. К вопросу о робастности оценок по группированным данным // Сб. научных трудов НГТУ. — Новосибирск, 1996. — № 2. — С. 9-18.
7. Лемешко Б.Ю., Постовалов С.Н. Вопросы обработки выборок одномерных случайных величин // Научный вестник НГТУ, — Новосибирск,
1996. — № 2. — С. 3-24.
8. Denisov V.l., Lemeshko В.You., Tsoi Ye.B., Tishkovskaya S.V., Postovalov S.N, Software for statistical analysis of grouped data // Proceedings the First Korea-Russia International Symposium of Science and Technology,
1997. — P. 239-243
9. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ смесей распределений по частично группированным данным // Сб. научных трудов НГТУ. — Новосибирск, 1995. — № 1. — С. 25-31.
10. Лемешко Б.Ю., Постовалов С.Н. К вопросу о распределениях статистик непараметрических критериев согласия // Сб. научных трудов НГТУ, — Новосибирск, 1997. — № 1. — С. 23-32.
11. Лемешко Б.Ю., Постовалов С.Н. Прикладные аспекты использования критериев согласия в случае проверки сложных гипотез // Надежность и контроль качества. — 1997. — № 11. — С. 3-17.
Подписано в печать 11.03.98 г. Формат 84 х 60 х 1/16 Бумага оберточная. Тираж 100 экз. Уч.-изд. л. 1.25. Печ. л. 1.5
Заказ № 12,3
Отпечатано в типографии Новосибирского государственного технического университета 630092, г.Новосибирск, пр. К.Маркса, 20
-
Похожие работы
- Структурно-параметрическая идентификация динамических объектов по интервальным исходным данным
- Математическое моделирование производственных систем с интервальной неопределенностью параметров
- Модифицированный метод внутреннего оценивания множества решений интервальных систем линейных алгебраических уравнений
- Методы представления интервальных динамических систем в пространстве состояний
- Моделирование и анализ финансово-экономических операций с интервальной неопределенностью в данных
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность