автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Статистический анализ группированных, частично группированных и негруппированных наблюдений одномерных непрерывных случайных величин

доктора технических наук
Лемешко, Борис Юрьевич
город
Новосибирск
год
1997
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Статистический анализ группированных, частично группированных и негруппированных наблюдений одномерных непрерывных случайных величин»

Автореферат диссертации по теме "Статистический анализ группированных, частично группированных и негруппированных наблюдений одномерных непрерывных случайных величин"



А

^ч^ На правах рукописи

Лемешко Борис Юрьепитг

СТАТИСТИЧЕСКИЙ АНАЛИЗ ГРУППИРОВАННЫХ, ЧАСТИЧНО ГРУППИРОВАННЫХ И НЕГРУППИРОВАННЫХ НАБЛЮДЕНИЙ ОДНОМЕРНЫХ НЕПРЕРЫВНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН

Специальность 05.13.16 - применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (в области технических наук)

Диссертация на соискание ученой степени доктора технических наук

Новосибирск - 1997 г.

Работа выполнена в Новосибирском государственном техническом университете.

Официальные оппоненты: доктор технических наук, профессор

Загоруйко Н.Г.

доктор технических наук, профессор Кочегуров В.А.

доктор технических наук, профессор Тарасенко Ф.П.

Ведущая организация: Томский государственный университет систем управления и радиоэлектроники

Защита состоится ^4 1997 г. в 1С —часов на заседании

диссертационного совета Д063.34-03 при Новосибирском государственном техническом университете (630092, Новосибирск-92, лр. К.Маркса, 20).

С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.

Автореферат разослан " У 1997 г.

Ученый секретарь у

диссе[>1 цЦионного совета /

к.т.н., доцент (у <,7?"' Г.П.Чикильдин

Общал характеристика работы

Последние десятилетия характеризуются интенсивным развитием статистических методов, смещением акцентов их применения, появлением специалистов, широко использующих эти методы в различных прикладных областях, а также количественным и качественным ростом программного обеспечения задач статистического анализа.

Несмотря на определенную насыщенность рынка программными системами статистического анализа, реализуемые в них методы и алгоритмы отстают от последних достижений в области прикладной статистики. В частности, трудно назвать примеры программных систем, где обеспечивается обработка группированных, частично группированных и цензури-рованных наблюдений. И совсем нетрудно указать примеры неправильного применения непараметрических критериев согласия.

Перспективы развития программного обеспечения по статистическому анализу данных, d том числе для персональных ЭВМ, обсуждались в работах С.А. Айвазяна и его коллег, современные проблемы внедрения прикладной статистики и статистических методов поднимались А.И. Орловым. Использование ЭВМ и их совершенствование отражается на развитии статистических методов, изменяет взгляды на точность вычисления оценок, расширяет использование статистических методов в приложениях.

Форма представления исходных данных, часто определяемая условиями и точностью регистрации, неспособность существующих методов предложить приемлемое решение, тупиковые ситуации приводят к появлению новых методов анализа, подходов, моделей, иногда резкому отрицанию многого из ранее наработанного аппарата. Очевидно, что методы статистического анализа, алгоритмы, точность вычислений должны соответствовать форме представления и точности исходных данных. Методы статистического анализа группированных, частично группированных и интервальных наблюдений также требуют учета их специфики.

Вопросы оценивания параметров распределений, условия существования оценок максимального правдоподобия по группированным и частично группированным данным рассматривали G. Kulidorf, H.A. Бодин, В.П. Артамоновский. Вопросы оценивяння параметров по случайно цензу-рпрованным наблюдениям, определения по таким выборкам параметров долговечности изделий рассматривались Ю.Н. Благовещенским, по группированным и цензурированным выборкам М.С. Тиховым. Статистическому анализу цензурированных и группированных данных посвящено большое количество работ. Особенно часто с обработкой цензурированных и группированных данных сталкиваются в задачах исследования надежности. В Новосибирском государственном техническом университете работы по статистическому анализу группированных и частично группированных данных начаты в 1973 г. по инициативе и под руководством В.И. Денисова (Г.Г. Зачепа, Б.Ю. Лемешко, Е.Б. Цой).

Трудности вычислительного характера, связанные с оцениванием параметров распределений непосредственно по группированным выборкам,

заставляли заменять группированные наблюдения (при равных интервалах) негруппированными, применяя в дальнейшем к полученной оценке различные поправки на группировку, что, вообще говоря, не всегда приводило к удовлетворительным результатам.

Интерес к задачам, содержащим группированные и цензурированные наблюдения, не снижается, так как появление таких выборок оказывается естественным и обычно порождается спецификой проведения экспериментов и условиями регистрации наблюдений.

Если в задачах, связанных с оценкой параметров распределений, группирование и цензурирование чаще всего является следствием того, как

осуществляется регистрация данных, то в критериях согласия типа у} группирование исходной (негруппированнон) выборки - следствие используемой статистики.

Исследованием критериев типа х ДЛ* непрерывных распределений при сложных гипотезах и оценивании параметров по иегруппированным наблюдениям занимались W.O. Cochran, Н. ChernoFF, E.L. Lehman, G.S.Watson, Л.Н. Большев, Д.М. Чибисов, D.S. Moore, М.С. Никулин, М.Мирналиев, P.E. Greenwood.

Очевидно, что качество статистических выводов зависит от того как группируются данные. Это относится и к оцениванию параметров распределений, и к критериям проверки гипотез. Разбиение на интервалы равной длины кочует по различным источникам, чаще всего используемым в качестве практических руководств. Разбиение на интервалы равных вероятностей предложили H.B. Mann и А. Wald в 1942 г. Такой вариант группирования в качестве предпочтительного обычно рассматривается в работах теоретического характера. Но является ли он оптимальным с точки зрения качества статистических выводов?

Группирование данных сопровождается потерей информации о наблюдаемом законе. И естественно требовать, чтобы эти потери были минимальны. Задачу асимптотически оптимального группирования при оценивании параметров распределений, в результате решения которой минимизируется асимптотическая дисперсия асимптотически эффективной оценки, по-видимому, впервые ставят и решают для частных случаев в D.R. Сох, затем G. Kulldorf. Построение оптимального разбиения является задачей планирования экспериментов, и решение ее, вообще говоря, не простое, так как количество потерянной информации для заданного разбиения обычно является функцией неизвестного параметра 0.

Широкое применение на практике классических непараметрических

критериев Колмогорова, Смирнова, со2 и il2 Мизеса при проверке простых гипотез давно не вызывает затруднений. А вот возможность их применения для проверки сложных гипотез высветилась как серьезная проблема с появлением работы, в которой М. Кас, J. Kiefer и J. Wolfowitz (1955 г.) показали, что предельные распределения этих статистик зависят от оцениваемых параметров и вида наблюдаемого закона. С тех пор к решению этой проблемы подходили с разных позиций. Например, H.W. Lilliefors и

s

M.A. Stephens оценивали процентные точки для распределений статистик типа Колмогорова методами Монте-Карло. Ю.Н. Тюриным и его учениками предложены для этих же целей полученные приближенные зависимости. Г. В. Мартыновым получен и протабулирован предельный закон

2

распределения статистики со Мизеса для нормального закона. Но острота проблемы не снята до настоящего времени. Более того, требуют разрешения вопросы применения критериев согласия при частично группированных и интервальных наблюдениях.

Ограниченность круга параметрических моделей, используемых для описания наблюдаемых случайных величин п различных приложениях (порядка нескольких десятков законов распределения), невозможность с их помощью адекватно описать наблюдаемые данные являются одним из узких мест прикладной параметрической статистики. К тому же в приложениях часто и почти всегда необоснованно стремятся еще более сузить множество моделей. В известных программных системах количество включенных законов распределения обычно не превышает полутора десятков.

Параметрические модели становятся ближе к реальности, если учитывать, что наблюдаемые данные могут содержать частично группированные, группированные и интервальные наблюдения. Существенное расширение множества параметрических моделей можно получить, если соответствующее программное обеспечение позволит анализировать не только определенный набор семейств законов распределения, но и смеси усеченных и неусеченных законов.

Цель н задачи исследований. Основной целью диссертационной работы является дальнейшее развитие прикладных методов статистического анализа наблюдений одномерных непрерывных случайных величин, обеспечивающих качественные выводы при частично группиропаннных, группированных и негруппированных наблюдениях, создание программного обеспечения, ориентированного на представление исходных данных в виде частично группированных (н интервальных) выборок и предназначенного для широкого использования.

Для достижения поставленной цели решаются следующие задачи:

• исследуются условия существования и единственности оценок максимального правдоподобия по частично группированным и группированным выборкам;

• исследуется влияние группирования на робасгность оценок;

• исследуется влияние способов группирования на мощность критериев типа %2;

• исследуется влияние способов группирования на предельные распреде-

2

ления статистик типа % в случае простых и сложных гипотез;

• исследуются предельные распределения статистик типа Колмогорова, Смирнова, ш и Q2 Мизеса прн проверке сложных гипотез;

• разрабатывается программное обеспечение задач статистического анализа частично группированных и интервальных наблюл«'."'*.

Методы исследовании. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, вычислительной математики, математического программирования, (патетического моделирования.

Научная новизна диссертационной работы заключается: ® в использовании асимптотически оптимального группирования дан-2

ных в критериях типа % ; • в использовании асимптотически оптимального группирования для построения оптимальных ¿-оценок параметров для больших выборок; « в использовании группирования данных для вычисления робастных оценок;

ь и построении законов распределения, аппроксимирующих предельные законы распределения статистик критериев типа Колмогорова,

Смирнова, ю2 и П2 Мизеса.

Основные положении, выносимые на защиту.

1. Условия существования и единственности оценок максимального правдоподобия по частично группированным выборкам.

2. Решение задачи асимптотически оптимального группирования наблюдений для совокупности непрерывных распределений, включенных в программную систему.

3. Оценки, использующие выборочные квантили, соответствующие оптимальному группированию, в том числе оптимальные ¿-оценки параметров сдвига и масштаба для больших выборок.

4. Применение асимптотически оптимального группирования данных в критериях согласия отношения правдоподобия, х' Пирсона и типа ц2, обеспечивающее максимальную мощность этих критериев при близких конкурирующих гипотезах.

5. Применение группирования наблюдении для построения робастных оценок максимального правдоподобия и реализация эффективной параметрической процедуры отбраковки аномальных измерений.

6. Результаты исследований зависимости предельных распределений ста-

тнстнк критериев отношения правдоподобия и % Пирсона от способа группирования.

7. Результаты исследований предельных распределений статистик крите-

"> 2

риезтипа Колмогорова, Смирнова, ю" и Мизеса при проверке сложных гипотез и вычислении оценок параметров по негруппнрованным данным.

8. Программная система статистического анализа одномерных наблюдений случайных величин, в которой реализованы все полученные результаты исследований по обработке частично группированных, группированных и негруппнрованных данных.

Обоснованность и достоверность научных положений, выводов и рекомендаций обеспечивается:

» применением аналитических методов исследования свойств оценок и критериев;

• подтверждением аналитических выводов и рекомендаций результатами статистического моделирования.

Практическая ценность п реализация реэультатоо. Сформированные таблицы асимптотически оптимального группирования используются п задачах оценивания параметров распределении и проверки статистических гипотез. Использование полученных таблиц оптимального группирования

в критериях согласия типа %2 обеспечивает их максимальную мощность при близких альтернативах. Вычисленные таблицы коэффициентов для оптимальных L-оценок для больших выборок п совокупности с таблицами оптимального группирования позволяют просто вычислять оценки по выборочным квантилям. Полученнные приближения предельных законов распределения статистик непараметрических критериев согласия типа Колмо-2 2

горова, Смирнова, со и П Мизеса (при проверке сложных гипотез) и со-отаегствуюшие таблицы процентных точек обеспечивают корректность применения этих критериев.

Все основные результаты реализованы в программной системе "Статистическим анализ одномерных наблюдений случайных величин", которая используется в учебном процессе студентов факультета прикладной математики и информатики НГТУ и дисциплинах "Исследование операций", "Методы моделирования п экономике" и других, в научных исследованиях, при обработке данных различных приложений и вместе с системой "Корреляционный анализ многомерных наблюдений случайных величин" передана в ряд организаций.

Апробация работы. Результаты исследований докладывались на Межреспубликанском семинаре "Исследования и расчеты надежности энергосистем па этапах проектирования и эксплуатации" (Фрунзе, 1978); V Всесоюзном симпозиуме ((Эффективность, качество и надежность "систем человек-техника"» (Ленинград. 1978); Международной конференции "Идентификация, измерение характеристик и имитация случайных сигналов" (Новосибирск, 1994); Российской конференции "Повышение эффективности производства и использования энергии в условиях Сибири" (Иркутск, 1994); Международной конференции "Актуальные проблемы электронного приборостроения АПЭП-94" (Новосибирск, 1994); Российской НТК "Информатика и проблемы телекоммуникаций" (Новосибирск, 1994,1996); Международной НТК "Информатика и проблемы телекоммуникаций" (Новосибирск, 1995, 1997); VIII Международном симпозиуме по ненарамстрическим и робастным методам в кибернетике (Красноярск, 1995); Международной конференции "Актуальные проблемы электронного приборостроения АПЭП-96" (Новосибирск, 1996); III Международной научно-технической конференции "Микропроцессорные системы автоматики" (Новосибирск, 1996); Втором сибирском конгрессе по прикладной и индустриальной математике ИНПРИМ-96 (Новосибирск, 1996); Fifth Conference of International Federation of Classification Societies IFCS-96 "Data Scitnce,

Classification and Related Methods" (Japan, Kobe, 1996); Межреспубликанском совещании по интервальному анализу (Новосибирск, 1996); Международной конференции "Информационные технологии в моделировании и управлении" (С.-Петербург, 1996); Международной конференции "Новые информационные технологии в университетском образовании" (Новосибирск, 1997); Международной конференции "Всесибирские чтения по математике и механике" (Томск, 1997).

Пакет программ по обработке группированных наблюдений демонстрировался на ВДНХ СССР (Москва, 1986). Программная система "Статистический анализ одномерных наблюдений случайных величин" демонстрировалась на выставке "Научно-технические достижения и интеллектуальная собственность высшей школы" (Москва, 1994), на выставке "Наука и образование Сибири - 95" (Новосибирск, 1995).

Публикации. Всего по теме диссертации опубликовано 57 работ, в том числе 52 печатные работы и 5 зарегистрированных отчетов по НИР. В конце реферата приведен список 46 публикаций, в которых отражены основные результаты исследований.

Структура работы. Диссертация состоит из введения, 5 глав основного содержания, заключения, списка литературы (279 наименований), 3 приложений. Общий объем - 444 страницы. В текст диссертации включены 141 рисунок и 23 таблицы. 118 таблиц предегавлены в приложениях.

Содержание работы

Слава 1. Структура представления данных, методы оценивания и условия существования оценок

В п. 1.1 рассматривается форма представления выборочных наблюдений. В работе анализируемые наблюдения рассматриваются в основном с позиций наиболее общего представления в форме частично группированных выборок. Понятие частично группированной выборки объединяет практически все возможные типы выборок случайных величин. Выборка может быть негруппироеаниой, т.е. состоять только из известных индивидуальных измерений, группированной, когда индивидуальные значения измерений неизвестны, а зафиксированы лишь границы интервалов и количества наблюдений, попавших в каждый интервал, или частично группированной. В последнем случае часть индивидуальных наблюдений известна, а для других отмечен лишь факт попадания наблюдения в соответствующий интервал значений. Простейшими случаями частично группированных выборок являются цеюурированные выборки, когда имеется один или два крайних интервала группирования.

Определение. Выборка называется частично группированной, если имеющаяся в нашем распоряжении информация связана с множеством непересекающихся интервалов, которые делят область определения случайной величины на к непересекающихся интервалов граничными точками

*(0) <*(!) <• ■•<*(*-!) <-*(fc).

где л'(о) - нижняя грань области определения случайной величины X, х^

- верхняя грань области определения случайной величины X, так, что каждый интервал принадлежит к одному из двух типов:

а) г -й интервал принадлежит к первому типу, если число «, известно, но индивидуальные значения х, , 7 = 1,п, неизвестны;

б) i -й интервал принадлежит ко второму типу, если известно не только число пп но и все индивидуальные значения х^, у = 1, п{.

В последующем суммирование по интервалам первого и второго типов обозначается соответственно через (£) и (£)■

(1) т

Дальнейшим обобщением частично группированной выборки является интервальная выборка, где каждое наблюдение представлено интервалом [й;,^], которому принадлежит неизвестное точно значение АГ|. Примерная классификация одномерных выборок показана на рис.1.

Не только форма представления наблюдений, обычно связанная с технологией их регистрации, влияет на методы обработки, но и методы анализа и свойства используемых статистических процедур иногда определяют преобразование исходных данных. Например, наблюдения группируют при применении критериев согласия %2 Пирсона и отношения правдоподобия. К группированию прибегают для получения робастных оценок.

Рис. 1. Классификация выборочных наблюдений

В п. 1.2 рассматриваются виды оценок и методы оценивания. Определяющими факторами при выборе метода оценивания являются структура представления наблюдаемых данных и качество оценок. Качество оценок определяется такими свойствами, как состоятельность и асимптотическая

эффективность. При учете введённой Pao эффективности второго порядка метод максимального правдоподобия предпочтителен. Кроме того, метод является наиболее универсальным по отношению к форме представления выборочных данных (структуре выборки), по которым оцениваются параметры. Метод, в отличие от других, позволяет находить оценки максимального правдоподобия (ОМП) параметров по негруппнрованным, частично группированным и группированным данным, т.е. даст возможность исследователю самому определять, в каком виде регистрировать и в каком виде хранить экспериментальную информацию в зависимости от характеристик приборов, регистрирующих наблюдения и объема экспериментальной информации.

ОМП неизвестного параметра по частично группированным наблюдениям называется такое значение параметра, при котором функция правдоподобия

(I) (2) j=I

где у - некоторая константа; /(х,8) - функция плотности случайной велико

чины; i¡(0)= | f(x,Q)dx - вероятность попадания наблюдения в i -н интервал значений, достигает максимума на множестве возможных значении параметра. При вычислении ОМГ1 максимизируют (1) или решают систему уравнений правдоподобия

(I) (2) 7=1 где т - размерность вектора параметров 0 = (0,,02.....0„,)т.

Вообще говоря, метод максимального правдоподобия требует значительного объема вычислений. А в случае группированных или часгнчно группированных данных возникает необходимость в решении задач численного интегрирования, в том числе вычисления несобственных интегралов. Именно трудности вычислительного характера, особенно в ситуации группированных и частично группированных данных, ограничивали использование метода максимального правдоподобия.

В п. 1.3 рассмотрены условия существования ОМП по частично группированным данным [9,12,14,15]. При решении уравнений правдоподобия по частично группированным выборкам (2), особенно по группированным, приходится останавливаться на вопросах существования решения уравнения правдоподобия и его единственности. Условия существования и единственности ОМП по частично группированным данным получены для ряда одномерных непрерывных распределений, наиболее часто используемых на практике при описании реально наблюдаемых случайных величин. Условия существования легко проверяемы и в совокупности позволяют предполо-

жить существование ОМП по группированным данным при распределении числа попаданий наблюдений в число интервалов, большее количества оцениваемых по выборке параметрои.

В частности, условия существования ОМП параметров распределения наибольшего экстремального значения с плотностью

/(х, ц, ст) = — exp j —- - ехр

Ц-.Т

СТ ст

определяются следующим образом.

Теорема 1. ОМП параметра сдвига Ц распределения наибольшего экстремального значения по частично группированной выборке существует при условиях > 0 или < N и нк < N и получается в качестве единствен-(2)

кого решения уравнения правдоподобия

1

= 0

где /у = е\р((ц-^)/ст].

Теорема 2. ОМП масштабного параметра ст распределения наибольшего экстремального значения по частично группированной выборке существует тогда и только тогда, когда 2_,ni>® ,п" и;«переалов первого

типа выполняется одно из следующих услочий:

а) при к- 2, щ < Nc~x для л^ < ji или

и, > Ne~x для > (.1;

б) при к >2, rtf < N. пк < N, и, + пк = N,

пк V~xfk-1) .

И, < —5--2-- для

е-1 ц-дг(1) е-1 M-~*(i)

в) при к > 2, И, +tlt < N и для некоторого i такого, что х^ < (.1

tau |л < > 0.

П этом случае ОМП определяется как решение уравнения правдоподобия

*(i-i) < С "

для лг^ > (I ;

1 1-е-. .¡¡е''е~е

_.ч-1

Е'%-

,с)

-e'l -e'l'l

е —е

^Н'-'ПГ

где з, = (ц- *(,))/<*; = (ц- ху)/а.

Условия существования ОМП по частично группированным выборкам рассмотрены для параметров распределений Рэлея, Максвелла, полунормального, Веибулла, наименьшего и наибольшего экстремальных значений, Коши, логистического, Лапласа, Парето, гамма-распределения.

В п. 1.4 рассмотрены подходы к оцениванию параметров распределений по интервальным выборкам [27,33,40]. При интервальной выборке наблюдения задаются интервалами, которые в отличие от группированного случая могут пересекаться. При таком представлении наблюдаемой выборки мы можем пытаться вычислить точечную или интервальную оценку неизвестного параметра распределения. К определению точечной оценки по интервальной выборке наиболее естественно адаптируется метод максимального правдоподобия. Интервальные оценки параметров могут быть построены при использовании оценок снизу и сверху для соответствующих статистик [24,25,26, 40], получаемых по частично группированной выборке.

Глава 2. Асимптотически оптимальное группирование и оценивание параметров распределений

В п. 2.1 задача асимптотически оптимального группирования данных формулируется с позиций оценивания параметров распределений.

Группирование наблюдений используется как при оценке параметров распределений, так и в задачах проверки статистических гипотез. До настоящего момента при группировании область определения случайной величины разбивается на интервалы равной длины или равной вероятности. Такой подход рассматривается в наиболее часто используемых для руководства источниках. Всякая группировка данных по сравнению с негруппиро-ванной выборкой ведет к потере информации, понимаемой в общем широком смысле. И это, естественно, отражается на качестве статистических выводов. Очевидно, что чем меньше потери информации, тем надежнее получаемые результаты. Постановка задачи асимптотически оптимального группирования вытекает непосредственно из асимптотических свойств оценок и критериев. Её решение, минимизирующее потери в количестве информации Фишера, повышает качество статистических выводов как при оценивании, так и при проверке гипотез.

ОМП параметров распределении по группированным данным являются асимптотически эффективными (если они существуют и единственны), и их асимптотическая дисперсия определяется соотношением

2)(0) = ^~|Л/р|(в),

где А/г(0) =

У } - инфоР-

% ш

мационная матрица Фишера по группированным наблюдениям.

Это же справедливо для оценок, получаемых в результате минимизации статистики %2 и ряда других.

Элементы информационной матрицы зависят от граничных точек интервалов, так как -Р;(в) =/Н-*^-!)'*^)'®)- В случае, когда функция плотности распределения определяется скалярным параметром или осуществляется оценивание только одного параметра при известных остальных, целью задачи асимптотически оптимального группирования является минимизация асимптотической дисперсии ОМП по группированным данным. И эта задача сводится к максимизации информационного количества Фишера о параметре по группированной выборке, т.е. к решению задачи нелинейного программирования

тах «ах /г(в). (3)

где /г(0) - количество информации Фишера о параметре по группированным наблюдениям.

При оценивании вектора параметров мы имеем дело с информационной матрицей. В этом случае в качестве критериев оптимальности могут быть выбраны различные функционалы от асимптотической дисперсионной матрицы, но наиболее естественно минимизировать обобщенную асимптотическую дисперсию (максимизировать с!е1Л/г(9) = |Л/1-(0)|), т-е-решать задачу нелинейного программирования вида

шах |МГ(0)|. (4)

Задачи (3)-(4) представляют собой задачи нелинейного программирования с допустимым множеством решений, задаваемым линейной системой ограничении, и нелинейной целевой функцией. При вогнутой целевой функции эти задачи имеют единственное решение. Но в таких задачах вогнутость целевой функции обеспечивается не всегда, и в некоторых случаях задача асимптотически оптимального группирования оказывается многоэкстремальной.

В п. 2.2 задача асимптотически оптимального группирования рассматривается для конкретных законов распределения, в основном для тех, для которых решение получается в виде, инвариантном относительно параметров распределения [1-3,7-10,12-17,44,45].

На основе полученных решений сформированы таблицы асимптотически оптимального группирования. В совокупности получены таблицы для распределений экспоненциального, полунормального, Рэлея, Максвелла, модуля многомерного нормального вектора (М = 4 + 9), Парето, Эрланга, Лапласа, нормального, логарифмически нормальных (1п и Коши, Вейбулла, распределений минимального и максимального значения, двойного показательного, гамма-распределения. В общей сложности

построено 54 таблицы оптимальных граничных точек и соответствующих вероятностей, которые приведены в приложении П1.

В частности, для распределения Вейбулла с плотностью

решение задачи вида (2) для различного количества интервалов к приведено в табл. 1, где асимптотически оптимальные граничные точки интервалов представлены в виде ^ = {х(|) ' Соответствующие вероятности приведены в табл. 2.

.Относительная асимптотическая информация

А = |Л/Г(6)!/1МН(0)| = |Мг(е)|/1,6449340? ,

где МЦ (0) - информационная матрица Фишера о параметрах распределений Вейбулла по негруппнрованным наблюдениям, значения которой приведены в таблицах, позволяет судить о потерях информации.

Для сравнения на рис. 2 показан выигрыш в относительной асимптотической информации при использовании оптимального группирования по сравнению с разбиением на интервалы равной вероятности и оценивании двух параметров распределения Вейбулла {6,12].

63 50 40 30 20 10 1 %

к

\

0 3 4 5 6 7 8 9 10 11 12 13 И 15

Рис. 2. Относительные потери в информационном количестве Фишера при равновероятном группировании по сравнению с асимптотически оптимальным группированием для распределения Вейбулла

Оптимальные граничные точки интервалов группирования в виде

и ~ (*(/)) ПРН оценивании двух параметров распределения Вейбулла и

2

при проверке гипотез о согласии по критериям % Пирсона и отношения правдоподобия и соответствующие значения относительной асимптотической информации А

к '2 'з и и и и

3 0.2731 2.6067

4 0.2109 1.3979 3.4137

5 0.1044 0.5123 1.9590 3.8606

6 0.0772 0.3649 1.2269 2.5726 4.4096

7 0.0501 0.2318 0.6758 1.7192 2.9922 4.7959

8 0.0377 0.1740 0.4837 1.1904 2.2041 3.4285 5.2049

9 0.0275 0.1269 0.3431 0.7829 1.6027 2.5713 3.7667 5.5273

10 0.0213 0.0988 0.2638 0.5770 1.1805 1.9932 2.9269 4.1024

11 0.0165 0.0771 0.2046 0.4359 0.8560 1.5344 2.3192 3.2319

12 0.0123 0.0618 0.1638 0.3434 0.6517 1.1789 1.8570 2.6163

13 0.0106 0.0500 0.1326 0.2754 0.5106 0.9030 1.4807 2.1401

14 0.0087 0.0412 0.1094 0.2261 0.3126 0.7116 1.1793 1.7608

15 0.0072 0.0344 0.0913 0.1881 0.3394 0.5734 0.9387 1.4426

и ¡,2 'п А

0.4079

0.5572

0.6836

0.7571

0.8109

0.8480

0.8756

5.8478 0.8963

4.3930 6.1270 0.9123

3.5103 4.6589 6.3853 0.9248

2.8810 3.7623 4.9016 6.6208 0.9349

2.4019 3.1286 3.9997 5.1314 6.8444 0.9431

2.0116 2.6381 3.3538 4.2169 5.3425 7.0506 0.9498

Оптимальные частоты при оценивании двух параметров распределения Вейбулла, при оценивании двух параметров распределения наименьшего экстремального значения и при проверке гипотез о согласии по критериям

%2 Пирсона и отношения правдоподобия и соответствующие значения относительной асимптотической информации а

к Ц Рг Я А Я

3 0.2390 0.6872 0.0738

4 0.1901 0.5628 0.2142 0.0329

5 0.0991 0.3018 0.4581 0.1199 0.0211

6 0.0743 0.2314 0.4011 0.2169 0.0641 0.0122

7 0.0489 0.1581 0.2843 0.3295 0.1290 0.0419 0.0083

8 0.0370 0.1227 0.2238 0.3124 0.1938 0.0779 0.0269 0.0055

9 0.0271 0.0921 0.1712 0.2525 0.2557 0.1250 0.0533 0.0191

10 0.0211 0.0729 0.1379 0.2065 0.2545 0.1708 0.0827 0.0371

И 0.0164 0.0578 0.1108 0.1683 0.2218 0.2101 0.1164 0.0589

12 0.0131 0.0468 0.0912 0.1395 0.1882 0.2136 0.1515 0.0830

13 0.0105 0.0383 0.0754 0.1165 0.1592 0.1947 0.1779 0.1099

14 0.0087 0.0317 0.0632 0.0988 0.1357 0.1710 0.1836 0.1354

15 0.0072 0.0266 0.0535 0.0842 0.1163 0.1486 0.1725 0.1548

Рч Ло Р» А

0.4079

0.5572

0.6836

0.7572

0.8109

0.8480

0.0040 0.8756

0.0136 0.0029 0.8963

0.0271 0.0102 0.0022 0.9123

0.0432 0.0204 0.0078 0.0017 0.9248

0.0615 0.0329 0.0158 0.0061 0.0013 0.9349

0.0814 0.0467 0.0255 0.0124 0.0048 0.0011 0.9431

0.1025 0.0623 0.0365 0.0203 0.0099 0.0039 0.0009 0.9498

В п. 2.3 обсуждаются вопросы возможного использования асимптотически оптимального группирования в задачах точечного оценивания параметров, выделяются моменты, когда применение асимптотически оптимального группирования может дать положительный эффект. Во-первых, при группировании информации в целях сокращении объемов хранимых или передаваемых по каналам связи данных о наблюдениях случайных величин с минимальными потерями информации об этом законе. Во-вторых, для предварительного группирования исходных негруппированных выборок с дальнейшим вычислением робастных ОМП по группированным данным. В-третьих, в случае больших выборок для приближенного вычисления квантилей, соответствующих асимптотически оптимальному группированию, и последующего вычисления по ним оценок параметров (также робастных).

В и. 2.4 рассматриваются предложенные оценки параметров распределений по выборочным асимптотически оптимальным квантилям, опирающиеся на полученные таблицы оптимального группирования [8,12]. Формулы для вычисления таких оценок получены для параметров законов экспоненциального, полупормалыюго, Рэлея, Максвелла, модуля многомерного нормального вектора, Парето, Эрланга, Лапласа, нормального, логарифмически нормальных (1п и 1§), Коши, Вейбулла, распределений минимального и максимального значения, двойного показательного. В частности, оценки параметров распредележп Вейбулла имеют вид

где I,- - граничные точки интервалов, в виде, инвариантном относительно параметров (см. табл. 1); х^ - выборочные квантили, полученные при разбиении упорядоченной выборки на интервалы пропорционально оптимальной частоте ni = 1ЧЦ (см. табл. 2). Исследования, в том числе методами статистического моделирования, зависимости числа интервалов к, при которых предлагаемые оценки оказываются достаточно близкими к ОМП по исходным негруппированным данным, от объёма выборки n показали, что количество интервалов должно выбираться из условия n1) >5^-10 для интервала с наименьшей вероятностью попадания.

В п. 2.5 рассмотрены оптимальные ¿-оценки параметров сдвига и масштаба по выборочным квантилям [31,44]. ]. Ода\уа, опираясь на асимптотическое распределение к — 1 выборочных квантилей (при к интервалах) для функции плотности, зависящей только от параметра расположения ц и от параметра рассеяния о, получил линейные несмещенные оценки параметров сдвига и масштаба по методу наименьших квадратов, в основе которых лежат значения выборочных квантиле/! (Ь-оценки).

Если использовать таблицы асимптотически оптимального группирования, то можно получить оптимальные оценки параметров сдвига и масштаба в виде линейной комбинации выборочных квантилей.

Формулу для оценивания ц при нзестном о можно привести к виду

4-1

Д = а0а + ]>]а,*(/)1 (5)

1=1

а формулу для оценивания о при изестном р к виду

¿-1

1=1

Аналогично формулы для неизвестных параметров сдвига и масштаба преобразуются следующим образом:

*-1

А = 2Л'*(<>■ (7>

;=1

1=1

Коэффициенты а,, р,, -¿¡, и, зависят от граничных точек (квантилей стандартизованного распределения). Очевидно, что так как рассматриваемые оценки асимптотически эффективны, то использование квантилей (граничных точек интервалов), соответствующих асимптотически оптимальному группированию, обеспечнваег оптимальные свойства этих оценок: минимум асимпотнческой дисперсии, а в случае оценивания сразу двух параметров - минимум обобщенной асмптотической дисперсии.

На основании построенной нами совокупности таблиц асимптотически оптимального группирования, сформированы таблицы коэффициентов а,, у,, и, для формул вида (5), (6), (7) и (8) для распределении нормального, логарифмически нормальных, логистического, Коши, наименьшего экстремального значения, наибольшего экстремального значения, Лапласа. При этом в зависимости от того, известен ли один из параметров или неизвестны оба параметра, наборам коэффициентов а(, р, и паре ^fi,vi соответствуют свои таблицы асимптотически оптимального группирования.

Для распределении экспоненциального, модуля нормального вектора (ш = 1 + 9), частными случаями которого являются полунормальное распределение (т -1), Рэлея (т = 2) и Максвелла (ш = 3), таблицы коэффициентов а1> Р/> У/> Ч/ опираются на таблицы асимптотически оптимального группирования только относительно масштабного параметра о. Построенные таблицы коэффициентов приведены в приложении П2.

Для иллюстрации на рис. 3 представлены данные статистического анализа для распределения наименьшего экстремального значения, когда по смоделированной выборке определялись параметры Дно.

О. 47 П.42

□ .2« 0.22 О.ХА 0.Х4 □ .1» О. 14 0.02 О .09 О.МГ

иа)*о.ои»о м¿1-1.оо«0

Г»-и»

От< •> 1.1471 0.7641

Э.Э4Т9 0.§1С7

Хм -*■*»»«» < в) ».3373 0.7855

э.ээтз 0.8114

К о.тмэ 0.4842

1.9»? 0.2749

0.041* о.езеэ

Оивг*<««*)-и*АЯР о. лет 0.7437

' I ' I -1-1-Г

-Т. а» -4.72 -2.XI 0.20 Я. «2 Я. 2» 7.24 10.32 X». 2В 12.27

Рис. 3. Результаты статистического анализа для распределен»! наименьшего экстремального значения с параметрами Дик

На этом и последующих аналогичных рисунках приведены значения

2

статистик отношения правдоподобия, X Пирсона, Колмогорова, Смирном, га'" и О2 Мизсса, вычисляемые при проверке гипотез о согласии, и

00 ^

соответствующие вероятности вида > }= j g(s)d.s, где 5 - вычисленное значение соответстзутощей статистики, - предельное распределение вероятностей ллн статистики. Гипотеза о согласии не отвергается, если Р{1? > З*} > а, где а - заданный уровень значимости. Для статистик отношения правдоподобия и у} Пирсона значения вероятностей приводятся при двух различных степенях свободы. Разность степеней свободы определяется количеством параметров, оцененных по выборке. При вычислении вероятностей вида Р{5 > для непарачегрнчсских критериев ти-

1

па Колмогорова, Смирнова, со' и П Мизеса учитывается факт потери ими свойства "свободы от распределения".

Рассмотренные оценки, как и все оценки по группированным данным, являются робастными. Они устойчивы к наличию аномальных ошибок измерений, к малым отклонениям от исходных предположений о виде наблюдаемого закона распределения. При этом практически всегда оценки Д и сг оказываются предпочтительней (по критериям согласия) ОМП по группированным данным Дг и 5р.

В п. 2.6 проанализированы рекомендации по выбору числа интервалов. Разброс значений к, задаваемых различными формулами, достаточно велик при больших N. Поэтому на практике при выборе числа интервалов больше руководствуются разумными соображениями, выбирая число интервалов так, чтобы в них попадало число наблюдений не менее 10.

Очевидно, что "оптимальная" величина к зависит не только от объёма выборки, но и от вида закона распределения. Она, конечно, зависит и от способа группирования. Но не следует придавать выбору к слишком большого значения. При асимптотически оптимальном группировании относительно скалярного параметра при 10-11 интервалах в группированной выборке сохраняется около 98 % информации, при оптимальном группировании относительно вектора параметров (два параметра) н 15 интервалах -около 95 %. Дальнейшее увеличение количества интервалов существенного значения не имеет. Выбор конкретного числа интервалов должен осуществляться из следующих соображений. При оптимальном группировании вероятности попадания в интервалы в общем случае не равны. Обычно минимальны вероятности попадания в крайние интервалы. Поэтому к желательно выбирать из условия NP|(Q) ;> 5 +10 для любого интервала при оптимальном группировании. В случае использования равновероятного группирования порядок к должен быть примерно таким же, как и при асимптотически оптимальном группировании.

Глава 3. Робастное оценивание параметров распределений

В статистике под робастностыо понимают нечувствительность к малым отклонениям от предположений. Естественно, что при условии сохранения хороших качеств оценок лучше всего использовать робастные методы оценивания. В п. 3.1 кратко рассматриваются способы вычисления робастных оценок.

В п. 3.2 подчеркивается высокая устойчивость оценок максимального правдоподобия по группированным наблюдениям к наличию в выборке аномальных измерений, к отклонению реально наблюдаемого закона от предполагаемого, к засорению выборки данными, принадлежащими другому закону [20,28,32,42]. Настоятельно рекомендуется (при наличии возможных отклонений) перед вычислением оценок параметров использовать процедуру предварительного группирования наблюдений. Группирование выборки позволяет резко снизить влияние аномальных наблюдений, а иногда практически исключить последствия присутствия их в выборке. Резко снижается влияние на оценки параметров и отклонений вида наблюдаемого закона от предполагаемого.

Пример 1. Выборка по нормальному закону объемом n - 1000 моделировалась с математическим ожиданием ц = 0 и среднеквадратическим отклонением сг = 1. Вычисленные значения ОМП Д =-0.0113 и с = 1.0198. Далее в выборку "вкралось" всего три аномальных наблюдения (в результате замены трех первых наблюдений: -0.7783 на -10.7783, -0.6389 на —10.6389, 0.1698 на 10.1698). Результаты анализа с теоретической и эмпиричекой функциями распределения приведены на рис. 4. Полученные ОМП параметров нормального распределения р. = —0.0213 и с = 1.1712. Особенно существенно наличие аномальных наблюдений по-

влияло на оценку среднеквадратического отклонения. По всем критериям согласие с нормальным законом будет отклонено при уровене значимости а > 0.0008.

Рис. 4. Эмпирическая функция распределения (!) н теоретическая функции нормального распределения (2), полушшл.я по выборке с аномальными наблюдениями

На рис. 5 представлены результаты оценивания параметров нормального распределения и последующего анализа по выборке, содержащей три аномальных наблюдения, но предварительно сгруппированной. Полученные ОМП параметров нормального распределения по группиро^:::::,::.! данным Дг = -0.0056 и дг —1.0423.

3

04Я»

ПТ-Ч»

С'нлпа^ча! *> 5.1Е1

5.1111 0 Т)!Ч

Х1(-Я.«|*м 1 в> 5.8125 ¡1.5:: зо

(1 5.С1Я с.гссг

0.(7(4 1!.ЮМ

Снмрмв»* 0.83М 0.65СТ

|}Н|Г|(ИМ>'И.1ПР 0.Я55 Я71П5

Онага(№>^1.>|у 0.УД8

-3.28 -1.9» -О.Эв

а.16 э.02

С.23 7.99

Рис. 5. Результаты оценивания по сгруппированной выборке и последующего статистического анализа при налички в пыборке аномальных измерений

Пример 2. Выборка объёмом 1000 наблюдений смоделирована в соответствии с распределением Вейбулла с плотностью

0о(х-е2)е°-' | (х-в

л._д л

е

м

При моделировании были заданы параметры: во = 2, 9| = 1, В2 = 0. В процессе регистрации восемь наблюдений "подверглись" сильным искажениям.

На рис. 6 приведены результаты статистического анализа полученной выборки. В данном случае получили закон распределения Вейбулла с параметрами 0О = 1.4433, 8, = 1.0613, Э2 =0. Согласие по всем критериям отвергается: наличие аномальных наблюдений сыграло свою роль.

На рис. 7 приведены результаты статистического анализа, когда перед оцениванием выборка разбита на интервалы равной частоты, затем по получившейся группированной выборке были найдены оценки параметров распределения 0О= 1.9668, в, = 1.0258, 02 =0, после чего проверены гипотезы о согласии исходной выборки с полученным законом распределения. При проверке гипотез о согласии исходная выборка разбивалась на интервалы в соответствии с асимптотически оптимальным группированием. Э данном случае критерии отношения правдоподобия и % Пирсона оказываются более чувствительными, чем остальные: улавливают наличие аномальных измерений. Гипотезы о согласии при а > 0.0027 по этим критериям должны быть отвергнуты.

Рис. 6. Результаты статистического анализа исходной выборки но негрушшроваиным данным

Рис. 7. Оценивание с предварительным равночастотным группированием и проверкой гипотез о согласии с разбиением на асимптотически оптимальные интервалы

Обычно наиболее устойчивыми к отклонениям оказываются оценки при разбиении выборки на интервалы равной вероятности. В то же время в случае асимптотически оптимального группирования потери информации о параметрах закона распределения, связанные с группированием, существенно меньше, чем при равновероятном. В некоторых случаях оценки с использованием асимтотически оптимального группирования оказываются так же устойчивыми, как и при равновероятном, и при этом пока-зьтагат лучшие результаты. Поэтому рекомендуется вычислять две оценки по группированным данным с использованием как оптимального, так н равновероятного группирования и остановиться на той оценке, которая дает лучшее согласие с исходной выборкой.

Существенное различие в оценках, вычисляемых по иегруппирован-ным н сгруппированным данным, может служить сигналом о том, что между имеющимися данными и нашими предположениями (знаниями о виде закона распределения) имеются некоторые разногласия: либо налицо засорение выборки, либо в измерения вкрались ошибки, либо наши предположения о виде закона распределения (модели) неверны.

В п. 3.3 свойство робастности ОМП исследуется с позиций функции влияния, предложенной Хэмлелом [35,42]. Влияние ещё одного наблюдения на очень большую выборку может характеризоваться функцией (кривой) влияния

мО 5

где - единичная масса в точке х\ и - функция распределения, к которому принадлежит выборка; - вычисляемая статистика.

Функция влияния позволяет оценить относительное влияние отдельного наблюдения на значение статистики критерия или оценку параметров.

Если функция влияния не ограничена, то резко выделяющиеся наблюдения могут приводить к существенным изменениям оценок или статистик. Чувствительность к большой ошибке может характеризоваться величиной

у* =sup|/ir(x;F, Т)\.

Для асимптотически эффективных оценок, к которым относятся оценки максимального правдоподобия по негруппированным данным, функция влияния.удовлетворяет равенству

JF(x-,Fe,T) = J-\Fe)^,

где J(F6) - количество информации Фишера. Анализ функций влияния ОМП параметров различных распределений [35], в том числе того множества из 26 семейств распределений, которое включено в программную систему, позволяет утверждать, что ОМП по негруппированным данным, вопреки порой бытующему заблувдению, в большинстве своём являются не-робастными, так как их функции влияния оказываются неограниченными на множестве определения случайных величин. Исключение составляют ОМП по негруппированным наблюдениям параметров распределений Каши и логистического (параметр сдвига), функции влияния которых ограничены.

В случае ОМП по группированным данным функция влияния имеет

вид

IF(x-,F,B) = - к ^^-, х^<х<х>,

z

ампР/о) ôQ2

и всегда представляет собой ограниченную ступенчатую зависимость. Это говорит о том, что ОМП по группированным данным всегда оказываются робастными. На рис. 8 и 9 представлены функции влияния ОМП по негруппированным и группированным данным для масштабных параметров распределений нормального и Коши.

Для оценок, использующих квантили, соответствующие асимптотически оптимальному группированию, и являющихся одним из частных случаев L-оценок, функция влияния имеет вид

if(x,f,t) = ¿в, [Pj - c[f~1(pj)- х]}/f(f-l(pj)),

где üj - коэффициенты при выборочных квантилях в формуле для вычисле-

7 f 1, « > О,

ния L-оценок; р, - V /у(6), с(н) = < ' Она также представляет со-

М I0' "<0-

бон ступенчатую ограниченную зависимость, чго говорит о робастности этих оценок.

Рис. 8. Функции влияния для параметра масштаба нормального распределения по негруппироваиным н группированным данным (ступенчатая линия)

^нкин* влммымя пиимтг« «101: Пмичтг н«нт|1а РмпмПяламна! Комм

-ш -в.«вт -а.эээ о э.»ээ е.667 ю

Рис. 9. Функции влияния для параметра масштаба распределения Кошн по негруппироваиным (непрерывная) и группированным данным (ступенчатая линия)

В п 3.4 показано [32,41], что совокупность предварительного группирования данных для вычисления робастиых оценок и применение асимптотически оптимального группирования в критериях согласия, используемые на этапе идентификации закона распределения по выборке, содержащей аномальные наблюдения, позволяют эффективно отбраковывать грубые ошибки измерений. Алгоритм параметрической отбраковки грубых ошибок измерений реализован в программной системе и хорошо зарекомендовал себя в сочетании с процедурой группировампя наблюдений перед оцениванием.

Глава 4. Вопросы применения критериев согласия

В п. 4.1 рассматриваются общие вопросы проверки гипотез о согласии. В п. 4.2 рассматривается применение асимптотически оптимального группирования наблюдений в критериях согласия %2 Пирсона, отношения правдоподобия, в критериях типа %2 и ряде других [10,12,41,43,45]. Группирование наблюдений приводит к потере информации, и эти потери зависят от выбора варианта группировки данных.

Фишеровская информация служит мерой внутренней близости распределений случайных величин, и этот внутренний характер связан с мощностью различения между близкими значениями параметра. Так как в любой статистике не больше информации, чем в исходной выборке, то мощность различения с помощью статистики не больше, чем с помощью всей выборки. Следовательно, если нужно выбирать между несколькими статистиками, следует предпочесть ту, для которой потери фишеровской информации минимальны.

Статистика критерия согласия %2 Пирсона вычисляется в соответствии с соотношением

у1 _ [щш-рт1

и в случае простой гипотезы в пределе подчиняется ^-распределению с (к - 1)-й степенью свободы, если верна нулевая гипотеза. Эта же статистика подчиняется нецентральному ^-распределению с тем же числом степеней свободы и параметром иецентралыюсти

Ь № '

если верна конкурирующая гипотеза, и выборка соответствует распределению того же типа, но с параметром 0,. Мощность критерия %2 Пирсона представляет собой неубывающую функцию от X.

Показано, что при малых 60 = 0( — 0

* \р,(6) + УТР,(6)80 - Р,(0)|2 _ * 60Ту^(0)уТрд0)59 _

к т к ш

= Л50Т

^ЛУР,(0)УТР,(9)

^ р,т

60 = М>9ТЛ/ г(9)59,

где Мг(9) - информационная матрица Фишера по группированным данным. Аналогичные соотношения получены для критерия отношения правдоподобия, критериев, использующих модифицированную статистику у2, меру Хеллингера, дивергенцию Кульбака-Лейблера, критериев типа х2-

Очевидно, что, минимизируя потерн а информации Фишера, максимизируем мощность критерия при близких альтернативных гипотезах. Следовательно, снижается риск принятия нулевой гипотезы, Нигда на самом деле выборка принадлежит некоторому другому закону. I ¡1ким образом, как и при оценивании параметров, имеем ту же самую задачу асимптотически оптимального группирования. Это значит, что одни и те же таблицы асимптотически оптимального группирования могут использоваться как в задачах оценивания, так и в задачах проверки гипотез о согласии.

Для иллюстрации на рис. 10 приведены функции мощности критерия X' при проверке согласия с экспоненциальным распределением для числа интервалов £=3,10, объема выборки Л^ = 1000, уровня значимости а = 0.05 в случае асимптотически оптимального группирования и при разбиении на интервалы равной вероятности.

распределением: / - для оптимального группирования; 2 - для равновероятного

Для многих законов распределений граничные точки интервалов не могут быть выражены а виде, инвариантном относительно параметров распределений, т.е. они остаются функциями этих параметров. Это касается, например, таких законов, как гамма- и бега-распределения, экспоненциальное семейство распределений. Для этих распределений формирование таблиц асимптотически оптимального группирования теряет смысл. В таких случаях задача асимптотически оптимального группирования должна

решаться при конкретных значениях параметров в процессе проверки гипотезы о согласии, как это реализуется в программной системе.

На ряде примеров демонстрируется, что критерии отношения правдоподобия и % Пирсона при использовании асимптотически оптимального группирования лучше, чем непараметрическне критерии Колмогорова,

1 9

Смирнова, го и П Мизеса, улаливают малые отклонения от предположений в наблюдаемых данных (наличие аномальных наблюдений, отклонения вида закона, "загрязнение" выборки).

В п. 4.3 методами статистического моделирования исследуется зависимость (предельных) распределений статистик %2 Пирсона и отношения правдоподобия от способа группирования в случае простых и сложных гипотез (при оценивании параметров по нсгруппированным данным) [38].

Результаты моделирования и анализа показали, что если по наблюдаемой выборке не оценивались параметры закона, то распределения статистик критериев отношения правдоподобия и % Пирсона при справедливой гипотезе Н0 (О(8\Н0)) достаточно хорошо согласуются с как при равновероятном, так и при асимптотически оптимальном группиросании. Различия между распределениями статистик При равновероятном и асимптотически оптимальном группировании заметны, но не значимы. При этом распределения статистик при равновероятном группировании в целом оказываются ближе к распределению.

В условиях, когда по иегруппированным наблюдениям определяются оценки р параметров, распределения этих статистик хорошо согласуются с гамма-распределениями. При этом:

1. Предельные распределения статистик критериев отношения правдоподобия и х2 Пирсона существенно зависят от способа группирования, особенно при малом числе интервалов.

2. Распределения статистик зависят не только от количества.оцененных по выборке параметров, но и от того, какой параметр оценивался. Оценивание параметра сдвига приводит к более значительному изменению распределений статистик, чем оценивание масштабного параметра.

3. Эмпирические распределения статистики отношения правдоподобия

оказываются ближе к предельному теоретическому ^„^-распределению,

чем соответствующие эмпирические распределения статистики %2 Пирсона.

4. В целом, при малом числе интервалов и оценивании р параметров число степеней свободы предельного распределения уменьшается на "число степеней свободы", меньшее р. При этом эмпирический закон распределения статистики при асимптотически оптимальном группировании блнже'к

теоретическому xl-p-\ -распределению, чем при равновероятном группировании (рис. 11).

2

Рис. i I. Распределение статистики X Пирсона при 5 интервалах группирования и оценивании масштабного параметра нормального распределения: У - при оптимальном; 2 • при равновероятном группировании

5. С ростом числа интервалов к разность между функцией распределения Хк-р-1 и действительными функциями распределения статистик отношения

правдоподобия и %2 Пирсона в случае асимптотически оптимального групппировация убывает существенно быстрее.

6. Расчеты показали, что при использовании для вычисления P{S > S }, где S - вычисленное по выборке значение статистики, функции распределения Хк-р-1 ПРИ асимптотически оптимальном группировании и малом

числе интервалов (¿<10) при малых P{S > S } (именно при малых вероятностях принимается решение, отклонить гипотезу Н0 или нет) погрешность имеет величины, которые несущественны для практических задач, т. е. в этом случае, используя Хк-р-\• мы не совершаем большой ошибки.

7. С ростом количества интервалов (при соответствующем объеме выбор-кн) отличие предельных распределений от распределений Хк-р-1 11 ПРИ асимптотически оптимальном и при равновероятном группировании становится несущественным.

2

Распределения статистик % Пирсона и отношения правдоподобия при справедливой гипотезе //| всегда (и с оцениванием параметров и без оценивания) сильно зависят от варианта группирования. Разность G(S"|//0)—) при близких альтернативах и асимптотически опти-

малыюм группировании максимальна, следовательно, максимальна мощность критерия. Например, на рис. 12 приведены полученные в результате моделирования функции распределения С(5|Я|) при использовании асимптотически оптимального и равновероятного группирования, когда сложная гипотеза Н0 соответствует нормальному закону распределения, а гипотеза Н| - логистическому. Эти два закона достаточно близки и трудно различаются с помощью критериев согласия. При проверке простой гипотезы наблюдается аналогичная картина.

Рис. 12. Распределения статистики ^ Пирсона при проверка сложной гипотезы

В п. 4.4 методами статистического моделирования исследуются предельные распределения статистик непараметрнческих критериев типя

2 2

Колмогорова, Смирнова, ю и(1 Мизеса При проверке сложных гипотез вида Н0: /(л,00) = /(х,в), где /(•) - плотность распределения наблюдаемого закона; 80 - истинное значение параметра; 0 - оценка параметра, вычисленная по выборке [37,39]. При оценивании по выборке параметров рассматриваемые критерии теряют свойстео "свободы от распределения", и предельные распределения статистик зависят как от числа и вида оцененных параметров, так и от исследуемого закона распределения /(л,6).

Статистики Колмогорова и Смирнова определяется выражениями „ _ (6МУ + 1)2

- ГГТ7-> "т ~ ^Тг '

Ш

где

[Л'

N - объем выборки; х1,хг,...,хк - упорядоченные по возрастанию выборочные значения; ЯХх) - функция распределения, согласие с которой проверяется.

Распределение величины /2, если по выборке не оценивались параметры, в пределе подчиняется закону Колмогорова с функцией распределения К(х). В аналогичной ситуации статистика Смирнова подчиняется в пределе распределению %г с числом степеней свободы, равным 2.

Статистики а2 п Мизеса имеют соответственно вид

= №aí

1

5п = Мй=-Л--2]Г

ы

12./V 2i-l

2ÍV

SKSrT-

ln ) + (I - ^í) ln(l - F(x¡))

Для этих статистик в случае простых гипотез также известны предельные распределения вероятностей

¡im P{Na>2N <х}= al(x), lim P{Nü}n <x} = a2(x).

со >co

Б случае простых и сложных гипотез моделировались выборки значений статистик TjSk / 2 , Sr]J, S^, S^.

В качестве примера на рис. 13 приведены результаты моделирования законов распределения величины / 2, используемой а критерии Колмогорова, при проверке гипотез о согласии с нормальным распределением при справедливости гипотезы HQ.

О. 9 O.S О. 7

и.6

О. 5 O.'í О.З

•э. г O.Í

Рис. 13. Эмпирические функции распределения статистики / 2 при различном количестве оцениваемых параметров нормального закона: 0 - функция распределения Колмогорова; / - по выборке не оценивались параметры; 2 - по внборке оценивался только масштабный параметр Од; 3 - оценивался только параметр сдвига 0|; 4 - оценивались одновременно оба

параметра

о.в

а.а

. 4

Для сравнения крестиками, лежащими практически на эмпирическом распределении "4", обозначены значения, соответствующие процентным точкам при проверке нормальности, взятые из таблиц М.Стефенса, а кружочками - значения, полученные по формулам Ю.Н.Тюрина.

Анализ полученных эмпирических законов распределения статистик непараметрических критериев показал, что почти всегда они хорошо описываются одним нз двух законов распределения: логарифмически нормальным или гашт-распределением.

В табл. 3 сведены результаты идентификации законов для статистики критерия Колмогорова.

Таблица 3

Предельные распределения статистики Колмогорова

№ п/п Распределение случайной величины Оценивался только масштабный параметр Оценивался только параметр сдвига Оценивалось два параметра

1 Экспоненциальное 1п1^(-0.3477,0.2638)

2 Полунормалыюе у(3.4090,8.2385,0.3443)

3 Рэлея 1пК(-0.336б,0.2579)

4 Мзксвелла у(3.4809,9.0301,0,3417)

5 Лапласа у(3.2121,6.5137,0.3400) 1н1Ч(-0.3721.0.2426) 1пЫ(-0.4б79,0.7.329)

6 Нормальное •¡'(3.6448,7.0208,0.3164) 1п1Ч (-0.4349,0.2337) |п>1(-0.4849,0.2254)

7 Логнормальное у(3.7326,7.4146,0.3265) у(3.0357,8.4464,0.3532) уО 7311,10.045,0.30621

8 Коши у(3.1388,6.7500,0.3261) 1пЫ(-0.3691,0.2542) у(4.2049,13.595,0.2983)

9 Логистическое у(3.3283,6.6563,0.32Б0) 1пЫ(-0.4681,0.2243) 1п1Ч(-0.5684,0.2111)

10 Наибольшего значения >(3.5340,6.9273,0.3302) 1пЫ(-0.3588,0.2555) (-0.4950,0.2231)

11 Наименьшего значения у(3.474б,6.9336,0.3362) у(3.7737,9.3627,0.3293) ^N(-0.5009,0.2221)

12 Вейбулла Т(3.6550,9.0285,0.3282) 1пГ>1(-0.2325,0.2974) *• 1г^(-0.5026.0.2202)

♦* - оценивался параметр формы распределения Вейбулла.

Указание в клетке на конкретное распределение означает, что полученное эмпирическое распределение соответствующей статистики в донном случае хорошо описывается указанным законом. В таблице через 1пМ(0|,8о) обозначено логарифмически нормальное распределение с функцией плотности

1 -(1пл-е,)2/2о;

7™ С

хд0*Лп

через 7(9о>9|»02) " гамма-распределение с функцией плотности

г(е„)1 2/

Рассчитанные приближенные значения верхних процентных точек для статистики /2 приведены в табл. 4. Точность этих процентных точек вполне достаточна для корректного использования критерия в задачах статистического анализа.

Процентные точки распределения статистики Колмогорова

№ Распределение Оцениваемые Верхние процентные точки

п/п случайной величины параметры 0.15 0.1 0.05 0.025 0.01

1. Экспоненциальное Масштабный 0.9291 0.9872 1.0861 1.1846 1.3145

2. Полуформальное Масштабный 0.9879 1.0519 1.1539 1.2511 1.3752

3. Рэлея Масштабный 0.9402 0.9999 1.0952 1.1859 1.3017

4. Максвелла Масштабный 0.9284 0.9890 1.0853 1.1770 1.2938

5. Лапласа Масштабный 1.1031 1.1897 1.3222 1.4501 1.6147

Сдвиг 0.8914 0.9435 1.0240 1.0992 1.1935

Два параметра 0.7966 0.8467 0.9261 1.0016 1.0978

6. Нормальное Масштабный 1.1203 1.2081 1.3446 1.4731 1.6356

Сдвиг 0.8330 0.8790 0.9497 1.0156 1.0982

Два параметра 0.7808 0.?255 0.8954 0.9611 1.0442

7. Логнормальное Масштабный 1.0880 1.1736 1.3147 1.4523 1.6308

Сдвиг 0.9147 0.9875 1.1083 1.2266 1.3805

Два параметра 0.8539 0.9268 1.0500 1.1723 1.3330

8. Коши Масштабный 1.0590 1.1497 1.2950 1.4339 1.6116

Сдвиг о.?оаа 0.9659 1.0589 1.1481 1.2623

Два параметра 0.7620 0.8117 0.8868 0.9557 1.0414

9. Логистическое Масштабный 1.1034 1.1957 1.3441 1.4864 1.6689

Сдвиг 0.7912 0.8373 0.9109 0.9813 1.0714

Два параметра 0.7060 0.7400 0.7964 0.8516 0.9234

10. Наибольшего Масштабный 1.1157 1.2933 1.3402 1.4689 1.6315

значения Сдвиг 0.9137 0.9775 1.0794 1.1765 1.3004

Два параметра 0.7705 0.8119 0.8808 0.9485 1.0367

П. Наименьшего Масштабный 1.1027 1.1897 1.3286 1.4612 1.6305

значения Сдвиг 0.9386 1.0048 1.1103 1.2103 1.3390

Два параметра 0.7655 0.8080 0.8758 0.9405 1.0233

12. Вейбулла Формы 1.0824 1.1659 1.3043 1.4396 1.6157

Масцггаба 0.9425 1.0064 1.1087 1.2065 1.3315

Два параметра 0.7634 0.8022 0.8658 0.9276 1.0074

Изменение предельного распределения статистики ^/¿¿Т2 в зависимости от вида анализируемого закона распределения при оценивании двух параметров закона иллюстрирует рис. 14.

Рис. 14. Эмпирические функции распределения статистики -у / 2 при оценивании по выборке всех параметров распределения: 1 - нормального; 2 - логистического; 3 - Лапласа; 4 - Коши; 0 - функция распределения Колмогорова

На рис. 15 представлены результаты моделирования законов распределения статистики Смирнова при справедливой гипотезе Н0, соответствующей нормальному распределению.

Рис. 15. Эмпирические функции распределения статистики Смирнова при различном количестве оцениваемых параметров нормального закона

I) табл. 5 сведены результаты идентификации предельных законов для

статистики критерия Смирнова, в табл. 6 и 7 для статистик со- и П Ми-зеса. Для этих статистик также сформированы таблицы значений верхних

процентных точек. Для статистики ш2 Мизеса процентные точки представлены в табл. 8.

Таблица 5

Предельные распределения статистики Смирнова___

№ п/п Распределение случайной величины Оценивался только насигтабныП параметр Оценивался только параметр сдвига Оценивалось два параметра

! Экспоненциальное 1пЫ(0.1585,0.7009)

2 Полуформальное 1пЫ(0.1289,0.7900)

3 Рэлея )л>)(0.)93б,0.7073)

4 Максвелла №N(0.2221,0.6794)

5 Лапласа у(0.3146,0.4654,0.0006) уО .7664,1.2256,0.0207) 7(1.8235,1.5342,0,0058)

6 Нормальное 7(0.8088,0.4549,0.0006) ^N(0.2471,0.5321) 1п1Ч1<0.1299,0.5331)

7 Логногсмальное 7(0.8391,0.46.11,0.0006) !пМ(0.4252,0.6481) ^N(0.1947,0.6781)

3 Коши ^(0.8570.0.5348,0.0006) 7(1.4215.0.9846,0.0006) 7(1.2931,1.2542,0.0006)

9 Логистическое 7(08164.0.4709,0.0) 1пМ(0.2684,0.4856) 1пМ(0 0569,0.4491)

10 Наибольшего значения 7(0.8507,0.4682,0 0006) ^N(0.2667,0.6821) 1049,0.5058)

п Наименьшего значения 1(0.8234,0.4592,0.0006) (пМ(0.2022,0.7015) Ш(0.|238,0.5024)

12 Ненбулла 1пЫ(0.16!5,0.7186) 7(0.8641,0.4351,0.0006) ** 7(2.3495,2.3003,0.2564)

44 - оценивался параметр формы распределения 2с:1булла.

Таблица 6

2

Предельные распределения статистики ю Мизеса

№ п/п Распределение случайной величины Оценивался только масштабный параметр Оценивался только параметр сдвига Оценивалось дза параметра

1 Экспоненциальное 1пЫ(-2.6028,0.6453)

~> Полунормальное Ш(-2.504б,0.6814)

3 Рэлея 1пЫ (-2.5743,0.6345)

4 Максвелла 1пМ(-2.6147,0.6361)

5 Лапласа 1гЛ(-2.2328,0.8302) Ш(-2.6890,0.5802) Ш(-2.9386,0.550С)

6 Нормальное 1пН(-2.2290,0.8284) ^N(-2.8102.0.5625) ЫЧ(-2.9685,0.5187)

7 Логнормальное 1пГЧ(-2.2334,0.7951) ^N(-2.6226,0.6972) 1п1Ч(-2.8233,0.6673)

8 Коши Ш(-2.3223,0.8554) Ш(-2.6269,0.6202) Ш(-2.9746,0.6493)

9 Логистическое №(-2.2460,0.8329) ^N(-2.8755,0.5612) 1пН(-3.1713,0.484П

10 Наибольшего значения 1пМ(-2.2043,0.8174) (-2.6070,0.6178) |^(-3.0093,0.5078)

11 Наименьшего значения ^N(-2.2246,0.8149) ^N(-2.5863,0.6469) lnN(-3.0200,0.5173)

12 13ей5улла ^N(■2.5875,0.6669) Ш(-2.2404,0.7910) " ^N(-3.0258,0.5058)

2

Предельные распределения статистики £1 Мизеса

№ п/п Распределение случайной величины Оценивался только масштабный параметр Оценивался только параметр сдвига Оценивалось два параметра

1 Экспоненциальное 1п1Ч(-0.7055,0.5690)

2 Полунормалыюе |пМ(-0.6931,0.5900)

3 Рэлея 1пК(-0.6&50,0.5541)

4 Максвелла 1п1Ч(-0.7051,0.5658)

5 Лапласа 1пМ(-0.4107,0.7170) ^N(-0.6654,0.5345) 1пЫ (-0.9378,0.4999)

6 Нормальное 1л1М(-0.4121,0.7206) №N(-0.8363,0.5096) 1пЫ(-1.0840,0.4509)

7 Логнормальное 1пМ(-0.4092,0.6938) 1п1Ч(-0.б827,0.6146) ^N(-0.9322,0.5819)

8 Кош» 1пК(-0.4326,0.7164) Ш(-0.6Ю2,0.5737) 1п!М(-0.8815,0.5905)

9 Логистическое 1пМ(-0.4243,0.7224) ^N(-0.8465,0.5109) 1пГ)(-1.1685,0.4239)

10 Наибольшего значения ^N(-0.3863,0.7097) |пМ(-0.6903,0.5534) 1пМ(-1.0809,0.4447)

II Наименьшего значения (-0.4007,0.7108) 1п1^(-0.6366,0.5667) 1п1М(-1.0986,0.4474)

12 Вейбулла 1п1М(-0.6908,0.5866) 1пМ(-0.4177,0.6840) ** 1п1Ч(-1.1044,0.4405)

Исследованы предельные распределения непараметрическнх статистик для выборок из гамма-распределения. В этом случае предельные распределения зависят от значений параметра формы, с ростом которого предельные распределения сходятся к предельным распределениям для нормального закона. Рассмотрено изменение предельных распределений непараметрических статистик при оценивании По выборке параметров смеси распределений.

В п. 4.5 рассматривается возможность применения классических методов проверки гипотез о согласии (в случае простой гипотезы) при частично группированных м интервальных наблюдениях. На основании полученных оценок сверху и снизу для статистик критериев, показано, что выводы становятся менее определенными при уменьшении точности наблюдений, причем эта неопределенность может увеличиваться с ростом количества наблюдений. Из результатов исследований следует практический вывод: если условия регистрации наблюдений позволяют проводить их измерение лишь с какой-то ограниченной точностью, то существует разумный объем выборки, превышение которого ничего не дает ни для точности оценивания параметров по такой выборке, ни для проверки гипотез о согласии.

В п. 4.6 идентификация закона распределения случайной величины рассматривается как многокритериальная задача. Если проверку гипотез о согласии осуществлять по ряду критериев, то из-за различия используемых . мер выводы по различным критериям при близких альтернативах довольно часто указывают на предпочтительность различных законов: решения задачи выбора распределения по различным критериям не совпадают. Поэтому задача идентификации закона распределения, наиболее хорошо описывающего наблюдаемую выборку, формулируется как естественная мно-

Процентные точки распределения статистики со Мизеса

№ п/п Распределение случайной величины Оцениваемые параметры Верхние процентные точки

0.15 0.1 0.05 0.025 0.01

1. Экспоненциальное Масштабный 0.1463 0.1752 0.2263 0.2785 0.3486

2. Полунормальное Масштабный 0.1730 0.2073 0.2673 0.3283 0.4098

3. Рэлея Масштабный 0.1518 0.1790 0.2253 0.2713 0.3319

4. Максвелла Масштабный 0.1463 0.1738 0.2208 0.2681 0.3306

5. Лапласа Масштабный 0.2702 0.3394 0.4594 0.5809 0.7427

Сдвиг 0.1249 0.1440 0.1770 0.2103 0.2546

Два параметра 0.0942 0.1103 0.1377 0.1651 0.2014

6. Нормальное Масштабный 0.2711 0.3414 0.4636 0.5871 0.7515

Сдвиг 0.1096 0.1270 0.1561 0.1847 0.2222

Два параметра 0.0874 0.0998 0.1208 0.1417 0.1691

7. Логнормальное Масштабный 0.2599 0.3235 0.4347 0.5476 0.6987

Сдвиг 0.1481 0.1902 0.2709 0.3580 0.4799

Два параметра 0.1134 0.1474 0.2154 0.2912 0.3996

8. (Сошн Масштабный 0.2565 0.3278 0.4545 0.5848 0.7604

Сдвиг 0.1416 0.1655 0.2С£0 0.2461 0.2987

Два параметра 0.1062 0.1285 0.1660 0.2031 0.2518

О Логистическое Масштабный 0.2648 0.3369 0.4667 0.Й012 0.7838

Сдвиг 0.1027 0.1200 0.1507 0.1822 0.2245

Два параметра 0.0692 0.0784 0.0943 0.1161 0.1354

10. Наибольшего значения Масштабный 0.2752 0.3413 0.4601 0.5829 0.7494

Сдвиг 0.1435 0.1697 0.2133 0.2560 0.3117

Два параметра 0.0340 0.0963 0.1172 0.1380 0.1654

II. Наименьшего значения Масштабный 0.2649 0.3324 0.4541 0.5804 0.7518

Сдвиг 0.1500 0.1774 0.2269 0.2785 о.зш

Два параметра 0.0848 0.0974 0.1182 0.1383 0.1644

12. ВсПбулла Формы 0.2521 0.3165 0.4292 0.5438 0.6971

Масштаба 0.1535 0.1855 0.2405 0.2956 0.3686

Два параметра 0.0833 0.0940 0.1125 0.1311 0.1557

гокритериальная задача принятия решения по простому компромиссному критерию (все критерии измеряются в единой шкапе) вида

тистики I -го критерия при проверке гипотезы о согласии с у'-м распределением. Этот подход использован в программной системе при реализации режима "Идентификация" и позволяет выбирать параметрическую модель по совокупности критериев согласия.

Глава 5. Программная система "Статистический анализ одномерных наблюдений случайных величии"

В п. 5.1 и 5.2 изложены назначение программной системы, перечень решаемых задач, используемые методы [18-20,28,30,34,36],

В разработанной и сопровождаемой программной системе статистического анализа данных все задачи рассматриваются с точки зрения наиболее общего представления экспериментальных, наблюдении в виде частично группированных выборок, частными случаями которых являются негруп-пированные, группированные и цензурированные выборки.

Система позволяет оценивать параметры законов распределения, про-

2

верять гипотезы о согласии по критериям % Пирсона, отношения правдо-

1 2

подобия, Колмогорова, Смирнова, ш и П Мизеса, идентифицировать закон распределения, выполнять группирование и сортировку выборки, имитировать выборки, подчиненные заданным законам распределения, отбраковывать аномальные с позиций данного закона наблюдения. Режим идентификации обеспечивает выбор из рассматриваемого множества закона, наиболее хорошо согласующегося с исходной выборкой.

Система позволяет вычислять ОМП параметров 26 наиболее часто используемых в приложениях непрерывных законов распределения: экспоненциального, полунормального, Рэлея, Максвелла, модуля многомерного нормального вектора (м = 1 + 9), Парето, Эрланга, Лапласа, нормального, логарифмически нормальных (1п и ¡¿), Коши, Вейбулла, Накагами, распределения минимального значения, распределения максимального значения, двойного показательного, гамма-распределения, логистического, бега-распределения 1-го рода, стандартного бета-распределения 2-го рода, бета-распределения 2-го рода, распределений ^¿-Джонсона, 5/-Джонсона и Би-Джонсона, экспоненциального семейства распределений. В большинстве случаев уравнения правдоподобия оказываются слишком сложными, чтобы можно было рассчитывать на их явное решение, а для группированных и

где Ю/ - весовой коэффициент 1-го критерия; ^ш,- = 1; К - множество за-

ы

конов распределений, согласие с которыми проверяется; Бу - значение ста-

частично группированных выборок их решение может быть найдено только в численном виде.

При решении всех задач статистического анализа используются полученные таблицы оптимальных граничных точек и соответствующих вероятностей. При проверке согласия с распределениями, для которых отсутствуют таблицы асимптотически оптимального группирования (это касается, например, таких законов, как гамма- и бета-распределения [2/7,15, 17]), решение задачи асимптотически оптимального группиров'Им* осуществляется непосредсгпенно в процессе проверки гипотез, что обеспечивает максимальную мощность критериев отношения правдоподобия и Пирсона.

При проверке сложных гипотез по критериям типа Колмогорова, Смирнова, со2 и Q2 Мизеса при вычислении вероятностен P{S > S } используются полученные приближенные предельные законы распределения соответствующих статисшк [37,39].

Использование в программной системе совокупности критериев согласия дает возможность принимать более обоснованные решения, а при противоречивости выводов по о (дельным критериям формировать компромиссный критерий и делать окончательный вынод с его учетом [20].

В целях вычисления робасгных опенок, устойчивых к наличию аномальных наблюдении и к отклонениям от предположений о виде закона распределения, предусмотрена возможность предварительного группирования данных с последующим определением оценок по группированным данным [28,41,42]. При этом возможны различные варианты группирования при оценивании а проверке гипотез о согласии: равномерное, равновероятное и асимптотически оптимальное. Использование процедуры группирования перед оцениванием нейтрализует влияние грубых ошибок измерении и обеспечивает их выделение.

Программное обеспечение может использоваться в любой прикладной области, связанной с регистрацией наблюдений: при испытаниях, на надежность, при контроле качества, при обработке измерительной информации и атк'етации измерительных приборов, при анализе результатов социологических обследовании, при обработке наблюдении физических, медицинских, биологических и других экспериментов. Программная система используется в учебном процессе, научных исследованиях, обработке данных различных приложений. Различные версии системы были поставлены в ряд вузов страны.

13 п. 5.3 описано алгоритмическое обеспечение программной системы [20]. Представлены полученные соотношения, необходимые при вычислении ОМП параметров по частично группированным данным для всех законов распределения, включенных в программную систему, приведены примеры применения. При вычислении ОМП скалярных параметров уравнения правдоподобия вида (2) решаются методом Ньютона. В случае вычисления ОМП векторного параметра методом сопряженных градиентов максимизируется логарифм функции правдоподобия (1). Приведены выражения для

элементов информационных матриц Фишера по группированным и частично группированным выборкам, которые используются при решении задачи асимптотически оптимального группирования данных.

В п. 5.4 рассмотрена имитация выборочных значений. Приведены соотношения, в соответствии с которыми генерируются псевдослучайные величины, подчиняющиеся тем законам распределения, которые включены в программную систему. В большинстве случаев генерация псевдослучайных величин осуществляется по методу обратных функции.

В п. 5.5 рассмотрены вопросы расширения множества параметрических моделей для описания реальных наблюдений за счет использования смесей усеченных и неусеченных законов распределений [22,24,27,29,33]. Вместе с возможностью обработки интервальных наблюдений [25,26,33,40] это является основной отличительной особенностью разрабатываемой обь-ектно-ориентированной версии программной системы [33,44].

В п. 5.6 в результате анализа выборок случайных величин, возникающих при обработке различных геодезических измерений, показано, что вследствие ограниченной точности измерительных систем и методов обработки реальные Наблюдения чаще, чем это считается, представляют собой группированные данные (поразрядно группированные). В то же время при статистическом анализе факт такой естественной группировки наблюдений обычно не учитывается. Далеко не всегда соответствуют действительности предположения о нормальном законе распределения различных поправок и ошибок измерений, так как обычно выборки реально наблюдаемых величин лучше описываются законами распределения с более тяжелыми хвостами.

Приложения. В приложении П1 представлены полученные таблицы асимптотически оптимального группирования (54 таблицы). В приложении П2 приведены построенные таблицы коэффициентов для оптимальных Ь-оценок параметров сдвига и масштаба по выборочным квантилям больших выборок (64 таблицы). В приложении ПЗ содержатся акты о внедрении результатов исследований.

Заключение

Созданная в результате проведенных исследований совокупность алгоритмического и программного обеспечения по обработке частично группированных и группированных данных, построенных статистических таблиц и разработанных методик поднимает на новый уровень решение задач статистического анализа, позволяет получать более надежные статистические выводы.

Основные результаты исследовании состоят в следующем:

1. Получены условия существования и единственности ОМП по частично группированным данным для ряда одномерных непрерывных распределений.

2. Для широкого ряда распределений при решении задач асимптотически оптимального (по Фишеру) группирования получены граничные точки интервалов в виде, инвариантном относительно параметров распределений, и на их основе сформированы таблицы асимптотически оптимального группирования.

3. На основании таблиц асимптотически оптимального группирования, предложены оценки, использующие выборочные квантили, соответствующие оптимальному группированию. Получены формулы для вычисления данных оценок.

4. Для законов распределения, зависящих только от параметров сдвига и масштаба, Предложены оптимальные ¿-оценки параметров сдвига и масштаба для больших выборок, опирающиеся на таблицы асимптотически оптимального группирования. Вычислены и сформированы таблицы коэффициентов для оптимальных ¿-оценок,

5. Показана связь мощности критериев согласия с информационной матрицей Фишера по группированным данным. Показано, что применение асимптотически оптимального группирования данных в критериях согласия отношения правдоподобия, %3 Пирсона и типа %2 обеспечивает максимальную мощность этих критериев при близких конкурирующих гипотезах.

6. Методами статистического моделирования и на основании анализа функции влияния опенок по негруппировшшым и группированным выборкам показано, что за редким исключением ОМП по негруппирован-ным наблюдениям являются неробастными. Напротив, ОМП по группированным данным и оптимальные оценки параметров сдвига и масштаба по выборочным квантилям устойчивы как к аномальным ошибкам измерений, так и к отклонениям наблюдаемого закона от предполагаемого.

7. Показано, что совокупность вычисления робастных оценок по группированным данным и применение асимптотически оптимального группирования в критериях согласия, используемые на этапе идентификации закона распределения по выборке, содержащей аномальные наблюдения, позволяют эффективно отбраковывать грубые ошибки измерений.

8. Экспериментально исследованы предельные распределения статистик критериев отношения правдоподобия и %2 Пирсона в зависимости от способа группирования. Показано, что в случае проверки сложной гипотезы и вычисления ОМП по негруппированным данным предельные распределения статистик критериев отношения правдоподобия и %2 Пирсона существенно зависят от способа группирования. При этом в случае применения асимптотически оптимального группирования и справедливой нулевой гипотезы предельные распределения статистик наиболее близки к х)ь-п-|-РаспРеделе||ию-

9. Методами статистического моделирования исследованы предельные распределения статистик непраметрических критериев Колмогорова,

2 2

Смирнова, со и О Мизеса при проверке сложных гипотез и вычислении оценок параметров по негруппированным данным. Для ряда законов распределения случайных величин идентифицированы законы распределения статистик непараметричеких критериев при различном количестве оцененных параметров, поезроены таблицы верхних процентных точек.

10.Разработана и сопровохздается программная система статистического анализа одномерных наблюдений случайных величин, в которой все задачи статистического анализа данных рассматриваются с точки зрения наиболее общего представления экспериментальных наблюдений в виде частично группированных выборок. Реализация в системе всех полученных результатов обеспечивает корректность статистических выводов на всех этапах анализа. Программная система используется в учебном процессе, научных исследованиях, обработке данных различных приложении.

Список литературы

1. Губинский А.И., Денисов В.И., Гречко Ю.П., Лемешко Б.Ю., Цой Е.Б. МегодическИе рекомендации по планированию экспериментов и обработке экспериментальных данных при исследовании надежности и качества функционирования систем "человек-техника". - Препринт / ЛЭТИ им. В.И.Ульянова (Ленина). - Л., 1978. - 46 с.

2. Денисов В.И,, Зачепа Г.Г., Лемешко Б.Ю. Об асимптотически оптимальном группировании при оценивании основного параметра гамма-распределения по группированным данным И Применение ЭВМ в оптимальном планировании и проектировании. - Новосибирск, 1974. - С. 5053.

3. Денисов В.П., Зачепа Г.Г., Лемешко Б.Ю. Об асимптотически оптимальном группировании при оценивании параметров по группированным данным / Новосиб. электротехн. ин-т. - Новосибирск, 1975. - 14 с. -Деп. в ВИНИТИ, № 3338-75.

4. Денисов В.П., Зачепа Г.Г., Лемешко Б.Ю. Об определении максимально допустимой ошибки округления при оценивании регрессионных коэффициентов по округленным наблюдениям / Новосиб. электротехн. ин-т.

- Новосибирск, 1975. - 9 с. - Деп. в ВИНИТИ, № 3339-75.

5. Денисов В.И., Зачепа Г.Г., Лемешко Б.Ю. Асимптотически оптимальное группирование при оценивании коэффициентов линейной регрессионной модели по группированным наблюдениям / Новосиб. электротехн. ин-т. - Новосибирск, 1976. - 9 с. - Деп. в ВИНИТИ, N 1756-76.

6. Денисов В.И.. Лемешко Б.Ю. О потерях информации при оптимальном группировании по ошибочному прогнозу / Новосиб. электротехн. ин-т.

- Новосибирск, 1978. - 16 с. - Деп. в ВИНИТИ, № 1779-78.

7. Денисов В.П., Лемешко Б.Ю. Асимптотически оптимальное группирование при оценивании масштабного параметра гамма-распределения по группированным данным / Нопоспб. электротехн. пн-т. - Новосибирск, 1078,- 19 с.-Деп. а ВИНИТИ, № 1778-78.

8. Денисов D.H.. Лемешко Б.Ю. Использование оптимального группирования для оценивания параметр»!» распределения при определении характеристик параметров устройств // Исследования и расчеты надежности энергосистем на этапах проектирования и эксплуатации. -Фрунзе, 1978. - С. 72-75.

9. Денисов ВН., Лемешко Б.Ю. Оценивание параметров распределения Коши по частично группированным выборкам. - Деп. г> ВИНИТИ, № 249-79. - 1979. -22 с.

10. Денисов В.П., Лемешко Б.Ю. Оптимальное группирование при обработке экспериментальных данных И Измерительные информационные ~ системы. - Новосибирск, 1979. - С. 5-14

П. Денисов В.П., Лемешко Б.Ю. Вычисление оценок параметров распределений с использованием таблиц асимптотически оптимального группирования // Применение ЭВМ в оптимальном планировании и проектировании. - Новосибирск, 198!. -С. 3-17.

•2. Денисов В.II., Лемешко Б.10., Цой Е.Б. Оптимальное группирование, оценка параметров и планирований регрессионных экспериментов: В 2 ч. - Новосибирск: Изд-р.о НГТУ, 1993. - 347 с.

13. Информационно-управляющие человеко-машинные системы: Исследование, проектирование, испытания: Справочник I В.Г. Евграфов, А.II. Гупинский, Б.Ю. Лемешко, Е.Б. Цой и др. - М; Машиностроение, 1993. -528 с.

i-i. Лемешко Б.Ю. Об оценивании параметров распределений по группнро-Н-1ННЫМ наблюдениям // Вопросы кибернетики. - М., 1977. - Вып. 30. -С. 1:0-96.

!5. Лемешко Б.Ю. Об оценивании по частично группированным выборкам параметров распределения Эрлаига Ц Применение ЭВМ в оптимальном планировании и проектировании. - Новосибирск, 1982. - С. 90-93.

IfV Лемешко Б.Ю., Панфилов А.Г., Панфилова Л.В.. Асимптотически оптимальное группирование данных при анализе наблюдений, распределенных по законам Лапласа и двойного показательного II Математическое обеспечение стохастических и детерминированных моделей. - Новосибирск, 1986.-С. 15-23.

17. Лемешко Б.Ю. К вопросу решения задачи асимптотически оптимального группирования данных при обработке наблюдений, подчиняющихся бета-распределению И Машинные методы оптимизации, моделирования и планирования эксперимента. - Новосибирск, 1988. - С. 134138.

18. Лемешко Б.Ю. Программная система "Оценивание параметров распределений" // Тезисы докладов Российской НТК "Информатика и проблемы телекоммуникаций", - Новосибирск, 1994. - С. 128-129.

19. Лемешко Б.Ю. Программная система статистического анализа "Оценивание параметров распределений" // Труды второй международной конференции!! "Актуальные проблемы электронного приборостроения АПЭП-94", - Новосибирск, 1994. - Т.2. - С. 46-51.

20. Лемешко Б.Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. - Новосибирск: Изд-во НГТУ, 1995. - 125 с.

21. Лемешко Б.Ю., Постовалов С.И. Проверка непараметрическнх гипотез по группированным данным II Материалы международной НТК "Информатика и проблемы телекоммуникаций". - Новосибирск, 1995. - Т.1. - С. 63-65.

22. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ смесей распределений по группированным данным II Материалы международной НТК "Информатика и проблемы телекоммуникаций". - Новосибирск, 1995.-Т.1.-С. 83-85.

23. Лемешко Б.Ю. Корреляционный анализ многомерных наблюдений случайных величин: Программная система. - Новосибирск: Изд-во НГТУ,

1995. - 39 с.

24. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ одномерных наблюдений по частично группированным данным И Изв. вузов. Физика. - Томск, 1995. - № 9. - С. 39-45.

25. Лемешко Б.Ю., Постовалов С.Н. К использованию непараметрических критериев по частично группированным данным // Сб. научных трудов НГТУ. - Новосибирск: Изд-во НГТУ, 1995. - № 2. - С. 21-30.

26. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ наблюдений, имеющих интервальное представление // Сб. научных трудов НГТУ. -Новосибирск: Изд-во НГТУ, 1996. - № 1. - С. 3-12.

27. Лемешко Б.Ю., Постовалов С.Н. Система статистического анализа смесей и усеченных распределений случайных величин // Тезисы докладов Российской НТК "Информатика и проблемы телекоммуникаций". - Новосибирск, 1996. - Т.2. - С. 38-39.

28. Лемешко Б.Ю., Постовалов С.Н. Вопросы обработки выборок одномерных случайных величин II Научный вестник НГТУ. - Новосибирск,

1996. - № 2. - С. 3-24.

29. Лемешко Б.Ю., Постовалов С.Н. Статистический анализ смесей распределений по частично группированным данным И Сб. научных трудов НГТУ. - Новосибирск: Изд-во НГТУ, 1995. - № 1. - С. 25-31.

30. Лемешко Б.Ю., Постовалов С.Н. Система статистической обработки случайных наблюдений // Тезисы докладов международной НТК "Информационные технологии в моделировании и управлении". - С.-Петербург, 1996.-С. 155-159.

31. Лемешко Б.Ю. Оптимальные оценки параметров сдвига и масштаба по выборочным квантилям для больших выборок II Труды третьей МНТК "Актуальные проблемы электронного приборостроения АПЭП-96". -Новосибирск, 1996. - Т. 6. - Ч.I. - С.37-44.

52. Лемешко Б.Ю., Постовалов СЛ. Робастныс алгоритмы оценивания и параметрические методы отбраковки аномальных наблюдений II Тр. третьей МНТК "Актуальные проблемы электронного приборостроения АПЭП-96". - Новосибирск, 1996. - Т. 6. - 4.1. - С.45-49.

33. Лемешко Б.Ю., Постовшюв С.Ц. Программное обеспечение статистического анализа смесей случайных величин, представленных частично группированными и интервальными выборками II Тр. третьей МНТК "Актуальные проблемы электронного приборостроения АПЭП-96". • Новосибирск, 1996. - Т. 6. - Ч. 1. - С.50-53.

34. Лемешко Б.10., Постовалов С.Н. Статистический анализ одномерных непрерывных распределений случайных величин II Тезисы докладов второго сибирского конгресса по прикладной и индустриальной математике (ИНПРИМ-96). - Новосибирск, 1996. - С. 178-179.

35. Лемешко Б.10.. Постовалов С.Н. К вопросу о робастности оценок по группированным данным // Сб. научных трудов НГТУ. - Новосибирск: Изд-во НГТУ. - 1996. - N9 2(4). - С. 9-18.

36. Лемешко Б.Ю., Постоеспон С.Н. Программное обеспечение задач статистического анализа одномерных непрерывгых случайных величин II Материалы международной научно-методической конференции "Новые информационные технологии в университетском образовании". -Новосибирск, НИИМИОО, 1997. - С. 44-45.

37. Лемешко Б.Ю., Постовалов С.Н. О распределениях статистик непара-метрнческих. критериев при потере свойства "свободы от распределения" // Мат. международной НТК "Информатика и проблемы телекоммуникаций". - Новосибирск, 1997. - С. 117-120.

38. Лемешко Б.Ю., Постовалов С.Н. О влиянии способа группирования данных на распределения статистик Пирсона и отношения правдоподобия // Материалы международной НТК "Информатика и проблемы телекоммуникаций". - Новосибирск, 1997. - С. 120-123.

39. Лемешко Б.Ю., Постовалов С.Н. К вопросу о распределениях статистик непараметрических критериев согласия II Сб. научных трудов НГТУ. -Новосибирск: Изд-во НГТУ, 1997. 1(6). - С. 23-32.

40. Лемешко Б.Ю., Постовалов С.Н. О решении задач статистического анализа интервальных наблюдений II Вычислительные технологии. - 1997. -Т.2. -№ 1. - С. 28-36.

41. Лемешко Б.Ю. Робастные методы оценивания и отбраковка аномальных измерений II Заводская лаборатория. - 1997. - Т.63. - № 5. - С. 43-49.

42. Лемешко Б.Ю. Группирование наблюдений как способ получения робастных оценок // Надежность и контроль качества. - 1997. - № 5. - С. 26-35.

43. Лемешко Б.Ю. Асимптотически оптимальное группирование наблюдений - это обеспечение максимальной мощности критериев II Надежность и контроль качества. - 1997. - № 8. - С. 3-14.

44. Объектно-ориентированная программная система статистического анализа: Таблицы коэффициентов для оптимальных ¿-оценок параметров сдвига и масштаба по выборочным квантилям больших выборок и таб-

лццм асимптотически оптимального группирования наблюдений II Отчет по НИР, НГТУ, 1996. № roc. per. 01.9.70 000550; Инв. № 02.9.70 000190. Научн. рук. Лемешко Б.Ю.-129 с.

45. Denisov V.l., Lemeshko B.Yu. Optimal grouping in Estimation and Tests of Goodnes-of-fit Hypotheses II Wissenschaftliche Schriftenreihe der Tech-nishen Universität Karl-Matx-Stadt. - 1989. - № 10. - "Statistics Гог grouped Observations". - P. 63-81.

46. Denisov V.l., Lemeshko B.Yu., Tsol E.B. Estimation of unknown parameters of onedlmensional distributions with partially grouped data // Wissenschaftliche Schriftenreihe del- Technisheil Universität Karl-Marx-Stadt. -1989. - № 10. - "Statistics Гог grouped Observations". - P. 6-21.

Подписано в печать 18.08.97 г. Формат 84 х 60 х 1/16 Бумага оберточная. Тираж 100 экз. Уч.-изд. л. 3. Печ. л. 3.

Заказ № 356

Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К.Маркса, 20